Informatica ETL: Przewodnik dla początkujących do zrozumienia ETL przy użyciu Informatica PowerCenter



Zrozumienie koncepcji Informatica ETL i różnych etapów procesu ETL oraz przećwicz przypadek użycia dotyczący bazy danych pracowników.

Celem Informatica ETL jest zapewnienie użytkownikom nie tylko procesu wyodrębniania danych z systemów źródłowych i przenoszenia ich do hurtowni danych, ale także udostępnienie użytkownikom wspólnej platformy do integracji ich danych z różnych platform i aplikacji.Doprowadziło to do wzrostu popytu na .Zanim porozmawiamy o Informatica ETL, najpierw zrozumiemy, dlaczego potrzebujemy ETL.

Dlaczego potrzebujemy ETL?

Każda firmate dni muszą przetwarzają duże zbiory danych z różnych źródeł. Dane te muszą być przetwarzane, aby zapewnić wnikliwe informacje do podejmowania decyzji biznesowych. Ale dość często takie dane mają następujące wyzwania:





  • Duże firmy generują dużo danych, a tak ogromne porcje danych mogą mieć dowolny format. Będą dostępne w wielu bazach danych i wielu nieuporządkowanych plikach.
  • Dane te muszą być gromadzone, łączone, porównywane i opracowywane jako spójna całość. Ale różne bazy danych nie komunikują się dobrze!
  • Wiele organizacji wdrożyło interfejsy między tymi bazami danych, ale stanęły przed następującymi wyzwaniami:
    • Każda para baz danych wymaga unikalnego interfejsu.
    • W przypadku zmiany jednej bazy danych może być konieczne zaktualizowanie wielu interfejsów.

Poniżej możesz zobaczyć różne bazy danych organizacji i ich interakcje:

Różne zbiory danych organizacji - Informatica - ETL - Edureka

Różne bazy danych używane przez różne działy organizacji



Różne interakcje baz danych w organizacji

Jak widać powyżej, organizacja może mieć różne bazy danych w swoich różnych działach, a interakcja między nimi staje się trudna do zaimplementowania, ponieważ trzeba dla nich stworzyć różne interfejsy interakcji. Aby sprostać tym wyzwaniom, najlepszym możliwym rozwiązaniem jest zastosowanie koncepcji Integracja danych co umożliwiłoby komunikację między danymi z różnych baz danych i formatów. Poniższy rysunek pomaga nam zrozumieć, w jaki sposób narzędzie do integracji danych staje się powszechnym interfejsem do komunikacji między różnymi bazami danych.

Różne bazy danych połączone za pomocą integracji danych



Istnieją jednak różne procesy umożliwiające integrację danych. Spośród tych procesów ETL jest najbardziej optymalnym, wydajnym i niezawodnym procesem. Dzięki ETL użytkownik może nie tylko pobierać dane z różnych źródeł, ale może również wykonywać różne operacje na danych przed ich przechowywaniem w docelowym miejscu.

Wśród różnych narzędzi ETL dostępnych na rynku, Informatica PowerCenter jest wiodącą na rynku platformą integracji danych. Po przetestowaniu na prawie 500 000 kombinacji platform i aplikacji Informatica PowerCenter współpracuje z najszerszym możliwym zakresem różnych standardów, systemów i aplikacji. Przyjrzyjmy się teraz krokom związanym z procesem Informatica ETL.

Informatyka ETL | Architektura Informatica | Samouczek Informatica PowerCenter | Edureka

Ten samouczek Edureka Informatica pomaga szczegółowo zrozumieć podstawy ETL przy użyciu Informatica Powercenter.

Kroki w procesie Informatica ETL:

Zanim przejdziemy do różnych etapów związanych z Informatica ETL, przyjrzyjmy się ETL. W ETL ekstrakcja polega na tym, że dane są wyodrębniane z jednorodnych lub heterogenicznych źródeł danych, transformacja, w której dane są przekształcane w celu przechowywania w odpowiednim formacie lub strukturze w celu wykonywania zapytań i analiz, oraz ładowanie, gdy dane są ładowane do docelowej bazy danych, operacyjny magazyn danych, hurtownia danych lub hurtownia danych. Poniższy obraz pomoże Ci zrozumieć, jak przebiega proces Informatica ETL.

Przegląd procesu ETL

Jak widać powyżej, Informatica PowerCenter może ładować dane z różnych źródeł i przechowywać je w jednej hurtowni danych. Przyjrzyjmy się teraz krokom związanym z procesem Informatica ETL.

Proces ETL Informatica składa się głównie z 4 kroków, przyjrzyjmy się im teraz dogłębnie:

  1. Wyodrębnij lub przechwyć
  2. Szoruj lub wyczyść
  3. Przekształcać
  4. Obciążenie i indeks

1. Wyodrębnij lub przechwyć: Jak widać na poniższym obrazku, przechwytywanie lub wyodrębnianie jest pierwszym krokiem procesu Informatica ETL.Jest to proces uzyskiwania migawki wybranego podzbioru danych ze źródła, który należy załadować do hurtowni danych. Migawka to statyczny widok danych w bazie danych tylko do odczytu. Proces wyodrębniania może być dwojakiego rodzaju:

  • Pełny wyciąg: Dane są wyodrębniane w całości z systemu źródłowego i nie ma potrzeby śledzenia zmian w źródle danych od ostatniej pomyślnej ekstrakcji.
  • Ekstrakt przyrostowy: Spowoduje to uchwycenie tylko zmian, które zaszły od ostatniego pełnego wyodrębnienia.

Faza 1: Wydobycie lub Schwytanie

2. Szoruj lub czyść: Jest to proces czyszczenia danych pochodzących ze źródła przy użyciu różnych technik rozpoznawania wzorców i sztucznej inteligencji w celu podniesienia jakości danych. Zwykle błędy, takie jak literówki, błędne daty, nieprawidłowe użycie pól, niezgodne adresy, brakujące dane, zduplikowane dane, niespójności sąpodświetlony, a następnie poprawiony lub usuniętyna tym etapie. Na tym etapie wykonywane są również operacje, takie jak dekodowanie, ponowne formatowanie, oznaczanie czasu, konwersja, generowanie kluczy, łączenie, wykrywanie / rejestrowanie błędów, lokalizowanie brakujących danych. Jak widać na poniższym obrazku, jest to drugi etap procesu Informatica ETL.

Faza 2: Czyszczenie lub czyszczenie danych

3. Przekształć: Jak widać na poniższym obrazku, jest to trzeci i najważniejszy krok procesu Informatica ETL. Transformacje to operacja konwersji danych z formatu systemu źródłowego do szkieletu Hurtowni Danych. Transformacja jest zasadniczo używana do reprezentowania zestawu reguł, które definiują przepływ danych i sposób ładowania danych do celów. Aby dowiedzieć się więcej o Transformacji, sprawdź Transformacje w informatyce Blog.

Faza 3: Transformacja

4. Obciążenie i indeks: To ostatni krok procesu Informatica ETL, jak pokazano na poniższym obrazku. Na tym etapie transformowane dane umieszczamy w hurtowni i tworzymy indeksy dla danych. Istnieją dwa główne typy ładowania danych w zależności od procesu ładowania:

  • Pełne obciążenie lub ładunek masowy :Proces ładowania danych, gdy robimy to po raz pierwszy. Zadanie wyodrębnia całą ilość danych z tabeli źródłowej i ładuje do docelowej hurtowni danych po zastosowaniu wymaganych transformacji. Będzie to jednorazowe zadanie, po którym same zmiany zostaną przechwycone jako część ekstrakcji przyrostowej.
  • Ładowanie przyrostowe lub ładowanie odświeżane : Same zmodyfikowane dane zostaną zaktualizowane w miejscu docelowym, po czym nastąpi pełne ładowanie. Zmiany zostaną przechwycone przez porównanie daty utworzenia lub modyfikacji z datą ostatniego uruchomienia zadania.Zmodyfikowane dane samodzielnie pobrane ze źródła i zostaną zaktualizowane w miejscu docelowym bez wpływu na istniejące dane.

Faza 4: obciążenie i indeks

Jeśli zrozumiałeś proces Informatica ETL, możemy teraz lepiej ocenić, dlaczego Informatica jest najlepszym rozwiązaniem w takich przypadkach.

Cechy Informatica ETL:

Informatica dostarczyła nam wsparcie dla wszystkich operacji integracji danych i ETL Informatica PowerCenter . Zobaczmy teraz kilka kluczowych cech Informatica ETL:

  • Zapewnia możliwość określenia dużej liczby reguł transformacji za pomocą graficznego interfejsu użytkownika.
  • Generuj programy do przekształcania danych.
  • Obsługuj wiele źródeł danych.
  • Obsługuje operacje ekstrakcji, czyszczenia, agregacji, reorganizacji, transformacji i ładowania danych.
  • Automatycznie generuje programy do ekstrakcji danych.
  • Szybkie ładowanie docelowych hurtowni danych.

Poniżej przedstawiono niektóre typowe scenariusze, w których używany jest Informatica PowerCenter:

  1. Migracja danych:

Firma zakupiła nową aplikację rozrachunków z dostawcami dla swojego działu księgowości. PowerCenter może przenieść istniejące dane konta do nowej aplikacji. Poniższy rysunek pomoże zrozumieć, w jaki sposób można używać Informatica PowerCenter do migracji danych. Informatica PowerCenter może z łatwością zachować dane do celów podatkowych, księgowych i innych prawnie nakazanych celów podczas procesu migracji danych.

Migracja danych ze starszej aplikacji księgowej do nowej aplikacji

  1. Integracja aplikacji:

Powiedzmy, że Firma-A kupuje Firmę-B. Tak więc, aby osiągnąć korzyści z konsolidacji, system rozliczeniowy Firmy-B musi zostać zintegrowany z systemem rozliczeniowym Firmy-A, co można łatwo zrobić za pomocą Informatica PowerCenter. Poniższy rysunek pomoże Ci zrozumieć, w jaki sposób można wykorzystać Informatica PowerCenter do integracji aplikacji między firmami.

Integracja aplikacji między firmami

  1. Magazyn danych

Typowe czynności wymagane w hurtowniach danych to:

  • Łączenie informacji z wielu źródeł razem do analizy.
  • Przenoszenie danych z wielu baz danych do hurtowni danych.

Wszystkie powyższe typowe przypadki można łatwo wykonać za pomocą Informatica PowerCenter. Poniżej można zobaczyć, że Informatica PowerCenter jest używany do łączenia danych z różnych rodzajów baz danych, takich jak Oracle, SalesForce itp., I przenoszenia ich do wspólnej hurtowni danych utworzonej przez Informatica PowerCenter.

Dane Z różnych baz danych zintegrowanych ze wspólną hurtownią danych

  1. Oprogramowanie pośredniczące

Załóżmy, że organizacja handlu detalicznego wykorzystuje SAP R3 do swoich aplikacji detalicznych i SAP BW jako hurtownię danych. Bezpośrednia komunikacja między tymi dwoma aplikacjami nie jest możliwa ze względu na brak interfejsu komunikacyjnego. Jednak Informatica PowerCenter może być używany jako oprogramowanie pośredniczące między tymi dwiema aplikacjami. Na poniższym obrazku widać architekturę wykorzystania Informatica PowerCenter jako oprogramowania pośredniego między SAP R / 3 a SAP BW. Aplikacje z SAP R / 3 przekazują swoje dane do struktury ABAP, która następnie przekazuje je doSAP Point of Sale (POS) i SAPRachunki za usługi (BOS). Informatica PowerCenter pomaga w transferze danych z tych usług do SAP Business Warehouse (BW).

Informatica PowerCenter jako oprogramowanie pośrednie w architekturze SAP Retail

Chociaż widziałeś już kilka kluczowych funkcji i typowych scenariuszy Informatica ETL, mam nadzieję, że rozumiesz, dlaczego Informatica PowerCenter jest najlepszym narzędziem do procesu ETL. Zobaczmy teraz przypadek użycia Informatica ETL.

Przykład zastosowania: połączenie dwóch tabel w celu uzyskania jednej szczegółowej tabeli

Powiedzmy, że chcesz zapewnić swoim pracownikom transport zgodny z działami, ponieważ działy znajdują się w różnych lokalizacjach. Aby to zrobić, najpierw musisz wiedzieć, do którego działu należy każdy pracownik i gdzie się znajduje. Jednak dane pracowników są przechowywane w różnych tabelach i musisz połączyć dane działu z istniejącą bazą danych ze szczegółami wszystkich pracowników. Aby to zrobić, najpierw załadujemy obie tabele do Informatica PowerCenter, przeprowadzimy transformację kwalifikatora źródła na danych i ostatecznie załadujemy szczegóły do ​​docelowej bazy danych.Zacznijmy:

Krok 1 : Otwórz PowerCenter Designer.

Poniżej znajduje się strona główna Informatica PowerCenter Designer.

Połączmy się teraz z repozytorium. Jeśli nie skonfigurowałeś repozytoriów lub masz jakiekolwiek problemy, możesz sprawdzić nasze Blog.

Krok 2: Kliknij prawym przyciskiem myszy repozytorium i wybierz opcję połączenia.

Po kliknięciu opcji połączenia zostanie wyświetlony poniższy ekran z pytaniem o nazwę użytkownika i hasło do repozytorium.

Po połączeniu się z repozytorium musisz otworzyć folder roboczy, jak pokazano poniżej:

Zostaniesz poproszony o nazwę twojego mapowania. Podaj nazwę swojego mapowania i kliknij OK (nazwałem go jako m-PRACOWNIK ).

Krok 3: Załadujmy teraz tabele z bazy danych, zacznijmy od połączenia się z bazą danych. Aby to zrobić, wybierz kartę Źródła i opcję Importuj z bazy danych, jak pokazano poniżej:

Po kliknięciu opcji Importuj z bazy danych zostanie wyświetlony poniższy ekran z pytaniem o szczegóły dotyczące bazy danych oraz jej nazwę użytkownika i hasło do połączenia (używam bazy danych Oracle i użytkownika HR).

Kliknij Połącz, aby połączyć się z bazą danych.

Krok 4: Ponieważ chcę dołączyć do PRACOWNIKÓW i DEPARTAMENT tabele, wybiorę je i kliknę OK.
Źródła będą widoczne w obszarze roboczym projektanta mapowania, jak pokazano poniżej.

Krok 5: Podobnie załaduj tabelę docelową do mapowania.

Krok 6: Teraz połączmy kwalifikator źródła i tabelę docelową. Kliknij prawym przyciskiem myszy dowolne puste miejsce w obszarze roboczym i wybierz Autolink, jak pokazano poniżej:

Poniżej znajduje się mapowanie połączone przez Autolink.

Krok 7: Ponieważ musimy połączyć obie tabele z kwalifikatorem źródła, wybierz kolumny tabeli działu i upuść ją w kwalifikatorze źródła, jak pokazano poniżej:

Upuść wartości kolumn do kwalifikatora źródła SQ_EMPLOYEES .

Poniżej znajduje się zaktualizowany kwalifikator źródła.

Krok 8: Kliknij dwukrotnie kwalifikator źródła, aby edytować transformację.

Pojawi się okienko Edytuj transformację, jak pokazano poniżej. Kliknij kartę Właściwości.

Krok 9: Na karcie Właściwości kliknij pole Wartość w wierszu Łączenie zdefiniowane przez użytkownika.

Otrzymasz następujący edytor SQL:

Krok 10: Wchodzić EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID jako warunek połączenia obu tabel w polu SQL i kliknij OK.

Krok 11: Teraz kliknij wiersz Zapytanie SQL, aby wygenerować kod SQL do dołączenia, jak pokazano poniżej:

Otrzymasz następujący edytor SQL, kliknij opcję Generuj SQL.

Poniższy kod SQL zostanie wygenerowany dla warunku, który określiliśmy w poprzednim kroku. Kliknij OK.

Krok 12: Kliknij Zastosuj i OK.

Poniżej znajduje się ukończone mapowanie.

Zakończyliśmy projektowanie sposobu przesyłania danych ze źródła do celu. Jednak rzeczywisty transfer danych jeszcze się nie wydarzył i do tego musimy użyć PowerCenter Workflow Design. Wykonanie przepływu pracy doprowadzi do przeniesienia danych ze źródła do celu. Aby dowiedzieć się więcej o przepływie pracy, sprawdź nasze Kurs Informatica: Przepływ pracy Blog

Krok 13: Let us teraz uruchom Menedżera przepływu pracy, klikając ikonę W, jak pokazano poniżej:

Poniżej znajduje się strona główna projektanta przepływu pracy.

Krok 14: Utwórzmy teraz nowy przepływ pracy dla naszego mapowania. Kliknij kartę Workflow i wybierz opcję Create Option.

Otrzymasz poniższe wyskakujące okienko. Podaj nazwę swojego przepływu pracy i kliknij OK.

Krok 15 : Po utworzeniu przepływu pracy otrzymujemy ikonę Start w obszarze roboczym Menedżera przepływu pracy.

Dodajmy teraz nową sesję do obszaru roboczego, jak pokazano poniżej, klikając ikonę sesji i klikając obszar roboczy:

Kliknij obszar roboczy, aby umieścić ikonę sesji.

Krok 16: Podczas dodawania sesji musisz wybrać Mapowanie, które utworzyłeś i zapisałeś w powyższych krokach. (Zapisałem go jako m-PRACOWNIK).

Poniżej znajduje się obszar roboczy po dodaniu ikony sesji.

Krok 17 : Teraz, gdy utworzyłeś nową sesję, musimy połączyć ją z zadaniem początkowym. Możemy to zrobić, klikając ikonę Połącz zadanie, jak pokazano poniżej:

Kliknij najpierw ikonę Start, a następnie ikonę Sesja, aby ustanowić łącze.

Poniżej znajduje się połączony przepływ pracy.

przekonwertować double na int

Krok 18: Po zakończeniu projektowania zacznijmy pracę. Kliknij kartę Workflow i wybierz opcję Start Workflow.

Menedżer przepływu pracy uruchamia Monitor przepływu pracy.

Krok 19 : Po uruchomieniu przepływu pracy Menedżer przepływu pracy uruchamia się automatycznieipozwala monitorować wykonywanie pracy. Poniżej możesz zobaczyć, jak Monitor przepływu pracy pokazuje stan przepływu pracy.

Krok 20: Aby sprawdzić stan przepływu pracy, kliknij prawym przyciskiem myszy przepływ pracy i wybierz Pobierz właściwości uruchomienia, jak pokazano poniżej:

Wybierz zakładkę Source / Target Statistics.

Poniżej możesz zobaczyć liczbę wierszy, które zostały przeniesione między źródłem a celem po transformacji.

Możesz również zweryfikować swój wynik, sprawdzając tabelę docelową, jak pokazano poniżej.

Mam nadzieję, że ten blog Informatica ETL był pomocny w zrozumieniu koncepcji ETL przy użyciu Informatica i wzbudził wystarczające zainteresowanie, aby dowiedzieć się więcej o Informatica.

Jeśli uznasz ten blog za pomocny, możesz również zapoznać się z naszą serią blogów Samouczek Informatica , Samouczek Informatica: Understanding Informatica „Inside Out” i Transformacje Informatica: serce i dusza Informatica PowerCenter . Jeśli szukasz szczegółów na temat certyfikacji Informatica, możesz zajrzeć na naszego bloga Certyfikacja Informatica: wszystko, co trzeba wiedzieć .

Jeśli już zdecydowałeś się rozpocząć karierę zawodową w Informatice, polecam zajrzeć do naszego strona kursu. Szkolenie Informatica Certification w Edureka uczyni Cię ekspertem w dziedzinie Informatica poprzez sesje prowadzone na żywo przez instruktora i praktyczne szkolenie z wykorzystaniem rzeczywistych przypadków użycia.