Cloudera Hadoop: Pierwsze kroki z CDH Distribution



Ten blog Edureka w samouczku Cloudera Hadoop zawiera pełny wgląd w różne komponenty Cloudera, takie jak Cloudera Manager, Parcels, Hue itp.

Wraz z rosnącym zapotrzebowaniem na Big Data, a Apache Hadoop jestwserce rewolucji zmieniło sposób, w jaki organizujemy i obliczamy dane. Potrzeba dostosowania Hadoop przez organizacje do ich potrzeb biznesowych spowodowała pojawienie się dystrybucji komercyjnych. Komercyjne dystrybucje Hadoop są zwykle wyposażone w funkcje zaprojektowane w celu usprawnienia wdrażania Hadoop. Cloudera Hadoop Distribution zapewnia skalowalną, elastyczną, zintegrowaną platformę, która ułatwia zarządzanie szybko rosnącymi wolumenami i odmianami danych w przedsiębiorstwie.

Na tym blogu dotyczącym Cloudera Hadoop Distribution będziemy omawiać następujące tematy:





Cloudera Hadoop: Wprowadzenie do Hadoop

Hadoop to platforma open source Apache, która przechowuje i przetwarza duże zbiory danych w środowisku rozproszonymPrzezklaster przy użyciu prostych modeli programowania. Hadoop zapewnia równoległe obliczenia na szczycie rozproszonego magazynu.Aby dowiedzieć się więcej o platformie Hadoop, zapoznaj się z możesz się do tego odnieść

Po tym krótkim wprowadzeniu do Hadoop pozwolę sobie teraz wyjaśnić różne typy dystrybucji Hadoop.



Cloudera Hadoop: dystrybucje Hadoop

Ponieważ Apache Hadoop jest oprogramowaniem typu open source, wiele firm opracowało dystrybucje wykraczające poza oryginalny kod open source. Jest to bardzo podobne do dystrybucji Linuksa, takich jak RedHat, Fedora i Ubuntu. Każda z dystrybucji Linuksa obsługuje własne funkcje i funkcje, takie jak przyjazny dla użytkownika interfejs GUI w Ubuntu. Podobnie, czerwony kapelusz jest popularny w przedsiębiorstwach, ponieważ oferuje wsparcie, a także zapewnia ideologię umożliwiającą dowolne wprowadzanie zmian w dowolnej części systemu. Red Hat zwalnia Cię z problemów ze zgodnością oprogramowania. Zwykle jest to duży problem dla użytkownikówktórzy przechodzą z systemu Windows.

Podobnie, istnieją 3 główne typy dystrybucji Hadoop, które mają własny zestaw funkcji i funkcji i są zbudowane w oparciu o podstawowy HDFS.

Cloudera vs MapR vs Hortonworks

Rys .: MapR vs Hortonworks vs Cloudera

Rys .: MapR vs Hortonworks vs Cloudera



Dystrybucja Cloudera Hadoop

Cloudera jest rynkowym trendem w przestrzeni Hadoop i jako pierwsza udostępniła komercyjną dystrybucję Hadoop. Oferuje usługi doradcze w celu wypełnienia luki między - „co zapewnia Apache Hadoop” a „czego potrzebują organizacje”.

Cloudera Distribution to:

  • Szybki dla biznesu : Od analityki po naukę danych i wszystko pomiędzy, Cloudera zapewnia wydajność, której potrzebujesz, aby uwolnić potencjał nieograniczonych danych.
  • Sprawia, że ​​Hadoop jest łatwy w zarządzaniu : Dzięki Cloudera Manager zautomatyzowane kreatory umożliwiają szybkie wdrożenie klastra, niezależnie od skali lub środowiska wdrażania.
  • Bezpieczeństwo bez kompromisów: Spełnia rygorystyczne wymagania w zakresie bezpieczeństwa danych i zgodności bez poświęcania sprawności biznesowej. Cloudera zapewnia zintegrowane podejście do bezpieczeństwa danych i zarządzania.

Horton-Works Dystrybucja

Platforma danych Horton-Works (HDP) jest całkowicie otwartą platformą zaprojektowaną do manewrowania danymi z wielu źródeł i formatów. Platforma zawiera różne narzędzia Hadoop, takie jak rozproszony system plików Hadoop (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive i dodatkowe składniki.

Obsługuje również funkcje takie jak:

  • HDP tworzy Hive szybciej poprzez nowy projekt Stinger.
  • HDP pozwala uniknąć uzależnienia od dostawcy poprzez zobowiązanie się do rozwidlonej wersji Hadoop.
  • HDP koncentruje się na ulepszaniu użyteczność platformy Hadoop.

Dystrybucja MapR

MapR to zorientowany na platformę dostawca rozwiązań Hadoop, podobnie jak HortonWorks i Cloudera. MapR integruje swój własny system baz danych, znany jako MapR-DB, jednocześnie oferując usługi dystrybucji Hadoop. Uważa się, że MapR-DB jest cztery do siedmiu razy szybsze niż standardowa baza danych Hadoop, tj. HBase, która jest wykonywana w innych dystrybucjach.

Ma swoje intrygujące cechy, takie jak:

  • Jest to jedyna dystrybucja Hadoop, która zawiera Pig, Hive i Sqoop bez żadnych zależności Java - ponieważ opiera się na systemie plików MapR.
  • MapR to najbardziej gotowa do produkcji dystrybucja Hadoop z wieloma ulepszeniami, które sprawiają, że jest bardziej przyjazna dla użytkownika, szybsza i niezawodna.

Omówmy teraz szczegółowo dystrybucję Cloudera Hadoop.

Zasubskrybuj nasz kanał YouTube, aby otrzymywać nowe aktualizacje ...

Cloudera Hadoop: Cloudera Distribution

Cloudera jest najbardziej znanym graczem w przestrzeni Hadoop, która wydała pierwszą komercyjną dystrybucję Hadoop.

Rys .: Cloudera Hadoop Distribution

Cloudera Hadoop Distribution obsługuje następujący zestaw funkcji:

  1. Cloudera CDH obejmuje wszystkie komponenty open source, jest przeznaczony dla wdrożeń klasy korporacyjnej i jest jedną z najpopularniejszych komercyjnych dystrybucji Hadoop.
  2. Znana ze swoich innowacji Cloudera jako pierwsza zaoferowała SQL-for-Hadoop z jego Impala silnik zapytań.
  3. Konsola zarządzania - Cloudera Manager , jest łatwy w użyciu i implementacji dzięki bogatemu interfejsowi użytkownika wyświetlającemu wszystkie informacje o klastrze w uporządkowany i przejrzysty sposób.
  4. W CDH możesz dodawać usługi do działającego klastra bez żadnych zakłóceń.
  5. Inne dodatki do Cloudera obejmują zabezpieczenia, interfejs użytkownika i interfejsy do integracji z aplikacjami innych firm.
  6. CDH zapewnia Szablony węzłów tj. umożliwia tworzenie grupy węzłów w klastrze Hadoop o różnej konfiguracji. Eliminuje użycie tej samej konfiguracji w całym klastrze Hadoop.
  7. Obsługuje również:
    • Niezawodność
      Dostawcy Hadoop natychmiast reagują w przypadku wykrycia błędu. W celu zwiększenia stabilności komercyjnych rozwiązań poprawki i poprawki są wdrażane natychmiast.
    • Wsparcie
      Dostawcy Cloudera Hadoop zapewniają wskazówki techniczne i pomoc, które ułatwiają klientom przystosowanie Hadoop do zadań na poziomie przedsiębiorstwa i aplikacji o znaczeniu krytycznym.

    • Kompletność
      Dostawcy Hadoop łączą swoje dystrybucje z różnymi innymi dodatkowymi narzędziami, które pomagają klientom dostosować aplikację Hadoop do określonych zadań.

Dystrybucje Cloudera zawierają 2 różne typy edycji.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Spójrzmy teraz na różnice między nimi.

funkcje Cloudera-Express Cloudera-Enterprise
Zarządzanie klastrem
1. Zarządzanie wieloma klastramitaktak
2. Zarządzanie zasobamitaktak
Rozlokowanie
1. Wsparcie dla CDH 4 i 5taktak
2. Stopniowa aktualizacja CDHNietak
Zarządzanie usługami i konfiguracją
1. Zarządzaj usługami HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark i Accumulotaktak
2. Stopniowe ponowne uruchamianie usługNietak
Bezpieczeństwo
1. Uwierzytelnianie LDAPNietak
2. Uwierzytelnianie SAMLNietak
Monitorowanie i diagnostyka
1. Historia zdrowiataktak
Zarządzanie alertami
1. Powiadomienie e-mailemtaktak
2. Alarm przez SNMPNietak
Zaawansowane funkcje zarządzania
1. Automatyczne tworzenie kopii zapasowych i odzyskiwanieNietak
2. Przeglądanie i wyszukiwanie plikówNietak
3. Raporty użycia MapReduce, Impala, HBase, YarnNietak

Cloudera Hadoop: Menedżer Cloudera

Według Cloudera, Cloudera Manager to najlepszy sposób zainstalować , skonfigurować , zarządzać , i monitor stos Hadoop.

To zapewnia:

  1. Automatyczne wdrażanie i konfiguracja
  2. Konfigurowalne monitorowanie i raportowanie
  3. Bezproblemowe i niezawodne rozwiązywanie problemów
  4. Zero - konserwacja przestojów

Uzyskaj dogłębną wiedzę na temat Cloudera Hadoop i jego różnych narzędzi

Demonstracja Cloudera Manager

Przyjrzyjmy się Menedżerowi Cloudera.

1. Poniższy rysunek przedstawia liczbę usług, które są aktualnie uruchomione w Menedżerze Cloudera. Możesz również wyświetlić wykresy dotyczące wykorzystania procesora klastra, użycia we / wy dysku itp.

Rys .: Strona domowa Cloudera Manager

2. Poniższy obraz przedstawia klaster HBase. Zawiera wykresy i wykresy dotyczące warunków kondycji aktualnie działającego serwera HBase REST.

Rys: Warunki zdrowotne serwera HBase

3. Przyjrzyjmy się teraz karcie Instancje w klastrze HBase, na której można sprawdzić stan i konfigurację IP.

Rys.: Stan i adres IP serwera hosta klastra HBase

4. Następnie masz zakładkę Konfiguracja. Tutaj możesz zobaczyć wszystkie parametry konfiguracyjne i zmienić ich wartości.

Rys: Konfiguracja klastra HBase

Zobaczmy teraz, czym są przesyłki w Cloudera.

Cloudera Hadoop: paczki

Paczka to binarny format dystrybucji zawierający pliki programu wraz z dodatkowymi metadanymi używanymi przez Cloudera Manager.

Przesyłki są samodzielne i instalowane w katalogu z wersjami, co oznacza, że ​​wiele wersji danej usługi można zainstalować obok siebie.

Poniżej znajdują się zalety korzystania z Parcel:

  • Zapewnia dystrybucję CDH jako pojedynczy obiekt, tj. Zamiast mieć oddzielny pakiet dla każdej części CDH, paczki mają tylko jeden obiekt do zainstalowania.

  • Zapewnia wewnętrzną spójność (ponieważ kompletna CDH jest dystrybuowana jako pojedyncza paczka, wszystkie komponenty CDH są dopasowane i nie będzie ryzyka, że ​​różne części pochodzą z różnych wersji CDH).

    role i obowiązki administratora Hadoop
  • Możesz zainstalować, uaktualnić, obniżyć wersję, dystrybuować i aktywować paczki w CDH za pomocą kilku kliknięć.

Zobaczmy teraz, jak zainstalować i aktywować usługę Kafka w CDH przy użyciu Parcels.

  1. Przejdź do strony głównej menedżera Cloudera >> Gospodarze >> Przesyłki, jak pokazano poniżej

    Rys: Wybieranie działek z gospodarzy

2. Jeśli nie widzisz Kafki na liście przesyłek, możesz dodać przesyłkę do listy.

  1. Znajdź paczkę w wersji Kafki, której chcesz użyć. Jeśli go nie widzisz, możesz dodać repozytorium paczek do listy.
  2. Znajdź paczkę dla wersji Kafki, którą chcesz zainstalować - Dystrybucja Cloudera wersji Apache Kafka .
    Poniższy rysunek pokazuje to samo.

Rys: Ścieżka repozytorium dla paczki.

3. Skopiuj łącze, jak pokazano na powyższym rysunku, i dodaj je do zdalnego repozytorium paczek, jak pokazano poniżej.

Rys: Dodanie ścieżki Kafki z repozytorium

Cztery.Po dodaniu ścieżki Kafka będzie gotowa do pobrania. Możesz po prostu kliknąć przycisk pobierania i pobrać Kafkę.

Rys .: Pobieranie pliku Kafka

5. Po pobraniu Kafki wszystko, co musisz zrobić, to go rozprowadzić i aktywować.

Rys .: Aktywacja Kafki

Po aktywacji możesz przejść dalej i wyświetlić Kafkę na karcie usług w menedżerze Cloudera.

Rys .: Usługa Kafka

Cloudera Hadoop: tworzenie przepływu pracy Oozie

Tworzenie przepływu pracy przez ręczne napisanie kodu XML, a następnie jego wykonanie jest skomplikowane. Możesz to polecić Planowanie zadania Oozie blog, aby dowiedzieć się o tradycyjnym podejściu.

Możesz zobaczyć poniższy obraz, na którym napisaliśmy plik XML, aby utworzyć prosty przepływ pracy Oozie. Rys .: Tworzenie przepływu pracy Oozie przy użyciu tradycyjnego podejścia

Jak widać, nawet aby stworzyć prosty program planujący Oozie, musieliśmy napisać ogromny kod XML, który jest czasochłonny, a debugowanie każdej pojedynczej linii staje się uciążliwe. Aby temu zaradzić, Cloudera Manager wprowadził nową funkcję o nazwie Odcień który zapewnia graficzny interfejs użytkownika oraz proste funkcje przeciągania i upuszczania do tworzenia i wykonywania przepływów pracy Oozie.

Zobaczmy teraz, jak Hue wykonuje to samo zadanie w uproszczony sposób.

Przed utworzeniem przepływu pracy najpierw utwórzmy pliki wejściowe, np. Clickstream.txt i user.txt.
W pliku user.txt mamy identyfikator użytkownika, imię i nazwisko, wiek, kraj, płeć, jak pokazano poniżej. Potrzebujemy tego pliku użytkownika, aby poznać liczbę użytkowników i kliknięcia adresu URL (wymienionego w pliku strumienia kliknięć) na podstawie identyfikatora użytkownika.

Rys: Tworzenie pliku tekstowego

Aby poznać liczbę kliknięć użytkownika w każdy adres URL, mamy strumień kliknięć zawierający identyfikator użytkownika i adres URL.

Rys: Plik Clickstream

Zapiszmy zapytania w pliku skryptu.

Rys: Plik skryptu

Po utworzeniu pliku użytkownika, pliku strumienia kliknięć, a następnie pliku skryptu, możemy przejść dalej i utworzyć przepływ pracy Oozie.

1. Możesz po prostu przeciągnąć i upuścić przepływ pracy Oozie, jak pokazano na obrazku.

Rys.: Funkcja przeciągnij i upuść tworzenia przepływu pracy Oozie

2. Wkrótce po odrzuceniu akcji musisz określić ścieżki do pliku skryptu i dodać parametry wymienione w pliku skryptu. Tutaj musisz dodać parametry OUTPUT, CLICKSTREAM i USER oraz określić ścieżkę do każdego z nich.

Rys: Dodanie pliku skryptu i wymaganych parametrów do wykonania akcji

3. Po określeniu ścieżek i dodaniu parametrów, po prostu zapisz i prześlij przepływ pracy, jak pokazano na poniższym obrazku.

Rys .: Zapisywanie i wysyłanie akcji Oozie

4. Po przesłaniu zadania praca jest zakończona. Wykonaniem i pozostałymi krokami zajmuje się Hue.

Rys .: Stan wykonania zadania Oozie

5.Teraz, gdy wykonaliśmy zadanie Oozie, spójrzmy na kartę akcji. Zawiera identyfikator użytkownika i stan przepływu pracy. Pokazuje również kody błędów, jeśli takie istnieją, godzinę rozpoczęcia i zakończenia działania.

Rys: Elementy obecne na karcie akcji przepływu pracy Oozie

6. Obok karty akcji znajduje się karta szczegółów. W tym możemy zobaczyć czas rozpoczęcia i czas ostatniej modyfikacji zadania.

Rys .: Szczegóły przepływu pracy Oozie.

7. Obok zakładki Szczegóły mamy zakładkę Konfiguracja przepływu pracy.

Rys: Ustawienia konfiguracji przepływu pracy Oozie

7. Podczas wykonywania czynności, jeśli wystąpią jakiekolwiek błędy, zostanie ona wyświetlona na karcie Dziennik. Możesz odwołać się do instrukcji błędów i odpowiednio je debugować.

Rys .: Plik dziennika zawierający kody błędów i opisy błędów

8. Oto kod XML przepływu pracy, który jest automatycznie generowany przez Hue.

Rys .: Kod XML przepływu pracy Oozie

9.1. Ponieważ ścieżka do katalogu wyjściowego została już określona w kroku 2, tutaj masz katalog wyjściowy w przeglądarce HDFS, jak pokazano poniżej.

Rys: Katalog wyjściowy przeglądarki HDFS

9.2 Po kliknięciu katalogu wyjściowego, znajdziesz plik tekstowy o nazwie output.txt i ten plik tekstowy zawiera rzeczywiste dane wyjściowe, jak pokazano na poniższym rysunku.

Rys: Ostateczny tekst wyjściowy

W ten sposób Hue upraszcza naszą pracę, udostępniając opcje przeciągania i upuszczania do tworzenia przepływu pracy Oozie.

Mam nadzieję, że ten blog był przydatny w zrozumieniu dystrybucji Cloudera i różnych komponentów Cloudera.

Chcesz wziąć udział w rewolucji Big Data?

Teraz, gdy zrozumiałeś Cloudera Hadoop Distribution, zapoznaj się z autorstwa Edureka, zaufanej firmy zajmującej się edukacją online, z siecią ponad 250 000 zadowolonych uczniów rozsianych po całym świecie. Szkolenie Edureka Big Data Hadoop Certification Training pomaga uczniom stać się ekspertami w dziedzinie HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop, wykorzystując przypadki użycia w czasie rzeczywistym w domenie handlu detalicznego, mediów społecznościowych, lotnictwa, turystyki, finansów.

usługa teraz szkolenie w zakresie systemu biletowego

Masz do nas pytanie? Wspomnij o tym w sekcji komentarzy, a my skontaktujemy się z Tobą.