Zainstaluj Hadoop: konfigurowanie klastra Hadoop z jednym węzłem



Ten samouczek jest przewodnikiem krok po kroku dotyczącym instalowania klastra Hadoop i konfigurowania go w jednym węźle. Wszystkie kroki instalacji Hadoop dotyczą maszyny CentOS.

Zainstaluj Hadoop: konfigurowanie klastra Hadoop z jednym węzłem

Z naszych poprzednich blogów , musisz mieć teoretyczne pojęcie o Hadoop, HDFS i jego architekturze.Ale żeby dostać potrzebujesz dobrej praktycznej wiedzy.Mam nadzieję, że spodobał Ci się nasz poprzedni blog , teraz przeprowadzę Cię przez praktyczną wiedzę o Hadoop i HDFS. Pierwszym krokiem naprzód jest instalacja Hadoop.

Istnieją dwa sposoby instalacji Hadoop, tj. Pojedynczy węzeł i Wiele węzłów .





Klaster z jednym węzłem oznacza, że ​​tylko jeden DataNode działa i konfiguruje wszystkie NameNode, DataNode, ResourceManager i NodeManager na jednym komputerze. Służy do nauki i testowania. Na przykład rozważmy przykładowy zestaw danych w branży opieki zdrowotnej. Dlatego do testowania, czy zadania Oozie zaplanowały wszystkie procesy, takie jak zbieranie, agregowanie, przechowywanie i przetwarzanie danych w odpowiedniej kolejności, używamy klastra z jednym węzłem. Może łatwo i wydajnie testować sekwencyjny przepływ pracy w mniejszym środowisku w porównaniu z dużymi środowiskami, które zawierają terabajty danych rozproszonych na setkach maszyn.

Podczas gdy w Klaster z wieloma węzłami , działa więcej niż jeden węzeł DataNode, a każdy węzeł DataNode działa na różnych maszynach. Klaster wielowęzłowy jest praktycznie wykorzystywany w organizacjach do analizy Big Data. Biorąc pod uwagę powyższy przykład, w czasie rzeczywistym, gdy mamy do czynienia z petabajtami danych, trzeba je rozłożyć na setki maszyn do przetworzenia. Dlatego tutaj używamy klastra wielowęzłowego.



Na tym blogu pokażę, jak zainstalować Hadoop w klastrze z jednym węzłem.

Wymagania wstępne

  • VIRTUAL BOX : służy do instalowania na nim systemu operacyjnego.
  • SYSTEM OPERACYJNY : Hadoop można zainstalować w systemach operacyjnych opartych na systemie Linux. Bardzo powszechnie używane są Ubuntu i CentOS. W tym samouczku używamy CentOS.
  • JAWA : Musisz zainstalować pakiet Java 8 w swoim systemie.
  • HADOOP : Wymagany jest pakiet Hadoop 2.7.3.

Zainstaluj Hadoop

Krok 1: Kliknij tutaj aby pobrać pakiet Java 8. Zapisz ten plik w swoim katalogu domowym.

Krok 2: Wyodrębnij plik Java Tar.

Komenda : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Zainstaluj Hadoop - Edureka



Rys: Instalacja Hadoop - wyodrębnianie plików Java

Krok 3: Pobierz pakiet Hadoop 2.7.3.

Komenda : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Rys: Instalacja Hadoop - Pobieranie Hadoop

Krok 4: Wyodrębnij plik tar Hadoop.

Komenda : tar -xvf hadoop-2.7.3.tar.gz

Rys .: Instalacja Hadoop - wyodrębnianie plików Hadoop

Krok 5: Dodaj ścieżki Hadoop i Java w pliku bash (.bashrc).

otwarty . bashrc plik. Teraz dodaj Hadoop i ścieżkę Java, jak pokazano poniżej.

Komenda : vi .bashrc

Rys.: Instalacja Hadoop - ustawienie zmiennej środowiskowej

Następnie zapisz plik bash i zamknij go.

Aby zastosować wszystkie te zmiany w bieżącym terminalu, wykonaj polecenie źródła.

Komenda : źródło .bashrc

Rys .: Instalacja Hadoop - odświeżanie zmiennych środowiskowych

Aby upewnić się, że Java i Hadoop zostały poprawnie zainstalowane w Twoim systemie i są dostępne przez Terminal, npxecute polecenia wersji java -version i hadoop.

Komenda : Jawa-wersja

jak pisać na maszynie w java

Rys .: Instalacja Hadoop - sprawdzanie wersji Java

Komenda : hadoopwersja

Rys .: Instalacja Hadoop - sprawdzanie wersji Hadoop

Krok 6 : Edytuj plik .

Komenda: cd hadoop-2.7.3 / etc / hadoop /

Komenda: ls

Wszystkie pliki konfiguracyjne Hadoop znajdują się w hadoop-2.7.3 / etc / hadoop katalog, jak widać na poniższej migawce:

Rys .: Instalacja Hadoop - Pliki konfiguracyjne Hadoop

Krok 7 : otwarty core-site.xml i edytuj wymienioną poniżej właściwość wewnątrz tagu konfiguracyjnego:

core-site.xml informuje demona Hadoop, gdzie NameNode działa w klastrze. Zawiera ustawienia konfiguracyjne rdzenia Hadoop, takie jak ustawienia we / wy, które są wspólne dla HDFS i MapReduce.

Komenda : vi core-site.xml

Rys .: Instalacja Hadoop - Konfiguracja core-site.xml

fs.default.name hdfs: // localhost: 9000

Krok 8: Edytować hdfs-site.xml i edytuj wymienioną poniżej właściwość wewnątrz tagu konfiguracyjnego:

hdfs-site.xml zawiera ustawienia konfiguracyjne demonów HDFS (tj. NameNode, DataNode, Secondary NameNode). Obejmuje również współczynnik replikacji i rozmiar bloku HDFS.

Komenda : vi hdfs-site.xml

Rys: Instalacja Hadoop - Konfiguracja hdfs-site.xml

dfs.replication 1 dfs.permission false

Krok 9 : Edytuj plik mapred-site.xml plik i edytuj właściwość wymienioną poniżej wewnątrz tagu konfiguracyjnego:

mapred-site.xml zawiera ustawienia konfiguracyjne aplikacji MapReduce, takie jak liczba JVM, które mogą działać równolegle, rozmiar programu odwzorowującego i procesu redukcji, dostępne rdzenie procesora dla procesu itp.

W niektórych przypadkach plik mapred-site.xml jest niedostępny. Musimy więc utworzyć plik mapred-site.xmlprzy użyciu szablonu mapred-site.xml.

Komenda : cp mapred-site.xml.template mapred-site.xml

Komenda : my zmapowany-teren.xml.

Rys: Instalacja Hadoop - Konfigurowanie mapred-site.xml

mapreduce.framework.name przędza

Krok 10: Edytować yarn-site.xml i edytuj wymienioną poniżej właściwość wewnątrz tagu konfiguracyjnego:

yarn-site.xml zawiera ustawienia konfiguracyjne ResourceManager i NodeManager, takie jak rozmiar zarządzania pamięcią aplikacji, operacja wymagana na programie i algorytmie itp.

Komenda : vi yarn-site.xml

marionetka vs szef kuchni vs ansibl

Rys .: Instalacja Hadoop - Konfiguracja yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Krok 11: Edytować hadoop-env.sh i dodaj ścieżkę Java, jak wspomniano poniżej:

hadoop-env.sh zawiera zmienne środowiskowe, które są używane w skrypcie do uruchamiania Hadoop, takich jak ścieżka główna Java itp.

Komenda : my hadoop-env.sh

Rys .: Instalacja Hadoop - Konfiguracja hadoop-env.sh

Krok 12: Przejdź do katalogu głównego Hadoop i sformatuj NameNode.

Komenda : Płyta CD

Komenda : cd hadoop-2.7.3

Komenda : bin / hadoop cel -format

Rys .: Instalacja Hadoop - formatowanie NameNode

To formatuje HDFS za pośrednictwem NameNode. To polecenie jest wykonywane tylko po raz pierwszy. Formatowanie systemu plików oznacza zainicjowanie katalogu określonego przez zmienną dfs.name.dir.

Nigdy nie formatuj, nie uruchamiaj i nie uruchamiaj systemu plików Hadoop. Utracisz wszystkie dane zapisane w HDFS.

Krok 13: Po sformatowaniu NameNode przejdź do katalogu hadoop-2.7.3 / sbin i uruchom wszystkie demony.

Komenda: cd hadoop-2.7.3 / sbin

Albo możesz uruchomić wszystkie demony jednym poleceniem, albo zrobić to indywidualnie.

Komenda: ./ start-all.sh

Powyższe polecenie jest kombinacją start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Lub możesz uruchomić wszystkie usługi indywidualnie, jak poniżej:

Rozpocznij NameNode:

NameNode jest centralnym elementem systemu plików HDFS. Przechowuje drzewo katalogów wszystkich plików przechowywanych w HDFS i śledzi wszystkie pliki przechowywane w klastrze.

Komenda: ./hadoop-daemon.sh cel początkowy

Rys .: Instalacja Hadoop - uruchamianie NameNode

Uruchom DataNode:

Podczas uruchamiania DataNode łączy się z Namenode i odpowiada na żądania z Namenode dla różnych operacji.

Komenda: ./hadoop-daemon.sh uruchom datanode

Rys .: Instalacja Hadoop - uruchamianie DataNode

Uruchom ResourceManager:

ResourceManager to master, który rozdziela wszystkie dostępne zasoby klastra, a tym samym pomaga w zarządzaniu rozproszonymi aplikacjami działającymi w systemie YARN. Jego zadaniem jest zarządzanie wszystkimi NodeManagerami i ApplicationMasterem każdej aplikacji.

Komenda: ./przędza-daemon.sh start resourcemanager

Rys .: Instalacja Hadoop - uruchamianie ResourceManager

Uruchom NodeManager:

NodeManager w każdej strukturze maszyny jest agentem odpowiedzialnym za zarządzanie kontenerami, monitorowanie ich wykorzystania zasobów i raportowanie tego samego do ResourceManager.

Komenda: ./przędza-daemon.sh uruchom nodemanager

Rys: Instalacja Hadoop - uruchamianie NodeManagera

Uruchom JobHistoryServer:

JobHistoryServer jest odpowiedzialny za obsługę wszystkich żądań klienta związanych z historią zadań.

Komenda : ./mr-jobhistory-daemon.sh uruchom serwer historii

Krok 14: Aby sprawdzić, czy wszystkie usługi Hadoop są uruchomione i działają, uruchom poniższe polecenie.

Komenda: jps

Rys .: Instalacja Hadoop - sprawdzanie demonów

Krok 15: Teraz otwórz przeglądarkę Mozilla i przejdź do Lokalny Gospodarz : 50070 / dfshealth.html aby sprawdzić interfejs NameNode.

Rys .: Instalacja Hadoop - uruchamianie WebUI

Gratulacje, pomyślnie zainstalowałeś klaster Hadoop z jednym węzłem za jednym razem.W naszym następnym blogu , omówimy również, jak zainstalować Hadoop w klastrze z wieloma węzłami.

Teraz, gdy już wiesz, jak zainstalować Hadoop, zapoznaj się z autorstwa Edureka, zaufanej firmy zajmującej się edukacją online, z siecią ponad 250 000 zadowolonych uczniów rozsianych po całym świecie. Szkolenie Edureka Big Data Hadoop Certification Training pomaga uczniom stać się ekspertami w dziedzinie HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop, wykorzystując przypadki użycia w czasie rzeczywistym w domenie handlu detalicznego, mediów społecznościowych, lotnictwa, turystyki, finansów.

Masz do nas pytanie? Wspomnij o tym w sekcji komentarzy, a my skontaktujemy się z Tobą.