Zainstaluj Hadoop: konfigurowanie klastra Hadoop z jednym węzłem
Z naszych poprzednich blogów , musisz mieć teoretyczne pojęcie o Hadoop, HDFS i jego architekturze.Ale żeby dostać potrzebujesz dobrej praktycznej wiedzy.Mam nadzieję, że spodobał Ci się nasz poprzedni blog , teraz przeprowadzę Cię przez praktyczną wiedzę o Hadoop i HDFS. Pierwszym krokiem naprzód jest instalacja Hadoop.
Istnieją dwa sposoby instalacji Hadoop, tj. Pojedynczy węzeł i Wiele węzłów .
Klaster z jednym węzłem oznacza, że tylko jeden DataNode działa i konfiguruje wszystkie NameNode, DataNode, ResourceManager i NodeManager na jednym komputerze. Służy do nauki i testowania. Na przykład rozważmy przykładowy zestaw danych w branży opieki zdrowotnej. Dlatego do testowania, czy zadania Oozie zaplanowały wszystkie procesy, takie jak zbieranie, agregowanie, przechowywanie i przetwarzanie danych w odpowiedniej kolejności, używamy klastra z jednym węzłem. Może łatwo i wydajnie testować sekwencyjny przepływ pracy w mniejszym środowisku w porównaniu z dużymi środowiskami, które zawierają terabajty danych rozproszonych na setkach maszyn.
Podczas gdy w Klaster z wieloma węzłami , działa więcej niż jeden węzeł DataNode, a każdy węzeł DataNode działa na różnych maszynach. Klaster wielowęzłowy jest praktycznie wykorzystywany w organizacjach do analizy Big Data. Biorąc pod uwagę powyższy przykład, w czasie rzeczywistym, gdy mamy do czynienia z petabajtami danych, trzeba je rozłożyć na setki maszyn do przetworzenia. Dlatego tutaj używamy klastra wielowęzłowego.
Na tym blogu pokażę, jak zainstalować Hadoop w klastrze z jednym węzłem.
Wymagania wstępne
- VIRTUAL BOX : służy do instalowania na nim systemu operacyjnego.
- SYSTEM OPERACYJNY : Hadoop można zainstalować w systemach operacyjnych opartych na systemie Linux. Bardzo powszechnie używane są Ubuntu i CentOS. W tym samouczku używamy CentOS.
- JAWA : Musisz zainstalować pakiet Java 8 w swoim systemie.
- HADOOP : Wymagany jest pakiet Hadoop 2.7.3.
Zainstaluj Hadoop
Krok 1: Kliknij tutaj aby pobrać pakiet Java 8. Zapisz ten plik w swoim katalogu domowym.
Krok 2: Wyodrębnij plik Java Tar.
Komenda : tar -xvf jdk-8u101-linux-i586.tar.gz
Rys: Instalacja Hadoop - wyodrębnianie plików Java
Krok 3: Pobierz pakiet Hadoop 2.7.3.
Komenda : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Rys: Instalacja Hadoop - Pobieranie Hadoop
Krok 4: Wyodrębnij plik tar Hadoop.
Komenda : tar -xvf hadoop-2.7.3.tar.gz
Rys .: Instalacja Hadoop - wyodrębnianie plików Hadoop
Krok 5: Dodaj ścieżki Hadoop i Java w pliku bash (.bashrc).
otwarty . bashrc plik. Teraz dodaj Hadoop i ścieżkę Java, jak pokazano poniżej.
Komenda : vi .bashrc
Rys.: Instalacja Hadoop - ustawienie zmiennej środowiskowej
Następnie zapisz plik bash i zamknij go.
Aby zastosować wszystkie te zmiany w bieżącym terminalu, wykonaj polecenie źródła.
Komenda : źródło .bashrc
Rys .: Instalacja Hadoop - odświeżanie zmiennych środowiskowych
Aby upewnić się, że Java i Hadoop zostały poprawnie zainstalowane w Twoim systemie i są dostępne przez Terminal, npxecute polecenia wersji java -version i hadoop.
Komenda : Jawa-wersja
jak pisać na maszynie w java
Rys .: Instalacja Hadoop - sprawdzanie wersji Java
Komenda : hadoopwersja
Rys .: Instalacja Hadoop - sprawdzanie wersji Hadoop
Krok 6 : Edytuj plik .
Komenda: cd hadoop-2.7.3 / etc / hadoop /
Komenda: ls
Wszystkie pliki konfiguracyjne Hadoop znajdują się w hadoop-2.7.3 / etc / hadoop katalog, jak widać na poniższej migawce:
Rys .: Instalacja Hadoop - Pliki konfiguracyjne Hadoop
Krok 7 : otwarty core-site.xml i edytuj wymienioną poniżej właściwość wewnątrz tagu konfiguracyjnego:
core-site.xml informuje demona Hadoop, gdzie NameNode działa w klastrze. Zawiera ustawienia konfiguracyjne rdzenia Hadoop, takie jak ustawienia we / wy, które są wspólne dla HDFS i MapReduce.
Komenda : vi core-site.xml
Rys .: Instalacja Hadoop - Konfiguracja core-site.xml
fs.default.name hdfs: // localhost: 9000
Krok 8: Edytować hdfs-site.xml i edytuj wymienioną poniżej właściwość wewnątrz tagu konfiguracyjnego:
hdfs-site.xml zawiera ustawienia konfiguracyjne demonów HDFS (tj. NameNode, DataNode, Secondary NameNode). Obejmuje również współczynnik replikacji i rozmiar bloku HDFS.
Komenda : vi hdfs-site.xml
Rys: Instalacja Hadoop - Konfiguracja hdfs-site.xml
dfs.replication 1 dfs.permission false
Krok 9 : Edytuj plik mapred-site.xml plik i edytuj właściwość wymienioną poniżej wewnątrz tagu konfiguracyjnego:
mapred-site.xml zawiera ustawienia konfiguracyjne aplikacji MapReduce, takie jak liczba JVM, które mogą działać równolegle, rozmiar programu odwzorowującego i procesu redukcji, dostępne rdzenie procesora dla procesu itp.
W niektórych przypadkach plik mapred-site.xml jest niedostępny. Musimy więc utworzyć plik mapred-site.xmlprzy użyciu szablonu mapred-site.xml.
Komenda : cp mapred-site.xml.template mapred-site.xml
Komenda : my zmapowany-teren.xml.
Rys: Instalacja Hadoop - Konfigurowanie mapred-site.xml
mapreduce.framework.name przędza
Krok 10: Edytować yarn-site.xml i edytuj wymienioną poniżej właściwość wewnątrz tagu konfiguracyjnego:
yarn-site.xml zawiera ustawienia konfiguracyjne ResourceManager i NodeManager, takie jak rozmiar zarządzania pamięcią aplikacji, operacja wymagana na programie i algorytmie itp.
Komenda : vi yarn-site.xml
marionetka vs szef kuchni vs ansibl
Rys .: Instalacja Hadoop - Konfiguracja yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler
Krok 11: Edytować hadoop-env.sh i dodaj ścieżkę Java, jak wspomniano poniżej:
hadoop-env.sh zawiera zmienne środowiskowe, które są używane w skrypcie do uruchamiania Hadoop, takich jak ścieżka główna Java itp.
Komenda : my hadoop-env.sh
Rys .: Instalacja Hadoop - Konfiguracja hadoop-env.sh
Krok 12: Przejdź do katalogu głównego Hadoop i sformatuj NameNode.
Komenda : Płyta CD
Komenda : cd hadoop-2.7.3
Komenda : bin / hadoop cel -format
Rys .: Instalacja Hadoop - formatowanie NameNode
To formatuje HDFS za pośrednictwem NameNode. To polecenie jest wykonywane tylko po raz pierwszy. Formatowanie systemu plików oznacza zainicjowanie katalogu określonego przez zmienną dfs.name.dir.
Nigdy nie formatuj, nie uruchamiaj i nie uruchamiaj systemu plików Hadoop. Utracisz wszystkie dane zapisane w HDFS.
Krok 13: Po sformatowaniu NameNode przejdź do katalogu hadoop-2.7.3 / sbin i uruchom wszystkie demony.
Komenda: cd hadoop-2.7.3 / sbin
Albo możesz uruchomić wszystkie demony jednym poleceniem, albo zrobić to indywidualnie.
Komenda: ./ start-all.sh
Powyższe polecenie jest kombinacją start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh
Lub możesz uruchomić wszystkie usługi indywidualnie, jak poniżej:
Rozpocznij NameNode:
NameNode jest centralnym elementem systemu plików HDFS. Przechowuje drzewo katalogów wszystkich plików przechowywanych w HDFS i śledzi wszystkie pliki przechowywane w klastrze.
Komenda: ./hadoop-daemon.sh cel początkowy
Rys .: Instalacja Hadoop - uruchamianie NameNode
Uruchom DataNode:
Podczas uruchamiania DataNode łączy się z Namenode i odpowiada na żądania z Namenode dla różnych operacji.
Komenda: ./hadoop-daemon.sh uruchom datanode
Rys .: Instalacja Hadoop - uruchamianie DataNode
Uruchom ResourceManager:
ResourceManager to master, który rozdziela wszystkie dostępne zasoby klastra, a tym samym pomaga w zarządzaniu rozproszonymi aplikacjami działającymi w systemie YARN. Jego zadaniem jest zarządzanie wszystkimi NodeManagerami i ApplicationMasterem każdej aplikacji.
Komenda: ./przędza-daemon.sh start resourcemanager
Rys .: Instalacja Hadoop - uruchamianie ResourceManager
Uruchom NodeManager:
NodeManager w każdej strukturze maszyny jest agentem odpowiedzialnym za zarządzanie kontenerami, monitorowanie ich wykorzystania zasobów i raportowanie tego samego do ResourceManager.
Komenda: ./przędza-daemon.sh uruchom nodemanager
Rys: Instalacja Hadoop - uruchamianie NodeManagera
Uruchom JobHistoryServer:
JobHistoryServer jest odpowiedzialny za obsługę wszystkich żądań klienta związanych z historią zadań.
Komenda : ./mr-jobhistory-daemon.sh uruchom serwer historii
Krok 14: Aby sprawdzić, czy wszystkie usługi Hadoop są uruchomione i działają, uruchom poniższe polecenie.
Komenda: jps
Rys .: Instalacja Hadoop - sprawdzanie demonów
Krok 15: Teraz otwórz przeglądarkę Mozilla i przejdź do Lokalny Gospodarz : 50070 / dfshealth.html aby sprawdzić interfejs NameNode.
Rys .: Instalacja Hadoop - uruchamianie WebUI
Gratulacje, pomyślnie zainstalowałeś klaster Hadoop z jednym węzłem za jednym razem.W naszym następnym blogu , omówimy również, jak zainstalować Hadoop w klastrze z wieloma węzłami.
Teraz, gdy już wiesz, jak zainstalować Hadoop, zapoznaj się z autorstwa Edureka, zaufanej firmy zajmującej się edukacją online, z siecią ponad 250 000 zadowolonych uczniów rozsianych po całym świecie. Szkolenie Edureka Big Data Hadoop Certification Training pomaga uczniom stać się ekspertami w dziedzinie HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop, wykorzystując przypadki użycia w czasie rzeczywistym w domenie handlu detalicznego, mediów społecznościowych, lotnictwa, turystyki, finansów.
Masz do nas pytanie? Wspomnij o tym w sekcji komentarzy, a my skontaktujemy się z Tobą.