Jak stworzyć klaster Hadoop z Amazon EMR?



W tym artykule zajmiemy się usługą AWS EMR, a przy okazji dowiemy się, jak utworzyć klaster Hadoop z Amazon EMR?

W tym artykule o tym, jak tworzyć Klaster Dzięki Amazon EMR zobaczylibyśmy, jak łatwo uruchamiać i skalować aplikacje Hadoop i Big Data. Poniższe wskazówki zostaną omówione w tym artykule,

Przechodząc dalej: Jak utworzyć klaster Hadoop z Amazon EMR?





Jak stworzyć klaster Hadoop z Amazon EMR?

Kiedy szukamy czegoś w Google lub Yahoo, otrzymujemy odpowiedź w ułamku sekundy. Jak to możliwe, że Google, Yahoo i inne wyszukiwarki tak szybko zwracają wyniki z ciągle rozwijającej się sieci? Wyszukiwarki przeszukują Internet, pobierają strony internetowe i tworzą indeks, jak pokazano poniżej. W przypadku każdego zapytania od nas używają indeksu, aby dowiedzieć się, jakie są wszystkie strony internetowe zawierające szukany przez nas tekst. Patrząc na poniższy indeks po prawej stronie, możemy wyraźnie stwierdzić, że Hadoop jest tam strony 1, 2 i 3.

Obraz - Jak stworzyć klaster Hadoop z Amazon EMR - EdurekaA później Algorytm PageRanking jest używany na podstawie tego, jak strony są połączone, aby dowiedzieć się, która strona ma być wyświetlana na górze, a która na dole. W poniższym scenariuszu W1 jest „najpopularniejszy”, ponieważ wszyscy do niego linkują, a W4 jest „najmniej popularny”, ponieważ nikt nie tworzy linków do niego. Tak więc W1 jest wyświetlane na górze, a W4 na dole w wynikach wyszukiwania.



co to jest luźne połączenie w java

Wraz z eksplozją stron internetowych te wyszukiwarki napotkały problemy przy tworzeniu indeksów i wykonywaniu obliczeń PageRanking. To tutaj narodziny Hadoopa miały miejsce w Yahoo, a później stało się FOSS (wolne i otwarte oprogramowanie) w ramach ASF (Apache Software Foundation). Będąc pod ASF, wiele firm zaczęło interesować się Hadoop i zaczęło przyczyniać się do jego ulepszania. Hadoop był tym, który rozpoczął rewolucję Big Data, ale wiele innych programów, takich jak Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume, zaczęło ewoluować, aby zająć się ograniczeniami i lukami w Hadoop.

Wyszukiwarki internetowe były pierwszymi, które używały Hadoopa, ale później wiele przypadków użycia zaczęło ewoluować, gdy generowano coraz więcej danych. Weźmy przykład aplikacji eCommerce używanej do polecania książek użytkownikom. Zgodnie z poniższym diagramem użytkownik1 kupił książki book1, book2 i book3, user2 kupił kilka książek i tak dalej. Przyglądając się uważnie, możemy zauważyć, że user1 i user2 mają podobny gust, jak kupili book1 i book2. Zatem book3 można polecić użytkownikowi2, a book4 można polecić użytkownikowi1. Nazywa się to Collaborative Filtering, czyli typem algorytmu uczenia maszynowego. Możemy odwrócić poniższy diagram i otrzymać podobne książki.

W powyższym przypadku stworzyliśmy indeks, PageRanked i poleciliśmy użytkownikowi, rozmiar danych był niewielki, więc mogliśmy wizualizować dane i wyciągać z nich pewne wyniki. Ponieważ rozmiar danych rośnie z dnia na dzień i wymyka się spod kontroli, w tym miejscu pojawiają się narzędzia Big Data, takie jak Hadoop.



Hadoop rozwiązuje wiele problemów, ale instalacja Hadoopa i innego oprogramowania Big Data nigdy nie była łatwym zadaniem. Istnieje wiele parametrów konfiguracyjnych do dostosowania, takich jak integracja, instalacja i problemy z konfiguracją. To tutaj firmy takie jak Cloudera i pomocy Databricks. Ułatwiają instalację oprogramowania Big Data i zapewniają wsparcie komercyjne, na przykład powiedzmy, że coś się dzieje na produkcji. Amazon EMR (Elastic MapReduce) znacznie ułatwia korzystanie z Hadoop itp. Nazwa Elastic MapReduce jest nieco myląca, ponieważ EMR obsługuje również inne rozproszone modele obliczeniowe, takie jak Resilient Distributed Datasets, a nie tylko MapReduce.

W tym samouczku omówimy, jak skonfigurować klaster EMR w chmurze AWS, aw nadchodzącym samouczku zbadamy, jak uruchomić na nim Spark, Hive i inne programy.

Przechodząc dalej: Jak utworzyć klaster Hadoop z Amazon EMR?

Demo: Tworzenie klastra EMR w AWS

Krok 1: Przejdź do konsoli zarządzania EMR i kliknij „Utwórz klaster”. W konsoli metadane dla zakończony klaster jest również zapisywany bezpłatnie przez dwa miesiące. Pozwala to na sklonowanie i ponowne utworzenie zakończonego klastra.

Krok 2 : Na ekranie szybkich opcji kliknij „Przejdź do opcji zaawansowanych”, aby określić znacznie więcej szczegółów dotyczących klastra.

Krok 3: W zakładce Opcje zaawansowane możemy wybrać inne oprogramowanie do zainstalowania w klastrze EMR. W przypadku interfejsu SQL można wybrać gałąź. W przypadku interfejsu języka przepływu danych można wybrać Pig. Do koordynacji aplikacji rozproszonych można wybrać ZooKeeper i tak dalej. Ta zakładka pozwala nam również dodawać kroki, co jest zadaniem opcjonalnym. Kroki to zadania przetwarzania Big Data przy użyciu MapReduce, Pig, Hive itp. Można je dodać na tej karcie lub później, po utworzeniu klastra. Kliknij „Dalej”, aby wybrać sprzęt wymagany dla klastra EMR.

Krok 4: Hadoop podąża za architekturą master-worker, w której mistrz wykonuje całą koordynację, taką jak planowanie i przydzielanie pracy oraz sprawdzanie postępów, podczas gdy pracownicy wykonują rzeczywistą pracę polegającą na przetwarzaniu i przechowywaniu danych. Pojedynczy wzorzec to pojedynczy punkt awarii (SPOF). Amazon EMR obsługuje multi-master dla wysokiej dostępności (HA). Poprzedni krok pozwala skonfigurować klaster multi-master w EMR.

java jak zakończyć program

EMR dopuszcza dwa typy węzłów, rdzeń i zadanie. Węzeł rdzeń służy zarówno do przetwarzania, jak i przechowywania danych, węzeł zadaniowy służy jedynie do przetwarzania danych. W tym samouczku możemy wybrać tylko jeden rdzeń i żadnych węzłów zadań, ponieważ wiąże się to z mniejszymi kosztami. Wybierz także Wykryj instancje nad Na żądanie ponieważ instancje Spot są tańsze. Problem z instancjami Spot polega na tym, że mogą one zostać automatycznie zakończone przez AWS za pomocą pliku dwie minuty wypowiedzenia . Jest to dobre ze względu na praktykę, a także w niektórych rzeczywistych scenariuszach. Instancje Spot są przerywane automatycznie, ponieważ mają niski priorytet w stosunku do innych typów instancji. Kliknij „Dalej”.

Krok 5: Podaj nazwę klastra. i kliknij „Dalej”. Zauważ, że „Ochrona przed zakończeniem” jest domyślnie włączona, dzięki czemu klaster EMR nie zostanie przypadkowo usunięty, wprowadzając kilka kroków podczas zamykania klastra.

Krok 6: Na karcie określone są różne opcje zabezpieczeń dla klastra EMR. Aby zalogować się do instancji EC2, należy wybrać KeyPair. EMR automatycznie utworzy odpowiednie role i grupy bezpieczeństwa i dołączy je do głównego i roboczego węzła EC2. Kliknij „Utwórz klaster”.

Utworzenie klastra zajmuje kilka minut, ponieważ instancje EC2 muszą zostać zakupione, a różne oprogramowanie Big Data musi zostać zainstalowane i skonfigurowane. Początkowo stan klastra będzie w stanie „Uruchamianie”, a następnie przejdzie do stanu „Oczekiwanie”. W stanie „Oczekiwanie” klaster EMR po prostu czeka na przesłanie przez nas różnych zadań przetwarzania Big Data, takich jak MR, Spark, Hive itp.

Zwróć również uwagę na konsolę zarządzającą EC2 i zwróć uwagę, że instancja główna i pracująca EC2 powinny być uruchomione. Są to instancje Spot, które zostały utworzone w ramach tworzenia klastra EMR. To samo EC2 można również zaobserwować na karcie Sprzęt w konsoli zarządzania EMR. Zwróć uwagę, że na karcie Sprzęt cena instancji Spot EC2 jest podana jako 0,032 $ / godzinę. Cena instancji Spot zmienia się w czasie i jest znacznie niższa niż w przypadku cennika On-Demand EC2.

Krok 7: Teraz, gdy klaster EMR został pomyślnie dodany, można dodać zadania przetwarzania Steps lub Big Data. Przejdź do zakładki Steps i kliknij „Add Step” i wybierz typ kroku (MR, Hive, Spark itp.). Omówimy to samo w nadchodzącym samouczku. Na razie kliknij Anuluj.

Krok 8: Teraz, gdy widzieliśmy, jak rozpocząć EMR, zobaczmy, jak zatrzymać to samo.

Krok 8.1: Kliknij Zakończ.

Krok 8.2: Jak wspomniano w poprzednich krokach, „Ochrona przed zakończeniem” jest włączona dla klastra EMR, a przycisk Zakończ został wyłączony. Kliknij Zmień.

Krok 8.3: Wybierz przycisk opcji „Wył.” I kliknij znacznik wyboru. Teraz przycisk Zakończ powinien być włączony. Jest to dodatkowy krok wprowadzony przez EMR, aby upewnić się, że nie usuniemy przypadkowo klastra EMR.

Zauważ, że klaster EMR będzie miał status Terminating, a EC2 zostaną zakończone. Wreszcie, klaster EMR zostanie przeniesiony do statusu Zakończony, stąd nasze rozliczenia z AWS zatrzymują się. Pamiętaj o zamknięciu klastra, aby nie ponosić dodatkowych kosztów AWS.

Wniosek

W tym samouczku widzieliśmy, jak uruchomić klaster EMR w ciągu kilku minut z konsoli internetowej (przeglądarki), to samo można zautomatyzować za pomocą , AWS SDK lub przy użyciu AWS CloudFormation . Jak zauważono, utworzenie klastra EMR jest kwestią minut, a przetwarzanie Big Data można rozpocząć natychmiast, po zakończeniu przetwarzania dane wyjściowe można przechowywać w S3 lub DynamoDB, a więc zamknięcie klastra, aby zatrzymać fakturowanie. Ze względu na ten model cenowy i łatwość użytkowania, EMR jest wielkim hitem wśród tych, którzy zajmują się przetwarzaniem Big Data. Nie ma potrzeby kupowania ogromnych ilości serwerów, uzyskiwania licencji na oprogramowanie Big Data i ich utrzymywania ”.

Więc to wszystko, to prowadzi nas do końca tego artykułu o tym, jak utworzyć klaster Hadoop z Amazon EMR?Jeśli chcesz zdobyć wiedzę w tym temacie, Edureka opracowała program nauczania, który dokładnie obejmuje to, czego potrzebujesz, aby zdać egzamin na architekta rozwiązań! Możesz rzucić okiem na szczegóły kursu trening.

abstrakcja w C ++

W przypadku jakichkolwiek pytań związanych z tym blogiem, zachęcamy do zadawania pytań w sekcji komentarzy poniżej, a my z przyjemnością odpowiemy najwcześniej.