To jest post z odpowiedzią na często zadawane pytania podczas publicznego seminarium internetowego przez edureka! na .
Często zadawane pytania na temat Hadoop
Deepak:
Co to jest Hadoop?
Apache Hadoop to platforma oprogramowania typu Open Source do przechowywania i przetwarzania na dużą skalę zestawów danych w klastrach podstawowego sprzętu. Jest to platforma oprogramowania do zarządzania danymi typu Open Source ze skalowalną pamięcią masową i przetwarzaniem rozproszonym. Jest budowany i używany przez globalną społeczność współpracowników i użytkowników.
Przeczytaj więcej w naszym poście na blogu Hadoop i .
Szukaj:
Jakie są przypadki użycia Big Data w branży turystycznej, transportowej i lotniczej?
Słoneczny:
Czy możesz wskazać nam jakąś prawdziwą próbkę implementacji Hadoop, którą możemy zbadać?
Jesteśmy Livizw dobie narastających zatorów w godzinach szczytu. Przewoźnicy nieustannie poszukują opłacalnych sposobów świadczenia usług przy jednoczesnym utrzymaniu floty transportowej w dobrym stanie. Wykorzystanie Big Data Analytics w tej domenie może pomóc organizacji w:
- Optymalizacja tras
- Analityka geoprzestrzenna
- Schematy ruchu i zatory
- Utrzymanie majątku
- Revenue Management (tj. Linia lotnicza)
- Zarządzanie zapasami
- Oszczędność paliwa
- Marketing ukierunkowany
- Lojalność klientów
- Prognozowanie wydajności
- Wydajność i optymalizacja sieci
Niewiele rzeczywistych przypadków użycia to:
do) Określanie kosztów lotu
b) Modelowanie predykcyjne dla logistyki zapasów
do) Orbitz na świecie - wzorce zakupów klientów
re) Sześć wdrożeń Hadoop w ogromnej skali
jest) Hadoop - więcej niż dodatki
fa) Hadoop w przedsiębiorstwie
Możesz dowiedzieć się więcej o implementacjach Hadoop w świecie rzeczywistym pod adresem:
Hirdesh:
Czy w Hadoop chodzi o obsługę i przetwarzanie danych? Jak idziemy do raportowania i analizy wizualnej. Czy Qlikview, Tableau można używać na Hadoop?
Podstawowe składniki Hadoop HDFS i MapReduce dotyczą przechowywania i przetwarzania danych. HDFS do przechowywania i MapReduce do przetwarzania. Ale podstawowe składniki Hadoop, takie jak Pig i Hive, są używane do analizy. W przypadku tablic raportów wizualnych QlikView można połączyć z platformą Hadoop w celu tworzenia raportów wizualnych.
Amit:
przekonwertuj ciąg na format daty w java
Hadoop Vs. mongoDB
MongoDB jest używany jako „operacyjny” magazyn danych w czasie rzeczywistym, podczas gdy Hadoop jest używany do przetwarzania i analizy danych wsadowych w trybie offline.
mongoDB to zorientowany na dokumenty, pozbawiony schematu magazyn danych, którego można używać w aplikacji internetowej jako zaplecza zamiast RDBMS, takiego jak MySQL, podczas gdy Hadoop jest używany głównie jako skalowalna pamięć masowa i przetwarzanie rozproszone dla dużych ilości danych.
Przeczytaj więcej w naszym Wpis na blogu mongoDB i Hadoop .
Tutaj:
Czy Apache Spark jest częścią Hadoop ?
Apache Spark to szybki i ogólny silnik do przetwarzania danych na dużą skalę. Spark jest szybszy i obsługuje przetwarzanie w pamięci. Silnik wykonywania Spark poszerza typ obciążeń obliczeniowych, które Hadoop może obsługiwać i może działać w klastrze Hadoop 2.0 YARN. Jest to szkieletowy system przetwarzania, który umożliwia przechowywanie obiektów w pamięci (RDD) wraz z możliwością przetwarzania tych obiektów przy użyciu zamknięć Scala. Obsługuje wykres, hurtownię danych, uczenie maszynowe i przetwarzanie strumieniowe.
Jeśli masz klaster Hadoop 2, możesz uruchomić Spark bez konieczności instalacji. W przeciwnym razie Spark można łatwo uruchomić samodzielnie lub na EC2 lub Mesos. Może czytać z HDFS, HBase, Cassandra i dowolnego źródła danych Hadoop.
Przeczytaj więcej na temat Spark tutaj .
Prasad:
Co to jest Apache Flume?
Apache Flume to rozproszony, niezawodny i dostępny system do wydajnego gromadzenia, agregowania i przenoszenia dużych ilości danych dziennika z wielu różnych źródeł do scentralizowanego źródła danych.
Amit:
Bazy danych SQL vs NO-SQL
Bazy danych NoSQL to bazy danych nowej generacji i w większości dotyczą niektórych punktów
- nierelacyjny
- Rozpowszechniane
- otwarte źródło
- skalowalne w poziomie
Często stosuje się więcej cech, takich jak brak schematu, łatwa obsługa replikacji, proste API, ostatecznie spójne / BASE (nie ACID), ogromna ilość danych i więcej. Na przykład kilka wyróżników to:
- Bazy danych NoSQL skalują się w poziomie, dodając więcej serwerów do obsługi większych obciążeń. Z drugiej strony bazy danych SQL są zwykle skalowane w górę w pionie, dodając coraz więcej zasobów do pojedynczego serwera wraz ze wzrostem ruchu.
- Bazy danych SQL wymagały zdefiniowania schematów przed dodaniem jakichkolwiek informacji i danych, ale bazy danych NoSQL są wolne od schematów i nie wymagają wcześniejszego zdefiniowania schematu.
- Bazy danych SQL są oparte na tabelach z wierszami i kolumnami, zgodnie z zasadami RDBMS, podczas gdy bazy danych NoSQL to magazyny dokumentów, par klucz-wartość, wykresów lub szerokokolumnowych.
- Bazy danych SQL używają SQL (strukturalnego języka zapytań) do definiowania i manipulowania danymi. W bazie danych NoSQL zapytania różnią się w zależności od bazy danych.
Popularne bazy danych SQL: MySQL, Oracle, Postgres i MS-SQL
Popularny Bazy danych NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j i CouchDB
Przejrzyj nasze blogi na Hadoop i NoSQL bazy danych i zalety jednej takiej bazy danych:
Koteswararao:
Czy Hadoop ma wbudowaną technologię klastra?
Klaster Hadoop wykorzystuje architekturę Master-Slave. Składa się z pojedynczego urządzenia głównego (NameNode) i klastra podrzędnych (DataNodes) do przechowywania i przetwarzania danych. Platforma Hadoop została zaprojektowana do działania na dużej liczbie maszyn, które nie współużytkują pamięci ani dysków. Te węzły danych są skonfigurowane jako klaster przy użyciu platformy . Hadoop wykorzystuje koncepcję replikacji, aby zapewnić, że co najmniej jedna kopia danych jest przez cały czas dostępna w klastrze. Ponieważ istnieje wiele kopii danych, dane przechowywane na serwerze, który przechodzi w tryb offline lub umiera, mogą być automatycznie replikowane ze znanej dobrej kopii.
Dinesh:
Co to jest praca w Hadoop? Co można osiągnąć dzięki Hiobowi?
W Hadoop zadanie to program MapReduce do przetwarzania / analizy danych. Termin MapReduce w rzeczywistości odnosi się do dwóch oddzielnych i odrębnych zadań, które wykonują programy Hadoop. Pierwszym jest zadanie Mapa, które pobiera zestaw danych i konwertuje go na inny zestaw danych pośrednich, w których poszczególne elementy są dzielone na pary klucz-wartość. Druga część zadania MapReduce, zadanie Reduce, pobiera dane wyjściowe z mapy jako dane wejściowe i łączy pary klucz-wartość w mniejszy zestaw zagregowanych par klucz-wartość. Zgodnie z sekwencją nazwy MapReduce zadanie Reduce jest zawsze wykonywane po zakończeniu zadań Map. Przeczytaj więcej na temat pracy MapReduce .
Sukruth:
Co jest specjalnego w NameNode ?
NameNode jest sercem systemu plików HDFS. Przechowuje metadane, takie jak drzewo katalogów wszystkich plików w systemie plików i śledzi, gdzie w klastrze są przechowywane dane pliku. Rzeczywiste dane są przechowywane w DataNodes jako bloki HDFS.
Aplikacje klienckie komunikują się z NameNode zawsze, gdy chcą zlokalizować plik lub gdy chcą dodać / skopiować / przenieść / usunąć plik. NameNode odpowiada na pomyślne żądania, zwracając listę odpowiednich serwerów DataNodes, na których znajdują się dane. Przeczytaj więcej o architekturze HDFS .
Dinesh:
Kiedy Hadoop 2.0 został wprowadzony na rynek?
Fundacja Apache Software (ASF), grupa open source zarządzająca Hadoop Development, ogłosiła na swoim blogu 15 października 2013 r., Że Hadoop 2.0 jest teraz ogólnie dostępny (GA). To ogłoszenie oznacza, że po długim oczekiwaniu Apache Hadoop 2.0 i YARN są teraz gotowe do wdrożenia produkcyjnego. Więcej informacji Blog.
Dinesh:
Jakie jest kilka przykładów aplikacji innych niż MapReduce Big Data?
MapReduce doskonale nadaje się do wielu aplikacji do rozwiązywania problemów związanych z Big Data, ale nie do wszystkiego, inne modele programowania lepiej obsługują takie wymagania, jak przetwarzanie wykresów (np. Google Pregel / Apache Giraph) i modelowanie iteracyjne z interfejsem przesyłania wiadomości (MPI).
Marish:
Jak dane są organizowane i indeksowane w HDFS?
Dane są dzielone na bloki po 64 MB (konfigurowane przez parametr) i przechowywane w HDFS. NameNode przechowuje informacje o pamięci tych bloków jako ID bloku w swojej pamięci RAM (metadane NameNode). Zadania MapReduce mogą uzyskać dostęp do tych bloków przy użyciu metadanych przechowywanych w pamięci RAM NameNode.
Szaszwat:
Czy możemy używać zarówno MapReduce (MRv1), jak i MRv2 (z YARN) w tym samym klastrze?
Hadoop 2.0 wprowadził nową platformę YARN do pisania i wykonywania różnych aplikacji na Hadoop. Tak więc YARN i MapReduce to dwie różne koncepcje w Hadoop 2.0 i nie powinny być mieszane i używane zamiennie. Właściwe pytanie brzmi „Czy można uruchomić zarówno MRv1, jak i MRv2 w klastrze Hadoop 2.0 z włączoną funkcją YARN?” Odpowiedź na to pytanie brzmi: 'Nie' tak jakby klaster Hadoop mógł być skonfigurowany do uruchamiania zarówno MRv1, jak i MRv2, ale może uruchamiać tylko jeden zestaw demonów w dowolnym momencie. Obie te struktury ostatecznie używają tych samych plików konfiguracyjnych ( yarn-site.xml i mapred-site.xml ) do uruchamiania demonów, dlatego w klastrze Hadoop można włączyć tylko jedną z dwóch konfiguracji.
Lalka:
Jaka jest różnica między MapReduce nowej generacji (MRv2) a YARN?
YARN i MapReduce nowej generacji (MRv2) to dwie różne koncepcje i technologie w Hadoop 2.0. YARN to framework oprogramowania, który może być używany do uruchamiania nie tylko MRv2, ale także innych aplikacji. MRv2 to framework aplikacji napisany przy użyciu YARN API i działa w YARN.
Bharat:
Czy Hadoop 2.0 zapewnia wsteczną kompatybilność dla aplikacji Hadoop 1.x?
Neha:
Czy migracja Hadoop 1.0 do 2.0 wymaga ciężkiego kodu aplikacji migracja?
Nie, większość aplikacji opracowanych przy użyciu interfejsów API „org.apache.hadoop.mapred” może działać w YARN bez żadnej ponownej kompilacji. YARN jest binarnie kompatybilny z aplikacjami MRv1, a „bin / hadoop” może być używany do składania tych wniosków w YARN. Przeczytaj więcej na ten temat tutaj .
Sherin:
konwerter binarny na dziesiętny java
Co się stanie, jeśli węzeł usługi Resource Manager ulegnie awarii w Hadoop 2.0?
Począwszy od wersji 2.4.0 platformy Hadoop, dostępna jest również obsługa wysokiej dostępności dla usługi Resource Manager. ResourceManager używa Apache ZooKeeper do przełączania awaryjnego. Gdy węzeł Menedżera zasobów ulegnie awarii, węzeł pomocniczy może szybko przywrócić stan klastra zapisany w ZooKeeper. ResourceManager w trybie failover ponownie uruchamia wszystkie kolejkowane i uruchomione aplikacje.
Sabbirali:
Czy struktura Hadoop Apache działa na Cloudera Hadoop?
Apache Hadoop został wprowadzony w 2005 roku z podstawowym silnikiem przetwarzania MapReduce do obsługi rozproszonego przetwarzania dużych obciążeń danych przechowywanych w HDFS. Jest to projekt Open Source i ma wiele dystrybucji (podobnie jak Linux). Cloudera Hadoop (CDH) jest jedną z takich dystrybucji firmy Cloudera. Inne podobne dystrybucje to HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights itp.
Arulvadivel:
Czy jest jakiś łatwy sposób na zainstalowanie Hadoop na moim laptopie i wypróbowanie migracji bazy danych Oracle na Hadoop?
Możesz początek z HortonWorks Sandbox lub Cloudera Quick VM na Twoim laptopie (z co najmniej 4 GB RAM i procesorem i3 lub nowszym). Użyj SQOOP, aby przenieść dane z Oracle do Hadoop, jak wyjaśniono tutaj .
Bhabani:
Jakie są najlepsze dostępne książki do nauki Hadoop?
Zacząć od Hadoop: ostateczny przewodnik przez Toma White'a i Operacje Hadoop przez Erica Sammera.
Mahendra:
Czy jest dostępna jakaś lektura dotycząca Hadoop 2.0, podobnie jak Hadoop ostateczny przewodnik?
Przejrzyj najpóźniejszy przyjazd na półkach z książkami napisanymi przez kilku twórców Hadoop 2.0.
Wkrótce więcej pytań z tej serii.