MongoDB z Hadoop i powiązanymi technologiami Big Data



MongoDB z Hadoop i powiązanymi technologiami Big Data to potężne połączenie zapewniające rozwiązanie złożonej sytuacji analitycznej.

Relacyjne bazy danych przez długi czas wystarczały do ​​obsługi małych lub średnich zbiorów danych. Jednak kolosalne tempo przyrostu danych sprawia, że ​​tradycyjne podejście do przechowywania i wyszukiwania danych jest niewykonalne. Ten problem rozwiązują nowsze technologie, które radzą sobie z Big Data. Hadoop, Hive i Hbase to popularne platformy obsługujące tego rodzaju duże zbiory danych. Bazy danych NoSQL lub Not Only SQL, takie jak MongoDB, zapewniają mechanizm przechowywania i pobierania danych w przegranym modelu spójności z zaletami, takimi jak:

def __init__
  • Skalowanie poziome
  • Wyższa dostępność
  • Szybszy dostęp

Zespół inżynierów MongoDB niedawno zaktualizował łącznik MongoDB dla Hadoop, aby zapewnić lepszą integrację. Ułatwia to użytkownikom Hadoop:





  • Zintegruj dane w czasie rzeczywistym z MongoDB z Hadoop, aby uzyskać dogłębną analizę offline.
  • Łącznik ujawnia analityczną moc MapReduce Hadoop na dane aplikacji na żywo z MongoDB, szybciej i wydajniej wykorzystując duże ilości danych.
  • Złącze przedstawia MongoDB jako system plików zgodny z Hadoop, umożliwiając zadaniom MapReduce bezpośrednie odczytywanie z MongoDB bez uprzedniego kopiowania go do HDFS (system plików Hadoop), eliminując w ten sposób potrzebę przenoszenia terabajtów danych przez sieć.
  • Zadania MapReduce mogą przekazywać zapytania jako filtry, co pozwala uniknąć konieczności skanowania całych kolekcji, a także może korzystać z bogatych możliwości indeksowania MongoDB, w tym indeksów geograficznych, wyszukiwania tekstu, tablic, złożonych i rzadkich.
  • Czytając z MongoDB, wyniki zadań Hadoop mogą być również zapisywane z powrotem do MongoDB w celu obsługi procesów operacyjnych w czasie rzeczywistym i zapytań ad-hoc.

Przykłady użycia Hadoop i MongoDB:

Spójrzmy na ogólny opis tego, jak MongoDB i Hadoop mogą pasować do siebie w typowym stosie Big Data. Przede wszystkim mamy:

  • MongoDB używane jako „Operacyjny” magazyn danych w czasie rzeczywistym
  • Hadoop dla przetwarzanie i analiza danych wsadowych offline

Czytaj dalej, aby dowiedzieć się, dlaczego i jak MongoDB było używane przez firmy i organizacje, takie jak Aadhar, Shutterfly, Metlife i eBay .



Zastosowanie MongoDB z Hadoop w agregacji wsadowej:

W większości scenariuszy wbudowana funkcja agregacji zapewniana przez MongoDB jest wystarczająca do analizy danych. Jednak w niektórych przypadkach może być konieczna znacznie bardziej złożona agregacja danych. W tym miejscu Hadoop może zapewnić potężną strukturę do złożonych analiz.

W tym scenariuszu:

  • Dane są pobierane z MongoDB i przetwarzane w Hadoop za pośrednictwem co najmniej jednego zadania MapReduce. Dane mogą również pochodzić z innych miejsc w ramach tych zadań MapReduce w celu opracowania rozwiązania z wieloma źródłami danych.
  • Dane wyjściowe z tych zadań MapReduce można następnie zapisać z powrotem do MongoDB w celu wykonania zapytań na późniejszym etapie i dowolnej analizy ad-hoc.
  • Aplikacje zbudowane w oparciu o MongoDB mogą zatem wykorzystywać informacje z analizy wsadowej do prezentowania ich klientowi końcowemu lub do włączania innych funkcji podrzędnych.

Agregacja Hadoop Mongo DB



Zastosowanie w hurtowni danych:

W typowej konfiguracji produkcyjnej dane aplikacji mogą znajdować się w wielu magazynach danych, z których każda ma własny język zapytań i funkcje. Aby zmniejszyć złożoność w tych scenariuszach, Hadoop może służyć jako hurtownia danych i działać jako scentralizowane repozytorium danych z różnych źródeł.

co to jest funkcja wirtualna java

W takim scenariuszu:

  • Okresowe zadania MapReduce ładują dane z MongoDB do Hadoop.
  • Gdy dane z MongoDB i innych źródeł są dostępne na platformie Hadoop, można wykonać zapytania dotyczące większego zestawu danych.
  • Analitycy danych mają teraz możliwość używania MapReduce lub Pig do tworzenia zadań, które wysyłają zapytania do większych zestawów danych, które zawierają dane z MongoDB.

Zespół pracujący za MongoDB zapewnił, że dzięki bogatej integracji z technologiami Big Data, takimi jak Hadoop, jest w stanie dobrze zintegrować się ze stosem Big Data i pomóc rozwiązać niektóre złożone problemy architektoniczne, jeśli chodzi o przechowywanie, odzyskiwanie, przetwarzanie, agregowanie i magazynowanie danych . Bądź na bieżąco z naszym nadchodzącym postem na temat perspektyw zawodowych dla tych, którzy zdecydują się na Hadoop z MongoDB. Jeśli już pracujesz z Hadoop lub po prostu kupujesz MongoDB, sprawdź kursy, które oferujemy dla MongoDB