Relacyjne bazy danych przez długi czas wystarczały do obsługi małych lub średnich zbiorów danych. Jednak kolosalne tempo przyrostu danych sprawia, że tradycyjne podejście do przechowywania i wyszukiwania danych jest niewykonalne. Ten problem rozwiązują nowsze technologie, które radzą sobie z Big Data. Hadoop, Hive i Hbase to popularne platformy obsługujące tego rodzaju duże zbiory danych. Bazy danych NoSQL lub Not Only SQL, takie jak MongoDB, zapewniają mechanizm przechowywania i pobierania danych w przegranym modelu spójności z zaletami, takimi jak:
def __init__
- Skalowanie poziome
- Wyższa dostępność
- Szybszy dostęp
Zespół inżynierów MongoDB niedawno zaktualizował łącznik MongoDB dla Hadoop, aby zapewnić lepszą integrację. Ułatwia to użytkownikom Hadoop:
- Zintegruj dane w czasie rzeczywistym z MongoDB z Hadoop, aby uzyskać dogłębną analizę offline.
- Łącznik ujawnia analityczną moc MapReduce Hadoop na dane aplikacji na żywo z MongoDB, szybciej i wydajniej wykorzystując duże ilości danych.
- Złącze przedstawia MongoDB jako system plików zgodny z Hadoop, umożliwiając zadaniom MapReduce bezpośrednie odczytywanie z MongoDB bez uprzedniego kopiowania go do HDFS (system plików Hadoop), eliminując w ten sposób potrzebę przenoszenia terabajtów danych przez sieć.
- Zadania MapReduce mogą przekazywać zapytania jako filtry, co pozwala uniknąć konieczności skanowania całych kolekcji, a także może korzystać z bogatych możliwości indeksowania MongoDB, w tym indeksów geograficznych, wyszukiwania tekstu, tablic, złożonych i rzadkich.
- Czytając z MongoDB, wyniki zadań Hadoop mogą być również zapisywane z powrotem do MongoDB w celu obsługi procesów operacyjnych w czasie rzeczywistym i zapytań ad-hoc.
Przykłady użycia Hadoop i MongoDB:
Spójrzmy na ogólny opis tego, jak MongoDB i Hadoop mogą pasować do siebie w typowym stosie Big Data. Przede wszystkim mamy:
- MongoDB używane jako „Operacyjny” magazyn danych w czasie rzeczywistym
- Hadoop dla przetwarzanie i analiza danych wsadowych offline
Czytaj dalej, aby dowiedzieć się, dlaczego i jak MongoDB było używane przez firmy i organizacje, takie jak Aadhar, Shutterfly, Metlife i eBay .
Zastosowanie MongoDB z Hadoop w agregacji wsadowej:
W większości scenariuszy wbudowana funkcja agregacji zapewniana przez MongoDB jest wystarczająca do analizy danych. Jednak w niektórych przypadkach może być konieczna znacznie bardziej złożona agregacja danych. W tym miejscu Hadoop może zapewnić potężną strukturę do złożonych analiz.
W tym scenariuszu:
- Dane są pobierane z MongoDB i przetwarzane w Hadoop za pośrednictwem co najmniej jednego zadania MapReduce. Dane mogą również pochodzić z innych miejsc w ramach tych zadań MapReduce w celu opracowania rozwiązania z wieloma źródłami danych.
- Dane wyjściowe z tych zadań MapReduce można następnie zapisać z powrotem do MongoDB w celu wykonania zapytań na późniejszym etapie i dowolnej analizy ad-hoc.
- Aplikacje zbudowane w oparciu o MongoDB mogą zatem wykorzystywać informacje z analizy wsadowej do prezentowania ich klientowi końcowemu lub do włączania innych funkcji podrzędnych.
Zastosowanie w hurtowni danych:
W typowej konfiguracji produkcyjnej dane aplikacji mogą znajdować się w wielu magazynach danych, z których każda ma własny język zapytań i funkcje. Aby zmniejszyć złożoność w tych scenariuszach, Hadoop może służyć jako hurtownia danych i działać jako scentralizowane repozytorium danych z różnych źródeł.
co to jest funkcja wirtualna java
W takim scenariuszu:
- Okresowe zadania MapReduce ładują dane z MongoDB do Hadoop.
- Gdy dane z MongoDB i innych źródeł są dostępne na platformie Hadoop, można wykonać zapytania dotyczące większego zestawu danych.
- Analitycy danych mają teraz możliwość używania MapReduce lub Pig do tworzenia zadań, które wysyłają zapytania do większych zestawów danych, które zawierają dane z MongoDB.
Zespół pracujący za MongoDB zapewnił, że dzięki bogatej integracji z technologiami Big Data, takimi jak Hadoop, jest w stanie dobrze zintegrować się ze stosem Big Data i pomóc rozwiązać niektóre złożone problemy architektoniczne, jeśli chodzi o przechowywanie, odzyskiwanie, przetwarzanie, agregowanie i magazynowanie danych . Bądź na bieżąco z naszym nadchodzącym postem na temat perspektyw zawodowych dla tych, którzy zdecydują się na Hadoop z MongoDB. Jeśli już pracujesz z Hadoop lub po prostu kupujesz MongoDB, sprawdź kursy, które oferujemy dla MongoDB