Hadoop, jak wszyscy wiemy, jest chłopcem na plakacie big data. Jako platforma programowa zdolna do przetwarzania słoniowych proporcji danych, Hadoop uplasował się na szczycie listy modnych słów kluczowych CIO.
Jednak bezprecedensowy rozwój stosu w pamięci wprowadził ekosystem dużych zbiorów danych do nowej alternatywy dla analityki. Sposób analizy MapReduce zostaje zastąpiony nowym podejściem, które umożliwia analizę zarówno w ramach platformy Hadoop, jak i poza nią. Apache Spark to nowe oblicze analizy dużych zbiorów danych.
Entuzjaści Big Data certyfikowali Apache Spark jako najgorętszy silnik obliczeniowy dla dużych zbiorów danych na świecie. Szybko usuwa MapReduce i Javę ze swoich stanowisk, a trendy w zatrudnieniu odzwierciedlają tę zmianę. Według ankiety przeprowadzonej przez TypeSafe, 71% globalnych programistów Java obecnie ocenia lub bada platformę Spark, a 35% z nich już zaczęło z niego korzystać. Eksperci Spark są obecnie poszukiwani, aw nadchodzących tygodniach liczba ofert pracy związanych ze Spark ma wzrosnąć tylko do szczytu.
Więc co takiego jest w Apache Spark, że pojawia się na szczycie każdej listy zadań CIO?
Oto kilka interesujących funkcji Apache Spark:
- Integracja z Hadoop - Spark może pracować z plikami przechowywanymi w HDFS.
- Interaktywna powłoka Sparka - Spark jest napisany w Scali i ma własną wersję interpretera Scali.
- Spark’s Analytic Suite - Spark jest wyposażony w narzędzia do interaktywnej analizy zapytań, przetwarzania i analizy wykresów na dużą skalę oraz analizy w czasie rzeczywistym.
- Odporne rozproszone zbiory danych (RDD) - RDD to rozproszone obiekty, które mogą być buforowane w pamięci, w klastrze węzłów obliczeniowych. Są to podstawowe obiekty danych używane w Spark.
- Operatorzy rozproszeni - Oprócz MapReduce istnieje wiele innych operatorów, których można używać na RDD.
Organizacje takie jak NASA, Yahoo i Adobe zobowiązały się do współpracy ze Spark. To właśnie ma do powiedzenia John Tripier, Alliances and Ecosystem Lead w Databricks: „Adaptacja Apache Spark przez duże i małe firmy rośnie w niewiarygodnym tempie w wielu branżach, a zapotrzebowanie na programistów z certyfikowaną wiedzą fachową szybko rośnie naśladowanie ”. Nigdy nie było lepszego czasu na naukę Spark, jeśli masz doświadczenie w Hadoop.
Edureka specjalnie przygotowała kurs na temat Apache Spark & Scala, współtworzony przez praktyków z branży. Aby uzyskać zróżnicowane doświadczenie e-learningowe na żywo wraz z projektami branżowymi, sprawdź nasz kurs. Wkrótce zaczną się nowe partie, więc sprawdź kurs tutaj: .
Masz do nas pytanie? Wspomnij o tym w sekcji komentarzy, a my skontaktujemy się z Tobą.
Powiązane posty:
java konwertuje ciąg znaków na datę