Hadoop to przełomowa platforma programistyczna oparta na Javie, która obsługuje przetwarzanie dużych zbiorów danych w rozproszonym środowisku obliczeniowym, podczas gdy R to język programowania i środowisko oprogramowania do obliczeń statystycznych i grafiki. Język R jest szeroko stosowany wśród statystyków i eksploratorów danych do tworzenia oprogramowania statystycznego i przeprowadzania analizy danych. W obszarach interaktywnej analizy danych, statystyk ogólnego przeznaczenia i modelowania predykcyjnego, R zyskał ogromną popularność dzięki możliwości klasyfikacji, tworzenia klastrów i rankingu.
Hadoop i R dość dobrze uzupełniają się pod względem wizualizacji i analityki dużych zbiorów danych.
ustaw java classpath windows 7
Korzystanie z R i Hadoop
Istnieją cztery różne sposoby jednoczesnego używania Hadoop i R:
1. RHadoop
RHadoop to zbiór trzech pakietów języka R: rmr, rhdfs i rhbase. Pakiet rmr zapewnia funkcjonalność Hadoop MapReduce w języku R, rhdfs zapewnia zarządzanie plikami HDFS w języku R, a rhbase zapewnia zarządzanie bazą danych HBase z poziomu R. Każdy z tych pakietów podstawowych może być używany do lepszego analizowania i zarządzania danymi platformy Hadoop.
2. ORCH
ORCH to skrót od Oracle R Connector for Hadoop. Jest to zbiór pakietów języka R, które zapewniają odpowiednie interfejsy do pracy z tabelami Hive, infrastrukturą obliczeniową Apache Hadoop, lokalnym środowiskiem języka R i tabelami bazy danych Oracle. Ponadto ORCH zapewnia również predykcyjne techniki analityczne, które można zastosować do danych w plikach HDFS.
3. RHIPE
RHIPE to pakiet języka R, który udostępnia interfejs API do korzystania z Hadoop. RHIPE oznacza R i Hadoop Integrated Programming Environment i zasadniczo jest RHadoop z innym API.
Cztery. Przesyłanie strumieniowe Hadoop
Hadoop Streaming to narzędzie, które umożliwia użytkownikom tworzenie i uruchamianie zadań z dowolnymi plikami wykonywalnymi jako maperem i / lub reduktorem. Korzystając z systemu przesyłania strumieniowego, można rozwijać działające zadania Hadoop z wystarczającą znajomością języka Java, aby napisać dwa skrypty powłoki, które działają w tandemie.
Połączenie R i Hadoop pojawia się jako niezbędny zestaw narzędzi dla osób pracujących ze statystykami i dużymi zbiorami danych. Jednak niektórzy entuzjaści Hadoopa podnieśli czerwoną flagę, mając do czynienia z niezwykle dużymi fragmentami Big Data. Twierdzą, że zaletą języka R nie jest jego składnia, ale wyczerpująca biblioteka prymitywów do wizualizacji i statystyki. Te biblioteki są zasadniczo nierozproszone, co sprawia, że wyszukiwanie danych jest zajęciem czasochłonnym. Jest to nieodłączna wada R i jeśli zdecydujesz się ją przeoczyć, R i Hadoop w tandemie nadal mogą zdziałać cuda.
A teraz zobaczmy demo:
ograniczenia w sql z przykładem
co to jest mvc w java
Masz do nas pytanie? Wspomnij o nich w sekcji komentarzy, a my skontaktujemy się z Tobą.
Powiązane posty: