4 sposoby wspólnego korzystania z języka R i Hadoop



R i Hadoop dość dobrze uzupełniają się pod względem wizualizacji i analityki dużych zbiorów danych. W tym poście na blogu omówiono 4 sposoby ich wspólnego wykorzystania.

Hadoop to przełomowa platforma programistyczna oparta na Javie, która obsługuje przetwarzanie dużych zbiorów danych w rozproszonym środowisku obliczeniowym, podczas gdy R to język programowania i środowisko oprogramowania do obliczeń statystycznych i grafiki. Język R jest szeroko stosowany wśród statystyków i eksploratorów danych do tworzenia oprogramowania statystycznego i przeprowadzania analizy danych. W obszarach interaktywnej analizy danych, statystyk ogólnego przeznaczenia i modelowania predykcyjnego, R zyskał ogromną popularność dzięki możliwości klasyfikacji, tworzenia klastrów i rankingu.

KM





Hadoop i R dość dobrze uzupełniają się pod względem wizualizacji i analityki dużych zbiorów danych.

ustaw java classpath windows 7

Korzystanie z R i Hadoop

Istnieją cztery różne sposoby jednoczesnego używania Hadoop i R:



1. RHadoop

RHadoop to zbiór trzech pakietów języka R: rmr, rhdfs i rhbase. Pakiet rmr zapewnia funkcjonalność Hadoop MapReduce w języku R, rhdfs zapewnia zarządzanie plikami HDFS w języku R, a rhbase zapewnia zarządzanie bazą danych HBase z poziomu R. Każdy z tych pakietów podstawowych może być używany do lepszego analizowania i zarządzania danymi platformy Hadoop.

2. ORCH



ORCH to skrót od Oracle R Connector for Hadoop. Jest to zbiór pakietów języka R, które zapewniają odpowiednie interfejsy do pracy z tabelami Hive, infrastrukturą obliczeniową Apache Hadoop, lokalnym środowiskiem języka R i tabelami bazy danych Oracle. Ponadto ORCH zapewnia również predykcyjne techniki analityczne, które można zastosować do danych w plikach HDFS.

3. RHIPE

RHIPE to pakiet języka R, który udostępnia interfejs API do korzystania z Hadoop. RHIPE oznacza R i Hadoop Integrated Programming Environment i zasadniczo jest RHadoop z innym API.

Cztery. Przesyłanie strumieniowe Hadoop

Hadoop Streaming to narzędzie, które umożliwia użytkownikom tworzenie i uruchamianie zadań z dowolnymi plikami wykonywalnymi jako maperem i / lub reduktorem. Korzystając z systemu przesyłania strumieniowego, można rozwijać działające zadania Hadoop z wystarczającą znajomością języka Java, aby napisać dwa skrypty powłoki, które działają w tandemie.

Połączenie R i Hadoop pojawia się jako niezbędny zestaw narzędzi dla osób pracujących ze statystykami i dużymi zbiorami danych. Jednak niektórzy entuzjaści Hadoopa podnieśli czerwoną flagę, mając do czynienia z niezwykle dużymi fragmentami Big Data. Twierdzą, że zaletą języka R nie jest jego składnia, ale wyczerpująca biblioteka prymitywów do wizualizacji i statystyki. Te biblioteki są zasadniczo nierozproszone, co sprawia, że ​​wyszukiwanie danych jest zajęciem czasochłonnym. Jest to nieodłączna wada R i jeśli zdecydujesz się ją przeoczyć, R i Hadoop w tandemie nadal mogą zdziałać cuda.

A teraz zobaczmy demo:

ograniczenia w sql z przykładem

co to jest mvc w java

Masz do nas pytanie? Wspomnij o nich w sekcji komentarzy, a my skontaktujemy się z Tobą.

Powiązane posty: