Apache Flink: platforma analizy dużych zbiorów danych nowej generacji do przetwarzania strumieniowego i wsadowego



Dowiedz się wszystkiego o Apache Flink i konfigurowaniu klastra Flink na tym blogu. Flink obsługuje przetwarzanie w czasie rzeczywistym i wsadowo i jest technologią Big Data, którą trzeba obserwować w analizie Big Data.

Apache Flink to platforma typu open source do rozproszonego przetwarzania strumieniowego i wsadowego danych. Może działać w systemach Windows, Mac OS i Linux OS. W tym poście na blogu omówimy, jak lokalnie skonfigurować klaster Flink. Pod wieloma względami jest podobny do Sparka - ma interfejsy API do przetwarzania grafów i uczenia maszynowego, takie jak Apache Spark - ale Apache Flink i Apache Spark nie są dokładnie tym samym.





Aby skonfigurować klaster Flink, musisz mieć w systemie zainstalowaną wersję Java 7.x lub nowszą. Ponieważ mam Hadoop-2.2.0 zainstalowany na moim końcu na CentOS (Linux), pobrałem pakiet Flink, który jest kompatybilny z Hadoop 2.x. Uruchom poniższe polecenie, aby pobrać pakiet Flink.

Komenda: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Rozpakuj plik, aby uzyskać katalog flink.

Komenda: tar -xvf Pliki do pobrania / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Komenda: ls

Dodaj zmienne środowiskowe Flink w pliku .bashrc.

Komenda: sudo gedit .bashrc

Musisz uruchomić poniższe polecenie, aby zmiany w pliku .bashrc zostały aktywowane

Komenda: źródło .bashrc

Teraz przejdź do katalogu flink i uruchom klaster lokalnie.

Komenda: cd hefty-1.0.0

Komenda: bin / start-local.sh

Po uruchomieniu klastra będzie można zobaczyć uruchomionego nowego demona JobManager.

Komenda: jps

Otwórz przeglądarkę i przejdź do http: // localhost: 8081, aby zobaczyć interfejs sieciowy Apache Flink.

Uruchommy prosty przykład zliczania słów przy użyciu Apache Flink.

Przed uruchomieniem przykładu zainstaluj netcat w swoim systemie (sudo yum install nc).

Teraz w nowym terminalu uruchom poniższe polecenie.

Komenda: nc -lk 9000

Uruchom poniższe polecenie w terminalu flink. To polecenie uruchamia program, który pobiera przesyłane strumieniowo dane jako dane wejściowe i wykonuje operację zliczania słów na tych przesyłanych strumieniowo danych.

Komenda: bin / flink run przykłady / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000

W interfejsie internetowym będziesz mógł zobaczyć zadanie w stanie uruchomionym.

Uruchom poniższe polecenie w nowym terminalu, spowoduje to wydrukowanie danych przesyłanych strumieniowo i przetwarzanych.

Komenda: tail -f log / flink - * - jobmanager - *. out

przesyłać pliki do instancji ec2 linux

Teraz przejdź do terminala, w którym uruchomiłeś netcat i wpisz coś.

W momencie, gdy naciśniesz klawisz Enter na swoim słowie kluczowym po wpisaniu pewnych danych na terminalu netcat, operacja wordcount zostanie zastosowana na tych danych, a wynik zostanie wydrukowany tutaj (dziennik menedżera zadań flink) w ciągu milisekund!

W bardzo krótkim czasie dane zostaną przesłane strumieniowo, przetworzone i wydrukowane.

O Apache Flink można dowiedzieć się znacznie więcej. Poruszamy inne tematy Flink na naszym nadchodzącym blogu.

Masz do nas pytanie? Wspomnij o nich w sekcji komentarzy, a skontaktujemy się z Tobą.

Powiązane posty:

Apache Falcon: nowa platforma zarządzania danymi dla ekosystemu Hadoop