Apache Flink to platforma typu open source do rozproszonego przetwarzania strumieniowego i wsadowego danych. Może działać w systemach Windows, Mac OS i Linux OS. W tym poście na blogu omówimy, jak lokalnie skonfigurować klaster Flink. Pod wieloma względami jest podobny do Sparka - ma interfejsy API do przetwarzania grafów i uczenia maszynowego, takie jak Apache Spark - ale Apache Flink i Apache Spark nie są dokładnie tym samym.
Aby skonfigurować klaster Flink, musisz mieć w systemie zainstalowaną wersję Java 7.x lub nowszą. Ponieważ mam Hadoop-2.2.0 zainstalowany na moim końcu na CentOS (Linux), pobrałem pakiet Flink, który jest kompatybilny z Hadoop 2.x. Uruchom poniższe polecenie, aby pobrać pakiet Flink.
Komenda: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Rozpakuj plik, aby uzyskać katalog flink.
Komenda: tar -xvf Pliki do pobrania / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Komenda: ls
Dodaj zmienne środowiskowe Flink w pliku .bashrc.
Komenda: sudo gedit .bashrc
Musisz uruchomić poniższe polecenie, aby zmiany w pliku .bashrc zostały aktywowane
Komenda: źródło .bashrc
Teraz przejdź do katalogu flink i uruchom klaster lokalnie.
Komenda: cd hefty-1.0.0
Komenda: bin / start-local.sh
Po uruchomieniu klastra będzie można zobaczyć uruchomionego nowego demona JobManager.
Komenda: jps
Otwórz przeglądarkę i przejdź do http: // localhost: 8081, aby zobaczyć interfejs sieciowy Apache Flink.
Uruchommy prosty przykład zliczania słów przy użyciu Apache Flink.
Przed uruchomieniem przykładu zainstaluj netcat w swoim systemie (sudo yum install nc).
Teraz w nowym terminalu uruchom poniższe polecenie.
Komenda: nc -lk 9000
Uruchom poniższe polecenie w terminalu flink. To polecenie uruchamia program, który pobiera przesyłane strumieniowo dane jako dane wejściowe i wykonuje operację zliczania słów na tych przesyłanych strumieniowo danych.
Komenda: bin / flink run przykłady / streaming / SocketTextStreamWordCount.jar –hostname localhost –port 9000
W interfejsie internetowym będziesz mógł zobaczyć zadanie w stanie uruchomionym.
Uruchom poniższe polecenie w nowym terminalu, spowoduje to wydrukowanie danych przesyłanych strumieniowo i przetwarzanych.
Komenda: tail -f log / flink - * - jobmanager - *. out
przesyłać pliki do instancji ec2 linux
Teraz przejdź do terminala, w którym uruchomiłeś netcat i wpisz coś.
W momencie, gdy naciśniesz klawisz Enter na swoim słowie kluczowym po wpisaniu pewnych danych na terminalu netcat, operacja wordcount zostanie zastosowana na tych danych, a wynik zostanie wydrukowany tutaj (dziennik menedżera zadań flink) w ciągu milisekund!
W bardzo krótkim czasie dane zostaną przesłane strumieniowo, przetworzone i wydrukowane.
O Apache Flink można dowiedzieć się znacznie więcej. Poruszamy inne tematy Flink na naszym nadchodzącym blogu.
Masz do nas pytanie? Wspomnij o nich w sekcji komentarzy, a skontaktujemy się z Tobą.
Powiązane posty:
Apache Falcon: nowa platforma zarządzania danymi dla ekosystemu Hadoop