Programowanie świń: stwórz swój pierwszy skrypt Apache Pig
W naszym , dowiemy się teraz, jak utworzyć skrypt Apache Pig. Skrypty Apache Pig są używane do wspólnego wykonywania zestawu poleceń Apache Pig. Pomaga to zmniejszyć czas i wysiłek włożony w pisanie i wykonywanie każdego polecenia ręcznie, robiąc to w programowaniu Pig.Jest również integralną częścią .Ten blog jest przewodnikiem krok po kroku, który pomoże Ci stworzyć pierwszy skrypt Apache Pig.
Tryby wykonywania skryptów Apache Pig
Tryb lokalny : W „trybie lokalnym” można wykonać skrypt pig w lokalnym systemie plików. W takim przypadku nie musisz przechowywać danych w systemie plików Hadoop HDFS, zamiast tego możesz pracować z danymi przechowywanymi w samym lokalnym systemie plików.
Tryb MapReduce : W „trybie MapReduce” dane muszą być przechowywane w systemie plików HDFS i można je przetwarzać za pomocą skryptu świni.
Skrypt Apache Pig w trybie MapReduce
Powiedzmy, że naszym zadaniem jest odczytanie danych z pliku danych i wyświetlenie wymaganej zawartości na terminalu jako danych wyjściowych.
Przykładowy plik danych zawiera następujące dane:
Zapisz plik tekstowy pod nazwą „informacje.txt”
Przykładowy plik danych zawiera pięć kolumn Imię , Nazwisko , MobileNo , Miasto , i Zawód oddzielone klawisz TAB . Naszym zadaniem jest odczytanie zawartości tego pliku z HDFS i wyświetlenie wszystkich kolumn tych rekordów.
Aby przetworzyć te dane za pomocą Pig, ten plik powinien znajdować się w Apache Hadoop HDFS.
Komenda : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
jak wygenerować losowy ciąg w java
Krok 1: Pisanie scenariusza Pig
Utwórz i otwórz plik skryptu Apache Pig w edytorze (np. Gedit).
Komenda : sudo gedit /home/edureka/output.pig
To polecenie utworzy plik „output.pig” w katalogu domowym użytkownika edureka.
Napiszmy kilka komend PIG w pliku output.pig.
A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generuje FName, MobileNo, Profession DUMP b
Zapisz i zamknij plik.
- Pierwsze polecenie ładuje plik „information.txt” do zmiennej A ze schematem pośrednim (FName, LName, MobileNo, City, Profession).
- Drugie polecenie ładuje wymagane dane ze zmiennej A do zmiennej B.
- Trzecia linia wyświetla zawartość zmiennej B na terminalu / konsoli.
Krok 2: Wykonaj skrypt Apache Pig
Aby wykonać skrypt świni w trybie HDFS, uruchom następujące polecenie:
Komenda : pig /home/edureka/output.pig
Po zakończeniu wykonywania przejrzyj wynik. Poniższe obrazy pokazują wyniki i ich mapę pośrednią oraz redukują funkcje.
jak zainstalować php w systemie Windows
Poniższy obrazek pokazuje, że skrypt został wykonany pomyślnie.
Poniższy obrazek przedstawia wynik działania naszego skryptu.
Gratulujemy pomyślnego wykonania pierwszego skryptu Apache Pig!
Teraz już wiesz, jak stworzyć i uruchomić skrypt Apache Pig. Stąd nasz następny blog w omówię, jak to zrobić utwórz UDF (User Defined Functions) w Apache Pig i wykonaj go w trybie MapReduce / HDFS.
Teraz, gdy utworzyłeś i wykonałeś skrypt Apache Pig, sprawdź plik autorstwa Edureka, zaufanej firmy zajmującej się edukacją online, z siecią ponad 250 000 zadowolonych uczniów rozsianych po całym świecie. Szkolenie Edureka Big Data Hadoop Certification Training pomaga uczniom stać się ekspertami w dziedzinie HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop, wykorzystując przypadki użycia w czasie rzeczywistym w domenie handlu detalicznego, mediów społecznościowych, lotnictwa, turystyki, finansów.
Masz do nas pytanie? Wspomnij o tym w sekcji komentarzy, a my skontaktujemy się z Tobą.