Programowanie świń: stwórz swój pierwszy skrypt Apache Pig



Przeczytaj ten wpis na blogu, aby utworzyć swój pierwszy skrypt Apache Pig. Skrypty Apache Pig są używane do wspólnego wykonywania zestawu poleceń Apache Pig.

Programowanie świń: stwórz swój pierwszy skrypt Apache Pig

W naszym , dowiemy się teraz, jak utworzyć skrypt Apache Pig. Skrypty Apache Pig są używane do wspólnego wykonywania zestawu poleceń Apache Pig. Pomaga to zmniejszyć czas i wysiłek włożony w pisanie i wykonywanie każdego polecenia ręcznie, robiąc to w programowaniu Pig.Jest również integralną częścią .Ten blog jest przewodnikiem krok po kroku, który pomoże Ci stworzyć pierwszy skrypt Apache Pig.

Tryby wykonywania skryptów Apache Pig

Tryb lokalny : W „trybie lokalnym” można wykonać skrypt pig w lokalnym systemie plików. W takim przypadku nie musisz przechowywać danych w systemie plików Hadoop HDFS, zamiast tego możesz pracować z danymi przechowywanymi w samym lokalnym systemie plików.





Tryb MapReduce : W „trybie MapReduce” dane muszą być przechowywane w systemie plików HDFS i można je przetwarzać za pomocą skryptu świni.

Skrypt Apache Pig w trybie MapReduce

Powiedzmy, że naszym zadaniem jest odczytanie danych z pliku danych i wyświetlenie wymaganej zawartości na terminalu jako danych wyjściowych.



Przykładowy plik danych zawiera następujące dane:

Plik informacyjny txt - Apache Pig Script - Edureka

Zapisz plik tekstowy pod nazwą „informacje.txt”



Przykładowy plik danych zawiera pięć kolumn Imię , Nazwisko , MobileNo , Miasto , i Zawód oddzielone klawisz TAB . Naszym zadaniem jest odczytanie zawartości tego pliku z HDFS i wyświetlenie wszystkich kolumn tych rekordów.

Aby przetworzyć te dane za pomocą Pig, ten plik powinien znajdować się w Apache Hadoop HDFS.

Komenda : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

jak wygenerować losowy ciąg w java

Krok 1: Pisanie scenariusza Pig

Utwórz i otwórz plik skryptu Apache Pig w edytorze (np. Gedit).

Komenda : sudo gedit /home/edureka/output.pig

To polecenie utworzy plik „output.pig” w katalogu domowym użytkownika edureka.

Napiszmy kilka komend PIG w pliku output.pig.

A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generuje FName, MobileNo, Profession DUMP b

Zapisz i zamknij plik.

  • Pierwsze polecenie ładuje plik „information.txt” do zmiennej A ze schematem pośrednim (FName, LName, MobileNo, City, Profession).
  • Drugie polecenie ładuje wymagane dane ze zmiennej A do zmiennej B.
  • Trzecia linia wyświetla zawartość zmiennej B na terminalu / konsoli.

Krok 2: Wykonaj skrypt Apache Pig

Aby wykonać skrypt świni w trybie HDFS, uruchom następujące polecenie:

Komenda : pig /home/edureka/output.pig

Po zakończeniu wykonywania przejrzyj wynik. Poniższe obrazy pokazują wyniki i ich mapę pośrednią oraz redukują funkcje.

jak zainstalować php w systemie Windows

Poniższy obrazek pokazuje, że skrypt został wykonany pomyślnie.

Poniższy obrazek przedstawia wynik działania naszego skryptu.

Gratulujemy pomyślnego wykonania pierwszego skryptu Apache Pig!

Teraz już wiesz, jak stworzyć i uruchomić skrypt Apache Pig. Stąd nasz następny blog w omówię, jak to zrobić utwórz UDF (User Defined Functions) w Apache Pig i wykonaj go w trybie MapReduce / HDFS.

Teraz, gdy utworzyłeś i wykonałeś skrypt Apache Pig, sprawdź plik autorstwa Edureka, zaufanej firmy zajmującej się edukacją online, z siecią ponad 250 000 zadowolonych uczniów rozsianych po całym świecie. Szkolenie Edureka Big Data Hadoop Certification Training pomaga uczniom stać się ekspertami w dziedzinie HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop, wykorzystując przypadki użycia w czasie rzeczywistym w domenie handlu detalicznego, mediów społecznościowych, lotnictwa, turystyki, finansów.

Masz do nas pytanie? Wspomnij o tym w sekcji komentarzy, a my skontaktujemy się z Tobą.