Drilling Down On Apache Drill, New-Age Query Engine



Ten samouczek dotyczący Apache Drill zawiera wszystkie informacje potrzebne do rozpoczęcia korzystania z silnika zapytań Apache Drill, korzystania z Hadoop, Big Data i Apache Spark.

Apache Drill to pierwszy w branży silnik SQL bez schematu. Drill nie jest pierwszym na świecie silnikiem zapytań, ale pierwszym, który zapewnia doskonałą równowagę między elastycznością a szybkością. Drążenie jest przeznaczone do skalowania do kilku tysięcy węzłów i wykonywania zapytań do petabajtów danych z interaktywną szybkością wymaganą przez środowiska BI / Analytics.





Może integrować się z kilkoma źródłami danych, takimi jak Hive, HBase, MongoDB, system plików, RDBMS. Ponadto w Drill można z łatwością używać formatów wejściowych, takich jak Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence i wiele innych.

Dlaczego Apache Drill?

Największą zaletą Apache Drill jest to, że może on odkrywać schemat w locie, podczas wyszukiwania jakichkolwiek danych. Ponadto może współpracować z narzędziami BI, takimi jak Tableau, Qlikview, MicroStrategy itp., Aby uzyskać lepszą analitykę.



Oto cytat analityka branżowego, który podsumowuje wartość Apache Drill:

„Drill to nie tylko SQL-on-Hadoop. Chodzi o SQL-na-prawie-wszystkim-natychmiast i bez formalności ”.

- Andrew Burst, Gigaom Research, styczeń 2015



Drillbit to demon Apache Drill, który działa na każdym węźle klastra. Używa ZooKeepera do całej komunikacji w klastrze i do utrzymania członkostwa w klastrze. Odpowiada za przyjmowanie żądań od klienta, przetwarzanie zapytań i zwracanie wyników do klienta. Wiertło, które odbiera żądanie od klienta, nosi nazwę „brygadzista”. Generuje plan wykonania, fragmenty wykonania są wysyłane do innych wierteł działających w klastrze.

Drillbits-Apache-Drill

Kolejną zaletą jest to, że instalacja i konfiguracja wiertła jest dość prosta. Dowiedzmy się, jak zainstalować Apache Drill.

Pierwszym krokiem jest pobranie pakietu wierteł.

jak korzystać z metody tostingu

Komenda: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Komenda: tar -xvf apache-drill-1.5.0.tar.gz

Komenda: ls

Następnie ustaw zmienne środowiskowe w pliku .bashrc.

Komenda: sudo gedit .bashrc

export DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

To polecenie zaktualizuje zmiany:

Komenda: źródło .bashrc

Teraz przejdź do katalogu drill-override.conf i edytuj plik drill-override.conf z identyfikatorem klastra oraz hostem i portem zookeeper, uruchomimy go na lokalnym klastrze.

Komenda: cd apache-drill-1.5.0

Komenda: sudo gedit conf / drill-override.conf

Domyślnie DRILL_MAX_DIRECT_MEMORY będzie miał 8 GB w drill-env.sh i musimy zachować to zgodnie z pamięcią, którą mamy.

Komenda: sudo gedit conf / drill-env.sh

Aby zainstalować drążenie tylko w jednym węźle, możesz użyć trybu osadzonego, w którym będzie działać lokalnie. Po uruchomieniu tego polecenia automatycznie uruchomi usługę wiertła.

Komenda: ./bin/drill-embedded

Możesz uruchomić proste zapytanie, aby sprawdzić instalację.

Komenda: wybierz * z sys.options WHERE type = „SYSTEM” i nazwij jak „security%”

Aby sprawdzić konsolę internetową Apache Drill, musimy przejść do localhost: 8047 w przeglądarce internetowej.

Możesz również uruchomić zapytanie na karcie Zapytanie.

Aby uruchomić drążenie w trybie rozproszonym, musisz edytować identyfikator klastra i dodać informacje ZooKeeper w drill-override.conf, jak poniżej.

Następnie musimy uruchomić usługę ZooKeeper na każdym węźle. Następnie musisz uruchomić usługę wiertła na każdym węźle za pomocą tego polecenia.

Komenda: ./bin/drillbit.sh start

Komenda: jps

Teraz używamy poniższego polecenia, aby uruchomić powłokę wiertła.

Teraz możemy wykonywać nasze zapytania w klastrze w trybie rozproszonym.

To pierwszy wpis na blogu z dwuczęściowej serii blogów Apache Drill. Wkrótce pojawi się drugi blog z tej serii.

Masz do nas pytanie? Wspomnij o nich w sekcji komentarzy, a skontaktujemy się z Tobą.

Powiązane posty:

implementuj kolejkę priorytetową c ++

Drilling Down On Apache Drill Part 2

Apache Spark Vs Hadoop MapReduce