Apache Drill to pierwszy w branży silnik SQL bez schematu. Drill nie jest pierwszym na świecie silnikiem zapytań, ale pierwszym, który zapewnia doskonałą równowagę między elastycznością a szybkością. Drążenie jest przeznaczone do skalowania do kilku tysięcy węzłów i wykonywania zapytań do petabajtów danych z interaktywną szybkością wymaganą przez środowiska BI / Analytics.
Może integrować się z kilkoma źródłami danych, takimi jak Hive, HBase, MongoDB, system plików, RDBMS. Ponadto w Drill można z łatwością używać formatów wejściowych, takich jak Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence i wiele innych.
Dlaczego Apache Drill?
Największą zaletą Apache Drill jest to, że może on odkrywać schemat w locie, podczas wyszukiwania jakichkolwiek danych. Ponadto może współpracować z narzędziami BI, takimi jak Tableau, Qlikview, MicroStrategy itp., Aby uzyskać lepszą analitykę.
Oto cytat analityka branżowego, który podsumowuje wartość Apache Drill:
„Drill to nie tylko SQL-on-Hadoop. Chodzi o SQL-na-prawie-wszystkim-natychmiast i bez formalności ”.
- Andrew Burst, Gigaom Research, styczeń 2015
Drillbit to demon Apache Drill, który działa na każdym węźle klastra. Używa ZooKeepera do całej komunikacji w klastrze i do utrzymania członkostwa w klastrze. Odpowiada za przyjmowanie żądań od klienta, przetwarzanie zapytań i zwracanie wyników do klienta. Wiertło, które odbiera żądanie od klienta, nosi nazwę „brygadzista”. Generuje plan wykonania, fragmenty wykonania są wysyłane do innych wierteł działających w klastrze.
Kolejną zaletą jest to, że instalacja i konfiguracja wiertła jest dość prosta. Dowiedzmy się, jak zainstalować Apache Drill.
Pierwszym krokiem jest pobranie pakietu wierteł.
jak korzystać z metody tostingu
Komenda: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Komenda: tar -xvf apache-drill-1.5.0.tar.gz
Komenda: ls
Następnie ustaw zmienne środowiskowe w pliku .bashrc.
Komenda: sudo gedit .bashrc
export DRILL_HOME = / home / edureka / apache-drill-1.5.0
export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
To polecenie zaktualizuje zmiany:
Komenda: źródło .bashrc
Teraz przejdź do katalogu drill-override.conf i edytuj plik drill-override.conf z identyfikatorem klastra oraz hostem i portem zookeeper, uruchomimy go na lokalnym klastrze.
Komenda: cd apache-drill-1.5.0
Komenda: sudo gedit conf / drill-override.conf
Domyślnie DRILL_MAX_DIRECT_MEMORY będzie miał 8 GB w drill-env.sh i musimy zachować to zgodnie z pamięcią, którą mamy.
Komenda: sudo gedit conf / drill-env.sh
Aby zainstalować drążenie tylko w jednym węźle, możesz użyć trybu osadzonego, w którym będzie działać lokalnie. Po uruchomieniu tego polecenia automatycznie uruchomi usługę wiertła.
Komenda: ./bin/drill-embedded
Możesz uruchomić proste zapytanie, aby sprawdzić instalację.
Komenda: wybierz * z sys.options WHERE type = „SYSTEM” i nazwij jak „security%”
Aby sprawdzić konsolę internetową Apache Drill, musimy przejść do localhost: 8047 w przeglądarce internetowej.
Możesz również uruchomić zapytanie na karcie Zapytanie.
Aby uruchomić drążenie w trybie rozproszonym, musisz edytować identyfikator klastra i dodać informacje ZooKeeper w drill-override.conf, jak poniżej.
Następnie musimy uruchomić usługę ZooKeeper na każdym węźle. Następnie musisz uruchomić usługę wiertła na każdym węźle za pomocą tego polecenia.
Komenda: ./bin/drillbit.sh start
Komenda: jps
Teraz używamy poniższego polecenia, aby uruchomić powłokę wiertła.
Teraz możemy wykonywać nasze zapytania w klastrze w trybie rozproszonym.
To pierwszy wpis na blogu z dwuczęściowej serii blogów Apache Drill. Wkrótce pojawi się drugi blog z tej serii.
Masz do nas pytanie? Wspomnij o nich w sekcji komentarzy, a skontaktujemy się z Tobą.
Powiązane posty:
implementuj kolejkę priorytetową c ++