Hive to system hurtowni danych dla Hadoop, który ułatwia podsumowanie danych, zapytania ad-hoc i analizę dużych zestawów danych przechowywanych w systemach plików kompatybilnych z Hadoop. Hive konstruuje dane w dobrze zrozumiałe koncepcje baz danych, takie jak tabele, wiersze, kolumny i partycje. Obsługuje typy pierwotne, takie jak liczby całkowite, zmiennoprzecinkowe, podwójne i ciągi. Hive obsługuje również tablice asocjacyjne, listy, struktury i serializowanie, a deserializowany interfejs API służy do przenoszenia danych do i z tabel.
Przyjrzyjmy się szczegółowo modelom danych Hive
funkcja wirtualna c ++ = 0
Modele danych ula:
Modele danych Hive zawierają następujące składniki:
- Bazy danych
- Tabele
- Partycje
- Wiadra lub klastry
Partycje:
Podział oznacza podzielenie tabeli na gruboziarniste części na podstawie wartości kolumny podziału, takiej jak „dane”. To przyspiesza wykonywanie zapytań na wycinkach danych
najlepszy java ide dla Windows
Więc jaka jest funkcja partycji? Klucze partycji określają sposób przechowywania danych. Tutaj każda unikalna wartość klucza Partition definiuje Partycję tabeli. Dla wygody partycje zostały nazwane według dat. Jest podobny do „dzielenia bloków” w HDFS.
Wiadra:
Zasobniki zapewniają dodatkową strukturę danych, których można używać do wydajnych zapytań. Łączenie dwóch tabel, które są podzielone na te same kolumny, w tym kolumnę łączenia, można zaimplementować jako łączenie po stronie mapy. Segmentowanie według używanego identyfikatora oznacza, że możemy szybko ocenić zapytanie oparte na użytkownikach, uruchamiając je na losowej próbie z całego zestawu użytkowników.
Masz do nas pytanie? Wspomnij o nich w sekcji komentarzy, a my skontaktujemy się z Tobą.
co to są pakiety w java
Powiązane posty: