Samouczek dotyczący Big Data: wszystko, co musisz wiedzieć o Big Data!



Ten blog poświęcony samouczkowi Big Data zawiera pełny przegląd Big Data, jego cech, zastosowań, a także wyzwań związanych z Big Data.

Samouczek dotyczący Big Data

Big Data, nie słyszałeś wcześniej tego terminu? Jestem pewien, że tak. W ciągu ostatnich 4 do 5 lat wszyscy mówią o Big Data. Ale czy naprawdę wiesz, czym dokładnie są te Big Data, jaki ma wpływ na nasze życie i dlaczego organizacje szukają profesjonalistów z ? W tym samouczku dotyczącym Big Data dam ci pełny wgląd w Big Data.

Poniżej znajdują się tematy, które omówię w tym samouczku Big Data:





  • Historia Big Data
  • Czynniki napędzające Big Data
  • Co to jest Big Data?
  • Charakterystyka Big Data
  • Rodzaje Big Data
  • Przykłady Big Data
  • Zastosowania Big Data
  • Wyzwania związane z Big Data

Samouczek Big Data - Edureka

Zacznę ten samouczek dotyczący Big Data od krótkiej historii.



Historia Big Data

W dawnych czasach ludzie podróżowali z jednej wioski do drugiej na wozie konnym, ale z biegiem czasu wioski stały się miastami, a ludzie rozproszyli się. Zwiększył się również dystans do podróży z jednego miasta do drugiego. Tak więc podróżowanie między miastami wraz z bagażem stało się problemem. Niespodziewanie, jeden mądry facet zasugerował, że powinniśmy częściej pielęgnować i karmić konia, aby rozwiązać ten problem. Kiedy patrzę na to rozwiązanie, nie jest tak źle, ale czy myślisz, że koń może stać się słoniem? Nie sądzę. Inny sprytny facet powiedział, że zamiast jednego konia ciągnącego wózek, mamy 4 konie do ciągnięcia tego samego wózka. Co myślicie o tym rozwiązaniu? Myślę, że to fantastyczne rozwiązanie. Teraz ludzie mogą pokonywać duże odległości w krótszym czasie, a nawet przewozić więcej bagażu.

Ta sama koncepcja dotyczy Big Data. Big Data mówi, że do dziś nie przeszkadzało nam przechowywanie danych na naszych serwerach, ponieważ ilość danych była dość ograniczona, a czas przetwarzania tych danych również był w porządku. Ale teraz w obecnym świecie technologii dane rosną zbyt szybko, a ludzie wiele razy na nich polegają. Również szybkość, z jaką rosną dane, uniemożliwia przechowywanie danych na jakimkolwiek serwerze.

Na tym blogu poświęconym samouczkowi na temat Big Data poznajmy źródła Big Data, których tradycyjne systemy nie są w stanie przechowywać i przetwarzać.



Czynniki napędzające Big Data

Ilość danych na planecie Ziemia rośnie wykładniczo z wielu powodów. Różne źródła i nasze codzienne czynności generują wiele danych. Wraz z wynalezieniem sieci cały świat przeszedł do sieci, a każda rzecz, którą robimy, zostawia cyfrowy ślad. Wraz z wprowadzaniem inteligentnych obiektów w tryb online tempo wzrostu danych gwałtownie wzrosło. Główne źródła Big Data to portale społecznościowe, sieci czujników, cyfrowe obrazy / filmy, telefony komórkowe, rejestry transakcji zakupu, dzienniki internetowe, dokumentacja medyczna, archiwa, nadzór wojskowy, eCommerce, złożone badania naukowe i tak dalej. Wszystkie te informacje obejmują około miliardów bajtów danych. Do 2020 r. Ilość danych będzie wynosić około 40 zettabajtów, co odpowiada dodaniu każdego ziarenka piasku na planecie pomnożonego przez siedemdziesiąt pięć.

Co to jest Big Data?

Big Data to termin używany do zbioru dużych i złożonych zbiorów danych, które są trudne do przechowywania i przetwarzania przy użyciu dostępnych narzędzi do zarządzania bazami danych lub tradycyjnych aplikacji do przetwarzania danych. Wyzwanie obejmuje przechwytywanie, selekcjonowanie, przechowywanie, wyszukiwanie, udostępnianie, przesyłanie, analizowanie i wizualizację tych danych.

Charakterystyka Big Data

Pięć cech definiujących Big Data to: objętość, prędkość, różnorodność, prawdziwość i wartość.

  1. TOM

    Wolumen odnosi się do „ilości danych”, która rośnie z dnia na dzień w bardzo szybkim tempie. Rozmiar danych generowanych przez ludzi, maszyny i ich interakcje w samych mediach społecznościowych jest ogromny. Badacze przewidują, że do 2020 r. Zostanie wygenerowanych 40 zettabajtów (40 000 eksabajtów), co stanowi 300-krotny wzrost w porównaniu z 2005 r.

  2. PRĘDKOŚĆ

    Prędkość jest definiowana jako tempo, w jakim różne źródła generują dane każdego dnia. Ten przepływ danych jest ogromny i ciągły. Obecnie na urządzeniach mobilnych jest 1,03 miliarda aktywnych użytkowników dziennie (Facebook DAU), co oznacza wzrost o 22% rok do roku. To pokazuje, jak szybko rośnie liczba użytkowników w mediach społecznościowych i jak szybko dane są generowane codziennie. Jeśli jesteś w stanie poradzić sobie z prędkością, będziesz w stanie generować spostrzeżenia i podejmować decyzje na podstawie danych w czasie rzeczywistym.

  3. RÓŻNORODNOŚĆ

    Ponieważ istnieje wiele źródeł, które przyczyniają się do powstania Big Data, rodzaj generowanych przez nie danych jest inny. Może być strukturalny, częściowo ustrukturyzowany lub nieustrukturyzowany. W związku z tym istnieje wiele różnych danych, które są generowane każdego dnia. Wcześniej otrzymywaliśmy dane z programu Excel i baz danych, teraz dane przychodzą w postaci obrazów, audio, wideo, danych z czujników itp., Jak pokazano na poniższym obrazku. Dlatego ta różnorodność nieustrukturyzowanych danych stwarza problemy podczas przechwytywania, przechowywania, eksploracji i analizowania danych.

  4. PRAWDZIWOŚĆ

    Wiarygodność odnosi się do danych, w przypadku których istnieją wątpliwości lub niepewność dostępnych danych ze względu na niespójność i niekompletność danych. Na poniższym obrazku widać, że w tabeli brakuje kilku wartości. Również kilka wartości jest trudnych do zaakceptowania, na przykład - minimalna wartość 15000 w trzecim rzędzie, nie jest to możliwe. Ta niekonsekwencja i niekompletność to Prawdziwość.
    Dostępne dane mogą czasami być nieuporządkowane i trudne do zaufania. W przypadku wielu form dużych zbiorów danych jakość i dokładność są trudne do kontrolowania, na przykład posty na Twitterze z hashtagami, skrótami, literówkami i mową potoczną. Wolumen jest często przyczyną braku jakości i dokładności danych.

    • Ze względu na niepewność danych 1 na 3 liderów biznesu nie ufa informacjom, których używa przy podejmowaniu decyzji.
    • W ankiecie stwierdzono, że 27% respondentów nie było pewnych, ile ich danych jest niedokładnych.
    • Słaba jakość danych kosztuje gospodarkę USA około 3,1 bln USD rocznie.
  5. WARTOŚĆ

    Po omówieniu wielkości, prędkości, różnorodności i prawdziwości, jest jeszcze jedno V, które należy wziąć pod uwagę, patrząc na Big Data, czyli Wartość. Wszystko dobrze i dobrze mieć dostęp do dużychdanealejeśli nie możemy przekształcić go w wartość, jest bezużyteczny. Zamieniając to w wartość, mam na myśli, czy dodaje to korzyści organizacjom, które analizują duże zbiory danych? Czy organizacja pracuje nad Big Data, osiągając wysoki ROI (zwrot z inwestycji)? Chyba że zwiększa ich zyski pracując na Big Data, jest to bezużyteczne.

Obejrzyj poniższy film dotyczący Big Data, aby dowiedzieć się więcej o Big Data:

Samouczek dotyczący Big Data dla początkujących | Co to jest Big Data | Edureka

Jak omówiono w Różnorodność, istnieją różne typy danych, które są generowane każdego dnia. Przyjrzyjmy się więc teraz rodzajom danych:

Rodzaje Big Data

Big Data może mieć trzy typy:

  • Zbudowany
  • Półstrukturalny
  • Brak struktury

  1. Zbudowany

    Dane, które można przechowywać i przetwarzać w ustalonym formacie, nazywane są danymi strukturalnymi. Dane przechowywane w systemie zarządzania relacyjnymi bazami danych (RDBMS) to jeden z przykładów danych „ustrukturyzowanych”. Przetwarzanie danych ustrukturyzowanych jest łatwe, ponieważ ma ustalony schemat. Do zarządzania tego rodzaju danymi często używany jest język SQL (Structured Query Language).

  2. Półstrukturalny

    Dane częściowo ustrukturyzowane to typ danych, który nie ma formalnej struktury modelu danych, tj. Definicji tabeli w relacyjnym DBMS, ale mimo to ma pewne właściwości organizacyjne, takie jak tagi i inne znaczniki do oddzielania elementów semantycznych, co ułatwia analizować. Pliki XML lub dokumenty JSON to przykłady częściowo ustrukturyzowanych danych.

    co to jest impas w Javie
  3. Brak struktury

    Dane, które mają nieznaną postać i nie mogą być przechowywane w RDBMS i nie mogą być analizowane, chyba że zostaną przekształcone w ustrukturyzowany format, nazywane są danymi nieustrukturyzowanymi. Pliki tekstowe i treści multimedialne, takie jak obrazy, pliki audio i wideo, są przykładami danych nieustrukturyzowanych. Dane nieustrukturyzowane rosną szybciej niż inne, eksperci twierdzą, że 80 procent danych w organizacji to dane nieustrukturyzowane.

Do tej pory omówiłem właśnie wprowadzenie Big Data. Ponadto w tym samouczku dotyczącym Big Data omówiono przykłady, zastosowania i wyzwania związane z Big Data.

Przykłady Big Data

Codziennie przesyłamy miliony bajtów danych. 90% światowych danych powstało w ciągu ostatnich dwóch lat.

  • Walmart obsługuje więcej niż 1 milion transakcje klientów co godzinę.
  • Facebook przechowuje, uzyskuje dostęp i analizuje 30+ petabajtów danych wygenerowanych przez użytkowników.
  • Ponad 230 milionów tweetów tworzonych jest każdego dnia.
  • Więcej niż 5 miliardów ludzie dzwonią, piszą, tweetują i przeglądają strony na telefonach komórkowych na całym świecie.
  • Użytkownicy YouTube przesyłają 48 godzin nowych filmów w każdej minucie dnia.
  • Uchwyty Amazon 15 milionów dane użytkowników strumienia kliknięć klientów dziennie, aby polecić produkty.
  • 294 miliardów e-maile są wysyłane codziennie. Usługi analizują te dane, aby znaleźć spam.
  • Nowoczesne samochody mają blisko 100 czujników który monitoruje poziom paliwa, ciśnienie w oponach itp., każdy pojazd generuje wiele danych z czujników.

Zastosowania Big Data

Nie możemy rozmawiać o danych bez mówienia o ludziach, ludziach, którzy korzystają z aplikacji Big Data. Prawie wszystkie dzisiejsze branże wykorzystują aplikacje Big Data w taki lub inny sposób.

  • Inteligentniejsza opieka zdrowotna : Korzystając z petabajtów danych pacjenta, organizacja może wydobyć znaczące informacje, a następnie zbudować aplikacje, które mogą z wyprzedzeniem przewidywać pogarszający się stan pacjenta.
  • Telecom : Sektory telekomunikacyjne gromadzą informacje, analizują je i rozwiązują różne problemy. Korzystając z aplikacji Big Data, firmy telekomunikacyjne były w stanie znacznie zmniejszyć utratę pakietów danych, która występuje, gdy sieci są przeciążone, zapewniając tym samym bezproblemowe połączenie ze swoimi klientami.
  • Sprzedaż : Handel detaliczny ma jedne z najniższych marż i jest jednym z największych beneficjentów Big Data. Piękno korzystania z Big Data w handlu detalicznym polega na zrozumieniu zachowań konsumentów. Silnik rekomendacji Amazon zapewnia sugestie na podstawie historii przeglądania klienta.
  • Kontrola ruchu : Korki drogowe są głównym wyzwaniem dla wielu miast na całym świecie. Efektywne wykorzystanie danych i czujników będzie miało kluczowe znaczenie dla lepszego zarządzania ruchem w miarę gęsto zaludnienia miast.
  • Produkcja : Analiza dużych zbiorów danych w przemyśle wytwórczym może zredukować defekty komponentów, poprawić jakość produktu, zwiększyć wydajność oraz zaoszczędzić czas i pieniądze.
  • Jakość wyszukiwania : Za każdym razem, gdy pobieramy informacje z Google, jednocześnie generujemy dla nich dane. Google przechowuje te dane i wykorzystuje je do poprawy jakości wyszukiwania.

Ktoś słusznie powiedział: „Nie wszystko w ogrodzie jest różowe!” . Do tej pory w tym samouczku dotyczącym Big Data właśnie pokazałem różowy obraz Big Data. Ale gdyby tak łatwo było wykorzystać Big Data, czy nie sądzisz, że wszystkie organizacje by w to zainwestowały? Powiem z góry, że tak nie jest. Podczas pracy z Big Data pojawia się kilka wyzwań.

Teraz, gdy znasz już Big Data i jego różne funkcje, następna sekcja tego bloga na temat samouczka Big Data rzuci trochę światła na niektóre z głównych wyzwań, przed którymi stoją Big Data.

Wyzwania związane z Big Data

Pozwólcie, że opowiem wam o kilku wyzwaniach, które towarzyszą Big Data:

  1. Jakość danych - Problem polega na tym, że 4thV czyli Veracity. Dane tutaj są bardzo niechlujne, niespójne i niekompletne. Brudne dane kosztują firmy w Stanach Zjednoczonych co roku 600 miliardów dolarów.
  1. Odkrycie - Znajdowanie spostrzeżeń na temat Big Data jest jak szukanie igły w stogu siana. Analizowanie petabajtów danych za pomocą niezwykle zaawansowanych algorytmów w celu znalezienia wzorców i spostrzeżeń jest bardzo trudne.
  1. Przechowywanie - Im więcej danych ma organizacja, tym bardziej złożone mogą być problemy związane z zarządzaniem nią. Powstaje tutaj pytanie „Gdzie to przechowywać?”. Potrzebujemy systemu przechowywania, który można łatwo skalować w górę lub w dół na żądanie.
  1. Analityka - W przypadku Big Data przez większość czasu nie jesteśmy świadomi, z jakimi danymi mamy do czynienia, więc analiza tych danych jest jeszcze trudniejsza.
  1. Bezpieczeństwo - Ponieważ dane są ogromne, ich bezpieczeństwo jest kolejnym wyzwaniem. Obejmuje uwierzytelnianie użytkownika, ograniczanie dostępu w oparciu o użytkownika, rejestrowanie historii dostępu do danych, właściwe stosowanie szyfrowania danych itp.
  1. Brak talentu - W dużych organizacjach realizowanych jest wiele projektów Big Data, ale wyrafinowany zespół programistów, naukowców zajmujących się danymi i analityków, którzy mają również wystarczającą wiedzę dziedzinową, nadal stanowi wyzwanie.

Hadoop na ratunek

Mamy wybawcę, który poradzi sobie z wyzwaniami związanymi z Big Data - to Hadoop . Hadoop to platforma programistyczna typu open source oparta na języku Java, która obsługuje przechowywanie i przetwarzanie bardzo dużych zestawów danych w rozproszonym środowisku obliczeniowym. Jest częścią projektu Apache sponsorowanego przez Apache Software Foundation.

samouczek Big Data dla początkujących

Hadoop ze swoim rozproszonym przetwarzaniem obsługuje duże ilości ustrukturyzowanych i nieustrukturyzowanych danych wydajniej niż tradycyjna hurtownia danych przedsiębiorstwa. Hadoop umożliwia uruchamianie aplikacji w systemach z tysiącami standardowych węzłów sprzętowych i obsługę tysięcy terabajtów danych. Organizacje przyjmują Hadoop, ponieważ jest to oprogramowanie typu open source i może działać na zwykłym sprzęcie (komputerze osobistym).Początkowe oszczędności są dramatyczne, ponieważ sprzęt towarowy jest bardzo tani. Wraz ze wzrostem ilości danych organizacyjnych musisz w locie dodawać coraz więcej towarowego sprzętu, aby go przechowywać, dzięki czemu Hadoop okazuje się ekonomiczny.Ponadto Hadoop ma za sobą solidną społeczność Apache, która nieustannie przyczynia się do jego rozwoju.

Jak obiecałem wcześniej, na tym blogu poświęconym samouczkowi na temat Big Data przekazałem Ci maksymalny wgląd w Big Data. To już koniec samouczka Big Data. Teraz następnym krokiem naprzód jest poznanie i nauczenie się Hadoop. Mamy seria samouczków dotyczących platformy Hadoop blogi, które dostarczą szczegółowej wiedzy o całym ekosystemie Hadoop.

Wszystkiego najlepszego, Wesołego Hadoopingu!

Teraz, gdy zrozumiałeś, czym jest Big Data, zapoznaj się z autorstwa Edureka, zaufanej firmy zajmującej się edukacją online, z siecią ponad 250 000 zadowolonych uczniów rozsianych po całym świecie. Szkolenie Edureka Big Data Hadoop Certification Training pomaga uczniom stać się ekspertami w dziedzinie HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume i Sqoop, wykorzystując przypadki użycia w czasie rzeczywistym w domenie handlu detalicznego, mediów społecznościowych, lotnictwa, turystyki, finansów.

Masz do nas pytanie? Wspomnij o tym w sekcji komentarzy, a my skontaktujemy się z Tobą.

Powiązane posty: