Znaczenie nauki o danych z Cassandrą



Cassandra to baza danych typu open source do obsługi dużych ilości danych na wielu serwerach, więc zapotrzebowanie naukowców zajmujących się danymi z wiedzą Cassandra jest wysokie.

'

Szybka ekspansja danych cyfrowych za pośrednictwem komputerów, urządzeń przenośnych, wideo, mediów społecznościowych, czujników cyfrowych itp. W połączeniu z przełomami w zakresie tańszej mocy obliczeniowej, aplikacji bazodanowych typu open source i szerszej przepustowości wywołała ogromne zainteresowanie w całym świecie biznesu. wschodząca dziedzina nauki o Big Data i analizy.





Duże zbiory danych w dużych, nieustrukturyzowanych wolumenach są zbyt duże, aby można było nimi zarządzać i analizować je tradycyjnymi metodami. Już sama ilość i prędkość dzisiejszych danych sprawia, że ​​przechwytywanie, filtrowanie, przechowywanie i analizowanie jest prawdziwym wyzwaniem. Regularnie opracowywane są nowe produkty, które wymagają nowych umiejętności i wiedzy. Rośnie zapotrzebowanie na osoby, które potrafią zintegrować nową infrastrukturę, platformy i procesy z organizacją, a także takie, które potrafią tworzyć nowe narzędzia analityczne i algorytmy zdolne do tworzenia olbrzymich informacji o dużej wartości biznesowej. Aby uzyskać więcej informacji, przeczytaj nasz wpis na blogu

Znaczenie nauki o danych w różnych branżach:

Data Science & Analytics ma zastosowanie we wszystkich branżach:



  • ecommerce - Silniki personalizacji i rekomendacji, które zwiększają sprzedaż.
  • Reklama - Wysoce ukierunkowane dostarczanie reklam do konsumentów w czasie rzeczywistym.
  • Media i rozrywka - Tworzenie spersonalizowanych treści, które maksymalizują zaangażowanie użytkowników.
  • Media społecznościowe - Zwiększona „lepkość” witryny, wzrost liczby użytkowników, możliwość śledzenia szybko zmieniających się trendów w oparciu o nastroje konsumentów.
  • Usługi finansowe –Zoptymalizowane praktyki kredytowe, które minimalizują ryzyko i oszustwa.
  • Farmacja / Bioinformatyka - Lepsze odkrywanie leków, skuteczniejsze leczenie groźnych chorób, udoskonalenia inżynierii genetycznej.
  • Opieka zdrowotna - Lepsza punktacja pacjentów pod kątem zagrożeń dla zdrowia, a także przewidywania i wczesnego zapobiegania chorobom.
  • Moc / energia - Inteligencja sieci inteligentnej, efektywność użytkowania, oszczędność energii i redukcja przestojów.
  • Bezpieczeństwo informacji - Znacznie ulepszone wykrywanie kradzieży i monitorowanie cennych informacji i aktywów firmy.

Kluczowe umiejętności specjalistów data science:

Domena nauki o danych wymaga specjalistów, którzy:

  • Rozumie analizę danych i naukę podejmowania decyzji
  • Są dobrze zorientowani w IT
  • Miej dużą wnikliwość biznesową
  • Posiada umiejętność efektywnej komunikacji z decydentami

Czytaj więcej: Podstawowe umiejętności wymagane do bycia Data Scientist.

Wspólne technologie związane z praktyką nauki o danych:

Technologie związane z nauką o danych



  • Bazy danych

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • Języki

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Hive, Pig, Lucene, Mahout, Solr

co to jest hashmap i hashtable w java
  • Statystyki i prognozy

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Wizualizacja danych

QlikView, Spotfire, Tableau, yWorks, R

  • BI i raportowanie

BusinessObjects, Cognos, MicroStrategy

Co to jest Cassandra?

  • Apache Cassandra to rozproszony system zarządzania bazami danych typu open source przeznaczony do obsługi dużych ilości danych na wielu serwerach towarowych.
  • Cassandra zapewnia wysoką dostępność bez pojedynczego punktu awarii.
  • Cassandra oferuje solidną obsługę klastrów obejmujących wiele centrów danych, z asynchroniczną replikacją bez wzorców, umożliwiającą wykonywanie operacji o małych opóźnieniach dla wszystkich klientów.

Aby uzyskać więcej informacji, przeczytaj nasz wpis na blogu w witrynie .

Jak Data Science wykorzystuje Cassandrę?

Cassandra jest nieśmiała i nieśmiała rozproszoną bazą danych dla usług o małych opóźnieniach i wysokiej przepustowości, które obsługują obciążenia w czasie rzeczywistym składające się z setek aktualizacji na sekundę i dziesiątek tysięcy odczytów na sekundę.

Cassandra Przykład zastosowania - ZALETY:

PROS to firma zajmująca się oprogramowaniem Big Data, która ma w swoim oprogramowaniu predyktywną analizę, która ułatwia klientom analizę ich danych oraz uzyskanie wglądu i wskazówek w celu optymalizacji cen, sprzedaży i zarządzania przychodami.

Mają usługę czasu rzeczywistego, która oblicza dostępność linii lotniczych, dynamicznie biorąc pod uwagę dane kontroli przychodów i poziomy zapasów, które mogą zmieniać się setki razy na sekundę.

Ta usługa jest odpytywana kilka tysięcy razy na sekundę, co przekłada się na dziesiątki tysięcy wyszukiwań danych. Ich wewnętrzną warstwą pamięci dla tej usługi jest Cassandra.

W celu rozwiązania w czasie rzeczywistym PROS zdał sobie sprawę z potrzeby:

  • Rozproszona pamięć podręczna o wysokiej dostępności.
  • Łatwo skalowalne.
  • Z architekturą bez mistrzów.
  • Z replikacją danych w czasie niemal rzeczywistym, nawet w centrach danych.
  • To może obsługiwać odczyty i zapisy w czasie rzeczywistym.

PROS ocenił Cassandrę w porównaniu z Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort i Redis. Apache Cassandra dość łatwo znalazł się na szczycie listy.

klasa adaptera w Javie z przykładem

PROS i Cassandra

  • PROS wykorzystuje Cassandrę jako rozproszoną bazę danych dla usług o niskich opóźnieniach i wysokiej przepływności, które obsługują obciążenia w czasie rzeczywistym składające się z setek aktualizacji na sekundę i dziesiątek tysięcy odczytów na sekundę.
  • Na przykład mają usługę czasu rzeczywistego, która dynamicznie oblicza dostępność linii lotniczych, biorąc pod uwagę dane kontroli przychodów i poziomy zapasów, które mogą zmieniać się setki razy na sekundę. Ta usługa jest odpytywana kilka tysięcy razy na sekundę, co przekłada się na dziesiątki tysięcy wyszukiwań danych. Ich wewnętrzną warstwą pamięci dla tej usługi jest Cassandra. Niektóre z ich ofert SaaS wykorzystują Cassandrę jako magazyn zaplecza do obsługi kombinacji obciążeń wsadowych w czasie rzeczywistym i opartych na Hadoop.
  • Mówiąc o Hadoop i Cassandrze, pobierają dane z Cassandry i umieszczają je na Hadoop i uruchamiają wsadowe i analityczne na tym, a następnie wraca do Cassandry. Osiąga się to dzięki integracji Cassandry z Hadoop.
  • Zadania Hadoop pobierają dane z Cassandry, stosują transformacje lub analizy specyficzne dla zadania i wypychają dane z powrotem do Cassandry. Nie używają Datastax (oficjalna Cassandra Maintainer) Enterprise Edition do tej integracji, tylko instalacja Hadoop typu open source z Cassandra.

Modelowanie danych z Cassandra:

Chcąc zastąpić magazyn wartości kluczową czymś bardziej zdolnym do replikacji w czasie rzeczywistym i dystrybucji danych, badania nad Dynamo, twierdzeniem CAP i ostatecznym modelem spójności pokazują, że Cassandra całkiem dobrze pasuje do tego modelu. W miarę jak dowiadujemy się więcej o możliwościach modelowania danych, stopniowo przechodzimy do dekompozycji danych.

Jeśli ktoś pochodzi z relacyjnej bazy danych z silną semantyką ACID, to należy poświęcić trochę czasu na zrozumienie ostatecznego modelu spójności.

Zrozum dobrze architekturę Cassandry i to, co robi pod maską. Dzięki Cassandra 2.0 otrzymujesz lekkie transakcje i wyzwalacze, ale nie są one tym samym, co tradycyjne transakcje bazy danych, z którymi możesz być zaznajomiony. Na przykład nie ma dostępnych ograniczeń klucza obcego - musi to być obsługiwane przez własną aplikację. Zrozumienie własnych przypadków użycia i wzorców dostępu do danych przed modelowaniem danych za pomocą Cassandry i przeczytanie całej dostępnej dokumentacji jest koniecznością.

Wniosek:

Apache Cassandra szybko się rozwija, a my uczymy się i rozumiemy jego możliwości - szczególnie w zakresie modelowania danych. Postrzegamy to jako rozproszoną bazę danych NoSQL z wyboru dla naszych usług i rozwiązań Big Data.

Edureka zapewnia kompleksowe dla tych, którzy chcą zostać naukowcem danych. Kurs obejmuje szereg technik Hadoop, R i uczenia maszynowego, obejmujących całe badanie Data Science. Edureka zapewnia również który pomaga opanować bazy danych NoSQL. Ten kurs ma na celu dostarczenie wiedzy i umiejętności, aby stać się odnoszącym sukcesy ekspertem Cassandra.