Zrozumienie danych i umiejętność tworzenia z nich wartości to umiejętności tej dekady. Uczenie maszynowe to jedna z podstawowych umiejętności, która pomaga firmom ją realizować. Jednak aby rozpocząć, musisz dobrze zbudować swoje fundamenty. Dlatego w tym artykule omówię kilka podstawowych pojęć i przedstawię wytyczne dotyczące rozpoczęcia przygody z uczeniem maszynowym. Dlatego w tym artykule na temat statystyk dotyczących uczenia maszynowego zostaną omówione następujące tematy:
Prawdopodobieństwo i statystyki dla uczenia maszynowego:
Co to jest prawdopodobieństwo?
Prawdopodobieństwo określa ilościowo prawdopodobieństwo wystąpienia zdarzenia. Na przykład, jeśli wyrzucisz uczciwą, bezstronną kostką, to prawdopodobieństwo jeden pojawienie się to 1/6 . Teraz, jeśli się zastanawiasz why? Wtedy odpowiedź jest całkiem prosta!
Dzieje się tak, ponieważ istnieje sześć możliwości i wszystkie są równie prawdopodobne (uczciwa śmierć). Dlatego możemy dodać 1 + 1 + 1 + 1 + 1 + 1 = 6. Ale ponieważ interesuje nas zdarzenie, w którym pojawia się 1 . Jest zdarzenie może nastąpić tylko w jeden sposób. W związku z tym,
Prawdopodobieństwo 1 pojawienia się = 1/6
Podobnie jest w przypadku wszystkich innych liczb, ponieważ wszystkie zdarzenia są równie prawdopodobne. Proste, prawda?
Cóż, częsta definicja prawdopodobieństwa dla tego przykładu brzmiałaby tak - prawdopodobieństwo 1 pojawienia się to stosunek liczby razy 1 do całkowitej liczby rzutów kostką, jeśli kostką wyrzucono nieskończoną liczbę czasy.Jak to ma sens?
Zróbmy to bardziej interesującym. Rozważ dwa przypadki - 5 razy wyrzuciłeś uczciwą kostką. W jednym przypadku sekwencja pojawiających się liczb to - [1,4,2,6,4,3]. W drugim przypadku otrzymujemy - [2,2,2,2,2,2]. Jak myślisz, który jest bardziej prawdopodobny?
Obie są równie prawdopodobne. Wydaje się dziwne, prawda?
goto w języku c ++
Rozważmy teraz inny przypadek, w którym wszystkie 5 rzutów jest w każdym przypadku niezależny . Oznacza to, że jeden rzut nie wpływa na drugi. W pierwszym przypadku, gdy pojawiło się 6, nie miał pojęcia, że przed nim pojawiło się 2. W związku z tym wszystkie 5 rzutów jest równie prawdopodobne.
Podobnie proste dwójki w drugim przypadku można rozumieć jako ciąg niezależnych zdarzeń. I wszystkie te wydarzenia są równie prawdopodobne. Ogólnie rzecz biorąc, ponieważ mamy te same kości, prawdopodobieństwo pojawienia się określonej liczby w przypadku, gdy jeden jest taki sam jak w przypadku drugiego. Następnie w tym artykule na temat statystyk dotyczących uczenia maszynowego zrozumiemy ten termin Niezależność.
Niezależność
Dwa wydarzenia Mówi się, że A i B są niezależne, jeśli wystąpienie A nie wpływa na zdarzenie B. . Na przykład, jeśli rzucasz monetą i rzucasz kością, wynik rzutu nie ma wpływu na to, czy moneta pokazuje orła, czy reszkę. Także dla dwa niezależne wydarzenia A i B , the prawdopodobieństwo, że A i B mogą wystąpić razem . Na przykład, jeśli chcesz mieć prawdopodobieństwo, że moneta pokaże orła, a kostka - 3.
P (A i B) = P (A) * P (B)
Dlatego P = & frac12 (prawdopodobieństwo podniesienia głowy) * ⅙ (prawdopodobieństwo 3 podniesienia głowy) = 1/12
W poprzednim przykładzie w obu przypadkach P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.
Porozmawiajmy teraz o wydarzeniach, które nie są niezależne. Rozważ następującą tabelę:
Otyły | Nie otyły | |
Problemy sercowe | Cztery pięć | piętnaście |
Żadnych problemów z sercem | 10 | 30 |
Przeprowadzono ankietę wśród 100 osób. 60 miało problemy z sercem, a 40 nie. Spośród 60 osób mających problemy z sercem 45 było otyłych. Spośród 40 osób bez problemów z sercem 10 było otyłych. Jeśli ktoś cię zapyta -
- Jakie jest prawdopodobieństwo wystąpienia problemów z sercem?
- Jakie jest prawdopodobieństwo wystąpienia problemów z sercem i braku otyłości?
Odpowiedź na pierwsze pytania jest prosta - 60/100. W przypadku drugiego będzie to 15/100. Rozważmy teraz trzecie pytanie - osoba została wybrana losowo. Stwierdzono, że ma chorobę serca. Jakie jest prawdopodobieństwo, że jest otyły?
Teraz pomyśl o przekazanych Ci informacjach - Wiadomo, że ma chorobę serca. Dlatego nie może pochodzić z czterdziestki, którzy nie mają chorób serca. Jest tylko 60 możliwych opcji (górny wiersz tabeli). Teraz, wśród tych ograniczonych możliwości, prawdopodobieństwo, że jest otyły, wynosi 45/60. Teraz, gdy już wiesz, czym są zdarzenia niezależne, w następnym artykule na temat statystyk dla uczenia maszynowego, pozwól nam zrozumieć prawdopodobieństwa warunkowe.
Prawdopodobieństwa warunkowe
Aby zrozumieć prawdopodobieństwa warunkowe, kontynuujmy dyskusję na powyższym przykładzie. Status otyłości i stan choroby serca nie są niezależne. Gdyby otyłość nie wpływała na problemy z sercem, liczba przypadków otyłych i nieotyłych u osób z problemami z sercem byłaby taka sama.
Otrzymaliśmy również informację, że dana osoba ma problemy z sercem i musieliśmy ustalić prawdopodobieństwo, że jest otyła. W tym przypadku prawdopodobieństwo jest więc uzależnione od faktu, że pacjent ma problemy z sercem. Jeśli prawdopodobieństwo zajścia zdarzenia A jest uwarunkowane zdarzeniem B, reprezentujemy je jako
P (A | B)
Teraz istnieje twierdzenie, które pomaga nam obliczyć to prawdopodobieństwo warunkowe. Nazywa się Reguła Bayesa .
P (A | B) = P (A i B) / P (B)
Możesz sprawdzić to twierdzenie, podłączając przykład, który właśnie omówiliśmy. Jeśli do tej pory zrozumiałeś, możesz zacząć od poniższych - Naiwny Bayes . Wykorzystuje prawdopodobieństwa warunkowe do klasyfikowania, czy wiadomość e-mail jest spamem, czy nie. Może wykonywać wiele innych zadań klasyfikacyjnych. Zasadniczo jednak sednem jest prawdopodobieństwo warunkowe .
Statystyka:
Statystyki są używane do podsumowywania i wnioskowania na temat dużej liczby punktów danych. W nauce o danych i uczeniu maszynowym często spotkasz się z następującą terminologią
- Środki centralności
- Rozkłady (zwłaszcza normalne)
Miary centralności i miary spreadów
Oznaczać:
Średnia to po prostu średnia liczb . Aby poznać średnią, musisz zsumować liczby i podzielić je przez liczbę liczb. Na przykład średnia [1,2,3,4,5] wynosi 15/5 = 3.
Mediana:
Mediana to środkowy element zbioru liczb kiedy są ułożone w kolejności rosnącej. Na przykład liczby [1, 2, 4, 3, 5] są ułożone w porządku rosnącym [1, 2, 3, 4, 5]. Środkowa z nich to 3. Zatem mediana wynosi 3. Ale co, jeśli liczba liczb jest parzysta, a zatem nie ma liczby środkowej? W takim przypadku bierzesz średnią z dwóch środkowych liczb. Dla ciągu 2n liczb w porządku rosnącym, uśrednij n-ty i (n + 1)thnumer, aby uzyskać medianę. Przykład - [1,2,3,4,5,6] ma medianę (3 + 4) / 2 = 3,5
Tryb:
Tryb to po prostu najczęstsza liczba w zbiorze liczb . Na przykład tryb [1,2,3,3,4,5,5,5] to 5.
trim () w java
Zmienność:
Wariancja nie jest miarą centralności. To mierzy jak Twoje dane są rozmieszczone wokół średniej . Jest określany ilościowo jako
xjest średnią z N liczb. Bierzesz punkt, odejmujesz średnią, bierzesz kwadrat tej różnicy. Zrób to dla wszystkich liczb N i uśrednij je. Pierwiastek kwadratowy z wariancji nazywany jest odchyleniem standardowym. Następnie w tym artykule na temat statystyk dla uczenia maszynowego przyjrzyjmy się normalnej dystrybucji.
Normalna dystrybucja
Dystrybucja nam pomaga zrozumieć, w jaki sposób rozpowszechniane są nasze dane . Na przykład w próbie wiekowej młodych ludzi może być więcej niż osoby starsze, a zatem mniejsze wartości wieku mogą być większe niż większe wartości. Ale jak zdefiniujemy dystrybucję? Rozważ poniższy przykład
Oś Y przedstawia gęstość. Tryb tego rozkładu wynosi 30, ponieważ jest to szczyt, a zatem najczęściej. Możemy również zlokalizować medianę. Mediana leży w punkcie na osi X, w którym pokryta jest połowa obszaru pod krzywą. Pole pod dowolnym rozkładem normalnym wynosi 1, ponieważ suma prawdopodobieństw wszystkich zdarzeń wynosi 1. Na przykład
Mediana w powyższym przypadku wynosi około 4. Oznacza to, że obszar pod krzywą przed 4 jest taki sam, jak po 4. Rozważ inny przykład
Widzimy trzy rozkłady normalne. Niebieskie i czerwone mają ten sam środek. Czerwony ma większą zmienność. Dlatego jest bardziej rozłożony niż niebieski. Ale ponieważ pole musi wynosić 1, szczyt czerwonej krzywej jest krótszy niż niebieskiej krzywej, aby utrzymać powierzchnię na stałym poziomie.
Mam nadzieję, że rozumiesz podstawowe statystyki i rozkłady normalne. Teraz, w następnym artykule o statystykach dla uczenia maszynowego, zajmiemy się algebrą liniową.
Algebra liniowa
Nowoczesna sztuczna inteligencja nie byłaby możliwa bez algebry liniowej. Stanowi rdzeń Głęboka nauka i był używany nawet w prostych algorytmach, takich jak . Zacznijmy bez dalszej zwłoki.
Musisz być zaznajomiony z wektorami. Są rodzajem geometrycznych reprezentacji w przestrzeni. Na przykład wektor [3,4] ma 3 jednostki wzdłuż osi x i 4 jednostki na osi y. Rozważ następujący obraz -
Wektor d1 ma 0,707 jednostki na osi x i 0,707 jednostki na osi y. Wektor ma 1 wymiar. Musi mieć wielkość i kierunek. Na przykład,
Powyższy obraz zawiera wektor (4,3). Jego wielkość wynosi 5, a na osi x 36,9 stopnia.
Czym jest macierz? Macierz to wielowymiarowa tablica liczb. Do czego to służy? Zobaczymy dalej. Ale najpierw przyjrzyjmy się, jak jest używany.
Matryca
Macierz może mieć wiele wymiarów. Rozważmy dwuwymiarową macierz. Ma wiersze (m) i kolumny (n). Dlatego ma m * n elementów.
Na przykład,
Ta macierz ma 5 wierszy i 5 kolumn. Nazwijmy to A. Zatem A (2,3) to wpis w drugim wierszu i trzeciej kolumnie, czyli 8.
Teraz, kiedy już wiesz, czym jest macierz, przyjrzyjmy się różnym operacjom macierzy.
Operacje na macierzach
Dodawanie macierzy
Dwie macierze podobnie można dodać wymiary. Dodanie następuje pod względem elementów.
Mnożenie przez skalar
Macierz można pomnożyć przez wielkość skalarną. Takie mnożenie prowadzi do pomnożenia każdego wpisu w macierzy przez skalar. Skalar to tylko liczba
Matrix Transpozycja
Transpozycja macierzy jest prosta. Dla macierzy A (m, n), niech A ’będzie jej transpozycją. Następnie
A '(i, j) = A (j, i)
Na przykład,
jak działa odlewanie w java
Mnożenie macierzy
Jest to prawdopodobnie nieco skomplikowane niż inne operacje. Zanim się w to zagłębimy, zdefiniujmy iloczyn skalarny między dwoma wektorami.
Rozważmy wektor X = [1,4,6,0] i wektor Y = [2,3,4,5]. Następnie iloczyn skalarny między X i Y jest definiowany jako
X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38
Jest to więc mnożenie i dodawanie elementów według elementów. Teraz,rozważmy dwie macierze A (m, n) i B (n, k), gdzie m, n, k są wymiarami i stąd liczbami całkowitymi. Mnożenie macierzy definiujemy jako
W powyższym przykładzie pierwszy element iloczynu (44) jest uzyskiwany przez iloczyn skalarny pierwszego rzędu lewej macierzy z pierwszą kolumną prawej macierzy. Podobnie 72 otrzymuje się przez iloczyn skalarny pierwszego rzędu lewej macierzy z drugą kolumną prawej macierzy.
Zwróć uwagę, że dla lewej macierzy liczba kolumn powinna być równa liczbie wierszy w prawej kolumnie. W naszym przypadku iloczyn AB istnieje, ale nie BA, ponieważ m nie jest równe k. Dla dwóch macierzy A (m, n) i B (n, k) iloczyn AB jest zdefiniowany, a wymiar iloczynu to (m, k) (najbardziej zewnętrzne wymiary (m, n), (n, k )). Ale BA nie jest zdefiniowane, chyba że m = k.
Na tym kończymy artykuł dotyczący statystyk dla uczenia maszynowego. Mam nadzieję, że zrozumieliście trochę żargonu uczenia maszynowego. Jednak to się nie kończy. Aby upewnić się, że jesteś gotowy na branżę, możesz zapoznać się z kursami Edureki na temat nauki o danych i sztucznej inteligencji. Można je znaleźć