Klasyfikacja w programowaniu R: wszystko w jednym samouczku, aby opanować koncepcję!

w tym samouczku dokładnie przeanalizujemy klasyfikację w r. Zajmiemy się także drzewem decyzyjnym, klasyfikacją Bayesa i maszyną wektorów wsparcia. Aby zrozumieć to w najlepszy sposób, użyjemy obrazów i przykładów w czasie rzeczywistym.

Klasyfikacja W R

Bądź na bieżąco z najnowszymi trendami technologicznymi
Dołącz do DataFlair na Telegramie!!

Wprowadzenie do klasyfikacji w R

używamy jej do przewidywania kategorycznej etykiety klasy, takiej jak pogoda: deszczowa, słoneczna, pochmurna lub śnieżna.

ważne punkty klasyfikacji w R

dostępne są różne klasyfikacje:

  • drzewa decyzyjne-są one zorganizowane w formie zestawów pytań i odpowiedzi w strukturze drzewa.
  • Naive Bayes Classifiers – probabilistyczny model uczenia maszynowego używany do klasyfikacji.
  • klasyfikatory K-NN-na podstawie miar podobieństwa, takich jak odległość, klasyfikuje nowe przypadki.
  • Maszyny wektorów nośnych – jest to niedrobabilistyczny dwuliniowy klasyfikator liniowy, który buduje model klasyfikujący przypadek do jednej z dwóch kategorii.

przykładem klasyfikacji w R poprzez maszynę wektorów nośnych jest użycie funkcji classification ():

classification(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”linear”)

Wait! Czy ukończyłeś tutorial na temat klastrowania w argumentach R

:

1. trExemplObj-jest to Przykładowy obiekt pociągu eSet.

2. classLabels – jest zapisana w obiekcie eSet jako nazwa zmiennej np. “type”.

3. valExemplObj-jest znany jako exemplars validation eSet object.

4. kf-jest określana jako wartość K-fałdy parametru Cross-walidacji. Ponadto domyślną wartością jest 5-fałd. Poprzez ustawienie ” Loo ” lub ” LOO ” Leave-One-Out Cross-Validation, które musimy wykonać.

5. kernel – w analizie klasyfikacji używamy typu Kernel. Domyślnym jądrem jest “linear”.

6. classL-oznaczenie zestawu pociągów.

7. valClassL-jest określany jako etykiety zestawu walidacji, jeśli nie NULL.

8. predLbls-jest definiowany jako przewidywane etykiety zgodnie z analizą klasyfikacji.

drzewo decyzyjne w R

jest to rodzaj nadzorowanego algorytmu uczenia się. Używamy go do problemów klasyfikacyjnych. Działa dla obu typów zmiennych wejściowych i wyjściowych. W tej technice dzielimy populację na dwa lub więcej jednorodnych zestawów. Co więcej, jest on oparty na najbardziej znaczącym splitterze / różnicatorze w zmiennych wejściowych.

drzewo decyzyjne jest potężnym nieliniowym klasyfikatorem. Drzewo decyzyjne wykorzystuje strukturę podobną do drzewa do generowania relacji między różnymi cechami i potencjalnymi wynikami. Wykorzystuje decyzje rozgałęziające jako swoją podstawową strukturę.

drzewo decyzyjne w R

w klasyfikacji danych drzewo decyzyjne wykonuje kroki wymienione poniżej:

  • to stawia wszystkie przykłady treningu do korzenia.
  • na podstawie różnych wybranych atrybutów drzewo decyzyjne dzieli te przykłady szkoleń.
  • następnie wybierze atrybuty za pomocą niektórych miar statystycznych.
  • rekurencyjne partycjonowanie trwa, dopóki nie pozostanie żaden przykład treningu.

ważne Terminologie związane z drzewem decyzyjnym

  • węzeł główny: reprezentuje całą populację lub próbkę. Co więcej, dzieli się na dwa lub więcej jednorodnych zestawów.

Root-węzeł w drzewie decyzyjnym

  • rozdzielanie: W tym celu przeprowadzamy podział węzła na dwa lub więcej pod-węzłów.
  • drzewo decyzyjne: powstaje, gdy pod-węzeł dzieli się na kolejne pod-węzły.
  • węzeł liścia/terminala: węzły, które się nie rozszczepiają, nazywane są węzłami liścia lub terminala.
  • przycinanie: kiedy usuwamy pod-węzły węzła decyzyjnego, proces ten nazywa się przycinaniem. Jest to odwrotny proces dzielenia.
  • gałąź / Sub-drzewo: podsekcja całego drzewa nazywa się gałęzią lub sub-drzewem.
  • węzeł rodzica i dziecka: Węzeł, który jest podzielony na pod-węzły, nazywany jest węzłem nadrzędnym pod-węzłów, podczas gdy pod-węzły są potomkami węzła nadrzędnego.

rodzaje drzewa decyzyjnego

  • Categorical(classification) Variable Decision Tree: drzewo decyzyjne, które ma kategoryczną zmienną docelową.
  • drzewo decyzyjne zmiennych ciągłych(regresji): drzewo decyzyjne ma ciągłą zmienną docelową.

nie zapomnij sprawdzić szczegółowo drzew decyzyjnych R

drzewa kategoryczne (klasyfikacja) vs drzewa ciągłe (regresja)

drzewa regresji są używane, gdy zmienna zależna jest ciągła, podczas gdy drzewa klasyfikacji są używane, gdy zmienna zależna jest kategoryczna.

w trybie ciągłym otrzymana wartość jest średnią odpowiedzią obserwacji.

w klasyfikacji wartość uzyskana przez węzeł końcowy jest sposobem obserwacji.

w obu przypadkach istnieje jedno podobieństwo. Proces rozszczepiania prowadzi do wzrostu drzew, aż osiągnie kryteria zatrzymania. Jednak rosnące drzewo prawdopodobnie przepełnia dane, co prowadzi do słabej dokładności niewidocznych danych. To przynosi “przycinanie”. Przycinanie jest jedną z technik, w której wykorzystuje się overfitting.

zalety drzewa decyzyjnego w R

  • łatwe do zrozumienia: nie wymaga żadnej wiedzy statystycznej, aby je odczytać i zinterpretować. Jego graficzna reprezentacja jest bardzo intuicyjna, a użytkownicy mogą odnieść się do ich hipotezy.
  • mniej danych wymaga czyszczenia: W porównaniu z innymi technikami modelowania wymaga mniej danych.
  • typ danych nie jest ograniczeniem: może obsługiwać zarówno zmienne Numeryczne, jak i kategoryczne.
  • proste do zrozumienia i interpretacji.
  • wymaga niewiele przygotowania danych.
  • działa zarówno z danymi liczbowymi, jak i kategorycznymi.
  • możliwość potwierdzenia modelu za pomocą testów statystycznych.
  • jest solidny. Sprawdza się dobrze, nawet jeśli odbiegasz od założeń.
  • skaluje się do Big Data.

zdecydowanie musisz zbadać analizę regresji nieliniowej R

wady drzewa decyzyjnego R

  • Overfitting: jest to jedna z najbardziej praktycznych trudności dla modeli drzewa decyzyjnego. Ustawiając ograniczenia dotyczące parametrów modelu i przycinania, możemy rozwiązać ten problem w R.
  • Nie nadaje się do zmiennych ciągłych: w momencie używania ciągłych zmiennych numerycznych. Za każdym razem, gdy klasyfikuje zmienne w różnych kategoriach, drzewo decyzyjne traci informacje.
  • aby poznać globalnie optymalne drzewo jest np-hard, algos polega na chciwym poszukiwaniu.
  • złożone relacje “if-then” między funkcjami zwiększają rozmiar drzewa. Przykład-Brama XOR, multipleksor.

Wprowadzenie do naiwnej klasyfikacji Bayesa

do przewidywania używamy twierdzenia Bayesa. Opiera się na wcześniejszej wiedzy i aktualnych dowodach.

twierdzenie Bayesa wyraża się następującym równaniem:

P AB - Klasyfikacja Bayesa

gdzie P (A) I P(B) są prawdopodobieństwem zdarzeń a i B bez wzajemności. P(A|B) czy prawdopodobieństwo wystąpienia A jest zależne od B, A P (B|A) czy prawdopodobieństwo wystąpienia B jest zależne od A.

Wprowadzenie do maszyn wektorów nośnych

czym jest maszyna wektorów nośnych?

używamy go, aby znaleźć optymalny hiperplanet (linia w 2D, płaszczyzna w 3D i hiperplanet w więcej niż 3 wymiarach). Co pomaga w maksymalizacji marginesu między dwiema klasami. Wektory podporowe to obserwacje, które wspierają hiperplanę po obu stronach.
pomaga w rozwiązaniu problemu optymalizacji liniowej. Pomaga również w znalezieniu hiperplane z największym marginesem. Używamy “Kernel Trick” do oddzielania instancji, które są nierozłączne.

Terminologie związane z R SVM

dlaczego Hyperplane?

jest to linia w 2D i płaszczyzna w 3D. w wyższych wymiarach (ponad 3D) nazywa się ją hiperplanem. Co więcej, SVM pomaga nam znaleźć hyperplane, który może oddzielić dwie klasy.

co to jest margines?

odległość między hiperplanem a najbliższym punktem danych nazywana jest marginesem. Ale jeśli chcemy to podwoić, to będzie równe marginesowi.

jak znaleźć optymalny hiperplan?

najpierw musimy wybrać dwa hiperplany. Muszą rozdzielić dane bez żadnych punktów między nimi. Następnie zmaksymalizuj odległość między tymi dwoma hiperplanami. Odległość to “margines”.

co to jest Kernel?

jest to metoda, która pomaga uruchomić maszynę SVM w przypadku nieliniowych punktów danych. Używamy funkcji jądra, aby przekształcić dane w Przestrzeń funkcji o wyższym wymiarze. A także za jego pomocą wykonaj separację liniową.

Różne Jądra

1. liniowy: u’ * v
2. wielomian: (gamma * u’ * v + coef0)^stopień
3. podstawa radialna (RBF) : exp (- gamma*|u-v / ^2) sigmoid: tanh (gamma*u’*v + coef0)

RBF jest na ogół najbardziej popularny.

jak działa SVM?

  1. wybierz optymalną hiperplanę, która maksymalizuje margines.
  2. stosuje karę za błędne klasyfikacje (parametr strojenia cost ‘c’).
  3. jeśli nieliniowo rozłączne punkty danych. Następnie przekształć dane w Przestrzeń wysokowymiarową. Ma to na celu łatwą klasyfikację za pomocą liniowych powierzchni decyzyjnych.

czas opanować koncepcję wizualizacji danych w R

zalety SVM w R

  • jeśli używamy sztuczki jądra w przypadku nieliniowych danych rozłącznych, to działa ona bardzo dobrze.
  • SVM sprawdza się w przestrzeniach o dużych wymiarach oraz w przypadku klasyfikacji tekstu lub obrazu.
  • nie ma problemu z wielokolinowością.

wady SVM w R

  • potrzeba więcej czasu na dużych zbiorach danych.
  • SVM nie zwraca oszacowań prawdopodobieństwa.
  • w przypadku danych liniowo rozdzielalnych jest to prawie jak regresja logistyczna.

Maszyna wektorowa Pomocnicza – regresja

  • Tak, możemy go użyć do problemu regresji, w którym zmienna zależna lub docelowa jest ciągła.
  • celem regresji SVM jest taki sam jak problem klasyfikacji, czyli znaleźć największy margines.

zastosowania klasyfikacji w R

  • izba przyjęć w szpitalu mierzy 17 zmiennych nowo przyjętych pacjentów. Zmienne, takie jak ciśnienie krwi, wiek i wiele innych. Ponadto należy podjąć ostrożną decyzję, jeśli pacjent musi zostać przyjęty na OIOM. Ze względu na wysokie koszty OIOM, ci pacjenci, którzy mogą przeżyć więcej niż miesiąc, mają wysoki priorytet. Problemem jest również przewidywanie pacjentów wysokiego ryzyka. I dyskryminować ich od pacjentów niskiego ryzyka.
  • firma kredytowa otrzymuje setki tysięcy wniosków o nowe karty. Aplikacja zawiera informacje o kilku różnych atrybutach. Co więcej, problemem jest Kategoryzacja tych, którzy mają dobry kredyt, zły kredyt lub wpadają w szarą strefę.
  • astronomowie katalogowali odległe obiekty na niebie przy użyciu obrazów C. C. D. o długiej ekspozycji. Tak więc obiekt, który musi być oznakowany, to gwiazda, galaktyka itp. Dane są hałaśliwe, a obrazy są bardzo słabe, dlatego Katalogowanie może potrwać dziesięciolecia.

podsumowanie

zbadaliśmy klasyfikację w R wraz z ich zastosowaniami i zaletami i wadami. Nauczyliśmy się również przykładów w czasie rzeczywistym, które pomagają lepiej nauczyć się klasyfikacji.

następny tutorial z serii R DataFlair-Pakiet E1071 / modele szkoleniowe i testowe SVM w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.