Clasificarea în programarea R: tutorialul all in one pentru a stăpâni conceptul!
în acest tutorial, vom studia clasificarea în R bine. Vom acoperi, de asemenea, arborele de decizie, na clasificare și suport Bayes mașină Vector de sprijin. Pentru a o înțelege în cel mai bun mod, vom folosi imagini și exemple în timp real.
rămâneți la curent cu cele mai recente tendințe tehnologice
Alăturați-vă DataFlair pe telegramă!!
- Introducere în clasificarea în R
- puncte importante de clasificare în R
- arbore de decizie în R
- terminologii importante legate de arborele de decizie
- tipuri de arbore de decizie
- arborii categorici (clasificare) vs copacii continue (regresie)
- avantajele arborelui decizional în R
- dezavantaje ale arborelui de decizie R
- Introducere în clasificarea na Oquve Bayes
- Introducere în mașinile vectoriale de sprijin
- ce este mașina vectorială de sprijin?
- terminologii legate de R SVM
- avantajele SVM în R
- dezavantajele SVM în R
- suport Vector mașină – regresie
- aplicații de clasificare în R
- rezumat
Introducere în clasificarea în R
îl folosim pentru a prezice o etichetă de clasă categorică, cum ar fi vremea: ploioasă, însorită, tulbure sau înzăpezită.
puncte importante de clasificare în R
există diferite clasificatori disponibile:
- arbori de decizie – acestea sunt organizate sub formă de seturi de întrebări și răspunsuri în structura arborelui.
- clasificatori Bayes naivi – un model probabilistic de învățare automată care este utilizat pentru clasificare.
- clasificatori K-NN – pe baza măsurilor de similitudine precum distanța, clasifică cazuri noi.
- mașini vectoriale de sprijin – este un clasificator liniar binar non-probabilistic care construiește un model pentru a clasifica un caz într-una din cele două categorii.
un exemplu de clasificare în R prin mașină Vector suport este utilizarea de clasificare () funcție:
clasificare(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”liniar”)
așteptați! Ați finalizat tutorialul despre Clustering în R
argumente:
1. trExemplObj – este un obiect ESET tren exemplars.
2. classLabels – este stocat în obiectul eSet ca nume de variabilă de exemplu “Tip”.
3. valExemplObj – este cunoscut sub numele de exemple de validare eSet obiect.
4. kf – se numește valoarea K-falduri a parametrului de validare încrucișată. De asemenea, valoarea implicită este de 5 ori. Prin setarea ” Loo “sau” LOO ” o validare încrucișată Leave-One-Out pe care trebuie să o efectuăm.
5. kernel – în analiza de clasificare, folosim un tip de Kernel. Nucleul implicit este “liniar”.
6. classL – etichetele setului de tren.
7. valClassL – este numit ca etichetele setului de validare, dacă nu NULL.
8. predLbls – este definit ca etichetele prezise conform analizei de clasificare.
arbore de decizie în R
este un tip de algoritm de învățare supravegheat. Îl folosim pentru probleme de clasificare. Acesta funcționează pentru ambele tipuri de variabile de intrare și de ieșire. În această tehnică, împărțim populația în două sau mai multe seturi omogene. Mai mult, se bazează pe cel mai semnificativ splitter/diferențiator din variabilele de intrare.
Arborele decizional este un puternic clasificator neliniar. Un arbore de decizie folosește o structură asemănătoare arborelui pentru a genera relații între diferitele caracteristici și rezultate potențiale. Folosește deciziile de ramificare ca structură de bază.
în Clasificarea datelor, arborele de decizie urmează pașii menționați mai jos:
- se pune toate exemplele de formare la o rădăcină.
- pe baza diferitelor Atribute selectate, un arbore de decizie împarte aceste exemple de instruire.
- apoi va selecta atributele utilizând unele măsuri statistice.
- partiționarea recursivă continuă până când nu rămâne niciun exemplu de antrenament.
terminologii importante legate de arborele de decizie
- nod rădăcină: reprezintă întreaga populație sau eșantion. Mai mult, se împarte în două sau mai multe seturi omogene.
- Despicare: În aceasta, efectuăm împărțirea unui nod în două sau mai multe sub-noduri.
- arbore de decizie: este produs atunci când un sub-nod se împarte în sub-noduri suplimentare.
- frunză/nod Terminal: nodurile care nu se despart se numesc frunză sau nod Terminal.
- tăiere: când eliminăm sub-nodurile unui nod de decizie, acest proces se numește tăiere. Este procesul opus de divizare.
- ramură / Sub-copac: o subsecțiune a întregului copac se numește ramură sau sub-copac.
- nodul părinte și copil: Un nod, care este împărțit în sub-noduri se numește nod părinte al sub-nodurilor, în timp ce sub-nodurile sunt copilul unui nod părinte.
tipuri de arbore de decizie
- arbore de decizie variabilă categorică(clasificare): arbore de decizie care are o variabilă țintă categorică.
- arbore de decizie variabilă continuă(regresie): arborele de decizie are o variabilă țintă continuă.
nu uitați să verificați în detaliu arborii de decizie R
arborii categorici (clasificare) vs copacii continue (regresie)
arborii de regresie sunt utilizați atunci când variabila dependentă este continuă, în timp ce arborii de clasificare sunt utilizați atunci când variabila dependentă este categorică.
în continuu, o valoare obținută este un răspuns mediu al observației.
în clasificare, o valoare obținută de un nod terminal este un mod de observații.
există o similitudine în ambele cazuri. Procesul de divizare continuă duce la copaci crescuți până când ajunge la criterii de oprire. Dar, arborele crescut este probabil să suprasolicite datele, ceea ce duce la o precizie slabă a datelor nevăzute. Acest lucru aduce ‘tăiere’. Tunderea este una dintre tehnicile care utilizează aborda overfitting.
avantajele arborelui decizional în R
- ușor de înțeles: nu are nevoie de cunoștințe statistice pentru a le citi și interpreta. Reprezentarea sa grafică este foarte intuitivă și utilizatorii își pot relaționa ipoteza.
- este necesară o curățare mai redusă a datelor: În comparație cu alte tehnici de modelare, este nevoie de mai puține date.
- Tipul de date nu este o constrângere: poate gestiona atât variabile numerice, cât și categorice.
- simplu de înțeles și interpretat.
- necesită puțină pregătire a datelor.
- funcționează atât cu date numerice, cât și categorice.
- se ocupă de neliniaritate.
- posibil pentru a confirma un model folosind teste statistice.
- este robust. Funcționează bine chiar dacă vă abateți de la presupuneri.
- se scalează la date mari.
trebuie să explorați cu siguranță analiza de regresie neliniară R
dezavantaje ale arborelui de decizie R
- Overfitting: este una dintre cele mai practice dificultăți pentru modelele arborelui de decizie. Prin stabilirea constrângerilor asupra parametrilor modelului și tăierea, putem rezolva această problemă în R.
- nu este potrivit pentru variabile continue: în momentul utilizării variabilelor numerice continue. Ori de câte ori clasifică variabile în diferite categorii, arborele de decizie pierde informații.
- pentru a afla copac optim la nivel global este NP-hard, algos se bazează pe Căutare greedy.
- relațiile complexe “dacă-atunci” dintre caracteristici umflă dimensiunea arborelui. Exemplu-poarta XOR, multiplexor.
Introducere în clasificarea na Oquve Bayes
folosim teorema lui Bayes pentru a face predicția. Se bazează pe cunoștințe anterioare și dovezi actuale.
teorema lui Bayes este exprimată prin următoarea ecuație:
unde P(A) și P(B) sunt probabilitatea evenimentelor A și B fără a se privi reciproc. P(A|B) este probabilitatea lui a condiționată de B și P (B|A) este probabilitatea lui B condiționată de A.
Introducere în mașinile vectoriale de sprijin
ce este mașina vectorială de sprijin?
îl folosim pentru a găsi hiperplanul optim (linia în 2D, un plan în 3D și hiperplanul în mai mult de 3 dimensiuni). Ceea ce ajută la maximizarea marjei dintre două clase. Vectorii de sprijin sunt observații care susțin hiperplanul de ambele părți.
ajută la rezolvarea unei probleme de optimizare liniară. De asemenea, ajută la găsirea hiperplanului cu cea mai mare marjă. Folosim “trucul Kernel” pentru a separa instanțele care sunt inseparabile.
terminologii legate de R SVM
de ce hiperplan?
este o linie în 2D și un plan în 3D. în dimensiuni mai mari (mai mult decât 3D), se numește hiperplan. Mai mult, SVM ne ajută să găsim un hiperplan care poate separa două clase.
ce este marja?
o distanță între hiperplan și cel mai apropiat punct de date se numește marjă. Dar dacă vrem să o dublăm, atunci ar fi egală cu marja.
cum să găsiți hiperplanul optim?
în primul rând, trebuie să selectăm două hiperplane. Ei trebuie să separe datele fără puncte între ele. Apoi maximizați distanța dintre aceste două hiperplane. Distanța aici este ‘marja’.
ce este nucleul?
este o metodă care ajută la rularea SVM, în cazul punctelor de date separabile neliniare. Folosim o funcție de kernel pentru a transforma datele într-un spațiu de caracteristici dimensionale superioare. Și, de asemenea, cu ajutorul acestuia, efectuați separarea liniară.
Diferite Nuclee
1. linear: u’*v
2. polinom: (gamma * u’ * v + coef0)^grad
3. baza radială (RBF) : exp (- gamma*|u-v|^2)sigmoid : tanh (gamma*u’*v + coef0)
RBF este în general cel mai popular.
cum funcționează SVM?
- alegeți un hiperplan optim care maximizează marja.
- aplică penalități pentru clasificări greșite (parametrul cost ‘C’ tuning).
- dacă separabile neliniar punctele de date. Apoi transformați datele în spațiu dimensional înalt. Se face acest lucru pentru a-l clasifica cu ușurință cu ajutorul suprafețelor de decizie liniare.
timp pentru a stăpâni conceptul de vizualizare a datelor în R
avantajele SVM în R
- dacă folosim Kernel truc în cazul datelor separabile neliniare, atunci funcționează foarte bine.
- SVM funcționează bine în spațiul dimensional ridicat și în cazul clasificării textului sau a imaginii.
- nu suferă o problemă de multicoliniaritate.
dezavantajele SVM în R
- este nevoie de mai mult timp pe seturi de date de dimensiuni mari.
- SVM nu returnează estimările de probabilitate.
- în cazul datelor separabile liniar, aceasta este aproape ca regresia logistică.
suport Vector mașină – regresie
- Da, putem folosi pentru o problemă de regresie, în care variabila dependentă sau țintă este continuă.
- scopul regresiei SVM este același cu problema clasificării, adică găsirea celei mai mari marje.
aplicații de clasificare în R
- o cameră de urgență într-un spital măsoară 17 variabile ale pacienților nou internați. Variabile, cum ar fi tensiunea arterială, vârsta și multe altele. În plus, trebuie luată o decizie atentă dacă pacientul trebuie admis la UTI. Datorită costului ridicat al Icu, pacienților care pot supraviețui mai mult de o lună li se acordă o prioritate ridicată. De asemenea, problema este de a prezice pacienții cu risc ridicat. Și, pentru a le discrimina de la pacienții cu risc scăzut.
- o companie de credit primește sute de mii de cereri pentru carduri noi. Aplicația conține informații despre mai multe atribute diferite. Mai mult decât atât, problema este de a clasifica pe cei care au credit bun, rău de credit sau se încadrează într-o zonă gri.
- astronomii au catalogat obiecte îndepărtate de pe cer folosind imagini C. C. D cu expunere lungă. Astfel, obiectul care trebuie etichetat este o stea, o galaxie etc. Datele sunt zgomotoase, iar imaginile sunt foarte slabe, prin urmare, catalogarea poate dura zeci de ani pentru a fi finalizată.
rezumat
am studiat despre clasificarea în R, împreună cu uzanțele lor și argumente pro și contra. De asemenea, am învățat exemple în timp real care ajută la învățarea clasificării într-un mod mai bun.
următorul tutorial în seria noastră de tutoriale R DataFlair-Pachetul E1071 / modele de instruire și testare SVM în r