Klassifisering I R Programmering: alt i en opplæring for å mestre konseptet!

i denne opplæringen vil vi studere klassifiseringen i R grundig. Vi vil ogsa dekke Beslutningstreet, Naï Bayes Klassifisering og Support Vector Maskin. For å forstå det på best mulig måte, vil vi bruke bilder og sanntidseksempler.

 Klassifisering I R

Hold deg oppdatert med nyeste teknologi trender
Bli DataFlair På Telegram!!

Introduksjon Til Klassifisering I R

Vi bruker Den til å forutsi en kategoriskklasseetikett, for eksempel vær: regn, sol, overskyet eller snø.

Viktige Klassifikasjonspunkter I R

det finnes ulike klassifikatorer:

  • Beslutningstrær-disse er organisert I form av sett med spørsmål og svar i trestrukturen.
  • Naive Bayes Classifiers – en probabilistisk maskinlæringsmodell som brukes til klassifisering.
  • K-NN Classifiers-basert på likhetsmål som avstand, klassifiserer den nye saker.
  • Støtte Vektormaskiner – Det er en ikke-probabilistisk binær lineær klassifikator som bygger en modell for å klassifisere en sak i en av de to kategoriene.

et eksempel på klassifisering I R Gjennom Støtte Vektor Maskin er bruken av klassifisering () funksjon:

klassifisering(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”lineær”)

Vent! Har du fullført opplæringen Om Clustering I R

Argumenter:

1. trExemplObj-Det er et exemplars tog eSet objekt.

2. classLabels-det blir lagret i eSet objekt som variabelt navn f. eks “type”.

3. valExemplObj – det er kjent som eksempler validering eSet objekt.

4. kf-det kalles som k-folds-verdien av kryssvalideringsparameteren. Standardverdien er også 5 ganger. Ved å sette ” Loo “eller” LOO ” En Leave-One-Out Kryssvalidering som vi må utføre.

5. kernel-i klassifiseringsanalyse bruker vi En Type Kjerne. Standardkjernen er “lineær”.

6. classL-etikettene til togsettet.

7. valClassL-det kalles som etikettene til valideringssettet hvis IKKE NULL.

8. predLbls-det er definert som de forutsagte etikettene i henhold til klassifiseringsanalysen.

Beslutningstreet I R

Det er en type veiledet læringsalgoritme. Vi bruker det for klassifisering problemer. Det fungerer for begge typer input og output variabler. I denne teknikken deler vi befolkningen i to eller flere homogene sett. Videre er den basert på den mest signifikante splitter / differensiatoren i inngangsvariabler.

Beslutningstreet er en kraftig ikke-lineær klassifikator. Et Beslutningstre bruker en trelignende struktur for å generere forhold mellom de ulike funksjonene og potensielle utfall. Det gjør bruk av forgreningsbeslutninger som kjernestruktur.

 beslutningstreet I R

Ved klassifisering av data følger Beslutningstreet trinnene som er nevnt nedenfor:

  • Det setter alle treningseksempler til en rot.
  • basert på de ulike valgte attributter, deler Et Beslutningstre disse treningseksemplene.
  • Deretter vil det velge attributter ved hjelp av noen statistiske tiltak.
  • Rekursiv partisjonering fortsetter til ingen treningseksempel forblir.

Viktige Terminologier relatert Til Beslutningstreet

  • Rotnode: den representerer hele populasjonen eller utvalget. Videre blir det delt inn i to eller flere homogene sett.

Root-node I Beslutningstreet

  • Splitting: I dette utfører vi delingen av en knute i to eller flere undernoder.
  • Beslutningstreet: det produseres når en undernode deler seg i ytterligere undernoder.
  • Blad / Terminal Node: Noder som ikke deles kalles Blad eller Terminal node.
  • Beskjæring: når vi fjerner undernoder av en beslutningsnode, kalles denne prosessen beskjæring. Det er den motsatte prosessen med splitting.
  • Gren/ Sub-Tre: en underavsnitt av hele treet kalles gren eller sub-tre.
  • Foreldre Og Barn Node: En node, som er delt inn i sub-noder kalles en overordnet node av sub-noder mens sub-noder er barnet til en overordnet node.

Typer Beslutningstreet

  • Kategoriskvariabel Beslutningstreet: Beslutningstreet som har en kategorisk målvariabel.
  • Kontinuerlig (Regresjon) Variabelt Beslutningstre: Beslutningstreet har en kontinuerlig målvariabel.

ikke glem å sjekke Ut R Decision Trær i detalj

Kategoriske (klassifisering) Trær vs Kontinuerlig (regresjon) Trær

Regresjon trær brukes når den avhengige variabelen er kontinuerlig mens klassifisering trær brukes når den avhengige variabelen er kategorisk.

i kontinuerlig er en verdi oppnådd en gjennomsnittlig respons av observasjon.

i klassifisering er en verdi oppnådd av en terminal node en observasjonsmodus.

det er en likhet i begge tilfeller. Splitting prosessen fortsetter resultater i vokst trær før den når å stoppe kriterier. Men det voksne treet vil sannsynligvis overfit data, noe som fører til dårlig nøyaktighet på usynlige data. Dette bringer ‘beskjæring’. Beskjæring er en av teknikkene som bruker takle overfitting.

Fordeler Med Beslutningstreet I R

  • Lett Å Forstå: Det trenger ingen statistisk kunnskap for å lese og tolke dem. Den grafiske representasjonen er veldig intuitiv og brukerne kan forholde seg til hypotesen.
  • Mindre datarensing kreves: Sammenlignet med noen andre modelleringsteknikker, krever det færre data.
  • datatypen er ikke en begrensning: Den kan håndtere både numeriske og kategoriske variabler.
  • Enkel å forstå og tolke.
  • Krever lite data forberedelse.
  • det fungerer med både numeriske og kategoriske data.
  • Håndterer ikke-linearitet.
  • mulig å bekrefte en modell ved hjelp av statistiske tester.
  • det er robust. Det fungerer bra selv om du avviker fra antagelser.
  • det skaleres Til Store Data.

du må definitivt utforske Den Ikke-Lineære Regresjonsanalysen

Ulemper Ved R Decision Tree

  • Overfitting: Det er en av de mest praktiske vanskelighetene For Decision Tree-modeller. Ved å sette begrensninger på modellparametere og beskjæring, kan vi løse dette problemet I R.
  • Ikke egnet for kontinuerlige variabler: Ved bruk av kontinuerlige numeriske variabler. Når Det kategoriserer variabler i ulike kategorier, Mister Beslutningstreet informasjon.
  • for å lære globalt optimal treet ER NP-hard, algos stole på grådig søk.
  • Komplekse” hvis-da ” relasjoner mellom funksjoner blåse trestørrelse. Eksempel – xor gate, multiplexor.

Introduksjon Til Naï Bayes Klassifisering

Vi bruker Bayes’ teorem for å gjøre prediksjonen. Det er basert på forkunnskaper og nåværende bevis.

Bayes’ teorem uttrykkes av følgende ligning:

 P AB - Naï Bayes Klassifisering

Hvor P (A) Og P (B) er sannsynligheten For hendelser A og B uten å anse hverandre. P (A / B) er sannsynligheten for en betinget Av B og P (B|A) er sannsynligheten For B betinget Av A.

Introduksjon Til Støttevektormaskiner

Hva Er Støttevektormaskin?

vi bruker den til å finne den optimale hyperplanen (linje I 2D, et fly I 3D og hyperplane i mer enn 3 dimensjoner). Som hjelper i maksimerer marginen mellom to klasser. Støttevektorer er observasjoner som støtter hyperplane på hver side.
det hjelper med å løse et lineært optimaliseringsproblem. Det hjelper også med å finne hyperplanen med størst margin. Vi bruker “Kernel Trick” for å skille forekomster som er uadskillelige.

Terminologier relatert TIL R SVM

Hvorfor Hyperplane?

det er en linje I 2D og plan i 3D. i høyere dimensjoner (MER ENN 3D) kalles det som en hyperplane. VIDERE HJELPER SVM oss med å finne en hyperplane som kan skille to klasser.

Hva Er Margin?

en avstand mellom hyperplanet og nærmeste datapunkt kalles en marg. Men hvis vi ønsker å doble det, så det ville være lik marginen.

hvordan finne den optimale hyperplanen?

først må vi velge to hyperplanes. De må skille dataene uten poeng mellom dem. Deretter maksimerer avstanden mellom disse to hyperplanene. Avstanden her er ‘margin’.

Hva Er Kjernen?

DET er en metode som bidrar TIL Å gjøre SVM kjøre, i tilfelle av ikke-lineære separerbare datapunkter. Vi bruker en kjernefunksjon for å omdanne dataene til et høyere dimensjonalt funksjonsrom. Og også ved hjelp av det, utfør den lineære separasjonen.

Forskjellige Kjerner

1. lineær: u ‘ *v
2. polynom: (gamma * u ‘ *v + coef0)^grad
3. radial basis (RBF): exp (- gamma * / u-v / ^2) sigmoid: tanh (gamma*u’*v + coef0)

RBF er generelt den mest populære.

HVORDAN SVM fungerer?

  1. Velg en optimal hyperplane som maksimerer margin.
  2. Gjelder straff for feilklassifikasjoner(kostnad ‘ c ‘ tuning parameter).
  3. hvis ikke-lineært separeres datapunktene. Transformer deretter data til høyt dimensjonalt rom. Det er gjort så for å klassifisere det enkelt ved hjelp av lineære beslutningsflater.

tid til å mestre begrepet Datavisualisering I R

Fordeler MED SVM I R

  • hvis vi bruker kjernetrick i tilfelle ikke-lineære separerbare data, utfører det veldig bra.
  • SVM fungerer godt i høy dimensjonale rom og i tilfelle av tekst eller bilde klassifisering.
  • det er ikke et multikollinearitetsproblem.

Ulemper VED SVM I R

  • det tar mer tid på store datasett.
  • SVM returnerer ikke sannsynlighetsestimater.
  • når det gjelder lineært separerbare data, er dette nesten som logistisk regresjon.

Støtte Vektor Maskin-Regresjon

  • Ja, vi kan bruke den til et regresjonsproblem, hvor den avhengige eller målvariabelen er kontinuerlig.
  • MÅLET MED SVM-regresjon er det samme som klassifiseringsproblem, dvs. å finne den største marginen.

Anvendelser Av Klassifisering I R

  • et akuttmottak på sykehus måler 17 variabler av nyinnlagte pasienter. Variabler, som blodtrykk, alder og mange flere. Videre må det tas en forsiktig beslutning hvis pasienten må bli tatt opp til ICU. På grunn av Høye Kostnader For Icu, får de pasientene som kan overleve mer enn en måned høy prioritet. Problemet er også å forutsi høyrisikopasienter. Og for å diskriminere dem fra lavrisikopasienter.
  • et kredittfirma mottar hundretusener av søknader om nye kort. Søknaden inneholder informasjon om flere forskjellige attributter. Videre er problemet å kategorisere de som har god kreditt, dårlig kreditt eller faller inn i et grått område.
  • Astronomer har katalogisert fjerne objekter på himmelen ved hjelp av Bilder med Lang eksponering. Dermed er objektet som må merkes en stjerne, galakse etc. Dataene er støyende, og bildene er svært svake, og katalogiseringen kan derfor ta flere tiår å fullføre.

Sammendrag

vi har studert om klassifisering I R sammen med deres bruksområder og fordeler og ulemper. Vi har også lært sanntidseksempler som bidrar til å lære klassifisering på en bedre måte.

Neste tutorial i Vår r DataFlair tutorial series – E1071 Pakke / SVM Trening Og Testing Modeller I R

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.