Klassificering i R-Programmering: allt i en handledning för att behärska konceptet!
i denna handledning kommer vi att studera klassificeringen i R noggrant. Vi kommer också att täcka beslutsträdet, na Ukraive Bayes klassificering och stöd vektor maskin. För att förstå det på bästa sätt använder vi bilder och realtidsexempel.
Håll dig uppdaterad med senaste tekniktrender
gå med i DataFlair på Telegram!!
- introduktion till klassificering i R
- viktiga Klassificeringspunkter i R
- beslutsträd i R
- viktiga terminologier relaterade till beslutsträd
- typer av beslutsträd
- kategoriska (klassificering) träd vs kontinuerliga (regression) träd
- fördelar med beslutsträd i R
- nackdelar med R beslutsträd
- introduktion till Na-klassificering av bajes-klassificering
- introduktion till Stödvektormaskiner
- Vad är stödvektormaskin?
- terminologier relaterade till R SVM
- fördelar med SVM i R
- nackdelar med SVM i R
- Support Vector Machine-Regression
- tillämpningar av klassificering i R
- sammanfattning
introduktion till klassificering i R
vi använder den för att förutsäga en kategorisk klassetikett, såsom väder: regnigt, soligt, molnigt eller snöigt.
viktiga Klassificeringspunkter i R
det finns olika klassificerare tillgängliga:
- beslutsträd-dessa är organiserade i form av uppsättningar av frågor och svar i trädstrukturen.
- Naive Bayes Classifiers-en probabilistisk maskininlärningsmodell som används för klassificering.
- K-nn – klassificerare-baserat på likhetsåtgärderna som avstånd klassificerar det nya fall.
- Support Vector Machines-det är en icke-probabilistisk binär linjär klassificerare som bygger en modell för att klassificera ett fall i en av de två kategorierna.
ett exempel på klassificering i r genom stöd vektor maskin är användningen av klassificering () funktion:
klassificering (trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”linjär”)
vänta! Har du slutfört handledningen om kluster i r
argument:
1. trExemplObj-det är ett exempel tåg ESET objekt.
2. classLabels-det lagras i ESET-objekt som variabelnamn t.ex. “typ”.
3. valExemplObj – det är känt som exempel validering ESET objekt.
4. kf-det kallas K-folds-värdet för korsvalideringsparametern. Standardvärdet är också 5-veck. Genom att ställa in” Loo “eller” LOO ” en Leave-One-Out Cross-Validation som vi måste utföra.
5. kernel-i klassificeringsanalys använder vi en typ av kärna. Standardkärnan är “linjär”.
6. classL-etiketterna på tåguppsättningen.
7. valClassL-det kallas etiketterna för valideringsuppsättningen om inte NULL.
8. predLbls-det definieras som de förutsagda etiketterna enligt klassificeringsanalysen.
beslutsträd i R
det är en typ av övervakad inlärningsalgoritm. Vi använder det för klassificeringsproblem. Det fungerar för båda typerna av inmatnings-och utgångsvariabler. I denna teknik delar vi befolkningen i två eller flera homogena uppsättningar. Dessutom är den baserad på den mest signifikanta splitter/differentiatorn i ingångsvariabler.
beslutsträdet är en kraftfull icke-linjär klassificerare. Ett beslutsträd använder sig av en trädliknande struktur för att skapa relation mellan de olika funktionerna och potentiella resultaten. Det använder sig av förgreningsbeslut som sin kärnstruktur.
vid klassificering av data följer beslutsträdet stegen nedan:
- det sätter alla träningsexempel till en rot.
- baserat på de olika valda attributen delar ett beslutsträd dessa träningsexempel.
- då kommer det att välja attribut genom att använda några statistiska åtgärder.
- rekursiv partitionering fortsätter tills inget träningsexempel kvarstår.
viktiga terminologier relaterade till beslutsträd
- rotnod: det representerar hela populationen eller provet. Dessutom blir den uppdelad i två eller flera homogena uppsättningar.
- delning: I detta utför vi uppdelningen av en nod i två eller flera undernoder.
- beslutsträd: det produceras när en undernod delas upp i ytterligare undernoder.
- blad / Terminalnod: noder som inte delas kallas blad eller Terminalnod.
- beskärning: när vi tar bort undernoder i en beslutsnod kallas denna process beskärning. Det är den motsatta processen att dela upp.
- gren / underträd: ett underavsnitt av hela trädet kallas gren eller underträd.
- förälder-och barnnod: En nod, som är uppdelad i undernoder kallas en överordnad nod för undernoder medan undernoder är barnet till en överordnad nod.
typer av beslutsträd
- kategorisk(klassificering) variabel beslutsträd: beslutsträd som har en kategorisk målvariabel.
- kontinuerlig (Regression) variabel beslutsträd: beslutsträd har en kontinuerlig målvariabel.
glöm inte att kolla in R-Beslutsträden i detalj
kategoriska (klassificering) träd vs kontinuerliga (regression) träd
Regressionsträd används när den beroende variabeln är kontinuerlig medan klassificeringsträd används när den beroende variabeln är kategorisk.
i kontinuerlig är ett erhållet värde ett genomsnittligt observationssvar.
i klassificering är ett värde som erhålls av en terminalnod ett observationsläge.
det finns en likhet i båda fallen. Delningsprocessen fortsätter resulterar i odlade träd tills den når stoppkriterier. Men det odlade trädet kommer sannolikt att överpassa data, vilket leder till dålig noggrannhet på osynliga data. Detta ger ‘beskärning’. Beskärning är en av de tekniker som använder tackla overfitting.
fördelar med beslutsträd i R
- lätt att förstå: det behöver ingen statistisk kunskap för att läsa och tolka dem. Dess grafiska representation är mycket intuitiv och användarna kan relatera sin hypotes.
- mindre data rengöring krävs: Jämfört med vissa andra modelleringstekniker kräver det färre data.
- datatyp är inte en begränsning: den kan hantera både numeriska och kategoriska variabler.
- enkel att förstå och tolka.
- kräver lite databeredning.
- det fungerar med både numeriska och kategoriska data.
- hanterar icke-linjäritet.
- möjligt att bekräfta en modell med hjälp av statistiska tester.
- den är robust. Det fungerar bra även om du avviker från antaganden.
- det skalar till Big Data.
du måste definitivt utforska r icke-linjär regressionsanalys
nackdelar med R beslutsträd
- Overfitting: det är en av de mest praktiska svårigheterna för Beslutsträdmodeller. Genom att ställa in begränsningar för modellparametrar och beskärning kan vi lösa detta problem i R.
- inte lämplig för kontinuerliga variabler: vid användning av kontinuerliga numeriska variabler. När det kategoriserar variabler i olika kategorier förlorar beslutsträdet information.
- att lära sig globalt optimalt träd är NP-hårt, algos litar på girig sökning.
- komplexa” if-then ” – förhållanden mellan funktioner blåser upp trädstorleken. Exempel – xor gate, multiplexor.
introduktion till Na-klassificering av bajes-klassificering
vi använder Bayes sats för att göra förutsägelsen. Den bygger på förkunskaper och aktuella bevis.
Bayes sats uttrycks av följande ekvation:
där P(A) och P(B) är sannolikheten för händelser A och B utan att betrakta varandra. P (A|B) är sannolikheten för en villkorad på B och P (B|A) är sannolikheten för B villkorad på A.
introduktion till Stödvektormaskiner
Vad är stödvektormaskin?
vi använder den för att hitta den optimala hyperplanen (linje i 2D, ett plan i 3D och hyperplan i mer än 3 dimensioner). Vilket hjälper till att maximera marginalen mellan två klasser. Stödvektorer är observationer som stöder hyperplan på vardera sidan.
det hjälper till att lösa ett linjärt optimeringsproblem. Det hjälper också till att hitta hyperplanen med den största marginalen. Vi använder “Kernel Trick” för att separera instanser som är oskiljaktiga.
terminologier relaterade till R SVM
varför hyperplan?
det är en linje i 2D och plan i 3D. i högre dimensioner (mer än 3D) kallas det som ett hyperplan. Dessutom hjälper SVM oss att hitta en hyperplan som kan skilja två klasser.
Vad är Marginal?
ett avstånd mellan hyperplanet och närmaste datapunkt kallas en marginal. Men om vi vill fördubbla det, skulle det vara lika med marginalen.
hur hittar man den optimala hyperplanen?
först måste vi välja två hyperplaner. De måste skilja uppgifterna utan poäng mellan dem. Maximera sedan avståndet mellan dessa två hyperplaner. Avståndet här är ‘marginal’.
Vad är kärnan?
det är en metod som hjälper till att göra SVM-körning, vid icke-linjära separerbara datapunkter. Vi använder en kärnfunktion för att omvandla data till ett högre dimensionellt funktionsutrymme. Och även med hjälp av det, utför den linjära separationen.
Olika Kärnor
1. linjär: u ‘ * v
2. polynom: (gamma * u ‘ * v + coef0)^grad
3. radialbasis ( RBF): exp(-gamma*|u-v|^2) sigmoid: tanh(gamma*u’*v + coef0)
RBF är i allmänhet den mest populära.
hur fungerar SVM?
- välj en optimal hyperplan som maximerar marginalen.
- gäller straff för felklassificeringar (kostnad ‘c’ inställningsparameter).
- om de icke-linjärt separerbara datapunkterna. Omvandla sedan data till högdimensionellt utrymme. Det görs så för att klassificera det enkelt med hjälp av linjära beslutsytor.
tid att behärska begreppet datavisualisering i R
fördelar med SVM i R
- om vi använder Kärntrick vid icke-linjär separerbar data fungerar det mycket bra.
- SVM fungerar bra i högdimensionellt utrymme och vid text-eller bildklassificering.
- det lider inte av ett multikollinearitetsproblem.
nackdelar med SVM i R
- det tar mer tid på stora datamängder.
- SVM returnerar inte sannolikhetsbedömningar.
- när det gäller linjärt separerbara data är detta nästan som logistisk regression.
Support Vector Machine-Regression
- Ja, Vi kan använda den för ett regressionsproblem, där den beroende eller målvariabeln är kontinuerlig.
- syftet med SVM-regression är detsamma som klassificeringsproblem, dvs att hitta den största marginalen.
tillämpningar av klassificering i R
- ett akutrum på ett sjukhus mäter 17 variabler av nyligen antagna patienter. Variabler, som blodtryck, ålder och många fler. Dessutom måste ett noggrant beslut fattas om patienten måste läggas in på ICU. På grund av en hög kostnad för I. C. U ges de patienter som kan överleva mer än en månad hög prioritet. Problemet är också att förutsäga högriskpatienter. Och att diskriminera dem från patienter med låg risk.
- ett kreditföretag får hundratusentals ansökningar om nya kort. Applikationen innehåller information om flera olika attribut. Dessutom är problemet att kategorisera de som har bra kredit, dålig kredit eller faller i en gråzon.
- astronomer har katalogiserat avlägsna föremål på himlen med hjälp av C. C. D-bilder med lång exponering. Således är objektet som måste märkas en stjärna, galax etc. Uppgifterna är bullriga, och bilderna är mycket svaga, därför kan katalogiseringen ta årtionden att slutföra.
sammanfattning
vi har studerat om klassificering i R tillsammans med deras användningsområden och fördelar och nackdelar. Vi har också lärt oss realtidsexempel som hjälper till att lära sig Klassificering på ett bättre sätt.
nästa handledning i vår r DataFlair tutorial series – E1071 paket / SVM utbildning och testning modeller i R