Klassificering i R Programmering: alt i en tutorial til at mestre konceptet!
i denne tutorial vil vi studere klassificeringen i R grundigt. Vi vil også dække beslutningstræet, na Larus Bayes klassificering og støtte vektor maskine. For at forstå det på den bedste måde bruger vi billeder og eksempler i realtid.
Hold dig opdateret med nyeste teknologi tendenser
Deltag DataFlair på Telegram!!
- Introduktion til klassificering i R
- vigtige Klassificeringspunkter i R
- beslutningstræ i R
- vigtige terminologier relateret til beslutningstræ
- typer af beslutningstræ
- kategoriske (klassificering) træer vs kontinuerlige (regression) træer
- fordele ved beslutningstræ i R
- ulemper ved R-beslutningstræ
- Introduktion til Na-klassificering af karruseller
- Introduktion til Supportvektormaskiner
- Hvad er Supportvektormaskine?
- terminologier relateret til R SVM
- fordele ved SVM i R
- ulemper ved SVM i R
- Support Vector Machine – Regression
- anvendelser af klassificering i R
- Resume
Introduktion til klassificering i R
vi bruger det til at forudsige en kategorisk klassemærke, såsom vejr: regnfuld, solrig, overskyet eller snedækket.
vigtige Klassificeringspunkter i R
der er forskellige klassifikatorer tilgængelige:
- beslutningstræer-disse er organiseret i form af sæt spørgsmål og svar i træstrukturen.
- Naive Bayes klassifikatorer – en probabilistisk maskinindlæringsmodel, der bruges til klassificering.
- K-NN klassifikatorer – baseret på lighedsmålene som afstand klassificerer den nye sager.
- Support Vector Machines – det er en ikke-probabilistisk binær lineær klassifikator, der bygger en model til at klassificere en sag i en af de to kategorier.
et eksempel på klassificering i r gennem Support Vector Machine er brugen af klassificering () funktion:
klassificering (treksemplobj,classLabels,valeksemplobj=NULL,kf=5,kernel=”lineær”)
vent! Har du gennemført tutorial om klyngedannelse i R
argumenter:
1. treksemplobj – det er et eksemplar tog eSet objekt.
2. classLabels – det bliver gemt i eSet objekt som variabelnavn f.eks “type”.
3. det er kendt som eksempler Validering eSet objekt.
4. kf-det betegnes som K-folds-værdien af krydsvalideringsparameteren. Standardværdien er også 5-fold. Ved at indstille” Loo” eller ” LOO ” en Leave-One-out krydsvalidering, som vi skal udføre.
5. kernel-i klassificeringsanalyse bruger vi en type kerne. Standardkernen er”lineær”.
6. classL-etiketterne på togsættet.
7. valClassL-det betegnes som etiketterne for valideringssættet, hvis ikke NULL.
8. predLbls-det er defineret som de forudsagte etiketter i henhold til klassificeringsanalysen.
beslutningstræ i R
det er en type overvåget læringsalgoritme. Vi bruger det til klassificeringsproblemer. Det virker for begge typer af input og output variabler. I denne teknik opdeler vi befolkningen i to eller flere homogene sæt. Desuden er den baseret på den mest betydningsfulde splitter/differentiator i inputvariabler.
beslutningstræet er en kraftig ikke-lineær klassifikator. Et beslutningstræ bruger en trælignende struktur til at skabe forhold mellem de forskellige funktioner og potentielle resultater. Det gør brug af forgreningsbeslutninger som sin kernestruktur.
ved klassificering af data følger beslutningstræet nedenstående trin:
- det sætter alle træningseksempler til en rod.
- baseret på de forskellige udvalgte attributter deler et beslutningstræ disse træningseksempler.
- derefter vælger den attributter ved hjælp af nogle statistiske mål.
- rekursiv partitionering fortsætter, indtil der ikke er noget træningseksempel tilbage.
vigtige terminologier relateret til beslutningstræ
- rodknude: det repræsenterer hele befolkningen eller prøven. Desuden bliver det opdelt i to eller flere homogene sæt.
- opdeling: I dette udfører vi opdelingen af en knude i to eller flere underknudepunkter.
- beslutningstræ: det produceres, når en underknude opdeles i yderligere undernoder.
- Leaf/Terminal Node: noder, der ikke opdeles, kaldes Leaf eller Terminal node.
- beskæring: når vi fjerner underknudepunkter i en beslutningsknude, kaldes denne proces beskæring. Det er den modsatte proces med opdeling.
- gren / undertræ: et underafsnit af hele træet kaldes gren eller undertræ.
- forældre-og Barneknude: En node, som er opdelt i sub-noder kaldes en forælder node af sub-noder mens sub-noder er barn af en forælder node.
typer af beslutningstræ
- kategorisk(klassificering) variabel beslutningstræ: beslutningstræ, der har en kategorisk målvariabel.
- kontinuerlig(Regression) variabel beslutningstræ: beslutningstræ har en kontinuerlig målvariabel.
glem ikke at tjekke r-Beslutningstræerne i detaljer
kategoriske (klassificering) træer vs kontinuerlige (regression) træer
Regressionstræer bruges, når den afhængige variabel er kontinuerlig, mens klassificeringstræer bruges, når den afhængige variabel er kategorisk.
i kontinuerlig er en opnået værdi et gennemsnitligt observationsrespons.
i klassificering er en værdi opnået af en terminalknude en observationsmåde.
der er en lighed i begge tilfælde. Opdelingen proces fortsætter resulterer i dyrkede træer, indtil den når til at stoppe kriterier. Men det dyrkede træ vil sandsynligvis overfit data, hvilket fører til dårlig nøjagtighed på usete data. Dette bringer ‘beskæring’. Beskæring er en af de teknikker, der bruger tackle overfitting.
fordele ved beslutningstræ i R
- let at forstå: det behøver ikke nogen statistisk viden til at læse og fortolke dem. Dens grafiske repræsentation er meget intuitiv, og brugerne kan relatere deres hypotese.
- mindre data rengøring kræves: Sammenlignet med nogle andre modelleringsteknikker kræver det færre data.
- datatype er ikke en begrænsning: den kan håndtere både numeriske og kategoriske variabler.
- enkel at forstå og fortolke.
- kræver lidt data forberedelse.
- det virker med både numeriske og kategoriske data.
- håndterer ikke-linearitet.
- muligt at bekræfte en model ved hjælp af statistiske tests.
- det er robust. Det fungerer godt, selvom du afviger fra antagelser.
- det skalerer til Big Data.
du skal bestemt udforske R ikke-lineær regressionsanalyse
ulemper ved R-beslutningstræ
- Overfitting: det er en af de mest praktiske vanskeligheder for Beslutningstræmodeller. Ved at indstille begrænsninger på modelparametre og beskæring kan vi løse dette problem i R.
- ikke egnet til kontinuerlige variabler: på tidspunktet for brug af kontinuerlige numeriske variabler. Når det kategoriserer variabler i forskellige kategorier, mister beslutningstræet information.
- at lære globalt optimalt træ er NP-hårdt, algos stole på grådig søgning.
- komplekse “if-then” relationer mellem funktioner puste træ størrelse. Eksempel-Port, multipleksor.
Introduktion til Na-klassificering af karruseller
vi bruger Bayes’ sætning til at forudsige. Det er baseret på forudgående viden og aktuelle beviser.
Bayes’ sætning udtrykkes ved følgende ligning:
hvor P(A) og P(B) er sandsynligheden for begivenheder A og B uden hensyn til hinanden. P(A|B) er sandsynligheden for a betinget af B og P (B / A) er sandsynligheden for B betinget af A.
Introduktion til Supportvektormaskiner
Hvad er Supportvektormaskine?
vi bruger den til at finde den optimale hyperplan (linje i 2d, et plan i 3D og hyperplan i mere end 3 dimensioner). Hvilket hjælper med at maksimere margenen mellem to klasser. Støttevektorer er observationer, der understøtter hyperplan på begge sider.
det hjælper med at løse et lineært optimeringsproblem. Det hjælper også med at finde hyperplanet med den største margen. Vi bruger “Kernel Trick” til at adskille forekomster, der er uadskillelige.
terminologier relateret til R SVM
hvorfor Hyperplan?
det er en linje i 2D og plan i 3D. i højere dimensioner (mere end 3d) kaldes det som et hyperplan. Desuden hjælper SVM os med at finde et hyperplan, der kan adskille to klasser.
Hvad er Margin?
en afstand mellem hyperplanet og det nærmeste datapunkt kaldes en margen. Men hvis vi vil fordoble det, ville det være lig med margenen.
hvordan finder man den optimale hyperplan?
først skal vi vælge to hyperplaner. De skal adskille dataene uden punkter mellem dem. Så maksimere afstanden mellem disse to hyperplaner. Afstanden Her er ‘margin’.
Hvad er kerne?
det er en metode, der hjælper med at få SVM til at køre i tilfælde af ikke-lineære adskillelige datapunkter. Vi bruger en kernefunktion til at omdanne dataene til et højere dimensionelt funktionsrum. Og også ved hjælp af det, udfør den lineære adskillelse.
Forskellige Kerner
1. lineær: u’ * v
2. polynom: (gamma * u’ * v + coef0)^grad
3. radial basis (RBF) : eksp (- gamma*|u-v|^2)sigmoid : tanh (gamma*u’*v + coef0)
RBF er generelt den mest populære.
hvordan fungerer SVM?
- vælg en optimal hyperplan, der maksimerer margenen.
- anvender straf for fejlklassifikationer (cost ‘c’ tuning parameter).
- hvis datapunkterne ikke kan adskilles lineært. Derefter omdannes data til højt dimensionelt rum. Det gøres for at klassificere det let ved hjælp af lineære beslutningsflader.
tid til at mestre begrebet datavisualisering i R
fordele ved SVM i R
- hvis vi bruger Kernetrick i tilfælde af ikke-lineære adskillelige data, fungerer det meget godt.
- SVM fungerer godt i højdimensionelt rum og i tilfælde af klassificering af tekst eller billede.
- det lider ikke et multikollinearitetsproblem.
ulemper ved SVM i R
- det tager mere tid på store datasæt.
- SVM returnerer ikke sandsynlighedsestimater.
- i tilfælde af lineært adskillelige data er dette næsten som logistisk regression.
Support Vector Machine – Regression
- Ja, Vi kan bruge det til et regressionsproblem, hvor den afhængige eller målvariabel er kontinuerlig.
- målet med SVM-regression er det samme som klassificeringsproblem, dvs.at finde den største margin.
anvendelser af klassificering i R
- et akutrum på et hospital måler 17 variabler af nyligt indlagte patienter. Variabler, som blodtryk, alder og mange flere. Desuden skal der træffes en omhyggelig beslutning, hvis patienten skal indlægges på ICU. På grund af en høj pris på I. C. U får de patienter, der kan overleve mere end en måned, høj prioritet. Problemet er også at forudsige højrisikopatienter. Og for at diskriminere dem fra lavrisikopatienter.
- et kreditfirma modtager hundredtusindvis af ansøgninger om nye kort. Ansøgningen indeholder oplysninger om flere forskellige attributter. Desuden er problemet at kategorisere dem, der har god kredit, dårlig kredit eller falder i et gråt område.
- astronomer har katalogiseret fjerne objekter på himlen ved hjælp af C. C. D-billeder med lang eksponering. Således er objektet, der skal mærkes, en stjerne, galakse osv. Dataene er støjende, og billederne er meget svage, derfor kan katalogiseringen tage årtier at gennemføre.
Resume
vi har studeret om klassificering i R sammen med deres anvendelser og fordele og ulemper. Vi har også lært eksempler i realtid, der hjælper med at lære klassificering på en bedre måde.
næste tutorial i vores R DataFlair tutorial serie – E1071 pakke / SVM træning og test modeller i R