Classificatie in R Programmering: de alles in één tutorial om het concept te beheersen!

in deze handleiding zullen we de classificatie in R grondig bestuderen. We zullen ook de Decision Tree, naïeve Bayes classificatie en ondersteuning Vector Machine behandelen. Om het op de beste manier te begrijpen, gebruiken we afbeeldingen en real-time voorbeelden.

indeling in R

blijf op de hoogte met de nieuwste technologische trends
Word lid van Dataflair op Telegram!!

Inleiding tot classificatie in R

we gebruiken het om een categorisch klassenlabel te voorspellen, zoals weer: regenachtig, zonnig, bewolkt of besneeuwd.

belangrijke Classificatiepunten in R

er zijn verschillende classificaties beschikbaar:

  • besluit bomen – deze zijn georganiseerd in de vorm van sets van vragen en antwoorden in de boomstructuur.Naive Bayes Classifiers – een probabilistisch machine learning model dat wordt gebruikt voor classificatie.
  • K-NN Classificeerders-op basis van de vergelijkingsmaatstaven zoals afstand worden nieuwe zaken ingedeeld.
  • ondersteuning voor Vectormachines-het is een niet-probabilistische binaire lineaire classifier die een model bouwt om een geval in een van de twee categorieën te classificeren.

een voorbeeld van classificatie in R via Support Vector Machine is het gebruik van classification () functie:

classification (trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”linear”)

wacht! Heb je de tutorial over Clustering in R

argumenten voltooid:

1. trExemplObj-het is een voorbeeld van een trein ESET object.

2. klassenlabels-het wordt opgeslagen in het ESET-object als variabelnaam, bijvoorbeeld “type”.

3. valExemplObj-het staat bekend als voorbeelden validatie eSet object.

4. kf-het wordt genoemd als de k-vouwen waarde van de kruis-validatieparameter. Ook is de standaardwaarde 5-vouwen. Door het instellen van “Loo” of ” LOO ” een Leave-One-Out Cross-validatie die we moeten uitvoeren.

5. kernel – in classificatieanalyse gebruiken we een type Kernel. De standaard kernel is “lineair”.

6. classL – de etiketten van de trein set.

7. valClassL-het wordt aangeduid als de labels van de validatieset indien niet NULL.

8. predLbls-het wordt gedefinieerd als de voorspelde labels volgens de classificatieanalyse.

beslissingsboom in R

het is een soort algoritme voor onder toezicht leren. We gebruiken het voor classificatieproblemen. Het werkt voor beide soorten input en output variabelen. In deze techniek verdelen we de populatie in twee of meer homogene verzamelingen. Bovendien is het gebaseerd op de belangrijkste splitter/differentiator in invoervariabelen.

de beslissingsboom is een krachtige niet-lineaire classifier. Een beslissingsboom maakt gebruik van een boom-achtige structuur om relatie tussen de verschillende functies en potentiële resultaten te genereren. Het maakt gebruik van vertakkende beslissingen als de kernstructuur.

beslissingsboom in R

bij het classificeren van gegevens volgt de beslissingsboom de onderstaande stappen:

  • het zet alle trainingsvoorbeelden tot een wortel.
  • op basis van de verschillende geselecteerde attributen verdeelt een beslissingsboom deze trainingsvoorbeelden.
  • vervolgens selecteert het Attributen met behulp van een aantal statistische maatregelen.
  • recursieve partitionering gaat door totdat er geen trainingsvoorbeeld overblijft.

belangrijke terminologieën gerelateerd aan beslissingsboom

  • Root Node: het vertegenwoordigt de gehele populatie of steekproef. Bovendien wordt het verdeeld in twee of meer homogene verzamelingen.

Root-node in beslissingsboom

  • splitsen: In deze, voeren we de verdeling van een knooppunt in twee of meer sub-knooppunten.
  • beslissingsboom: deze wordt geproduceerd wanneer een subknooppunt zich splitst in andere subknooppunten.
  • blad / terminaal knooppunt: knooppunten die niet splitsen worden blad-of terminaal knooppunt genoemd.
  • snoeien: wanneer we subknooppunten van een beslissingsknooppunt verwijderen, wordt dit proces snoeien genoemd. Het is het tegenovergestelde proces van splitsen.
  • tak / subboom: een subsectie van de gehele boom wordt tak of subboom genoemd.
  • ouder-en Dochterknooppunt: Een knooppunt, dat is onderverdeeld in subknooppunten, wordt een ouderknooppunt van subknooppunten genoemd, terwijl subknooppunten de dochter zijn van een ouderknooppunt.

types of Decision Tree

  • Categorical (classification) Variable Decision Tree: Decision Tree die een categorical target variabele heeft.
  • continue (regressie) variabele beslissingsboom: beslissingsboom heeft een continue doelvariabele.

vergeet niet om de R-besluit bomen in detail te bekijken

categorisch (classificatie) bomen Versus continu (regressie) bomen

Regressiebomen worden gebruikt wanneer de afhankelijke variabele continu is, terwijl classificatiebomen worden gebruikt wanneer de afhankelijke variabele categorisch is.

bij continu is een verkregen waarde een gemiddelde waarnemingsrespons.

in classificatie is een waarde die wordt verkregen door een terminaal knooppunt een wijze van waarneming.

in beide gevallen is er één overeenkomst. Het splitsingsproces blijft resulteert in geteelde bomen totdat het bereikt om te stoppen criteria. Maar de geteelde boom zal waarschijnlijk gegevens overbieten, wat leidt tot een slechte nauwkeurigheid op ongeziene gegevens. Dit brengt ‘snoeien’. Snoeien is een van de technieken die gebruik maakt van tackle overfitting.

voordelen van beslissingsboom in R

  • gemakkelijk te begrijpen: het heeft geen statistische kennis nodig om ze te lezen en te interpreteren. De grafische weergave is zeer intuïtief en gebruikers kunnen hun hypothese relateren.
  • minder gegevensreiniging vereist: In vergelijking met sommige andere modelleringstechnieken, vereist het minder gegevens.
  • gegevenstype is geen beperking: het kan zowel numerieke als categorische variabelen verwerken.
  • eenvoudig te begrijpen en te interpreteren.
  • vereist weinig gegevensvoorbereiding.
  • het werkt met zowel numerieke als categorische gegevens.
  • verwerkt niet-lineariteit.
  • mogelijk om een model te bevestigen met behulp van statistische tests.
  • het is robuust. Het presteert goed, zelfs als je afwijkt van veronderstellingen.
  • it schaalt naar Big Data.

u moet zeker de R niet-lineaire regressieanalyse

nadelen van R beslissingsboom

  • overbevissing onderzoeken: het is een van de meest praktische problemen voor Beslissingsboommodellen. Door beperkingen in te stellen op modelparameters en snoeien, kunnen we dit probleem oplossen in R.
  • niet geschikt voor continue variabelen: op het moment van het gebruik van continue numerieke variabelen. Wanneer het variabelen in verschillende categorieën categoriseert, verliest de beslissingsboom informatie.
  • om wereldwijd te leren dat optimale boom NP-hard is, vertrouwen algos op hebzuchtig zoeken.
  • complexe “als-Dan” relaties tussen kenmerken vergroten de boomgrootte. Voorbeeld – XOR poort, multiplexor.

Inleiding tot de classificatie van naïeve Bayes

we gebruiken de stelling van Bayes om de voorspelling te maken. Het is gebaseerd op voorkennis en actueel bewijs.

de stelling van Bayes wordt uitgedrukt met de volgende vergelijking:

P AB-naïeve Bayes classificatie

waarbij P (A) en P(B) de waarschijnlijkheid zijn van gebeurtenissen A en B zonder met elkaar verband te houden. P(A|B) is de kans op A afhankelijk van B en P (B|A) is de kans op B afhankelijk van A.

Inleiding tot Ondersteuningsvectormachines

Wat is Ondersteuningsvectormachine?

we gebruiken het om het optimale hypervlak te vinden (Lijn in 2D, een vlak in 3D en hypervlak in meer dan 3 dimensies). Wat helpt bij het maximaliseren van de marge tussen twee klassen. De vectoren van de steun zijn waarnemingen die hypervlak aan weerszijden steunen.
het helpt bij het oplossen van een lineair optimalisatieprobleem. Het helpt ook bij het vinden van het hypervlak met de grootste marge. We gebruiken de “Kerneltruc” om instanties te scheiden die onafscheidelijk zijn.

terminologieën gerelateerd aan R SVM

waarom hypervlak?

het is een lijn in 2D en een vlak in 3D. in hogere dimensies (meer dan 3D) wordt het een hypervlak genoemd. Bovendien helpt SVM ons om een hypervlak te vinden dat twee klassen kan scheiden.

Wat is Marge?

een afstand tussen het hypervlak en het dichtstbijzijnde gegevenspunt wordt een marge genoemd. Maar als we het willen verdubbelen, dan is het gelijk aan de marge.

hoe het optimale hypervlak te vinden?

eerst moeten we twee hyperplanes selecteren. Ze moeten de gegevens scheiden zonder punten tussen hen. Maximaliseer dan de afstand tussen deze twee hypervlakken. De afstand hier is ‘marge’.

Wat is Kernel?

het is een methode die helpt om SVM te laten draaien, in het geval van niet-lineaire scheidbare gegevenspunten. We gebruiken een kernelfunctie om de gegevens om te zetten in een hogere dimensionale feature-ruimte. En ook met de hulp van het, het uitvoeren van de lineaire scheiding.

Verschillende Kernels

1. lineair: u ‘ * v
2. polynoom: (gamma * u * v + coef0)^graad
3. radiale basis (RBF): exp(-gamma*|u-v|^2) sigmoid: tanh(gamma*u’*v + coef0)

RBF is over het algemeen de meest populaire.

Hoe werkt SVM?

  1. Kies een optimaal hypervlak dat de marge maximaliseert.
  2. past boete toe voor verkeerde classificaties (kosten ” C ” tuning parameter).
  3. indien de gegevenspunten niet lineair scheidbaar zijn. Transformeer dan data naar een hoge dimensionale ruimte. Dit wordt gedaan om het gemakkelijk te classificeren met behulp van lineaire beslissingsoppervlakken.

tijd om het concept van datavisualisatie onder de knie te krijgen in R

voordelen van SVM in R

  • als we Kerneltruck gebruiken in het geval van niet-lineaire scheidbare gegevens, dan presteert het zeer goed.
  • SVM werkt goed in hoge dimensionale ruimte en in het geval van tekst-of beeldclassificatie.
  • het lijdt geen multicollineariteitsprobleem.

nadelen van SVM in R

  • het kost meer tijd bij grote datasets.
  • SVM geeft geen waarschijnlijkheidsschattingen terug.
  • in het geval van lineair scheidbare gegevens is dit bijna als logistische regressie.

ondersteuning Vector Machine-regressie

  • Ja, we kunnen het gebruiken voor een regressieprobleem, waarbij de afhankelijke of doelvariabele continu is.
  • het doel van SVM-regressie is hetzelfde als het classificatieprobleem, d.w.z. het vinden van de grootste marge.

toepassingen van classificatie in R

  • een spoedeisende hulp in een ziekenhuis meet 17 variabelen van nieuw opgenomen patiënten. Variabelen, zoals bloeddruk, leeftijd en nog veel meer. Bovendien moet een zorgvuldige beslissing worden genomen of de patiënt op de intensive care moet worden opgenomen. Vanwege de hoge kosten van I. C. U, die patiënten die kunnen overleven meer dan een maand krijgen hoge prioriteit. Het probleem is ook om patiënten met een hoog risico te voorspellen. En om ze te onderscheiden van patiënten met een laag risico.
  • een Kredietmaatschappij ontvangt honderdduizenden aanvragen voor nieuwe kaarten. De toepassing bevat informatie over verschillende attributen. Bovendien, het probleem is om degenen die goede krediet, slechte krediet of vallen in een grijs gebied te categoriseren.
  • astronomen hebben verre objecten in de hemel gecatalogiseerd met behulp van C. C. D-beelden met lange belichting. Dus, het object dat moet worden geëtiketteerd is een ster, sterrenstelsel etc. De gegevens zijn lawaaierig en de beelden zijn erg zwak, vandaar dat het catalogiseren tientallen jaren kan duren.

samenvatting

we hebben onderzoek gedaan naar classificatie in R samen met hun gebruik en voor-en nadelen. We hebben ook real-time voorbeelden geleerd die helpen om classificatie op een betere manier te leren.

volgende tutorial in onze R dataflair tutorial serie – E1071 pakket / SVM Training en testen modellen in R

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.