Luokittelu R-ohjelmointi: kaikki yhdessä opetusohjelma hallita käsite!
tässä opetusohjelmassa tutkimme luokituksen R perusteellisesti. Käsittelemme myös päätöspuuta, naiivia Bayes-luokittelua ja Tukivektorikonetta. Ymmärtääksemme sen parhaalla tavalla käytämme kuvia ja reaaliaikaisia esimerkkejä.
Pysy ajan tasalla uusimpien teknologiasuuntausten kanssa
liity Dataflairiin Telegramissa!!
- Johdatus luokitukseen R
- r: n tärkeät luokittelupisteet
- Ratkaisupuu R
- Ratkaisupuuhun liittyvät tärkeät terminologiat
- Ratkaisupuun tyypit
- kategoriset (luokitus) puut vs jatkuvat (regressio) puut
- päätöksenteon edut R
- R-Päätöksentekopuun haitat
- Johdatus naiiviin Bayes-luokitukseen
- Johdatus Tukivektorikoneisiin
- mikä on Tukivektorikone?
- R SVM: ään liittyvät terminologiat
- SVM: n edut R
- SVM: n haitat R
- Support Vector Machine-Regression
- Luokitushakemukset R
- Summary
Johdatus luokitukseen R
käytämme sitä ennustamaan kategorista luokkamerkkiä, kuten sää: sateinen, aurinkoinen, pilvinen tai luminen.
r: n tärkeät luokittelupisteet
on olemassa erilaisia luokittelijoita:
- päätös puut-nämä järjestetään muodossa sarjoja kysymyksiä ja vastauksia puun rakenne.
- naiivi Bayes Classifiers – todennäköisyyslaskennan mukainen koneoppimismalli, jota käytetään luokittelussa.
- K-nn luokittelijat – samankaltaisuuden mittareiden kuten etäisyyden perusteella se luokittelee uusia tapauksia.
- tukevat Vektorikoneita-se on ei-probabilistinen binäärinen lineaarinen luokittelija, joka rakentaa mallin, jolla tapaus luokitellaan jompaankumpaan näistä kahdesta kategoriasta.
esimerkki luokittelusta R: ssä Tukivektorikoneen avulla on luokittelun() käyttö:
luokittelu(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”linear”)
odota! Oletko suorittanut opetusohjelman ryhmittelystä kohteessa R
argumentit:
1. trExemplObj – se on esikuvana juna eSet objekti.
2. classLabels-se tallennetaan ESET object-tiedostoon muuttujan nimellä, esim. “type”.
3. valExemplObj-se tunnetaan nimellä exemplars validation eSet object.
4. KF-sitä kutsutaan ristiintarkistusparametrin k-taittumisarvoksi. Myös oletusarvo on 5-taittuu. Asettamalla “Loo ” tai” LOO ” jättää yhden-Out Cross-validointi, joka meidän on suoritettava.
5. kernel-luokitteluanalyysissä käytämme Ydintyyppiä. Oletusydin on “lineaarinen”.
6. classL-junan etiketit.
7. valClassL-sitä kutsutaan validointijoukon etiketeiksi, jos se ei ole NULL.
8. predLbls – se määritellään luokitusanalyysin mukaisiksi ennustetarroiksi.
Ratkaisupuu R
se on eräänlainen ohjattu oppimisalgoritmi. Käytämme sitä luokitteluongelmiin. Se toimii sekä tulo-että lähtömuuttujille. Tässä tekniikassa jaoimme populaation kahteen tai useampaan homogeeniseen joukkoon. Lisäksi se perustuu syöttömuuttujien merkittävimpään jakajaan / differentiaattoriin.
Ratkaisupuu on voimakas epälineaarinen luokittelija. Päätöksenteko puu käyttää puun kaltainen rakenne luoda suhde eri ominaisuuksia ja mahdollisia tuloksia. Se käyttää haarautumispäätöksiä ydinrakenteenaan.
tietojen luokittelussa Ratkaisupuu noudattaa jäljempänä mainittuja vaiheita:
- se laittaa kaikki valmennusesimerkit juurilleen.
- Valintapuu jakaa nämä harjoitteluesimerkit valittujen ominaisuuksien perusteella.
- sitten se valitsee attribuutit käyttämällä joitakin tilastollisia mittareita.
- rekursiivinen osiointi jatkuu, kunnes harjoitusesimerkkiä ei ole jäljellä.
Ratkaisupuuhun liittyvät tärkeät terminologiat
- Juurisolmu: se edustaa koko populaatiota tai otosta. Lisäksi se jaetaan kahteen tai useampaan homogeeniseen joukkoon.
- jakaminen: Tässä suoritamme solmun jakamisen kahteen tai useampaan alisolmuun.
- Ratkaisupuu: se syntyy, kun alisolmu jakautuu edelleen alisolmuiksi.
- lehti / Terminaalisolmu: solmuja, jotka eivät jakaudu, kutsutaan lehti-tai Terminaalisolmuksi.
- karsiminen: kun ratkaisusolmun alisolmut poistetaan, tätä prosessia kutsutaan karsimiseksi. Se on päinvastainen jakoprosessi.
- haara / Alapuu: koko puun alajaksoa kutsutaan haara-tai alapuuksi.
- vanhemman ja lapsen solmu: Solmua, joka on jaettu alisolmuihin, kutsutaan alisolmujen kantasolmuksi, kun taas alisolmut ovat kantasolmun lapsi.
Ratkaisupuun tyypit
- kategorinen(luokitus) muuttuja Ratkaisupuu: Ratkaisupuu, jolla on kategorinen kohdemuuttuja.
- jatkuva (regressio) muuttuja Ratkaisupuu: Ratkaisupuulla on jatkuva tavoitemuuttuja.
älä unohda tarkistaa R-Päätöspuita yksityiskohtaisesti
kategoriset (luokitus) puut vs jatkuvat (regressio) puut
Regressiopuita käytetään, kun riippuvainen muuttuja on jatkuva, kun taas luokituspuita käytetään, kun riippuvainen muuttuja on kategorinen.
jatkuvassa käytössä saatu arvo on havainnon keskimääräinen vaste.
luokittelussa päätepisteen saama arvo on havaintojen muoto.
molemmissa tapauksissa on yksi samankaltaisuus. Hakkuut jatkuvat, minkä seurauksena kasvaa puita, kunnes päästään pysähtymiskriteereihin. Mutta kasvanut puu todennäköisesti ylitetä tietoja, mikä johtaa heikkoon tarkkuuteen näkymätöntä tietoa. Tämä tuo “karsimista”. Karsiminen on yksi tekniikoista, joissa käytetään taklauksen ylivuotoa.
päätöksenteon edut R
- helppo ymmärtää: niiden lukemiseen ja tulkitsemiseen ei tarvita tilastotietoa. Sen graafinen esitys on hyvin intuitiivinen ja käyttäjät voivat suhteuttaa hypoteesinsa.
- vähemmän tietojen puhdistusta: Verrattuna joihinkin muihin mallinnustekniikoihin, se vaatii vähemmän dataa.
- tietotyyppi ei ole rajoite: se voi käsitellä sekä numeerisia että kategorisia muuttujia.
- yksinkertainen ymmärtää ja tulkita.
- tietojen valmistelu on vähäistä.
- se toimii sekä numeerisella että kategorisella aineistolla.
- käsittelee epälineaarisuutta.
- Malli voidaan vahvistaa tilastollisilla testeillä.
- se on vankkarakenteinen. Se toimii hyvin, vaikka poikkeaisit oletuksista.
- se skaalautuu Big dataksi.
on ehdottomasti tutkittava R epälineaarinen regressioanalyysi
R-Päätöksentekopuun haitat
- Ylikuntoutuminen: se on yksi käytännön vaikeuksista Päätöksentekopuumalleissa. Asettamalla rajoitteita malliparametreille ja karsimalla voimme ratkaista tämän ongelman R.
- ei sovi jatkuville muuttujille: jatkuvien numeeristen muuttujien käytön aikaan. Aina kun se luokittelee muuttujat eri kategorioihin, Ratkaisupuu menettää informaatiota.
- oppiakseen globaalisti optimaalinen puu on NP-kova, Algot luottavat ahneeseen hakuun.
- kompleksiset” jos-sitten ” – suhteet piirteiden välillä paisuttavat puun kokoa. Esimerkki-XOR gate, multiplexor.
Johdatus naiiviin Bayes-luokitukseen
ennustamisessa käytetään Bayesin teoreemaa. Se perustuu aikaisempaan tietoon ja tämänhetkiseen näyttöön.
Bayesin lause ilmaistaan seuraavalla yhtälöllä:
jossa P(A) ja P(B) ovat tapahtumien A ja b todennäköisyys ilman toisiaan. P(A|B) on B: n todennäköisyys ehdollinen ja P (B|A) on B: n todennäköisyys ehdollinen A: lle.
Johdatus Tukivektorikoneisiin
mikä on Tukivektorikone?
käytämme sitä löytämään optimaalisen hyperplanen (rivi 2D: ssä, taso 3D: ssä ja hyperplane yli 3 ulottuvuudessa). Joka auttaa maksimoi marginaali kahden luokan välillä. Tukivektorit ovat havaintoja, jotka tukevat hyperplaneeta kummallakin puolella.
se auttaa lineaarisen optimointiongelman ratkaisemisessa. Se auttaa myös löytämään hyperplane suurin marginaali. Käytämme “Kernel temppu” erottaa tapauksia, jotka ovat erottamattomia.
R SVM: ään liittyvät terminologiat
miksi Hyperplane?
se on viiva 2D: ssä ja taso 3D: ssä. korkeammissa ulottuvuuksissa (yli 3D: ssä) sitä kutsutaan hyperplaaniksi. Lisäksi SVM auttaa meitä löytämään hyperplane, joka voi erottaa kaksi luokkaa.
mikä on marginaali?
hypertason ja lähimmän datapisteen välistä etäisyyttä kutsutaan marginaaliksi. Mutta jos haluamme kaksinkertaistaa sen, se olisi sama kuin marginaali.
Miten löytää optimaalinen hyperplane?
ensin on valittava kaksi hypertasoa. Niiden on erotettava tiedot toisistaan ilman pisteitä. Maksimoi sitten näiden kahden hyperplanesin välinen etäisyys. Etäisyys tässä on ‘marginaali’.
mikä on ydin?
se on menetelmä, joka auttaa saamaan SVM: n toimimaan epälineaarisissa erotettavissa datapisteissä. Käytämme ytimen funktiota, joka muuntaa datan korkeampaan ulottuvuusominaisuusavaruuteen. Ja myös sen avulla, suorittaa lineaarinen erottaminen.
Eri Ytimiä
1. lineaari: u ‘ *v
2. polynomi: (gamma * u ‘ * v + coef0)^aste
3. radial basis (RBF) : exp(-gamma*|u-v|^2)sigmoidi : tanh(gamma*u’*v + coef0)
RBF on yleensä suosituin.
miten SVM toimii?
- valitse optimaalinen hyperplane, joka maksimoi marginaalin.
- sovelletaan luokitusvirheistä määrättävää sakkoa (kustannus ” c ” viritysparametri).
- jos ei-lineaarisesti erotettavat tiedot pisteistä. Muuta sitten data korkeaan ulottuvuuteen. Se tehdään niin, jotta se voidaan luokitella helposti lineaaristen päätöspintojen avulla.
aika hallita datan visualisoinnin käsite R
SVM: n edut R
- jos käytämme ytimen temppua epälineaarisen erotettavan tiedon tapauksessa, se toimii erittäin hyvin.
- SVM toimii hyvin korkeaulotteisessa avaruudessa ja tekstin tai kuvan luokittelussa.
- se ei kärsi monikollineaarisuusongelmasta.
SVM: n haitat R
- suurikokoisilla tietokokonaisuuksilla kestää enemmän aikaa.
- SVM ei palauta todennäköisyysarvioita.
- lineaarisesti erotettavan datan tapauksessa tämä on melkein kuin logistinen regressio.
Support Vector Machine-Regression
- Yes, we can use it for a regression problem, where the dependent or target variable is continuous.
- SVM-regression tavoite on sama kuin luokitteluongelma eli suurimman marginaalin löytäminen.
Luokitushakemukset R
- sairaalan päivystyspoliklinikka mittaa 17 muuttujaa vastikään sisään otetuista potilaista. Muuttujia, kuten verenpaine, ikä ja paljon muuta. Lisäksi on tehtävä huolellinen päätös, jos potilas joudutaan viemään teho-osastolle. Koska Teho-osasto maksaa paljon, potilaat, jotka voivat selvitä yli kuukauden, ovat etusijalla. Ongelmana on myös riskipotilaiden ennustaminen. Ja syrjiä heitä matalan riskin potilaista.
- luottoyhtiö saa satojatuhansia hakemuksia uusille korteille. Sovellus sisältää tietoa useista eri attribuuteista. Lisäksi ongelmana on luokitella ne, joilla on hyvä luotto, huono luotto tai jotka kuuluvat harmaalle alueelle.
- tähtitieteilijät ovat luetteloineet kaukaisia kohteita taivaalla pitkän altistuksen C. C. D-kuvien avulla. Näin ollen kohde, joka on merkittävä, on tähti, galaksi jne. Tiedot ovat meluisia ja kuvat hyvin heikkoja, joten luettelointi voi kestää vuosikymmeniä.
Summary
olemme tutkineet luokitusta R: ssä sekä niiden käyttötarkoituksia ja hyviä ja huonoja puolia. Olemme myös oppineet reaaliaikaisia esimerkkejä, jotka auttavat oppimaan luokittelua paremmin.
seuraava opetusohjelma R DataFlair-opetussarjassamme-e1071 Package | SVM koulutus-ja Testausmallit R