Osztályozás az R programozásban: az all in one bemutató a koncepció elsajátításához!

ebben az oktatóanyagban alaposan tanulmányozzuk az R osztályozást. Mi is kiterjed a döntési fa, na ons Bayes osztályozás és támogatás Vektor gép. Ahhoz, hogy a lehető legjobban megértsük, képeket és valós idejű példákat fogunk használni.

osztályozás R-ben

Legyen naprakész a legújabb technológiai trendekkel
csatlakozzon a Dataflair-hez a Telegramon!!

Bevezetés Az osztályozásba az R
az R osztályozás fontos pontjai
döntési fa az R
a döntési fához kapcsolódó fontos terminológiák
a döntési fa típusai
kategorikus (osztályozási) fák vs folyamatos (regressziós) fák
a döntési fa előnyei r
az R döntési fa hátrányai
Bevezetés a na-ba 6071>
Bevezetés a Vektorgépek támogatásába
mi a támogató Vektorgép?
terminológiák kapcsolódó R SVM
az SVM előnyei R
az SVM hátrányai az R
támogatás Vektor gép-regresszió
az R osztályozás alkalmazásai
Összefoglalás

Bevezetés Az osztályozásba az R

kategorikus osztálycímke előrejelzésére használjuk, például időjárás: esős, napos, felhős vagy havas.

az R osztályozás fontos pontjai

különböző osztályozók állnak rendelkezésre:

döntési fák – ezek kérdés-és válaszkészletek formájában vannak elrendezve a fa szerkezetében.
naiv Bayes osztályozók – valószínűségi gépi tanulási modell, amelyet osztályozásra használnak.
K-NN osztályozók – a hasonlósági intézkedések, például a távolság alapján új eseteket osztályoz.
Support Vector Machines-ez egy nem valószínűségi bináris lineáris osztályozó, amely egy modellt épít, hogy egy esetet a két kategória egyikébe soroljon.

egy példa a besorolás R keresztül támogató Vektor gép használata osztályozás () függvény:

osztályozás (trExemplObj, classLabels, valExemplObj=NULL, kf=5, kernel= “lineáris”)

várj! Befejezte az R

argumentumok csoportosításának oktatóanyagát:

1. trExemplObj-ez egy exemplars vonat eSet objektum.

2. classLabels-ez van tárolva eSet objektum változó neve például “type”.

3. valExemplObj-ez az úgynevezett exemplars validation eSet object.

4. kf-a keresztellenőrzési paraméter k-folds értékének nevezzük. Az alapértelmezett érték 5-szeres. A “Loo” vagy a “LOO” beállításával egy egyszeri keresztellenőrzést kell végrehajtanunk.

5. kernel-az osztályozás elemzésében egy kernelt használunk. Az alapértelmezett kernel “lineáris”.

6. classL-a vonatkészlet címkéi.

7. valClassL – az érvényesítési készlet címkéinek nevezik, ha nem NULL.

8. predLbls-az osztályozási elemzés szerint előre jelzett címkékként definiálják.

döntési fa az R

– ben ez egy felügyelt tanulási algoritmus. Osztályozási problémákra használjuk. Mind a bemeneti, mind a kimeneti változók esetében működik. Ebben a technikában a populációt két vagy több homogén halmazra osztjuk. Ezenkívül a bemeneti változók legjelentősebb osztóján/differenciálóján alapul.

a döntési fa egy erőteljes nemlineáris osztályozó. A döntési fa egy fa-szerű struktúrát használ, hogy kapcsolatot teremtsen a különböző jellemzők és potenciális eredmények között. Alapvető struktúrájaként az elágazási döntéseket használja.

döntési fa ban ben R

az adatok osztályozásakor a döntési fa az alább említett lépéseket követi:

ez hozza az összes képzési példák a gyökér.

a különböző kiválasztott attribútumok alapján egy döntési fa osztja ezeket a képzési példákat.

ezután néhány statisztikai intézkedés segítségével kiválasztja az attribútumokat.

a rekurzív particionálás addig folytatódik, amíg nem marad képzési példa.

a döntési fához kapcsolódó fontos terminológiák

Gyökércsomópont: a teljes populációt vagy mintát képviseli. Ezenkívül két vagy több homogén halmazra oszlik.

gyökér-csomópont a döntési fában

felosztás: Ebben elvégezzük a csomópont felosztását két vagy több alcsomópontra.
döntési fa: akkor jön létre, amikor egy alcsomópont további alcsomópontokra oszlik.
levél / terminál csomópont: csomópontok, amelyek nem osztott nevezzük levél vagy terminál csomópont.
metszés: amikor eltávolítjuk a döntési csomópont alcsomópontjait, ezt a folyamatot metszésnek nevezzük. Ez a felosztás ellentétes folyamata.
ág / Alfa: a teljes fa alszakaszát ágnak vagy alfának nevezzük.
szülő-és Gyermekcsomópont: Az alcsomópontokra osztott csomópontot alcsomópontok szülőcsomópontjának nevezzük, míg az alcsomópontok a szülőcsomópont gyermeke.

a döntési fa típusai

kategorikus(osztályozási) változó döntési fa: döntési fa, amelynek kategorikus célváltozója van.
folyamatos (regressziós) változó döntési fa: a döntési fa folyamatos célváltozóval rendelkezik.

ne felejtsd el részletesen megnézni az R döntési fákat

kategorikus (osztályozási) fák vs folyamatos (regressziós) fák

a regressziós fákat akkor használják, ha a függő változó folytonos, míg az osztályozási fákat akkor használják, ha a függő változó kategorikus.

folyamatos, a kapott érték a megfigyelés átlagos válasza.

az osztályozásban a terminál csomópont által kapott érték a megfigyelések módja.

mindkét esetben egy hasonlóság van. A hasítási folyamat addig folytatódik, amíg a fák meg nem nőnek, amíg el nem éri a megállási kritériumokat. De, a megtermett fa valószínűleg túlfit adatok, ami rossz pontosság láthatatlan adatok. Ez ‘metszést’ hoz. A metszés az egyik olyan technika, amely a tackle overfitting-et használja.

a döntési fa előnyei r

könnyen érthető: nincs szüksége statisztikai ismeretekre azok olvasásához és értelmezéséhez. Grafikus ábrázolása nagyon intuitív, és a felhasználók összekapcsolhatják hipotézisüket.
kevesebb adattisztítás szükséges: Néhány más modellezési technikához képest kevesebb adatot igényel.
az adattípus nem kényszer: képes kezelni mind a numerikus, mind a kategorikus változókat.
egyszerű megérteni és értelmezni.
kevés adatelőkészítést igényel.
mind numerikus, mind kategorikus adatokkal működik.
kezeli a nemlinearitást.
lehetséges a modell megerősítése statisztikai tesztekkel.
robusztus. Akkor is jól teljesít, ha eltér a feltételezésektől.
nagy adatokká skálázódik.

feltétlenül meg kell vizsgálnia az R nemlineáris Regresszióanalízist

az R döntési fa hátrányai

Túlillesztés: ez a döntési fa modellek egyik legpraktikusabb nehézsége. A modellparaméterek és a metszés korlátozásával megoldhatjuk ezt a problémát az R.
nem alkalmas folyamatos változókra: a folyamatos numerikus változók használatakor. Amikor a változókat különböző kategóriákba sorolja, a döntési fa elveszíti az információkat.
ahhoz, hogy megtanulják globálisan optimális fa NP-kemény, algos támaszkodnak mohó keresés.
komplex” if-then ” kapcsolatok jellemzők felfújni fa méretét. Példa-XOR kapu, multiplexor.

Bevezetés a na-ba 6071>

Bayes-tételt használjuk a jóslat elkészítéséhez. Korábbi ismereteken és aktuális bizonyítékokon alapul.

Bayes tételét a következő egyenlet fejezi ki:

P AB - Na a Bayes-osztályozás

ahol P(A) és P(B) az A és B események valószínűsége egymás nélkül. P(A|B) az a valószínűsége B-től függ, P (B|A) A B valószínűsége a-tól függ.

Bevezetés a Vektorgépek támogatásába

mi a támogató Vektorgép?

arra használjuk, hogy megtaláljuk az optimális hipersíkot (vonal 2D-ben, sík 3D-ben és hipersík több mint 3 dimenzióban). Ami segít maximalizálja a két osztály közötti különbözetet. A támogató Vektorok olyan megfigyelések, amelyek mindkét oldalon támogatják a hipersíkot.
segít a lineáris optimalizálási probléma megoldásában. Segít abban is, hogy megtalálja a legnagyobb margóval rendelkező hipersíkot. A” Kernel trükköt ” használjuk elválaszthatatlan példányok elválasztására.

terminológiák kapcsolódó R SVM

miért Hyperplane?

ez egy vonal 2D-ben és sík 3D-ben. magasabb dimenziókban (több mint 3d) hipersíknak hívják. Sőt, az SVM segít megtalálni egy hipersíkot, amely két osztályt képes elválasztani.

mi a Margin?

a hipersík és a legközelebbi adatpont közötti távolságot margónak nevezzük. De ha meg akarjuk duplázni, akkor egyenlő lenne a margóval.

hogyan lehet megtalálni az optimális hipersíkot?

először két hipersíkot kell kiválasztanunk. El kell különíteniük az adatokat anélkül, hogy pontok lennének közöttük. Ezután maximalizálja a két hipersík közötti távolságot. A távolság itt ‘margin’.

mi a Kernel?

ez egy olyan módszer, amely segít az SVM futtatásában, nemlineáris elválasztható adatpontok esetén. Az általunk használt kernel függvény átalakítja az adatokat egy magasabb dimenziós jellemző tér. Ennek segítségével végezze el a lineáris elválasztást is.

Különböző Magok

1. lineáris: u’ * v
2. polinom: (gamma * u’ * v + coef0)^fok
3. radiális alap (RBF) : exp (- gamma*|u-v|^2)szigmoid : tanh (gamma*u’*v + coef0)

az RBF általában a legnépszerűbb.

hogyan működik az SVM?

válasszon egy optimális hipersíkot, amely maximalizálja a margót.
büntetést alkalmaz a téves osztályozásokért (költség ‘c’ hangolási paraméter).
ha a nem lineárisan elválasztható az adatpontok. Ezután alakítsa át az adatokat magas dimenziós térré. Ez azért történik, hogy a lineáris döntési felületek segítségével könnyen osztályozhassuk.

ideje elsajátítani az adatmegjelenítés fogalmát R

az SVM előnyei R

ha Kernel trükköt használunk nemlineáris elválasztható adatok esetén, akkor nagyon jól teljesít.

az SVM jól működik nagy dimenziós térben, valamint szöveg vagy kép osztályozás esetén.

nem szenved multikollinearitási problémát.

az SVM hátrányai az R

nagy méretű adatkészleteknél több időt vesz igénybe.

az SVM nem adja vissza a valószínűségi becsléseket.

lineárisan elválasztható adatok esetén ez majdnem olyan, mint a logisztikai regresszió.

támogatás Vektor gép-regresszió

Igen, tudjuk használni a regressziós probléma, ahol a függő vagy cél változó folyamatos.

az SVM regresszió célja ugyanaz, mint az osztályozási probléma, azaz a legnagyobb margó megtalálása.

az R osztályozás alkalmazásai

a kórház sürgősségi osztálya az újonnan felvett betegek 17 változóját méri. Változók, mint a vérnyomás, az életkor és még sok más. Ezenkívül gondos döntést kell hozni, ha a beteget be kell engedni az intenzív osztályra. Az I. C. U magas költsége miatt azok a betegek, akik egy hónapnál tovább élhetnek túl, kiemelt prioritást élveznek. A probléma a magas kockázatú betegek előrejelzése is. Megkülönböztetik őket az alacsony kockázatú betegektől.

egy hitelintézet több százezer kérelmet kap új kártyákra. Az alkalmazás több különböző attribútumról tartalmaz információkat. Sőt, a probléma az, hogy kategorizálni azokat, akik jó hitel, rossz hitel, vagy esik egy szürke terület.

a csillagászok hosszú expozíciós C. C. D Képek segítségével katalogizálták az égbolt távoli objektumait. Így az objektum, amelyet fel kell címkézni, egy csillag, galaxis stb. Az adatok zajosak,a képek pedig nagyon halványak, ezért a katalogizálás évtizedekig tarthat.

Összefoglalás

tanulmányoztuk az R-ben való besorolást, valamint azok használatát, előnyeit és hátrányait. Megtanultunk valós idejű példákat is, amelyek segítenek a besorolás jobb megtanulásában.

következő bemutató A Mi R DataFlair bemutató sorozat-e1071 csomag / SVM képzési és tesztelési modellek R