Osztályozás az R programozásban: az all in one bemutató a koncepció elsajátításához!
ebben az oktatóanyagban alaposan tanulmányozzuk az R osztályozást. Mi is kiterjed a döntési fa, na ons Bayes osztályozás és támogatás Vektor gép. Ahhoz, hogy a lehető legjobban megértsük, képeket és valós idejű példákat fogunk használni.
Legyen naprakész a legújabb technológiai trendekkel
csatlakozzon a Dataflair-hez a Telegramon!!
- Bevezetés Az osztályozásba az R
- az R osztályozás fontos pontjai
- döntési fa az R
- a döntési fához kapcsolódó fontos terminológiák
- a döntési fa típusai
- kategorikus (osztályozási) fák vs folyamatos (regressziós) fák
- a döntési fa előnyei r
- az R döntési fa hátrányai
- Bevezetés a na-ba 6071>
- Bevezetés a Vektorgépek támogatásába
- mi a támogató Vektorgép?
- terminológiák kapcsolódó R SVM
- az SVM előnyei R
- az SVM hátrányai az R
- támogatás Vektor gép-regresszió
- az R osztályozás alkalmazásai
- Összefoglalás
Bevezetés Az osztályozásba az R
kategorikus osztálycímke előrejelzésére használjuk, például időjárás: esős, napos, felhős vagy havas.
az R osztályozás fontos pontjai
különböző osztályozók állnak rendelkezésre:
- döntési fák – ezek kérdés-és válaszkészletek formájában vannak elrendezve a fa szerkezetében.
- naiv Bayes osztályozók – valószínűségi gépi tanulási modell, amelyet osztályozásra használnak.
- K-NN osztályozók – a hasonlósági intézkedések, például a távolság alapján új eseteket osztályoz.
- Support Vector Machines-ez egy nem valószínűségi bináris lineáris osztályozó, amely egy modellt épít, hogy egy esetet a két kategória egyikébe soroljon.
egy példa a besorolás R keresztül támogató Vektor gép használata osztályozás () függvény:
osztályozás (trExemplObj, classLabels, valExemplObj=NULL, kf=5, kernel= “lineáris”)
várj! Befejezte az R
argumentumok csoportosításának oktatóanyagát:
1. trExemplObj-ez egy exemplars vonat eSet objektum.
2. classLabels-ez van tárolva eSet objektum változó neve például “type”.
3. valExemplObj-ez az úgynevezett exemplars validation eSet object.
4. kf-a keresztellenőrzési paraméter k-folds értékének nevezzük. Az alapértelmezett érték 5-szeres. A “Loo” vagy a “LOO” beállításával egy egyszeri keresztellenőrzést kell végrehajtanunk.
5. kernel-az osztályozás elemzésében egy kernelt használunk. Az alapértelmezett kernel “lineáris”.
6. classL-a vonatkészlet címkéi.
7. valClassL – az érvényesítési készlet címkéinek nevezik, ha nem NULL.
8. predLbls-az osztályozási elemzés szerint előre jelzett címkékként definiálják.
döntési fa az R
– ben ez egy felügyelt tanulási algoritmus. Osztályozási problémákra használjuk. Mind a bemeneti, mind a kimeneti változók esetében működik. Ebben a technikában a populációt két vagy több homogén halmazra osztjuk. Ezenkívül a bemeneti változók legjelentősebb osztóján/differenciálóján alapul.
a döntési fa egy erőteljes nemlineáris osztályozó. A döntési fa egy fa-szerű struktúrát használ, hogy kapcsolatot teremtsen a különböző jellemzők és potenciális eredmények között. Alapvető struktúrájaként az elágazási döntéseket használja.
az adatok osztályozásakor a döntési fa az alább említett lépéseket követi:
- ez hozza az összes képzési példák a gyökér.
- a különböző kiválasztott attribútumok alapján egy döntési fa osztja ezeket a képzési példákat.
- ezután néhány statisztikai intézkedés segítségével kiválasztja az attribútumokat.
- a rekurzív particionálás addig folytatódik, amíg nem marad képzési példa.
a döntési fához kapcsolódó fontos terminológiák
- Gyökércsomópont: a teljes populációt vagy mintát képviseli. Ezenkívül két vagy több homogén halmazra oszlik.
- felosztás: Ebben elvégezzük a csomópont felosztását két vagy több alcsomópontra.
- döntési fa: akkor jön létre, amikor egy alcsomópont további alcsomópontokra oszlik.
- levél / terminál csomópont: csomópontok, amelyek nem osztott nevezzük levél vagy terminál csomópont.
- metszés: amikor eltávolítjuk a döntési csomópont alcsomópontjait, ezt a folyamatot metszésnek nevezzük. Ez a felosztás ellentétes folyamata.
- ág / Alfa: a teljes fa alszakaszát ágnak vagy alfának nevezzük.
- szülő-és Gyermekcsomópont: Az alcsomópontokra osztott csomópontot alcsomópontok szülőcsomópontjának nevezzük, míg az alcsomópontok a szülőcsomópont gyermeke.
a döntési fa típusai
- kategorikus(osztályozási) változó döntési fa: döntési fa, amelynek kategorikus célváltozója van.
- folyamatos (regressziós) változó döntési fa: a döntési fa folyamatos célváltozóval rendelkezik.
ne felejtsd el részletesen megnézni az R döntési fákat
kategorikus (osztályozási) fák vs folyamatos (regressziós) fák
a regressziós fákat akkor használják, ha a függő változó folytonos, míg az osztályozási fákat akkor használják, ha a függő változó kategorikus.
folyamatos, a kapott érték a megfigyelés átlagos válasza.
az osztályozásban a terminál csomópont által kapott érték a megfigyelések módja.
mindkét esetben egy hasonlóság van. A hasítási folyamat addig folytatódik, amíg a fák meg nem nőnek, amíg el nem éri a megállási kritériumokat. De, a megtermett fa valószínűleg túlfit adatok, ami rossz pontosság láthatatlan adatok. Ez ‘metszést’ hoz. A metszés az egyik olyan technika, amely a tackle overfitting-et használja.
a döntési fa előnyei r
- könnyen érthető: nincs szüksége statisztikai ismeretekre azok olvasásához és értelmezéséhez. Grafikus ábrázolása nagyon intuitív, és a felhasználók összekapcsolhatják hipotézisüket.
- kevesebb adattisztítás szükséges: Néhány más modellezési technikához képest kevesebb adatot igényel.
- az adattípus nem kényszer: képes kezelni mind a numerikus, mind a kategorikus változókat.
- egyszerű megérteni és értelmezni.
- kevés adatelőkészítést igényel.
- mind numerikus, mind kategorikus adatokkal működik.
- kezeli a nemlinearitást.
- lehetséges a modell megerősítése statisztikai tesztekkel.
- robusztus. Akkor is jól teljesít, ha eltér a feltételezésektől.
- nagy adatokká skálázódik.
feltétlenül meg kell vizsgálnia az R nemlineáris Regresszióanalízist
az R döntési fa hátrányai
- Túlillesztés: ez a döntési fa modellek egyik legpraktikusabb nehézsége. A modellparaméterek és a metszés korlátozásával megoldhatjuk ezt a problémát az R.
- nem alkalmas folyamatos változókra: a folyamatos numerikus változók használatakor. Amikor a változókat különböző kategóriákba sorolja, a döntési fa elveszíti az információkat.
- ahhoz, hogy megtanulják globálisan optimális fa NP-kemény, algos támaszkodnak mohó keresés.
- komplex” if-then ” kapcsolatok jellemzők felfújni fa méretét. Példa-XOR kapu, multiplexor.
Bevezetés a na-ba 6071>
Bayes-tételt használjuk a jóslat elkészítéséhez. Korábbi ismereteken és aktuális bizonyítékokon alapul.
Bayes tételét a következő egyenlet fejezi ki:
ahol P(A) és P(B) az A és B események valószínűsége egymás nélkül. P(A|B) az a valószínűsége B-től függ, P (B|A) A B valószínűsége a-tól függ.
Bevezetés a Vektorgépek támogatásába
mi a támogató Vektorgép?
arra használjuk, hogy megtaláljuk az optimális hipersíkot (vonal 2D-ben, sík 3D-ben és hipersík több mint 3 dimenzióban). Ami segít maximalizálja a két osztály közötti különbözetet. A támogató Vektorok olyan megfigyelések, amelyek mindkét oldalon támogatják a hipersíkot.
segít a lineáris optimalizálási probléma megoldásában. Segít abban is, hogy megtalálja a legnagyobb margóval rendelkező hipersíkot. A” Kernel trükköt ” használjuk elválaszthatatlan példányok elválasztására.
terminológiák kapcsolódó R SVM
miért Hyperplane?
ez egy vonal 2D-ben és sík 3D-ben. magasabb dimenziókban (több mint 3d) hipersíknak hívják. Sőt, az SVM segít megtalálni egy hipersíkot, amely két osztályt képes elválasztani.
mi a Margin?
a hipersík és a legközelebbi adatpont közötti távolságot margónak nevezzük. De ha meg akarjuk duplázni, akkor egyenlő lenne a margóval.
hogyan lehet megtalálni az optimális hipersíkot?
először két hipersíkot kell kiválasztanunk. El kell különíteniük az adatokat anélkül, hogy pontok lennének közöttük. Ezután maximalizálja a két hipersík közötti távolságot. A távolság itt ‘margin’.
mi a Kernel?
ez egy olyan módszer, amely segít az SVM futtatásában, nemlineáris elválasztható adatpontok esetén. Az általunk használt kernel függvény átalakítja az adatokat egy magasabb dimenziós jellemző tér. Ennek segítségével végezze el a lineáris elválasztást is.
Különböző Magok
1. lineáris: u’ * v
2. polinom: (gamma * u’ * v + coef0)^fok
3. radiális alap (RBF) : exp (- gamma*|u-v|^2)szigmoid : tanh (gamma*u’*v + coef0)
az RBF általában a legnépszerűbb.
hogyan működik az SVM?
- válasszon egy optimális hipersíkot, amely maximalizálja a margót.
- büntetést alkalmaz a téves osztályozásokért (költség ‘c’ hangolási paraméter).
- ha a nem lineárisan elválasztható az adatpontok. Ezután alakítsa át az adatokat magas dimenziós térré. Ez azért történik, hogy a lineáris döntési felületek segítségével könnyen osztályozhassuk.
ideje elsajátítani az adatmegjelenítés fogalmát R
az SVM előnyei R
- ha Kernel trükköt használunk nemlineáris elválasztható adatok esetén, akkor nagyon jól teljesít.
- az SVM jól működik nagy dimenziós térben, valamint szöveg vagy kép osztályozás esetén.
- nem szenved multikollinearitási problémát.
az SVM hátrányai az R
- nagy méretű adatkészleteknél több időt vesz igénybe.
- az SVM nem adja vissza a valószínűségi becsléseket.
- lineárisan elválasztható adatok esetén ez majdnem olyan, mint a logisztikai regresszió.
támogatás Vektor gép-regresszió
- Igen, tudjuk használni a regressziós probléma, ahol a függő vagy cél változó folyamatos.
- az SVM regresszió célja ugyanaz, mint az osztályozási probléma, azaz a legnagyobb margó megtalálása.
az R osztályozás alkalmazásai
- a kórház sürgősségi osztálya az újonnan felvett betegek 17 változóját méri. Változók, mint a vérnyomás, az életkor és még sok más. Ezenkívül gondos döntést kell hozni, ha a beteget be kell engedni az intenzív osztályra. Az I. C. U magas költsége miatt azok a betegek, akik egy hónapnál tovább élhetnek túl, kiemelt prioritást élveznek. A probléma a magas kockázatú betegek előrejelzése is. Megkülönböztetik őket az alacsony kockázatú betegektől.
- egy hitelintézet több százezer kérelmet kap új kártyákra. Az alkalmazás több különböző attribútumról tartalmaz információkat. Sőt, a probléma az, hogy kategorizálni azokat, akik jó hitel, rossz hitel, vagy esik egy szürke terület.
- a csillagászok hosszú expozíciós C. C. D Képek segítségével katalogizálták az égbolt távoli objektumait. Így az objektum, amelyet fel kell címkézni, egy csillag, galaxis stb. Az adatok zajosak,a képek pedig nagyon halványak, ezért a katalogizálás évtizedekig tarthat.
Összefoglalás
tanulmányoztuk az R-ben való besorolást, valamint azok használatát, előnyeit és hátrányait. Megtanultunk valós idejű példákat is, amelyek segítenek a besorolás jobb megtanulásában.
következő bemutató A Mi R DataFlair bemutató sorozat-e1071 csomag / SVM képzési és tesztelési modellek R