Osztályozás az R programozásban: az all in one bemutató a koncepció elsajátításához!

ebben az oktatóanyagban alaposan tanulmányozzuk az R osztályozást. Mi is kiterjed a döntési fa, na ons Bayes osztályozás és támogatás Vektor gép. Ahhoz, hogy a lehető legjobban megértsük, képeket és valós idejű példákat fogunk használni.

 osztályozás R-ben

Legyen naprakész a legújabb technológiai trendekkel
csatlakozzon a Dataflair-hez a Telegramon!!

Bevezetés Az osztályozásba az R

kategorikus osztálycímke előrejelzésére használjuk, például időjárás: esős, napos, felhős vagy havas.

az R osztályozás fontos pontjai

különböző osztályozók állnak rendelkezésre:

  • döntési fák – ezek kérdés-és válaszkészletek formájában vannak elrendezve a fa szerkezetében.
  • naiv Bayes osztályozók – valószínűségi gépi tanulási modell, amelyet osztályozásra használnak.
  • K-NN osztályozók – a hasonlósági intézkedések, például a távolság alapján új eseteket osztályoz.
  • Support Vector Machines-ez egy nem valószínűségi bináris lineáris osztályozó, amely egy modellt épít, hogy egy esetet a két kategória egyikébe soroljon.

egy példa a besorolás R keresztül támogató Vektor gép használata osztályozás () függvény:

osztályozás (trExemplObj, classLabels, valExemplObj=NULL, kf=5, kernel= “lineáris”)

várj! Befejezte az R

argumentumok csoportosításának oktatóanyagát:

1. trExemplObj-ez egy exemplars vonat eSet objektum.

2. classLabels-ez van tárolva eSet objektum változó neve például “type”.

3. valExemplObj-ez az úgynevezett exemplars validation eSet object.

4. kf-a keresztellenőrzési paraméter k-folds értékének nevezzük. Az alapértelmezett érték 5-szeres. A “Loo” vagy a “LOO” beállításával egy egyszeri keresztellenőrzést kell végrehajtanunk.

5. kernel-az osztályozás elemzésében egy kernelt használunk. Az alapértelmezett kernel “lineáris”.

6. classL-a vonatkészlet címkéi.

7. valClassL – az érvényesítési készlet címkéinek nevezik, ha nem NULL.

8. predLbls-az osztályozási elemzés szerint előre jelzett címkékként definiálják.

döntési fa az R

– ben ez egy felügyelt tanulási algoritmus. Osztályozási problémákra használjuk. Mind a bemeneti, mind a kimeneti változók esetében működik. Ebben a technikában a populációt két vagy több homogén halmazra osztjuk. Ezenkívül a bemeneti változók legjelentősebb osztóján/differenciálóján alapul.

a döntési fa egy erőteljes nemlineáris osztályozó. A döntési fa egy fa-szerű struktúrát használ, hogy kapcsolatot teremtsen a különböző jellemzők és potenciális eredmények között. Alapvető struktúrájaként az elágazási döntéseket használja.

 döntési fa ban ben R

az adatok osztályozásakor a döntési fa az alább említett lépéseket követi:

  • ez hozza az összes képzési példák a gyökér.
  • a különböző kiválasztott attribútumok alapján egy döntési fa osztja ezeket a képzési példákat.
  • ezután néhány statisztikai intézkedés segítségével kiválasztja az attribútumokat.
  • a rekurzív particionálás addig folytatódik, amíg nem marad képzési példa.

a döntési fához kapcsolódó fontos terminológiák

  • Gyökércsomópont: a teljes populációt vagy mintát képviseli. Ezenkívül két vagy több homogén halmazra oszlik.

gyökér-csomópont a döntési fában

  • felosztás: Ebben elvégezzük a csomópont felosztását két vagy több alcsomópontra.
  • döntési fa: akkor jön létre, amikor egy alcsomópont további alcsomópontokra oszlik.
  • levél / terminál csomópont: csomópontok, amelyek nem osztott nevezzük levél vagy terminál csomópont.
  • metszés: amikor eltávolítjuk a döntési csomópont alcsomópontjait, ezt a folyamatot metszésnek nevezzük. Ez a felosztás ellentétes folyamata.
  • ág / Alfa: a teljes fa alszakaszát ágnak vagy alfának nevezzük.
  • szülő-és Gyermekcsomópont: Az alcsomópontokra osztott csomópontot alcsomópontok szülőcsomópontjának nevezzük, míg az alcsomópontok a szülőcsomópont gyermeke.

a döntési fa típusai

  • kategorikus(osztályozási) változó döntési fa: döntési fa, amelynek kategorikus célváltozója van.
  • folyamatos (regressziós) változó döntési fa: a döntési fa folyamatos célváltozóval rendelkezik.

ne felejtsd el részletesen megnézni az R döntési fákat

kategorikus (osztályozási) fák vs folyamatos (regressziós) fák

a regressziós fákat akkor használják, ha a függő változó folytonos, míg az osztályozási fákat akkor használják, ha a függő változó kategorikus.

folyamatos, a kapott érték a megfigyelés átlagos válasza.

az osztályozásban a terminál csomópont által kapott érték a megfigyelések módja.

mindkét esetben egy hasonlóság van. A hasítási folyamat addig folytatódik, amíg a fák meg nem nőnek, amíg el nem éri a megállási kritériumokat. De, a megtermett fa valószínűleg túlfit adatok, ami rossz pontosság láthatatlan adatok. Ez ‘metszést’ hoz. A metszés az egyik olyan technika, amely a tackle overfitting-et használja.

a döntési fa előnyei r

  • könnyen érthető: nincs szüksége statisztikai ismeretekre azok olvasásához és értelmezéséhez. Grafikus ábrázolása nagyon intuitív, és a felhasználók összekapcsolhatják hipotézisüket.
  • kevesebb adattisztítás szükséges: Néhány más modellezési technikához képest kevesebb adatot igényel.
  • az adattípus nem kényszer: képes kezelni mind a numerikus, mind a kategorikus változókat.
  • egyszerű megérteni és értelmezni.
  • kevés adatelőkészítést igényel.
  • mind numerikus, mind kategorikus adatokkal működik.
  • kezeli a nemlinearitást.
  • lehetséges a modell megerősítése statisztikai tesztekkel.
  • robusztus. Akkor is jól teljesít, ha eltér a feltételezésektől.
  • nagy adatokká skálázódik.

feltétlenül meg kell vizsgálnia az R nemlineáris Regresszióanalízist

az R döntési fa hátrányai

  • Túlillesztés: ez a döntési fa modellek egyik legpraktikusabb nehézsége. A modellparaméterek és a metszés korlátozásával megoldhatjuk ezt a problémát az R.
  • nem alkalmas folyamatos változókra: a folyamatos numerikus változók használatakor. Amikor a változókat különböző kategóriákba sorolja, a döntési fa elveszíti az információkat.
  • ahhoz, hogy megtanulják globálisan optimális fa NP-kemény, algos támaszkodnak mohó keresés.
  • komplex” if-then ” kapcsolatok jellemzők felfújni fa méretét. Példa-XOR kapu, multiplexor.

Bevezetés a na-ba 6071>

Bayes-tételt használjuk a jóslat elkészítéséhez. Korábbi ismereteken és aktuális bizonyítékokon alapul.

Bayes tételét a következő egyenlet fejezi ki:

P AB - Na a Bayes-osztályozás

ahol P(A) és P(B) az A és B események valószínűsége egymás nélkül. P(A|B) az a valószínűsége B-től függ, P (B|A) A B valószínűsége a-tól függ.

Bevezetés a Vektorgépek támogatásába

mi a támogató Vektorgép?

arra használjuk, hogy megtaláljuk az optimális hipersíkot (vonal 2D-ben, sík 3D-ben és hipersík több mint 3 dimenzióban). Ami segít maximalizálja a két osztály közötti különbözetet. A támogató Vektorok olyan megfigyelések, amelyek mindkét oldalon támogatják a hipersíkot.
segít a lineáris optimalizálási probléma megoldásában. Segít abban is, hogy megtalálja a legnagyobb margóval rendelkező hipersíkot. A” Kernel trükköt ” használjuk elválaszthatatlan példányok elválasztására.

terminológiák kapcsolódó R SVM

miért Hyperplane?

ez egy vonal 2D-ben és sík 3D-ben. magasabb dimenziókban (több mint 3d) hipersíknak hívják. Sőt, az SVM segít megtalálni egy hipersíkot, amely két osztályt képes elválasztani.

mi a Margin?

a hipersík és a legközelebbi adatpont közötti távolságot margónak nevezzük. De ha meg akarjuk duplázni, akkor egyenlő lenne a margóval.

hogyan lehet megtalálni az optimális hipersíkot?

először két hipersíkot kell kiválasztanunk. El kell különíteniük az adatokat anélkül, hogy pontok lennének közöttük. Ezután maximalizálja a két hipersík közötti távolságot. A távolság itt ‘margin’.

mi a Kernel?

ez egy olyan módszer, amely segít az SVM futtatásában, nemlineáris elválasztható adatpontok esetén. Az általunk használt kernel függvény átalakítja az adatokat egy magasabb dimenziós jellemző tér. Ennek segítségével végezze el a lineáris elválasztást is.

Különböző Magok

1. lineáris: u’ * v
2. polinom: (gamma * u’ * v + coef0)^fok
3. radiális alap (RBF) : exp (- gamma*|u-v|^2)szigmoid : tanh (gamma*u’*v + coef0)

az RBF általában a legnépszerűbb.

hogyan működik az SVM?

  1. válasszon egy optimális hipersíkot, amely maximalizálja a margót.
  2. büntetést alkalmaz a téves osztályozásokért (költség ‘c’ hangolási paraméter).
  3. ha a nem lineárisan elválasztható az adatpontok. Ezután alakítsa át az adatokat magas dimenziós térré. Ez azért történik, hogy a lineáris döntési felületek segítségével könnyen osztályozhassuk.

ideje elsajátítani az adatmegjelenítés fogalmát R

az SVM előnyei R

  • ha Kernel trükköt használunk nemlineáris elválasztható adatok esetén, akkor nagyon jól teljesít.
  • az SVM jól működik nagy dimenziós térben, valamint szöveg vagy kép osztályozás esetén.
  • nem szenved multikollinearitási problémát.

az SVM hátrányai az R

  • nagy méretű adatkészleteknél több időt vesz igénybe.
  • az SVM nem adja vissza a valószínűségi becsléseket.
  • lineárisan elválasztható adatok esetén ez majdnem olyan, mint a logisztikai regresszió.

támogatás Vektor gép-regresszió

  • Igen, tudjuk használni a regressziós probléma, ahol a függő vagy cél változó folyamatos.
  • az SVM regresszió célja ugyanaz, mint az osztályozási probléma, azaz a legnagyobb margó megtalálása.

az R osztályozás alkalmazásai

  • a kórház sürgősségi osztálya az újonnan felvett betegek 17 változóját méri. Változók, mint a vérnyomás, az életkor és még sok más. Ezenkívül gondos döntést kell hozni, ha a beteget be kell engedni az intenzív osztályra. Az I. C. U magas költsége miatt azok a betegek, akik egy hónapnál tovább élhetnek túl, kiemelt prioritást élveznek. A probléma a magas kockázatú betegek előrejelzése is. Megkülönböztetik őket az alacsony kockázatú betegektől.
  • egy hitelintézet több százezer kérelmet kap új kártyákra. Az alkalmazás több különböző attribútumról tartalmaz információkat. Sőt, a probléma az, hogy kategorizálni azokat, akik jó hitel, rossz hitel, vagy esik egy szürke terület.
  • a csillagászok hosszú expozíciós C. C. D Képek segítségével katalogizálták az égbolt távoli objektumait. Így az objektum, amelyet fel kell címkézni, egy csillag, galaxis stb. Az adatok zajosak,a képek pedig nagyon halványak, ezért a katalogizálás évtizedekig tarthat.

Összefoglalás

tanulmányoztuk az R-ben való besorolást, valamint azok használatát, előnyeit és hátrányait. Megtanultunk valós idejű példákat is, amelyek segítenek a besorolás jobb megtanulásában.

következő bemutató A Mi R DataFlair bemutató sorozat-e1071 csomag / SVM képzési és tesztelési modellek R

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.