Klasifikace v R Programování: vše v jednom tutoriálu zvládnout koncept!

v tomto tutoriálu budeme důkladně studovat klasifikaci v R. Budeme také pokrývat rozhodovací strom, naivní Bayesovu klasifikaci a podpůrný vektorový stroj. Abychom tomu porozuměli co nejlépe, použijeme obrázky a příklady v reálném čase.

 klasifikace v R

Zůstaňte informováni o nejnovějších technologických trendech
Připojte se k DataFlair na telegramu!!

Úvod do klasifikace v R

Používáme jej k předpovědi kategorického označení třídy, jako je počasí: deštivé, slunečné, zatažené nebo zasněžené.

Důležité body Klasifikace v R

Existují různé klasifikátory k dispozici:

  • Rozhodovací Stromy – Tyto jsou organizovány v podobě sady otázek a odpovědí ve stromové struktuře.
  • naivní Bayesovy klasifikátory – pravděpodobnostní model strojového učení, který se používá pro klasifikaci.
  • klasifikátory k-NN-na základě podobnostních opatření, jako je vzdálenost, klasifikuje nové případy.
  • Support Vector Machines – To je non-pravděpodobnostní binární lineární klasifikátor, že staví model zařadit do jedné ze dvou kategorií.

příklad klasifikace v R pomocí Support Vector Machine je využití klasifikace() funkce:

klasifikace(trExemplObj,classLabels,valExemplObj=NULL,kf=5,kernel=”lineární”)

Počkat! Dokončili jste tutoriál o Shlukování v argumentech R

:

1. trExemplObj-jedná se o exemplární vlak ESET objekt.

2. classLabels-je uložen v objektu eSet jako název proměnné např. “Typ”.

3. valExemplObj-to je známé jako exemplars validace ESET objektu.

4. kf-označuje se jako hodnota k-folds parametru křížové validace. Výchozí hodnota je také 5-násobná. Nastavením “Loo” nebo ” LOO ” vynecháme křížovou validaci, kterou musíme provést.

5. kernel – v klasifikační analýze používáme typ jádra. Výchozí jádro je “lineární”.

6. classL-štítky vlakové soupravy.

7. valClassL-označuje se jako štítky validační sady, ne-li NULL.

8. predLbls-je definován jako predikované štítky podle klasifikační analýzy.

rozhodovací strom V R

jedná se o typ algoritmu supervizovaného učení. Používáme ji pro klasifikační problémy. Funguje pro oba typy vstupních a výstupních proměnných. V této technice rozdělíme populaci na dvě nebo více homogenních sad. Navíc je založen na nejvýznamnějším rozdělovači / diferenciátoru ve vstupních proměnných.

rozhodovací strom je silný nelineární klasifikátor. Rozhodovací strom využívá stromovou strukturu k vytvoření vztahu mezi různými rysy a potenciálními výsledky. Využívá rozhodnutí o větvení jako své základní struktury.

rozhodovací strom v R

Při klasifikaci dat, Rozhodovací Strom navazuje na kroky uvedené níže:

  • To staví všechny příklady školení na root.

  • na základě různých vybraných atributů rozděluje rozhodovací strom tyto příklady školení.
  • poté vybere atributy pomocí některých statistických opatření.
  • rekurzivní dělení pokračuje, dokud nezůstane žádný příklad školení.

důležité terminologie související s rozhodovacím stromem

  • kořenový uzel: představuje celou populaci nebo vzorek. Navíc se rozdělí na dvě nebo více homogenních sad.

kořenový uzel v rozhodovacím stromu

  • rozdělení: V tomto případě provádíme rozdělení uzlu na dva nebo více dílčích uzlů.
  • rozhodovací strom: vzniká, když se dílčí uzel rozdělí na další dílčí uzly.
  • Leaf / Terminal Node: uzly, které se nerozdělují, se nazývají Leaf nebo Terminal node.
  • prořezávání: když odstraníme dílčí uzly rozhodovacího uzlu, tento proces se nazývá prořezávání. Je to opačný proces rozdělení.
  • větev / Sub-strom: podsekce celého stromu se nazývá větev nebo sub-strom.
  • nadřazený a podřízený uzel: Uzel, který je rozdělen na dílčí uzly, se nazývá nadřazený uzel dílčích uzlů, zatímco dílčí uzly jsou podřízené nadřazenému uzlu.

Typy rozhodovacího Stromu

  • Kategorické(klasifikace) Proměnné Rozhodovací Strom: Rozhodovací Strom, který má kategorické cílové proměnné.
  • kontinuální(regresní) proměnný rozhodovací strom: rozhodovací strom má spojitou cílovou proměnnou.

nezapomeňte se podívat na R Rozhodovací Stromy v detailu

Kategorické (klasifikační) Stromy vs Kontinuální (regrese) Stromy

Regresní stromy se používají v okamžiku, kdy závislá proměnná je kontinuální, zatímco klasifikační stromy se používají v okamžiku, kdy závislá proměnná je kategoriální.

v kontinuální je získaná hodnota střední odezvou pozorování.

v klasifikaci je hodnota získaná koncovým uzlem režimem pozorování.

v obou případech existuje jedna podobnost. Proces štěpení pokračuje za následek vzrostlých stromů, dokud nedosáhne kritéria zastavení. Pěstovaný strom však pravděpodobně překoná data, což vede ke špatné přesnosti neviditelných dat. To přináší “prořezávání”. Prořezávání je jednou z technik, která používá řešení overfitting.

Výhody Rozhodovací Strom v R

  • Snadné Pochopit: To nepotřebuje žádné statistické znalosti číst a interpretovat. Jeho grafické znázornění je velmi intuitivní a uživatelé mohou spojit svou hypotézu.
  • vyžaduje se méně čištění dat: Ve srovnání s některými jinými modelovacími technikami vyžaduje méně dat.
  • datový typ není omezením: zvládne numerické i kategorické proměnné.
  • jednoduché na pochopení a interpretaci.
  • vyžaduje malou přípravu dat.
  • pracuje s číselnými i kategorickými daty.
  • zpracovává nelinearitu.
  • možné potvrdit model pomocí statistických testů.
  • je robustní. Funguje dobře, i když se odchýlíte od předpokladů.
  • škáluje se na velká Data.

musíte určitě prozkoumejte R Nelineární Regresní Analýzy

Nevýhody R Rozhodovací Strom

  • Overfitting: To je jeden z nejvíce praktické obtíže pro Rozhodovací Strom modely. Nastavením omezení parametrů modelu a prořezáváním můžeme tento problém vyřešit v r.
  • nevhodné pro spojité proměnné: v době použití spojitých číselných proměnných. Kdykoli kategorizuje proměnné v různých kategoriích, rozhodovací strom ztratí informace.
  • Chcete-li se naučit globálně optimální strom, je NP-těžké, algos spoléhají na chamtivé vyhledávání.
  • komplexní vztahy “if-then” mezi znaky nafouknou velikost stromu. Příklad – XOR brána, multiplexor.

Úvod do naivní Bayesovy klasifikace

k predikci používáme Bayesovu větu. Je založen na předchozích znalostech a současných důkazech.

Bayesova věta je vyjádřena následující rovnicí:

P AB - Naivní Bayesovská Klasifikace

, kde P(A) a P(B) jsou pravděpodobnosti události a a B, aniž by o sobě navzájem. P(A|B) je pravděpodobnost a podmíněná B A P (B|A) je pravděpodobnost B podmíněná a.

Úvod do podpůrných vektorových strojů

co je podpůrný vektorový stroj?

používáme to najít optimální nadrovina (přímka ve 2D, letadlo ve 3D a nadroviny ve více než 3 dimenzích). Což pomáhá při maximalizaci marže mezi dvěma třídami. Podpůrné vektory jsou pozorování, která podporují hyperplane na obou stranách.
pomáhá při řešení problému lineární optimalizace. Pomáhá také při hledání hyperplane s největší rezervou. “Trik jádra” používáme k oddělení neoddělitelných instancí.

terminologie související s R SVM

proč Hyperplane?

To je přímka ve 2D a roviny ve 3D. Ve vyšších dimenzích (více než 3D), se říká nadrovina. SVM nám navíc pomáhá najít hyperplane, které může oddělit dvě třídy.

co je marže?

vzdálenost mezi hyperplanou a nejbližším datovým bodem se nazývá okraj. Ale pokud to chceme zdvojnásobit, pak by se to rovnalo marži.

jak najít optimální hyperplane?

nejprve musíme vybrat dvě hyperplány. Musí oddělit data bez bodů mezi nimi. Pak maximalizujte vzdálenost mezi těmito dvěma hyperplánami. Vzdálenost je zde “okraj”.

co je jádro?

jedná se o metodu, která pomáhá spustit SVM v případě nelineárních oddělitelných datových bodů. Používáme funkci jádra k transformaci dat do vyššího rozměrového prostoru. A také s pomocí toho proveďte lineární oddělení.

Různá Jádra

1. lineární: u’ * v
2. polynom: (gamma * u’ * v + coef0)^stupeň
3. radiální báze (RBF) : exp (- gamma*|u-v|^2)sigmoid : tanh (gamma*u’*v + coef0)

RBF je obecně nejoblíbenější.

jak SVM funguje?

  1. vyberte optimální hyperplane, která maximalizuje marži.
  2. platí sankce za nesprávné klasifikace (parametr ladění nákladů “c”).
  3. pokud nelineárně oddělitelné datové body. Poté transformujte data do velkého rozměrového prostoru. Děje se tak za účelem snadné klasifikace pomocí lineárních rozhodovacích ploch.

Čas zvládnout pojem Vizualizace Dat v R

Výhody SVM v R

  • Pokud používáme Kernel trik, v případě non-lineární oddělitelné data, pak to funguje velice dobře.
  • SVM funguje dobře ve velkém rozměrovém prostoru a v případě klasifikace textu nebo obrazu.
  • netrpí problémem multikolinearity.

nevýhody SVM v R

  • trvá více času na velkých datových sadách.
  • SVM nevrací odhady pravděpodobnosti.
  • v případě lineárně oddělitelných dat je to téměř jako logistická regrese.

podpora Vektorové Strojové regrese

  • Ano, Můžeme ji použít pro regresní problém, kde závislá nebo cílová proměnná je spojitá.
  • cíl SVM regrese je stejný jako klasifikační problém, tj. najít největší marži.

aplikace klasifikace v R

  • pohotovost v nemocnici měří 17 proměnných nově přijatých pacientů. Proměnné, jako je krevní tlak, věk a mnoho dalších. Kromě toho musí být učiněno pečlivé rozhodnutí, pokud musí být pacient přijat na JIP. Vzhledem k vysokým nákladům na I. C. U mají pacienti, kteří mohou přežít déle než měsíc, vysokou prioritu. Problémem je také předpovídat vysoce rizikové pacienty. A diskriminovat je od nízkorizikových pacientů.
  • úvěrová společnost obdrží stovky tisíc žádostí o nové karty. Aplikace obsahuje informace o několika různých atributech. Problém je navíc kategorizovat ty, kteří mají dobré úvěry, špatné úvěry nebo spadají do šedé zóny.
  • astronomové katalogizovali vzdálené objekty na obloze pomocí dlouhých expozičních snímků. Objekt, který je třeba označit, je tedy hvězda, galaxie atd. Data jsou hlučná, a obrázky jsou velmi slabé, proto, katalogizace může trvat desítky let.

shrnutí

studovali jsme o klasifikaci v R spolu s jejich zvyklostmi a výhodami a nevýhodami. Naučili jsme se také příklady v reálném čase, které pomáhají lépe se naučit klasifikaci.

další tutoriál v naší sérii výukových programů R DataFlair-balíček e1071 / SVM školení a testování modelů v r

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.