A klaszterezés és a K jelentése: Definíció és klaszterelemzés Excel-ben
statisztikai definíciók > klaszterezés / klaszterelemzés
mi a klaszterezés?
a statisztikai csoportosítás arra utal, hogy az adatokat hogyan gyűjtik (“csoportosítják”) olyan tényezők, mint:
- kor.
- háztartási méret.
- jövedelem.
- vagy iskolai végzettség.
az adatok klaszterekbe rendezése néha az adatok további vizsgálatához vezet. Például a rákos klaszterek jelezhetnek valamilyen problémát a környezetben. Vagy, csak a természet véletlenszerűségének következményei lehetnek. A klaszterelemzés sok esetben szubjektív; attól függ, hogy mit érzékel az adatok közös szálaként. A technika nem igazán új a statisztikában; ha valaha is készített oszlopdiagramot, akkor valószínűleg már készített klasztereket (még akkor is, ha nem így hívta). Például a kutyafajtákat bemutató oszlopdiagram megköveteli, hogy fajtánként csoportosítsuk (szibériai Husky, Border Collie, német juhász…), vagy a jövedelemszintek diagramját alacsony, közepes és magas jövedelmi szintek csoportosíthatják.
a klaszterelemzés eredményei három különböző színű klasztert mutatnak.
a klaszterek olyan tényezőkön alapulhatnak, mint:
- távolság alapú klaszterezés. Az elemek közelségük (vagy távolságuk) alapján vannak rendezve. Például a rákos esetek csoportosulhatnak, ha ugyanazon a földrajzi helyen vannak.
- fogalmi klaszterezés. Az elemek olyan tényezők szerint vannak csoportosítva, amelyek az elemekben közösek. Például a rákos klasztereket “a gyártásban dolgozó emberek” csoportosíthatják.”
Csoportosítási Típusok
- Exkluzív Csoportosítás. Minden elem csak egyetlen fürtbe tartozhat. Nem tartozhat egy másik klaszterbe.
- Fuzzy klaszterezés: az adatpontok egy vagy több klaszterhez való tartozás valószínűségét rendelik hozzá.
- Átfedő Csoportosítás. Minden elem egynél több fürthöz tartozhat.
- Hierarchikus Csoportosítás. Ez az adatbányászatban használt klaszterezés összetettebb megközelítése. Alapvetően minden elem saját klasztert kap. Egy pár klaszter a hasonlóságok alapján csatlakozik, eggyel kevesebb klasztert adva. Ezt a folyamatot addig ismételjük, amíg az összes elem csoportosul. A dendrogram egy grafikon, amely hierarchikus klasztereket mutat.
- Valószínűségi Klaszterezés. Az adatokat algoritmusok segítségével csoportosítják, amelyek az elemeket távolságok vagy sűrűségek segítségével kötik össze. Ezt általában egy számítógép végzi.
- Ward módszere: minimális varianciát használ minden lépésben, hogy viszonylag kicsi, egyenletes méretű klasztereket hozzon létre.
K azt jelenti, hogy a
fürtözés csak egy módja annak, hogy egy adathalmazt kisebb halmazokba csoportosítsunk. Az adatok csoportosításának két módja mennyiségi (számok használata) és minőségi (kategóriák használata). Például könyvek Amazon.com mind a kategória (minőségi), mind a legjobb eladó (mennyiségi). A K-Means clustering az egyik legegyszerűbb felügyelet nélküli tanulási algoritmus, amely kvantitatív módszerrel oldja meg a klaszterezési problémákat: előre definiál számos klasztert, és egy egyszerű algoritmust alkalmaz az adatok rendezésére. Ez azt jelenti, hogy az” egyszerű ” a számítástechnikai világban nem egyenlő a való életben egyszerűvel. Ez valójában egy NP-hard probléma, ezért érdemes szoftvert használni a K-means fürtözéshez. Néhány program, amely ezt elvégzi az Ön számára (kattintson az eljárás linkjére) :
- SPSS.
- r
- MATLAB
a K-means fürtözési algoritmus mögötti általános lépések a következők:
- döntse el, hogy hány klaszter (k).
- helyezze a K központi pontokat különböző helyekre (általában messze egymástól).
- Vegyünk minden adatpontot, és helyezzük közel a megfelelő központi ponthoz. Ismételje meg, amíg az összes adatpont ki van rendelve.
- számolja újra a K új központi pontot barycentrumként.
- ismételje meg az adatpontok hozzárendelését, ezúttal az új központi ponthoz (a barycenter).
- ismételje meg a 4-et és az 5-öt, amíg a központi pontok (barycentrumok) nem mozognak tovább.
K-means Clustering: formálisabb meghatározás
a K-Means clustering meghatározásának formálisabb módja az, ha n objektumot kategorizálunk k(k> 1) előre meghatározott csoportokba. A cél az egyes adatpontoktól a fürtig terjedő távolság minimalizálása. Más szóval, hogy megtalálja:
ahol:
X egy adatpont
k a klaszterek száma
ui a pontok átlaga Si-ben.
klaszteranalízis vs.diszkrimináns analízis
a klaszteranalízis nagyon hasonló a diszkrimináns analízishez. Mindkét módszer magában foglalja a csoportok szétválasztását. A klaszterelemzés azonban a csoportok azonosításának egyik módja, míg a diszkrimináns elemzés megköveteli, hogy az elemzés megkezdése előtt ismerje meg a csoportokat. Tegyük fel például, hogy pszichiátriai betegek csoportja volt rendellenes viselkedéssel. A klaszterelemzés segíthet különböző csoportok megtalálásában, mint a betegek, akiknek kórtörténetében visszaélés történt, PTSD-ben szenvedők, vagy hallucinációkat tapasztalnak. Ha ugyanazon embercsoporton végezne diszkrimináns elemzést, ismernie kell a betegek diagnózisát, mielőtt csoportokba helyezné őket.
fürtözés az Excelben
a Microsoft Excel rendelkezik adatbányászati bővítménnyel a klaszterek készítéséhez. Az utasításokat itt találja. A varázsló Excel táblázatokkal, tartományokkal vagy elemzési felmérési lekérdezésekkel működik. Ez a bővítmény testreszabható, ellentétben a kategóriák észlelése eszközzel. Ezenkívül a kategóriák észlelése eszköz a táblázatok adataira korlátozódik.
használata:
- töltse le és telepítse az adatbányászati bővítményt.
- kattintson az “adatbányászat”, majd a “fürt”, majd a “Tovább” gombra.”
- mondja meg az Excel-nek, hol vannak az adatai. Válasszon például egy adattartományt. A fürtözési oldal elérhetővé válik.
- fürtözés: hagyja úgy, ahogy van az automatikus csoportosításhoz, vagy megadhat több csoportot is.
- szegmensek: hagyja úgy, ahogy van az automatikus csoportosításhoz, vagy adjon meg több kategóriát.
Stephanie Glen. “A klaszterezés és a K jelentése: definíció & klaszterelemzés Excel – ben” tól től StatisticsHowTo.com: Alapvető statisztikák a többiek számára! https://www.statisticshowto.com/clustering/
——————————————————————————
segítségre van szüksége a házi feladat vagy teszt kérdés? A Chegg Study segítségével lépésről lépésre megoldásokat kaphat kérdéseire a terület szakértőjétől. Az első 30 perc egy Chegg oktatóval ingyenes!