Analiza klastrów i K: Definicja i analiza klastrów w Excelu
definicje statystyczne > klastrowanie / Analiza klastra
co to jest klastrowanie?
grupowanie w statystyce odnosi się do sposobu gromadzenia danych (“grupowania”) przez takie czynniki, jak:
- wieku.
- lub poziom wykształcenia.
sortowanie danych w klastry czasami prowadzi do większego zbadania danych. Na przykład skupiska nowotworów mogą wskazywać na pewien problem w środowisku. Albo, mogą być po prostu wynikiem natury jest przypadkowy. Analiza klastrów jest w wielu przypadkach subiektywna; zależy od tego, co postrzegasz jako wspólne wątki w danych. Technika ta nie jest niczym nowym w statystykach; jeśli kiedykolwiek stworzyłeś wykres słupkowy, prawdopodobnie już stworzyłeś klastry (nawet jeśli tak tego nie nazwałeś). Na przykład, wykres słupkowy pokazujący rasy psów wymaga klastra według rasy (Siberian Husky, Border Collie, Owczarek niemiecki…) lub wykres poziomów dochodów może być zgrupowane przez niski, średni i wysoki poziom dochodów.
wyniki analizy klastrów pokazują trzy różne kolorowe klastry.
klastry mogą być oparte na takich czynnikach jak:
- grupowanie na odległość. Pozycje są sortowane na podstawie ich bliskości (lub odległości). Na przykład przypadki raka mogą być grupowane razem, jeśli znajdują się w tej samej lokalizacji geograficznej.
- Elementy są pogrupowane według czynników, które elementy mają ze sobą wspólnego. Na przykład, klastry raka mogą być grupowane przez ” ludzi, którzy pracują w produkcji.”
Rodzaje Grupowania
- Ekskluzywne Grupowanie. Każdy element może należeć tylko do jednego klastra. Nie może należeć do innej gromady.
- Fuzzy clustering: punktom danych przypisuje się prawdopodobieństwo przynależności do jednego lub więcej klastrów.
- Nakładanie Się Klastrów. Każdy element może należeć do więcej niż jednego klastra.
- Grupowanie Hierarchiczne. Jest to bardziej złożone podejście do klastrowania stosowane w eksploracji danych. Zasadniczo każdy element otrzymuje swój własny klaster. Para klastrów jest łączona na podstawie podobieństw, dając jeden klaster mniej. Proces ten jest powtarzany, aż wszystkie elementy zostaną zgrupowane. Dendrogram jest wykresem pokazującym klastry hierarchiczne.
- Grupowanie Probabilistyczne. Dane są grupowane za pomocą algorytmów, które łączą elementy za pomocą odległości lub gęstości. Zwykle jest to wykonywane przez komputer.
- metoda Warda: wykorzystuje minimalną wariancję w każdym kroku do tworzenia stosunkowo małych, równych rozmiarów klastrów.
K oznacza grupowanie
grupowanie jest tylko sposobem na grupowanie zestawu danych w mniejsze zestawy. Dwa sposoby można grupować zestaw danych są ilościowo (za pomocą liczb) i jakościowo (za pomocą kategorii). Na przykład książki na Amazon.com są wymienione zarówno według kategorii (jakościowych), jak i według bestsellerów (ilościowych). K-oznacza klastrowanie jest jednym z najprostszych algorytmów uczenia się bez nadzoru, który rozwiązuje problemy klastrowania za pomocą metody ilościowej: wstępnie definiujesz liczbę klastrów i stosujesz prosty algorytm do sortowania danych. To powiedziawszy, “proste” w świecie komputerów nie jest równoznaczne z prostym w prawdziwym życiu. W rzeczywistości jest to problem NP-hard, więc będziesz chciał użyć oprogramowania do klastrowania K-means. Niektóre programy, które wykonają to za Ciebie (kliknij link do procedury) to:
- SPSS.
- R
- MATLAB
ogólne kroki za algorytmem klastrowania K-means to:
- zdecyduj ile klastrów (k).
- umieść punkty centralne K w różnych miejscach (zwykle daleko od siebie).
- weź każdy punkt danych i umieść go blisko odpowiedniego punktu centralnego. Powtarzaj, aż wszystkie punkty danych zostaną przypisane.
- ponownie Oblicz K nowych punktów centralnych jako barycentry.
- powtórz przypisanie punktów danych, tym razem do nowego punktu centralnego (barycenter).
- powtórz 4 i 5, aż punkty centralne (barycentry) nie będą się już poruszać.
K-means Clustering: bardziej formalna definicja
bardziej formalnym sposobem definiowania k-Means clustering jest kategoryzowanie N obiektów do wstępnie zdefiniowanych grup k(K> 1). Celem jest zminimalizowanie odległości od każdego punktu danych do klastra. Innymi słowy, aby znaleźć:
gdzie:
X jest punktem danych
k jest liczbą klastrów
ui jest średnią punktów w Si.
Analiza klastra vs.Analiza dyskryminacyjna
Analiza klastra jest bardzo podobna do analizy dyskryminacyjnej. Obie metody obejmują podział na grupy. Jednak analiza klastrów jest sposobem identyfikacji grup, podczas gdy Analiza dyskryminacyjna wymaga znajomości grup przed rozpoczęciem analizy. Na przykład, załóżmy, że miałeś grupę pacjentów psychiatrycznych z nienormalnymi zachowaniami. Analiza klastrów może pomóc w znalezieniu różnych grup, takich jak pacjenci z nadużywaniem w przeszłości, pacjenci z PTSD lub osoby doświadczające halucynacji. Jeśli chcesz przeprowadzić analizę dyskryminacyjną na tej samej grupie ludzi, musisz znać diagnozy pacjentów, zanim zaczniesz umieszczać ich w grupach.
klastrowanie w Excelu
Microsoft Excel ma dodatek do eksploracji danych do tworzenia klastrów. Instrukcje znajdziesz tutaj. Kreator działa z tabelami Excel, zakresami lub zapytaniami ankiet analitycznych. Ten dodatek można dostosować, w przeciwieństwie do narzędzia Wykrywanie kategorii. Ponadto narzędzie wykrywaj Kategorie jest ograniczone do danych z tabel.
do wykorzystania:
- Pobierz i zainstaluj dodatek Data Mining.
- kliknij “Eksploracja danych”, a następnie kliknij” klaster”, a następnie ” dalej.”
- powiedz Excelowi, gdzie są Twoje dane. Na przykład wybierz zakres danych. Strona klastrowania będzie dostępna.
- grupowanie: pozostaw tak, jak jest dla automatycznego grupowania, lub możesz określić liczbę grup.
- segmenty: pozostaw tak, jak jest dla automatycznego grupowania lub określ liczbę kategorii.
Stephanie Glen. “Klastry i K oznacza: definicja & Analiza klastrów w Excelu” z StatisticsHowTo.com: Podstawowe statystyki dla reszty z nas! https://www.statisticshowto.com/clustering/
——————————————————————————
potrzebujesz pomocy z zadaniem domowym lub pytaniem testowym? Dzięki Chegg Study możesz uzyskać krok po kroku rozwiązania swoich pytań od eksperta w tej dziedzinie. Twoje pierwsze 30 minut z korepetytorem Chegg jest bezpłatne!