Clustering y K Significa: Definición y Análisis de clústeres en Excel

Compartir en

Definiciones de estadísticas > Agrupación en clústeres / Análisis de clústeres

¿Qué es la agrupación en clústeres?

El agrupamiento en estadísticas se refiere a cómo se recopilan los datos (“agrupados”) por factores como:

  • Edad.
  • Tamaño del hogar.
  • Ingresos.
  • O nivel educativo.

Ordenar los datos en clústeres a veces conduce a una mayor investigación de los datos. Por ejemplo, los grupos de cáncer pueden indicar algún problema en el medio ambiente. O, pueden ser simplemente el resultado de que la naturaleza sea aleatoria. El análisis de clústeres tiende a ser subjetivo en muchos casos; depende de lo que perciba como hilos comunes en los datos. La técnica no es realmente nada nuevo en estadísticas; si alguna vez has hecho un gráfico de barras, probablemente ya hayas hecho clústeres (incluso si no lo llamaste así). Por ejemplo, un gráfico de barras que muestra razas de perros requiere que se agrupe por raza (Husky siberiano, Border Collie, Pastor alemán)) o un gráfico de niveles de ingresos puede agruparse por niveles de ingresos bajos, medios y altos.

clustering

Los resultados del análisis de clústeres muestran tres clústeres de colores diferentes.

Los clústeres pueden basarse en factores como:

  • Agrupamiento basado en la distancia. Los elementos se clasifican en función de su proximidad (o distancia). Por ejemplo, los casos de cáncer pueden agruparse si se encuentran en la misma ubicación geográfica.
  • Agrupación conceptual. Los elementos se agrupan por factores que los elementos tienen en común. Por ejemplo, los grupos de cáncer podrían agruparse por ” personas que trabajan en la manufactura.”

Tipos de clústeres

  • Clústeres exclusivos. Cada elemento solo puede pertenecer a un solo clúster. No puede pertenecer a otro grupo.
  • Agrupamiento difuso: A los puntos de datos se les asigna una probabilidad de pertenecer a uno o más clústeres.
  • Agrupación en clústeres superpuestos. Cada elemento puede pertenecer a más de un clúster.
  • Agrupación jerárquica. Este es un enfoque más complejo para la agrupación en clústeres que se utiliza en la minería de datos. Básicamente, a cada elemento se le da su propio clúster. Un par de clústeres se unen en función de las similitudes, dando un clúster menos. Este proceso se repite hasta que todos los elementos se agrupan. El dendrograma es un gráfico que muestra grupos jerárquicos.
  • Agrupación probabilística. Los datos se agrupan mediante algoritmos que conectan elementos mediante distancias o densidades. Esto generalmente lo realiza una computadora.
  • Método de Ward: utiliza una varianza mínima en cada paso para crear grupos relativamente pequeños y de tamaño uniforme.

K Significa Agrupación en clústeres

La agrupación en clústeres es solo una forma de agrupar un conjunto de datos en conjuntos más pequeños. Las dos formas de agrupar un conjunto de datos son cuantitativamente (utilizando números) y cualitativamente (utilizando categorías). Por ejemplo, libros sobre Amazon.com se enumeran por categoría (cualitativa) y por best seller (cuantitativa). La agrupación en clústeres de K-Means es uno de los algoritmos de aprendizaje no supervisados más simples que resuelve problemas de agrupación mediante un método cuantitativo: se predefinen varios clústeres y se emplea un algoritmo simple para ordenar los datos. Dicho esto, “simple” en el mundo de la computación no equivale a simple en la vida real. En realidad, este es un problema difícil de NP, por lo que querrá usar software para la agrupación en clústeres de K-means. Algunos programas que realizarán esto por usted (haga clic en el enlace para el procedimiento) son:

  • SPSS.
  • r
  • MATLAB

Los pasos generales detrás del algoritmo de agrupamiento de K-means son:

  1. Decidir cuántos clústeres (k).
  2. Coloque los puntos centrales k en diferentes ubicaciones (generalmente lejos unos de otros).
  3. Tome cada punto de datos y colóquelo cerca del punto central apropiado. Repita hasta que se hayan asignado todos los puntos de datos.
  4. Vuelva a calcular k nuevos puntos centrales como baricentros.
  5. Repita la asignación de puntos de datos, esta vez al nuevo punto central (el baricentro).
  6. Repita 4 y 5 hasta que los puntos centrales (baricentros) no se muevan más.

Agrupamiento de K-Medias: Una Definición más formal

Una forma más formal de definir agrupamiento de K-Medias es categorizar n objetos en grupos predefinidos k(k>1). El objetivo es minimizar la distancia desde cada punto de datos hasta el clúster. En otras palabras, para encontrar:
k-means clustering
donde:
X es un punto de datos
k es el número de clústeres
ui es la media de los puntos en Si.

Análisis de clústeres vs. Análisis Discriminante

El análisis de clústeres es muy similar al análisis discriminante. Ambos métodos implican la separación en grupos. Sin embargo, el análisis de clústeres es una forma de identificar los grupos, mientras que el análisis discriminante requiere que conozca los grupos antes de comenzar el análisis. Por ejemplo, digamos que tienes un grupo de pacientes psiquiátricos con comportamientos anormales. El análisis de conglomerados podría ayudarlo a encontrar grupos distintos, como pacientes con antecedentes de abuso, aquellos con trastorno de estrés postraumático o aquellos que experimentan alucinaciones. Si tuviera que realizar análisis discriminantes en el mismo grupo de personas, debe conocer los diagnósticos de los pacientes antes de comenzar a colocarlos en grupos.

Agrupación en clústeres en Excel

Microsoft Excel tiene un complemento de minería de datos para crear clústeres. Puede encontrar instrucciones aquí. El asistente funciona con tablas, rangos o Consultas de Encuestas de Análisis de Excel. Este complemento se puede personalizar, a diferencia de la herramienta Detectar categorías. Además, la herramienta Detectar categorías se limita a los datos de las tablas.

Para usar:

  1. Descargue e instale el complemento de Minería de datos.
  2. Haga clic en “Minería de datos”, luego en” Clúster “y luego en “Siguiente”.”
  3. Dile a Excel dónde están tus datos. Por ejemplo, seleccione un rango de datos. La página de agrupación en clústeres estará disponible.
  • Agrupación en clústeres: deje como está para la agrupación automática, o puede especificar un número de grupos.Segmentos
  • : deje como está para la agrupación automática o especifique un número de categorías.
  • Anule la selección de las columnas que no sean entradas útiles para su análisis. Por ejemplo, es posible que desee anular la selección de números de identificación, fechas de nacimiento u otros identificadores.
  • Indique a Excel la cantidad de datos que debe retener para las pruebas (en la página Dividir los datos en capacitación y pruebas). El valor predeterminado es 30% de pruebas / 70% de entrenamiento.
  • Dale un nombre a tu modelo. Marque la opción “Examinar” para ver inmediatamente sus resultados.
  • CITE ESTO COMO:
    Stephanie Glen. “Clustering y K Significa: Definición & Análisis de clústeres en Excel” De StatisticsHowTo.com: Estadísticas elementales para el resto de nosotros! https://www.statisticshowto.com/clustering/

    ——————————————————————————

    Necesito ayuda con una tarea o cuestión de prueba? Con Chegg Study, puede obtener soluciones paso a paso a sus preguntas de un experto en el campo. ¡Tus primeros 30 minutos con un tutor de Chegg son gratis!


    Deja una respuesta

    Tu dirección de correo electrónico no será publicada.