Clasificación en Programación en R: El tutorial todo en uno para dominar el concepto!

En este tutorial, estudiaremos la clasificación en R a fondo. También cubriremos el Árbol de Decisiones, la Clasificación de Bayes Ingenuos y la Máquina Vectorial de Soporte. Para entenderlo de la mejor manera, usaremos imágenes y ejemplos en tiempo real.

 Clasificación en R

Manténgase actualizado con las últimas tendencias tecnológicas
¡Únase a DataFlair en Telegram!!

Introducción a la Clasificación en R

La usamos para predecir una etiqueta de clase categórica, como clima: lluvioso, soleado, nublado o nevado.

Puntos importantes de clasificación en R

Hay varios clasificadores disponibles:

  • Árboles de decisión: se organizan en forma de conjuntos de preguntas y respuestas en la estructura del árbol.
  • Clasificadores Bayes ingenuos: un modelo probabilístico de aprendizaje automático que se utiliza para la clasificación.
  • Clasificadores K-NN: En función de las medidas de similitud como la distancia, clasifica los nuevos casos.
  • Máquinas de vectores de soporte: Es un clasificador lineal binario no probabilístico que construye un modelo para clasificar un caso en una de las dos categorías.

Un ejemplo de clasificación en R a través de Support Vector Machine es el uso de la función classification ():

classification (trExemplObj, classLabels, valExemplObj = NULL, kf = 5, kernel = “linear”)

¡Espere! ¿Ha completado el tutorial sobre Agrupación en clústeres en argumentos R

:

1. trExemplObj – Es un objeto de eSet de tren de ejemplares.

2. Etiquetas de clase: Se almacena en el objeto de eSet como nombre de variable, por ejemplo, “tipo”.

3. valExemplObj-Se conoce como objeto eSet de validación de ejemplares.

4. kf – Se denomina como el valor de k-pliegues del parámetro de validación cruzada. Además, el valor predeterminado es 5 veces. Configurando ” Loo ” o ” LOO ” una Validación Cruzada Sin Salida que tenemos que realizar.

5. núcleo-En el análisis de clasificación, utilizamos un tipo de núcleo. El núcleo predeterminado es”lineal”.

6. classL-Las etiquetas del juego de trenes.

7. valClassL-Se denomina como las etiquetas del conjunto de validación si no es NULL.

8. predLbls-Se define como las etiquetas previstas de acuerdo con el análisis de clasificación.

Árbol de decisión en R

Es un tipo de algoritmo de aprendizaje supervisado. Lo usamos para problemas de clasificación. Funciona para ambos tipos de variables de entrada y salida. En esta técnica, dividimos la población en dos o más conjuntos homogéneos. Además, se basa en el divisor/diferenciador más significativo en las variables de entrada.

El Árbol de decisión es un poderoso clasificador no lineal. Un Árbol de Decisiones hace uso de una estructura similar a un árbol para generar una relación entre las diversas características y los resultados potenciales. Hace uso de decisiones de ramificación como su estructura central.

 árbol de decisión en R

En la clasificación de datos, el Árbol de Decisión sigue los pasos mencionados a continuación:

  • Pone todos los ejemplos de entrenamiento en una raíz.
  • En función de los diversos atributos seleccionados, un Árbol de decisiones divide estos ejemplos de capacitación.
  • A continuación, seleccionará atributos mediante el uso de algunas medidas estadísticas.
  • El particionamiento recursivo continúa hasta que no queda ningún ejemplo de entrenamiento.

Terminologías importantes relacionadas con el Árbol de Decisión

  • Nodo raíz: Representa toda la población o muestra. Además, se divide en dos o más conjuntos homogéneos.

Nodo raíz en el Árbol de Decisiones

  • División: En esto, llevamos a cabo la división de un nodo en dos o más sub-nodos.
  • Árbol de decisión: Se produce cuando un sub-nodo se divide en otros sub-nodos.
  • Nodo Hoja/Terminal: Los nodos que no se dividen se denominan Nodo Hoja o Nodo Terminal.
  • Poda: Cuando eliminamos sub-nodos de un nodo de decisión, este proceso se llama poda. Es el proceso opuesto de división.
  • Rama / subárbol: Una subsección de todo el árbol se llama rama o subárbol.
  • Nodo Padre e Hijo: Un nodo, que se divide en sub-nodos, se denomina nodo padre de sub-nodos, mientras que los sub-nodos son el hijo de un nodo padre.

Tipos de Árbol de Decisión

  • Árbol de Decisión de Variables Categóricas(de clasificación): Árbol de Decisión que tiene una variable objetivo categórica.
  • Árbol de Decisión de Variables Continuas(de Regresión): El árbol de decisión tiene una variable objetivo continua.

No olvide consultar los Árboles de Decisión R en detalle

Árboles categóricos (de clasificación) vs Árboles Continuos (de regresión)

Los árboles de regresión se utilizan cuando la variable dependiente es continua, mientras que los árboles de clasificación se utilizan cuando la variable dependiente es categórica.

En continuo, un valor obtenido es una respuesta media de observación.

En la clasificación, un valor obtenido por un nodo terminal es un modo de observaciones.

Hay una similitud en ambos casos. El proceso de división continúa dando como resultado árboles cultivados hasta que alcanza los criterios de detención. Sin embargo, es probable que el árbol crecido se ajuste en exceso a los datos, lo que lleva a una precisión deficiente en los datos invisibles. Esto trae ‘poda’. La poda es una de las técnicas que utiliza el sobreajuste de aparejos.

Ventajas del Árbol de Decisión en R

  • Fácil de entender: No necesita ningún conocimiento estadístico para leerlos e interpretarlos. Su representación gráfica es muy intuitiva y los usuarios pueden relacionar sus hipótesis.
  • Menos limpieza de datos requerida: En comparación con otras técnicas de modelado, requiere menos datos.
  • El tipo de datos no es una restricción: puede manejar variables numéricas y categóricas.
  • fácil de entender e interpretar.
  • Requiere poca preparación de datos.
  • Funciona con datos numéricos y categóricos.
  • Maneja no linealidad.
  • Es posible confirmar un modelo mediante pruebas estadísticas.
  • es robusto. Funciona bien incluso si te desvías de las suposiciones.
  • Escala a Big Data.

Definitivamente debe explorar el Análisis de Regresión No Lineal R

Desventajas del Árbol de Decisión R

  • Sobreajuste: Es una de las dificultades más prácticas para los modelos de Árbol de Decisión. Al establecer restricciones en los parámetros del modelo y la poda, podemos resolver este problema en R.
  • No apto para variables continuas: En el momento de usar variables numéricas continuas. Cada vez que categoriza variables en diferentes categorías, el Árbol de Decisiones pierde información.
  • Para aprender que el árbol globalmente óptimo es NP-duro, los algos confían en la búsqueda codiciosa.
  • Las complejas relaciones “si-entonces” entre entidades inflan el tamaño del árbol. Ejemplo: Puerta XOR, multiplexor.

Introducción a la Clasificación Bayes Naïve

Utilizamos el teorema de Bayes para hacer la predicción. Se basa en el conocimiento previo y la evidencia actual.

El teorema de Bayes se expresa mediante la siguiente ecuación:

 P Clasificación Bayes Naïve de AB

donde P (A) y P(B) son la probabilidad de eventos A y B sin relación entre sí. P (A / B) es la probabilidad de A condicional en B y P(B|A) es la probabilidad de B condicional en A.

Introducción a Máquinas Vectoriales de soporte

¿Qué es Máquina Vectorial de soporte?

Lo utilizamos para encontrar el hiperplano óptimo (línea en 2D, un plano en 3D e hiperplano en más de 3 dimensiones). Lo que ayuda a maximizar el margen entre dos clases. Los vectores de soporte son observaciones que soportan hiperplano a ambos lados.
Ayuda a resolver un problema de optimización lineal. También ayuda a encontrar el hiperplano con el margen más grande. Usamos el “Truco del Núcleo” para separar instancias que son inseparables.

Terminologías relacionadas con R SVM

¿Por qué Hyperplane?

Es una línea en 2D y un plano en 3D. En dimensiones superiores (más de 3D), se llama hiperplano. Además, SVM nos ayuda a encontrar un hiperplano que pueda separar dos clases.

¿Qué es el margen?

Una distancia entre el hiperplano y el punto de datos más cercano se denomina margen. Pero si queremos duplicarlo, entonces sería igual al margen.

¿Cómo encontrar el hiperplano óptimo?

Primero, tenemos que seleccionar dos hiperplanos. Deben separar los datos sin puntos entre ellos. A continuación, maximice la distancia entre estos dos hiperplanos. La distancia aquí es “margen”.

¿Qué es Kernel?

Es un método que ayuda a ejecutar SVM, en caso de puntos de datos separables no lineales. Utilizamos una función de núcleo para transformar los datos en un espacio de entidades de mayor dimensión. Y también con la ayuda de él, realice la separación lineal.

Núcleos diferentes

1. lineal: u’ * v
2. polinomio: (gamma * u’ * v + coef0)^grado
3. base radial (RBF) : exp (- gamma*|u-v|^2)sigmoide : tanh (gamma*u’*v + coef0)

El RBF es generalmente el más popular.

¿Cómo funciona SVM?

  1. Elija un hiperplano óptimo que maximice el margen.
  2. Aplica penalización por errores de clasificación (parámetro de ajuste de coste “c”).
  3. Si el no linealmente separable los puntos de datos. A continuación, transforme los datos en un espacio de alta dimensión. Se hace con el fin de clasificarlo fácilmente con la ayuda de superficies de decisión lineales.

Tiempo para dominar el concepto de Visualización de datos en R

Ventajas de SVM en R

  • Si estamos utilizando el truco del núcleo en caso de datos separables no lineales, entonces funciona muy bien.
  • SVM funciona bien en espacios de alta dimensión y en caso de clasificación de texto o imagen.
  • No sufre un problema de multicolinealidad.

Desventajas de SVM en R

  • Lleva más tiempo en conjuntos de datos de gran tamaño.
  • SVM no devuelve estimaciones de probabilidad.
  • En el caso de datos separables linealmente, esto es casi como regresión logística.

Regresión de máquina vectorial de soporte

  • Sí, podemos usarlo para un problema de regresión, en el que la variable dependiente o de destino es continua.
  • El objetivo de la regresión SVM es el mismo que el problema de clasificación, es decir, encontrar el margen más grande.

Aplicaciones de Clasificación en R

  • Una sala de urgencias en un hospital mide 17 variables de pacientes recién ingresados. Variables, como la presión arterial, la edad y muchas más. Además, se debe tomar una decisión cuidadosa si el paciente tiene que ser ingresado en la UCI. Debido al alto costo de la UCI, a los pacientes que pueden sobrevivir más de un mes se les da alta prioridad. Además, el problema es predecir a los pacientes de alto riesgo. Y, para discriminarlos de pacientes de bajo riesgo.
  • Una compañía de crédito recibe cientos de miles de solicitudes de tarjetas nuevas. La aplicación contiene información sobre varios atributos diferentes. Además, el problema es categorizar a aquellos que tienen buen crédito, mal crédito o caen en una zona gris.
  • Los astrónomos han catalogado objetos distantes en el cielo utilizando imágenes de D. C. C. de larga exposición. Por lo tanto, el objeto que necesita ser etiquetado es una estrella, galaxia, etc. Los datos son ruidosos y las imágenes son muy débiles, por lo que la catalogación puede tardar décadas en completarse.

Resumen

Hemos estudiado la clasificación en R junto con sus usos y pros y contras. También hemos aprendido ejemplos en tiempo real que ayudan a aprender la clasificación de una mejor manera.

Siguiente tutorial en nuestra serie de tutoriales R DataFlair-Paquete e1071 / Modelos de entrenamiento y pruebas SVM en R

Deja una respuesta

Tu dirección de correo electrónico no será publicada.