machine-learning - modelos - machine learning y data learning
¿Diferencia entre clasificación y agrupación en data mining? (17)
Clasificación
Es la asignación de clases predefinidas a nuevas observaciones , basadas en el aprendizaje de ejemplos.
Es una de las tareas clave en el aprendizaje automático.
Agrupación (o análisis de conglomerados)
Aunque popularmente se descarta como "clasificación no supervisada", es bastante diferente.
En contraste con lo que muchos aprendices de máquina le enseñarán, no se trata de asignar "clases" a objetos, sino sin tenerlos predefinidos. Esta es la visión muy limitada de las personas que hicieron demasiada clasificación; un ejemplo típico de si tiene un martillo (clasificador), todo se ve como un clavo (problema de clasificación) para usted . Pero también es la razón por la cual a la gente de clasificación no le gusta el agrupamiento.
En cambio, considérelo como descubrimiento de estructura . La tarea de agrupar es encontrar estructura (por ejemplo, grupos) en sus datos que no conocía antes . La agrupación ha tenido éxito si aprendió algo nuevo. Falló, si solo obtuviste la estructura que ya conocías.
El análisis de conglomerados es una tarea clave de la minería de datos (y el patito feo en el aprendizaje automático, así que no escuche a los estudiantes de máquinas descartar el agrupamiento).
El "aprendizaje no supervisado" es algo así como un Oxymoron
Esto se ha iterado arriba y abajo de la literatura, pero el aprendizaje no supervisado es b llsh t. No existe, pero es un oxímoron como "inteligencia militar".
O bien el algoritmo aprende a partir de ejemplos (entonces es "aprendizaje supervisado"), o no aprende. Si todos los métodos de agrupación están "aprendiendo", entonces calcular el mínimo, máximo y promedio de un conjunto de datos también es "aprendizaje no supervisado". Entonces cualquier computación "aprendió" su salida. Por lo tanto, el término "aprendizaje no supervisado" no tiene sentido , significa todo y nada.
Sin embargo, algunos algoritmos de "aprendizaje no supervisado" entran dentro de la categoría de optimización . Por ejemplo, k-means es una optimización de mínimos cuadrados. Dichos métodos abarcan todas las estadísticas, por lo que no creo que tengamos que etiquetarlos como "aprendizaje no supervisado", sino que deberíamos continuar llamándolos "problemas de optimización". Es más preciso y más significativo. Hay muchos algoritmos de agrupamiento que no involucran la optimización y que no encajan bien en los paradigmas de aprendizaje automático. Así que dejen de exprimirlos bajo el paraguas de "aprendizaje sin supervisión".
Hay algo de "aprendizaje" asociado con la agrupación, pero no es el programa el que aprende. Se supone que el usuario debe aprender cosas nuevas sobre su conjunto de datos.
¿Puede alguien decir cuál es la diferencia entre la clasificación y la agrupación en la extracción de datos?
Si puede, proporcione ejemplos de ambos para comprender la idea principal.
+ Clasificación: le dan algunos datos nuevos, tiene que establecer una nueva etiqueta para ellos.
Por ejemplo, una empresa quiere clasificar a sus clientes potenciales. Cuando llega un nuevo cliente, debe determinar si este es un cliente que va a comprar sus productos o no.
+ Agrupación: se le proporciona un conjunto de transacciones históricas que registraron quién compró qué.
Mediante el uso de técnicas de agrupamiento, puede distinguir la segmentación de sus clientes.
Al agrupar, puede agrupar los datos con sus propiedades deseadas, como el número, la forma y otras propiedades de los clústeres extraídos. Mientras que, en clasificación, el número y la forma de los grupos son fijos. La mayoría de los algoritmos de agrupación dan la cantidad de clústeres como parámetro. Sin embargo, hay algunos enfoques para averiguar la cantidad adecuada de clústeres.
Clasificación: predice etiquetas de categorías categóricas. Clasifica los datos (construye un modelo) basados en un conjunto de entrenamiento y los valores (etiquetas de clase) en un atributo de etiqueta de clase. Utiliza el modelo para clasificar los datos nuevos.
Clúster: una colección de objetos de datos - Similares entre sí dentro del mismo grupo - Diferente a los objetos en otros grupos
Creo que la clasificación es clasificar los registros en un conjunto de datos en clases predefinidas o incluso definir clases sobre la marcha. Lo veo como un requisito previo para cualquier valiosa minería de datos, me gusta pensar en el aprendizaje no supervisado, es decir, uno no sabe lo que está buscando mientras extrae los datos y la clasificación sirve como un buen punto de partida
La agrupación en el otro extremo cae bajo el aprendizaje supervisado, es decir, uno sabe qué parámetros buscar, la correlación entre ellos junto con los niveles críticos. Creo que requiere cierta comprensión de las estadísticas y las matemáticas
Del libro Mahout in Action, y creo que explica la diferencia muy bien:
Los algoritmos de clasificación están relacionados, pero todavía son bastante diferentes de, los algoritmos de agrupación, como el algoritmo k-means.
Los algoritmos de clasificación son una forma de aprendizaje supervisado, a diferencia del aprendizaje no supervisado, que ocurre con los algoritmos de agrupamiento.
Un algoritmo de aprendizaje supervisado es aquel que recibe ejemplos que contienen el valor deseado de una variable objetivo. Los algoritmos no supervisados no reciben la respuesta deseada, sino que deben encontrar algo plausible por sí mismos.
En general, en la clasificación tiene un conjunto de clases predefinidas y desea saber a qué clase pertenece un nuevo objeto.
La agrupación intenta agrupar un conjunto de objetos y encontrar si existe alguna relación entre los objetos.
En el contexto del aprendizaje automático, la clasificación es aprendizaje supervisado y la agrupación es aprendizaje no supervisado .
También eche un vistazo a Classification y Clustering en Wikipedia.
Estoy seguro de que muchos de ustedes han oído hablar del aprendizaje automático. Una docena de ustedes incluso podrían saber de qué se trata. Y algunos de ustedes también podrían haber trabajado con algoritmos de aprendizaje automático. ¿Ves a dónde va esto? No muchas personas están familiarizadas con la tecnología que será absolutamente esencial dentro de 5 años. Siri es el aprendizaje automático. Alexa de Amazon es aprendizaje automático. Los sistemas recomendadores de artículos publicitarios y de artículos son aprendizaje automático. Tratemos de entender el aprendizaje automático con una simple analogía de un niño de 2 años. Solo por diversión, llamémoslo Kylo Ren
Supongamos que Kylo Ren vio un elefante. ¿Qué le dirá su cerebro? (Recuerde que tiene una capacidad mental mínima, incluso si él es el sucesor de Vader). Su cerebro le dirá que vio una gran criatura en movimiento que era de color gris. Luego ve un gato y su cerebro le dice que es una pequeña criatura en movimiento de color dorado. Finalmente, ve un sable de luz al lado y su cerebro le dice que es un objeto no viviente con el que puede jugar.
Su cerebro en este punto sabe que el sable es diferente del elefante y el gato, porque el sable es algo con lo que jugar y no se mueve por sí mismo. Su cerebro puede resolver esto mucho, incluso si Kylo no sabe lo que significa móvil. Este simple fenómeno se llama Agrupamiento.
El aprendizaje automático no es más que la versión matemática de este proceso. Mucha gente que estudia estadísticas se dio cuenta de que pueden hacer que algunas ecuaciones funcionen de la misma manera que funciona el cerebro. El cerebro puede agrupar objetos similares, el cerebro puede aprender de los errores y el cerebro puede aprender a identificar cosas.
Todo esto se puede representar con estadísticas, y la simulación basada en computadora de este proceso se llama Aprendizaje automático. ¿Por qué necesitamos la simulación basada en computadora? porque las computadoras pueden hacer cálculos pesados más rápido que los cerebros humanos. Me encantaría entrar en la parte matemática / estadística del aprendizaje automático, pero no quiero entrar en eso sin aclarar algunos conceptos primero.
Volvamos a Kylo Ren. Digamos que Kylo toma el sable y comienza a jugar con él. Accidentalmente golpea a un soldado de asalto y el stormtrooper se lesiona. Él no entiende lo que está pasando y continúa jugando. Luego golpea a un gato y el gato se lastima. Esta vez Kylo está seguro de que ha hecho algo malo, y trata de ser algo cuidadoso. Pero debido a sus malas habilidades con el sable, golpea al elefante y está absolutamente seguro de que tiene problemas. ¡Se vuelve extremadamente cuidadoso después, y solo golpea a su padre a propósito como vimos en Force Awakens!
Todo este proceso de aprendizaje de su error puede ser imitado con ecuaciones, donde la sensación de hacer algo incorrecto está representada por un error o costo. Este proceso de identificar qué no hacer con un sable se llama Clasificación. La agrupación y clasificación son conceptos básicos absolutos del aprendizaje automático. Veamos la diferencia entre ellos.
Kylo diferenció entre los animales y el sable de luz porque su cerebro decidió que los sables de luz no pueden moverse solos y, por lo tanto, son diferentes. La decisión se basó únicamente en los objetos presentes (datos) y no se proporcionó ayuda o asesoramiento externo. En contraste con esto, Kylo diferenció la importancia de tener cuidado con el sable de luz observando primero lo que puede hacer un golpe a un objeto. La decisión no se basó completamente en el sable, sino en lo que podría hacer a diferentes objetos. En resumen, hubo algo de ayuda aquí.
Debido a esta diferencia en el aprendizaje, la agrupación se denomina método de aprendizaje no supervisado y la clasificación se denomina método de aprendizaje supervisado. Son muy diferentes en el mundo del aprendizaje automático, y a menudo están dictados por el tipo de datos presentes. Obtener datos etiquetados (o cosas que nos ayudan a aprender, como stormtrooper, elefante y gato en el caso de Kylo) a menudo no es fácil y se vuelve muy complicado cuando los datos que se van a diferenciar son grandes. Por otro lado, aprender sin etiquetas puede tener sus propias desventajas, como no saber cuáles son los títulos de las etiquetas. Si Kylo aprendiera a ser cuidadoso con el sable sin ningún ejemplo o ayuda, no sabría lo que haría. Él solo sabría que no se debe hacer. Es una especie de analogía coja pero entiendes el punto!
Estamos comenzando con Machine Learning. La clasificación en sí misma puede ser clasificación de números continuos o clasificación de etiquetas. Por ejemplo, si Kylo tuviera que clasificar la altura de cada soldado de asalto, habría muchas respuestas porque las alturas pueden ser 5.0, 5.01, 5.011, etc. Pero una clasificación simple como tipos de sables de luz (rojo, azul, verde) tendría respuestas muy limitadas. De hecho, pueden representarse con números simples. El rojo puede ser 0, el azul puede ser 1 y el verde puede ser 2.
Si conoces las matemáticas básicas, sabes que 0,1,2 y 5,1,5,01,5,011 son diferentes y se llaman números discretos y continuos, respectivamente. La clasificación de números discretos se denomina Regresión logística y la clasificación de números continuos se llama Regresión. La Regresión logística también se conoce como clasificación categórica, por lo que no debe confundirse cuando lea este término en otra parte.
Esta fue una introducción muy básica al aprendizaje automático. Me detendré en el lado estadístico en mi próxima publicación. Por favor, avíseme si necesito alguna corrección :)
Segunda parte publicada aquí http://ow.ly/Z1htY
Hay dos definiciones en data mining "Supervised" y "Unsupervised". Cuando alguien le dice a la computadora, algoritmo, código, ... que esto es como una manzana y que es como una naranja, esto es aprendizaje supervisado y el uso de aprendizaje supervisado (como etiquetas para cada muestra en un conjunto de datos) para clasificar el datos, obtendrás clasificación Pero, por otro lado, si permites que la computadora descubra qué es qué y diferencie entre las características del conjunto de datos dado, de hecho, el aprendizaje no supervisado, para clasificar el conjunto de datos se denominará agrupamiento en clúster. En este caso, los datos que se introducen en el algoritmo no tienen etiquetas y el algoritmo debe buscar diferentes clases.
La agrupación es un método de agrupar objetos de tal manera que los objetos con características similares se combinan y los objetos con características diferentes se separan. Es una técnica común para el análisis de datos estadísticos utilizados en el aprendizaje automático y la minería de datos.
La clasificación es un proceso de categorización donde los objetos son reconocidos, diferenciados y entendidos sobre la base del conjunto de datos de entrenamiento. La clasificación es una técnica de aprendizaje supervisado donde se encuentran disponibles un conjunto de entrenamiento y observaciones correctamente definidas.
La agrupación tiene como objetivo encontrar grupos en los datos. "Clúster" es un concepto intuitivo y no tiene una definición matemáticamente rigurosa. Los miembros de un clúster deben ser similares entre sí y diferentes a los miembros de otros clusters. Un algoritmo de agrupamiento opera en un conjunto de datos no etiquetados Z y produce una partición en él.
Para clases y etiquetas de clase, la clase contiene objetos similares, mientras que los objetos de diferentes clases son diferentes. Algunas clases tienen un significado claro, y en el caso más simple son mutuamente excluyentes. Por ejemplo, en la verificación de firma, la firma es genuina o falsificada. La clase verdadera es una de las dos, sin importar que no seamos capaces de adivinar correctamente desde la observación de una firma en particular.
Si intenta archivar un gran número de hojas en su estante (según la fecha o alguna otra especificación del archivo), CLASIFICAR.
Si creara clústeres a partir del conjunto de hojas, significaría que hay algo similar entre las hojas.
Soy un recién llegado a Data Mining, pero como dice mi libro de texto, se supone que CLASSICIATION debe ser un aprendizaje supervisado y CLUSTERING learning sin supervisión. La diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado se puede encontrar here .
El aprendizaje automático o la IA se perciben en gran medida por la tarea que realiza / logra.
En mi opinión, al pensar en Agrupamiento y Clasificación en la noción de tarea que logran, puede realmente ayudar a entender la diferencia entre los dos.
Agrupar es agrupar cosas y clasificar es, como que, etiquetar cosas.
Supongamos que estás en una sala de fiestas donde todos los hombres están en trajes y las mujeres en vestidos.
Ahora, le haces algunas preguntas a tu amigo:
Q1: Heyy, ¿puedes ayudarme a agrupar personas?
Las posibles respuestas que su amigo puede dar son:
1: puede agrupar personas en función de género, hombre o mujer
2: Él puede agrupar a las personas en función de su ropa, 1 vistiendo trajes con otras vestimentas
3: Él puede agrupar a las personas según el color de sus cabellos
4: Él puede agrupar personas según su grupo de edad, etc. etc. etc.
Hay muchas formas en que su amigo puede completar esta tarea.
Por supuesto, puede influir en su proceso de toma de decisiones al proporcionar entradas adicionales como:
¿Me pueden ayudar a agrupar a estas personas según su sexo (o grupo de edad, color de cabello o vestimenta, etc.)?
Q2:
Antes de la Q2, necesitas hacer algo de pre-trabajo.
Tienes que enseñar o informar a tu amigo para que pueda tomar una decisión informada. Entonces, digamos que le dijiste a tu amigo que:
Las personas con cabello largo son mujeres.
Las personas con pelo corto son hombres.
Q2. Ahora, señalas a una Persona con cabello largo y le preguntas a tu amigo: ¿Es un Hombre o una Mujer?
La única respuesta que puedes esperar es: mujer.
Por supuesto, puede haber hombres con pelos largos y mujeres con pelos cortos en la fiesta. Sin embargo, la respuesta es correcta en función del aprendizaje que le proporcionó a su amigo. Puede mejorar aún más el proceso enseñando más a su amigo sobre cómo diferenciar entre los dos.
En el ejemplo anterior,
Q1 representa la tarea que logra la Agrupación.
En Clustering, proporciona los datos (personas) al algoritmo (su amigo) y le pide que agrupe los datos.
Ahora, depende del algoritmo decidir cuál es la mejor forma de agruparlo. (Género, color o grupo de edad).
De nuevo, definitivamente puede influenciar la decisión tomada por el algoritmo al proporcionar entradas adicionales.
Q2 representa la tarea que la clasificación logra.
Allí le das a tu algoritmo (tu amigo) algunos datos (personas), llamados datos de entrenamiento, y le hacen saber qué datos corresponden a qué etiqueta (hombre o mujer). Luego apuntas tu algoritmo a ciertos datos, llamados datos de prueba, y le pides que determine si es hombre o mujer. Mientras mejor sea tu enseñanza, mejor será su predicción.
Y el Pre-trabajo en Q2 o Clasificación no es más que el entrenamiento de su modelo para que pueda aprender a diferenciar. En Clustering o Q1 este pre-trabajo es la parte de la agrupación.
Espero que esto ayude a alguien.
Gracias
Si ha hecho esta pregunta a cualquier persona que esté aprendiendo un proceso de minería de datos o de aprendizaje automático, utilizará el término aprendizaje supervisado y aprendizaje no supervisado para explicarle la diferencia entre el agrupamiento y la clasificación. Así que permítanme primero explicarles acerca de la palabra clave supervisada y no supervisada.
Aprendizaje supervisado: supongamos que tiene una canasta y está llena de algunas frutas frescas y su tarea es organizar el mismo tipo de frutas en un solo lugar. supongamos que los frutos son manzana, plátano, cereza y uva. por lo que ya sabe por su trabajo anterior que, la forma de cada fruta por lo que es fácil organizar el mismo tipo de frutas en un solo lugar. aquí su trabajo anterior se llama datos entrenados en minería de datos. entonces usted ya aprende las cosas de su información entrenada, Esto es porque usted tiene una variable de respuesta que le dice que si algunas frutas tienen tal y tal característica, es uva, así para todas y cada una de las frutas.
Este tipo de datos lo obtendrá de los datos entrenados. Este tipo de aprendizaje se denomina aprendizaje supervisado. Este problema de resolución de tipo viene bajo Clasificación. Entonces ya aprendes las cosas para que puedas hacer tu trabajo con confianza.
sin supervisión: supongamos que tiene una canasta y está llena de algunas frutas frescas y su tarea es organizar el mismo tipo de frutas en un solo lugar.
Esta vez no sabes nada sobre esas frutas, es la primera vez que ves estas frutas, entonces, ¿cómo organizarás el mismo tipo de frutas?
Lo que harás primero es tomar la fruta y seleccionarás cualquier carácter físico de esa fruta en particular. supongamos que tomaste color.
Luego los organizará según el color, luego los grupos serán algo así. GRUPO DE COLORES ROJOS: manzanas y frutas de cereza. GREEN COLOR GROUP: plátanos y uvas. así que ahora tomarás otro personaje físico como el tamaño, por lo que ahora los grupos serán algo así. COLOR ROJO Y GRAN TAMAÑO: manzana. COLOR ROJO Y TAMAÑO PEQUEÑO: frutos de cereza. COLOR VERDE Y GRAN TAMAÑO: plátanos. COLOR VERDE Y TAMAÑO PEQUEÑO : uvas. trabajo hecho final feliz.
aquí no aprendiste nada antes, significa que no hay datos de trenes y ninguna variable de respuesta. Este tipo de aprendizaje es conocido como aprendizaje no supervisado. la agrupación viene bajo el aprendizaje no supervisado.
Un trazador de líneas para la clasificación:
Clasificando datos en categorías predefinidas
Un trazador de líneas para la agrupación en clúster:
Agrupando datos en un conjunto de categorías
Diferencia clave:
La clasificación consiste en tomar datos y colocarlos en categorías predefinidas y en Agrupar el conjunto de categorías en las que desea agrupar los datos, no se conoce de antemano.
Conclusión:
- La clasificación asigna la categoría a 1 elemento nuevo, en función de los elementos ya etiquetados, mientras que la Agrupación toma un grupo de elementos sin etiqueta y los divide en categorías
- En la Clasificación, las categorías / grupos que se dividirán se conocen de antemano, mientras que en la Agrupación, las categorías / grupos que se dividirán se desconocen de antemano
- En la clasificación, hay 2 fases: fase de entrenamiento y luego fase de prueba, mientras que en la agrupación, solo hay 1 división de fase de los datos de entrenamiento en grupos.
- La clasificación es aprendizaje supervisado mientras que la agrupación es aprendizaje no supervisado
He escrito una larga publicación sobre el mismo tema que puedes encontrar aquí: