machine learning - supervisado - Recuperación de información(IR) vs minería de datos vs Aprendizaje automático(ML)

qué es el aprendizaje supervisado y no supervisado con machine learning (4)

La gente a menudo utiliza los términos IR, ML y minería de datos, pero he notado una gran coincidencia entre ellos.

De las personas con experiencia en estos campos, ¿qué es exactamente lo que marca la línea entre estos?

Esta es solo la opinión de una persona (formalmente entrenada en ML); otros pueden ver las cosas de manera muy diferente.

El Aprendizaje automático es probablemente el más homogéneo de estos tres términos, y el que se aplica de manera más consistente, se limita a los algoritmos de extracción de patrones (o patrones de coincidencia de patrones).

De los términos que mencionó, "Aprendizaje automático" es el más utilizado por los departamentos académicos para describir sus planes de estudio, sus departamentos académicos y sus programas de investigación, así como el término más utilizado en revistas académicas y actas de conferencias. ML es claramente el menos dependiente del contexto de los términos que mencionó.

La recuperación de información y la minería de datos están mucho más cerca de describir procesos comerciales completos, es decir , desde la consulta del usuario hasta la recuperación / entrega de resultados relevantes. Los algoritmos ML pueden estar en algún lugar de ese flujo de proceso, y en las aplicaciones más sofisticadas, a menudo, pero eso no es un requisito formal. Además, el término Data Mining parece referirse generalmente a la aplicación de algún flujo de proceso en big data (es decir,> 2BG) y, por lo tanto, generalmente incluye un componente de procesamiento distribuido (reducción de mapa) cerca del frente de ese flujo de trabajo.

Por lo tanto, la recuperación de información (IR) y la minería de datos (DM) están relacionadas con el aprendizaje automático (ML) en una especie de algoritmo de infraestructura . En otras palabras, el aprendizaje automático es una fuente de herramientas utilizadas para resolver problemas en la recuperación de información. Pero es solo una fuente de herramientas. Pero el IR no depende de ML: por ejemplo, un proyecto de IR particular puede ser el almacenamiento y la recuperación rápida de los datos totalmente indexados que responden a la consulta de búsqueda del usuario IR, cuyo punto crucial es optimizar el rendimiento del flujo de datos, es decir, , el viaje de ida y vuelta desde la consulta hasta la entrega de los resultados de búsqueda al usuario. La predicción o la coincidencia de patrones podrían no ser útiles aquí. Del mismo modo, un proyecto de DM puede usar un algoritmo ML para el motor predictivo, pero es más probable que un proyecto de DM también se ocupe de todo el flujo de procesamiento, por ejemplo, técnicas de computación en paralelo para una entrada eficiente de un enorme volumen de datos (quizás TB ) que entrega un proto-resultado a un motor de procesamiento para el cálculo de estadísticas descriptivas (media, desviación estándar, distribución, etc. en las variables (columnas).

Por último, considere el Premio Netflix. Esta competencia se dirigió exclusivamente al Aprendizaje automático: el enfoque se centró en el algoritmo de predicción, como lo demuestra el hecho de que existía un único criterio de éxito: la precisión de las predicciones devueltas por el algoritmo. Imagínese si el ''Premio Netflix'' fuera renombrado como una competencia de Data Mining. Es casi seguro que los criterios de éxito se expandirán para acceder con mayor precisión al rendimiento del algoritmo en la configuración comercial real, por lo que, por ejemplo, la velocidad de ejecución general (la rapidez con la que se entregan las recomendaciones al usuario) probablemente se considerará junto con la precisión.

Los términos "Recuperación de información" y "Minería de datos" están ahora en uso general, aunque por un tiempo solo vi estos términos en la descripción de mi trabajo o en la documentación del proveedor (generalmente junto a la palabra "solución"). En mi empleador, Recientemente contraté a un analista de "Data Mining". No sé qué hace exactamente, pero usa corbata para trabajar todos los días.

Intentaría trazar la línea de la siguiente manera:

La recuperación de información consiste en encontrar algo que ya sea parte de sus datos, lo más rápido posible.

El aprendizaje automático son técnicas para generalizar el conocimiento existente a nuevos datos, lo más precisos posible.

La minería de datos consiste principalmente en descubrir algo oculto en sus datos, que no sabía antes, tan "nuevo" como fuera posible.

Se entrecruzan y suelen utilizar técnicas de unos a otros. DM e IR usan estructuras de índice para acelerar los procesos. DM usa muchas técnicas de LD, por ejemplo, un patrón en el conjunto de datos que es útil para la generalización podría ser un nuevo conocimiento.

A menudo son difíciles de separar. Hazte un favor y no te limites a las palabras de moda. En mi opinión, la mejor manera de distinguirlos es por su intención , como se indicó anteriormente: buscar datos, generalizar a nuevos datos, encontrar nuevas propiedades de datos existentes.

La minería de datos consiste en descubrir patrones ocultos o conocimientos desconocidos, que pueden ser utilizados para la toma de decisiones por parte de las personas.

El aprendizaje automático consiste en aprender un modelo para clasificar nuevos objetos.

También puede agregar el reconocimiento de patrones y las estadísticas (¿computacionales?) Como otro par de áreas que se superponen con las tres que mencionó.

Yo diría que no hay una línea bien definida entre ellos. Lo que los separa es su historia y su énfasis. Las estadísticas enfatizan el rigor matemático, la minería de datos enfatiza la escala a grandes conjuntos de datos, ML está en algún punto intermedio.