una son que productos producto metadato marquilla las etiquetas etiqueta definicion cuáles machine-learning

machine learning - son - ¿Cuál es la diferencia entre los datos etiquetados y los no etiquetados?



que es una marquilla wikipedia (2)

En this video de Sebastian Thrum, él dice que el aprendizaje supervisado funciona con datos "etiquetados" y el aprendizaje no supervisado funciona con datos "sin etiqueta". ¿A qué se refiere con esto? Buscar en Google "datos etiquetados versus no etiquetados" arroja una serie de documentos académicos sobre este tema. Solo quiero saber la diferencia básica.


Hay muchos problemas diferentes en Machine Learning, así que elegiré la clasificación como un ejemplo. En la clasificación, los datos etiquetados normalmente consisten en una bolsa de vectores de características multidimensionales (normalmente llamados X) y para cada vector una etiqueta, Y que a menudo es solo un entero correspondiente a una categoría, por ejemplo. (cara = 1, sin cara = -1). Los datos no etiquetados omiten el componente Y. Hay muchos escenarios en los que los datos no etiquetados son abundantes y fáciles de obtener, pero los datos etiquetados a menudo requieren que un humano / experto haga anotaciones.


Por lo general, los datos no etiquetados consisten en muestras de artefactos naturales o creados por el ser humano que usted puede obtener con relativa facilidad del mundo. Algunos ejemplos de datos no etiquetados pueden incluir fotos, grabaciones de audio, videos, artículos de noticias, tweets, rayos X (si estaba trabajando en una aplicación médica), etc. No hay una "explicación" para cada pieza de información no etiquetada. solo contiene los datos, y nada más.

Los datos etiquetados generalmente toman un conjunto de datos sin etiqueta y aumentan cada parte de esos datos sin etiqueta con algún tipo de "etiqueta", "etiqueta" o "clase" significativa que de alguna manera es informativa o deseable saber. Por ejemplo, las etiquetas para los tipos anteriores de datos no etiquetados pueden ser si esta foto contiene un caballo o una vaca, qué palabras fueron pronunciadas en esta grabación de audio, qué tipo de acción se está realizando en este video, cuál es el tema de este artículo es, cuál es el sentimiento general de este tweet, si el punto en esta radiografía es un tumor, etc.

Las etiquetas de los datos a menudo se obtienen pidiendo a los seres humanos que emitan juicios sobre una determinada pieza de datos sin etiqueta (p. Ej., "¿Esta foto contiene un caballo o una vaca?") Y son significativamente más caros que los datos sin etiqueta.

Después de obtener un conjunto de datos etiquetados, se pueden aplicar modelos de aprendizaje automático a los datos para que se puedan presentar al modelo nuevos datos sin etiquetar y se pueda adivinar o predecir una etiqueta probable para esa pieza de datos no etiquetados.

Hay muchas áreas activas de investigación en aprendizaje automático que tienen como objetivo la integración de datos no etiquetados y etiquetados para construir modelos mejores y más precisos del mundo. El aprendizaje semi-supervisado intenta combinar datos no etiquetados y etiquetados (o, más en general, conjuntos de datos no etiquetados donde solo algunos puntos de datos tienen etiquetas) en modelos integrados. Las redes neuronales profundas y el aprendizaje de características son áreas de investigación que intentan construir modelos de datos sin etiquetar solos, y luego aplican información de las etiquetas a las partes interesantes de los modelos.