machine-learning - learning - aprendizaje automatico

¿Cuáles son algunos buenos ejercicios de programación de aprendizaje automático? (3)

Idealmente, tendrían las siguientes características:

Se pueden completar en solo una noche de codificación. No requerirá una semana o más para obtener resultados interesantes. De esa manera, puedo sentir que he aprendido y logrado algo en solo una sesión (posiblemente de varias horas).
Los problemas son del mundo real, o al menos son versiones de juguete de problemas del mundo real.
Si el problema requiere datos para probar la solución, hay conjuntos de datos del mundo real fácilmente disponibles, o es trivial generar datos de prueba interesantes por mi cuenta.
Es fácil evaluar cuán bueno soy el trabajo que he hecho. Cuando pruebo mi solución, quedará claro a partir de los resultados que he logrado algo no trivial, ya sea por simple inspección o por una medida cuantificable de la calidad de los resultados.

Implementa los siguientes algoritmos:

Perceptrón, perceptrón de margen: puede intentar detectar imágenes de rostros (clasificar imágenes de rostros y rostros) utilizando cualquier base de datos de rostros. Pruebe, por ejemplo, la base de datos MIT CBCL face . También puede probar los datos de MNIST y escribir el sistema de OCR de un hombre pobre.
LVQ, mapa de Kohonen: puedes intentar comprimir imágenes. Puede descargar imágenes grandes desde cualquier sitio de fondo de pantalla.
Clasificador de Bayes Naive: puedes clasificar spam y no spam. También hay más conjuntos de datos científicos, como Reuters y Newsgroups, etc. que debe determinar el tema, dado el artículo.
Backpropagation, perceptrón de múltiples capas: puede probar esto con las caras, o con el correo no deseado, o con los datos de texto / histograma .
Aprendizaje lineal SVM original utilizando SGD: puede probar esto con dígitos MNIST , por ejemplo.

Hay muchos proyectos, algunos de ellos duran un par de horas, otros un par de días, pero definitivamente aprenderán mucho.

La mayoría de los proyectos de aprendizaje automático pueden tomar algún tiempo.

¿Qué pasa con la clasificación bayesiana del texto?

Una muestra en el NLTK Toolkit (kit de herramientas de lenguaje natural para Python) son reseñas de películas. El conjunto de herramientas presenta reseñas de películas etiquetadas como positivas o negativas.

Escribe un clasificador bayesiano que pueda clasificar las reseñas de películas, utilizando estos datos para el entrenamiento.

Verifique el repositorio de aprendizaje automático de UCI para obtener conjuntos de datos reales.

The Breast Cancer Wisconsin (Diagnostic) Data Set por ejemplo. Verifique la descripción del conjunto de datos para obtener más información al respecto.

Incluso el clasificador Naive Bayes dará excelentes resultados en este conjunto de datos (más del 95% de precisión validada cruzada). Con alguna selección de variables, puedes llegar al 100%, si mal no recuerdo.