machine learning - Set de entrenamiento de filtro de spam públicamente disponible

machine-learning spam-prevention (6)

Claro, hay Spambase , que hasta donde yo sé, es el conjunto de datos de spam más ampliamente citado en la literatura de aprendizaje automático.

He usado este conjunto de datos muchas veces; cada vez que estoy impresionado cuánto esfuerzo se ha puesto en el formato y la documentación de este conjunto de datos.

Algunas características del conjunto Spambase:

4601 puntos de datos, todos completos
cada uno compuesto de 58 características (atributos)
cada punto de datos está etiquetado como ''spam'' o ''no spam''
aprox. 40% son etiquetados como spam
de las características, todas son continuas (frente a discretas)
una característica representativa: secuencia continua promedio de letras mayúsculas

Spambase está archivado en el Repositorio de Aprendizaje Automático UCI ; Además, también está disponible en el Spambase para el excelente tratado de computación ML / Statistical, Elements of Statistical Learning por Hastie et al.

Soy nuevo en el aprendizaje automático, y para mi primer proyecto me gustaría escribir un ingenuo filtro de spam de Bayes. Me preguntaba si hay juegos de capacitación públicamente disponibles de correos electrónicos no deseados etiquetados como spam o no, preferiblemente en texto plano y no como un volcado de una base de datos relacional (a menos que impriman bien esos).

Sé que existe una base de datos disponible públicamente para otros tipos de clasificación de texto, específicamente texto de artículos de noticias. Simplemente no he podido encontrar el mismo tipo de cosas para los correos electrónicos.

Esto es lo que estaba buscando: http://untroubled.org/spam/

Este archivo tiene alrededor de un gigabyte de mensajes de correo no deseado acumulados comprimidos que datan de 1998 a 2011. Ahora solo necesito recibir correos electrónicos no spam. Así que solo consultaré mi propio Gmail para eso usando el programa getmail y el tutorial en mattcutts.com

Podría considerar echar un vistazo al corpus de spam / jamón de TREC (que creo que es el conjunto de correos electrónicos de Enron que se hizo público a partir del caso judicial). TREC generalmente ejecuta una serie de tareas de procesamiento de texto competitivo, por lo que podría darle algunas referencias para la comparación.

La desventaja es que están almacenados en formato raw mbox, aunque hay analizadores disponibles en muchos idiomas (Apache Tika es un buen ejemplo).

La página web no es TREC, pero parece ser una buena visión general de la tarea con enlaces a los datos: http://plg.uwaterloo.ca/~gvcormac/spam/

Se puede encontrar un conjunto de entrenamiento de spam más moderno en kaggle . Además, puede probar la precisión de su clasificador en su sitio web cargando sus resultados.

SpamAssassin tiene un corpus público de mensajes no deseados y no deseados, aunque no se ha actualizado en unos pocos años. Lea el archivo readme.html para saber qué hay allí.

También tengo una respuesta, here puede encontrar una base de datos bayesiana renovada diariamente para la capacitación inicial y también un archivo creado diariamente que contiene spams capturados. Encontrará las instrucciones sobre cómo usarlo en el sitio.