óptimo probabilidad naïve naive modelo ingenuo definicion classifier clasificador bayesiana bayes artificial-intelligence email-spam bayesian

artificial intelligence - probabilidad - Bayesiano filtrado de spam



probabilidad bayesiana (6)

Me preguntaba si hay alguna implementación buena y limpia para el filtro bayesiano de spam y clasificación de texto. Esto es solo para propósitos de aprendizaje.





Definitivamente recomiendo Weka, que es un software Open Source Data Mining escrito en Java:

Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. Los algoritmos se pueden aplicar directamente a un conjunto de datos o llamar desde su propio código Java. Weka contiene herramientas para el preprocesamiento de datos, clasificación, regresión, clustering, reglas de asociación y visualización. También es adecuado para desarrollar nuevos esquemas de aprendizaje automático.

Como se mencionó anteriormente, viene con un grupo de diferentes clasificadores como SVM , Winnow , C4.5 , Naive Bayes (por supuesto) y muchos más (ver el documento API ). Tenga en cuenta que muchos clasificadores son conocidos por tener un rendimiento mucho mejor que Naive Bayes en el campo de la detección de spam o la clasificación de texto.

Además Weka te trae una GUI muy poderosa ...


nBayes : otra implementación de C # alojada en CodePlex