artificial intelligence - probabilidad - Bayesiano filtrado de spam
probabilidad bayesiana (6)
Me preguntaba si hay alguna implementación buena y limpia para el filtro bayesiano de spam y clasificación de texto. Esto es solo para propósitos de aprendizaje.
Aquí hay una implementación del filtrado bayesiano en C #: un filtro de spam naïve bayesiano para C # (alojado en CodeProject).
En francés, pero debería poder encontrar el enlace de descarga :) PHP Naive Bayesian Filter
Consulte el Capítulo 6 de Programación de Inteligencia Colectiva
Definitivamente recomiendo Weka, que es un software Open Source Data Mining escrito en Java:
Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. Los algoritmos se pueden aplicar directamente a un conjunto de datos o llamar desde su propio código Java. Weka contiene herramientas para el preprocesamiento de datos, clasificación, regresión, clustering, reglas de asociación y visualización. También es adecuado para desarrollar nuevos esquemas de aprendizaje automático.
Como se mencionó anteriormente, viene con un grupo de diferentes clasificadores como SVM , Winnow , C4.5 , Naive Bayes (por supuesto) y muchos más (ver el documento API ). Tenga en cuenta que muchos clasificadores son conocidos por tener un rendimiento mucho mejor que Naive Bayes en el campo de la detección de spam o la clasificación de texto.
nBayes : otra implementación de C # alojada en CodePlex
Tal vez https://ci-bayes.dev.java.net/ o http://www.cs.cmu.edu/~javabayes/Home/node2.html ?
Yo tampoco jugué con eso.