Minería de datos: clasificación bayesiana

La clasificación bayesiana se basa en el teorema de Bayes. Los clasificadores bayesianos son los clasificadores estadísticos. Los clasificadores bayesianos pueden predecir las probabilidades de pertenencia a una clase, como la probabilidad de que una tupla determinada pertenezca a una clase en particular.

Teorema de Bayes

El teorema de Bayes lleva el nombre de Thomas Bayes. Hay dos tipos de probabilidades:

  • Probabilidad posterior [P (H / X)]
  • Probabilidad previa [P (H)]

donde X es la tupla de datos y H es alguna hipótesis.

Según el teorema de Bayes,

P (H / X) = P (X / H) P (H) / P (X)

Red de creencias bayesianas

Las redes de creencias bayesianas especifican distribuciones de probabilidad condicionales conjuntas. También se conocen como redes de creencias, redes bayesianas o redes probabilísticas.

  • Una red de creencias permite que se definan las clases independientes condicionales entre subconjuntos de variables.

  • Proporciona un modelo gráfico de relación causal sobre el que se puede realizar el aprendizaje.

  • Podemos utilizar una Red Bayesiana entrenada para la clasificación.

Hay dos componentes que definen una red de creencias bayesianas:

  • Gráfico Acíclico Dirigido
  • Un conjunto de tablas de probabilidad condicional

Gráfico Acíclico Dirigido

  • Cada nodo en un gráfico acíclico dirigido representa una variable aleatoria.
  • Estas variables pueden tener un valor discreto o continuo.
  • Estas variables pueden corresponder al atributo real dado en los datos.

Representación gráfica acíclica dirigida

El siguiente diagrama muestra un gráfico acíclico dirigido para seis variables booleanas.

El arco en el diagrama permite la representación del conocimiento causal. Por ejemplo, el cáncer de pulmón está influenciado por los antecedentes familiares de cáncer de pulmón de una persona, así como por si la persona es fumadora o no. Cabe señalar que la variable PositiveXray es independiente de si el paciente tiene antecedentes familiares de cáncer de pulmón o si el paciente es fumador, dado que sabemos que el paciente tiene cáncer de pulmón.

Tabla de probabilidad condicional

La tabla de probabilidad condicional para los valores de la variable LungCancer (LC) que muestra cada combinación posible de los valores de sus nodos principales, FamilyHistory (FH) y Smoker (S) es la siguiente: