tutorial means gui español chooser classification weka

classification - means - ¿Cómo interpretar la clasificación weka?



weka sourceforge (4)

¿Cómo podemos interpretar el resultado de la clasificación en weka usando naive bayes?

¿Cómo se calcula la media, la desviación estándar, la suma de pesos y la precisión?

¿Cómo se calcula la estadística kappa, error absoluto medio, error cuadrático medio, etc.?

¿Cuál es la interpretación de la matriz de confusión?


¿Qué es Naive Bayes?

Esta explanation podría ayudar a aclarar lo que significa Naive Bayes; asume la independencia de las variables. Para hacer esto concreto, digamos que queremos predecir si alguien ha caminado por Prospect Park en Brooklyn. Tenemos datos sobre si

a) vive en la ciudad de Nueva York

b) vive en una ciudad

Naive Bayes asumiría que esas dos variables son independientes. Pero claramente, si viven en Nueva York, también viven en una ciudad. Este es un ejemplo estúpido porque (con suerte) nadie usaría la ciencia de datos con estas variables, pero muestra lo que significa la independencia. Si a, entonces b. Además, si no es b, entonces no a.

Hay dependencia, por lo que la suposición ingenua de Naive Bayes no se sostiene.

Weka Tutorial

Esta página puede ser útil para los novatos. Me está ayudando mucho; camina a través

No estoy afiliado con Jason Brownlee. Parece una especie de vendedor, pero el beneficio de eso es que lo mantiene simple ya que apunta a principiantes


A continuación se muestra un ejemplo de salida para un clasificador de Bayes ingenuo, utilizando una validación cruzada de 10 veces. Hay mucha información allí, y lo que debe enfocarse depende de su aplicación. Explicaré algunos de los resultados a continuación para que comiences.

=== Stratified cross-validation === === Summary === Correctly Classified Instances 71 71 % Incorrectly Classified Instances 29 29 % Kappa statistic 0.3108 Mean absolute error 0.3333 Root mean squared error 0.4662 Relative absolute error 69.9453 % Root relative squared error 95.5466 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.967 0.692 0.686 0.967 0.803 0.709 0 0.308 0.033 0.857 0.308 0.453 0.708 1 Weighted Avg. 0.71 0.435 0.753 0.71 0.666 0.709 === Confusion Matrix === a b <-- classified as 59 2 | a = 0 27 12 | b = 1

Las instancias clasificadas correcta e incorrectamente muestran el porcentaje de instancias de prueba que se clasificaron correcta e incorrectamente. Los números brutos se muestran en la matriz de confusión, con a y b representando las etiquetas de clase. Aquí hubo 100 instancias, por lo que los porcentajes y los números en bruto se suman, aa + bb = 59 + 12 = 71, ab + ba = 27 + 2 = 29.

El porcentaje de instancias correctamente clasificadas a menudo se denomina exactitud o exactitud de muestra. Tiene algunas desventajas como estimación de rendimiento (no corregida por casualidad, no es sensible a la distribución de clases), por lo que es probable que desee ver algunos de los otros números. El área ROC, o el área bajo la curva ROC, es mi medida preferida.

Kappa es una medida de acuerdo corregida por casualidad entre las clasificaciones y las clases verdaderas. Se calcula tomando el acuerdo esperado por casualidad fuera del acuerdo observado y dividiéndolo por el máximo acuerdo posible. Un valor mayor que 0 significa que su clasificador lo está haciendo mejor que el azar (¡realmente debería serlo!).

Las tasas de error se utilizan para la predicción numérica en lugar de la clasificación. En la predicción numérica, las predicciones no son correctas o incorrectas, el error tiene una magnitud, y estas medidas reflejan eso.

Espero que eso te ayude a empezar.


Está dando cada valor de "50050000" para algunos algoritmos, mientras que para otros clasificadores estos valores son alrededor de 49.7, 87.4, 98.2, y así sucesivamente.


Para elaborar en la respuesta de michaeltwofish, algunas notas sobre los valores restantes:

  • Tasa de TP : tasa de verdaderos positivos (instancias clasificadas correctamente como una clase dada)

  • Tasa FP : tasa de falsos positivos (casos falsamente clasificados como una clase determinada)

  • Precisión : proporción de instancias que son verdaderamente de una clase dividida por el total de instancias clasificadas como esa clase

  • Recordar : proporción de instancias clasificadas como una clase dada dividida por el total real en esa clase (equivalente a la tasa TP)

  • F-Measure : una medida combinada de precisión y recuperación calculada como 2 * Precision * Recall / (Precision + Recall)

En cuanto a la medición del área ROC, estoy de acuerdo con michaeltwofish en que este es uno de los valores más importantes que Weka arroja. Un clasificador "óptimo" tendrá valores de área ROC aproximándose a 1, siendo 0.5 comparable a "adivinación aleatoria" (similar a una estadística Kappa de 0).

Cabe señalar que el "equilibrio" del conjunto de datos debe tenerse en cuenta al interpretar los resultados. Los conjuntos de datos desequilibrados en los que una cantidad desproporcionadamente grande de instancias pertenecen a una determinada clase pueden generar altas tasas de precisión, aunque el clasificador no necesariamente sea particularmente bueno.

Otras lecturas: