Weka - Selección de funciones

Cuando una base de datos contiene una gran cantidad de atributos, habrá varios atributos que no se vuelven significativos en el análisis que está buscando actualmente. Por lo tanto, eliminar los atributos no deseados del conjunto de datos se convierte en una tarea importante en el desarrollo de un buen modelo de aprendizaje automático.

Puede examinar todo el conjunto de datos visualmente y decidir los atributos irrelevantes. Esta podría ser una tarea enorme para las bases de datos que contienen una gran cantidad de atributos, como el caso del supermercado que vio en una lección anterior. Afortunadamente, WEKA proporciona una herramienta automatizada para la selección de funciones.

Este capítulo demuestra esta función en una base de datos que contiene una gran cantidad de atributos.

Cargando datos

En el Preprocess etiqueta del explorador WEKA, seleccione la labor.arffarchivo para cargar en el sistema. Cuando cargue los datos, verá la siguiente pantalla:

Observe que hay 17 atributos. Nuestra tarea es crear un conjunto de datos reducido eliminando algunos de los atributos que son irrelevantes para nuestro análisis.

Extracción de características

Clickea en el Select attributesTAB. Verá la siguiente pantalla:

Bajo la Attribute Evaluator y Search Method, encontrará varias opciones. Solo usaremos los valores predeterminados aquí. En elAttribute Selection Mode, use la opción de conjunto de entrenamiento completo.

Haga clic en el botón Inicio para procesar el conjunto de datos. Verá la siguiente salida:

En la parte inferior de la ventana de resultados, obtendrá la lista de Selectedatributos. Para obtener la representación visual, haga clic derecho en el resultado en elResult lista.

La salida se muestra en la siguiente captura de pantalla:

Al hacer clic en cualquiera de los cuadrados, obtendrá la gráfica de datos para su análisis posterior. A continuación se muestra un gráfico de datos típico:

Esto es similar a los que hemos visto en los capítulos anteriores. Juega con las diferentes opciones disponibles para analizar los resultados.

¿Que sigue?

Hasta ahora, ha visto el poder de WEKA para desarrollar rápidamente modelos de aprendizaje automático. Lo que usamos es una herramienta gráfica llamadaExplorerpara desarrollar estos modelos. WEKA también proporciona una interfaz de línea de comandos que le brinda más potencia que la proporcionada en el explorador.

Haciendo clic en el Simple CLI botón en el GUI Chooser La aplicación inicia esta interfaz de línea de comandos que se muestra en la captura de pantalla a continuación:

Escriba sus comandos en el cuadro de entrada en la parte inferior. Podrás hacer todo lo que has hecho hasta ahora en el explorador y mucho más. Consulte la documentación de WEKA (https://www.cs.waikato.ac.nz/ml/weka/documentation.html) para obtener más detalles.

Por último, WEKA está desarrollado en Java y proporciona una interfaz a su API. Entonces, si usted es un desarrollador de Java y desea incluir implementaciones de WEKA ML en sus propios proyectos de Java, puede hacerlo fácilmente.

Conclusión

WEKA es una poderosa herramienta para desarrollar modelos de aprendizaje automático. Proporciona la implementación de varios de los algoritmos ML más utilizados. Antes de que estos algoritmos se apliquen a su conjunto de datos, también le permite preprocesar los datos. Los tipos de algoritmos admitidos se clasifican en los atributos Clasificar, Agrupar, Asociar y Seleccionar. El resultado en varias etapas de procesamiento se puede visualizar con una representación visual hermosa y poderosa. Esto facilita que un científico de datos aplique rápidamente las diversas técnicas de aprendizaje automático en su conjunto de datos, compare los resultados y cree el mejor modelo para el uso final.