Weka - Guía rápida
La base de cualquier aplicación de aprendizaje automático son los datos, no solo unos pocos datos, sino una gran cantidad de datos que se denomina Big Data en la terminología actual.
Para entrenar a la máquina para analizar macrodatos, debe tener varias consideraciones sobre los datos:
- Los datos deben estar limpios.
- No debe contener valores nulos.
Además, no todas las columnas de la tabla de datos serían útiles para el tipo de análisis que está intentando lograr. Las columnas de datos irrelevantes o 'características' como se denominan en la terminología de aprendizaje automático, deben eliminarse antes de que los datos se introduzcan en un algoritmo de aprendizaje automático.
En resumen, su big data necesita mucho preprocesamiento antes de que pueda usarse para el aprendizaje automático. Una vez que los datos estén listos, aplicará varios algoritmos de aprendizaje automático, como clasificación, regresión, agrupamiento, etc., para resolver el problema al final.
El tipo de algoritmos que aplica se basa en gran medida en su conocimiento del dominio. Incluso dentro del mismo tipo, por ejemplo clasificación, hay varios algoritmos disponibles. Es posible que desee probar los diferentes algoritmos en la misma clase para crear un modelo de aprendizaje automático eficiente. Al hacerlo, preferiría la visualización de los datos procesados y, por lo tanto, también necesita herramientas de visualización.
En los próximos capítulos, aprenderá sobre Weka, un software que logra todo lo anterior con facilidad y le permite trabajar con big data cómodamente.
WEKA: un software de código abierto proporciona herramientas para el preprocesamiento de datos, la implementación de varios algoritmos de aprendizaje automático y herramientas de visualización para que pueda desarrollar técnicas de aprendizaje automático y aplicarlas a problemas de minería de datos del mundo real. Lo que ofrece WEKA se resume en el siguiente diagrama:
Si observa el comienzo del flujo de la imagen, comprenderá que hay muchas etapas en el manejo de Big Data para que sea adecuado para el aprendizaje automático:
Primero, comenzará con los datos sin procesar recopilados del campo. Estos datos pueden contener varios valores nulos y campos irrelevantes. Utiliza las herramientas de preprocesamiento de datos proporcionadas en WEKA para limpiar los datos.
Luego, guardaría los datos preprocesados en su almacenamiento local para aplicar algoritmos ML.
A continuación, según el tipo de modelo de AA que esté intentando desarrollar, seleccionaría una de las opciones, como Classify, Clustero Associate. losAttributes Selection permite la selección automática de características para crear un conjunto de datos reducido.
Tenga en cuenta que en cada categoría, WEKA proporciona la implementación de varios algoritmos. Debería seleccionar un algoritmo de su elección, establecer los parámetros deseados y ejecutarlo en el conjunto de datos.
Entonces, WEKA le daría la salida estadística del procesamiento del modelo. Le proporciona una herramienta de visualización para inspeccionar los datos.
Los distintos modelos se pueden aplicar en el mismo conjunto de datos. Luego puede comparar los resultados de diferentes modelos y seleccionar el mejor que se adapte a su propósito.
Por lo tanto, el uso de WEKA da como resultado un desarrollo más rápido de los modelos de aprendizaje automático en general.
Ahora que hemos visto qué es WEKA y qué hace, en el próximo capítulo aprendamos cómo instalar WEKA en su computadora local.
Para instalar WEKA en su máquina, visite el sitio web oficial de WEKA y descargue el archivo de instalación. WEKA admite la instalación en Windows, Mac OS X y Linux. Solo debe seguir las instrucciones de esta página para instalar WEKA en su sistema operativo.
Los pasos para instalar en Mac son los siguientes:
- Descarga el archivo de instalación de Mac.
- Haga doble clic en el descargado weka-3-8-3-corretto-jvm.dmg file.
Verá la siguiente pantalla cuando la instalación se haya realizado correctamente.
- Clickea en el weak-3-8-3-corretto-jvm icono para iniciar Weka.
- Opcionalmente, puede iniciarlo desde la línea de comando:
java -jar weka.jar
Se iniciará la aplicación WEKA GUI Chooser y verá la siguiente pantalla:
La aplicación GUI Chooser le permite ejecutar cinco tipos diferentes de aplicaciones que se enumeran aquí:
- Explorer
- Experimenter
- KnowledgeFlow
- Workbench
- CLI simple
Nosotros usaremos Explorer en este tutorial.
En este capítulo, veamos varias funcionalidades que proporciona el explorador para trabajar con big data.
Cuando haces clic en el Explorer botón en el Applications selector, abre la siguiente pantalla -
En la parte superior, verá varias pestañas como se enumeran aquí:
- Preprocess
- Classify
- Cluster
- Associate
- Seleccionar atributos
- Visualize
Debajo de estas pestañas, hay varios algoritmos de aprendizaje automático implementados previamente. Examinemos cada uno de ellos en detalle ahora.
Ficha de preproceso
Inicialmente, al abrir el explorador, solo el PreprocessLa pestaña está habilitada. El primer paso en el aprendizaje automático es preprocesar los datos. Así, en elPreprocess opción, seleccionará el archivo de datos, lo procesará y lo ajustará para aplicar los distintos algoritmos de aprendizaje automático.
Ficha Clasificar
los ClassifyLa pestaña le proporciona varios algoritmos de aprendizaje automático para la clasificación de sus datos. Para enumerar algunos, puede aplicar algoritmos como Regresión lineal, Regresión logística, Máquinas de vectores de soporte, Árboles de decisión, RandomTree, RandomForest, NaiveBayes, etc. La lista es muy exhaustiva y proporciona algoritmos de aprendizaje automático supervisados y no supervisados.
Ficha Clúster
Bajo la Cluster tab, se proporcionan varios algoritmos de agrupación en clústeres, como SimpleKMeans, FilteredClusterer, HierarchicalClusterer, etc.
Ficha Asociar
Bajo la Associate pestaña, encontrará Apriori, FilteredAssociator y FPGrowth.
Seleccionar pestaña de atributos
Select Attributes le permite seleccionar funciones basadas en varios algoritmos como ClassifierSubsetEval, PrinicipalComponents, etc.
Visualizar pestaña
Por último, el Visualize La opción le permite visualizar sus datos procesados para su análisis.
Como notó, WEKA proporciona varios algoritmos listos para usar para probar y construir sus aplicaciones de aprendizaje automático. Para utilizar WEKA de manera eficaz, debe tener un conocimiento sólido de estos algoritmos, cómo funcionan, cuál elegir en qué circunstancias, qué buscar en su salida procesada, etc. En resumen, debe tener una base sólida en aprendizaje automático para usar WEKA de manera efectiva en la creación de sus aplicaciones.
En los próximos capítulos, estudiará en profundidad cada pestaña del explorador.
En este capítulo, comenzamos con la primera pestaña que usa para preprocesar los datos. Esto es común a todos los algoritmos que aplicaría a sus datos para construir el modelo y es un paso común para todas las operaciones posteriores en WEKA.
Para que un algoritmo de aprendizaje automático brinde una precisión aceptable, es importante que primero debes limpiar tus datos. Esto se debe a que los datos sin procesar recopilados del campo pueden contener valores nulos, columnas irrelevantes, etc.
En este capítulo, aprenderá a preprocesar los datos sin procesar y a crear un conjunto de datos limpio y significativo para su uso posterior.
Primero, aprenderá a cargar el archivo de datos en el explorador WEKA. Los datos se pueden cargar desde las siguientes fuentes:
- Sistema de archivos local
- Web
- Database
En este capítulo, veremos las tres opciones de carga de datos en detalle.
Carga de datos desde el sistema de archivos local
Justo debajo de las pestañas de aprendizaje automático que estudió en la lección anterior, encontrará los siguientes tres botones:
- Abrir documento …
- Abrir URL…
- Abrir DB…
Clickea en el Open file... botón. Se abre una ventana del navegador de directorios como se muestra en la siguiente pantalla:
Ahora, navegue hasta la carpeta donde se almacenan sus archivos de datos. La instalación de WEKA ofrece muchas bases de datos de muestra para que experimente. Estos están disponibles en eldata carpeta de la instalación de WEKA.
Para fines de aprendizaje, seleccione cualquier archivo de datos de esta carpeta. El contenido del archivo se cargaría en el entorno WEKA. Muy pronto aprenderemos a inspeccionar y procesar estos datos cargados. Antes de eso, veamos cómo cargar el archivo de datos desde la Web.
Cargando datos desde la web
Una vez que haga clic en el Open URL … botón, puede ver una ventana de la siguiente manera:
Abriremos el archivo desde una URL pública Escriba la siguiente URL en el cuadro emergente -
https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/weather.nominal.arff
Puede especificar cualquier otra URL donde se almacenan sus datos. losExplorer cargará los datos del sitio remoto en su entorno.
Cargando datos desde la base de datos
Una vez que haga clic en el Open DB ... botón, puede ver una ventana de la siguiente manera:
Configure la cadena de conexión a su base de datos, configure la consulta para la selección de datos, procese la consulta y cargue los registros seleccionados en WEKA.
WEKA admite una gran cantidad de formatos de archivo para los datos. Aquí está la lista completa:
- arff
- arff.gz
- bsi
- csv
- dat
- data
- json
- json.gz
- libsvm
- m
- names
- xrff
- xrff.gz
Los tipos de archivos que admite se enumeran en el cuadro de lista desplegable en la parte inferior de la pantalla. Esto se muestra en la captura de pantalla que se muestra a continuación.
Como notará, admite varios formatos, incluidos CSV y JSON. El tipo de archivo predeterminado es Arff.
Formato Arff
Un Arff El archivo contiene dos secciones: encabezado y datos.
- El encabezado describe los tipos de atributos.
- La sección de datos contiene una lista de datos separados por comas.
Como ejemplo para el formato Arff, el Weather El archivo de datos cargado desde las bases de datos de muestra de WEKA se muestra a continuación:
De la captura de pantalla, puede inferir los siguientes puntos:
La etiqueta @relation define el nombre de la base de datos.
La etiqueta @attribute define los atributos.
La etiqueta @data inicia la lista de filas de datos, cada una de las cuales contiene campos separados por comas.
Los atributos pueden tomar valores nominales como en el caso de Outlook que se muestra aquí -
@attribute outlook (sunny, overcast, rainy)
Los atributos pueden tomar valores reales como en este caso:
@attribute temperature real
También puede establecer un objetivo o una variable de clase llamada juego como se muestra aquí:
@attribute play (yes, no)
El objetivo asume dos valores nominales sí o no.
Otros formatos
El Explorador puede cargar los datos en cualquiera de los formatos mencionados anteriormente. Como arff es el formato preferido en WEKA, puede cargar los datos desde cualquier formato y guardarlos en formato arff para su uso posterior. Después de preprocesar los datos, simplemente guárdelos en formato arff para su posterior análisis.
Ahora que ha aprendido a cargar datos en WEKA, en el próximo capítulo aprenderá a preprocesar los datos.
Los datos que se recopilan en el campo contienen muchas cosas no deseadas que conducen a un análisis incorrecto. Por ejemplo, los datos pueden contener campos nulos, pueden contener columnas que son irrelevantes para el análisis actual, etc. Por lo tanto, los datos deben procesarse previamente para cumplir con los requisitos del tipo de análisis que está buscando. Esto se hace en el módulo de preprocesamiento.
Para demostrar las funciones disponibles en el preprocesamiento, usaremos el Weather base de datos que se proporciona en la instalación.
Utilizando el Open file ... opción bajo la Preprocess etiqueta seleccione la weather-nominal.arff archivo.
Cuando abre el archivo, su pantalla se ve como se muestra aquí:
Esta pantalla nos dice varias cosas sobre los datos cargados, que se describen más adelante en este capítulo.
Entender los datos
Veamos primero el resaltado Current relationsubventana. Muestra el nombre de la base de datos que está cargada actualmente. Puede inferir dos puntos de esta subventana:
Hay 14 instancias: el número de filas de la tabla.
La tabla contiene 5 atributos: los campos, que se tratan en las próximas secciones.
En el lado izquierdo, observe el Attributes subventana que muestra los distintos campos de la base de datos.
los weatherLa base de datos contiene cinco campos: perspectiva, temperatura, humedad, viento y juego. Cuando selecciona un atributo de esta lista haciendo clic en él, se muestran más detalles sobre el atributo en el lado derecho.
Seleccionemos primero el atributo de temperatura. Al hacer clic en él, verá la siguiente pantalla:
En el Selected Attribute subventana, puede observar lo siguiente:
Se muestran el nombre y el tipo de atributo.
El tipo para el temperature atributo es Nominal.
El número de Missing los valores es cero.
Hay tres valores distintos sin un valor único.
La tabla debajo de esta información muestra los valores nominales para este campo como caliente, templado y frío.
También muestra el recuento y el peso en términos de un porcentaje para cada valor nominal.
En la parte inferior de la ventana, verá la representación visual del class valores.
Si hace clic en el Visualize All , podrá ver todas las funciones en una sola ventana como se muestra aquí -
Eliminar atributos
Muchas veces, los datos que desea utilizar para la construcción de modelos vienen con muchos campos irrelevantes. Por ejemplo, la base de datos del cliente puede contener su número de teléfono móvil que es relevante para analizar su calificación crediticia.
Para eliminar los atributos, selecciónelos y haga clic en el Remove botón en la parte inferior.
Los atributos seleccionados se eliminarán de la base de datos. Después de preprocesar por completo los datos, puede guardarlos para la creación de modelos.
A continuación, aprenderá a preprocesar los datos aplicando filtros a estos datos.
Aplicar filtros
Algunas de las técnicas de aprendizaje automático, como la minería de reglas de asociación, requieren datos categóricos. Para ilustrar el uso de filtros, usaremosweather-numeric.arff base de datos que contiene dos numeric atributos - temperature y humidity.
Los convertiremos a nominalaplicando un filtro en nuestros datos sin procesar. Clickea en elChoose botón en el Filter subventana y seleccione el siguiente filtro -
weka→filters→supervised→attribute→Discretize
Clickea en el Apply botón y examinar el temperature y / o humidityatributo. Notará que estos han cambiado de tipos numéricos a nominales.
Echemos un vistazo a otro filtro ahora. Suponga que desea seleccionar los mejores atributos para decidir elplay. Seleccione y aplique el siguiente filtro:
weka→filters→supervised→attribute→AttributeSelection
Notará que elimina los atributos de temperatura y humedad de la base de datos.
Una vez que esté satisfecho con el procesamiento previo de sus datos, guárdelos haciendo clic en el Save... botón. Utilizará este archivo guardado para la construcción de modelos.
En el próximo capítulo, exploraremos la construcción de modelos utilizando varios algoritmos ML predefinidos.
Muchas aplicaciones de aprendizaje automático están relacionadas con la clasificación. Por ejemplo, es posible que desee clasificar un tumor como maligno o benigno. Es posible que desee decidir si jugar un juego al aire libre dependiendo de las condiciones climáticas. Generalmente, esta decisión depende de varias características / condiciones del clima. Por lo tanto, es posible que prefiera usar un clasificador de árbol para tomar la decisión de jugar o no.
En este capítulo, aprenderemos cómo construir un clasificador de árbol de este tipo con datos meteorológicos para decidir las condiciones de juego.
Configuración de datos de prueba
Usaremos el archivo de datos meteorológicos preprocesados de la lección anterior. Abra el archivo guardado utilizando elOpen file ... opción bajo la Preprocess pestaña, haga clic en el Classify pestaña, y verá la siguiente pantalla:
Antes de conocer los clasificadores disponibles, examinemos las opciones de prueba. Notará cuatro opciones de prueba que se enumeran a continuación:
- Conjunto de entrenamiento
- Equipo de prueba suministrado
- Cross-validation
- División porcentual
A menos que tenga su propio conjunto de entrenamiento o un conjunto de prueba proporcionado por el cliente, usaría opciones de validación cruzada o división porcentual. En la validación cruzada, puede establecer el número de pliegues en los que se dividirán y utilizarán los datos completos durante cada iteración del entrenamiento. En la división porcentual, dividirá los datos entre entrenamiento y prueba utilizando el porcentaje de división establecido.
Ahora, mantenga el valor predeterminado play opción para la clase de salida -
A continuación, seleccionará el clasificador.
Seleccionar clasificador
Haga clic en el botón Elegir y seleccione el siguiente clasificador:
weka→classifiers>trees>J48
Esto se muestra en la captura de pantalla a continuación:
Clickea en el Startpara iniciar el proceso de clasificación. Después de un tiempo, los resultados de la clasificación se presentarán en su pantalla como se muestra aquí:
Examinemos la salida que se muestra en el lado derecho de la pantalla.
Dice que el tamaño del árbol es 6. Muy pronto verá la representación visual del árbol. En el Resumen, dice que las instancias clasificadas correctamente como 2 y las instancias clasificadas incorrectamente como 3. También dice que el Error absoluto relativo es 110%. También muestra la Matriz de confusión. Entrar en el análisis de estos resultados está más allá del alcance de este tutorial. Sin embargo, puede deducir fácilmente de estos resultados que la clasificación no es aceptable y necesitará más datos para el análisis, para refinar la selección de características, reconstruir el modelo, etc., hasta que esté satisfecho con la precisión del modelo. De todos modos, de eso se trata WEKA. Le permite probar sus ideas rápidamente.
Visualizar resultados
Para ver la representación visual de los resultados, haga clic derecho sobre el resultado en el Result listcaja. Varias opciones aparecerían en la pantalla como se muestra aquí:
Seleccione Visualize tree para obtener una representación visual del árbol transversal como se ve en la captura de pantalla a continuación:
Seleccionar Visualize classifier errors trazaría los resultados de la clasificación como se muestra aquí -
UN cross representa una instancia correctamente clasificada mientras squaresrepresenta instancias clasificadas incorrectamente. En la esquina inferior izquierda de la parcela se ve uncross eso indica si outlook hace sol entonces playel juego. Así que esta es una instancia correctamente clasificada. Para localizar instancias, puede introducir cierta inestabilidad deslizando eljitter barra deslizante.
La trama actual es outlook versus play. Estos están indicados por los dos cuadros de lista desplegable en la parte superior de la pantalla.
Ahora, pruebe con una selección diferente en cada uno de estos cuadros y observe cómo cambian los ejes X e Y. Lo mismo se puede lograr utilizando las franjas horizontales en el lado derecho del gráfico. Cada tira representa un atributo. El clic izquierdo en la tira establece el atributo seleccionado en el eje X, mientras que un clic derecho lo establece en el eje Y.
Hay varios otros gráficos proporcionados para su análisis más profundo. Úselos con prudencia para ajustar su modelo. Una de esas tramas deCost/Benefit analysis se muestra a continuación para su referencia rápida.
Explicar el análisis en estos gráficos está más allá del alcance de este tutorial. Se anima al lector a repasar sus conocimientos de análisis de algoritmos de aprendizaje automático.
En el próximo capítulo, aprenderemos el siguiente conjunto de algoritmos de aprendizaje automático, es decir, la agrupación.
Un algoritmo de agrupación en clústeres busca grupos de instancias similares en todo el conjunto de datos. WEKA admite varios algoritmos de agrupación en clústeres, como EM, FilteredClusterer, HierarchicalClusterer, SimpleKMeans, etc. Debe comprender estos algoritmos completamente para aprovechar al máximo las capacidades de WEKA.
Como en el caso de la clasificación, WEKA permite visualizar gráficamente los clusters detectados. Para demostrar la agrupación, utilizaremos la base de datos de iris proporcionada. El conjunto de datos contiene tres clases de 50 instancias cada una. Cada clase se refiere a un tipo de planta de iris.
Cargando datos
En el explorador WEKA seleccione el Preprocesslengüeta. Clickea en elOpen file ... opción y seleccione la iris.arffarchivo en el cuadro de diálogo de selección de archivos. Cuando carga los datos, la pantalla se ve como se muestra a continuación:
Puede observar que hay 150 instancias y 5 atributos. Los nombres de los atributos se enumeran comosepallength, sepalwidth, petallength, petalwidth y class. Los primeros cuatro atributos son de tipo numérico, mientras que la clase es de tipo nominal con 3 valores distintos. Examine cada atributo para comprender las características de la base de datos. No realizaremos ningún procesamiento previo de estos datos y procederemos inmediatamente a la construcción del modelo.
Clustering
Clickea en el ClusterTAB para aplicar los algoritmos de agrupación en clústeres a nuestros datos cargados. Clickea en elChoosebotón. Verá la siguiente pantalla:
Ahora, seleccione EMcomo el algoritmo de agrupamiento. En elCluster mode subventana, seleccione el Classes to clusters evaluation opción como se muestra en la captura de pantalla a continuación -
Clickea en el Startbotón para procesar los datos. Después de un tiempo, los resultados se presentarán en la pantalla.
A continuación, estudiemos los resultados.
Examinar la salida
La salida del procesamiento de datos se muestra en la siguiente pantalla:
Desde la pantalla de salida, puede observar que:
Hay 5 instancias agrupadas detectadas en la base de datos.
los Cluster 0 representa setosa, Cluster 1 representa virginica, Cluster 2 representa versicolor, mientras que los dos últimos grupos no tienen ninguna clase asociada.
Si se desplaza hacia arriba en la ventana de salida, también verá algunas estadísticas que brindan la media y la desviación estándar para cada uno de los atributos en los diversos grupos detectados. Esto se muestra en la captura de pantalla que se muestra a continuación:
A continuación, veremos la representación visual de los clústeres.
Visualización de clústeres
Para visualizar los clusters, haga clic derecho en el EM resultado en el Result list. Verá las siguientes opciones:
Seleccione Visualize cluster assignments. Verá la siguiente salida:
Como en el caso de la clasificación, notará la distinción entre las instancias identificadas correcta e incorrectamente. Puede jugar cambiando los ejes X e Y para analizar los resultados. Puede utilizar jittering como en el caso de la clasificación para averiguar la concentración de instancias correctamente identificadas. Las operaciones en la gráfica de visualización son similares a la que estudió en el caso de la clasificación.
Aplicar Clusterer jerárquico
Para demostrar el poder de WEKA, veamos ahora una aplicación de otro algoritmo de agrupamiento. En el explorador WEKA, seleccione elHierarchicalClusterer como su algoritmo ML como se muestra en la captura de pantalla que se muestra a continuación:
Elegir el Cluster mode selección a Classes to cluster evaluationy haga clic en el Startbotón. Verá la siguiente salida:
Note que en el Result list, hay dos resultados enumerados: el primero es el resultado EM y el segundo es el jerárquico actual. Asimismo, puede aplicar varios algoritmos ML al mismo conjunto de datos y comparar rápidamente sus resultados.
Si examina el árbol producido por este algoritmo, verá el siguiente resultado:
En el próximo capítulo, estudiará el Associate tipo de algoritmos ML.
Se observó que las personas que compran cerveza también compran pañales al mismo tiempo. Es decir, existe una asociación en la compra conjunta de cerveza y pañales. Aunque esto no parece muy convincente, esta regla de asociación se extrajo de enormes bases de datos de supermercados. De manera similar, se puede encontrar una asociación entre la mantequilla de maní y el pan.
Encontrar tales asociaciones se vuelve vital para los supermercados, ya que almacenarían pañales junto a cervezas para que los clientes puedan ubicar ambos artículos fácilmente, lo que resultará en una mayor venta para el supermercado.
los AprioriEl algoritmo es uno de esos algoritmos en ML que descubre las asociaciones probables y crea reglas de asociación. WEKA proporciona la implementación del algoritmo Apriori. Puede definir el soporte mínimo y un nivel de confianza aceptable al calcular estas reglas. Aplicarás elApriori algoritmo al supermarket datos proporcionados en la instalación de WEKA.
Cargando datos
En el explorador WEKA, abra el Preprocess pestaña, haga clic en el Open file ... y seleccione supermarket.arffbase de datos de la carpeta de instalación. Una vez cargados los datos, verá la siguiente pantalla:
La base de datos contiene 4627 instancias y 217 atributos. Puede comprender fácilmente lo difícil que sería detectar la asociación entre una cantidad tan grande de atributos. Afortunadamente, esta tarea se automatiza con la ayuda del algoritmo Apriori.
Asociador
Clickea en el Associate TAB y haga clic en el Choosebotón. Selecciona elApriori asociación como se muestra en la captura de pantalla -
Para configurar los parámetros para el algoritmo Apriori, haga clic en su nombre, aparecerá una ventana como se muestra a continuación que le permite configurar los parámetros:
Después de configurar los parámetros, haga clic en el Startbotón. Después de un tiempo, verá los resultados como se muestra en la captura de pantalla a continuación:
En la parte inferior, encontrará las mejores reglas de asociación detectadas. Esto ayudará al supermercado a almacenar sus productos en los estantes adecuados.
Cuando una base de datos contiene una gran cantidad de atributos, habrá varios atributos que no se vuelven significativos en el análisis que está buscando actualmente. Por lo tanto, eliminar los atributos no deseados del conjunto de datos se convierte en una tarea importante en el desarrollo de un buen modelo de aprendizaje automático.
Puede examinar todo el conjunto de datos visualmente y decidir los atributos irrelevantes. Esta podría ser una tarea enorme para las bases de datos que contienen una gran cantidad de atributos, como el caso del supermercado que vio en una lección anterior. Afortunadamente, WEKA proporciona una herramienta automatizada para la selección de funciones.
Este capítulo demuestra esta función en una base de datos que contiene una gran cantidad de atributos.
Cargando datos
En el Preprocess etiqueta del explorador WEKA, seleccione la labor.arffarchivo para cargar en el sistema. Cuando cargue los datos, verá la siguiente pantalla:
Observe que hay 17 atributos. Nuestra tarea es crear un conjunto de datos reducido eliminando algunos de los atributos que son irrelevantes para nuestro análisis.
Extracción de características
Clickea en el Select attributesTAB. Verá la siguiente pantalla:
Bajo la Attribute Evaluator y Search Method, encontrará varias opciones. Solo usaremos los valores predeterminados aquí. En elAttribute Selection Mode, use la opción de conjunto de entrenamiento completo.
Haga clic en el botón Inicio para procesar el conjunto de datos. Verá la siguiente salida:
En la parte inferior de la ventana de resultados, obtendrá la lista de Selectedatributos. Para obtener la representación visual, haga clic derecho en el resultado en elResult lista.
La salida se muestra en la siguiente captura de pantalla:
Al hacer clic en cualquiera de los cuadrados, obtendrá la gráfica de datos para su análisis posterior. A continuación se muestra un gráfico de datos típico:
Esto es similar a los que hemos visto en los capítulos anteriores. Juega con las diferentes opciones disponibles para analizar los resultados.
¿Que sigue?
Hasta ahora, ha visto el poder de WEKA para desarrollar rápidamente modelos de aprendizaje automático. Lo que usamos es una herramienta gráfica llamadaExplorerpara desarrollar estos modelos. WEKA también proporciona una interfaz de línea de comandos que le brinda más potencia que la proporcionada en el explorador.
Haciendo clic en el Simple CLI botón en el GUI Chooser La aplicación inicia esta interfaz de línea de comandos que se muestra en la captura de pantalla a continuación:
Escriba sus comandos en el cuadro de entrada en la parte inferior. Podrás hacer todo lo que has hecho hasta ahora en el explorador y mucho más. Consulte la documentación de WEKA (https://www.cs.waikato.ac.nz/ml/weka/documentation.html) para obtener más detalles.
Por último, WEKA está desarrollado en Java y proporciona una interfaz a su API. Entonces, si usted es un desarrollador de Java y desea incluir implementaciones de WEKA ML en sus propios proyectos de Java, puede hacerlo fácilmente.
Conclusión
WEKA es una poderosa herramienta para desarrollar modelos de aprendizaje automático. Proporciona la implementación de varios de los algoritmos ML más utilizados. Antes de que estos algoritmos se apliquen a su conjunto de datos, también le permite preprocesar los datos. Los tipos de algoritmos admitidos se clasifican en los atributos Clasificar, Agrupar, Asociar y Seleccionar. El resultado en varias etapas de procesamiento se puede visualizar con una representación visual hermosa y poderosa. Esto facilita que un científico de datos aplique rápidamente las diversas técnicas de aprendizaje automático en su conjunto de datos, compare los resultados y cree el mejor modelo para el uso final.