tutorial traduccion source online español curso aprender open-source data-mining

open-source - traduccion - solidity tutorial español pdf



Herramientas de código abierto de minería de datos (20)

Debo tomar un proyecto que está en la minería de datos. Antes de saltar, quería probar diferentes herramientas de minería de datos (preferiblemente de código abierto) que permiten informes basados ​​en la web. En mi caso, los datos me serían proporcionados, así que no debo rastrearlos.

En pocas palabras, estoy buscando una herramienta que lo haga: análisis de datos, informes basados ​​en web, proporciona algún tipo de panel y características de minería de datos.

He trabajado en Microsoft Analysis Services y BOXI y, hasta tarde, he estado buscando en Pentaho, lo que parece ser una buena opción.

Por favor, comparta sus experiencias en cualquier herramienta que usted conozca.

aclamaciones


Creo que KNIME merece unirse a esta lista también.


Creo que RapidMiner es una excelente herramienta que debería agregarse a esta lista.



Eche un vistazo a la lista de software de código abierto para aprendizaje automático mantenido por JMLR. Lo puedes encontrar aquí:

http://mloss.org/software/

http://jmlr.csail.mit.edu/mloss/

¡Representan el estado del arte!

Mi problema con Weka es que varios algoritmos están desactualizados.



Junto con las herramientas, sugeriría encarecidamente aprender Python y R. Estos idiomas ayudan mucho durante el análisis. Además, los conjuntos de datos grandes pueden ser ''analizados a medida''. También puede crear su propio panel de control personalizado utilizando Javascript (consulte las numerosas bibliotecas de gráficos y visualización )


KEEL ( http://keel.es ) está escrito en Java y es bueno para usar la computación evolutiva para la minería de datos.


Probaría con las nuevas herramientas de google.

Primero debe obtener el ID de API para el almacenamiento de Google, que es donde almacenará y manipulará los datos que analizará.

-Entonces necesita obtener el id de la API para google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html), lo que, por lo que vi, es una fantástica información subcontratada. procesador minero La API de Predicción le permite obtener más de sus datos y hace que sus patrones sean más accesibles. Además de usar datos numéricos y nominales tradicionales, también puede usar datos de texto que, gracias a esta API, pueden utilizarse para examinar los correos electrónicos por categorías.

-Finalmente puede usar bigQuery que le permitirá realizar análisis Ad-hoc, informes estandarizados, creación de prototipos de la aplicación de exploración de datos (http://code.google.com/apis/bigquery/)


Puede comprobar mi software, el marco de minería de datos SPMF .

Es un software de código abierto de Java que ofrece más de 70 algoritmos para:

  • minería de elementos frecuentes,
  • asociación de la minería de la regla,
  • minería de patrones secuenciales
  • minería secuencial de reglas.
  • y más..



También deberías visitar Apache Mahout . Puede ser bastante útil para algunas tareas de aprendizaje automático a gran escala, como la agrupación de usuarios.



Weka es fuerte para la clasificación y el aprendizaje automático. Para muchos, esto se considera más parte de la inteligencia artificial que de la minería de datos real. RapidMiner es en gran parte en la misma línea, pero con una interfaz de usuario mucho más agradable. Pentaho es el soporte profesional para Weka AFAICT.

Es posible que desee echar un vistazo a ELKI, http://elki.dbs.ifi.lmu.de/ , que es un proyecto comparable que se centra en los algoritmos de agrupamiento y detecciones de valores atípicos, otras dos tareas clave de la extracción de datos.


Weka es genial, pero quizás quieras probar el kit de herramientas Orange Data Mining.

http://www.ailab.si/orange/

Edit: Y a partir de noviembre de 2010, debo decir que realmente me gusta KNIME .


Yo mismo soy un pitón y tengo que decir:

¡Sí! Todo eso se puede hacer en Python.

La última vez que jugué con Beautiful Soup [0]. Es un módulo realmente simple de usar que te permite capturar / extraer datos de html y xml (excelente para ''raspado de pantalla'').

Si no sabes python, ... bueno, es muy fácil de aprender.

[0] http://www.crummy.com/software/BeautifulSoup/


Pentaho es una solución muy profesional. Definitivamente una muy buena elección.



RapidMiner es mi herramienta de minería de datos preferida.


WEKA (Ya mencionado), Orange (http://orange.biolab.si/), Tanagra (http://data-mining-tutorials.blogspot.com) puedes encontrar buenos tutoriales allí.

Son muy buenas herramientas para la minería de datos.