hadoop - libro - HBase & Mahout-Uso de HBase como almacén de datos/fuente para Mahout-Clasificación
hdfs (1)
No es directamente posible, no. Puedes revivir esta vieja implementación, desempolvarla y probablemente hacer que funcione sin muchos problemas. Fue eliminado para adelgazar y enfocar el proyecto.
Por supuesto, también puede ver exportar sus datos, de alguna forma, y agregarlos a una representación o tienda que sea directamente compatible.
En general, puede usar HBase con Mahout en virtud del hecho de que Mahout usa Hadoop (principalmente) y Hadoop puede usar HBase. Esa no es la situación aquí; aquí hay un punto de integración más directo, que ha quedado obsoleto.
Estoy trabajando en un gran proyecto de clasificación de texto y tenemos nuestros datos de texto (mensajes simples) almacenados en HBase.
Tenemos dos problemas, primero nos gustaría utilizar HBase como fuente para los clasificadores de Mahout, es decir, Bayers y Random Forests.
Segundo, nos gustaría poder almacenar el modelo generado en HBase en lugar de utilizar el enfoque en memoria (InMemoryBayesDatastore), sin embargo, a medida que crecen nuestros conjuntos, nos encontramos con problemas con la utilización de la memoria y deseamos probar HBase como una alternativa viable.
Parece que hay poco material flotando alrededor de HBase con Mahout y si es posible usarlo como fuente de datos potencial. Estoy usando Mahout 0.6 core API en Java que tiene el almacén de datos InMemory.
Haciendo un poco de excavación, creo que hubo (fue) un componente del Datastore de HBase Bayers - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
Vea JavaDoc anterior aquí: http://www.jarvana.com/jarvana/view/ org / apache / mahout / mahout-core / 0.3 / mahout-core-0.3-javadoc.jar! /org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
Sin embargo, mirando la última documentación parece que esta característica ha desaparecido ...? https://builds.apache.org/job/Mahout-Quality/javadoc/
Quería saber si todavía era posible usar HBase como una fuente de datos para Bayers y RandomForests y hay casos de usos anteriores en esto?
¡Gracias!