Vectorización en Apache Mahout
hadoop classification (1)
Puede verificar estos 2 ejemplos que también hacen / explican cómo usar la API del archivo de secuencia. Aquí y aquí
Y definitivamente deberías leer esta introducción al análisis de texto
Soy nuevo en Mahout. Tengo un requisito para convertir un archivo de texto a un vector para su clasificación en una etapa posterior.
¿Alguien podría arrojar algo de luz sobre estas preguntas a continuación?
- ¿Cómo convertir un archivo de texto a un vector en mahout? El formato de archivo es como "nombre de usuario | comentario sobre el elemento | calificación"
- Los datos serán pocos TB. Entonces, ¿qué algoritmo implementable puedo usar para la clasificación usando el vector que creo que debo crear?
Gracias, Arun