apache hadoop classification vectorization mahout

Vectorización en Apache Mahout



hadoop classification (1)

Puede verificar estos 2 ejemplos que también hacen / explican cómo usar la API del archivo de secuencia. Aquí y aquí

Y definitivamente deberías leer esta introducción al análisis de texto

Soy nuevo en Mahout. Tengo un requisito para convertir un archivo de texto a un vector para su clasificación en una etapa posterior.

¿Alguien podría arrojar algo de luz sobre estas preguntas a continuación?

  1. ¿Cómo convertir un archivo de texto a un vector en mahout? El formato de archivo es como "nombre de usuario | comentario sobre el elemento | calificación"
  2. Los datos serán pocos TB. Entonces, ¿qué algoritmo implementable puedo usar para la clasificación usando el vector que creo que debo crear?

Gracias, Arun