python - Texto no estructurado a datos estructurados
nlp structured-data (4)
Después de investigar, descubrí que este problema se conoce comúnmente como Extracción de Información y he acumulado algunos documentos y los he almacenado en una Colección Mendeley.
http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/
También como Tai Weiss señaló NLTK para python es un buen punto de partida y este capítulo del libro, se centra específicamente en la extracción de información
Estoy buscando referencias (tutoriales, libros, literatura académica) sobre la estructuración de texto no estructurado de una manera similar al botón de agregar rápido de Google Calendar.
Entiendo que esto puede pertenecer a la categoría PNL, pero solo me interesa el proceso de pasar de algo así como "Levi jeans size 32 A0b293"
a: Marca: Levi, Tamaño: 32, Categoría: Jeans, código: A0b293
Me imagino que sería una combinación de análisis léxico y técnicas de aprendizaje automático.
Soy bastante independiente del lenguaje, pero si me presionan, preferiría las referencias Python, Matlab o C ++.
Gracias
Necesita proporcionar más información sobre el origen del texto (¿la entrada de usuario de la web?), El dominio (¿es solo ropa?), El formato y el vocabulario potenciales ...
Suponiendo el peor de los casos, necesitas comenzar a aprender NLP. Un muy buen libro gratis es la documentación de NLTK: http://www.nltk.org/book . También es una muy buena introducción a Python y el SW es gratis (para varios usos). Tenga cuidado: PNL es difícil. No siempre funciona No es divertido a veces. El estado del arte no está cerca de donde te imaginas.
Suponiendo un escenario mejor (su texto es semiestructurado), una buena herramienta gratuita es pypar . Hay un libro, muchos ejemplos y el código resultante es extremadamente atractivo.
Espero que esto ayude...
Posiblemente vea "Inteligencia Colectiva" por Toby Segaran. Me parece recordar que abordar los conceptos básicos de esto en un capítulo.
Si solo está trabajando para casos como el ejemplo que citó, es mejor que utilice alguna regla manual que sea 100% predecible y que cubra el 90% de los casos en los que podría encontrarse producción.
Puede enumerar listas de todas las marcas y categorías posibles y detectar cuál es el que en una cadena de entrada porque generalmente hay muy poca intersección en estas dos listas.
Los otros dos podrían ser fácilmente detectados y extraídos usando expresiones regulares. (Los números de 1 a 3 dígitos son siempre de tamaños, etc.)
Su dominio de problema no parece lo suficientemente grande como para garantizar un enfoque de trabajo más pesado, como el aprendizaje estadístico.