nlp - Extraiga el nombre de persona del texto de desestructuración
text-mining opennlp (2)
Tengo una colección de facturas y facturas, por lo que no hay contexto en el texto (quiero decir que no cuentan una historia). Quiero extraer nombres de personas de esos proyectos de ley. Intenté OpenNLP pero la calidad del modelo entrenado no es buena porque no tengo contexto. entonces la primera pregunta es: ¿puedo entrenar un modelo que contenga solo nombres de personas sin contexto? y si es posible, puede darme un buen artículo sobre cómo creo ese nuevo modelo (la mayoría del artículo que leí no explicaba los pasos que debía seguir para construir un nuevo modelo).
Tengo un nombre de base de datos con más de 100.000 nombres de personas (primer nombre, apellido), así que si los sistemas NER no funcionan en mi caso (porque no hay contexto), ¿cuál es la mejor manera de buscar esos candidatos? significa buscar cada nombre con todos los demás apellidos?)
Gracias.
Empezaría con algunas expresiones regulares, y posiblemente aumentaría eso con un enfoque basado en el diccionario (es decir, una gran lista de nombres).
No importa lo que hagas, no será perfecto, así que asegúrate de tenerlo en cuenta.
Con respecto al "contexto", supongo que quiere decir que no tiene oraciones completas, es decir, no hay toques previos / próximos, y en este caso se enfrenta a un NER bastante no estándar. No conozco el software o los datos de entrenamiento disponibles para este problema en particular. Si no encuentra ninguno, tendrá que crear su propio corpus para fines de capacitación y / o evaluación.
Su base de datos de nombres probablemente sea de gran ayuda, dependiendo de la proporción de nombres de facturas realmente presentes en la base de datos. También es probable que deba confiar en la morfología de los nombres de los personajes, como patrones (consulte, por ejemplo, los patrones en [1]). Una vez que tenga un conjunto de entrenamiento con características (presencia en base de datos, morfología, otra información de factura) y soluciones (nombres reales de facturas anotadas), usar el aprendizaje automático estándar como SVM será bastante sencillo (si no está familiarizado con esto, solo pregunta).
Algunas otras sugerencias:
- Probablemente también use la información de otra factura: nombre de la compañía, puestos, menciones de impuestos, etc.
- También puede proceder de manera selectiva: si todas las facturas deben mencionar (¿exactamente?) El nombre de una persona, puede excluir todos los demás textos (por ejemplo, montos, nombres de impuestos, posiciones, etc.) o asumir en un modelo dedicado que entre todos los textos un proyecto de ley, solo uno debe ser adivinado como un nombre.
[1] Algoritmos de clasificación para la extracción de entidades con nombre: Impulso y el perceptrón votado (Michael Collins, 2002)