spanish - stanford nlp tag list
OpenNLP: los nombres extranjeros no se reconocen (1)
Puedes hacer tu propio modelo con tus datos usando un complemento de apertura llamado modelbuilder-addon; si lo intentas, puedes ser el primero en hacerlo que no sea yo ... es completamente nuevo.
es muy nuevo, pero funciona para mí.
Lo alimentas de la siguiente manera:
- una lista de "entidades conocidas" a través de un archivo donde cada línea es un nombre
- una lista de oraciones de TUS datos a través de un archivo donde cada línea es una oración
- (opcionalmente) una lista negra para eliminar falsos positivos
puedes pagar el complemento aquí
https://svn.apache.org/repos/asf/opennlp/addons/modelbuilder-addon
puedes usar esto para comenzar
import java.io.File;
import opennlp.addons.modelbuilder.DefaultModelBuilderUtil;
public class ModelBuilderAddonUse {
public static void main(String[] args) {
File fileOfSentences = new File("path to your sentence file");
File fileOfNames = new File("path to your file of person names");
File blackListFile = new File("path to your blacklist file");
File modelOutFile = new File("path to you where the model will be saved");
File annotatedSentencesOutFile = new File("path to your sentence file");
DefaultModelBuilderUtil.generateModel(fileOfSentences, fileOfNames, blackListFile, modelOutFile, annotatedSentencesOutFile, "person", 3);
}
}
la idea es que sus entidades conocidas (nombres comunes en sus datos) se utilizan para crear anotaciones, y esas anotaciones se utilizan para generar un modelo, luego el modelo se utiliza para generar más nombres y anotaciones, etc. ... la herramienta hará esto según el parámetro "iteraciones". Debe ejecutarlo, verificar sus resultados, cualquier impacto no deseado debe agregarse al archivo de la lista negra, y luego puede ejecutar el entrenamiento nuevamente. Lo he usado y obtuve muy buenos resultados. Si encuentra problemas con él, coloque un boleto en OpenNLP.
Empecé a usar openNLP para reconocer nombres. Estoy usando el modelo (en-ner-person.bin) que viene con NLP abierto. Observé que, si bien nos reconoce a nosotros, el Reino Unido y los nombres europeos, no reconoce los nombres indios o japoneses. Mis preguntas son (1) si ya hay modelos disponibles que puedo usar para reconocer nombres extranjeros (2) De lo contrario, creo que tendré que generar nuevos modelos. En ese caso, ¿hay una copora disponible que pueda usar?