videos verdadero uso tres piramides las giza egipto nlp machine-translation giza++

nlp - verdadero - ¿Hay un tutorial sobre giza++?



piramides de giza (5)

Las URL en su archivo "readme" no son válidas ( http://www.fjoch.com/mkcls.html y http://www.fjoch.com/GIZA++.html ). ¿Hay un buen tutorial sobre giza ++? ¿O hay algunas alternativas que tienen documentación completa?






Lo siguiente es un extracto de un tutorial que estoy preparando para una clase. (NB: Esto supone que ha instalado con éxito GIZA ++ - v2 en un sistema * nix.)

  1. Comience con dos archivos de datos que contengan oraciones paralelas que han sido tokenizadas, una oración por línea. Por ejemplo, un par de archivos paralelos inglés-francés puede leer lo siguiente.

Muestra 1 - train.en

I gave him the book . He read the book . He loved the book .

Muestra 2 - train.fr

Je lui ai donne/ le livre . Il a lu le livre . Il aimait le livre .

  1. Ejecute estos archivos a través de plain2snt.out para obtener los archivos de vocabulario de destino y fuente ( *.vcb ), así como un archivo de pares de oraciones ( *.snt ).

Desde el directorio GIZA ++, ejecute:

./plain2snt.out TEXT1 TEXT2

donde TEXT1 y TEXT2 son los archivos de datos descritos en el paso 1.

Esto produce cuatro archivos en el mismo directorio que TEXT1 y TEXT2 (asumiendo que están en el mismo directorio):

  • TEXT1_TEXT2.snt
  • TEXT1.vcb
  • TEXT2_TEXT1.snt
  • TEXT2.vcb

Los archivos de vocabulario contienen un ID único (entero) para cada palabra en el texto (NB: no tokenizado / lemmatizado), la palabra / cadena y el número de veces que ocurrió esa cadena. Estos están separados por un solo carácter de espacio.

Los archivos de oraciones contienen números. Para cada par de oraciones, hay tres líneas: la primera es un recuento del número de veces que se produce el par de oraciones en el corpus y la segunda y la tercera son una cadena de números (separados por espacios) correspondientes a las entradas de las palabras en Archivos de vocabulario. De acuerdo con la convención de nomenclatura para los archivos *.snt , se supone que el primer archivo es el origen y que el segundo es el idioma de destino. Por ejemplo, en el archivo TEXT1_TEXT2.snt , la primera línea será un conteo de la cantidad de veces que ocurrió el primer par de oraciones en el corpus, la segunda línea será una cadena de números correspondiente a las palabras en el archivo TEXT1.vcb y la tercera línea será una cadena de números que corresponde a las palabras en el archivo TEXT2.vcb .

  1. Ahora TEXT1.vcb , TEXT2.vcb y cualquiera de los dos archivos *.snt se pueden usar como entrada para GIZA ++ para producir una alineación.

Por ejemplo:

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

Pero tenga en cuenta que cuando intenté ejecutar esto, tuve que cambiar el nombre de TEXT1_TEXT2.snt a algo sin un guión bajo en el nombre para obtener una salida adecuada.