nlp - verdadero - ¿Hay un tutorial sobre giza++?
piramides de giza (5)
Las URL en su archivo "readme" no son válidas ( http://www.fjoch.com/mkcls.html y http://www.fjoch.com/GIZA++.html ). ¿Hay un buen tutorial sobre giza ++? ¿O hay algunas alternativas que tienen documentación completa?
Este es muy útil: http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/
Los académicos de IIT-B han realizado presentaciones agradables y detalladas para la configuración y el uso de GIZA ++ y MOSES.
Algunos de ellos son: http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf
http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf
Este tutorial de Powerpoint me funcionó: http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt
Hay una explicación complementaria de cómo formatear los archivos de entrada y cómo ejecutar GIZA ++ aquí:
http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt
Lo siguiente es un extracto de un tutorial que estoy preparando para una clase. (NB: Esto supone que ha instalado con éxito GIZA ++ - v2 en un sistema * nix.)
- Comience con dos archivos de datos que contengan oraciones paralelas que han sido tokenizadas, una oración por línea. Por ejemplo, un par de archivos paralelos inglés-francés puede leer lo siguiente.
Muestra 1 - train.en
I gave him the book .
He read the book .
He loved the book .
Muestra 2 - train.fr
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
- Ejecute estos archivos a través de
plain2snt.out
para obtener los archivos de vocabulario de destino y fuente (*.vcb
), así como un archivo de pares de oraciones (*.snt
).
Desde el directorio GIZA ++, ejecute:
./plain2snt.out TEXT1 TEXT2
donde TEXT1
y TEXT2
son los archivos de datos descritos en el paso 1.
Esto produce cuatro archivos en el mismo directorio que TEXT1
y TEXT2
(asumiendo que están en el mismo directorio):
- TEXT1_TEXT2.snt
- TEXT1.vcb
- TEXT2_TEXT1.snt
- TEXT2.vcb
Los archivos de vocabulario contienen un ID único (entero) para cada palabra en el texto (NB: no tokenizado / lemmatizado), la palabra / cadena y el número de veces que ocurrió esa cadena. Estos están separados por un solo carácter de espacio.
Los archivos de oraciones contienen números. Para cada par de oraciones, hay tres líneas: la primera es un recuento del número de veces que se produce el par de oraciones en el corpus y la segunda y la tercera son una cadena de números (separados por espacios) correspondientes a las entradas de las palabras en Archivos de vocabulario. De acuerdo con la convención de nomenclatura para los archivos *.snt
, se supone que el primer archivo es el origen y que el segundo es el idioma de destino. Por ejemplo, en el archivo TEXT1_TEXT2.snt
, la primera línea será un conteo de la cantidad de veces que ocurrió el primer par de oraciones en el corpus, la segunda línea será una cadena de números correspondiente a las palabras en el archivo TEXT1.vcb
y la tercera línea será una cadena de números que corresponde a las palabras en el archivo TEXT2.vcb
.
- Ahora
TEXT1.vcb
,TEXT2.vcb
y cualquiera de los dos archivos*.snt
se pueden usar como entrada para GIZA ++ para producir una alineación.
Por ejemplo:
./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
Pero tenga en cuenta que cuando intenté ejecutar esto, tuve que cambiar el nombre de TEXT1_TEXT2.snt
a algo sin un guión bajo en el nombre para obtener una salida adecuada.