parser open example etree datacamp python xml xml-parsing wikipedia

python - open - xml.etree.elementtree example



Extraer texto paralelo de volcados de Wikipedia (1)

En mi proyecto de investigación necesito extraer documentos paralelos de los vertederos de Wikipedia. En otras palabras, he descargado los vertederos de Wikipedia en inglés y en italiano. Ahora, quiero analizarlos y para cada artículo en el vertedero de inglés, encontrar su traducción en el vertedero italiano (debe hacerse mediante los enlaces de Interlenguage) y almacenarlos en el mismo archivo para luego hacer un procesamiento de texto interlingüístico.

Busqué un poco para esto, pero no pude encontrar ningún código para este propósito. Pero, dado que he visto muchos artículos en los que los autores han hecho lo mismo, pensé que podría valer la pena preguntar primero, antes de inventar la rueda desde cero.

Cualquier idea es apreciada.

Gracias.