nlp linguistics corpus
nltk-data lo

NLP: compilación de corporaciones(pequeñas), o "¿Dónde conseguir muchos archivos de texto en inglés que no sean demasiado especializados?"



linguistics corpus (7)

Cubriste los más obvios. Las únicas otras áreas que puedo pensar también complementan:

1) Artículos / blogs de noticias.

2) Las revistas están publicando mucho material gratuito en línea, y puede obtener una buena selección de temas.

¿Alguien tiene alguna sugerencia de dónde encontrar archivos o colecciones de textos en inglés cotidianos para usar en un pequeño corpus? He estado usando los libros del Proyecto Gutenberg para un prototipo funcional y me gustaría incorporar un lenguaje más contemporáneo. Una respuesta reciente aquí apunta indirectamente a un gran archivo de reseñas de películas de Usenet , que no se me había ocurrido, y es muy bueno. Para este programa en particular, los archivos de usenet técnico o las listas de distribución de programación inclinarían los resultados y serían difíciles de analizar, pero cualquier tipo de texto general del blog, o transcripciones de chat, o cualquier cosa que pueda haber sido útil para otros, sería muy útil. Además, es muy apreciado un corpus de investigación parcial o descargable que no esté demasiado marcado, o alguna heurística para encontrar un subconjunto apropiado de artículos de wikipedia, o cualquier otra idea.

(Por cierto, estoy siendo un buen ciudadano sin descargas, usando una secuencia de comandos deliberadamente lenta que no es exigente para los servidores que alojan dicho material, en caso de que percibas un riesgo moral al señalarme algo enorme).

ACTUALIZACIÓN : El usuario S0rin señala que la wikipedia no solicita el rastreo y proporciona esta herramienta de exportación . El Proyecto Gutenberg tiene una política especificada aquí , en resumen, trate de no rastrear, pero si necesita: "Configure su robot para que espere al menos 2 segundos entre las solicitudes".

ACTUALIZACIÓN 2 Los vertederos de wikpedia son el camino a seguir, gracias a los contestadores que los señalaron. Terminé usando la versión en inglés desde aquí: http://download.wikimedia.org/enwiki/20090306/ , y un vertedero español de aproximadamente la mitad del tamaño. Son algunos trabajos para limpiar, pero valen la pena y contienen muchos datos útiles en los enlaces.


Wikipedia parece ser el camino a seguir. Existe una API experimental de Wikipedia que podría ser útil, pero no tengo idea de cómo funciona. Hasta ahora solo he descifrado Wikipedia con arañas personalizadas o incluso wget .

Luego, puede buscar páginas que ofrezcan el texto completo de sus artículos en feeds RSS. RSS, porque no hay etiquetas HTML en su camino.

Raspar listas de correo y / o Usenet tiene varias desventajas: obtendrá AOLbonics y Techspeak, y eso afectará su corpus mal.

Los corpora clásicos son el Penn Treebank y el British National Corpus, pero se pagan por ellos. Puede leer los archivos de la lista de Corpora , o incluso preguntar sobre ello. Quizás encuentre datos útiles usando la Web como herramientas de Corpus .

De hecho, tengo un pequeño proyecto en construcción que permite el procesamiento lingüístico en páginas web arbitrarias. Debería estar listo para su uso en las próximas semanas, pero hasta ahora no está destinado a ser un raspador. Pero podría escribir un módulo para eso, supongo, la funcionalidad ya está allí.


  • Usa los volcados de Wikipedia
    • necesita mucha limpieza
  • Vea si algo en nltk-data lo ayuda
    • los corpora son generalmente bastante pequeños
  • los Wacky tienen algunos corpus libres
    • etiquetado
    • puedes arañar tu propio corpus usando su kit de herramientas
  • Europarl es gratuito y la base de casi todos los sistemas académicos de MT
    • lenguaje hablado, traducido
  • Los Reuters Corpora son gratuitos, pero solo están disponibles en CD

Siempre puede obtener el suyo propio, pero tenga cuidado: las páginas HTML a menudo requieren una gran limpieza, por lo que debe restringirse a las fuentes RSS.

Si haces esto comercialmente, el LDC podría ser una alternativa viable.


Al analizar los datos de la wikipedia noté que habían realizado algunos análisis sobre los cuerpos de los guiones de televisión y películas . Pensé que podría ser un texto interesante pero no accesible: resulta que está en todas partes, y es lo suficientemente estructurado y predecible como para poder limpiarlo. Este sitio , amablemente titulado "Un montón de guiones de películas y guiones en un lugar de la ''red'', probablemente sea útil para cualquiera que tropiece con este hilo con una pregunta similar.


Si está dispuesto a pagar dinero, debería verificar los datos disponibles en el Linguistic Data Consortium, como Penn Treebank.


Wikipedia parece ser la mejor manera. Sí, tendrías que analizar la salida. Pero gracias a las categorías de wikipedia puedes obtener fácilmente diferentes tipos de artículos y palabras. por ejemplo, al analizar todas las categorías de ciencias, puede obtener muchas palabras científicas. Los detalles sobre los lugares estarían sesgados hacia los nombres geográficos, etc.