link images imagenes help externo enlace anchors agregar text wikipedia web-crawler information-retrieval

text - imagenes - mediawiki help images



Descarga de texto de Wikipedia (5)

Estoy buscando descargar el texto completo de Wikipedia para mi proyecto universitario. ¿Tengo que escribir mi propia araña para descargar esto o hay un conjunto de datos públicos de Wikipedia disponible en línea?

Para darles una visión general de mi proyecto, quiero descubrir las palabras interesantes de algunos artículos en los que estoy interesado. Pero para encontrar estas palabras interesantes, planeo aplicar tf / idf para calcular la frecuencia de los términos para cada palabra y escoger los que tienen alta frecuencia. Pero para calcular el tf, necesito saber el total de ocurrencias en total de Wikipedia.

¿Cómo puede hacerse esto?



Teniendo en cuenta el tamaño del volcado, probablemente sería mejor utilizar la palabra frecuencia en el idioma inglés, o utilizar la API MediaWiki para sondear páginas al azar (o las páginas más consultadas). Existen marcos para construir bots basados ​​en esta API (en Ruby, C #, ...) que pueden ayudarte.



de wikipedia: http://en.wikipedia.org/wiki/Wikipedia_database

Wikipedia ofrece copias gratuitas de todo el contenido disponible para los usuarios interesados. Estas bases de datos se pueden usar para duplicación, uso personal, copias de seguridad informales, uso fuera de línea o consultas a bases de datos (como Wikipedia: Mantenimiento). Todo el contenido de texto tiene licencia múltiple bajo la licencia Reconocimiento-CompartirIgual 3.0 de Creative Commons (CC-BY-SA) y la Licencia de documentación libre de GNU (GFDL). Las imágenes y otros archivos están disponibles bajo diferentes términos, tal como se detalla en sus páginas de descripción. Para obtener nuestro consejo sobre el cumplimiento de estas licencias, consulte Wikipedia: Derechos de autor.

Parece que estás de suerte también. Desde la sección de volcado:

A partir del 12 de marzo de 2010, se puede encontrar el último volcado completo de la Wikipedia en inglés en http://download.wikimedia.org/enwiki/20100130/ Este es el primer volcado completo de la Wikipedia en inglés que se ha creado. desde 2008. Tenga en cuenta que los vertederos más recientes (como el volcado 20100312) están incompletos.

Entonces la información solo tiene 9 días :)