text - imagenes - mediawiki help images
Descarga de texto de Wikipedia (5)
Estoy buscando descargar el texto completo de Wikipedia para mi proyecto universitario. ¿Tengo que escribir mi propia araña para descargar esto o hay un conjunto de datos públicos de Wikipedia disponible en línea?
Para darles una visión general de mi proyecto, quiero descubrir las palabras interesantes de algunos artículos en los que estoy interesado. Pero para encontrar estas palabras interesantes, planeo aplicar tf / idf para calcular la frecuencia de los términos para cada palabra y escoger los que tienen alta frecuencia. Pero para calcular el tf, necesito saber el total de ocurrencias en total de Wikipedia.
¿Cómo puede hacerse esto?
Si necesita una versión de solo texto, no un XML de Mediawiki, puede descargarlo aquí: http://kopiwiki.dsd.sztaki.hu/
Teniendo en cuenta el tamaño del volcado, probablemente sería mejor utilizar la palabra frecuencia en el idioma inglés, o utilizar la API MediaWiki para sondear páginas al azar (o las páginas más consultadas). Existen marcos para construir bots basados en esta API (en Ruby, C #, ...) que pueden ayudarte.
de wikipedia: http://en.wikipedia.org/wiki/Wikipedia_database
Wikipedia ofrece copias gratuitas de todo el contenido disponible para los usuarios interesados. Estas bases de datos se pueden usar para duplicación, uso personal, copias de seguridad informales, uso fuera de línea o consultas a bases de datos (como Wikipedia: Mantenimiento). Todo el contenido de texto tiene licencia múltiple bajo la licencia Reconocimiento-CompartirIgual 3.0 de Creative Commons (CC-BY-SA) y la Licencia de documentación libre de GNU (GFDL). Las imágenes y otros archivos están disponibles bajo diferentes términos, tal como se detalla en sus páginas de descripción. Para obtener nuestro consejo sobre el cumplimiento de estas licencias, consulte Wikipedia: Derechos de autor.
Parece que estás de suerte también. Desde la sección de volcado:
A partir del 12 de marzo de 2010, se puede encontrar el último volcado completo de la Wikipedia en inglés en http://download.wikimedia.org/enwiki/20100130/ Este es el primer volcado completo de la Wikipedia en inglés que se ha creado. desde 2008. Tenga en cuenta que los vertederos más recientes (como el volcado 20100312) están incompletos.
Entonces la información solo tiene 9 días :)