resources - estructurados - Conjuntos de datos grandes y gratuitos para experimentar con Hadoop

mapreduce ejemplo (4)

Algunos puntos sobre su pregunta sobre el rastreo y la wikipedia.

Se ha vinculado a los volcados de datos de wikipedia y puede usar el proyecto Cloud9 de UMD para trabajar con estos datos en Hadoop.

Tienen una página sobre esto: trabajando con Wikipedia

Otra fuente de datos para agregar a la lista es:

ClueWeb09 : mil millones de páginas web recopiladas entre enero y febrero de 2009. 5TB comprimido.

El uso de un rastreador para generar datos debe publicarse en una pregunta separada sobre Hadoop / MapReduce, diría yo.

¿Conoces algún gran conjunto de datos para experimentar con Hadoop que sea gratuito / de bajo costo? Se aprecian todos los enlaces / punteros relacionados.

Preferencia:

Por lo menos un GB de datos.
Datos de registro de producción del servidor web.

Pocos de ellos que encontré hasta ahora:

¿También podemos ejecutar nuestro propio rastreador para recopilar datos de sitios, por ejemplo, Wikipedia? También se agradece cualquier sugerencia sobre cómo hacer esto.

Esta es una colección de 189 conjuntos de datos para aprendizaje automático (que es una de las mejores aplicaciones para hadoop g ): http://archive.ics.uci.edu/ml/datasets.html

No es un archivo de registro, pero tal vez podría usar el archivo planetario de OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

Licencia CC, aproximadamente 160 GB (sin embalaje)

También hay archivos más pequeños para cada continente: http://wiki.openstreetmap.org/wiki/World

Una fuente obvia: los volcados de datos de la trilogía . Estos están disponibles gratuitamente bajo la licencia de Creative Commons.