que estructurados ejemplo datos data big resources hadoop opendata

resources - estructurados - Conjuntos de datos grandes y gratuitos para experimentar con Hadoop



mapreduce ejemplo (4)

Algunos puntos sobre su pregunta sobre el rastreo y la wikipedia.

Se ha vinculado a los volcados de datos de wikipedia y puede usar el proyecto Cloud9 de UMD para trabajar con estos datos en Hadoop.

Tienen una página sobre esto: trabajando con Wikipedia

Otra fuente de datos para agregar a la lista es:

  • ClueWeb09 : mil millones de páginas web recopiladas entre enero y febrero de 2009. 5TB comprimido.

El uso de un rastreador para generar datos debe publicarse en una pregunta separada sobre Hadoop / MapReduce, diría yo.

¿Conoces algún gran conjunto de datos para experimentar con Hadoop que sea gratuito / de bajo costo? Se aprecian todos los enlaces / punteros relacionados.

Preferencia:

  • Por lo menos un GB de datos.

  • Datos de registro de producción del servidor web.

Pocos de ellos que encontré hasta ahora:

  1. Volcado de Wikipedia

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

¿También podemos ejecutar nuestro propio rastreador para recopilar datos de sitios, por ejemplo, Wikipedia? También se agradece cualquier sugerencia sobre cómo hacer esto.