hadoop - spark - hortonworks

Descargar datos de gran tamaño para Hadoop (7)

¿Qué pasa con el "Censo de Internet 2012", datos recopilados mediante un análisis distribuido en todo Internet?

Anuncio: http://seclists.org/fulldisclosure/2013/Mar/166

Datos: http://internetcensus2012.bitbucket.org/

La información completa es de 7TB, (obviamente) solo disponible por torrent.

Necesito una gran cantidad de datos (más de 10 GB) para ejecutar la demostración de Hadoop. Alguien sabe dónde puedo descargarlo. Por favor hagamelo saber.

Hay bases de datos públicas disponibles en Amazon:
http://aws.amazon.com/publicdatasets/
Sugeriría que se considere la ejecución del clúster de demostración allí y, por lo tanto, para guardar la descarga.
También hay un buen conjunto de datos de la red de Common Crawl, que también está disponible en Amazon s3. http://commoncrawl.org/

Puede ser más rápido generar los datos que descargarlos y subirlos. Esto tiene la ventaja de darle control del dominio del problema y dejar que su demo signifique algo para las personas que lo están viendo.

Si está interesado en los indicadores de países, la mejor fuente que encontré fue worldbank.org. La información que ofrecen se puede exportar como CSV, lo que hace que sea muy fácil trabajar con Hadoop. Si está usando .NET, escribí un blogpost http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html donde puede ver cómo se ven los datos, y si descarga el código de gidhub https://github.com/ryan-popa/Hadoop-Analysis , ya tiene los métodos de análisis de cadenas.

Sugeriría que descargues un millón de canciones del conjunto de datos del siguiente sitio web:

http://labrosa.ee.columbia.edu/millionsong/

Lo mejor de Millones Songs Dataset es que puede descargar 1GB (alrededor de 10000 canciones), 10GB, 50GB o un conjunto de datos de 300GB en su clúster Hadoop y hacer cualquier prueba que desee. Me encanta usarlo y aprender mucho usando este conjunto de datos.

Para empezar, puede descargar el conjunto de datos de inicio con cualquier letra de AZ, que tendrá un rango de 1 GB a 20 GB. También puede utilizar el sitio de Infochimp:

http://www.infochimps.com/collections/million-songs

En uno de mis siguientes blogs, mostré cómo descargar un conjunto de datos de 1GB y ejecutar scripts de Pig:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

Tom White mencionó una muestra de datos meteorológicos en su Libro (Hadoop: la guía definitiva).

http://hadoopbook.com/code.html

Los datos están disponibles por más de 100 años.

wget en Linux para extraer los datos. Para el año 2007 en sí, el tamaño de los datos es de 27 GB.

Está alojado como un enlace FTP . Por lo tanto, puede descargarlo con cualquier utilidad FTP.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

Para detalles completos por favor revisa mi blog:

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

Un artículo que podría ser de su interés, " Uso de Hadoop para analizar los archivos de volcado completos de Wikipedia usando WikiHadoop ".

Si buscas estadísticas de la vista de la página de Wikipedia , entonces this podría ayudar. Puede descargar archivos de pagecount desde 2007 hasta la fecha actual. Solo para dar una idea del tamaño de los archivos, 1.9 GB para un solo día ( aquí elegí 2012-05-01 ) repartidos en 24 archivos.

Actualmente, 31 países tienen sitios que ponen a disposición datos públicos en varios formatos, http://www.data.gov/opendatasites . Además, el Banco Mundial pone a disposición los datos en http://data.worldbank.org/data-catalog