sets online meaning descargar datasets data resources dataset

resources - online - kaggle datasets



Grandes conjuntos de datos (8)

Es posible que desee echar un vistazo a los datos de la exposición de datos de la Asociación Estadounidense de Estadística (American Statistical Association): detalles de los vuelos de todos los vuelos comerciales en los EE. UU. Durante los últimos 20 años: 120 millones de registros, 11 gigas de datos.

Siempre estoy buscando grandes conjuntos de datos para probar varios tipos de programas. ¿Alguien tiene alguna sugerencia?


Es posible que desee ver la generación de datos aleatorios para Fuzz Testing . Eso le daría una cantidad bastante ilimitada de datos de prueba, y es más probable que llegue a casos límite.

¿Tal vez más información sobre qué tipo de datos de prueba desea, qué formato y para qué tipo de aplicaciones?


Es posible que también desee consultar la información de Aaron Swartz.

Desde el sitio

Este es un sitio para grandes conjuntos de datos y las personas que los aman: los raspadores y rastreadores que los recogen, los académicos y geeks que los procesan, los diseñadores y artistas que los visualizan. Es un lugar donde pueden intercambiar consejos y trucos, desarrollar y compartir herramientas, y comenzar a integrar sus proyectos particulares.


He trabajado un poco con los conjuntos de descargas de Wikimedia , que son enormes archivos XML. Desafortunadamente, su servidor de descarga parece tener actualmente problemas de espacio en el disco, por lo que muchos de los conjuntos de datos no están disponibles. Pero cuando está disponible, todo el conjunto de datos de la Wikipedia en inglés con un historial completo es de 2.8 TB (18 GB comprimidos).


Mira el concurso de Netflix . Creo que expusieron su base de datos, o un gran subconjunto, para facilitar el concurso.

ACTUALIZACIÓN: Su faq dice que tienen 100 millones de entradas en el subconjunto que puede descargar.


No sé cuál es su plataforma de destino, pero si está desarrollando una base de datos MSSQL, consulte Visual Studio for Database Professionals . Tiene una característica muy buena en la que puede generar datos para su esquema utilizando un plan de datos que puede definir.

Redgate también tiene una herramienta de generación de datos, pero no la he usado.

La ventaja es que puede crear un plan de generación de datos y usarlo para rellenar su base de datos con grandes cantidades de datos consistentes que pueden ajustarse para probar áreas específicas de su esquema.


Si está interesado en personalizar el tipo de datos que está obteniendo, consulte Kimono Labs . Es un software de raspado web que puede utilizar para eliminar cualquier sitio de forma gratuita sin límite de filas devueltas. Simplemente configure una API en él (puede usar su generador de url para borrar varias URL a la vez) y luego utilice su conjunto de datos personales como JSON, CSV o RSS.


Varios usuarios de del.icio.us (incluido yo mismo) etiquetan páginas que contienen datos públicos utilizando la etiqueta "publicdata". Puede encontrar ese archivo aquí y suscribirse a un feed RSS para esa etiqueta aquí . Suscríbase al feed y verá un flujo constante de conjuntos de datos interesantes que aparecen en la web.

No todos esos conjuntos de datos son grandes, pero a menudo son interesantes.