test_db test employees datos datasets benchmark database performance dataset benchmarking
https://github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip

database - test - public datasets



Grandes conjuntos de datos públicos? (13)

1. Grandes registros del servidor web de muestra que han sido anonimizados.

Estos trabajos para comenzar con:

Hay muchos, muchos más conjuntos de datos disponibles que estos (vea la gama de otras respuestas), pero esta es la fruta colgante más baja que cumple con sus criterios originales. Como beneficio adicional, tienen un enlace de contacto si tiene necesidades específicas que puedan conocer.

2. Conjuntos de datos utilizados para la evaluación comparativa del rendimiento de la base de datos.

Esto suena como un nombre inapropiado, porque está pidiendo conjuntos de datos empíricos que describan problems algorithmic well-defined . Específicamente, parece que está intentando encontrar conjuntos de datos que puede usar para probar y comparar varios sistemas de bases de datos en tiempo real, utilizando datos relacionales normalizados y bien definidos que se pueden usar como un conjunto de casos de prueba para determinar el la solución más eficiente que satisfaga sus necesidades.

No estoy de acuerdo con este enfoque. En lugar de encontrar una letanía de sistemas de bases de datos y sus implementaciones enlatadas, es mucho mejor explorar las guarantees well-defined de estos sistemas como su primer puerto de escala. Una vez que haya determinado las restricciones algorítmicas que satisfacen sus necesidades, puede concentrarse en un conjunto de soluciones enlatadas que puede comparar con la eficiencia de, por ejemplo, la indexación, la clasificación, la búsqueda, la inserción, la eliminación y la recuperación.

Wikipedia proporciona un breve artículo sobre los conceptos de prueba de la base de datos que puede usar para determinar y escribir casos de prueba para el rendimiento de la evaluación comparativa. Por ejemplo, puede usar una interfaz de acceso a datos agnósticos como JDBC y JDBC Benchmark para determinar los tiempos relativos de cada operación. Desde aquí, puedes enfocar una solución correcta.

En resumen, vaya a la investigación primero para determinar las garantías de la base de datos. Una vez que se ha identificado un conjunto de soluciones candidatas, puede seleccionar entre ellas probando (o determinando de otro modo) el rendimiento de tiempo constante de cada operación deseada.

Estoy buscando algunos grandes conjuntos de datos públicos, en particular:

  1. Grandes registros del servidor web de muestra que se han anonimizado.

  2. Conjuntos de datos utilizados para la evaluación comparativa del rendimiento de la base de datos.

Cualquier otro enlace a grandes conjuntos de datos públicos sería apreciado. Ya sé sobre los conjuntos de datos públicos de Amazon en: http://aws.amazon.com/publicdatasets/


Aquí hay varios. Que te diviertas.

http://archive.ics.uci.edu/ml/

http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1

http://crawdad.org/

http://data.austintexas.gov

http://data.cityofchicago.org

http://data.govloop.com

http://data.gov.uk/

http://data.medicare.gov

http://data.seattle.gov

http://data.sfgov.org

http://data.sunlightlabs.com

https://datamarket.azure.com/

http://ftp.ncbi.nih.gov/

http://gettingpastgo.socrata.com

http://books.google.com/ngrams/

http://linkeddata.org/

http://medihal.archives-ouvertes.fr

http://public.resource.org/

http://rechercheisidore.fr

http://reddit.com/r/datasets

http://timetric.com/public-data/

http://www2.jpl.nasa.gov/srtm

http://www.bls.gov/

http://www.crunchbase.com/

http://www.dartmouthatlas.org/

http://www.data.gov/

http://www.datakc.org

http://www.factual.com/

http://www.freebase.com/

http://www.infochimps.com/

http://www.kaggle.com/

http://build.kiva.org/

http://www.imdb.com/interfaces

http://dbpedia.org


Basado en las respuestas de Quora y mis colecciones personales en mis estudios, se creó y actualizó un awesome-public-datasets repositorio de awesome-public-datasets en GitHub:

A continuación se muestra una versión instantánea de esta lista. Para obtener la lista más nueva, visite awesome-public-datasets :

Esta lista de fuentes de datos públicos se recopila y se ordena desde blogs, respuestas y respuestas de los usuarios. La mayoría de los conjuntos de datos enumerados a continuación son gratuitos, sin embargo, algunos no lo son. Esta lista proviene de awesome-public-datasets .

Clima

Ciencias económicas

Financiar

Biología

Física

Cuidado de la salud

GeoSpace

Transporte

Gobierno

Retos de datos

Aprendizaje automático

Lenguaje natural

Procesamiento de imágenes

Series de tiempo

Ciencias Sociales

Redes complejas

Red de computadoras

Datos SE

Public Doamins

Colecciones Complementarias



Bueno, para los registros del servidor web siempre puedes generarlos para el formato que necesites. Si va a probar el código en su contra, etc., tendrá que adaptarse a los campos que desea almacenar / analizar.

Para los conjuntos de datos utilizados para la evaluación comparativa del rendimiento de la base de datos, es probable que desee ver una herramienta que pueda generar datos para usted. Red Gate tiene una excelente para no demasiado dinero.



Kaggle.com frecuentemente tiene desafíos de minería de datos. Los conjuntos de datos cubren una amplia gama de datos: datos de proveedores de atención médica a información de historial de crédito. Quizás algo es lo que estás buscando.






http://Quandl.com tiene más de 10 millones de conjuntos de datos recopilados de todo Internet. Lo mejor de este recurso es que brinda una forma única de acceder a todos los datos. El sitio tiene un complemento de Excel gratuito o hay bibliotecas en R, Python, Ruby, etc.