database - test - public datasets
Grandes conjuntos de datos públicos? (13)
1. Grandes registros del servidor web de muestra que han sido anonimizados.
Estos trabajos para comenzar con:
Hay muchos, muchos más conjuntos de datos disponibles que estos (vea la gama de otras respuestas), pero esta es la fruta colgante más baja que cumple con sus criterios originales. Como beneficio adicional, tienen un enlace de contacto si tiene necesidades específicas que puedan conocer.
2. Conjuntos de datos utilizados para la evaluación comparativa del rendimiento de la base de datos.
Esto suena como un nombre inapropiado, porque está pidiendo conjuntos de datos empíricos que describan problems algorithmic well-defined . Específicamente, parece que está intentando encontrar conjuntos de datos que puede usar para probar y comparar varios sistemas de bases de datos en tiempo real, utilizando datos relacionales normalizados y bien definidos que se pueden usar como un conjunto de casos de prueba para determinar el la solución más eficiente que satisfaga sus necesidades.
No estoy de acuerdo con este enfoque. En lugar de encontrar una letanía de sistemas de bases de datos y sus implementaciones enlatadas, es mucho mejor explorar las guarantees well-defined de estos sistemas como su primer puerto de escala. Una vez que haya determinado las restricciones algorítmicas que satisfacen sus necesidades, puede concentrarse en un conjunto de soluciones enlatadas que puede comparar con la eficiencia de, por ejemplo, la indexación, la clasificación, la búsqueda, la inserción, la eliminación y la recuperación.
Wikipedia proporciona un breve artículo sobre los conceptos de prueba de la base de datos que puede usar para determinar y escribir casos de prueba para el rendimiento de la evaluación comparativa. Por ejemplo, puede usar una interfaz de acceso a datos agnósticos como JDBC y JDBC Benchmark para determinar los tiempos relativos de cada operación. Desde aquí, puedes enfocar una solución correcta.
En resumen, vaya a la investigación primero para determinar las garantías de la base de datos. Una vez que se ha identificado un conjunto de soluciones candidatas, puede seleccionar entre ellas probando (o determinando de otro modo) el rendimiento de tiempo constante de cada operación deseada.
Estoy buscando algunos grandes conjuntos de datos públicos, en particular:
Grandes registros del servidor web de muestra que se han anonimizado.
Conjuntos de datos utilizados para la evaluación comparativa del rendimiento de la base de datos.
Cualquier otro enlace a grandes conjuntos de datos públicos sería apreciado. Ya sé sobre los conjuntos de datos públicos de Amazon en: http://aws.amazon.com/publicdatasets/
Aquí hay varios. Que te diviertas.
http://archive.ics.uci.edu/ml/
http://aws.amazon.com/datasets?_encoding=UTF8&jiveRedirect=1
http://gettingpastgo.socrata.com
http://books.google.com/ngrams/
http://medihal.archives-ouvertes.fr
http://timetric.com/public-data/
http://www.dartmouthatlas.org/
Basado en las respuestas de Quora y mis colecciones personales en mis estudios, se creó y actualizó un awesome-public-datasets repositorio de awesome-public-datasets en GitHub:
A continuación se muestra una versión instantánea de esta lista. Para obtener la lista más nueva, visite awesome-public-datasets :
Esta lista de fuentes de datos públicos se recopila y se ordena desde blogs, respuestas y respuestas de los usuarios. La mayoría de los conjuntos de datos enumerados a continuación son gratuitos, sin embargo, algunos no lo son. Esta lista proviene de awesome-public-datasets .
Clima
- Clima de Australia: http://www.bom.gov.au/climate/dwo/
- Datos climáticos: http://www.cru.uea.ac.uk/cru/data/temperature/#datter y ftp://ftp.cmdl.noaa.gov/
- Datos climáticos globales desde 1929: http://www.tutiempo.net/en/Climate
- Clima del Mar de Bering NOAA: http://www.beringclimate.noaa.gov/
- Conjuntos de datos climáticos de la NOAA: http://ncdc.noaa.gov/data-access/quick-links
- Tiempo histórico de WU en todo el mundo: http://www.wunderground.com/history/index.html
Ciencias económicas
- American Economic Ass. (AEA): http://www.aeaweb.org/RFE/toc.php?show=complete
- EconData (UMD): http://inforumweb.umd.edu/econdata/econdata.html
- Base de datos de códigos de productos de Internet: http://www.upcdatabase.com/
- Banco mundial: http://data.worldbank.org/indicator
Financiar
- CBOE Futures Exchange: http://cfe.cboe.com/Data/
- Google Finance: https://www.google.com/finance
- Google Trends: http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
- NASDAQ: https://data.nasdaq.com/
- OANDA: http://www.oanda.com/
- Datos financieros de OSU: http://fisher.osu.edu/fin/osudata.htm
- Quandl: http://www.quandl.com/
- St Louis Federal: http://research.stlouisfed.org/fred2/
- Yahoo Finance: http://finance.yahoo.com/
Biología
- CRCNS: http://crcns.org/data-sets
- Gene Expression Omnibus: http://www.ncbi.nlm.nih.gov/geo/
- Proyecto de microbioma humano: http://www.hmpdacc.org/reference_genomes/reference_genomes.php
- MIT Cancer Genomics Data: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
- Datos NIH Microarray: ftp://ftp.ncbi.nih.gov/pub/geo/DATA/supplementary/series/GSE6532/
- Estructura de la proteína: http://www.infobiotic.net/PSPbenchmarks/
- Public Gene Data: http://www.pubgene.org/
- Datos de Stanford Microarray: http://smd.stanford.edu/
- UniGene: http://www.ncbi.nlm.nih.gov/unigene
Física
Cuidado de la salud
- Conjuntos de datos de salud grandes de EHDP: http://www.ehdp.com/vitalnet/datasets.htm
- Gapminder: http://www.gapminder.org/data/
- Archivo de datos de Medicare: http://go.cms.gov/19xxPN4
GeoSpace
- EOSDIS: http://sedac.ciesin.columbia.edu/data/sets/browse
- Datos fácticos de ubicación global: http://www.factual.com/
- Geo Spatial Data: http://geodacenter.asu.edu/datalist/
Transporte
- Datos de las aerolíneas (Desafío ASA 2009): http://stat-computing.org/dataexpo/2009/the-data.html
- Aeropuertos y sus ubicaciones: http://www.infochimps.com/datasets/airports-and-their-locations
- Sistemas de datos de bicicletas compartidas: https://github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems
- Datos de borde para vuelos nacionales de los EE. UU. De 1990 a 2009: http://data.memect.com/?p=229
- Medio millón de atracciones Hubway: http://hubwaydatachallenge.org/trip-history-data/
- NYC Taxi Trip Data 2013 (FOIA / FOIL): https://archive.org/details/nycTaxiTripData2013
- OpenFlights (aeropuerto, aerolínea y datos de ruta): http://openflights.org/data.html
- Datos de rendimiento de RITA Airline On-Time: http://www.transtats.bts.gov/Tables.asp?DB_ID=120
- Colección de datos de transporte RITA: http://www.transtats.bts.gov/DataIndex.asp
- Transporte para Londres: http://www.tfl.gov.uk/info-for/open-data-users/our-feeds
- Marco de análisis de flete de los EE. UU .: http://ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm
Gobierno
- Archive-it:: https://www.archive-it.org/explore?show=Collections
- Australia: http://www.abs.gov.au/AUSSTATS/[email protected]/DetailsPage/3301.02009?OpenDocument
- Canadá: http://www.data.gc.ca/default.asp?lang=En&n=5BCD274E-1
- Chicago: https://data.cityofchicago.org/
- FDA: https://open.fda.gov/index.html
- Estadísticas de la Fed: http://www.fedstats.gov/cgi-bin/A2Z.cgi
- Los gobiernos mundiales de Guardian: http://www.guardian.co.uk/world-government-data
- HUD: http://www.huduser.org/portal/datasets/pdrdatas.html
- London Datastore, Reino Unido: http://data.london.gov.uk/dataset
- Nueva Zelanda: http://www.stats.govt.nz/browse_for_stats.aspx
- NYC betanyc: http://betanyc.us/
- Datos abiertos de NYC: http://nycplatform.socrata.com/
- OCDE: http://www.oecd.org/document/0,3746,en_2649_201185_46462759_1_1_1_1,00.html
- RITA: http://www.transtats.bts.gov/OT_Delay/OT_DelayCause1.asp
- Conjuntos de datos de San Francisco: http://datasf.org/
- El Banco Mundial: http://wdronline.worldbank.org/
- Datos del gobierno del Reino Unido: http://data.gov.uk/data
- Oficina del Censo de EE. UU .: http://www.census.gov/data.html
- Agencias del gobierno federal de EE. UU .: http://www.data.gov/metric
- Catálogo de datos del gobierno federal de los EE. UU .: http://catalog.data.gov/dataset
- Gobierno Abierto de los Estados Unidos: http://www.data.gov/open-gov/
- Proyecto del Atlas abierto del censo del Reino Unido 2011: http://www.alex-singleton.com/2011-census-open-atlas-project/
- Naciones Unidas: http://data.un.org/
- Conjuntos de datos de salud pública de los CDC de EE. UU .: http://www.cdc.gov/nchs/data_access/ftp_data.htm
Retos de datos
- Desafíos en el aprendizaje automático: http://www.chalearn.org/
- Desafío de Datos ICWSM (desde 2009): http://icwsm.cs.umbc.edu/
- Datos de la competencia Kaggle: http://www.kaggle.com/
- KDD Cup by Tencent 2012: https://www.kddcup2012.org/
- Premio Netflix: http://www.netflixprize.com/leaderboard
- Desafío de Dataset de Yelp: http://www.yelp.com/dataset_challenge
Aprendizaje automático
- Subastas en línea de eBay: http://www.modelingonlineauctions.com/datasets
- Base de datos de IMDb: http://www.imdb.com/interfaces
- Repositorio de Keel: http://sci2s.ugr.es/keel/datasets.php
- Datos del préstamo del club de préstamos: https://www.lendingclub.com/info/download-data.action
- Repositorio del conjunto de datos de aprendizaje automático: http://mldata.org/
- Millones de Dataset de canciones: http://blog.echonest.com/post/3639160982/million-song-dataset
- Más conjuntos de datos de canciones: http://labrosa.ee.columbia.edu/millionsong/pages/additional-datasets
- Conjuntos de datos MovieLens: http://datahub.io/dataset/movielens
- Datos del libro electrónico RDataMining R y Data Mining: http://www.rdatamining.com/data
- Meteoritos registrados en la Tierra: http://www.analyticbridge.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized
- Conjunto de datos de restaurantes SF: http://missionlocal.org/san-francisco-restaurant-health-inspections/
- Repositorio de aprendizaje automático UCI: http://archive.ics.uci.edu/ml/
- Conjuntos de datos de la Universidad de Toronto Delve: http://www.cs.toronto.edu/~delve/data/datasets.html
- Clasificación de Yahoo y datos de clasificación: http://webscope.sandbox.yahoo.com/catalog.php?datatype=r
Lenguaje natural
- 40 millones de entidades en contexto: https://code.google.com/p/wiki-links/downloads/list
- ClueWeb09 FACC: http://lemurproject.org/clueweb09/FACC1/
- ClueWeb12 FACC: http://lemurproject.org/clueweb12/FACC1/
- Taxonomías personales de Flickr: http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
- Ngrams de Google Books: http://aws.amazon.com/datasets/8172056142375670
- Google Web 5gram, 2006 (1T): https://catalog.ldc.upenn.edu/LDC2006T13
- Lista de libros electrónicos de Gutenberg: http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
- Hansards: http://www.isi.edu/natural-language/download/hansard/
- Traducción automática: http://statmt.org/wmt11/translation-task.html#download
- Colección de correo no deseado SMS: http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
- Cuerpo de USENET: http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html
- WordNet: http://wordnet.princeton.edu/wordnet/download/
Procesamiento de imágenes
- 2 GB de fotos de gatos: http://bit.do/UJZZ
- Prueba de reconocimiento facial: http://www.face-rec.org/databases/
- ImageNet: http://www.image-net.org/
Series de tiempo
- Biblioteca de datos de Series temporales: https://datamarket.com/data/list/?q=provider:tsdl
- Serie temporal de UC Riverside: http://www.cs.ucr.edu/~eamonn/time_series_data/
Ciencias Sociales
- Datos de Checkin / out del Hotel China: http://www.360doc.com/content/13/1105/13/7863900_326788919.shtml
- CMU Enron Correo electrónico: http://www.cs.cmu.edu/~enron/
- Redes sociales de Facebook (desde 2007): http://law.di.unimi.it/datasets.php
- Facebook100 (2005): https://archive.org/details/oxford-2005-facebook-matrix
- Foursquare (2010,2011): http://www.public.asu.edu/~hgao16/dataset.html
- Foursquare (UMN / Sarwat, 2013): https://archive.org/details/201309_foursquare_dataset_umn
- Encuesta social general (GSS): http://www3.norc.org/GSS+Website/
- GetGlue (usuarios que califican los programas de TV): http://getglue-data.s3.amazonaws.com/getglue_sample.tar.gz
- Archivo de GitHub: http://www.githubarchive.org/
- ICPSR: http://www.icpsr.umich.edu/icpsrweb/ICPSR/index.jsp
- Redes sociales móviles (UMASS): https://kdl.cs.umass.edu/display/public/Mobile+Social+Networks
- Proyecto de Internet PewResearch: http://www.pewinternet.org/datasets/pages/2/
- Redes sociales: http://www.cs.cmu.edu/~jelsas/data/ancestry.com/
- Gráfico de SourceForge: http://www.nd.edu/~oss/Data/data.html
- Conjunto de datos de supervivencia del Titanic: https://github.com/caesar0301/awesome-public-datasets/blob/master/Datasets/titanic.csv.zip
- Gráfico de Twitter: http://an.kaist.ac.kr/traces/WWW2010.html
- D-Lab Achive de UC Berkeley: http://ucdata.berkeley.edu/
- Archivo de datos de ciencias sociales de la UCLA: http://dataarchives.ss.ucla.edu/Home.DataPortals.htm
- Conjuntos de datos de redes sociales UNIMI: http://law.di.unimi.it/datasets.php
- Universidades en todo el mundo: http://univ.cc/
- UPJOHN para la Investigación del Empleo: http://www.upjohn.org/erdc/erdc.html
- Gráfico de Yahoo y datos sociales: http://webscope.sandbox.yahoo.com/catalog.php?datatype=g
- Gráfico de Youtube (2007,2008): http://netsg.cs.sfu.ca/youtubedata/
Redes complejas
- URL de CrossRef DOI: https://archive.org/details/doi-urls
- Conjunto de datos de citas de DBLP: https://kdl.cs.umass.edu/display/public/DBLP
- NBER Citaciones de patentes: http://nber.org/patents/
- Recolección de datos de redes complejas del NIST: http://math.nist.gov/~RPozo/complex_datasets.html
- Red de interacción proteína-proteína: http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm
- Red de Dependencia PyPI y Maven: http://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/
- Base de datos de citas de Scopus: http://www.elsevier.com/online-tools/scopus
- Stanford GraphBase (Steven Skiena): http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml
- Colección de grandes conjuntos de datos de la red Stanford: http://snap.stanford.edu/data/
- Colección de la red Koblenz: http://konect.uni-koblenz.de/
- Repositorio de datos de red UCI: http://networkdata.ics.uci.edu/resources.php
- Colección de matrices dispersas de UFL: http://www.cise.ufl.edu/research/sparse/matrices/
- Gráfico web grande de UNIMI: http://law.di.unimi.it/datasets.php
- Base de datos de gráficos WSU: http://www.eecs.wsu.edu/mgd/gdb.html
Red de computadoras
- Páginas web 3.5B: http://www.bigdatanews.com/profiles/blogs/big-data-set-3-5-billion-web-pages-made-available-for-all-of-us
- 53.5B clics en la Web: http://cnets.indiana.edu/groups/nan/webtraffic/click-dataset
- Conjuntos de datos de Internet de CAIDA: http://www.caida.org/data/overview/
- ClueWeb09: http://lemurproject.org/clueweb09/
- ClueWeb12: http://lemurproject.org/clueweb12/
- Datos web de CommonCrawl: http://commoncrawl.org/the-data/get-started/
- Conjuntos de datos inalámbricos Dartmouth CRAWDAD: http://crawdad.cs.dartmouth.edu/
- OpenMobileData (MobiPerf): https://console.developers.google.com/storage/openmobiledata_public/
- Telescopio de red UCSD: http://www.caida.org/projects/network_telescope/
Datos SE
- Torrents académicos: http://academictorrents.com/
- Datahub.io: http://datahub.io/dataset
- DataMarket: https://datamarket.com/data/list/?q=all
- Harvard Dataverse: http://thedata.harvard.edu/dvn/
- Statista: http://www.statista.com/
- Freebase: http://www.freebase.com/
Public Doamins
- Amazon: http://aws.amazon.com/datasets
- Conjuntos de datos Archive.org: https://archive.org/details/datasets
- Archivo de datos CMU JASA: http://lib.stat.cmu.edu/jasadata/
- Colecciones de CMU StatLab: http://lib.stat.cmu.edu/datasets/
- Data360: http://www.data360.org/index.aspx
- Datamob.org: http://datamob.org/datasets
- Google: http://www.google.com/publicdata/directory
- infochimps: http://www.infochimps.com/
- Colecciones de datos de KDNuggets: http://www.kdnuggets.com/datasets/index.html
- Numbray: http://numbrary.com/
- Colección RevolutionAnalytics: http://www.revolutionanalytics.com/subscriptions/datasets/
- Conjuntos de datos de muestra R: http://stat.ethz.ch/R-manual/R-patched/library/datasets/html/00Index.html
- Conjuntos de datos Stats4Stem R: http://www.stats4stem.org/data-sets.html
- StatSci.org: http://www.statsci.org/datasets.html
- The Washington Post List: http://www.washingtonpost.com/wp-srv/metro/data/datapost.html
- Colección de datos UCLA SOCR: http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data
- Informes OVNI: http://www.nuforc.org/webreports.html
- Intersecciones del buscapersonas de Wikileaks 911: http://911.wikileaks.org/files/index.html
- Yahoo Webscope: http://webscope.sandbox.yahoo.com/catalog.php
Colecciones Complementarias
- DataWrangling: http://www.datawrangling.com/some-datasets-available-on-the-web
- Inside-r: http://www.inside-r.org/howto/finding-data-internet
- Quora: http://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
- RS Collection 100+: http://rs.io/2014/05/29/list-of-data-sets.html
- StaTrek: http://hsiamin.com/posts/2014/10/23/leveraging-open-data-to-understand-urban-lives/
Bueno, este es nuevo y hay un desafío detrás de él:
Bueno, para los registros del servidor web siempre puedes generarlos para el formato que necesites. Si va a probar el código en su contra, etc., tendrá que adaptarse a los campos que desea almacenar / analizar.
Para los conjuntos de datos utilizados para la evaluación comparativa del rendimiento de la base de datos, es probable que desee ver una herramienta que pueda generar datos para usted. Red Gate tiene una excelente para no demasiado dinero.
Google Fusion Tables tiene algunos.
Kaggle.com frecuentemente tiene desafíos de minería de datos. Los conjuntos de datos cubren una amplia gama de datos: datos de proveedores de atención médica a información de historial de crédito. Quizás algo es lo que estás buscando.
Los conjuntos de datos disponibles http://www.kdnuggets.com/datasets/index.html también.
Me sorprende que nadie haya mencionado Google N-Grams. Más sobre N-Grams en http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html
Solo un pensamiento:
- Base de datos de nombres geográficos de USGS
- Lista de comprobación de las plantas de USDA
- Cualquiera de los muchos repositorios estatales de SIG, por ejemplo, GRANIT de NH
Tal vez algunas bases de datos utilizadas como conjuntos de entrenamiento para algoritmos de reconocimiento facial: http://www.face-rec.org/databases/
http://Quandl.com tiene más de 10 millones de conjuntos de datos recopilados de todo Internet. Lo mejor de este recurso es que brinda una forma única de acceder a todos los datos. El sitio tiene un complemento de Excel gratuito o hay bibliotecas en R, Python, Ruby, etc.