datasets - survival data sets
Conjuntos de datos para ejecutar el análisis estadístico en (17)
¿Qué conjuntos de datos existen en Internet en los que puedo realizar análisis estadísticos?
¿Ha considerado volcado de datos desbordamiento de datos ?
Ya está familiarizado con lo que representan los datos, es decir, la lógica empresarial que rastrea
Aquí hay un paquete R con varios conjuntos de datos agrícolas de libros y documentos. Ejemplos de análisis incluidos: agridat
He visto en sus otras preguntas que aparentemente está interesado en la visualización de datos. Eche un vistazo al proyecto muchos ojos (de IBM) y los conjuntos de datos de muestra.
La FAO ofrece la base de datos aquastat con datos con varios indicadores relacionados con el agua diferenciados por país.
El Portal de Oceanografía Naval ofrece, por ejemplo, Fracción de la Luna Iluminada .
El blog "curva de normalidad" tiene una lista de fuentes de datos interesantes .
Otro buen sitio es UN Data .
La División de Estadísticas de las Naciones Unidas (UNSD) del Departamento de Asuntos Económicos y Sociales (DESA) lanzó un nuevo servicio de datos basado en Internet para la comunidad global de usuarios. Permite que las bases de datos estadísticos de las Naciones Unidas estén al alcance de los usuarios a través de un único punto de entrada ( http://data.un.org/ ). Los usuarios ahora pueden buscar y descargar una variedad de recursos estadísticos del sistema de las Naciones Unidas.
Puedes ver este post en FlowingData
Recopilación de más de 800 conjuntos de datos en formato ARFF comprendido por Weka y otros paquetes de análisis de datos, reunidos en el repositorio de TunedIT.org.
Se puede encontrar un paquete de 268 archivos de texto pequeños (los ejemplos de "The R Book"
) en el sitio web complementario de The R Book .
Similar a data.gov, pero centrado en Europa es eurostat
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database
y hay un departamento de estadísticas de China, también, como lo menciona Wildebeests
http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm
Luego hay algunos "servicios de datos sociales" que ofrecen la descarga de conjuntos de datos, tales como giratorio, muchos ojos, timetric, ckan, infochimps ..
Un buen comienzo para buscar datos económicos son siempre las siguientes tres direcciones:
- Banco Mundial - Conjuntos de datos de investigación
- FMI - Datos y estadísticas
- Oficina Nacional de Investigación Económica
Puede encontrar un buen resumen de enlaces de conjuntos de datos para economistas de desarrollo en:
Editar:
La semana pasada, el Banco Mundial decidió abrir muchos de sus conjuntos de datos que antes no eran gratuitos y los publicó en línea en su página de inicio revisada. La nueva apariencia de internet se ve bastante bien también.
Una amplia selección en la web. Por ejemplo, aquí hay un directorio masivo de bases de datos de deportes (todos brindando los datos de forma gratuita, al menos esa es mi experiencia). En ese directorio está databaseBaseball.com, que contiene, entre otras cosas, conjuntos de datos completos para cada jugador que haya jugado béisbol profesional desde 1915.
StatLib es otro recurso excelente, hermosamente conveniente. Esta única StatLib enumera de 4 a 5 resúmenes de línea de más de cien bases de datos, todas las cuales están disponibles en forma de archivo sin formato simplemente haciendo clic en el enlace "Tabla" al comienzo de cada resumen de conjunto de datos.
La distribución básica de R viene preempaquetada con una colección grande y variada de datos (122 en R 2.10). Para obtener una lista de ellos (así como una descripción de una línea):
data(package="datasets")
Del mismo modo, la mayoría de los paquetes vienen con varios conjuntos de datos (a veces mucho más). Puedes verlos de la misma manera:
data(package="latticeExtra")
data(package="vcd")
Estos conjuntos de datos son los que se mencionan en los manuales de paquetes y las viñetas para un paquete determinado, y se utilizan para ilustrar las características del paquete.
Algunos paquetes de R con muchos conjuntos de datos (que a su vez son fáciles de escanear para que pueda elegir lo que más le interese): AER, DAAG y vcd.
Otra cosa que encuentro tan impresionante sobre R es su E / S. Supongamos que desea obtener algunos datos financieros muy específicos a través de la API de finanzas de yahoo. Digamos que cerrar el precio de apertura y cierre de S&P 500 para cada mes desde 2001 hasta 2009, solo haga esto:
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
"s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))
En esta línea de código, R ha recuperado los datos de tic, lo ha configurado en un marco de datos y lo ha enlazado a "tick_data". (Aquí hay una hoja de trucos muy útil con los símbolos de Yahoo Finance API utilizados para crear las URL como se muestra arriba)
Vea la competencia de datos establecida por Hadley Wickham para la Exposición de datos de la sección Informática estadística y gráficos estadísticos de ASA . La competencia ha terminado, los datos siguen ahí.
El repositorio de aprendizaje automático de UC Irvine tiene actualmente 190 conjuntos de datos.
El repositorio de aprendizaje automático de UCI es una colección de bases de datos, teorías de dominio y generadores de datos que la comunidad de aprendizaje automático utiliza para el análisis empírico de los algoritmos de aprendizaje automático.
Configuración reciente por Tim Berners-Lee
Obviamente los datos basados en el Reino Unido, pero eso no debería importar. Cubre todo, desde autos abandonados hasta ausentismo escolar e índices de precios agrícolas.
http://www.data.gov/ probablemente tiene algo que puedes usar.
En su catálogo de datos sin procesar puede establecer sus criterios para los datos y encontrar lo que está buscando en http://www.data.gov/catalog/raw
El paquete de datasets
se incluye con la base R. Ejecute este comando para ver una lista completa:
library(help="datasets")
Más allá de eso, hay muchos paquetes que pueden extraer datos y muchos otros que contienen datos importantes. De estos, es posible que desee comenzar mirando el paquete HistData , que "proporciona una colección de pequeños conjuntos de datos que son interesantes e importantes en el historial de estadísticas y visualización de datos".
Para datos financieros, el paquete quantmod
proporciona una interfaz común para extraer datos de series de tiempo de google, yahoo, FRED y otros:
library(quantmod)
getSymbols("YHOO",src="google") # from google finance
getSymbols("GOOG",src="yahoo") # from yahoo finance
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
FRED ( la Reserva Federal de St. Louis ) es realmente una mina de datos económicos gratuitos.
Muchos paquetes R vienen con datos que son específicos para su objetivo. Entonces, si está interesado en la genética, los modelos multinivel, etc., los paquetes relevantes con frecuencia tendrán el ejemplo canónico para ese análisis. Además, los paquetes de libros normalmente se envían con los datos necesarios para reproducir todos los ejemplos.
Aquí hay algunos ejemplos de paquetes relevantes:
- alr3 : incluye datos para acompañar la Regresión lineal aplicada ( http://www.stat.umn.edu/alr )
- arm : incluye algunos datos del "Análisis de datos usando regresión y modelos multinivel / jerárquicos" de Gelman (el resto de los datos y el código se encuentran en el sitio web del libro )
- BaM : incluye datos de "Métodos bayesianos: un enfoque de las ciencias sociales y del comportamiento"
- BayesDA : incluye datos del "Análisis de Datos Bayesianos" de Gelman
- cat : incluye datos para el análisis de conjuntos de datos de variables categóricas
- cimis : de la recuperación de datos de CIMIS, el Sistema de Información de Gestión de Riego de California
- cshapes : incluye datos y límites de datos GIS
- ecdat : conjuntos de datos para econometría
- ElemStatLearn : incluye datos de "Los elementos del aprendizaje estadístico, minería de datos, inferencia y predicción"
- emdbook : datos de "Modelos y datos ecológicos"
- Fahrmeir : datos del libro "Modelado estadístico multivariante basado en modelos lineales generalizados"
- fEcoFin : "Conjuntos de datos económicos y financieros" para Rmetrics
- fds : conjuntos de datos funcionales
- fma : conjuntos de datos de "Pronóstico: métodos y aplicaciones"
- gamair : datos para "Modelos de aditivos generalizados: una introducción con R"
- geomapdata : datos para mapeo topográfico y geológico
- nutshell : contiene todos los datos del libro "R en una cáscara de nuez"
- nytR : proporciona acceso a los datos de votación del Congreso a través de la API de NY Times
- openintro : datos del libro
- primer : incluye datos para "Un Primer de Ecología con R"
- qtlbook : incluye datos para el libro R / qtl
- RGraphics : incluye datos del libro "R Graphics"
- Read.isi : acceso a datos antiguos de la Encuesta Mundial de Fertilidad