vocab survival sets datasets data r statistics dataset

datasets - survival data sets



Conjuntos de datos para ejecutar el análisis estadístico en (17)

¿Qué conjuntos de datos existen en Internet en los que puedo realizar análisis estadísticos?



Aquí hay un paquete R con varios conjuntos de datos agrícolas de libros y documentos. Ejemplos de análisis incluidos: agridat


He visto en sus otras preguntas que aparentemente está interesado en la visualización de datos. Eche un vistazo al proyecto muchos ojos (de IBM) y los conjuntos de datos de muestra.



Otro buen sitio es UN Data .

La División de Estadísticas de las Naciones Unidas (UNSD) del Departamento de Asuntos Económicos y Sociales (DESA) lanzó un nuevo servicio de datos basado en Internet para la comunidad global de usuarios. Permite que las bases de datos estadísticos de las Naciones Unidas estén al alcance de los usuarios a través de un único punto de entrada ( http://data.un.org/ ). Los usuarios ahora pueden buscar y descargar una variedad de recursos estadísticos del sistema de las Naciones Unidas.






Un buen comienzo para buscar datos económicos son siempre las siguientes tres direcciones:

Puede encontrar un buen resumen de enlaces de conjuntos de datos para economistas de desarrollo en:

Editar:

La semana pasada, el Banco Mundial decidió abrir muchos de sus conjuntos de datos que antes no eran gratuitos y los publicó en línea en su página de inicio revisada. La nueva apariencia de internet se ve bastante bien también.


Una amplia selección en la web. Por ejemplo, aquí hay un directorio masivo de bases de datos de deportes (todos brindando los datos de forma gratuita, al menos esa es mi experiencia). En ese directorio está databaseBaseball.com, que contiene, entre otras cosas, conjuntos de datos completos para cada jugador que haya jugado béisbol profesional desde 1915.

StatLib es otro recurso excelente, hermosamente conveniente. Esta única StatLib enumera de 4 a 5 resúmenes de línea de más de cien bases de datos, todas las cuales están disponibles en forma de archivo sin formato simplemente haciendo clic en el enlace "Tabla" al comienzo de cada resumen de conjunto de datos.

La distribución básica de R viene preempaquetada con una colección grande y variada de datos (122 en R 2.10). Para obtener una lista de ellos (así como una descripción de una línea):

data(package="datasets")

Del mismo modo, la mayoría de los paquetes vienen con varios conjuntos de datos (a veces mucho más). Puedes verlos de la misma manera:

data(package="latticeExtra") data(package="vcd")

Estos conjuntos de datos son los que se mencionan en los manuales de paquetes y las viñetas para un paquete determinado, y se utilizan para ilustrar las características del paquete.

Algunos paquetes de R con muchos conjuntos de datos (que a su vez son fáciles de escanear para que pueda elegir lo que más le interese): AER, DAAG y vcd.

Otra cosa que encuentro tan impresionante sobre R es su E / S. Supongamos que desea obtener algunos datos financieros muy específicos a través de la API de finanzas de yahoo. Digamos que cerrar el precio de apertura y cierre de S&P 500 para cada mes desde 2001 hasta 2009, solo haga esto:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?", "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))

En esta línea de código, R ha recuperado los datos de tic, lo ha configurado en un marco de datos y lo ha enlazado a "tick_data". (Aquí hay una hoja de trucos muy útil con los símbolos de Yahoo Finance API utilizados para crear las URL como se muestra arriba)



El repositorio de aprendizaje automático de UC Irvine tiene actualmente 190 conjuntos de datos.

El repositorio de aprendizaje automático de UCI es una colección de bases de datos, teorías de dominio y generadores de datos que la comunidad de aprendizaje automático utiliza para el análisis empírico de los algoritmos de aprendizaje automático.



http://www.data.gov.uk/data

Configuración reciente por Tim Berners-Lee

Obviamente los datos basados ​​en el Reino Unido, pero eso no debería importar. Cubre todo, desde autos abandonados hasta ausentismo escolar e índices de precios agrícolas.



El paquete de datasets se incluye con la base R. Ejecute este comando para ver una lista completa:

library(help="datasets")

Más allá de eso, hay muchos paquetes que pueden extraer datos y muchos otros que contienen datos importantes. De estos, es posible que desee comenzar mirando el paquete HistData , que "proporciona una colección de pequeños conjuntos de datos que son interesantes e importantes en el historial de estadísticas y visualización de datos".

Para datos financieros, el paquete quantmod proporciona una interfaz común para extraer datos de series de tiempo de google, yahoo, FRED y otros:

library(quantmod) getSymbols("YHOO",src="google") # from google finance getSymbols("GOOG",src="yahoo") # from yahoo finance getSymbols("DEXUSJP",src="FRED") # FX rates from FRED

FRED ( la Reserva Federal de St. Louis ) es realmente una mina de datos económicos gratuitos.

Muchos paquetes R vienen con datos que son específicos para su objetivo. Entonces, si está interesado en la genética, los modelos multinivel, etc., los paquetes relevantes con frecuencia tendrán el ejemplo canónico para ese análisis. Además, los paquetes de libros normalmente se envían con los datos necesarios para reproducir todos los ejemplos.

Aquí hay algunos ejemplos de paquetes relevantes:

  • alr3 : incluye datos para acompañar la Regresión lineal aplicada ( http://www.stat.umn.edu/alr )
  • arm : incluye algunos datos del "Análisis de datos usando regresión y modelos multinivel / jerárquicos" de Gelman (el resto de los datos y el código se encuentran en el sitio web del libro )
  • BaM : incluye datos de "Métodos bayesianos: un enfoque de las ciencias sociales y del comportamiento"
  • BayesDA : incluye datos del "Análisis de Datos Bayesianos" de Gelman
  • cat : incluye datos para el análisis de conjuntos de datos de variables categóricas
  • cimis : de la recuperación de datos de CIMIS, el Sistema de Información de Gestión de Riego de California
  • cshapes : incluye datos y límites de datos GIS
  • ecdat : conjuntos de datos para econometría
  • ElemStatLearn : incluye datos de "Los elementos del aprendizaje estadístico, minería de datos, inferencia y predicción"
  • emdbook : datos de "Modelos y datos ecológicos"
  • Fahrmeir : datos del libro "Modelado estadístico multivariante basado en modelos lineales generalizados"
  • fEcoFin : "Conjuntos de datos económicos y financieros" para Rmetrics
  • fds : conjuntos de datos funcionales
  • fma : conjuntos de datos de "Pronóstico: métodos y aplicaciones"
  • gamair : datos para "Modelos de aditivos generalizados: una introducción con R"
  • geomapdata : datos para mapeo topográfico y geológico
  • nutshell : contiene todos los datos del libro "R en una cáscara de nuez"
  • nytR : proporciona acceso a los datos de votación del Congreso a través de la API de NY Times
  • openintro : datos del libro
  • primer : incluye datos para "Un Primer de Ecología con R"
  • qtlbook : incluye datos para el libro R / qtl
  • RGraphics : incluye datos del libro "R Graphics"
  • Read.isi : acceso a datos antiguos de la Encuesta Mundial de Fertilidad