statistics - superponer - ¿Cómo calculo estas estadísticas?
superponer graficas en r (6)
¿Puede explicar más por qué SPSS en sí no es una buena solución al problema? ¿Es que genera tablas dinámicas como salida que son difíciles de manipular? ¿Es el costo del programa?
Las estadísticas F pueden surgir a partir de cualquier cantidad de pruebas particulares. La F es solo una distribución (sin apretar: una descripción de las "frecuencias" de grupos de valores), como una Normal (Gaussiana) o Uniforme. En general, surgen de razones de varianzas. Opinión: muchos estadísticos (yo incluido), encuentran que las pruebas basadas en F son inestables (jerga: no robusta ).
Las estadísticas de salida particulares (la huella de Pillai, etc.) sugieren que el análisis original es un ejemplo de MANOVA, que como otros carteles describen es un procedimiento complicado y difícil de obtener.
También creo que, basado en el MANOVA, y el uso de SPSS, este es un proyecto de psicología o sociología ... si no, por favor, ilumínalo. Podría ser que otros modelos más simples en realidad podrían ser más fáciles de entender y más repetibles. Consulte a su grupo local de consultoría estadística de la universidad, si tiene uno.
¡Buena suerte!
Estoy escribiendo una aplicación para ayudar a facilitar algunas investigaciones, y parte de esto implica hacer algunos cálculos estadísticos. En este momento, los investigadores están usando un programa llamado SPSS . Parte de la salida que les importa se ve así:
En realidad, solo les preocupan las F
y las Sig.
valores. Mi problema es que no tengo experiencia en estadísticas, y no puedo entender cómo se llaman las pruebas ni cómo calcularlas.
Pensé que el valor F
podría ser el resultado de la prueba F , pero después de seguir los pasos dados en Wikipedia, obtuve un resultado que era diferente de lo que ofrece SPSS
.
Aquí hay una explicación de la salida de MANOVA, de un muy buen sitio sobre estadísticas y sobre SPSS:
Salida con explicación: http://faculty.chass.ncsu.edu/garson/PA765/manospss.htm
Cómo y por qué hacer MANOVA o GLM multivariante: (mismo camino que el anterior, pero terminando en ''/manova.htm'')
Escribir software desde cero para calcular estos resultados sería largo y difícil; hay muchos problemas numéricos e inversiones de matriz que hacer.
Como dijo Henry, use scripts de Python, o R. Sugeriría que trabaje con alguien que conozca SPSS si está escribiendo. Además, SPSS en sí mismo es capaz de exportar las tablas de salida a archivos usando algo llamado OMS. Un script dentro de SPSS puede hacer esto.
Averigüe quién en su grupo de investigación conoce SPSS y trabaje con ellos.
En resumen: no haga esto a mano, enlace / use el software existente. Y la respuesta de sain_grocen es incorrecta. :(
Estas son todas las pruebas de la importancia de las estimaciones de los parámetros que se utilizan generalmente en la respuesta multivariada Regresiones múltiples. Estas no serían cosas simples que hacer fuera de un entorno de programación estadística. Sugeriría obtener el resultado de un programa estadístico preexistente o usar uno que pueda vincular y usar ese código.
Me temo que la primera respuesta (sain_grocen) te llevará por el camino equivocado. Su explicación es probable de un caso especial de lo que realmente está tratando. La anova explicada en sus enlaces es para una única respuesta variable, en un diseño equilibrado. Estas no son las estadísticas F que estás viendo. Los nombres en su salida (Pillai''s Trace, Hotelling''s Trace, ...) son algunas de las versiones multivariables disponibles. Tienen distribuciones F bajo ciertas suposiciones. No puedo explicar el valor de los libros de texto aquí. Le aconsejo que empiece consultando el "Análisis Estadístico Multivariante Aplicado" de Johnson and Wichern.
Las estadísticas son difíciles :-). Después de un año leyendo y volviendo a leer libros y periódicos, solo puedo decir con confianza que entiendo lo básico.
Es posible que desee investigar las bibliotecas preparadas para cualquier lenguaje de programación que esté utilizando, porque son muchas las que se obtienen en matemáticas en general y estadísticas en particular (los errores de redondeo son un ejemplo obvio).
Como ejemplo, podría echarle un vistazo al proyecto R , que es a la vez un entorno interactivo y una biblioteca que puede usar desde su código C ++, distribuido bajo la GPL (es decir, si lo está utilizando solo internamente y publica solo los resultados, no necesitas abrir tu código).
Supongo por su pregunta que sus colegas de investigación desean automatizar el proceso mediante el cual se realizan ciertos análisis estadísticos (es decir, quieren procesar conjuntos de datos por lotes). Tienes dos opciones:
1) SPSS ahora es programable a través de python (a partir de la versión 15): vaya a spss.com y busque python. Puede escribir secuencias de comandos de Python para automatizar análisis de datos y extraer valores clave de tablas dinámicas, y luego procesar las respuestas de la forma que desee. Esto tiene la virtud de permitir una comparación exacta entre los resultados de su secuencia de comandos python y los esfuerzos calculados a mano en SPSS de sus colaboradores. Por lo tanto, no tendrá que saber realmente ninguna estadística para hacer este trabajo (que es una ventaja clave)
2) Usted podría hacer esto en R, un entorno de estadísticas gratuito, que probablemente podría tener un script. Esto tiene la desventaja de que tendrá que aprender las estadísticas para asegurarse de estar haciéndolo correctamente.
Este sitio web podría ayudarlo un poco más. También este .
Estoy trabajando desde un recuerdo bastante oxidado de un curso de estadística, pero aquí no pasa nada:
Cuando se realiza el análisis de varianza (ANOVA), se calcula realmente el estadístico F como la relación entre las varianzas de media cuadrática "entre los grupos" y las varianzas de media cuadrática "dentro de los grupos". El segundo enlace anterior parece bastante bueno para este cálculo.
Esto hace que la estadística F mida exactamente qué tan poderoso es su modelo, porque la varianza "entre los grupos" es poder explicativo, y la variación "dentro de los grupos" es un error aleatorio. High F implica un modelo altamente significativo.
Como en muchas operaciones estadísticas, usted vuelve a determinar Sig. usando la estadística F Aquí es donde su información de Wikipedia es muy útil. Lo que quiere hacer es usar los grados de libertad que le otorga SPSS, encuentre el valor de P adecuado en el que una tabla F le dará la estadística F que calculó. El valor P donde ocurre esto [F (tabla) = F (calculado)] es el significado.
Conceptualmente, un valor de significación menor muestra una capacidad muy fuerte para rechazar la hipótesis nula (que para estos fines significa determinar que su modelo tiene poder explicativo).
Lo siento por cualquier persona de matemáticas si algo de esto está mal. Estaré revisando para hacer ediciones!
Buena suerte para ti. Stats es divertido, tal vez no esta parte. =)