Análisis de datos de medición de software
Después de recopilar los datos relevantes, tenemos que analizarlos de manera adecuada. Hay tres elementos principales a considerar para elegir la técnica de análisis.
- La naturaleza de los datos
- El propósito del experimento
- Consideraciones de diseño
La naturaleza de los datos
Para analizar los datos, también debemos mirar la población más grande representada por los datos, así como la distribución de esos datos.
Muestreo, población y distribución de datos
El muestreo es el proceso de seleccionar un conjunto de datos de una gran población. Las estadísticas de muestra describen y resumen las medidas obtenidas de un grupo de sujetos experimentales.
Los parámetros de población representan los valores que se obtendrían si se midieran todos los sujetos posibles.
La población o muestra se puede describir mediante las medidas de tendencia central como media, mediana y moda y medidas de dispersión como la varianza y la desviación estándar. Muchos conjuntos de datos se distribuyen normalmente como se muestra en el siguiente gráfico.
Como se muestra arriba, los datos se distribuirán uniformemente sobre la media. que son las características significativas de una distribución normal.
También existen otras distribuciones en las que los datos están sesgados, por lo que hay más puntos de datos en un lado de la media que en el otro. Por ejemplo: si la mayoría de los datos están presentes en el lado izquierdo de la media, entonces podemos decir que la distribución está sesgada hacia la izquierda.
El propósito del experimento
Normalmente, los experimentos se llevan a cabo:
- Para confirmar una teoría
- Para explorar una relación
Para lograr cada uno de estos, el objetivo debe expresarse formalmente en términos de la hipótesis, y el análisis debe abordar la hipótesis directamente.
Para confirmar una teoría
La investigación debe estar diseñada para explorar la verdad de una teoría. La teoría suele afirmar que el uso de un determinado método, herramienta o técnica tiene un efecto particular en los sujetos, haciéndolo mejor de alguna manera que de otra.
Hay dos casos de datos a considerar: normal data y non-normal data.
Si los datos son de una distribución normal y hay dos grupos para comparar, entonces se puede usar la prueba t de Student para el análisis. Si hay más de dos grupos para comparar, se puede usar una prueba de análisis de varianza general llamada estadística F.
Si los datos no son normales, entonces los datos se pueden analizar mediante la prueba de Kruskal-Wallis clasificándolos.
Para explorar una relación
Las investigaciones están diseñadas para determinar la relación entre los puntos de datos que describen una o varias variables.
Hay tres técnicas para responder a las preguntas sobre una relación: diagramas de caja, diagramas de dispersión y análisis de correlación.
UN box plot puede representar el resumen del rango de un conjunto de datos.
UN scatter plot representa la relación entre dos variables.
Correlation analysis utiliza métodos estadísticos para confirmar si existe una verdadera relación entre dos atributos.
Para valores distribuidos normalmente, utilice Pearson Correlation Coefficient para comprobar si las dos variables están altamente correlacionadas o no.
Para datos no normales, clasifique los datos y use el Spearman Rank Correlation Coefficientcomo medida de asociación. Otra medida para los datos no normales es laKendall robust correlation coefficient, que investiga la relación entre pares de puntos de datos y puede identificar una correlación parcial.
Si la clasificación contiene una gran cantidad de valores empatados, chi-squared testen una tabla de contingencia se puede utilizar para probar la asociación entre las variables. Similar,linear regression se puede utilizar para generar una ecuación que describa la relación entre las variables.
Para más de dos variables, multivariate regression puede ser usado.
Consideraciones de diseño
El diseño de la investigación debe tenerse en cuenta al elegir las técnicas de análisis. Al mismo tiempo, la complejidad del análisis puede influir en el diseño elegido. Varios grupos utilizan estadísticas F en lugar de la prueba T de Student con dos grupos.
Para diseños factoriales complejos con más de dos factores, se necesita una prueba más sofisticada de asociación y significación.
Las técnicas estadísticas se pueden utilizar para explicar el efecto de un conjunto de variables sobre otras, o para compensar los efectos de tiempo o aprendizaje.