La estadística se trata de crear modelos para explicar lo que está pasando en el mundo. Pero ¿qué tan buenos somos en eso? Quiero decir, los números solo son buenos para muchas cosas, ¿verdad? ¿Cómo sabemos si están contando la historia correcta?
Entre en el famoso mundo de las estadísticas de pruebas.
El objetivo de una estadística de prueba es determinar qué tan bien se ajusta el modelo a los datos. Piénsalo un poco como ropa. Cuando estás en la tienda, el maniquí te dice cómo se supone que debe verse la ropa (el modelo teórico). Cuando llegas a casa, los pruebas y ves cómo se ven realmente (el modelo basado en datos). La estadística de prueba te dice si la diferencia entre ellos (porque definitivamente no me parezco al maniquí.) es significativo.
En otro post, discutí la naturaleza de la investigación correlacional y experimental. La regresión lineal, la regresión múltiple y la regresión logística son todos tipos de modelos lineales que correlacionan variables que ocurren simultáneamente. Sin embargo, los modelos experimentales se refieren a modelos de causa-efecto, o al menos modelos que establecen una diferencia significativa entre los casos.
Las estadísticas de las pruebas calculan si hay una diferencia significativa entre los grupos. Muy a menudo, las estadísticas de prueba se utilizan para ver si el modelo que se crea es diferente del modelo ideal de la población. Por ejemplo, ¿la ropa se ve significativamente diferente en el maniquí que en ti? Echemos un vistazo a los dos tipos más comunes de estadísticas de pruebas: prueba t y prueba F.
La prueba t es una estadística de prueba que compara las medias de dos grupos diferentes. Hay un montón de casos en los que es posible que desee comparar el rendimiento del grupo, como los resultados de las pruebas, los ensayos clínicos o incluso la felicidad de los diferentes tipos de personas en diferentes lugares. Por supuesto, los diferentes tipos de grupos y configuraciones requieren diferentes tipos de pruebas. El tipo de prueba t que puede necesitar depende del tipo de muestra que tenga.
Si sus dos grupos son del mismo tamaño y está realizando una especie de experimento antes y después, realizará lo que se denomina Prueba t de Muestra Dependiente o Emparejada. Si los dos grupos son de diferentes tamaños o si está comparando dos medias de eventos separadas, realice una prueba t de muestra independiente.
Prueba t de Muestra dependiente o Emparejada
Soy una persona bastante introvertida. Soy tan introvertida que tengo ansiedad extrema en situaciones sociales que justifican un perro de terapia llamado Chloe. Y es bastante adorable.
Ahora, un montón de gente tiene perros de terapia para aliviar la ansiedad. Digamos que mides la ansiedad de las personas sin sus perros de terapia y con sus perros de terapia en una escala de 1 (baja) a 5 (alta) para determinar si los perros de terapia reducen significativamente la ansiedad para personas como yo. Para mayor comodidad, obtiene los siguientes datos
A primera vista, parece que hay una clara diferencia entre el nivel de ansiedad de las personas con y sin sus perros de terapia. Usted quiere saltar a la conclusión de que nuestro modelo (hacen una diferencia) es diferente de la hipótesis nula (no lo hacen). Pero espera, quieres tener algunos datos estadísticos para respaldar esa afirmación. Así que haces una prueba t.
Una prueba t es una forma de análisis estadístico que compara la media medida con la media de la población, o una media basal, en términos de desviación estándar. Dado que estamos tratando con el mismo grupo de personas en un tipo de situación de antes y después, desea realizar una prueba t dependiente. Puede pensar en el escenario sin como una línea de base para el escenario con.
La ecuación de prueba t tradicional se parece a
La hipótesis nula establece que no debe haber diferencia entre las dos medias de muestra. Eso significa que μ1-μ2 = 0 nos da
Pero, ¿qué haces con este número? Bueno, consultarás la tabla mística de la Tabla t. En la parte superior de la tabla está la probabilidad de error que está dispuesto a aceptar. En otras palabras, ¿cuál es la posibilidad de que se equivoque? A un lado de la mesa están los grados de libertad. En este caso, tienes 46 grados de libertad porque tienes dos grupos con 24 participantes cada uno.
La tabla t indica que el valor crítico para 46 grados de libertad y el error de 0,05% es 2,013. Su valor t calculado está por encima de eso, lo que indica que sus medias son significativamente diferentes. Basado en mis datos ficticios completamente aleatorios, la media más baja de ansiedad que muestran las personas con sus perros de terapia es lo suficientemente diferente como para ser significativa, también conocida como estadísticamente significativa.
Supongo que Chloe es buena para mí, jajaja.
Prueba t de muestra independiente
El caso de las pruebas de muestra independientes es un poco diferente. Este estilo de prueba es el más adecuado para diseños experimentales, o aquellos diseños que comparan grupos con diferentes conjuntos de participantes. El beneficio es que los grupos no tienen que ser de igual tamaño. Veamos otro ejemplo estadístico.
Finjamos por un momento que usted (por alguna razón loca) quiere saber si la gente está más ansiosa en la clase de estadística que en otra clase, digamos de inglés. Así que encuentra algunos voluntarios dispuestos y mide su frecuencia cardíaca durante cada clase. Es importante tener en cuenta que ninguna de las clases tendrá los mismos participantes. Sus datos se parecen un poco a esto
Hay una diferencia,pero ¿es suficiente? Cuando calcule el valor t y encuentre que es 1.92, compare esto con la tabla t en la marca 40, observe que está por debajo del valor crítico. Esto significa que si bien hay una diferencia, no es una diferencia significativa.
Supongo que las estadísticas no son demasiado estresantes después de todo.
La función de la prueba t es determinar si dos grupos son diferentes entre sí. Solo recuerde que las pruebas t dependientes se usan mejor para grupos que tienen los mismos participantes, mientras que las pruebas t independientes se usan para grupos con diferentes participantes.
Estadística de prueba F
Pero John, ¿qué pasa si quiero probar algo más? Como un modelo?
¡Esa es una pregunta fantástica!
A veces queremos comparar un modelo que hemos calculado con una media. Por ejemplo, supongamos que ha calculado un modelo de regresión lineal. Recuerde que la media también es un modelo que se puede usar para explicar los datos.
La prueba F es una forma de comparar el modelo que hemos calculado con la media general de los datos. Similar a la prueba t, si es mayor que un valor crítico, el modelo es mejor para explicar los datos que la media.
Antes de entrar en lo esencial de la prueba F, tenemos que hablar de la suma de cuadrados. Echemos un vistazo a un ejemplo de algunos datos que ya tienen una línea de mejor ajuste.
La prueba F compara lo que se llama la suma media de cuadrados para los residuos del modelo y la media general de los datos. Hecho de parte, los residuos son la diferencia entre el punto de datos real u observado y el punto de datos predicho.
En el caso del gráfico (a), se observan los residuos de los puntos de datos y la media global de la muestra. En el caso del gráfico (c), está mirando los residuos de los puntos de datos y el modelo que calculó a partir de los datos. Pero en el gráfico (b), está mirando los residuos del modelo y la media de la muestra general.
La suma de cuadrados es una medida de cómo se comparan los residuos con el modelo o la media, dependiendo de con cuál estemos trabajando. Hay tres que nos preocupan.
La suma de cuadrados de los residuos (SSR) es la suma de los cuadrados de los residuos entre los puntos de datos y las líneas de regresión reales, como el gráfico (c). Se cuadran para compensar los valores negativos. SSR se calcula por
La suma de cuadrados del total (SST) es la suma de los cuadrados de los residuos entre los puntos de datos y la media de la muestra, como el gráfico (a). Se cuadran para compensar los valores negativos. SST se calcula por
Es importante tener en cuenta que, si bien las ecuaciones pueden tener el mismo aspecto a primera vista, hay una distinción importante. La ecuación SSR involucra el valor predicho, por lo que la segunda Y tiene un poco de zanahoria sobre ella (pronunciado Y-hat). La ecuación SST involucra la media de la muestra, por lo que la segunda Y tiene una pequeña barra sobre ella (pronunciada Y-bar). No olvides esta distinción tan importante.
La diferencia entre los dos (SSR-SST) le dirá la suma total de cuadrados para el modelo en sí, como el gráfico (b). Esto es lo que buscamos para finalmente comenzar a calcular el valor F real.
Estos valores de suma de cuadrados nos dan una idea de cuánto varía el modelo de los valores observados, lo que es útil para determinar si el modelo es realmente bueno para la predicción. El siguiente paso en el proceso de prueba F es calcular la media de cuadrados para los residuos y para el modelo.
Para calcular la media de cuadrados del modelo, o MSM, necesita conocer los grados de libertad para el modelo. Afortunadamente, es bastante sencillo. Los grados de libertad para el modelo es el número de variables en el modelo! A continuación, siga la fórmula MSM = SSM ÷ dfmodel
Para calcular la media de cuadrados de los residuos, o MSR, necesita conocer los grados de libertad en el tamaño de la muestra. Los grados de libertad en el tamaño de la muestra son siempre N-1. A continuación, simplemente siga la fórmula MSR = SSR ÷ dfresiduals
Ok, ha hecho un montón de cálculos hasta ahora. Estoy orgulloso de ti porque sé que no es súper divertido. Pero es muy importante saber de dónde vienen estos valores porque ayuda a entender cómo funcionan. ¡Porque ahora vamos a ver cómo se calcula la estadística F!
Este cálculo le da una relación de la predicción del modelo con la media regular de los datos. Luego comparas esta relación con una tabla de distribución F como lo harías con la estadística t. Si el valor calculado excede el valor crítico de la tabla, el modelo es significativamente diferente de la media de los datos y, por lo tanto, explica mejor los patrones en los datos.
Las estadísticas de las pruebas son vitales para determinar si un modelo es bueno para explicar patrones en los datos. La estadística de prueba más simple es la prueba t, que determina si dos medias son significativamente diferentes. Para modelos más complejos, la estadística F determina si un modelo completo es estadísticamente diferente de la media. Ambos casos son esenciales para distinguir una buena modelo de una mala. Feliz estadísticas!