Les statistiques consistent à créer des modèles pour expliquer ce qui se passe dans le monde. Mais à quel point sommes-nous bons à cela? Je veux dire, les chiffres ne sont bons que pour tant de choses, n’est-ce pas? Comment savons-nous s’ils racontent la bonne histoire?
Entrez dans le célèbre monde des statistiques de test.
L’objectif d’une statistique de test est de déterminer dans quelle mesure le modèle correspond aux données. Pensez-y un peu comme des vêtements. Lorsque vous êtes dans le magasin, le mannequin vous indique à quoi les vêtements sont censés ressembler (le modèle théorique). Lorsque vous rentrez chez vous, vous les testez et voyez à quoi ils ressemblent réellement (le modèle basé sur les données). La statistique de test vous indique si la différence entre eux (parce que je ne ressemble certainement pas au mannequin.) est significatif.
Dans un autre article, j’ai discuté de la nature de la recherche corrélationnelle et expérimentale. La régression linéaire, la régression multiple et la régression logistique sont tous des types de modèles linéaires qui corrélent des variables qui se produisent simultanément. Cependant, les modèles expérimentaux concernent des modèles de cause à effet, ou du moins des modèles qui indiquent une différence significative entre les cas.
Les statistiques de test calculent s’il existe une différence significative entre les groupes. Le plus souvent, les statistiques de test sont utilisées pour voir si le modèle que vous proposez est différent du modèle idéal de la population. Par exemple, les vêtements sont-ils significativement différents sur le mannequin que sur vous? Jetons un coup d’œil aux deux types de statistiques de test les plus courants: t-test et F-test.
Le test t est une statistique de test qui compare les moyennes de deux groupes différents. Il y a un tas de cas dans lesquels vous voudrez peut-être comparer les performances du groupe, telles que les résultats des tests, les essais cliniques ou même le degré de satisfaction des différents types de personnes à différents endroits. Bien sûr, différents types de groupes et de configurations nécessitent différents types de tests. Le type de test t dont vous pourriez avoir besoin dépend du type d’échantillon que vous avez.
Si vos deux groupes ont la même taille et que vous effectuez une sorte d’expérience avant et après, vous effectuerez ce qu’on appelle un test t d’échantillon dépendant ou apparié. Si les deux groupes sont de tailles différentes ou si vous comparez deux moyennes d’événements distinctes, vous effectuez un test t d’échantillon indépendant.
Échantillon t-Test dépendant ou apparié
Je suis une personne assez introvertie. Je suis tellement introvertie que j’ai une anxiété extrême dans des situations sociales qui justifient un chien de thérapie du nom de Chloé. Et elle est plutôt adorable.
Maintenant, beaucoup de gens ont des chiens de thérapie afin de soulager l’anxiété. Disons que vous mesurez l’anxiété des gens sans leurs chiens de thérapie et avec leurs chiens de thérapie sur une échelle de 1 (faible) à 5 (élevé) pour déterminer si les chiens de thérapie réduisent considérablement l’anxiété pour des personnes comme moi. Pour des raisons de commodité, vous obtenez les données suivantes
À première vue, il semble qu’il existe une différence claire entre le niveau d’anxiété des personnes avec et sans leurs chiens de thérapie. Vous voulez passer à la conclusion que notre modèle (ils font une différence) est différent de l’hypothèse nulle (ils ne le font pas). Mais attendez, vous voulez avoir des données statistiques pour étayer cette affirmation. Donc, vous effectuez un test t.
Un test t est une forme d’analyse statistique qui compare la moyenne mesurée à la moyenne de la population, ou une moyenne de base, en termes d’écart-type. Puisque nous avons affaire au même groupe de personnes dans une situation avant et après, vous souhaitez effectuer un test t dépendant. Vous pouvez considérer le scénario sans comme une référence au scénario avec.
L’équation t-test traditionnelle ressemble à
L’hypothèse nulle indique qu’il ne devrait pas y avoir de différence entre les deux moyennes de l’échantillon. Cela signifie donc μ1-μ2 = 0 nous donnant
Mais que faites-vous de ce numéro? Eh bien, vous consulterez le tableau mystique de la table t. En haut du tableau se trouve la probabilité d’erreur que vous êtes prêt à accepter. En d’autres termes, quelle est la possibilité que vous ayez tort? Sur le côté de la table se trouvent les degrés de liberté. Dans ce cas, vous avez 46 degrés de liberté car vous avez deux groupes de 24 participants chacun.
La table t indique que la valeur critique pour 46 degrés de liberté et l’erreur de 0,05% est de 2,013. Votre valeur t calculée est supérieure à cela, ce qui indique que vos moyennes sont significativement différentes. Sur la base de mes données complètement aléatoires et fictives, la moyenne inférieure d’anxiété que les gens montrent avec leurs chiens de thérapie est suffisamment différente pour être significative, autrement connue comme statistiquement significative.
Je suppose que Chloé est bonne pour moi, lol.
Test t sur échantillon indépendant
Le cas des tests sur échantillon indépendants est un peu différent. Ce style de test est le mieux adapté aux conceptions expérimentales ou aux conceptions qui comparent des groupes avec différents ensembles de participants. L’avantage est que les groupes ne doivent pas nécessairement être de tailles égales. Vérifions un autre exemple statistique.
Faisons semblant un instant que vous (pour une raison folle) voulez savoir si les gens sont plus anxieux en classe de statistiques que dans une autre classe, disons anglaise. Vous trouvez donc des volontaires volontaires et mesurez leur fréquence cardiaque à chaque cours. Il est important de noter qu’aucune des classes n’aura les mêmes participants. Vos données ressemblent un peu à ceci
Il y a une différence, mais est-ce suffisant? Lorsque vous calculez la valeur t et trouvez qu’elle est de 1,92, comparez cela à la table t à la marque 40, notez qu’elle est inférieure à la valeur critique. Cela signifie que bien qu’il y ait une différence, ce n’est pas une différence significative.
Huh, je suppose que les statistiques ne sont pas trop stressantes après tout.
Le rôle du test t est de déterminer si deux groupes sont différents l’un de l’autre. Rappelez-vous simplement que les tests t dépendants sont mieux utilisés pour les groupes qui ont les mêmes participants, tandis que les tests t indépendants sont pour les groupes avec des groupes différents.
Statistique F-Test
Mais John, et si je veux tester autre chose? Comme un modèle ?
C’est une question fantastique!
Parfois, nous voulons comparer un modèle que nous avons calculé à une moyenne. Par exemple, disons que vous avez calculé un modèle de régression linéaire. N’oubliez pas que la moyenne est également un modèle qui peut être utilisé pour expliquer les données.
Le test F est une façon de comparer le modèle que nous avons calculé à la moyenne globale des données. Comme pour le test t, s’il est supérieur à une valeur critique, le modèle explique mieux les données que la moyenne.
Avant d’entrer dans le détail du test F, nous devons parler de la somme des carrés. Jetons un coup d’œil à un exemple de certaines données qui ont déjà une ligne de meilleur ajustement.
Le test F compare ce qu’on appelle la somme moyenne des carrés pour les résidus du modèle et la moyenne globale des données. Fait de partie, les résidus sont la différence entre le point de données réel ou observé et le point de données prédit.
Dans le cas du graphique (a), vous examinez les résidus des points de données et la moyenne globale de l’échantillon. Dans le cas du graphique (c), vous examinez les résidus des points de données et le modèle que vous avez calculé à partir des données. Mais dans le graphique (b), vous examinez les résidus du modèle et la moyenne globale de l’échantillon.
La somme des carrés est une mesure de la comparaison des résidus avec le modèle ou la moyenne, selon celui avec lequel nous travaillons. Il y en a trois qui nous intéressent.
La somme des carrés des résidus (SSR) est la somme des carrés des résidus entre les points de données et les lignes de régression réelles, comme le graphique (c). Ils sont carrés pour compenser les valeurs négatives. SSR est calculé par
La somme des carrés du total (SST) est la somme des carrés des résidus entre les points de données et la moyenne de l’échantillon, comme le graphique (a). Ils sont carrés pour compenser les valeurs négatives. SST est calculé par
Il est important de noter que même si les équations peuvent se ressembler à première vue, il existe une distinction importante. L’équation SSR implique la valeur prédite, de sorte que le second Y a une petite carotte dessus (prononcé Y-hat). L’équation SST implique la moyenne de l’échantillon, de sorte que le second Y a une petite barre au-dessus (prononcé Y-bar). N’oubliez pas cette distinction très importante.
La différence entre les deux (SSR-SST) vous indiquera la somme globale des carrés pour le modèle lui-même, comme le graphique (b). C’est ce que nous recherchons pour enfin commencer à calculer la valeur réelle de F.
Ces valeurs de somme de carrés nous donnent une idée de la variation du modèle par rapport aux valeurs observées, ce qui est utile pour déterminer si le modèle est vraiment bon pour la prédiction. L’étape suivante du processus de test F consiste à calculer la moyenne des carrés pour les résidus et pour le modèle.
Pour calculer la moyenne des carrés du modèle, ou MSM, vous devez connaître les degrés de liberté du modèle. Heureusement, c’est assez simple. Les degrés de liberté pour le modèle sont le nombre de variables dans le modèle! Suivez ensuite la formule MSM = SSM ÷ dfmodèle
Pour calculer la moyenne des carrés des résidus, ou MSR, vous devez connaître les degrés de liberté dans la taille de l’échantillon. Les degrés de liberté dans la taille de l’échantillon sont toujours N–1. Ensuite, suivez simplement la formule MSR = SSR ÷ dfresiduals
Ok, vous avez fait beaucoup de calculs jusqu’à présent. Je suis fier de toi parce que je sais que ce n’est pas super amusant. Mais il est très important de savoir d’où viennent ces valeurs car cela aide à comprendre comment elles fonctionnent. Parce que maintenant, nous allons voir comment la statistique F est réellement calculée!
Ce calcul vous donne un rapport entre la prédiction du modèle et la moyenne régulière des données. Ensuite, vous comparez ce rapport à une table de distribution F comme vous le feriez avec la statistique t. Si la valeur calculée dépasse la valeur critique dans le tableau, alors le modèle est significativement différent de la moyenne des données, et donc mieux à expliquer les modèles dans les données.
Les statistiques de test sont essentielles pour déterminer si un modèle est bon pour expliquer les modèles dans les données. La statistique de test la plus simple est le test t, qui détermine si deux moyennes sont significativement différentes. Pour les modèles plus complexes, la statistique F détermine si un modèle entier est statistiquement différent de la moyenne. Les deux cas sont essentiels pour distinguer un bon modèle d’un mauvais. Bonnes statistiques !