T-Test und F-Test: Grundlagen der Teststatistik

In der Statistik geht es darum, Modelle zu entwickeln, um zu erklären, was in der Welt vor sich geht. Aber wie gut sind wir darin? Ich meine, Zahlen sind nur für so viele Dinge gut, oder? Woher wissen wir, ob sie die richtige Geschichte erzählen?

Betreten Sie die berühmte Welt der Teststatistiken.

Das Ziel einer Teststatistik ist es, festzustellen, wie gut das Modell zu den Daten passt. Betrachten Sie es ein wenig wie Kleidung. Wenn Sie im Laden sind, sagt Ihnen die Schaufensterpuppe, wie die Kleidung aussehen soll (das theoretische Modell). Wenn Sie nach Hause kommen, testen Sie sie und sehen, wie sie tatsächlich aussehen (das datenbasierte Modell). Die Test-Statistik sagt Ihnen, ob der Unterschied zwischen ihnen (weil ich definitiv nicht wie die Schaufensterpuppe aussehen.) signifikant ist.

In einem anderen Beitrag habe ich die Natur der korrelativen und experimentellen Forschung diskutiert. Lineare Regression, multiple Regression und logistische Regression sind alle Arten von linearen Modellen, die Variablen korrelieren, die gleichzeitig auftreten. Experimentelle Modelle befassen sich jedoch mit Ursache-Wirkungs-Modellen oder zumindest Modellen, die einen signifikanten Unterschied zwischen den Fällen angeben.

Teststatistiken berechnen, ob ein signifikanter Unterschied zwischen den Gruppen besteht. In den meisten Fällen werden Teststatistiken verwendet, um festzustellen, ob sich das von Ihnen erstellte Modell vom idealen Modell der Grundgesamtheit unterscheidet. Sehen die Kleidungsstücke auf der Schaufensterpuppe zum Beispiel deutlich anders aus als bei Ihnen? Werfen wir einen Blick auf die beiden häufigsten Arten von Teststatistiken: T-Test und F-Test.

Der t-Test ist eine Teststatistik, die die Mittelwerte zweier verschiedener Gruppen vergleicht. Es gibt eine Reihe von Fällen, in denen Sie die Gruppenleistung vergleichen möchten, z. B. Testergebnisse, klinische Studien oder sogar, wie glücklich verschiedene Arten von Menschen an verschiedenen Orten sind. Natürlich erfordern verschiedene Arten von Gruppen und Setups verschiedene Arten von Tests. Die Art des T-Tests, den Sie möglicherweise benötigen, hängt von der Art der Probe ab, die Sie haben.

Wenn Ihre beiden Gruppen gleich groß sind und Sie eine Art Vorher-Nachher-Experiment durchführen, führen Sie einen sogenannten abhängigen oder gepaarten Proben-T-Test durch. Wenn die beiden Gruppen unterschiedlich groß sind oder Sie zwei separate Ereignismittel vergleichen, führen Sie einen unabhängigen Stichproben-T-Test durch.

Abhängiger oder gepaarter Proben-T-Test

Ich bin eine ziemlich introvertierte Person. Ich bin so introvertiert, dass ich in sozialen Situationen extreme Angst habe, die einen Therapiehund namens Chloe rechtfertigen. Und sie ist ziemlich bezaubernd.

Jetzt haben viele Leute Therapiehunde, um Angst zu lindern. Nehmen wir an, Sie messen die Angst der Menschen ohne ihre Therapiehunde und mit ihren Therapiehunden auf einer Skala von 1 (niedrig) bis 5 (hoch), um festzustellen, ob Therapiehunde die Angst für Menschen wie mich signifikant senken. Der Einfachheit halber erhalten Sie folgende Daten

Auf den ersten Blick scheint es einen klaren Unterschied zwischen dem Angstniveau der Menschen mit und ohne Therapiehunde zu geben. Sie möchten zu dem Schluss kommen, dass sich unser Modell (sie machen einen Unterschied) von der Nullhypothese unterscheidet (sie tun es nicht). Aber warten Sie, Sie möchten einige statistische Daten haben, um diese Behauptung zu untermauern. Sie führen also einen T-Test durch.

Ein T-Test ist eine Form der statistischen Analyse, die den gemessenen Mittelwert mit dem Mittelwert der Grundgesamtheit oder einem Basismittelwert in Bezug auf die Standardabweichung vergleicht. Da wir es mit derselben Gruppe von Personen in einer Vorher-Nachher-Situation zu tun haben, möchten Sie einen abhängigen T-Test durchführen. Sie können sich das Szenario ohne als Basis für das Szenario mit vorstellen.

Die traditionelle T-Test-Gleichung sieht wie folgt aus

Die Nullhypothese besagt, dass es keinen Unterschied zwischen den beiden Stichprobenmitteln geben sollte. Das bedeutet also μ1 – μ2 = 0, was uns gibt

Aber was machst du mit dieser Nummer? Nun, Sie werden die mystische Tabelle der t-Tabelle konsultieren. Am oberen Rand der Tabelle steht die Fehlerwahrscheinlichkeit, die Sie bereit sind zu akzeptieren. Mit anderen Worten, was ist die Möglichkeit, dass Sie falsch liegen? An der Seite des Tisches befinden sich die Freiheitsgrade. In diesem Fall haben Sie 46 Freiheitsgrade, da Sie zwei Gruppen mit jeweils 24 Teilnehmern haben.

Die t-Tabelle gibt an, dass der kritische Wert für 46 Freiheitsgrade und den 0,05% -Fehler 2,013 beträgt. Ihr berechneter t-Wert liegt darüber, was darauf hinweist, dass Ihre Mittelwerte signifikant unterschiedlich sind. Basierend auf meinen völlig zufälligen, fiktiven Daten ist der untere Mittelwert der Angst, die Menschen mit ihren Therapiehunden zeigen, unterschiedlich genug, um aussagekräftig zu sein, auch bekannt als statistisch signifikant.

Ich denke, Chloe ist gut für mich, lol.

Unabhängige Probe t-Test

Die fall für unabhängige probe tests ist ein wenig anders. Diese Art von Test eignet sich am besten für experimentelle Designs oder solche Designs, die Gruppen mit verschiedenen Gruppen von Teilnehmern vergleichen. Der Vorteil: Die Gruppen müssen nicht gleich groß sein. Schauen wir uns ein weiteres statistisches Beispiel an.

Lassen Sie uns für einen Moment so tun, als würden Sie (aus irgendeinem verrückten Grund) wissen wollen, ob die Leute in der Statistikklasse ängstlicher sind als in einer anderen, sagen wir Englischklasse. So finden Sie einige willige Freiwillige und messen ihre Herzfrequenz während jeder Klasse. Es ist wichtig zu beachten, dass keine der beiden Klassen die gleichen Teilnehmer haben wird. Ihre Daten sehen ein wenig so aus

Es gibt einen Unterschied, aber ist es genug von einem Unterschied? Wenn Sie den t-Wert berechnen und 1,92 finden, vergleichen Sie dies mit der t-Tabelle an der 40-Marke und stellen Sie fest, dass er unter dem kritischen Wert liegt. Dies bedeutet, dass es zwar einen Unterschied gibt, aber keinen signifikanten Unterschied darstellt.

Huh, ich denke, Statistik ist doch nicht zu stressig.

Die Rolle des T-Tests besteht darin, festzustellen, ob sich zwei Gruppen voneinander unterscheiden. Denken Sie daran, dass abhängige T-Tests am besten für Gruppen mit denselben Teilnehmern verwendet werden, während unabhängige T-Tests für Gruppen mit unterschiedlichen Teilnehmern gelten.

F-Test-Statistik

Aber John, was ist, wenn ich etwas anderes testen möchte? Wie ein Model?

Das ist eine fantastische Frage!

Manchmal möchten wir ein Modell, das wir berechnet haben, mit einem Mittelwert vergleichen. Angenommen, Sie haben ein lineares Regressionsmodell berechnet. Denken Sie daran, dass der Mittelwert auch ein Modell ist, mit dem die Daten erklärt werden können.

Der F-Test ist eine Methode, mit der wir das berechnete Modell mit dem Gesamtmittelwert der Daten vergleichen. Ähnlich wie beim t-Test kann das Modell die Daten besser erklären, wenn es höher als ein kritischer Wert ist, als der Mittelwert.

Bevor wir auf das Wesentliche des F-Tests eingehen, müssen wir über die Summe der Quadrate sprechen. Schauen wir uns ein Beispiel für einige Daten an, die bereits eine Linie der besten Passform haben.

Der F-Test vergleicht die so genannte mittlere Summe der Quadrate für die Residuen des Modells und den Gesamtmittelwert der Daten. Tatsächlich sind die Residuen die Differenz zwischen dem tatsächlichen oder beobachteten Datenpunkt und dem vorhergesagten Datenpunkt.

Im Fall von Diagramm (a) betrachten Sie die Residuen der Datenpunkte und den Gesamtmittelwert der Stichprobe. Im Fall von Graph (c) betrachten Sie die Residuen der Datenpunkte und das Modell, das Sie aus den Daten berechnet haben. In Diagramm (b) betrachten Sie jedoch die Residuen des Modells und den Gesamtmittelwert der Stichprobe.

Die Summe der Quadrate ist ein Maß dafür, wie die Residuen mit dem Modell oder dem Mittelwert verglichen werden, je nachdem, mit welchem wir arbeiten. Es gibt drei, mit denen wir uns befassen.

Die Summe der Quadrate der Residuen (SSR) ist die Summe der Quadrate der Residuen zwischen den Datenpunkten und den tatsächlichen Regressionslinien, wie Grafik (c). Sie werden quadriert, um die negativen Werte auszugleichen. SSR wird berechnet durch

Die Summe der Quadrate der Summe (SST) ist die Summe der Quadrate der Residuen zwischen den Datenpunkten und dem Mittelwert der Stichprobe, wie in Diagramm (a). Sie werden quadriert, um die negativen Werte auszugleichen. SST wird berechnet durch

Es ist wichtig zu beachten, dass die Gleichungen zwar auf den ersten Blick gleich aussehen, es jedoch einen wichtigen Unterschied gibt. Die SSR-Gleichung beinhaltet den vorhergesagten Wert, so dass das zweite Y eine kleine Karotte darüber hat (ausgesprochen Y-Hut). Die SST-Gleichung beinhaltet den Stichprobenmittelwert, sodass das zweite Y einen kleinen Balken darüber hat (ausgesprochen Y-Balken). Vergessen Sie nicht diese sehr wichtige Unterscheidung.

Der Unterschied zwischen den beiden (SSR – SST) gibt die Gesamtsumme der Quadrate für das Modell selbst an, wie in Diagramm (b). Dies ist, was wir suchen, um endlich den tatsächlichen F-Wert zu berechnen.

Diese Summe der Quadrate gibt uns ein Gefühl dafür, wie stark das Modell von den beobachteten Werten abweicht, was nützlich ist, um festzustellen, ob das Modell wirklich gut für die Vorhersage ist. Der nächste Schritt im F-Test-Prozess besteht darin, den Mittelwert der Quadrate für die Residuen und für das Modell zu berechnen.

Um den Mittelwert der Quadrate des Modells oder MSM zu berechnen, müssen Sie die Freiheitsgrade für das Modell kennen. Zum Glück ist es ziemlich einfach. Die Freiheitsgrade für das Modell sind die Anzahl der Variablen im Modell! Folgen Sie dann der Formel MSM = SSM ÷ dfmodel

Um den Mittelwert der Quadrate der Residuen oder MSR zu berechnen, müssen Sie die Freiheitsgrade in der Stichprobengröße kennen. Die Freiheitsgrade in der Stichprobengröße sind immer N – 1. Dann folgen Sie einfach der Formel MSR = SSR ÷ dfresiduals

Ok, Sie haben bisher eine ganze Menge Mathe gemacht. Ich bin stolz auf dich, weil ich weiß, dass es nicht super Spaß macht. Aber es ist super wichtig zu wissen, woher diese Werte kommen, weil es hilft zu verstehen, wie sie funktionieren. Denn jetzt werden wir tatsächlich sehen, wie die F-Statistik tatsächlich berechnet wird!

Diese Berechnung gibt Ihnen ein Verhältnis der Vorhersage des Modells zum regulären Mittelwert der Daten. Dann vergleichen Sie dieses Verhältnis mit einer F-Verteilungstabelle wie mit der t-Statistik. Wenn der berechnete Wert den kritischen Wert in der Tabelle überschreitet, unterscheidet sich das Modell erheblich vom Mittelwert der Daten und kann daher die Muster in den Daten besser erklären.

Teststatistiken sind entscheidend, um festzustellen, ob ein Modell Muster in Daten gut erklären kann. Die einfachste Teststatistik ist der t-Test, der bestimmt, ob sich zwei Mittelwerte signifikant unterscheiden. Bei komplexeren Modellen bestimmt die F-Statistik, ob sich ein ganzes Modell statistisch vom Mittelwert unterscheidet. Beide Fälle sind wichtig, um ein gutes von einem schlechten Modell zu unterscheiden. Glückliche Statistiken!

You might also like

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.