Statystyka polega na wymyślaniu modeli wyjaśniających, co dzieje się na świecie. Ale jak dobrzy jesteśmy w tym? Liczby są dobre tylko do wielu rzeczy, prawda? Skąd mamy wiedzieć, czy opowiadają właściwą historię?
wejdź do słynnego świata statystyk testowych.
celem statystyki testowej jest określenie, jak dobrze model pasuje do danych. Pomyśl o tym trochę jak o ubraniu. Kiedy jesteś w sklepie, manekin mówi, jak ubrania mają wyglądać (model teoretyczny). Kiedy wrócisz do domu, przetestujesz je i zobaczysz, jak naprawdę wyglądają (model oparty na danych). Test-statystyka mówi, czy różnica między nimi (bo na pewno nie wyglądają jak manekin.) jest znacząca.
w innym poście omówiłem naturę badań korelacyjnych i eksperymentalnych. Regresja liniowa, regresja wielokrotna i regresja logistyczna to wszystkie typy modeli liniowych, które korelują zmienne występujące jednocześnie. Jednak modele eksperymentalne dotyczą modeli przyczynowo-skutkowych, a przynajmniej modeli, które stwierdzają znaczącą różnicę między przypadkami.
statystyki testu obliczają, czy istnieje znacząca różnica między grupami. Najczęściej statystyki testowe są używane, aby sprawdzić, czy model, który wymyśliłeś, różni się od idealnego modelu populacji. Na przykład, czy ubrania wyglądają znacząco inaczej na manekinie niż na Tobie? Przyjrzyjmy się dwóm najczęstszym rodzajom statystyk testów: t-test i F-test.
test t jest statystyką testową, która porównuje środki dwóch różnych grup. Istnieje kilka przypadków, w których możesz chcieć porównać wyniki grupowe, takie jak wyniki testów, badania kliniczne, a nawet to, jak szczęśliwi są różne typy ludzi w różnych miejscach. Oczywiście różne typy grup i konfiguracji wymagają różnych rodzajów testów. Rodzaj testu t, który może być potrzebny, zależy od rodzaju próbki, którą posiadasz.
jeśli Twoje dwie grupy są tej samej wielkości i bierzesz coś w rodzaju przed i po eksperymencie, następnie przeprowadzisz to, co nazywa się zależnym lub sparowanym testem t próbki. Jeśli dwie grupy mają różne rozmiary lub porównujesz dwa oddzielne środki zdarzenia, przeprowadzasz niezależny test t próbki.
zależna lub sparowana próbka t-Test
jestem osobą dość introwertyczną. Jestem tak introwertyczna, że mam skrajny niepokój w sytuacjach społecznych, które uzasadniają psa terapeutycznego o imieniu Chloe. I jest urocza.
Wiele osób ma psy terapeutyczne w celu złagodzenia lęku. Powiedzmy, że mierzysz lęk ludzi bez ich psów terapeutycznych i z ich psami terapeutycznymi w skali od 1 (niski) do 5 (wysoki), aby określić, czy psy terapeutyczne znacznie obniżają lęk u ludzi takich jak ja. Dla wygody otrzymujesz następujące dane
na pierwszy rzut oka wydaje się, że istnieje wyraźna różnica między poziomem lęku ludzi z i bez ich psów terapeutycznych. Chcesz przejść do wniosku, że nasz model (robią różnicę) różni się od hipotezy zerowej (nie robią). Ale czekaj, chcesz mieć jakieś dane statystyczne na poparcie tego twierdzenia. Więc wykonujesz test T.
test t jest formą analizy statystycznej, która porównuje zmierzoną średnią ze średnią populacyjną lub średnią wyjściową pod względem odchylenia standardowego. Ponieważ mamy do czynienia z tą samą grupą ludzi w sytuacji przed i po, chcesz przeprowadzić zależny test T. Scenariusz Bez można traktować jako punkt odniesienia do scenariusza bez.
tradycyjne równanie t-test wygląda tak
hipoteza zerowa stwierdza, że nie powinno być różnicy między dwoma środkami próbki. Czyli μ1-μ2 = 0 dając nam
ale co zrobić z tym numerem? Zapoznasz się z mistycznym wykresem tabeli T. Wzdłuż górnej części tabeli jest prawdopodobieństwo błędu, że jesteś gotów zaakceptować. Innymi słowy, jaka jest możliwość, że się mylisz? Wzdłuż boku stołu znajdują się stopnie swobody. W tym przypadku masz 46 stopni swobody, ponieważ masz dwie grupy z 24 uczestnikami każda.
tabela T podaje, że wartość krytyczna dla 46 stopni swobody i błędu 0,05% wynosi 2,013. Obliczona wartość t jest powyżej tej wartości, co oznacza, że Twoje środki znacznie się różnią. Na podstawie moich całkowicie przypadkowych, fikcyjnych danych, niższa średnia lęku ludzie wykazują z ich psy terapii jest na tyle różne, aby być znaczące, inaczej znany jako statystycznie istotne.
myślę, że Chloe jest dla mnie dobra, lol.
niezależny test próbny T
przypadek niezależnych testów próbnych jest nieco inny. Ten styl testu najlepiej nadaje się do projektów eksperymentalnych lub tych projektów, które porównują grupy z różnymi zestawami uczestników. Zaletą jest to, że grupy nie muszą być równe wielkości. Sprawdźmy inny przykład statystyczny.
udawajmy przez chwilę, że (z jakiegoś szalonego powodu) chcesz wiedzieć, czy ludzie są bardziej niespokojni w klasie statystycznej niż w innej, powiedzmy Angielskiej, klasie. Więc znajdź chętnych wolontariuszy i zmierz ich tętno podczas każdej lekcji. Ważne jest, aby pamiętać, że żadna klasa nie będzie miała tych samych uczestników. Twoje dane wyglądają trochę tak
jest różnica, ale czy wystarczy różnica? Gdy obliczysz wartość t i stwierdzisz, że wynosi ona 1,92, porównaj to z tabelą t przy znaku 40, zauważ, że jest ona poniżej wartości krytycznej. Oznacza to, że chociaż istnieje różnica, nie jest to różnica znacząca.
Huh, chyba jednak statystyki nie są zbyt stresujące.
rolą testu t jest określenie, czy dwie grupy różnią się od siebie. Pamiętaj tylko, że zależne testy t są najlepiej używane dla grup, które mają tych samych uczestników, podczas gdy niezależne testy T są dla grup z różnymi.
F-Statystyka testu
ale John, co jeśli chcę przetestować coś innego? Jak modelka?
to fantastyczne pytanie!
czasami chcemy porównać model, który obliczyliśmy ze średnią. Na przykład, załóżmy, że obliczyłeś model regresji liniowej. Pamiętaj, że średnia jest również modelem, który można wykorzystać do wyjaśnienia danych.
F-Test jest sposobem, w jaki porównujemy model, który obliczyliśmy z ogólną średnią danych. Podobnie jak w przypadku testu t, jeśli jest on wyższy od wartości krytycznej, model lepiej wyjaśnia dane niż średnia.
zanim przejdziemy do sedna testu F, musimy porozmawiać o sumie kwadratów. Rzućmy okiem na przykład niektórych danych, które mają już linię najlepiej pasującą do niego.
f-test porównuje to, co nazywa się średnią sumą kwadratów dla pozostałości modelu i ogólną średnią danych. Fakt strony, pozostałości są różnica między rzeczywisty, lub obserwowane, punkt danych i przewidywany punkt danych.
w przypadku grafu (a) patrzysz na pozostałości punktów danych i ogólną średnią próbki. W przypadku wykresu (c), patrzysz na pozostałości punktów danych i model, który obliczyłeś na podstawie danych. Ale na wykresie (b), patrzysz na pozostałości modelu i ogólną średnią próbki.
suma kwadratów jest miarą tego, jak pozostałości porównują się do modelu lub średniej, w zależności od tego, z którym pracujemy. Są trzy, którymi się zajmujemy.
suma kwadratów pozostałości (SSR) jest sumą kwadratów pozostałości między punktami danych a rzeczywistymi liniami regresji, jak wykres (c). Są one do kwadratu, aby zrekompensować wartości ujemne. SSR jest obliczany przez
suma kwadratów sumy (SST) jest sumą kwadratów pozostałości między punktami danych i średnią próbki, jak wykres (a). Są one do kwadratu, aby zrekompensować wartości ujemne. SST jest obliczany przez
ważne jest, aby pamiętać, że chociaż równania mogą wyglądać tak samo na pierwszy rzut oka, istnieje ważne rozróżnienie. Równanie SSR obejmuje wartość przewidywaną, więc drugie Y ma nad nią trochę marchewki (wymawiane y-hat). Równanie SST obejmuje średnią z próby, więc drugi Y ma nad nim mały słupek (wymawiany y-bar). Nie zapominaj o tym bardzo ważnym rozróżnieniu.
różnica między tymi dwoma (SSR-SST) powie Ci całkowitą sumę kwadratów dla samego modelu, jak wykres (B). To jest to, czego szukamy, aby w końcu zacząć obliczać rzeczywistą wartość F.
te sumy wartości kwadratów dają nam poczucie, jak bardzo model różni się od obserwowanych wartości, co jest przydatne w określaniu, czy model jest naprawdę dobry do przewidywania. Kolejnym krokiem w procesie F-test jest obliczenie średniej kwadratów dla pozostałości i dla modelu.
aby obliczyć średnią kwadratów modelu lub MSM, musisz znać stopnie swobody dla modelu. Na szczęście jest to dość proste. Stopnie swobody dla modelu to liczba zmiennych w modelu! Następnie postępuj zgodnie ze wzorem MSM = SSM ÷ dfmodel
aby obliczyć średnią kwadratów pozostałości lub MSR, musisz znać stopnie swobody w wielkości próbki. Stopień swobody w wielkości próbki wynosi zawsze N-1. Następnie po prostu postępuj zgodnie ze wzorem MSR = SSR ÷ dfresiduals
Ok, do tej pory zrobiłeś dużo matematyki. Jestem z Ciebie dumny, bo wiem, że to nie jest super zabawa. Ale bardzo ważne jest, aby wiedzieć, skąd pochodzą te wartości, ponieważ pomaga to zrozumieć, jak działają. Bo teraz zobaczymy, jak obliczana jest statystyka F!
ta kalkulacja daje stosunek przewidywania modelu do zwykłej średniej danych. Następnie porównujemy ten współczynnik z tabelą rozkładu F, tak jak statystykę T. Jeśli obliczona wartość przekracza wartość krytyczną w tabeli, model znacznie różni się od średniej danych, a zatem lepiej wyjaśnia wzorce w danych.
statystyki testów są niezbędne do określenia, czy model jest dobry w wyjaśnianiu wzorców w danych. Najprostszą statystyką testu jest test t, który określa, czy dwie środki są znacząco różne. W przypadku bardziej złożonych modeli, statystyka f określa, czy cały model jest statystycznie różny od średniej. Oba przypadki są niezbędne do odróżnienia dobrego modelu od złego. Szczęśliwych statystyk!