statistik handlar om att komma med modeller för att förklara vad som händer i världen. Men hur bra är vi på det? Jag menar, siffror är bara bra för så många saker, eller hur? Hur vet vi om de berättar rätt historia?
ange den berömda världen av teststatistik.
målet med en teststatistik är att bestämma hur väl modellen passar data. Tänk på det lite som kläder. När du är i butiken berättar mannequin hur kläderna ska se ut (den teoretiska modellen). När du kommer hem testar du dem och ser hur de faktiskt ser ut (den databaserade modellen). Teststatistiken berättar om skillnaden mellan dem (för att jag definitivt inte ser ut som mannequin.) är betydande.
i ett annat inlägg diskuterade jag arten av korrelations-och experimentell forskning. Linjär regression, multipel regression och logistisk regression är alla typer av linjära modeller som korrelerar variabler som förekommer samtidigt. Experimentella modeller handlar dock om orsakseffektmodeller, eller åtminstone modeller som anger en signifikant skillnad mellan fall.
teststatistik beräknar om det finns en signifikant skillnad mellan grupper. Oftast används teststatistik för att se om modellen du kommer med skiljer sig från den ideala modellen för befolkningen. Till exempel ser kläderna väsentligt annorlunda ut på Skyltdockan än de gör på dig? Låt oss ta en titt på de två vanligaste typerna av teststatistik: t-test och F-test.
t-testet är en teststatistik som jämför medel för två olika grupper. Det finns en massa fall där du kanske vill jämföra gruppprestanda som testresultat, kliniska prövningar eller till och med hur lyckliga olika typer av människor är på olika platser. Naturligtvis kräver olika typer av grupper och inställningar olika typer av tester. Vilken typ av T-test du kan behöva beror på vilken typ av prov du har.
om dina två grupper har samma storlek och du tar ett slags före och efter experiment, kommer du att genomföra det som kallas ett beroende eller parat prov T-test. Om de två grupperna är olika storlekar eller om du jämför två separata händelsemedel, utför du ett oberoende prov T-test.
beroende eller parat prov t-Test
jag är en ganska inåtvänd person. Jag är så inåtvänd att jag har extrem ångest i sociala situationer som motiverar en terapihund vid namn Chloe. Och hon är ganska bedårande.
nu har många människor terapihundar för att lindra ångest. Låt oss säga att du mäter människors ångest utan deras terapihundar och med deras terapihundar på en skala från 1 (låg) till 5 (hög) för att avgöra om terapihundar gör betydligt lägre ångest för människor som jag. För enkelhets skull får du följande data
vid första anblicken verkar det som om det finns en tydlig skillnad mellan människors ångestnivå med och utan deras terapihundar. Du vill hoppa till slutsatsen att vår modell (de gör skillnad) skiljer sig från nollhypotesen (de gör det inte). Men vänta, du vill ha några statistiska data för att backa upp det påståendet. Så du utför ett t-test.
ett t-test är en form av statistisk analys som jämför det uppmätta medelvärdet med populationens medelvärde, eller ett baslinjemedelvärde, i termer av standardavvikelse. Eftersom vi har att göra med samma grupp människor i en före och efter typ av situation, vill du göra ett beroende t-test. Du kan tänka på utan scenario som en baslinje till med scenario.
den traditionella t-test ekvationen ser ut som
nollhypotesen säger att det inte borde finnas någon skillnad mellan de två provmedlen. Så det betyder att vi får 1-2 = 0
men vad gör du med det här numret? Tja, du kommer att konsultera det mystiska diagrammet i T-tabellen. Längst upp i tabellen är sannolikheten för fel som du är villig att acceptera. Med andra ord, Vad är möjligheten att du har fel? Längs sidan av bordet finns frihetsgraderna. I det här fallet har du 46 frihetsgrader eftersom du har två grupper med 24 deltagare vardera.
t-tabellen anger att det kritiska värdet för 46 frihetsgrader och 0,05% – felet är 2,013. Ditt beräknade t-värde är över det, vilket indikerar att dina medel är väsentligt olika. Baserat på min helt slumpmässiga, fiktiva data, är det lägre medelvärdet av ångest som människor visar med sina terapihundar tillräckligt olika för att vara meningsfulla, annars kända som statistiskt signifikanta.
jag antar att Chloe är bra för mig, lol.
oberoende prov T-Test
fallet för oberoende provtest är lite annorlunda. Denna typ av test passar bäst för experimentella mönster, eller de mönster som jämför grupper med olika uppsättningar deltagare. Fördelen är att grupperna inte behöver vara lika stora. Låt oss kolla ett annat statistiskt exempel.
låt oss låtsas ett ögonblick att du (av någon galen anledning) vill veta om människor är mer oroliga i statistikklassen än i en annan, låt oss säga engelska, klass. Så du hittar några villiga volontärer och mäter deras hjärtfrekvens under varje klass. Det är viktigt att notera att ingen av klasserna kommer att ha samma deltagare. Dina data ser lite ut så här
det finns en skillnad, men räcker det med en skillnad? När du beräknar t-värdet och tycker att det är 1,92, jämför detta med t-tabellen vid 40-märket, märker att det ligger under det kritiska värdet. Det betyder att även om det finns en skillnad är det inte en signifikant skillnad.
Huh, jag antar att statistiken inte är för stressande trots allt.
t-testets roll är att avgöra om två grupper skiljer sig från varandra. Kom bara ihåg att beroende t-test bäst används för grupper som har samma deltagare, Medan oberoende t-test är för grupper med olika.
f-teststatistik
men John, vad händer om jag vill testa något annat? Som en modell?
det är en fantastisk fråga!
ibland vill vi jämföra en modell som vi har beräknat till ett medelvärde. Låt oss till exempel säga att du har beräknat en linjär regressionsmodell. Kom ihåg att medelvärdet också är en modell som kan användas för att förklara data.
F-testet är ett sätt att jämföra modellen som vi har beräknat med det totala medelvärdet av data. I likhet med T-testet, om det är högre än ett kritiskt värde då modellen är bättre på att förklara data än medelvärdet är.
innan vi kommer in i f-testets nitty-gritty måste vi prata om summan av kvadrater. Låt oss ta en titt på ett exempel på några data som redan har en linje som passar bäst på den.
F-testet jämför vad som kallas medelvärdet av kvadrater för modellens rester och och det totala medelvärdet av data. Partifakta, resterna är skillnaden mellan den faktiska eller observerade datapunkten och den förutsagda datapunkten.
när det gäller graf (a) tittar du på resterna av datapunkterna och det totala provmedlet. När det gäller graf (c) tittar du på resterna av datapunkterna och modellen som du beräknade utifrån data. Men i graf (b) tittar du på modellens rester och det övergripande provmedlet.
summan av kvadrater är ett mått på hur resterna jämförs med modellen eller medelvärdet, beroende på vilken vi arbetar med. Det finns tre som vi är bekymrade över.
summan av kvadrater av resterna (SSR) är summan av kvadraterna av resterna mellan datapunkterna och de faktiska regressionslinjerna, som graf (c). De är kvadrerade för att kompensera för de negativa värdena. SSR beräknas av
summan av kvadraterna av den totala (SST) är summan av kvadraterna av resterna mellan datapunkterna och medelvärdet av provet, som graf (a). De är kvadrerade för att kompensera för de negativa värdena. SST beräknas av
det är viktigt att notera att även om ekvationerna kan se likadana ut vid första anblicken, finns det en viktig skillnad. SSR-ekvationen involverar det förutsagda värdet, så den andra Y har en liten morot över den (uttalad Y-hatt). SST-ekvationen involverar provmedlet, så den andra Y har en liten stapel över den (uttalad Y-stapel). Glöm inte denna mycket viktiga skillnad.
skillnaden mellan de två (SSR – SST) kommer att berätta den totala summan av kvadrater för själva modellen, som graf (b). Detta är vad vi är ute efter för att äntligen börja beräkna det faktiska F-värdet.
dessa summan av kvadratvärden ger oss en känsla av hur mycket modellen varierar från de observerade värdena, vilket är praktiskt för att bestämma om modellen verkligen är bra för förutsägelse. Nästa steg i F-testprocessen är att beräkna medelvärdet av kvadrater för resterna och för modellen.
för att beräkna medelvärdet av kvadrater av modellen, eller MSM, måste du veta graden av frihet för modellen. Tack och lov, Det är ganska enkelt. Frihetsgraden för modellen är antalet variabler i modellen! Följ sedan formeln MSM = SSM brasilian dfmodel
för att beräkna medelvärdet av kvadrater av rester, eller MSR, måste du veta frihetsgraderna i provstorleken. Frihetsgraden i provstorleken är alltid N-1. Sedan helt enkelt följa formeln MSR = SSR bisexuell dfresiduals
Ok, du har gjort en hel del matte hittills. Jag är stolt över dig eftersom jag vet att det inte är super kul. Men det är super viktigt att veta var dessa värden kommer ifrån eftersom det hjälper till att förstå hur de fungerar. För nu ska vi faktiskt se hur F-statistiken faktiskt beräknas!
denna beräkning ger dig ett förhållande mellan modellens förutsägelse och det vanliga medelvärdet av data. Sedan jämför du detta förhållande med en f-distributionstabell som du skulle t-statistiken. Om det beräknade värdet överstiger det kritiska värdet i tabellen, är modellen väsentligt annorlunda än medelvärdet av data och därför bättre att förklara mönstren i data.
teststatistik är avgörande för att avgöra om en modell är bra på att förklara mönster i data. Den enklaste teststatistiken är t-testet, som bestämmer om två medel är signifikant olika. För mer komplexa modeller bestämmer F-statistiken om en hel modell skiljer sig statistiskt från medelvärdet. Båda fallen är viktiga för att berätta en bra modell från en dålig. Glad statistik!