T-Test og F-Test: Fundamentals of Test Statistics

statistik handler om at komme med modeller for at forklare, hvad der foregår i verden. Men hvor gode er vi til det? Jeg mener, tal er kun godt for så mange ting, højre? Hvordan ved vi, om de fortæller den rigtige historie?

Indtast den berømte verden af teststatistikker.

målet med en teststatistik er at bestemme, hvor godt modellen passer til dataene. Tænk på det lidt som tøj. Når du er i butikken, fortæller dukken dig, hvordan tøjet skal se ud (den teoretiske model). Når du kommer hjem, tester du dem og ser, hvordan de rent faktisk ser ud (den databaserede model). Teststatistikken fortæller dig, om forskellen mellem dem (fordi jeg bestemt ikke ligner modellen.) er signifikant .

i et andet indlæg diskuterede jeg arten af korrelations-og eksperimentel forskning. Lineær regression, multipel regression og logistisk regression er alle typer lineære modeller, der korrelerer variabler, der forekommer samtidigt. Imidlertid, eksperimentelle modeller beskæftiger sig med årsagseffektmodeller, eller i det mindste modeller, der angiver en betydelig forskel mellem sager.

teststatistik beregner, om der er en signifikant forskel mellem grupper. Oftest bruges teststatistikker til at se, om den model, du kommer med, er forskellig fra den ideelle model for befolkningen. Ser tøjet for eksempel markant anderledes ud på dukken, end det gør på dig? Lad os se på de to mest almindelige typer teststatistikker: t-test og F-test.

t-testen er en teststatistik, der sammenligner midlerne til to forskellige grupper. Der er en masse tilfælde, hvor du måske vil sammenligne gruppepræstationer, såsom testresultater, kliniske forsøg eller endda hvor glade forskellige typer mennesker er forskellige steder. Selvfølgelig kræver forskellige typer grupper og opsætninger forskellige typer tests. Den type T-test, du muligvis har brug for, afhænger af den type prøve, du har.

hvis dine to grupper er af samme størrelse, og du tager en slags før-og-efter-eksperiment, vil du udføre det, der kaldes en afhængig eller parret prøve t-test. Hvis de to grupper er forskellige størrelser, eller du sammenligner to separate hændelsesmidler, så udfører du en uafhængig prøve t-test.

afhængig eller parret prøve t-Test

jeg er en ret indadvendt person. Jeg er så indadvendt, at jeg har ekstrem angst i sociale situationer, der berettiger en terapihund ved navn Chloe. Og hun er ret yndig.

nu har mange mennesker terapihunde for at lindre angst. Lad os sige, at du måler folks angst uden deres terapihunde og med deres terapihunde på en skala fra 1 (lav) til 5 (høj) for at afgøre, om terapihunde gør signifikant lavere angst for folk som mig. For nemheds skyld får du følgende data

ved første øjekast ser det ud til, at der er en klar forskel mellem folks angstniveau med og uden deres terapihunde. Du vil springe til den konklusion, at vores model (de gør en forskel) er forskellig fra nulhypotesen (de gør det ikke). Men vent, du vil have nogle statistiske data til at bakke denne påstand op. Så du udfører en t-test.

en t-test er en form for statistisk analyse, der sammenligner det målte gennemsnit med populationsgennemsnittet eller et basislinjegennemsnit med hensyn til standardafvigelse. Da vi har at gøre med den samme gruppe mennesker i en før-og-efter slags situation, vil du foretage en afhængig t-test. Du kan tænke på uden-scenariet som en basislinje til med-scenariet.

den traditionelle t-test ligning ligner

nulhypotesen siger, at der ikke bør være nogen forskel mellem de to prøveorganer. Så det betyder, at kr1-kr2 = 0 giver os

men hvad gør du med dette nummer? Nå, du vil konsultere det mystiske diagram over T-tabellen. Langs toppen af tabellen er sandsynligheden for fejl, som du er villig til at acceptere. Med andre ord, Hvad er muligheden for, at du tager fejl? Langs siden af bordet er frihedsgraderne. I dette tilfælde har du 46 frihedsgrader, fordi du har to grupper med 24 deltagere hver.

t-tabellen angiver, at den kritiske værdi for 46 frihedsgrader og 0,05% – fejlen er 2,013. Din beregnede t-værdi er over det, hvilket indikerer, at dine midler er væsentligt forskellige. Baseret på mine helt tilfældige, fiktive data, det lavere gennemsnit af angst, som folk viser med deres terapihunde, er anderledes nok til at være meningsfuldt, ellers kendt som statistisk signifikant.

jeg tror Chloe er godt for mig, lol.

uafhængig prøve t-Test

sagen for uafhængige prøvetest er lidt anderledes. Denne teststil er bedst egnet til eksperimentelle designs eller de designs, der sammenligner grupper med forskellige sæt deltagere. Fordelen er, at grupperne ikke behøver at være lige store. Lad os tjekke et andet statistisk eksempel.

lad os foregive et øjeblik, at du (af en eller anden skør grund) vil vide, om folk er mere ængstelige i statistikklassen end i en anden, lad os sige engelsk, klasse. Så du finder nogle villige frivillige og måler deres puls under hver klasse. Det er vigtigt at bemærke, at ingen af klasserne har de samme deltagere. Dine data ser lidt sådan ud

der er en forskel, men er det nok af en forskel? Når du beregner t-værdien og finder den til at være 1,92, skal du sammenligne dette med t-tabellen ved 40-mærket, bemærk, at den er under den kritiske værdi. Det betyder, at mens der er en forskel, er det ikke en væsentlig forskel.

Huh, jeg tror statistik er ikke alt for stressende trods alt.

t-testens rolle er at bestemme, om to grupper er forskellige fra hinanden. Husk bare, at afhængige t-tests bedst bruges til grupper, der har de samme deltagere, mens uafhængige t-tests er til grupper med forskellige.

F-teststatistik

men John, hvad hvis jeg vil teste noget andet? Som en model?

det er et fantastisk spørgsmål!

nogle gange vil vi sammenligne en model, som vi har beregnet til et gennemsnit. Lad os for eksempel sige, at du har beregnet en lineær regressionsmodel. Husk, at middelværdien også er en model, der kan bruges til at forklare dataene.

F-testen er en måde, hvorpå vi sammenligner den model, vi har beregnet, med det samlede gennemsnit af dataene. Svarende til T-testen, hvis den er højere end en kritisk værdi, er modellen bedre til at forklare dataene end gennemsnittet er.

før vi kommer ind i f-testens nitty-gritty, skal vi tale om summen af kvadrater. Lad os se på et eksempel på nogle data, der allerede har en linje, der passer bedst til den.

F-testen sammenligner det, der kaldes den gennemsnitlige sum af firkanter for resterne af modellen og og det samlede gennemsnit af dataene. Partifakta, residualerne er forskellen mellem det faktiske eller observerede datapunkt og det forudsagte datapunkt.

i tilfælde af graf (a) ser du på resterne af datapunkterne og den samlede prøve gennemsnit. I tilfælde af graf (c) ser du på resterne af datapunkterne og den model, du har beregnet ud fra dataene. Men i graf (b) ser du på resterne af modellen og den samlede prøve middelværdi.

summen af kvadrater er et mål for, hvordan resterne sammenlignes med modellen eller gennemsnittet, afhængigt af hvilken vi arbejder med. Der er tre, som vi er bekymrede for.

summen af kvadrater af residualerne (SSR) er summen af kvadraterne af residualerne mellem datapunkterne og de faktiske regressionslinjer, som graf (c). De er kvadreret for at kompensere for de negative værdier. SSR beregnes af

summen af kvadrater af den samlede (SST) er summen af kvadraterne af resterne mellem datapunkterne og gennemsnittet af prøven, ligesom graf (a). De er kvadreret for at kompensere for de negative værdier. SST beregnes af

det er vigtigt at bemærke, at mens ligningerne kan se ens ud ved første øjekast, er der en vigtig skelnen. SSR-ligningen involverer den forudsagte værdi, så den anden Y har en lille gulerod over den (udtalt Y-hat). SST-ligningen involverer prøvegennemsnittet, så den anden Y har en lille bjælke over den (udtalt Y-bjælke). Glem ikke denne meget vigtige skelnen.

forskellen mellem de to (SSR – SST) vil fortælle dig den samlede sum af kvadrater for selve modellen, som graf (B). Dette er, hvad vi er efter for endelig at begynde at beregne den faktiske F-værdi.

disse sum af kvadraters værdier giver os en fornemmelse af, hvor meget modellen varierer fra de observerede værdier, hvilket er praktisk til at bestemme, om modellen virkelig er god til forudsigelse. Det næste trin i F-testprocessen er at beregne gennemsnittet af kvadrater for resterne og for modellen.

for at beregne gennemsnittet af kvadrater af modellen eller MSM, skal du kende frihedsgraderne for modellen. Heldigvis er det ret ligetil. Frihedsgraderne for modellen er antallet af variabler i modellen! Følg derefter formlen MSM = SSM prist dfmodel

for at beregne gennemsnittet af kvadrater af restprodukterne eller MSR, skal du kende frihedsgraderne i stikprøvestørrelsen. Frihedsgraderne i stikprøvestørrelsen er altid N-1. Så skal du blot følge formlen MSR = SSR Kris dfresiduals

Ok, Du har gjort en hel masse matematik hidtil. Jeg er stolt af dig, fordi jeg ved, at det ikke er super sjovt. Men det er super vigtigt at vide, hvor disse værdier kommer fra, fordi det hjælper med at forstå, hvordan de fungerer. For nu skal vi faktisk se, hvordan F-statistikken faktisk beregnes!

denne beregning giver dig et forhold mellem modelens forudsigelse og det regelmæssige gennemsnit af dataene. Derefter sammenligner du dette forhold med en F-distributionstabel, som du ville t-statistikken. Hvis den beregnede værdi overstiger den kritiske værdi i tabellen, er modellen signifikant forskellig fra gennemsnittet af dataene og derfor bedre til at forklare mønstrene i dataene.

teststatistik er afgørende for at afgøre, om en model er god til at forklare mønstre i data. Den enkleste teststatistik er t-testen, som bestemmer, om to midler er væsentligt forskellige. For mere komplekse modeller bestemmer F-statistikken, om en hel model er statistisk forskellig fra gennemsnittet. Begge tilfælde er vigtige for at fortælle en god model fra en dårlig. Glad statistik!

You might also like

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.