Statistikk handler om å komme opp med modeller for å forklare hva som skjer i verden. Men hvor gode er vi på det? Jeg mener, tall er bare bra for så mange ting, ikke sant? Hvordan vet vi om de forteller den riktige historien?
Skriv inn den berømte verden av teststatistikk.
målet med en teststatistikk er å bestemme hvor godt modellen passer til dataene. Tenk på det litt som klær. Når du er i butikken, forteller mannequin deg hvordan klærne skal se ut (den teoretiske modellen). Når du kommer hjem, tester du dem ut og ser hvordan de faktisk ser ut (den databaserte modellen). Teststatistikken forteller deg om forskjellen mellom dem (fordi jeg definitivt ikke ser ut som mannequin.) er betydelig.
I et annet innlegg diskuterte jeg arten av korrelasjonell og eksperimentell forskning. Lineær regresjon, multiple regresjon og logistisk regresjon er alle typer lineære modeller som korrelerer variabler som oppstår samtidig. Eksperimentelle modeller er imidlertid opptatt av årsakseffektmodeller, eller i det minste modeller som angir en betydelig forskjell mellom tilfeller.
Teststatistikk beregner om det er en signifikant forskjell mellom gruppene. Ofte brukes teststatistikk for å se om modellen du kommer opp med, er forskjellig fra den ideelle modellen til befolkningen. For eksempel ser klærne vesentlig annerledes ut på mannequin enn de gjør på deg? La oss ta en titt på de to vanligste typene teststatistikk: t-test og F-test.
t-testen er en teststatistikk som sammenligner midlene til to forskjellige grupper. Det er en rekke tilfeller der du kanskje vil sammenligne gruppeprestasjoner som testresultater, kliniske studier, eller til og med hvor glade forskjellige typer mennesker er på forskjellige steder. Selvfølgelig krever ulike typer grupper og oppsett ulike typer tester. Hvilken type t-test du trenger, avhenger av hvilken type prøve du har.
Hvis de to gruppene dine har samme størrelse og du tar et slags før-og-etter-eksperiment, vil du utføre det som kalles En Avhengig eller Paret prøve t-test. Hvis de to gruppene er forskjellige størrelser eller du sammenligner to separate hendelsesmidler, utfører Du En Uavhengig Prøve t-test.
Avhengig Eller Parret Prøve t-Test
jeg er en ganske innadvendt person. Jeg er så innadvendt at jeg har ekstrem angst i sosiale situasjoner som garanterer en terapihund ved Navn Chloe. Og hun er ganske søt.
Nå har mange mennesker terapihunder for å lindre angst. La oss si at du måler folks angst uten deres terapihunder og med terapihundene på en skala fra 1 (lav) til 5 (høy) for å avgjøre om terapihunder gjør betydelig lavere angst for folk som meg. For enkelhets skyld får du følgende data
Ved første øyekast ser det ut til at det er en klar forskjell mellom folks angstnivå med og uten deres terapihunder. Du vil hoppe til konklusjonen at vår modell (de gjør en forskjell) er forskjellig fra nullhypotesen (de gjør det ikke). Men vent, du vil ha noen statistiske data for å sikkerhetskopiere det kravet. Så du utfører en t-test.
En t-test er en form for statistisk analyse som sammenligner det målte gjennomsnittet med populasjonsgjennomsnittet, eller et baseline-gjennomsnitt, når det gjelder standardavvik. Siden vi har å gjøre med samme gruppe mennesker i en før-og-etter-situasjon, vil du utføre en avhengig t-test. Du kan tenke på uten scenario som en grunnlinje til med scenariet.
den tradisjonelle t-test-ligningen ser ut som
nullhypotesen sier at det ikke skal være noen forskjell mellom de to utvalgsmidlene. Det betyr altså μ1 – μ2 = 0
men hva gjør du med dette nummeret? Vel, du vil konsultere det mystiske diagrammet til T-Bordet. Langs toppen av bordet er sannsynligheten for feil som du er villig til a akseptere. Med andre ord, hva er muligheten for at du har feil? Langs siden av bordet er graden av frihet. I dette tilfellet har du 46 grader av frihet fordi du har to grupper med 24 deltakere hver.
T-Tabellen sier at den kritiske verdien for 46 frihetsgrader og 0,05% feilen er 2,013. Din beregnede t-verdi er over det, noe som indikerer at midlene dine er vesentlig forskjellige. Basert på mine helt tilfeldige, fiktive data, er det lavere gjennomsnittet av angst folk viser med sine terapihunder forskjellig nok til å være meningsfylt, ellers kjent som statistisk signifikant.
Jeg antar At Chloe er bra for meg, lol.
Uavhengig Prøve t-Test
saken for uavhengige prøvetester er litt annerledes. Denne teststilen passer best til eksperimentelle design, eller de designene som sammenligner grupper med ulike sett med deltakere. Fordelen er at gruppene ikke trenger å være like store. La oss sjekke et annet statistisk eksempel.
La oss late som om du (av en eller annen gal grunn) vil vite om folk er mer engstelige i statistikklassen enn i en annen, la oss si engelsk, klasse. Så du finner noen villige frivillige og måler hjertefrekvensen i hver klasse. Det er viktig å merke seg at ingen av klassene vil ha de samme deltakerne. Dine data ser litt ut som dette
det er en forskjell, men er det nok av en forskjell? Når du beregner t-verdien og finner den å være 1,92, sammenlign dette med t-tabellen på 40-merket, legg merke til at den er under kritisk verdi. Dette betyr at mens det er forskjell, er det ikke en signifikant forskjell.
Huh, jeg antar at statistikk ikke er for stressende tross alt.
t-testens rolle er å avgjøre om to grupper er forskjellige fra hverandre. Bare husk at avhengige t-tester er best brukt for grupper som har de samme deltakerne, mens uavhengige t-tester er for grupper med forskjellige.
F-Test Statistikk
Men John, Hva om Jeg vil teste noe annet? Som en modell?
det er et fantastisk spørsmål!
noen ganger ønsker vi å sammenligne en modell som vi har beregnet til et gjennomsnitt. La oss for eksempel si at du har beregnet en lineær regresjonsmodell. Husk at gjennomsnittet også er en modell som kan brukes til å forklare dataene.
F-Testen er en måte vi sammenligner modellen som vi har beregnet til det totale gjennomsnittet av dataene. I likhet med t-testen, hvis den er høyere enn en kritisk verdi, er modellen bedre til å forklare dataene enn gjennomsnittet er.
før Vi kommer inn i nitty-gritty Av F-testen, må vi snakke om summen av kvadrater. La oss ta en titt på et eksempel på noen data som allerede har en linje med best passform på den.
F-testen sammenligner det som kalles gjennomsnittlig sum av kvadrater for residualene til modellen og og det totale gjennomsnittet av dataene. Faktisk er residualene forskjellen mellom det faktiske eller observerte datapunktet og det forutsagte datapunktet.
når det gjelder graf (a), ser du på residualene til datapunktene og det samlede utvalgsgjennomsnittet. Når det gjelder graf (c), ser du på residualene til datapunktene og modellen du har beregnet ut fra dataene. Men i grafen (b) ser du på resterne av modellen og den samlede prøven betyr.
summen av kvadrater er et mål på hvordan residualene sammenligner med modellen eller gjennomsnittet, avhengig av hvilken vi jobber med. Det er tre som vi er opptatt av.
summen av kvadratene av residualene (SSR) er summen av kvadratene av residualene mellom datapunktene og de faktiske regresjonslinjene, som graf (c). De er kvadrert for å kompensere for de negative verdiene. SSR beregnes ved
summen av kvadrater av totalen (SST) er summen av kvadratene av residualene mellom datapunktene og gjennomsnittet av prøven, som graf (a). De er kvadrert for å kompensere for de negative verdiene. SST er beregnet av
Det er viktig å merke seg at mens ligningene kan se det samme ved første øyekast, er det et viktig skille. SSR-ligningen innebærer den forutsagte verdien, så den Andre Y har en liten gulrot over Den (uttalt Y-hat). SST-ligningen innebærer prøven, så den Andre Y har en liten bar over Den (uttalt Y-bar). Ikke glem denne viktige forskjellen.
forskjellen mellom DE to (SSR-SST – vil fortelle deg den totale summen av kvadrater for selve modellen, som graf (b). Dette er hva vi er ute etter for å endelig begynne å beregne den faktiske f-verdien.
disse verdiene gir oss en følelse av hvor mye modellen varierer fra de observerte verdiene, noe som er nyttig for å avgjøre om modellen virkelig er god for prediksjon. Det neste trinnet I F-testprosessen er å beregne gjennomsnittet av kvadrater for residualene og for modellen.
for å beregne gjennomsnittet av kvadrater av modellen, ELLER MSM, må du vite graden av frihet for modellen. Heldigvis er det ganske greit. Graden av frihet for modellen er antall variabler i modellen! Følg deretter formelen MSM = SSM ÷ dfmodel
for å beregne gjennomsnittet av kvadrater av residualene, ELLER MSR, må du vite frihetsgraden i prøvestørrelsen. Graden av frihet i prøvestørrelsen er alltid N – 1. Deretter følger du bare formelen MSR = SSR ÷ dfresiduals
Ok, du Har gjort mye matte så langt. Jeg er stolt av deg fordi jeg vet at det ikke er super gøy. Men det er super viktig å vite hvor disse verdiene kommer fra fordi det hjelper å forstå hvordan de fungerer. Fordi nå skal vi faktisk se hvordan f-statistikken faktisk beregnes!
denne beregningen gir deg et forhold mellom modellens prediksjon til det vanlige gjennomsnittet av dataene. Deretter sammenligner du dette forholdet Til En f-distribusjonstabell som du ville t-statistikken. Hvis den beregnede verdien overstiger den kritiske verdien i tabellen, er modellen vesentlig forskjellig fra gjennomsnittet av dataene, og derfor bedre å forklare mønstrene i dataene.
Teststatistikk er avgjørende for å avgjøre om en modell er god til å forklare mønstre i data. Den enkleste teststatistikken er t-testen, som bestemmer om to midler er vesentlig forskjellige. For mer komplekse modeller bestemmer f-statistikken om en hel modell er statistisk forskjellig fra gjennomsnittet. Begge tilfeller er avgjørende for å fortelle en god modell fra en dårlig. Glad statistikk!