Statistica este vorba de a veni cu modele pentru a explica ce se întâmplă în lume. Dar cât de buni suntem la asta? Adică, numerele sunt bune doar pentru atât de multe lucruri, nu? De unde știm dacă spun povestea corectă?
introduceți faimoasa lume a statisticilor de testare.
scopul unei statistici de testare este de a determina cât de bine se potrivește modelul datelor. Gândește-te la asta ca la haine. Când vă aflați în magazin, manechinul vă spune cum ar trebui să arate hainele (modelul teoretic). Când ajungeți acasă, le testați și vedeți cum arată de fapt (modelul bazat pe date). Testul-statistica vă spune dacă diferența dintre ele (pentru că eu cu siguranta nu arata ca manechin.) este semnificativă.
într-o altă postare, am discutat despre natura cercetării corelaționale și experimentale. Regresia liniară, regresia multiplă și regresia logistică sunt toate tipurile de modele liniare care corelează variabilele care apar simultan. Cu toate acestea, modelele experimentale se referă la modelele cauză-efect sau cel puțin la modelele care indică o diferență semnificativă între cazuri.
statisticile de testare calculează dacă există o diferență semnificativă între grupuri. Cel mai adesea, statisticile de testare sunt folosite pentru a vedea dacă modelul cu care veniți este diferit de modelul ideal al populației. De exemplu, hainele arată semnificativ diferit pe manechin decât pe tine? Să aruncăm o privire la cele mai frecvente două tipuri de statistici de testare: t-test și F-test.
testul t este o statistică de testare care compară mijloacele a două grupuri diferite. Există o mulțime de cazuri în care poate doriți să comparați performanța grupului, cum ar fi scorurile testelor, studiile clinice sau chiar cât de fericiți sunt diferitele tipuri de oameni în locuri diferite. Desigur, diferite tipuri de grupuri și setări necesită diferite tipuri de teste. Tipul de test t de care este posibil să aveți nevoie depinde de tipul de eșantion pe care îl aveți.
dacă cele două grupuri ale dvs. au aceeași dimensiune și faceți un fel de experiment înainte și după, atunci veți efectua ceea ce se numește un test T de probă Dependent sau asociat. Dacă cele două grupuri au dimensiuni diferite sau comparați două mijloace de eveniment separate, atunci efectuați un test T de probă Independent.
probă t dependentă sau pereche
sunt o persoană destul de introvertită. Sunt atât de introvertit încât am o anxietate extremă în situații sociale care justifică un câine de terapie pe nume Chloe. Și e adorabilă.
Acum, o mulțime de oameni au câini de terapie pentru a ameliora anxietatea. Să presupunem că măsurați anxietatea oamenilor fără câinii lor de terapie și cu câinii lor de terapie pe o scară de la 1 (scăzut) la 5 (ridicat) pentru a determina dacă câinii de terapie scad semnificativ anxietatea pentru oameni ca mine. Din motive de comoditate, obțineți următoarele date
la prima vedere, se pare că există o diferență clară între nivelul de anxietate al oamenilor cu și fără câinii lor de terapie. Vrei să sari la concluzia că modelul nostru (ei fac o diferență) este diferit de ipoteza nulă (ei nu fac). Dar stai, vrei să ai niște date statistice care să susțină această afirmație. Deci, efectuați un test T.
un test t este o formă de analiză statistică care compară media măsurată cu media populației sau o medie de bază în termeni de deviație standard. Deoarece avem de-a face cu același grup de oameni într-o situație înainte și după, doriți să efectuați un test t dependent. Vă puteți gândi la scenariul fără ca o linie de bază pentru scenariul cu.
ecuația tradițională t-test arata ca
ipoteza nulă afirmă că nu ar trebui să existe nicio diferență între cele două mijloace de probă. Deci, asta înseamnă că ne-a dat-o pe cea de-a 1-A-A 2-A-0
dar ce faci cu acest număr? Ei bine, veți consulta diagrama mistică a tabelului T. De-a lungul partea de sus a tabelului este probabilitatea de eroare pe care sunteți dispus să accepte. Cu alte cuvinte, care este posibilitatea să greșești? Pe partea laterală a mesei sunt gradele de libertate. În acest caz, aveți 46 de grade de libertate, deoarece aveți două grupuri cu 24 de participanți fiecare.
tabelul t afirmă că valoarea critică pentru 46 de grade de libertate și eroarea 0.05% este 2.013. Valoarea t calculată este mai mare decât cea, ceea ce indică faptul că mijloacele dvs. sunt semnificativ diferite. Pe baza datelor mele Complet Aleatorii, fictive, media inferioară a anxietății pe care o arată oamenii cu câinii lor de terapie este suficient de diferită pentru a fi semnificativă, altfel cunoscută sub numele de semnificativă statistic.
cred că Chloe este bun pentru mine, lol.
test t de probă Independent
cazul testelor de probă independente este puțin diferit. Acest stil de testare este cel mai potrivit pentru proiectele experimentale sau pentru acele modele care compară grupurile cu diferite seturi de participanți. Beneficiul este că grupurile nu trebuie să aibă dimensiuni egale. Să verificăm un alt exemplu statistic.
să ne prefacem pentru o clipă că (dintr-un motiv nebun) doriți să știți dacă oamenii sunt mai anxioși în clasa de statistici decât în alta, să spunem engleză, clasă. Deci, găsiți niște voluntari dispuși și măsurați ritmul cardiac în timpul fiecărei clase. Este important să rețineți că nici o clasă nu va avea aceiași participanți. Datele dvs. arată cam așa
există o diferență, dar este suficient de o diferență? Când calculați valoarea t și găsiți că este 1,92, comparați acest lucru cu tabelul t la marcajul 40, observați că este sub valoarea critică. Aceasta înseamnă că, deși există o diferență, nu este o diferență semnificativă.
Huh, cred că statisticile nu sunt prea stresante până la urmă.
rolul testului t este de a determina dacă două grupuri sunt diferite între ele. Amintiți-vă că testele t dependente sunt cel mai bine utilizate pentru grupurile care au aceiași participanți, în timp ce testele t independente sunt pentru grupuri cu altele diferite.
F-test Statistic
dar John, ce se întâmplă dacă vreau să testeze altceva? Ca un model?
aceasta este o întrebare fantastică!
uneori vrem să comparăm un model pe care l-am calculat la o medie. De exemplu, să presupunem că ați calculat un model de regresie liniară. Amintiți-vă că media este, de asemenea, un model care poate fi folosit pentru a explica datele.
testul F este o modalitate prin care comparăm modelul pe care l-am calculat cu media generală a datelor. Similar cu testul t, dacă este mai mare decât o valoare critică, atunci modelul este mai bun la explicarea datelor decât media.
înainte de a intra în testul F, trebuie să vorbim despre suma pătratelor. Să aruncăm o privire la un exemplu de unele date care are deja o linie de cea mai bună potrivire pe ea.
testul F compară ceea ce se numește suma medie a pătratelor pentru reziduurile modelului și media generală a datelor. Fapt de partid, reziduurile sunt diferența dintre punctul de date real sau observat și punctul de date prezis.
în cazul graficului (a), analizați reziduurile punctelor de date și media generală a eșantionului. În cazul graficului (c), vă uitați la reziduurile punctelor de date și la modelul pe care l-ați calculat din date. Dar în graficul (b), vă uitați la reziduurile modelului și media generală a eșantionului.
suma pătratelor este o măsură a modului în care reziduurile se compară cu modelul sau media, în funcție de care lucrăm. Sunt trei lucruri care ne preocupă.
suma pătratelor reziduurilor (SSR) este suma pătratelor reziduurilor dintre punctele de date și liniile de regresie reale, cum ar fi graficul (c). Ele sunt pătrate pentru a compensa valorile negative. SSR se calculează prin
suma pătratelor din total (SST) este suma pătratelor reziduurilor dintre punctele de date și media eșantionului, cum ar fi graficul (a). Ele sunt pătrate pentru a compensa valorile negative. SST se calculează prin
este important să rețineți că, deși ecuațiile pot arăta la fel la prima vedere, există o distincție importantă. Ecuația SSR implică valoarea prezisă, astfel încât al doilea Y are puțin morcov peste el (pronunțat y-pălărie). Ecuația SST implică media eșantionului, deci al doilea Y are o mică bară peste ea (pronunțată y-bar). Nu uitați această distincție foarte importantă.
diferența dintre cele două (SSR – SST) vă va spune suma totală a pătratelor pentru modelul în sine, cum ar fi graficul (B). Aceasta este ceea ce suntem după, în scopul de a începe în cele din urmă pentru a calcula valoarea reală F.
aceste valori sumă de pătrate ne dau un sentiment de cât de mult modelul variază de la valorile observate, care vine la îndemână pentru a determina dacă modelul este într-adevăr orice bun pentru predicție. Următorul pas în procesul de testare F este de a calcula media pătratelor pentru reziduuri și pentru model.
pentru a calcula media pătratelor modelului sau MSM, trebuie să cunoașteți gradele de libertate pentru model. Din fericire, este destul de simplu. Gradele de libertate pentru model este numărul de variabile din model! Apoi urmați formula MSM = SSM dfmodel
pentru a calcula media pătratelor reziduurilor sau MSR, trebuie să cunoașteți gradele de libertate în dimensiunea eșantionului. Gradele de libertate în dimensiunea eșantionului este întotdeauna N – 1. Apoi, pur și simplu urmați formula MSR = SSR dfresiduals
OK, ați făcut o mulțime de matematică până acum. Sunt mândru de tine pentru că știu că nu este super distractiv. Dar este foarte important să știm de unde provin aceste valori, deoarece ajută la înțelegerea modului în care funcționează. Pentru că acum vom vedea cum se calculează de fapt statistica F!
acest calcul vă oferă un raport dintre predicția modelului și media regulată a datelor. Apoi comparați acest raport cu un tabel de distribuție F, așa cum ați face cu statistica T. Dacă valoarea calculată depășește valoarea critică din tabel, atunci modelul este semnificativ diferit de media datelor și, prin urmare, este mai bine să explice modelele din date.
statisticile de testare sunt vitale pentru a determina dacă un model este bun la explicarea tiparelor în date. Cea mai simplă statistică de testare este testul t, care determină dacă două mijloace sunt semnificativ diferite. Pentru modele mai complexe, statistica F determină dacă un model întreg este statistic diferit de medie. Ambele cazuri sunt esențiale pentru a spune un model bun de la unul rău. Statistici fericite!