Statistiche è tutto di venire con modelli per spiegare cosa sta succedendo nel mondo. Ma quanto siamo bravi a farlo? Voglio dire, i numeri sono buoni solo per tante cose, giusto? Come facciamo a sapere se stanno raccontando la storia giusta?
Entra nel famoso mondo delle statistiche di test.
L’obiettivo di una statistica di test è determinare quanto bene il modello si adatta ai dati. Pensala un po ‘ come un vestito. Quando sei nel negozio, il manichino ti dice come dovrebbero apparire i vestiti (il modello teorico). Quando arrivi a casa, li metti alla prova e vedi come appaiono effettivamente (il modello basato sui dati). Il test-statistica ti dice se la differenza tra loro (perché io sicuramente non guardare come il manichino.) è significativo.
In un altro post, ho discusso la natura della ricerca correlazionale e sperimentale. Regressione lineare, regressione multipla e regressione logistica sono tutti tipi di modelli lineari che correlano variabili che si verificano simultaneamente. Tuttavia, i modelli sperimentali riguardano modelli causa-effetto, o almeno modelli che indicano una differenza significativa tra i casi.
Le statistiche dei test calcolano se esiste una differenza significativa tra i gruppi. Molto spesso, le statistiche di test vengono utilizzate per vedere se il modello che si presenta è diverso dal modello ideale della popolazione. Ad esempio, i vestiti sembrano significativamente diversi sul manichino di quanto non facciano su di te? Diamo un’occhiata ai due tipi più comuni di statistiche di test: t-test e F-test.
Il t-test è una statistica di test che confronta i mezzi di due diversi gruppi. Ci sono un sacco di casi in cui si consiglia di confrontare le prestazioni di gruppo come i punteggi dei test, studi clinici, o anche come felice diversi tipi di persone sono in luoghi diversi. Naturalmente, diversi tipi di gruppi e configurazioni richiedono diversi tipi di test. Il tipo di t-test che potrebbe essere necessario dipende dal tipo di campione che avete.
Se i tuoi due gruppi hanno le stesse dimensioni e stai facendo una sorta di esperimento prima e dopo, condurrai quello che viene chiamato un campione t-test dipendente o accoppiato. Se i due gruppi sono di dimensioni diverse o si stanno confrontando due mezzi di eventi separati, si esegue un campione t-test indipendente.
Campione t-Test dipendente o accoppiato
Sono una persona abbastanza introversa. Sono così introverso che ho un’ansia estrema in situazioni sociali che giustificano un cane da terapia di nome Chloe. Ed e ‘ adorabile.
Ora, molte persone hanno cani da terapia per alleviare l’ansia. Diciamo che misurate l’ansia delle persone senza i loro cani da terapia e con i loro cani da terapia su una scala da 1 (basso) a 5 (alto) per determinare se i cani da terapia riducono significativamente l’ansia per le persone come me. Per comodità, si ottengono i seguenti dati
A prima vista, sembra che ci sia una chiara differenza tra il livello di ansia delle persone con e senza i loro cani da terapia. Vuoi saltare alla conclusione che il nostro modello (fanno la differenza) è diverso dall’ipotesi nulla (non lo fanno). Ma aspetta, vuoi avere alcuni dati statistici per eseguire tale affermazione. Quindi esegui un t-test.
Un test t è una forma di analisi statistica che confronta la media misurata con la media della popolazione, o una media di base, in termini di deviazione standard. Dal momento che abbiamo a che fare con lo stesso gruppo di persone in un tipo di situazione prima e dopo, si desidera condurre un t-test dipendente. Puoi pensare allo scenario senza come una linea di base per lo scenario with.
La tradizionale equazione t-test si presenta come
L’ipotesi nulla afferma che non dovrebbe esserci alcuna differenza tra i due mezzi campione. Quindi questo significa μ1-μ2 = 0 dandoci
Ma cosa fai con questo numero? Bene, si consultare il grafico mistica della Tabella T. Lungo la parte superiore del tavolo è la probabilità di errore che si è disposti ad accettare. In altre parole, qual è la possibilità che ti sbagli? Lungo il lato del tavolo ci sono i gradi di libertà. In questo caso, hai 46 gradi di libertà perché hai due gruppi con 24 partecipanti ciascuno.
La tabella t indica che il valore critico per 46 gradi di libertà e l’errore 0.05% è 2.013. Il valore t calcolato è superiore a quello, il che indica che i tuoi mezzi sono significativamente diversi. Sulla base dei miei dati completamente casuali e fittizi, la media inferiore di ansia che le persone mostrano con i loro cani da terapia è abbastanza diversa da essere significativa, altrimenti nota come statisticamente significativa.
Credo Chloe è un bene per me, lol.
Campione indipendente t-Test
Il caso per i test di campionamento indipendenti è un po ‘ diverso. Questo stile di test è più adatto a progetti sperimentali, o quei disegni che confrontano gruppi con diversi gruppi di partecipanti. Il vantaggio è che i gruppi non devono essere di dimensioni uguali. Controlliamo un altro esempio statistico.
Facciamo finta per un momento che tu (per qualche ragione folle) vuoi sapere se le persone sono più ansiose nella classe statistica che in un’altra, diciamo inglese, classe. Così si trovano alcuni volontari disposti e misurare la frequenza cardiaca durante ogni classe. È importante notare che nessuna delle due classi avrà gli stessi partecipanti. I tuoi dati sembrano un po ‘ così
C’è una differenza, ma è abbastanza di una differenza? Quando calcoli il valore t e lo trovi 1.92, confrontalo con la tabella t al segno 40, nota che è al di sotto del valore critico. Ciò significa che mentre c’è una differenza, non è una differenza significativa.
Eh, immagino che le statistiche non siano troppo stressanti dopo tutto.
Il ruolo del t-test consiste nel determinare se due gruppi sono diversi l’uno dall’altro. Basta ricordare che i t-test dipendenti sono utilizzati al meglio per i gruppi che hanno gli stessi partecipanti, mentre i t-test indipendenti sono per i gruppi con quelli diversi.
F-Test Statistic
Ma John, cosa succede se voglio testare qualcos’altro? Come una modella?
Questa è una domanda fantastica!
A volte vogliamo confrontare un modello che abbiamo calcolato con una media. Ad esempio, supponiamo di aver calcolato un modello di regressione lineare. Ricorda che la media è anche un modello che può essere utilizzato per spiegare i dati.
Il test F è un modo in cui confrontiamo il modello che abbiamo calcolato con la media complessiva dei dati. Simile al t-test, se è superiore a un valore critico, il modello è migliore nello spiegare i dati rispetto alla media.
Prima di entrare nel nocciolo del test F, dobbiamo parlare della somma dei quadrati. Diamo un’occhiata a un esempio di alcuni dati che ha già una linea di best fit su di esso.
Il test F confronta quella che viene chiamata la somma media dei quadrati per i residui del modello e e la media complessiva dei dati. Infatti, i residui sono la differenza tra il punto dati effettivo o osservato e il punto dati previsto.
Nel caso del grafico (a), si osservano i residui dei punti dati e la media complessiva del campione. Nel caso del grafico (c), si stanno esaminando i residui dei punti dati e il modello calcolato dai dati. Ma nel grafico (b), stai guardando i residui del modello e la media complessiva del campione.
La somma dei quadrati è una misura di come i residui si confrontano con il modello o la media, a seconda di quale stiamo lavorando. Ci sono tre che ci interessano.
La somma dei quadrati dei residui (SSR) è la somma dei quadrati dei residui tra i punti dati e le linee di regressione effettive, come il grafico (c). Sono quadrati per compensare i valori negativi. SSR è calcolato da
La somma dei quadrati del totale (SST) è la somma dei quadrati dei residui tra i punti dati e la media del campione, come il grafico (a). Sono quadrati per compensare i valori negativi. SST è calcolato da
È importante notare che mentre le equazioni possono sembrare le stesse a prima vista, c’è una distinzione importante. L’equazione SSR coinvolge il valore previsto, quindi la seconda Y ha una piccola carota sopra di essa (pronunciata Y-hat). L’equazione SST coinvolge la media del campione, quindi la seconda Y ha una piccola barra su di essa (pronunciata Y-bar). Non dimenticare questa distinzione molto importante.
La differenza tra i due (SSR-SST) ti dirà la somma complessiva dei quadrati per il modello stesso, come il grafico (b). Questo è ciò che stiamo cercando per iniziare finalmente a calcolare il valore F effettivo.
Questi valori di somma dei quadrati ci danno un’idea di quanto il modello varia dai valori osservati, il che è utile per determinare se il modello è davvero utile per la previsione. Il passo successivo nel processo di F-test consiste nel calcolare la media dei quadrati per i residui e per il modello.
Per calcolare la media dei quadrati del modello, o MSM, è necessario conoscere i gradi di libertà per il modello. Per fortuna, è abbastanza semplice. I gradi di libertà per il modello è il numero di variabili nel modello! Quindi seguire la formula MSM = SSM ÷ dfmodel
Per calcolare la media dei quadrati dei residui, o MSR, è necessario conoscere i gradi di libertà nella dimensione del campione. I gradi di libertà nella dimensione del campione è sempre N – 1. Quindi segui semplicemente la formula MSR = SSR ÷ dfresiduals
Ok, hai fatto un sacco di matematica finora. Sono orgoglioso di te perché so che non è super divertente. Ma è super importante sapere da dove provengono questi valori perché aiuta a capire come funzionano. Perché ora vedremo come viene effettivamente calcolata la statistica F!
Questo calcolo fornisce un rapporto tra la previsione del modello e la media regolare dei dati. Quindi si confronta questo rapporto con una tabella di distribuzione F come si farebbe con la statistica T. Se il valore calcolato supera il valore critico nella tabella, il modello è significativamente diverso dalla media dei dati e quindi è meglio spiegare i modelli nei dati.
Le statistiche dei test sono vitali per determinare se un modello è bravo a spiegare i modelli nei dati. La statistica di test più semplice è il t-test, che determina se due mezzi sono significativamente diversi. Per modelli più complessi, la statistica F determina se un intero modello è statisticamente diverso dalla media. Entrambi i casi sono essenziali per raccontare un buon modello da uno cattivo. Statistiche felici!