T-Test and F-Test: Fundamentals of Test Statistics

statistiek is alles over het bedenken van modellen om uit te leggen wat er in de wereld gebeurt. Maar hoe goed zijn we daarin? Ik bedoel, cijfers zijn alleen goed voor zoveel dingen, toch? Hoe weten we of ze het juiste verhaal vertellen?

Voer de beroemde wereld van de teststatistieken in.

het doel van een teststatistiek is om te bepalen hoe goed het model past bij de gegevens. Zie het als kleding. Als je in de winkel bent, vertelt de mannequin je hoe de kleding er moet uitzien (het theoretische model). Als je thuis komt, test je ze uit en zie je hoe ze er eigenlijk uitzien (het data-based model). De test-statistiek vertelt u of het verschil tussen hen (want ik zeker niet kijken als de mannequin.) is significant.

in een andere post besprak ik de aard van correlationeel en experimenteel onderzoek. Lineaire regressie, meervoudige regressie en logistieke regressie zijn alle typen lineaire modellen die variabelen correleren die gelijktijdig optreden. Experimentele modellen houden zich echter bezig met causaleffectmodellen, of in ieder geval modellen die een significant verschil tussen gevallen aangeven.

teststatistieken berekenen of er een significant verschil is tussen de groepen. Meestal worden teststatistieken gebruikt om te zien of het model dat u bedenkt, verschilt van het ideale model van de bevolking. Bijvoorbeeld, zien de kleren er aanzienlijk anders uit op de mannequin dan op jou? Laten we eens kijken naar de twee meest voorkomende soorten teststatistieken: t-test en F-test.

de t-test is een teststatistiek die het gemiddelde van twee verschillende groepen vergelijkt. Er zijn een heleboel gevallen waarin u groepsprestaties wilt vergelijken, zoals testscores, klinische studies, of zelfs hoe gelukkig verschillende soorten mensen zijn op verschillende plaatsen. Natuurlijk vragen verschillende soorten groepen en opstellingen om verschillende soorten tests. Het type t-test dat u nodig heeft, hangt af van het type monster dat u hebt.

als uw twee groepen even groot zijn en u een soort voor-en-na-experiment uitvoert, dan voert u een afhankelijke of gepaarde t-test uit. Als de twee groepen verschillende groottes hebben of u twee afzonderlijke gebeurtenismiddelen vergelijkt, voert u een onafhankelijke steekproef t-test uit.

afhankelijk of gekoppeld Monster t-Test

ik ben een vrij introvert persoon. Ik ben zo Introvert dat ik extreme angst heb in sociale situaties die een therapiehond met de naam Chloe rechtvaardigen. En ze is best schattig.

veel mensen hebben therapiehonden om angst te verlichten. Laten we zeggen dat je de angst van mensen meet zonder hun therapie honden en met hun therapie honden op een schaal van 1 (laag) tot 5 (hoog) om te bepalen of therapie honden beduidend lagere angst voor mensen zoals ik. Voor het gemak krijgt u de volgende gegevens

op het eerste gezicht lijkt het erop dat er een duidelijk verschil is tussen de mate van angst van mensen met en zonder hun therapie honden. Je wilt tot de conclusie komen dat ons model (ze maken een verschil) verschilt van de nulhypothese (ze doen het niet). Maar wacht, je wilt wat statistische gegevens hebben om die claim te ondersteunen. Dus voer je een t-test uit.

een t-test is een vorm van statistische analyse die het gemeten gemiddelde vergelijkt met het gemiddelde van de populatie, of een basisgemiddelde, in termen van standaardafwijking. Aangezien we te maken hebben met dezelfde groep mensen in een voor-en-na situatie, wil je een afhankelijke t-test uitvoeren. Je kunt het zonder scenario zien als een basislijn naar het met scenario.

de traditionele t-testvergelijking lijkt

de nulhypothese stelt dat er geen verschil tussen de twee steekproefmiddelen zou moeten zijn. Dus dat betekent μ1-μ2 = 0 geeft ons

maar wat doe je met dit nummer? Nou, je zal de mystieke grafiek van T tabel raadplegen. Langs de bovenkant van de tabel is de kans op fouten die u bereid bent te accepteren. Met andere woorden, Wat is de mogelijkheid dat je het mis hebt? Aan de zijkant van de tafel staan de vrijheidsgraden. In dit geval heb je 46 vrijheidsgraden omdat je twee groepen hebt met elk 24 deelnemers.

de T-tabel geeft aan dat de kritische waarde voor 46 vrijheidsgraden en de fout van 0,05% 2,013 is. Uw berekende t-waarde is hoger dan dat, wat aangeeft dat uw middelen aanzienlijk verschillen. Gebaseerd op mijn volledig willekeurige, fictieve gegevens, het lagere gemiddelde van angst mensen laten zien met hun therapie honden is anders genoeg om zinvol te zijn, ook wel bekend als statistisch significant.

ik denk dat Chloe goed voor me is, lol.

onafhankelijk Monster t-Test

het geval voor onafhankelijke monstertests is iets anders. Deze teststijl is het meest geschikt voor experimentele ontwerpen, of die ontwerpen die groepen met verschillende groepen deelnemers vergelijken. Het voordeel is dat de groepen niet van gelijke grootte hoeven te zijn. Laten we een ander statistisch voorbeeld bekijken.

laten we even doen alsof je (om een of andere gekke reden) wilt weten of mensen meer angstig zijn in de klas statistiek dan in een andere, laten we zeggen Engels, klas. Dus je vindt wat gewillige vrijwilligers en meet hun hartslag tijdens elke les. Het is belangrijk op te merken dat geen van beide klassen dezelfde deelnemers zal hebben. Uw gegevens ziet er een beetje zo uit

er is een verschil, maar is het genoeg verschil? Wanneer u de T-waarde berekent en vindt het 1,92, vergelijk dit met de T-tabel bij de 40 mark, merk op dat het onder de kritische waarde. Dit betekent dat er weliswaar een verschil is, maar dat het geen significant verschil is.

Huh, ik denk dat statistieken toch niet al te stressvol zijn.

de rol van de t-test is om te bepalen of twee groepen van elkaar verschillen. Vergeet niet dat afhankelijke t-tests het beste worden gebruikt voor groepen die dezelfde deelnemers hebben, terwijl onafhankelijke t-tests voor groepen met verschillende zijn.

F-teststatistiek

maar John, wat als ik iets anders wil testen? Zoals een model?

dat is een fantastische vraag!

soms willen we een model dat we hebben berekend vergelijken met een gemiddelde. Bijvoorbeeld, laten we zeggen dat je een lineair regressiemodel hebt berekend. Vergeet niet dat het gemiddelde ook een model is dat kan worden gebruikt om de gegevens te verklaren.

de F-Test is een manier om het model dat we hebben berekend te vergelijken met het totale gemiddelde van de gegevens. Vergelijkbaar met de t-test, als het hoger is dan een kritische waarde dan is het model beter in het verklaren van de gegevens dan het gemiddelde is.

voordat we in de nitty-gritty van de F-test komen, moeten we praten over de kwadratensom. Laten we eens kijken naar een voorbeeld van een aantal gegevens die al een regel van best fit op het heeft.

de F-test vergelijkt de zogenaamde gemiddelde kwadratensom voor de reststoffen van het model en het totale gemiddelde van de gegevens. Partij feit, de reststoffen zijn het verschil tussen de werkelijke, of waargenomen, datapunt en de voorspelde datapunt.

in het geval van grafiek (a) kijkt u naar de reststoffen van de gegevenspunten en het totale steekproefgemiddelde. In het geval van grafiek (c) kijkt u naar de reststoffen van de gegevenspunten en het model dat u uit de gegevens hebt berekend. Maar in grafiek (b) kijk je naar de reststoffen van het model en het totale steekproefgemiddelde.

de kwadratensom is een maat voor hoe de reststoffen zich verhouden tot het model of het gemiddelde, afhankelijk van met welke we werken. Er zijn er drie waar we ons zorgen over maken.

de som van de kwadraten van de reststoffen (SSR) is de som van de kwadraten van de reststoffen tussen de gegevenspunten en de werkelijke regressielijnen, Zoals grafiek (c). Ze zijn kwadraat om de negatieve waarden te compenseren. SSR wordt berekend door

de som van de kwadraten van het totaal (SST) is de som van de kwadraten van de reststoffen tussen de gegevenspunten en het gemiddelde van het monster, zoals grafiek (a). Ze zijn kwadraat om de negatieve waarden te compenseren. SST wordt berekend door

het is belangrijk op te merken dat hoewel de vergelijkingen op het eerste gezicht hetzelfde kunnen lijken, er een belangrijk onderscheid is. De SSR-vergelijking heeft betrekking op de voorspelde waarde, dus de tweede Y heeft een kleine wortel over het (uitgesproken Y-hoed). De SST-vergelijking omvat het steekproefgemiddelde, dus de tweede Y heeft er een kleine bar overheen (uitgesproken als Y-bar). Vergeet dit zeer belangrijke onderscheid niet.

het verschil tussen de twee (SSR – SST) geeft u de totale kwadratensom voor het model zelf, Zoals grafiek (b). Dit is waar we naar op zoek zijn om eindelijk te beginnen met het berekenen van de werkelijke F-waarde.

deze kwadratensom geeft ons een idee van hoeveel het model verschilt van de waargenomen waarden, wat handig is om te bepalen of het model echt goed is voor voorspelling. De volgende stap in het F-testproces is het berekenen van het kwadratengemiddelde voor de reststoffen en voor het model.

om het gemiddelde van de kwadraten van het model te berekenen, of MSM, moet u de vrijheidsgraden van het model kennen. Gelukkig is het vrij eenvoudig. De vrijheidsgraden voor het model zijn het aantal variabelen in het model! Volg dan de formule MSM = SSM ÷ dfmodel

om het gemiddelde van de kwadraten van de reststoffen, of MSR, te berekenen, moet u de vrijheidsgraden in de steekproefgrootte weten. De vrijheidsgraden in de steekproefgrootte is altijd N-1. Volg dan gewoon de formule MSR = SSR ÷ dfresiduals

Ok, je hebt tot nu toe veel wiskunde gedaan. Ik ben trots op je omdat ik weet dat het niet super leuk is. Maar het is super belangrijk om te weten waar deze waarden vandaan komen, omdat het helpt te begrijpen hoe ze werken. Want nu gaan we zien hoe de F-statistiek wordt berekend!

deze berekening geeft u een verhouding van de voorspelling van het model tot het reguliere gemiddelde van de gegevens. Dan vergelijk je deze verhouding met een F-distributie tabel zoals je de t-statistiek zou doen. Als de berekende waarde de kritieke waarde in de tabel overschrijdt, dan is het model aanzienlijk verschillend van het gemiddelde van de gegevens, en daarom beter in het verklaren van de patronen in de gegevens.

teststatistieken zijn essentieel om te bepalen of een model goed is in het verklaren van patronen in gegevens. De eenvoudigste teststatistiek is de t-test, die bepaalt of twee middelen significant verschillen. Voor complexere modellen bepaalt de F-statistiek of een heel model statistisch verschilt van het gemiddelde. Beide gevallen zijn essentieel om een goed model van een slecht model te onderscheiden. Gelukkige statistieken!

You might also like

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.