T-Test and F-Test: Fundamentals of Test Statistics

Statistics is all about device up with models to explain what is going on the world. Mas como somos bons nisso? Os números só servem para tantas coisas, certo? Como sabemos se estão a contar a história certa?

Enter the famous world of test statistics.

o objectivo de uma estatística de ensaio é determinar a adequação do modelo aos dados. Pensa nisso um pouco como roupa. Quando você está na loja, o manequim lhe diz como as roupas devem olhar (o modelo teórico). Quando você chegar em casa, você testá-los e ver como eles realmente olhar (o modelo baseado em dados). A estatística do teste diz – lhe se a diferença entre eles (porque eu definitivamente não se parece com o manequim.) é significativo.

em outro post, eu discuti a natureza da pesquisa correlacional e experimental. Regressão Linear, regressão múltipla e regressão logística são todos os tipos de modelos lineares que correlacionam variáveis que ocorrem simultaneamente. No entanto, os modelos experimentais dizem respeito a modelos causadores de efeito, ou pelo menos modelos que indicam uma diferença significativa entre os casos.

as estatísticas de ensaio calculam se existe uma diferença significativa entre os grupos. Na maioria das vezes, as estatísticas de teste são usadas para ver se o modelo que você vem acima é diferente do modelo ideal da população. Por exemplo, as roupas parecem significativamente diferentes no manequim do que em você? Vamos dar uma olhada nos dois tipos mais comuns de estatísticas de teste: t-test E F-test.

o ensaio t é uma estatística de ensaio que compara os meios de dois grupos diferentes. Há um monte de casos em que você pode querer comparar o desempenho do grupo, tais como resultados de testes, ensaios clínicos, ou até mesmo o quão felizes diferentes tipos de pessoas estão em lugares diferentes. É claro que diferentes tipos de grupos e configurações requerem diferentes tipos de testes. O tipo de teste t que você pode precisar depende do tipo de amostra que você tem.

se os seus dois grupos forem do mesmo tamanho e estiver a fazer uma espécie de experiência antes e depois, então irá realizar o que se chama um teste de amostra T dependente ou emparelhado. Se os dois grupos são tamanhos diferentes ou você está comparando dois eventos separados significa, então você realiza um teste de amostra independente t -.

teste de amostragem dependente ou emparelhado

sou uma pessoa bastante introvertida. Estou tão introvertida que tenho ansiedade extrema em situações sociais que justificam um cão de terapia chamado Chloe. E ela é adorável.

muitas pessoas têm cães terapêuticos para aliviar a ansiedade. Digamos que você mede a ansiedade das pessoas sem seus cães terapêuticos e com seus cães terapêuticos em uma escala de 1 (baixo) a 5 (alto) para determinar se os cães terapêuticos fazem ansiedade significativamente menor para pessoas como eu. Por uma questão de conveniência, você obtém os seguintes dados

À primeira vista, parece que há uma clara diferença entre as pessoas do nível de ansiedade com e sem os seus cães de terapia. Você quer saltar para a conclusão de que o nosso modelo (eles fazem a diferença) é diferente da hipótese nula (eles não fazem). Mas espera, queres ter alguns dados estatísticos para corroborar essa afirmação. Então, fazes um teste-T.

um teste-t é uma forma de análise estatística que compara a média medida com a média da população, ou uma média basal, em termos de desvio padrão. Uma vez que estamos a lidar com o mesmo grupo de pessoas num tipo de situação antes e depois, você quer realizar um teste t dependente. Você pode pensar no cenário sem como uma linha de base para o cenário com.

a equação de ensaio t tradicional parece

a hipótese nula afirma que não deve haver diferença entre os dois meios de amostra. Então isso significa que μ1-μ2 = 0 nos dá

mas o que fazes com este número? Bem, vais consultar o mapa místico da mesa t. Ao longo do topo da tabela está a probabilidade de erro que você está disposto a aceitar. Por outras palavras, Qual é a possibilidade de estar errado? Ao longo do lado da mesa estão os graus de liberdade. Neste caso, você tem 46 graus de liberdade porque você tem dois grupos com 24 participantes cada.

a tabela t afirma que o valor crítico para 46 graus de liberdade e o erro de 0,05% é 2.013. O seu valor t calculado é superior a esse valor, o que indica que os seus meios são significativamente diferentes. Com base em meus dados completamente aleatórios, fictícios, a menor média de ansiedade que as pessoas mostram com seus cães terapia é diferente o suficiente para ser significativo, também conhecido como estatisticamente significante.Acho que a Chloe é boa para mim, lol.

ensaio independente da amostra T

o caso dos ensaios independentes da amostra é um pouco diferente. Este estilo de teste é mais adequado para projetos experimentais, ou aqueles que comparam grupos com diferentes conjuntos de participantes. O benefício é que os grupos não têm que ser de tamanhos iguais. Vamos ver outro exemplo estatístico.

vamos fingir por um momento que você (por alguma razão louca) quer saber se as pessoas estão mais ansiosas na classe estatística do que em outra, digamos inglês, classe. Então você encontra alguns voluntários dispostos e mede seus batimentos cardíacos durante cada aula. É importante notar que nenhuma das aulas terá os mesmos participantes. Os seus dados parecem-se um pouco com isto.

há uma diferença,mas será suficiente? Quando você calcular o valor t e achar que ele é 1,92, compare isso com a tabela t na marca de 40, observe que ele está abaixo do valor crítico. Isto significa que, embora haja uma diferença, não é uma diferença significativa. Acho que as Estatísticas não são muito stressantes.

o papel do teste t é determinar se dois grupos são diferentes um do outro. Basta lembrar que os testes-T dependentes são melhor utilizados para grupos que têm os mesmos participantes, enquanto os testes-T independentes são para grupos com diferentes.Mas John, e se eu quiser testar outra coisa? Como uma modelo?Essa é uma pergunta fantástica!

às vezes queremos comparar um modelo que calculamos como uma média. Por exemplo, digamos que você calculou um modelo de regressão linear. Lembre-se que a média também é um modelo que pode ser usado para explicar os dados.

o teste F é uma forma de comparar o modelo que calculamos com a média geral dos dados. Semelhante ao teste t, se for maior que um valor crítico, então o modelo é melhor em explicar os dados do que a média.

Antes de entrarmos no teste F, precisamos falar sobre a soma dos quadrados. Vamos dar uma olhada em um exemplo de alguns dados que já tem uma linha de melhor ajuste nele.

o teste F compara o que é chamado a soma média dos quadrados para os resíduos do modelo e a média geral dos dados. Fato da parte, os resíduos são a diferença entre o ponto de dados real, ou observado, e o ponto de dados previsto.

no caso do gráfico (a), você está olhando para os resíduos dos pontos de dados e a média geral da amostra. No caso do gráfico (C), Você está olhando para os resíduos dos pontos de dados e o modelo que você calculou a partir dos dados. Mas no gráfico (b), Você está olhando para os resíduos do modelo e a média geral da amostra.

a soma dos quadrados é uma medida de como os resíduos se comparam com o modelo ou a média, dependendo da qual estamos trabalhando. Há três que nos preocupam.

a soma dos quadrados dos resíduos (RSS) é a soma dos quadrados dos resíduos entre os pontos de dados e as linhas de regressão reais, como o gráfico (c). São quadradas para compensar os valores negativos. RSS é calculado por

A soma dos quadrados totais (SST) é a soma dos quadrados dos resíduos entre os pontos de dados e a média da amostra, como o gráfico (a). São quadradas para compensar os valores negativos. SST é calculado por

é importante notar que, enquanto as equações podem parecer o mesmo que, à primeira vista, há uma distinção importante. A equação SSR envolve o valor previsto, então o segundo Y tem uma pequena cenoura sobre ele (pronunciado Y-hat). A equação de SST envolve a média da amostra, de modo que o segundo Y tem uma pequena barra sobre ele (pronuncia-se Y-bar). Não te esqueças desta distinção muito importante.

a diferença entre os dois (SSR – SST) dir-lhe-á a soma global dos quadrados para o próprio modelo, como o gráfico (b). Isto é o que estamos procurando, a fim de finalmente começar a calcular o valor F real.

esta soma de valores quadrados dá-nos uma noção de quanto o modelo varia dos valores observados, o que é útil para determinar se o modelo é realmente bom para a previsão. O próximo passo no processo de teste F é calcular a média dos quadrados para os resíduos e para o modelo.

Para calcular a média dos quadrados do modelo, ou MSM, você precisa saber os graus de liberdade para o modelo. Felizmente, é bastante simples. Os graus de liberdade para o modelo é o número de variáveis no modelo! Em seguida, siga a fórmula MSM = SSM ÷ dfmodel

Para calcular a média dos quadrados dos resíduos, ou MSR, você precisa saber os graus de liberdade no tamanho da amostra. Os graus de liberdade no tamanho da amostra é sempre N – 1. Em seguida, simplesmente siga a fórmula MSR = SSR ÷ dfresiduals

Ok, você tem feito um monte de matemática até agora. Estou orgulhoso de ti porque sei que não é super divertido. Mas é super importante saber de onde esses valores vêm, porque ajuda a entender como eles funcionam. Porque agora vamos ver como é que o F-statistic é realmente calculado!

este cálculo dá-lhe uma razão da previsão do modelo para a média regular dos dados. Então você compara esta proporção com uma tabela de distribuição F como você faria com a estatística T. Se o valor calculado exceder o valor crítico na tabela, então o modelo é significativamente diferente da média dos dados e, portanto, melhor em explicar os padrões nos dados.

as estatísticas de ensaio são vitais para determinar se um modelo é bom a explicar padrões nos dados. A estatística de ensaio mais simples é o ensaio em t, que determina se dois meios são significativamente diferentes. Para modelos mais complexos, a estatística F determina se um modelo inteiro é estatisticamente diferente da média. Ambos os casos são essenciais para distinguir um bom modelo de um mau. Feliz estatística!

You might also like

Deixe uma resposta

O seu endereço de email não será publicado.