Avaliar o poder de componentes principais e wright a fixação do índice analisa aplicada para revelar a todo o genoma diferenças genéticas entre as manadas de vacas Holstein

Avaliação da correspondência de MAF e desequilíbrio de ligação

O efeito do LD – base de poda no número de SNPs foi grande (ver arquivo Adicionais 1: Figura S1). Para estimar o impacto da poda à base de LD sobre MAF de SNPs calculamos a distribuição de MAF em oito bins(Fig. 1). A proporção de SNPs em relação às caixas MAF no total e os dados podados foram notavelmente diferentes. LD – base de poda completamente removido monomorphic SNPs, desproporcionalmente removido SNPs com MAF de 0,2–0,4, enquanto a proporção de raras e comuns SNPs com MAF 0.0001–0.1 e 0.5 aumentou (Fig. 1). Pode–se sugerir que em média SNPs com MAF 0,1-0,4 distribuído no genoma mais próximo um do outro do que SNPs restantes levando ao maior LD entre eles.

Fig. 1
figura1

Proporção de SNPs na completa e poda de dados

Avaliar o impacto da remoção de outliers no Fst dados

Na primeira etapa avaliou-se o impacto dos outliers no Fst valores. Calculámos os valores Fst para o conjunto de dados completos em pares, tanto com correcção como sem correcção em valores anómalos (ver ficheiro adicional 1: Tabela S1). Após correcções anómalas em EIGENSOFT 799 vacas e 46,626 SNPs permaneceram.

a ausência da correcção anómala conduz a um viés de valores de Fst, mas apenas para 6 de 78 pares dos efectivos. Em todos os casos, a diferença entre os valores de Fst foi de ±0, 001, com exceção de 4 e 13 pares de manadas com diferença de 0, 002. Quase os mesmos valores de Fst também foram armazenados para Parwise set, onde foram excluídos SNPs com MAF < 0,01. Entre estes valores de Fst, apenas seis pares dos rebanhos diferiram em 0,001 dos valores de Fst para os dados completos na tabela S2 (ver ficheiro adicional 1) e três deles foram os mesmos que em resultado da correcção de valores anómalos.

Avaliação LD com base poda metodologia, em valores de Fst

desequilíbrio de Ligação poda (LD < 0.1) teve o mesmo efeito tamanho no Fst valores ±0.001 como outliers tinha, mas afetou mais de um par de vacas 22 vs. 6 para efeito de outliers (Tabela 1 e ver o ficheiro Adicionais 1: Tabela 1). De fato, o tamanho do efeito sobre o Fst não era grande, apesar de uma diminuição considerável no número total de SNPs (5827 vs. 48.108) e sua proporção no SNPs bins (Fig. 1). Assim, a poda à base de LD teve um efeito moderado nos valores de Fst, mas afetou mais pares de manadas.

Tabela 1 Estimativas de Fst valores para concluir e poda de dados

Avaliação de impacto dos SNPs MAF em valores de Fst

Para avaliar o impacto dos SNPs MAF no Fst valores, nós dividimos o inteiro MAF intervalo 0.0001–0.5 em 6 posições e calculado para cada um deles, a média do valor de Fst entre Pares de conjuntos formados a partir completa e poda de dados (Fig. 2). Os alelos SNPs raros com MAF 0, 0001–0, 005 tiveram o menor valor médio de Fst (0, 0027) em todos os rebanhos do que os restantes SNPs (ver ficheiro adicional 1: Tabela S3). Pode concluir-se que, em média, entre os efectivos, as diferenças calculadas para alelos raros foram inferiores às dos alelos comuns. Para MAF no intervalo de 0.1-0.5 A diferença entre os valores médios de Fst entre feijões para dois conjuntos de dados não foi significativa. Como resultado da compensação mútua dos valores médios de Fst em dados completos e podados em toda a gama MAF, o valor total somado do valor Fst entre eles foi insignificante (ver ficheiro adicional 1: Quadro S3). Assim, estes resultados novamente confirmam um pequeno tamanho de efeito de Poda baseada em LD em valores de Fst apenas para SNPs raros não comuns alelos SNPs.

Fig. 2
a figura2

Dependência de dizer Fst na MAF gama

Avaliação de significância dos valores de Fst

Para avaliar a significância dos valores de Fst na Tabela 1, realizamos a par de rebanhos permutações das vacas tratá-los como H nula de distribuição. Os resultados destes cálculos dos valores de Fst estão listados no quadro S4 (ver ficheiro adicional 1). Em seguida, calculamos os valores P para cada par de rebanhos em Parwise set usando o teste t do Estudante (Tabela 2). Todos eles estavam com valores de P no intervalo de 1.0 e-06 3.6 e-60, com média de 6.5 e-18 e mediana 3.6 e-40, assim, é altamente distorcida de distribuição. Para calcular Fst para H null-distribution realizamos apenas 5 permutações para cada um dos 78 pares dos rebanhos, uma vez que era um processo demorado e resultado de estimativas de valores P seria apenas ligeiramente subestimado. Na Tabela 1 Os valores mínimos de Fst foram de 0.002-0.003. Os pares dos rebanhos correspondentes a estes valores são os candidatos para os rebanhos geneticamente mais semelhantes. No entanto, ao comparar estes efectivos no quadro 1, os erros não foram tidos em conta. As probabilidades de erro de tipo 1 para todas as 78 combinações de efectivos constam do quadro 2. Para avaliar as diferenças genéticas entre os rebanhos escolhemos cortar P ≤ 1.0 e-30 (P ≤ 1.28 e-32, tendo em conta a correção de Bonferroni) em que, como regra, as diferenças entre os rebanhos no Fst valores 0.002–0.003 deve ser insignificante. Os resultados são apresentados na Tabela 3. Insignificante pares de rebanhos eram 2 e 8, 9, 11, 12 (4 pares); 3 e 5, 8, 9, 10 (4 pares); 8 e 2, 3, 9, 11 (4 pares); 9 e 2, 3, 11, 12 (4 pares). Os pares de manadas com 2, 3, 8 e 9 manadas tiveram valores de 4-6 Fst de 0.002–0.003 (Tabela 1). Por conseguinte, os resultados da identificação de pares insignificantes de efectivos (Quadro 3) correspondem aos dados mínimos de Fst constantes do Quadro 1. No quadro 3, os pares mais significativos de efetivos neste corte foram o efetivo 4 (10 pars), 7 (12 pares), 13 (12 pares) ou um nível mais rigoroso de significância no corte p ≤ 1.28e-39 as manadas 4, 7 e 13 tinham 10, 8 e 11 pares significativos das manadas (Quadro 3).

Tabela 2 Estimativas entre rebanhos diferenças genéticas (P – valores) um
Tabela 3 Entre rebanhos diferenças genéticas para completar dados revelados pelo Fst análise

foi necessário determinar o mais significativo pares de rebanhos. Os pares de efectivos mais significativos ao corte de P ≥ 1,28 e-50 foram 2 e 5, 6; 4 e 2, 3, 5, 12; 5 e 11; 7 e 1, 2, 9; 13 e 5, 9, 12 (Quadro 2). Estes pares dos rebanhos correspondem aos pares geneticamente mais diferentes dos rebanhos, enquanto os erros de dados Fst também foram levados em conta. Resumindo os resultados dos valores – P calculando podemos afirmar sobre um alto nível de significância a análise Fst.

avaliação dados da análise PCA

os autovalores de 100 autovectores, calculados a partir da matriz de covariância dos alelos de 803 vacas, diminuíram monotonicamente de 9,5 para zero. Prova que a estrutura da matriz de covariância era suficientemente homogénea. No geral os valores de P e a percentagem de variância (no brakets) para dez autovetores calculados para completar e poda de dados foram 2.8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1.02), 1.9 e-08 (0.88), 9.7 e-03 (0.76), 2.3 e-03 (0.72), 8.2 e-03 (0.71), 6.0 e-09 (0.66), 4.9 e-05 (0.62), 5.6 e-04 (0.59) (1) e 3.3 e-16 (0.84), 6.4 e-06 (0.79), 2.0 e-04 (0.76), 3.4 eE-06 (0.70), 2.6 e-05 (0.67), 3.2 e-08 (0.58), 2.0 e-03 (0.55), 4.0 e-04 (0.54), 2.2 e-07 (0.53), 3.0 e-03 (0.51) (2) respectivamente, i.e. eles foram semelhantes. No entanto, o valor P Global para o segundo vetor próprio de dados podados tornou-se significativo (6.4e-06) e, ao mesmo tempo, o valor global de P para o terceiro autovetor em muitas ordens de magnitude diminuiu (3.9 e – 14 vs. 2.0 e-04). Tal foi o efeito da poda à base de LD nos valores globais de P. A partir da lista de valores – P globais deve ser claro quais foram os principais “eixos de variação” significativos. A partir da lista de variâncias para cada autovetor (1) e (2) podem ser calculadas as variâncias a serem usadas após somar dez autovetores. Foram 8,17% para dados completos e 6,47% para dados podados. De onde, quanto mais autovetores forem somados, mais valor de variância será usado.

tendo os pequenos valores de Fst e a diminuição gradual dos valores de eigenvalues, calculámos a média para cada efectivo nas escalas de PC para a descrição estatística entre os efectivos diferenças genéticas reveladas pelo APC. A parcela dos meios para todas as manadas ao longo do PC 1 e do PC 3 é indicada na Fig. 3 e ao longo do PC 1 e PC 4 é mostrado na Fig. 4. Para avaliar a significância da diferença genética entre 13 efetivos com base no PC 1 que enumeramos (+) (denotando entre efetivos significância) no quadro 4 obtida a partir de valores – P no quadro 2, onde o corte de significância foi tomado a P ≤ 0.Mas dada a correcção Bonferroni, temos P ≤ 6.4 e-4. Além disso, para a brevidade, nós escrevemos p ≤ 0,05 em vez p ≤ 6.4 e-4. Para PC 1 entre 78 pares dos rebanhos havia 14 pares significativos dos rebanhos. Na maioria das vezes, foram observados dados significativos para os efectivos 4 e 13. Alguns resultados significativos obtidos com estatísticas de Fst também confirmaram com PCA para autovetores 1. Por exemplo, os maiores valores de Fst emparelhados para o efectivo 4 foram confirmados por um nível notavelmente mais elevado de significância revelado pelo APC (Quadro 2). Além disso, os pares insignificantes dos efetivos 1 e 4, 4 e 6, 4 e 13 para PC 1 correspondem aos menores valores de Fst para os pares dos efetivos formados com o efetivo 4 (Quadro 1). Deve notar-se um efeito negligenciável da poda à base de LD sobre a significância entre os efectivos para o vetor próprio 1 (Quadro 2).

Fig. 3
Figura 3

posição dos valores médios de Fst dos efectivos ao longo do PC 1 e do Pc 3. Cada ponto indica a posição média do efectivo ao longo dos PC 1 e PC 3 para os dados completos.

Fig. 4
Figura 4

posição dos valores médios de Fst dos efectivos ao longo do PC 1 e do Pc 4. Cada ponto indica a média do rebanho posição ao longo do PC 1 e PC 4 para os dados completos

Tabela 4 Entre rebanhos diferença genética para completar dados revelados pelo PC 1 e PC 3

O mesmo procedimento foi realizado para PC 3 (Tabela 4). Entre os pares havia 16 pares significativos de rebanhos. Os dados mais frequentemente significativos foram também obtidos para o efectivo 4 e não o efectivo 13. De catorze pares significativos dos rebanhos revelaram PC 1 apenas 9 coincidem com dezesseis pares significativos dos rebanhos revelaram PC 3. Assim, a pontuação PC 3 é diferente da PC 1. Obviamente, seria incorreto fazer uma conclusão sobre diferenças significativas entre manadas se utilizássemos dados para um autovetor separado (Tabela 2).

comparando o padrão visível de localização os valores médios dos rebanhos ao longo de PC 1-3 e PC 1-4 podemos tirar algumas conclusões gerais (figos. 3 e 4). A trajectória das manadas 4-7-6-13-1 preservou – se em ambas as figuras. Outros rebanhos mudaram visualmente em relação uns aos outros, embora nem todos os deslocamentos foram significativos em P < 0,05 como foi mostrado ao longo dos autovetores 1 e 3. No entanto, a diferença entre esses pares de manadas foi muito significativa quando os medimos com estatísticas de Fst (Tabela 2). Assim, as diferenças visuais das posições dos rebanhos nos figos. 3 e 4 podem estar incorrectos se usarmos apenas informação visual ao longo de autovectores separados.

a falta de significado global (P < 0.20) do segundo vetor próprio para dados completos e insignificância da maioria dos pares dos efetivos em conjunto emparelhado indica que não há diferença genética entre os efetivos para este eixo. Por conseguinte, estes dados foram excluídos da consideração.

além disso, com base em dados completos, testámos o nível de significância dos dados PCA se os valores P para o conjunto de pares foram calculados a partir de 10 PC somados. Os valores p adequados são indicados na Tabela 2 e os pares significativos dos efetivos que foram denotados como (+) estão listados na Tabela 5 no cutoff p ≤ 0,05. Entre eles havia 47 combinações significativas de manadas para PC 1-10 somado. O resultado mais significativo foi obtido para a manada 4 e 7, Enquanto resultados insignificantes para a manada 8, 9 e 10. Assim, dar variância genética somada de 10 autovetores leva a aumentar notavelmente o nível de significância e alterar conclusões sobre a significância dos dados, como foi mostrado para PC 1 e PC 3.

Quadro 5 diferença genética entre os efectivos para os dados completos revelados por PC 1-10 e PC somados 1-20

para verificar o nível de significância, calculámos ainda os valores P para o conjunto de efetivos em pares a partir de dados completos em 20 autovetores somados (Quadro 2). Verificou-se que para o corte em P ≤ 0,05, 61 de 78 pares de manadas foram significativos (Tabela 5). Os pares mais significativos de rebanhos foram 1, 4, 7, 8, 11 e 12 e o par mais insignificante dos rebanhos foi formado com o rebanho 3. Considerando os dados para dez e vinte autovetores somados, é importante notar que pares significativos dos rebanhos variaram muito com um aumento no número de autovetores somados. Assim, o aumento do número de autovetores somados leva a um aumento global do nível de significância.

para incluir a variância completa disponível na análise PCA, calculámos os valores P para 100 autovectores somados (Tabela 2). Para os dados completos, a distribuição dos valores P teve média de 2, 2 e-07 e mediana de 2, 2 e-15, pelo que a distribuição é altamente distorcida. O efectivo 3 tinha valores P mínimos com outros efectivos (Quadro 2), pelo que, com base nestes valores, seleccionámos pares significativos dos efectivos no limite p ≤ 1,0 e-10 e, dada a correcção Bonferroni p ≤ 1,28 e-12. Os resultados são apresentados na Tabela 6. A manada 3 formou 6 pares insignificantes de manadas 3 e 6, 8, 9, 10, 11, 12 e a manada 8 formou 9 pares insignificantes das manadas 8 e 1, 2, 3, 5, 6, 9, 10, 11, 12. Assim, a manada 8 e 3 foi a mais geneticamente relacionada com outras manadas e este resultado não contradiz os valores de Fst 0.002 e 0.003 prevalecentes em pares para estas manadas (Quadro 1). Foi necessário determinar os pares mais significativos dos rebanhos. O mais significativo em pares de rebanhos na corte P ≤ 1.28 e-20 foram 4 e 2, 3, 7, 9, 12, 13 (6 pares); 7 e 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11pairs); 13 e 2, 3, 4, 7, 9, 10, 12 (7 pares). Este resultado para os efectivos 7 e 13 deve-se a erros-padrão mais reduzidos para estes efectivos do que para o efectivo 4 (ver ficheiro adicional 1: Quadro 5).

Quadro 6 diferenças genéticas entre efectivos para dados completos revelados por PC 1-100

para dados podados, a distribuição dos valores P foi média de 2, 6 e-06 e mediana 1.8e-16. Assim, as distribuições de dados completas e podadas são semelhantes. Para o mesmo corte de P ≤ 1,28 e-12 como para os dados completos, os dados na Tabela 2 foram classificados (Tabela 7). A manada 3 formou 4 pares insignificantes da manada 3 e 6, 8, 9, 12. A manada 8 formou 9 Par insignificante da manada 8 e 1, 2, 3, 4, 5, 6, 9, 11, 12. Entre 15 pares de manadas 3 e 8 para os dados completos, apenas 11 desses pares coincidem com os dados podados. O par mais significativo dos rebanhos com recorte p ≤ 1,28 e-20 foi 4 e 2, 3, 7 (3 pares); 5 e 1, 2, 7, 11 (4 pares); 7 e 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 pares); 13 e 2, 7, 9, 10, 12 (5 pares). Assim, os valores de P para os dados completos e podados correspondem suficientemente bem (excepto os efectivos 4 e 5).

Tabela 7 Entre rebanhos diferenças genéticas para podadas dados revelados pelo somados PC 1-100

Avaliar o poder de Fst e PCA analisa

Na Tabela 2 listadas P – valores para o Par de conjunto do rebanho calculado com PCA e Fst analisa. De acordo com estes dados para 100 autovetores somados, os valores P eram os menores para qualquer outro autovetor ou somados 10 e 20 autovetores. Este resultado foi devido ao uso da variância completa dos dados iniciais. Além disso, comparando os valores P de análise PCA e Fst, conclui – se que os valores PST eram muitas ordens de magnitude menos as de 100 autovetores somados. Em Parwise set, a potência calculada PCA estava dentro do intervalo de 0.8–1.0, enquanto para Fst estava dentro do intervalo de 0.9–1 que é as probabilidades de um erro de tipo II são semelhantes. No total, considerando – se por várias ordens de magnitude menores valores P para Fst, podemos concluir que erro de tipo I de probabilidade para a análise Fst foi muito menos o PCA um. Por conseguinte, deve aceitar-se que os dados da primeira análise são mais fiáveis.

You might also like

Deixe uma resposta

O seu endereço de email não será publicado.