- Evaluación la correspondencia de MAF y desequilibrio de enlace
- Evaluación del impacto de la eliminación de valores atípicos en los datos de Fst
- Metodología de poda basada en la evaluación LD en valores de Fst
- Evaluación del impacto de SNPs MAF en los valores de Fst
- Significación de la evaluación de los valores de Fst
- Evaluación Datos de análisis de PCA
- La evaluación de la potencia de los análisis de Fst y PCA
Evaluación la correspondencia de MAF y desequilibrio de enlace
El efecto de la poda basada en LD en el número de SNPs fue grande (ver archivo Adicional 1 Figura S1). Para estimar el impacto de la poda basada en DL sobre el MAF de los SNPs se calculó la distribución del MAF en ocho contenedores (Fig. 1). La proporción de SNP con respecto a los contenedores MAF en los datos completos y podados fue notablemente diferente. La poda basada en LD eliminó completamente los SNP monomórficos, eliminó desproporcionadamente los SNP con MAF 0.2-0.4, mientras que aumentó la proporción de SNP raros y comunes con MAF 0.0001–0.1 y 0.5 (Fig. 1). Se puede sugerir que en promedio los SNP con MAF 0.1-0.4 distribuidos en el genoma más cerca entre sí que los SNP restantes que conducen al mayor LD entre ellos.
Evaluación del impacto de la eliminación de valores atípicos en los datos de Fst
En el primer paso evaluamos el impacto de los valores atípicos en los valores de Fst. Calculamos los valores de Fst para el conjunto de pares de datos completos, tanto con corrección como sin corrección en valores atípicos (ver archivo adicional 1: Tabla S1). Después de la corrección de valores atípicos en EIGENSOFT, se mantuvieron 799 vacas y 46.626 SNPs.
La ausencia de corrección de los valores atípicos conduce a un sesgo de los valores de Fst, pero solo para 6 de 78 pares de rebaños. En todos los casos, la diferencia entre los valores de Fst fue de ±0,001, con excepción de 4 y 13 pares de rebaños con diferencia de 0,002. También se almacenaron casi los mismos valores de Fst para el conjunto de pares donde se excluyeron SNPs con MAF < 0.01. Entre estos valores de Fst, solo seis pares de rebaños diferían en 0,001 de los valores de Fst para los datos completos de la Tabla S2 (ver archivo adicional 1) y tres de ellos eran los mismos que como resultado de la corrección de valores atípicos.
Metodología de poda basada en la evaluación LD en valores de Fst
La poda de desequilibrio de enlace (LD < 0.1) tuvo el mismo tamaño de efecto en los valores de Fst ±0.001 que los valores atípicos, pero afectó a más pares de rebaños 22 vs.6 para el efecto de valores atípicos (Tabla 1 y ver archivo Adicional 1: Tabla 1). De hecho, el tamaño del efecto en Fst no fue grande a pesar de la disminución considerable en el número total de SNPs (5827 vs.48,108) y su proporción en los contenedores de SNPs (Fig. 1). Por lo tanto, la poda basada en la DL tuvo un efecto moderado en los valores de Fst, pero afectó a más parejas de rebaños.
Evaluación del impacto de SNPs MAF en los valores de Fst
Para evaluar el impacto de SNPs MAF en los valores de Fst, dividimos todo el intervalo de MAF 0,0001-0,5 en 6 contenedores y calculamos para cada uno de ellos el valor medio de Fst a través de conjuntos de Pares formados a partir de datos completos y podados (Fig. 2). Los alelos raros de SNPs con MAF 0,0001-0,005 tuvieron el menor valor medio de FST (0,0027) en todos los rebaños que los de los SNPs restantes (ver archivo adicional 1: Tabla S3). Se puede concluir que, en promedio, las diferencias entre rebaños calculadas para los alelos raros fueron inferiores a las de los alelos comunes. Para MAF en el rango de 0,1–0,5, la diferencia entre los valores medios de Fst entre frijoles para dos conjuntos de datos no fue significativa. Como resultado de la compensación mutua de los valores medios de Fst en datos completos y podados en todo el rango de MAF, el valor total sumado del valor de Fst entre ellos fue insignificante (ver archivo Adicional 1: Tabla S3). Por lo tanto, estos resultados confirman de nuevo un pequeño tamaño de efecto de poda basada en LD en valores de Fst solo para alelos SNPs raros no comunes.
Significación de la evaluación de los valores de Fst
Para evaluar la significación de los valores de Fst en la Tabla 1, se realizaron las permutaciones de parejas de rebaños de las vacas tratándolas como H de distribución nula. Los resultados de estos cálculos de valores de Fst se enumeran en la Tabla S4 (ver archivo adicional 1). Luego, calculamos los valores de P para cada par de rebaños en pares utilizando la prueba t de Student (Tabla 2). Todos ellos tenían valores de P en el rango de 1,0 e-06 a 3,6 e-60 con media de 6,5 e-18 y mediana de 3,6 e-40, por lo que es una distribución muy sesgada. Para calcular la Fst para la distribución nula de H, se llevaron a cabo solo 5 permutaciones para cada uno de los 78 pares de rebaños, ya que era un proceso que consumía mucho tiempo y el resultado de las estimaciones de los valores de P solo se subestimaría ligeramente. En la Tabla 1, los valores mínimos de Fst fueron 0,002-0,003. Los pares de rebaños correspondientes a estos valores son los candidatos para los rebaños genéticamente más similares. Sin embargo, al comparar estos rebaños en la Tabla 1, no se tuvieron en cuenta los errores. Las probabilidades de cometer un error de tipo 1 para las 78 combinaciones de rebaños se indican en la Tabla 2. Para evaluar las diferencias genéticas entre los rebaños hemos elegido el corte P ≤ 1,0 e-30 (P ≤ 1,28 e-32 teniendo en cuenta la corrección de Bonferroni) en el que, por regla general, las diferencias entre los rebaños a valores de Fst 0,002–0,003 deberían ser insignificantes. Los resultados se muestran en la Tabla 3. Insignificante pares de los rebaños fueron el 2 y el 8, 9, 11, 12 (4 pares); 3 y 5, 8, 9, 10 (4 pares); 8 y 2, 3, 9, 11 (4 pares); 9 y 2, 3, 11, 12 (4 pares). Los pares de rebaños con 2, 3, 8 y 9 rebaños tuvieron 4-6 valores de Fst 0,002-0,003 (Tabla 1). Por lo tanto, los resultados de la identificación de pares insignificantes de rebaños (Tabla 3) corresponden a los datos mínimos de Fst de la Tabla 1. En la Tabla 3, los pares de rebaños más significativos en este corte fueron el rebaño 4 (10 pares), 7 (12 pares), 13 (12 pares) o un nivel de significación más estricto en el corte P ≤ 1.28e – 39 los rebaños 4, 7 y 13 tenían 10, 8 y 11 pares significativos de rebaños (Tabla 3).
Fue necesario determinar las parejas de rebaños más significativas. Los pares más significativos en el corte P ≥ 1,28 e-50 de los rebaños fueron 2 y 5, 6; 4 y 2, 3, 5, 12; 5 y 11; 7 y 1, 2, 9; 13 y 5, 9, 12 (Tabla 2). Estos pares de rebaños corresponden a los pares genéticamente más diferentes de los rebaños, mientras que también se tuvieron en cuenta los errores de datos de Fst. Resumiendo los resultados del cálculo de los valores de P, podemos afirmar un alto nivel de significancia en el análisis de Fst.
Evaluación Datos de análisis de PCA
Los valores propios de 100 vectores propios calculados a partir de la matriz de covarianza de alelos de 803 vacas disminuyeron monótonamente de 9,5 a cero. Prueba que la estructura de la matriz de covarianza era suficientemente homogénea. Los valores de P generales y el porcentaje de varianza (en frenos) para diez vectores propios calculados para datos completos y podados fueron de 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1,02), 1,9 e-08 (0,88), 9,7 e-03 (0,76), 2,3 e-03 (0,72), 8,2 e-03 (0,71), 6,0 e-09 (0,66), 4,9 e-05 (0,62), 5,6 e-04 (0,59) (1) y 3,3 e-16 (0,84), 6,4 e-06 (0,79), 2,0 e-04 (0,76), 3,4 eE-06 (0,70), 2,6 e-05 (0,67), 3,2 e-08 (0,58), 2,0 e-03 (0,55), 4,0 e-04 (0,54), 2,2 e-07 (0,53), 3,0 e-03 (0,51) (2) respectivamente, es decir, eran similares. Sin embargo, el valor de P general para el segundo vector propio de los datos podados se ha vuelto significativo (6.4e-06) y al mismo tiempo en la general P – valor para el tercer vector propio en muchos órdenes de magnitud menor (3.9 e-14 vs 2.0 e-04). Tal fue el efecto de la poda basada en LD sobre los valores P generales. De la lista de valores P generales debería quedar claro cuáles eran los principales «ejes de variación» significativos. De la lista de varianzas para cada vector propio (1) y (2) se pueden calcular las varianzas que se utilizarán después de sumar diez vectores propios. Fue del 8,17% para los datos completos y del 6,47% para los datos podados. Por lo tanto, cuantos más vectores propios se sumen, más valor de varianza se utilizará.
Teniendo los valores de Fst pequeños y la disminución gradual de los valores propios, calculamos la media para cada rebaño en las escalas de CP a la descripción estadística entre las diferencias genéticas reveladas por el PCA. La gráfica de los medios para todos los rebaños a lo largo de PC 1 y PC 3 se muestra en la Fig. 3 y a lo largo de PC 1 y PC 4 se muestra en la Fig. 4. Para evaluar la significación de la diferencia genética entre 13 rebaños con base en el CP 1, se listó ( + ) (que denota la significación entre rebaños) en la Tabla 4, obtenida a partir de los valores de P de la Tabla 2, donde se tomó el corte de significación a P ≤ 0.05 pero dada la corrección de Bonferroni obtenemos P ≤ 6,4 e-4. Además, para brevedad, escribimos P ≤ 0.05 en lugar de P ≤ 6.4 e-4. Para PC 1, entre 78 pares de rebaños había 14 pares significativos de rebaños. En la mayoría de los casos, se observaron datos significativos para los rebaños 4 y 13. Algunos resultados significativos obtenidos con el estadístico Fst también se confirmaron con el PCA para los vectores propios 1. Por ejemplo, los mayores valores de Fst en parejas para el rebaño 4 fueron confirmados por un nivel de significancia notablemente más alto revelado por la PCA (Tabla 2). Además, los pares insignificantes de los rebaños 1 y 4, 4 y 6, 4 y 13 para PC 1 corresponden a los valores de Fst más pequeños para los pares de los rebaños formados con el rebaño 4 (Tabla 1). Cabe señalar un tamaño de efecto insignificante de la poda basada en la DT en la importancia de entre rebaños para el vector propio 1 (Tabla 2).
El mismo procedimiento se llevó a cabo para el CP 3 (Tabla 4). Entre el conjunto de parejas había 16 parejas significativas de rebaños. Los datos más significativos se obtuvieron también para el rebaño 4, no para el rebaño 13. De catorce pares significativos de los rebaños revelados PC 1, solo 9 coinciden con dieciséis pares significativos de los rebaños revelados PC 3. Por lo tanto, la puntuación de PC 3 es diferente de la de PC 1. Obviamente, sería incorrecto llegar a una conclusión sobre diferencias significativas entre rebaños si utilizáramos datos para un vector propio separado (Tabla 2).
Comparando el patrón visible de localización de los valores medios de los rebaños a lo largo de PC 1-3 y PC 1-4 podemos extraer algunas conclusiones generales (Figs. 3 y 4). La trayectoria que conecta los rebaños 4-7-6-13-1 se conserva en ambas figuras. Otros rebaños se desplazaron visualmente entre sí, aunque no todos esos desplazamientos fueron significativos en P < 0,05, como se mostró a lo largo de los vectores propios 1 y 3. Sin embargo, la diferencia entre estos pares de rebaños fue muy significativa cuando los medimos con la estadística Fst (Tabla 2). Por lo tanto, las diferencias visuales de las posiciones de los rebaños en los higos. 3 y 4 podrían ser incorrectos si usáramos solo información visual a lo largo de vectores propios separados.
La falta de significación general (P < 0.20) del segundo vector propio para datos completos y la insignificancia de la mayoría de pares de rebaños en el conjunto de pares indica que no hay diferencia genética entre rebaños para este eje. Por lo tanto, estos datos fueron excluidos de consideración.
Además, con base en datos completos, probamos el nivel de significancia de los datos de PCA si los valores de P para el conjunto de pares se calcularon a partir de la suma de diez PC. Los valores de P apropiados se dan en la Tabla 2 y los pares significativos de los rebaños que se denotaron como (+) se enumeran en la Tabla 5 en el punto de corte P ≤ 0,05. Entre ellos había 47 combinaciones significativas de parejas de rebaños para PC sumadas 1-10. El resultado más significativo se obtuvo para el rebaño 4 y 7, mientras que los resultados insignificantes para el rebaño 8, 9 y 10. Por lo tanto, dar varianza genética sumada de 10 vectores propios conduce a aumentar notablemente el nivel de significación y a cambiar las conclusiones sobre la significación de los datos, como se demostró para PC 1 y PC 3.
Para verificar aún más el nivel de significación, calculamos los valores de P para el conjunto de pares de rebaños a partir de datos completos de 20 vectores propios sumados (Tabla 2). Resultó que para el corte en P ≤ 0,05, 61 de 78 pares de rebaños fueron significativos (Tabla 5). Las parejas más significativas de rebaños fueron 1, 4, 7, 8, 11 y 12 y la pareja más insignificante de rebaños se formó con el rebaño 3. Teniendo en cuenta los datos de los vectores propios sumados de diez y veinte, es importante señalar que los pares significativos de los rebaños variaron mucho con un aumento en el número de vectores propios sumados. Por lo tanto, el aumento del número de vectores propios sumados conduce a un aumento general del nivel de significación.
Para incluir la varianza completa disponible en el análisis de PCA, calculamos los valores de P para 100 vectores propios sumados (Tabla 2). Para los datos completos, la distribución de los valores de P tuvo una media de 2,2 e-07 y una mediana de 2,2 e-15, por lo que la distribución es muy sesgada. El rebaño 3 tenía valores mínimos de P con otros rebaños (Tabla 2), por lo que, con base en estos valores, seleccionamos pares significativos de los rebaños en el punto de corte P ≤ 1,0 e-10 y dada la corrección de Bonferroni P ≤ 1,28 e-12. Los resultados se muestran en la Tabla 6. El rebaño 3 formó 6 pares insignificantes de rebaños 3 y 6, 8, 9, 10, 11, 12 y el rebaño 8 formó 9 pares insignificantes de los rebaños 8 y 1, 2, 3, 5, 6, 9, 10, 11, 12. Por lo tanto, el rebaño 8 y 3 fue el más relacionado genéticamente con otros rebaños y este resultado no contradice los valores de Fst 0,002 y 0,003 prevalecientes en el conjunto de pares para estos rebaños (Tabla 1). Fue necesario determinar las parejas más significativas de los rebaños. Los pares más significativos de los rebaños en el punto de corte P ≤ 1,28 e-20 fueron 4 y 2, 3, 7, 9, 12, 13 (6 pares); 7 y 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 pares); 13 y 2, 3, 4, 7, 9, 10, 12 (7 pares). Este resultado para los rebaños 7 y 13 se debe a errores estándar más pequeños para estos rebaños que para el rebaño 4 (ver archivo adicional 1: Tabla 5).
Para los datos podados, la distribución de los valores de P tuvo una media de 2,6 e-06 y una mediana de 1.8e-16. Por lo tanto, las distribuciones de datos completas y recortadas son similares. Para el mismo punto de corte P ≤ 1,28 e-12 que para los datos completos, se clasificaron los datos de la Tabla 2 (Tabla 7). El rebaño 3 formó 4 pares insignificantes del rebaño 3 y 6, 8, 9, 12. El rebaño 8 formó 9 pares insignificantes del rebaño 8 y 1, 2, 3, 4, 5, 6, 9, 11, 12. Entre los 15 pares de rebaños 3 y 8 para los datos completos, solo 11 de esos pares coinciden con los datos podados. Las parejas más significativas de rebaños con corte P ≤ 1,28 e-20 fueron 4 y 2, 3, 7 (3 pares); 5 y 1, 2, 7, 11 (4 pares); 7 y 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 pares); 13 y 2, 7, 9, 10, 12 (5 pares). Por lo tanto, los valores de P para datos completos y podados coinciden lo suficientemente bien (excepto en los rebaños 4 y 5).
La evaluación de la potencia de los análisis de Fst y PCA
En la Tabla 2 se enumeran los valores de P para el conjunto de pares de los rebaños calculados con análisis de PCA y Fst. De acuerdo con estos datos para los vectores propios sumados de 100, los valores de P fueron los más pequeños de los de cualquier otro vector propio o de los vectores propios sumados de 10 y 20. Este resultado se debió al uso de la varianza completa de los datos iniciales. Además, al comparar los valores de P de los análisis de PCA y Fst se llega a la conclusión de que los valores de P de Fst eran muchos órdenes de magnitud menos que los de 100 vectores propios sumados. A través del conjunto de pares, la potencia calculada de PCA estaba dentro del rango de 0.8–1.0, mientras que para Fst estaba dentro del rango de 0.9–1, es decir, las probabilidades de un error de tipo II son similares. En total, considerando por varios órdenes de magnitud valores de P más pequeños para Fst, podemos concluir que el error de probabilidad tipo I para el análisis de Fst fue mucho menor que el de PCA. Por lo tanto, debe aceptarse que los datos del análisis de Fst son más fiables.