Évaluation de la puissance des composants principaux et des analyses de l’indice de fixation de wright appliquées pour révéler les différences génétiques à l’échelle du génome entre les troupeaux de vaches Holstein

Évaluation de la correspondance du CRG et du déséquilibre de liaison

L’effet de l’élagage basé sur la LD sur le nombre de SNP était important (voir fichier supplémentaire 1 : Figure S1). Pour estimer l’impact de l’élagage basé sur le LD sur le CRG des SNP, nous avons calculé la distribution du CRG dans huit bacs (Fig. 1). La proportion de SNP concernant les bacs du CRG dans les données complètes et les données élaguées était sensiblement différente. L’élagage à base de LD a complètement éliminé les SNP monomorphes, les SNP éliminés de manière disproportionnée avec un CRG de 0,2 à 0,4 tandis que la proportion de SNP rares et communs avec un CRG de 0,0001 à 0,1 et 0,5 a augmenté (Fig. 1). On peut suggérer que dans les SNP moyens avec CRG 0,1–0,4 distribués dans le génome plus proches les uns des autres que les SNP restants conduisant à la plus grande LD entre eux.

Fig. 1
 figure1

Proportion de SNP dans les données complètes et élaguées

Évaluation de l’impact de l’élimination des valeurs aberrantes sur les données du Tsf

Lors de la première étape, nous avons évalué l’impact des valeurs aberrantes sur les valeurs du Tsf. Nous avons calculé les valeurs Fst pour un ensemble de données complètes par paires avec correction et sans correction sur les valeurs aberrantes (voir Fichier supplémentaire 1: Tableau S1). Après correction des valeurs aberrantes dans EIGENSOFT, il restait 799 vaches et 46 626 SNP.

L’absence de correction des valeurs aberrantes conduit à un biais des valeurs Fst mais seulement pour 6 des 78 paires des troupeaux. Dans tous les cas, la différence entre les valeurs de la Tvf était de ± 0,001, à l’exception des paires 4 et 13 des troupeaux ayant une différence de 0,002. Presque les mêmes valeurs Fst ont également été stockées pour un ensemble par paires où les SNP exclus avec un CRG < 0,01. Parmi ces valeurs de Tsf, seules six paires de troupeaux différaient de 0,001 des valeurs de Tsf pour les données complètes du tableau S2 (voir Fichier supplémentaire 1) et trois d’entre elles étaient les mêmes que pour la correction des valeurs aberrantes.

Évaluation La méthode d’élagage basée sur les valeurs Fst

L’élagage de déséquilibre de liaison (LD < 0,1) a eu la même taille d’effet sur les valeurs Fst ±0,001 que les valeurs aberrantes, mais a affecté plus de couples des troupeaux 22 contre 6 pour l’effet des valeurs aberrantes (tableau 1 et voir fichier supplémentaire 1: Tableau 1). En fait, la taille de l’effet sur la Tvf n’était pas importante malgré une diminution considérable du nombre total de SNP (5827 contre 48 108) et de leur proportion dans les bacs SNP (Fig. 1). Ainsi, l’élagage à base de LD a eu un effet modéré sur les valeurs de Fst, mais il a affecté plus de couples de troupeaux.

Tableau 1 Estimations des valeurs de la Tvf pour les données complètes et élaguées

Évaluation de l’impact du CRG SNPs sur les valeurs de Fst

Pour évaluer l’impact du CRG SNPs sur les valeurs de Fst, nous avons divisé l’intervalle de CRG entier 0,0001-0,5 en 6 cases et calculé pour chacun d’eux la valeur moyenne de Fst sur des ensembles par paires formés à partir de données complètes et élaguées (Fig. 2). Les rares allèles SNPs ayant un CRG de 0,0001 à 0,005 avaient la plus petite valeur moyenne de Fst (0,0027) pour tous les troupeaux que ceux des SNP restants (voir Fichier supplémentaire 1 : Tableau S3). On peut en conclure qu’en moyenne entre troupeaux, les différences calculées pour les allèles rares étaient moindres que pour les allèles communs. Pour le CRG compris entre 0,1 et 0,5, la différence entre les valeurs moyennes de la Tvf entre les beans pour deux ensembles de données n’était pas significative. En raison de la compensation mutuelle des valeurs moyennes de la Tvf dans les données complètes et élaguées dans toute la plage du CRG, la valeur totale additionnée de la valeur de la Tvf entre elles était insignifiante (voir Fichier supplémentaire 1: Tableau S3). Ainsi, ces résultats confirment à nouveau une petite taille d’effet de l’élagage basé sur LD sur les valeurs Fst uniquement pour les allèles SNPs rares et non communs.

Fig. 2
 figure2

Dépendance de la Tvf moyenne sur la plage du CRG

Importance de l’évaluation des valeurs de la Tvf

Pour évaluer l’importance des valeurs de la Tvf dans le tableau 1, nous avons effectué les permutations par paires des troupeaux des vaches en les traitant comme une distribution H nulle. Les résultats de ces calculs de valeurs Fst sont listés dans le tableau S4 (voir Fichier supplémentaire 1). Ensuite, nous calculons les valeurs P pour chaque paire des troupeaux dans un ensemble par paires en utilisant le test t de Student (tableau 2). Tous avaient des valeurs de P comprises entre 1,0e-06 et 3,6e-60 avec une moyenne de 6,5e-18 et une médiane de 3,6e-40, ce qui constitue une distribution fortement biaisée. Pour calculer la Tvf pour la distribution nulle de H, nous n’avons effectué que 5 permutations pour chacune des 78 paires de troupeaux, car le processus prenait beaucoup de temps et les estimations des résultats des valeurs P ne seraient que légèrement sous–estimées. Dans le tableau 1, les valeurs minimales de la Tvf étaient de 0,002 à 0,003. Les paires de troupeaux correspondant à ces valeurs sont les candidats pour les troupeaux génétiquement les plus similaires. Cependant, lors de la comparaison de ces troupeaux dans le tableau 1, les erreurs n’ont pas été prises en compte. Les probabilités de commettre une erreur de type 1 pour les 78 combinaisons de troupeaux sont données dans le tableau 2. Pour évaluer les différences génétiques entre les troupeaux, nous avons choisi la coupure P ≤ 1,0e-30 (P ≤ 1,28e-32 en tenant compte de la correction de Bonferroni) dans laquelle, en règle générale, les différences entre les troupeaux aux valeurs Fst 0,002–0,003 doivent être insignifiantes. Les résultats sont présentés dans le tableau 3. Les paires insignifiantes de troupeaux étaient 2 et 8, 9, 11, 12 (4 paires); 3 et 5, 8, 9, 10 (4 paires); 8 et 2, 3, 9, 11 (4 paires); 9 et 2, 3, 11, 12 (4 paires). Les couples de troupeaux de 2, 3, 8 et 9 troupeaux présentaient de 4 à 6 valeurs Fst de 0,002 à 0,003 (tableau 1). Par conséquent, les résultats de l’identification de paires de troupeaux insignifiantes (tableau 3) correspondent aux données minimales de la Tvf du tableau 1. Dans le tableau 3, les paires les plus significatives de troupeaux à cette limite étaient les troupeaux 4 (10 pars), 7 (12 paires), 13 (12 paires) ou un niveau de signification plus rigoureux à la limite P ≤ 1.28e-39 les troupeaux 4, 7 et 13 comptaient 10, 8 et 11 paires significatives de troupeaux (tableau 3).

Tableau 2 Estimations des différences génétiques entre troupeaux (valeurs P) a
Tableau 3 différences génétiques entre les troupeaux pour les données complètes révélées par l’analyse de la Tvf

Il était nécessaire de déterminer les paires de troupeaux les plus importantes. Les couples les plus significatifs à la coupure P ≥ 1,28e -50 des troupeaux étaient 2 et 5, 6; 4 et 2, 3, 5, 12; 5 et 11; 7 et 1, 2, 9; 13 et 5, 9, 12 (tableau 2). Ces paires de troupeaux correspondent aux paires les plus génétiquement différentes des troupeaux, tandis que les erreurs de données Fst ont également été prises en compte. En résumant les résultats du calcul des valeurs P, nous pouvons affirmer un niveau élevé de signification de l’analyse Fst.

Évaluation Données d’analyse PCA

Les valeurs propres de 100 vecteurs propres calculées à partir de la matrice de covariance des allèles de 803 vaches ont diminué de façon monotone de 9,5 à zéro. Cela prouve que la structure de la matrice de covariance était assez homogène. Les valeurs P globales et le pourcentage de variance (en brakets) pour dix vecteurs propres calculés pour les données complètes et élaguées étaient de 2,8e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1,02), 1,9e-08 (0,88), 9,7e-03 (0,76), 2,3e-03 (0,72), 8,2e-03 (0,71), 6,0e-09 (0,66), 4,9e-05 (0,62), 5,6e-04 (0,59) (1) et 3,3 e-16 (0,84), 6,4e-06 (0,79), 2,0e-04 (0,76), 3,4eE-06 (0,70), 2,6e-05 (0,67), 3,2e-08 (0,58), 2,0e-03 (0,55), 4,0e-04 (0,54), 2,2e-07 (0,53), 3,0 e-03 (0,51) (2) respectivement, c’est-à-dire qu’ils étaient similaires. Cependant, la valeur P globale pour le deuxième vecteur propre des données élaguées est devenue significative (6.4e-06) et en même temps la valeur globale de P pour le troisième vecteur propre sur de nombreux ordres de grandeur a diminué (3,9e-14 contre 2,0e-04). Tel était l’effet de l’élagage basé sur LD sur les valeurs P globales. De la liste des valeurs globales de P devrait être clair quels étaient les principaux « axes de variation » significatifs. À partir de la liste des variances pour chaque vecteur propre (1) et (2), on peut calculer les variances à utiliser après avoir additionné dix vecteurs propres. Il était de 8,17 % pour les données complètes et de 6,47 % pour les données taillées. D’où, plus le nombre de vecteurs propres sera additionné, plus la valeur de la variance sera utilisée.

Avec les petites valeurs de Fst et la diminution progressive des valeurs propres, nous avons calculé la moyenne pour chaque troupeau dans les échelles de PC à la description statistique entre les troupeaux différences génétiques révélées par PCA. Le tracé des moyens pour tous les troupeaux le long de PC1 et PC3 est représenté sur la Fig. 3 et le long de PC1 et PC4 est représenté sur la Fig. 4. Pour évaluer la signification de la différence génétique entre 13 troupeaux sur la base du PC 1, nous avons répertorié (+) (indiquant la signification entre les troupeaux) dans le tableau 4 obtenu à partir des valeurs P du tableau 2 où la coupure de signification a été prise à P ≤ 0.05 mais étant donné la correction de Bonferroni, nous obtenons P ≤ 6,4e-4. De plus, par souci de concision, nous écrivons P ≤ 0,05 au lieu de P ≤ 6,4e-4. Pour le PC 1, parmi 78 paires de troupeaux, il y avait 14 paires significatives de troupeaux. Le plus souvent, des données significatives ont été observées pour les troupeaux 4 et 13. Certains résultats significatifs obtenus avec la statistique Fst ont également été confirmés avec l’ACP pour les vecteurs propres 1. Par exemple, les valeurs de la Tvf les plus élevées par paire pour le troupeau 4 ont été confirmées par le niveau de signification nettement plus élevé révélé par l’APC (tableau 2). Par ailleurs, des couples insignifiants des troupeaux 1 et 4, 4 et 6, 4 et 13 pour PC1 correspondent aux plus petites valeurs de Fst pour les couples des troupeaux formés avec le troupeau 4 (Tableau 1). Il convient de noter une taille d’effet négligeable de la taille basée sur la DL sur la signification entre les troupeaux pour le vecteur propre 1 (tableau 2).

Fig. 3
 figure3

Position des valeurs Fst moyennes des troupeaux le long de PC1 et PC3. Chaque point indique la position moyenne du troupeau le long des PC 1 et PC 3 pour des données complètes

Fig. 4
 figure4

Position des valeurs Fst moyennes des troupeaux le long de PC1 et PC4. Chaque point indique la position moyenne du troupeau le long des PC 1 et PC 4 pour des données complètes

Tableau 4 Différence génétique entre les troupeaux pour les données complètes révélées par PC 1 et PC 3

La même procédure a été effectuée pour le PC 3 (tableau 4). Parmi les ensembles par paires, il y avait 16 paires importantes de troupeaux. Les données les plus souvent significatives ont également été obtenues pour le troupeau 4 et non pour le troupeau 13. Sur quatorze paires significatives des troupeaux révélés PC 1 seulement 9 coïncident avec seize paires significatives des troupeaux révélés PC 3. Ainsi, le score PC 3 est différent du score PC 1. De toute évidence, il serait incorrect de tirer une conclusion sur les différences significatives entre les troupeaux si nous utilisions des données pour un vecteur propre distinct (tableau 2).

En comparant le modèle visible de localisation aux valeurs moyennes des troupeaux le long de PC 1-3 et PC 1-4, nous pouvons tirer quelques conclusions générales (Fig. 3 et 4). La trajectoire reliant les troupeaux 4-7-6-13-1 conservée sur les deux figures. D’autres troupeaux se sont visuellement déplacés les uns par rapport aux autres, bien que tous ces déplacements n’aient pas été significatifs à P < 0,05, comme cela a été montré le long des vecteurs propres 1 et 3. Cependant, la différence entre ces couples de troupeaux était très significative lorsque nous les avons mesurés avec les statistiques de la Tvf (tableau 2). Ainsi, les différences visuelles des positions des troupeaux sur les Fig. 3 et 4 pourraient être incorrects si nous n’utilisions que des informations visuelles le long de vecteurs propres distincts.

L’absence de signification globale (P < 0.20) du deuxième vecteur propre pour les données complètes et l’insignifiance de la plupart des paires des troupeaux dans l’ensemble par paires indique qu’il n’y a pas de différence génétique entre les troupeaux pour cet axe. Par conséquent, ces données ont été exclues de l’examen.

De plus, sur la base de données complètes, nous avons testé le niveau de signification des données PCA si les valeurs P pour l’ensemble par paires étaient calculées à partir de dix PC additionnés. Des valeurs P appropriées sont données dans le tableau 2 et des paires significatives des troupeaux notées (+) sont répertoriées dans le tableau 5 à la coupure P ≤ 0,05. Parmi eux, il y avait 47 combinaisons significatives par paires des troupeaux pour la somme des PC 1-10. Le résultat le plus significatif a été obtenu pour les troupeaux 4 et 7, tandis que les résultats sont insignifiants pour les troupeaux 8, 9 et 10. Ainsi, donner une variance génétique additionnée à partir de 10 vecteurs propres conduit à augmenter sensiblement le niveau de signification et à modifier les conclusions sur la signification des données, comme cela a été montré pour PC 1 et PC 3.

Tableau 5 Différence génétique entre les troupeaux pour les données complètes révélées par la somme PC 1-10 et PC 1-20

Pour vérifier davantage le niveau de signification, nous avons calculé des valeurs P pour l’ensemble par paires des troupeaux à partir de données complètes sur 20 vecteurs propres additionnés (tableau 2). Il s’est avéré que pour la coupure à P ≤ 0,05, 61 des 78 couples des troupeaux étaient significatifs (tableau 5). Les paires de troupeaux les plus importantes étaient 1, 4, 7, 8, 11 et 12 et la paire la plus insignifiante des troupeaux était formée avec le troupeau 3. Compte tenu des données pour les vecteurs propres additionnés de dix et vingt, il est important de noter que les paires significatives des troupeaux variaient considérablement avec une augmentation du nombre de vecteurs propres additionnés. Ainsi, l’augmentation du nombre de vecteurs propres additionnés conduit à une augmentation globale du niveau de signification.

Pour inclure la variance complète disponible à partir de l’analyse PCA, nous avons calculé des valeurs P pour 100 vecteurs propres sommés (tableau 2). Pour les données complètes, la distribution des valeurs P avait une moyenne de 2,2e-07 et une médiane de 2,2e-15, de sorte que la distribution est fortement biaisée. Le troupeau 3 avait des valeurs P minimales avec d’autres troupeaux (tableau 2) donc sur la base de ces valeurs, nous avons sélectionné des paires significatives des troupeaux à la coupure P ≤ 1,0e-10 et compte tenu de la correction de Bonferroni P ≤ 1,28e-12. Les résultats sont présentés dans le tableau 6. Le troupeau 3 formait 6 paires insignifiantes de troupeaux 3 et 6, 8, 9, 10, 11, 12 et le troupeau 8 a formé 9 paires insignifiantes des troupeaux 8 et 1, 2, 3, 5, 6, 9, 10, 11, 12. Ainsi, les troupeaux 8 et 3 étaient les plus apparentés génétiquement avec d’autres troupeaux et ce résultat ne contredit pas les valeurs Fst 0,002 et 0,003 prévalant par paire pour ces troupeaux (tableau 1). Il était nécessaire de déterminer les couples les plus importants des troupeaux. Les couples les plus significatifs des troupeaux à la coupure P ≤ 1,28e-20 étaient de 4 et 2, 3, 7, 9, 12, 13 (6 paires); 7 et 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 ( 11 paires); 13 et 2, 3, 4, 7, 9, 10, 12 (7 paires). Ce résultat pour les troupeaux 7 et 13 est dû à des erreurs types plus petites pour ces troupeaux que pour le troupeau 4 (voir Fichier supplémentaire 1 : tableau 5).

Tableau 6 Différences génétiques entre troupeaux pour les données complètes révélées par PC 1-100

Pour les données élaguées, la distribution des valeurs P avait une moyenne de 2,6e-06 et une médiane de 1.8e-16. Ainsi, les distributions de données complètes et élaguées sont similaires. Pour le même seuil P ≤ 1,28e-12 que pour les données complètes, les données du tableau 2 ont été classées (tableau 7). Le troupeau 3 a formé 4 paires insignifiantes du troupeau 3 et 6, 8, 9, 12. Le troupeau 8 formait 9 paire insignifiante du troupeau 8 et 1, 2, 3, 4, 5, 6, 9, 11, 12. Parmi les 15 paires de troupeaux 3 et 8 pour les données complètes, seules 11 de ces paires coïncident avec des données taillées. La paire la plus significative des troupeaux avec une coupure P ≤ 1,28e-20 était 4 et 2, 3, 7 (3 paires); 5 et 1, 2, 7, 11 (4 paires); 7 et 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 paires); 13 et 2, 7, 9, 10, 12 (5 paires). Ainsi, les valeurs P pour les données complètes et élaguées correspondent suffisamment bien (sauf pour les troupeaux 4 et 5).

Tableau 7 Différences génétiques entre les troupeaux pour les données élaguées révélées par la somme des données PC 1-100

L’évaluation de la puissance des analyses Fst et PCA

Dans le tableau 2 énumère les valeurs P pour l’ensemble par paires des troupeaux calculés avec les analyses PCA et Fst. Selon ces données pour les 100 vecteurs propres additionnés, les valeurs de P étaient les plus petites de celles pour tout autre vecteur propre ou les 10 et 20 vecteurs propres additionnés. Ce résultat était dû à l’utilisation de la variance complète des données initiales. De plus, la comparaison des valeurs P des analyses PCA et Fst permet de conclure que les valeurs Pst de Fst étaient de plusieurs ordres de grandeur moins celles des 100 vecteurs propres additionnés. Dans l’ensemble par paires, la puissance calculée de l’ACP se situait dans la plage de 0,8 à 1,0, tandis que pour la Tvf, elle se situait dans la plage de 0,9 à 1, c’est-à-dire que les probabilités d’une erreur de type II sont similaires. Au total, en considérant de plusieurs ordres de grandeur des valeurs P plus petites pour la Tvf, nous pouvons conclure que l’erreur de probabilité de type I pour l’analyse de la TVF était beaucoup moins celle de la PCA. Par conséquent, il convient de reconnaître que les données de l’analyse du Tsf sont plus fiables.

You might also like

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.