- Evaluation The correspondence of MAF and linkage disequilibrium
- beoordeling van de impact van de verwijdering van uitschieters op Fst-gegevens
- evaluatie ld op basis van snoeimethodologie op basis van Fst-waarden
- evaluatie impact van SNPs MAF op Fst–waarden
- evaluatie significantie van Fst-waarden
- evaluatie PCA-analysegegevens
- beoordeling van het vermogen van Fst-en PCA-analyses
Evaluation The correspondence of MAF and linkage disequilibrium
het effect van op LD gebaseerde snoeien op het aantal SNP ‘ s was groot (zie aanvullend dossier 1: Figuur S1). Om het effect van op LD gebaseerde snoeien op MAF van SNP ‘ s te schatten, hebben we de verdeling van MAF in acht bakken berekend (Fig. 1). Het aandeel van SNP ‘ s met betrekking tot de MAF bakken in de volledige en de gesnoeide gegevens was merkbaar verschillend. LD-gebaseerde snoeien volledig verwijderd monomorfe SNPs, disproportioneel verwijderd SNPs met MAF 0,2-0,4 terwijl aandeel van zeldzame en gemeenschappelijke SNPs met MAF 0,0001-0,1 en 0,5 verhoogd (Fig . 1). Men kan voorstellen dat in gemiddelde SNPs met MAF 0.1–0.4 in genoom dichter bij elkaar dan het blijven SNPs die tot grootste LD tussen hen leiden wordt verdeeld.
beoordeling van de impact van de verwijdering van uitschieters op Fst-gegevens
in de eerste stap hebben we de impact van de uitschieters op Fst-waarden geëvalueerd. We berekenden Fst-waarden voor een paarsgewijze set van volledige gegevens, zowel met correctie als zonder correctie op uitschieters (zie aanvullend bestand 1: tabel S1). Na uitbijterscorrectie in EIGENSOFT bleven 799 koeien en 46.626 SNPs over.
het ontbreken van de correctie voor uitschieters leidt tot een vertekening van de Fst-waarden, maar alleen voor 6 van 78 paar beslagen. In alle gevallen was het verschil tussen de Fst-waarden ±0,001, met uitzondering van 4 en 13 paar kuddes met 0,002 verschil. Bijna dezelfde FST waarden werden ook opgeslagen voor paarsgewijs ingesteld waar SNPs met MAF < 0,01 werd uitgesloten. Onder deze Fst-waarden verschilden slechts zes paren van de kuddes met 0,001 van de Fst-waarden voor volledige gegevens in Tabel S2 (zie aanvullend dossier 1) en drie daarvan waren hetzelfde als in resultaat van uitbijterscorrectie.
evaluatie ld op basis van snoeimethodologie op basis van Fst-waarden
Koppelingsstoornissen snoeien (LD < 0,1) had dezelfde effectgrootte op Fst-waarden ±0,001 als de uitschieters hadden, maar had meer paren van de beslagen beïnvloed 22 vs.6 voor uitschieters-effect (Tabel 1 en zie aanvullend dossier 1: Tabel 1). In feite was het effect op Fst niet groot, ondanks een aanzienlijke daling van het totale aantal SNPs (5827 vs.48.108) en hun aandeel in de SNPs bakken (Fig. 1). Het snoeien op basis van LD had dus een matig effect op de Fst – waarden, maar het had invloed op meer paren van kuddes.
evaluatie impact van SNPs MAF op Fst–waarden
om de impact van SNPs MAF op Fst-waarden te evalueren, verdeelden we het gehele MAF-interval 0,0001-0,5 in 6 bakken en berekenden voor elk van hen de gemiddelde Fst-waarde over paarsgewijze sets gevormd uit volledige en gesnoeide gegevens (Fig. 2). De zeldzame SNPs-allelen met MAF 0,0001-0,005 hadden de kleinste gemiddelde Fst-waarde (0,0027) in alle kuddes dan die voor de resterende SNPs (zie aanvullend dossier 1: tabel S3). Geconcludeerd kan worden dat de voor zeldzame allelen berekende gemiddelde verschillen tussen de beslagen kleiner waren dan die voor gewone allelen. Voor MAF in het bereik van 0,1-0,5 was het verschil tussen de gemiddelde Fst-waarden tussen beans voor twee datasets niet significant. Als gevolg van de wederzijdse compensatie van de gemiddelde Fst-waarden in volledige en gesnoeide gegevens in het gehele MAF-bereik, was de totale som van de Fst-waarde tussen hen onbeduidend (zie aanvullend dossier 1: tabel S3). Dus, deze resultaten opnieuw bevestigen een klein effect grootte van LD-gebaseerde snoeien op Fst waarden alleen voor zeldzame SNPs niet gewone SNPs allelen.
evaluatie significantie van Fst-waarden
om de significantie van Fst-waarden in Tabel 1 te beoordelen, hebben we de paarsgewijze kuddepermutaties van de koeien uitgevoerd waarbij ze als H-nulverdeling werden behandeld. De resultaten van deze FST waarden berekeningen zijn vermeld in Tabel S4 (zie aanvullend bestand 1). Vervolgens berekenen we P-waarden voor elk paar van de kuddes in paarsgewijze set met behulp van Student ‘ S T-test (Tabel 2). Alle van hen waren met P-waarden in het bereik van 1,0 e-06 tot 3,6 e-60 met gemiddelde 6,5 e-18 en mediaan 3,6 e-40, waardoor het sterk scheef verdeling. Om FST voor H null-verdeling te berekenen hebben we slechts 5 permutaties uitgevoerd voor elk van 78 paren van de kuddes omdat het tijdrovende proces was en het resultaat van p – waarden schattingen slechts licht onderschat zouden worden. In Tabel 1 waren de minimale Fst-waarden 0,002-0,003. De paren van de beslagen die met deze waarden overeenstemmen, zijn de kandidaten voor de genetisch meest vergelijkbare beslagen. Bij de vergelijking van deze beslagen in Tabel 1 werd echter geen rekening gehouden met de fouten. De waarschijnlijkheid van het maken van een fout van type 1 voor alle 78 kuddecombinaties is vermeld in Tabel 2. Om de genetische verschillen tussen de kuddes te evalueren hebben we gekozen voor cut off P ≤ 1,0 e-30 (p ≤ 1,28 e-32 rekening houdend met de bonferroni correctie) waarbij, in de regel, de verschillen tussen de kuddes bij Fst waarden 0,002–0,003 onbeduidend zouden moeten zijn. De resultaten zijn weergegeven in Tabel 3. Onbeduidende koppels beslagen waren 2 en 8, 9, 11, 12 (4 paar); 3 en 5, 8, 9, 10 (4 paar); 8 en 2, 3, 9, 11 (4 paar); 9 en 2, 3, 11, 12 (4 paar). De paren van beslagen met 2, 3, 8 en 9 beslagen hadden 4-6 Fst-waarden 0,002-0,003 (Tabel 1). Daarom komen de resultaten van de identificatie van onbeduidende paren beslagen (Tabel 3) overeen met de minimale Fst-gegevens in Tabel 1. In de tabel 3 waren de belangrijkste paar beslagen bij dit afgesneden beslag 4 (10 pars), 7 (12 paar), 13 (12 paar) of een strenger significantieniveau bij afgesneden P ≤ 1.28e-39 de beslagen 4, 7 en 13 hadden 10, 8 en 11 significante paren van de beslagen (Tabel 3).
het was noodzakelijk om de belangrijkste paar kuddes te bepalen. De belangrijkste bij afgesneden p ≥ 1,28 e-50 paar van de beslagen waren 2 en 5, 6; 4 en 2, 3, 5, 12; 5 en 11; 7 en 1, 2, 9; 13 en 5, 9, 12 (Tabel 2). Deze paren van de kuddes komen overeen met de meest genetisch verschillende paren van de kuddes, terwijl Fst-gegevensfouten ook in aanmerking werden genomen. Samenvattend de resultaten van p-waarden berekenen kunnen we beweren over een hoog niveau van betekenis De FST analyse.
evaluatie PCA-analysegegevens
de eigenwaarden van 100 eigenvectoren berekend op basis van de covariantiematrix van allelen van 803 koeien namen monotoon af van 9,5 naar nul. Het bewijst dat de structuur van de covariantie matrix voldoende homogeen was. De totale P – waarden en het percentage van de variantie (in stalen frame) voor tien eigenvectoren berekend voor de volledige en gesnoeid gegevens werden 2.8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1.02), 1.9 e-08 (0.88), 9.7 e-03 (0.76), 2.3 e-03 (0.72), 8.2 e-03 (0.71), 6.0 e-09 (0.66), 4.9 e-05 (0.62), 5.6 e-04 (0.59) (1) en 3.3 e-16 (0.84), 6.4 e-06 (0.79), 2.0 e-04 (0.76), 3.4 eE-06 (0.70), 2,6 e-05 (0.67), 3.2 e-08 (0.58), 2.0 e-03 (0.55), 4.0 e-04 (0.54), 2.2 e-07 (0.53), 3.0 e-03 (0.51) (2) respectievelijk, d.w.z. ze waren vergelijkbaar. De totale P-waarde voor de tweede eigenvector van gesnoeide gegevens is echter significant geworden (6.4e-06) en tegelijkertijd de totale P – waarde voor derde eigenvector op vele ordes van grootte daalde (3,9 e-14 VS.2,0 e-04). Dat was het effect van snoeien op basis van LD op de totale P – waarden. Uit de lijst van algemene P – waarden moet duidelijk zijn wat de belangrijkste significante “assen van variatie” waren. Uit de lijst van varianties voor elke eigenvector (1) en (2) kunnen de varianties worden berekend die moeten worden gebruikt na het optellen van tien eigenvectoren. Het was 8,17% voor volledige gegevens en 6,47% voor gesnoeide gegevens. Vanwaar, hoe meer eigenvectoren zullen worden opgeteld, hoe meer variantie waarde zal worden gebruikt.
met de kleine Fst-waarden en de geleidelijke afname van de eigenwaarden berekenden we het gemiddelde voor elke kudde in de PC-schalen naar statistische beschrijving tussen kuddes genetische verschillen die door PCA werden aangetoond. De plot van de middelen voor alle beslagen langs PC 1 en PC 3 is weergegeven in Fig. 3 en langs PC 1 en PC 4 wordt op de vijg getoond. 4. Om de significantie van het genetische verschil tussen 13 beslagen te beoordelen op basis van PC 1 hebben we in Tabel 4 (+) (wat aangeeft dat de beslagen significant zijn) vermeld, verkregen uit P – waarden in Tabel 2, waarbij de significantie werd afgesneden bij P ≤ 0.05 maar gezien de Bonferroni correctie krijgen we P ≤ 6.4 e-4. Verder, voor beknoptheid, schrijven we P ≤ 0,05 in plaats van P ≤ 6.4 e-4. Voor PC 1 waren er van de 78 paren van de kuddes 14 significante paren van de kuddes. Vaakst werden significante gegevens waargenomen voor beslagen 4 en 13. Enkele significante resultaten verkregen met Fst-statistieken werden ook bevestigd met PCA voor eigenvectoren 1. De grootste paarsgewijze Fst-waarden voor kudde 4 werden bijvoorbeeld bevestigd door een aanzienlijk hoger significantieniveau dat door de PCA werd aangetoond (Tabel 2). Bovendien komen onbeduidende paren van de beslagen 1 en 4, 4 en 6, 4 en 13 voor PC 1 overeen met de kleinste Fst-waarden voor paren van de beslagen gevormd met het beslag 4 (Tabel 1). Opgemerkt moet worden dat het effect van de LD op basis van het snoeien tussen de beslagen verwaarloosbaar is voor eigenvector 1 (Tabel 2).
dezelfde procedure werd toegepast voor PC 3 (Tabel 4). Onder paarsgewijs stel waren er 16 significante paren kuddes. De vaakst significante gegevens werden ook verkregen voor beslag 4 en niet voor beslag 13. Van de veertien significante paar van de kuddes onthulde PC 1 slechts 9 samenvallen met zestien significante paar van de kuddes onthulde PC 3. Dus, PC 3 score is anders dan de PC 1 one. Het zou natuurlijk onjuist zijn om een conclusie te trekken over significante verschillen tussen kuddes als we gegevens voor een afzonderlijke eigenvector zouden gebruiken (Tabel 2).
bij vergelijking van het zichtbare locatiepatroon van de gemiddelde waarden van de beslagen langs PC 1-3 en PC 1-4 kunnen enkele algemene conclusies worden getrokken (Fig. 3 en 4). Het traject dat kuddes 4-7-6-13-1 verbindt, is op beide figuren bewaard gebleven. Andere kuddes verplaatsten zich visueel ten opzichte van elkaar, hoewel niet alle verplaatsingen significant waren bij P < 0,05, zoals werd aangetoond bij eigenvectoren 1 en 3. Echter, het verschil tussen deze paren van de kuddes was zeer significant toen we ze gemeten met Fst statistieken (Tabel 2). Dus, visuele verschillen van de kuddes posities op vijgen. 3 en 4 kunnen onjuist zijn als we alleen visuele informatie gebruiken langs afzonderlijke eigenvectoren.
het gebrek aan algemene significantie (P < 0.20) van de tweede eigenvector voor volledige gegevens en de insignificantie van de meeste paren van de kuddes in paarsgewijze verzameling geeft aan dat er geen genetisch verschil tussen de kuddes is voor deze as. Deze gegevens werden derhalve buiten beschouwing gelaten.
verder hebben we, op basis van volledige gegevens, het niveau van PCA – gegevens significantie getest als P-waarden voor paarsgewijze set werden berekend op basis van opgetelde tien PC. In Tabel 2 worden passende P – waarden gegeven en in Tabel 5 worden significante paren van de beslagen met de aanduiding (+) vermeld bij cut-off p ≤ 0,05. Onder hen waren er 47 paarsgewijs significante combinaties van de kuddes voor optelde PC 1-10. Het belangrijkste resultaat werd verkregen voor de beslagen 4 en 7, terwijl de resultaten voor de beslagen 8, 9 en 10 onbeduidend waren. Aldus, het geven van samengevatte genetische variantie van 10 eigenvectoren leiden tot merkbaar verhoging van het niveau van significantie en veranderingsconclusies over de significantie van gegevens zoals werd aangetoond voor PC 1 en PC 3.
om het significantieniveau verder te controleren hebben we P – waarden berekend voor een paarsgewijze verzameling van de kuddes op basis van volledige gegevens over opgetelde 20 eigenvectoren (Tabel 2). Het bleek dat Voor cut-off bij P ≤ 0,05 61 van 78 paren van de kuddes significant waren (Tabel 5). De belangrijkste paar kuddes waren 1, 4, 7, 8, 11 en 12 en het meest onbeduidende paar van de kuddes werd gevormd met de kudde 3. Gezien de gegevens voor de samengevoegde tien en twintig eigenvectoren is het belangrijk op te merken dat significante paren van de kuddes sterk varieerden met een toename van het aantal samengevoegde eigenvectoren. Het verhogen van het aantal samengevoegde eigenvectoren leidt dus tot een algemene toename van het significantieniveau.
om volledige variantie uit PCA – analyse op te nemen, hebben we P-waarden berekend voor 100 samengevoegde eigenvectoren (Tabel 2). Voor volledige gegevens had de distributie van P-waarden gemiddeld 2,2 e-07 en mediaan 2,2 e-15, waardoor de distributie sterk scheef is. Het beslag 3 had minimum P-waarden met andere beslagen (Tabel 2) daarom hebben we op basis van deze waarden significante paren van de beslagen geselecteerd bij cutoff p ≤ 1,0 e-10 en de Bonferroni correctie p ≤ 1,28 e-12 gegeven. De resultaten zijn weergegeven in Tabel 6. Het beslag 3 vormde 6 onbeduidende paren van beslagen 3 en 6, 8, 9, 10, 11, 12 en beslag 8 gevormd 9 onbeduidende paren van de kuddes 8 en 1, 2, 3, 5, 6, 9, 10, 11, 12. Het beslag 8 en 3 was dus het meest genetisch verwant met andere beslagen en dit resultaat is niet in tegenspraak met de Fst-waarden 0,002 en 0,003 die in paarsgewijs voor deze beslagen zijn vastgesteld (Tabel 1). Het was noodzakelijk om de belangrijkste paren van de kuddes te bepalen. De belangrijkste paren van de beslagen bij cutoff p ≤ 1,28 e-20 waren 4 en 2, 3, 7, 9, 12, 13 (6 paar); 7 en 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11pairs); 13 en 2, 3, 4, 7, 9, 10, 12 (7 paren). Dit resultaat voor beslagen 7 en 13 is te wijten aan kleinere standaardfouten voor deze beslagen dan voor beslagen 4 (Zie aanvullend dossier 1: Tabel 5).
voor gesnoeide gegevens had de verdeling van de p-waarden gemiddeld 2,6 e-06 en mediaan 1.8e-16. Daardoor zijn de volledige en gesnoeide datadistributies vergelijkbaar. Voor dezelfde cutoff P ≤ 1,28 e-12 als voor volledige gegevens werden de gegevens in Tabel 2 gerangschikt (Tabel 7). De kudde 3 vormde 4 onbeduidende paren van de kudde 3 en 6, 8, 9, 12. De kudde 8 vormde 9 onbeduidend paar van de kudde 8 en 1, 2, 3, 4, 5, 6, 9, 11, 12. Van de 15 paar beslagen 3 en 8 voor volledige gegevens vallen er slechts 11 samen met gesnoeide gegevens. Het belangrijkste paar van de beslagen met cutoff p ≤ 1,28 e-20 waren 4 en 2, 3, 7 (3 Paar); 5 en 1, 2, 7, 11 (4 paar); 7 en 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 paar); 13 en 2, 7, 9, 10, 12 (5 paren). De P-waarden voor volledige en gesnoeide gegevens komen dus goed overeen (behalve voor de beslagen 4 en 5).
beoordeling van het vermogen van Fst-en PCA-analyses
in Tabel 2 zijn P – waarden voor paarsgewijze reeksen van de met PCA-en Fst-analyses berekende beslagen vermeld. Volgens deze gegevens voor optelde 100 eigenvectoren waren P – waarden de kleinste van die voor een andere eigenvector of optelde 10 en 20 eigenvectoren. Dit resultaat was te wijten aan het gebruik van de volledige afwijking van de initiële gegevens. Verder, het vergelijken van P – waarden van PCA en Fst analyses trekken een conclusie dat Fst P-waarden waren vele ordes van grootte minder die van opgetelde 100 eigenvectoren. Over paarsgewijs ingesteld de PCA berekende vermogen was binnen het bereik van 0,8-1,0, terwijl voor Fst was het binnen het bereik van 0,9-1 dat is de waarschijnlijkheid van een type II fout zijn vergelijkbaar. In totaal, rekening houdend met verschillende ordes van grootte kleinere P-waarden voor Fst, kunnen we concluderen dat waarschijnlijkheid type I fout voor de FST analyse was veel minder de PCA een. Daarom moet worden aanvaard dat de gegevens van de FST-analyse betrouwbaarder zijn.