- arviointi MAF: n ja linkitysdiequilibriumin vastaavuus
- arvioimme poikkeamien poiston vaikutusta Fst-tietoihin
- arviointiin perustuva LD – karsintamenetelmä Fst-arvoilla
- arviointi snps MAF: n vaikutus Fst: n arvoihin
- FST-arvojen merkityksen arviointi
- Evaluation PCA analysis data
- FST – ja PCA-analyysien tehon arviointi
arviointi MAF: n ja linkitysdiequilibriumin vastaavuus
LD-pohjaisen karsinnan vaikutus SNPs: n määrään oli suuri (KS.lisätiedosto 1) kuva S1). Arvioidaksemme LD-pohjaisen karsinnan vaikutusta SNPs: n MAF: ään laskimme MAF: n jakautumisen kahdeksaan roskakoriin (Kuva. 1). Kansallisten turvallisuusviranomaisten osuus MAF-lokeroista täydellisissä ja karsituissa tiedoissa oli huomattavasti erilainen. LD-pohjainen karsinta poisti kokonaan monomorfiset SNP: t, suhteettomasti poistetut SNP: t MAF: llä 0,2–0,4, kun taas harvinaisten ja yleisten SNP: iden osuus MAF: llä 0,0001–0,1 ja 0,5 lisääntyi (Kuva. 1). Voidaan ehdottaa, että keskimääräinen SNP Maf 0,1–0,4 jaetaan perimässä lähempänä toisiaan kuin jäljellä SNP johtaa suurin LD välillä.
arvioimme poikkeamien poiston vaikutusta Fst-tietoihin
ensimmäisessä vaiheessa arvioimme poikkeamien vaikutusta Fst-arvoihin. Laskimme FST-arvot pairwise-joukolle täydellisiä tietoja sekä korjauksella että ilman poikkeamien korjaamista (KS.lisätiedosto 1: taulukko S1). Poikkeamien korjaamisen jälkeen eigensoftissa oli jäljellä 799 lehmää ja 46 626 lehmää.
poikkeamien korjaamisen puuttuminen johtaa FST-arvojen harhaan, mutta vain 6: n osalta 78 parista karjaa. Kaikissa tapauksissa Fst-arvojen välinen ero oli ±0, 001 lukuun ottamatta 4 ja 13 paria karjaa, joiden ero oli 0, 002. Lähes samat Fst-arvot tallennettiin myös Pairwise-sarjalle, jossa SNPs-arvo MAF < 0, 01 oli poissuljettu. Näistä FST-arvoista vain kuusi karjaparia erosi 0,001: llä taulukon S2 täydellisten tietojen Fst-arvoista (KS.Lisätiedosto 1), ja kolme niistä oli samoja kuin poikkeavien havaintojen korjauksen seurauksena.
arviointiin perustuva LD – karsintamenetelmä Fst-arvoilla
Linkage disequilibrium-karsinta (LD < 0, 1) oli sama vaikutus koko Fst-arvoihin ±0, 001 kuin vieraslajeilla, mutta se vaikutti useampiin karjapareihin 22 vs. 6 vieraslajivaikutuksen osalta (Taulukko 1 ja KS.lisätiedosto 1: Taulukko 1). Itse asiassa vaikutus Fst: hen ei ollut suuri huolimatta SNPs: n kokonaismäärän huomattavasta vähenemisestä (5827 vs. 48108) ja niiden osuuden pienenemisestä SNPs: n säiliöissä (Kuva. 1). LD – pohjaisella karsinnalla oli siis kohtalainen vaikutus Fst-arvoihin, mutta se vaikutti useampiin karjapareihin.
arviointi snps MAF: n vaikutus Fst: n arvoihin
arvioidaksemme SNPs: n MAF: n vaikutusta Fst: n arvoihin jaoimme koko MAF: n väli 0, 0001–0, 5 6 lokeroon ja laskimme kullekin niistä FST: n keskiarvon pareittain täydellisistä ja karsituista tiedoista muodostetuissa sarjoissa (Kuva. 2). Harvinaisilla SNPs-alleeleilla, joiden MAF oli 0, 0001-0, 005, oli pienin keskimääräinen FST-arvo (0, 0027) kaikissa karjoissa kuin jäljellä olevilla SNP-arvoilla (KS.Lisätiedosto 1: taulukko S3). Voidaan päätellä, että harvinaisille alleeleille lasketut erot karjojen välillä olivat keskimäärin pienemmät kuin tavallisille alleeleille lasketut erot. MAF: n osalta välillä 0, 1–0, 5 ero papujen keskimääräisten Fst-arvojen välillä ei ollut merkittävä kahden tietoaineiston osalta. FST: n keskiarvojen keskinäisestä kompensoinnista täydellisissä ja karsituissa tiedoissa koko MAF-alueella johtuen niiden välinen FST: n kokonaisarvo oli merkityksetön (KS.lisätiedosto 1: taulukko S3). Näin ollen nämä tulokset vahvistavat jälleen pienen vaikutuskoon LD-pohjaisen karsinnan Fst-arvoilla vain harvinaisten SNPs-alleelien osalta, jotka eivät ole yleisiä SNPs-alleeleita.
FST-arvojen merkityksen arviointi
FST-arvojen merkityksen arvioimiseksi taulukossa 1 suoritimme h null-jakaumana käsiteltyjen lehmien pariluokituksen. Näiden Fst-arvojen laskennan tulokset on lueteltu taulukossa S4 (KS.lisätiedosto 1). Sitten lasketaan P-arvot jokaiselle parilaumalle pairwise-sarjassa käyttäen opiskelijan t-testiä (Taulukko 2). Kaikilla niillä oli p-arvot välillä 1,0 e-06-3,6 e-60 keskiarvolla 6,5 e-18 ja mediaanilla 3,6 e-40, joten kyseessä on higly skewed-jakauma. Laskea Fst varten H null-Jakelu teimme vain 5 permutaatioista kunkin 78 paria karjaa, koska se oli aikaa vievää prosessi ja tulos P-arvot arviot olisi vain hieman aliarvioitu. Taulukossa 1 Fst: n vähimmäisarvot olivat 0,002–0,003. Näitä arvoja vastaavat laumaparit ovat ehdokkaita geneettisesti eniten vastaaviksi karjoiksi. Vertailtaessa näitä karjoja taulukossa 1 virheitä ei kuitenkaan otettu huomioon. Tyypin 1 virheen todennäköisyys Kaikkien 78 karjayhdistelmän osalta on esitetty taulukossa 2. Karjojen geneettisten erojen arvioimiseksi olemme valinneet cut off P ≤ 1,0 e-30 (p ≤ 1,28 e-32 ottaen huomioon Bonferroni–korjaus), jossa karjojen välisten erojen Fst-arvoilla 0,002-0,003 pitäisi pääsääntöisesti olla merkityksettömiä. Tulokset on esitetty taulukossa 3. Merkityksettömiä laumapareja olivat 2 ja 8, 9, 11, 12 (4 paria); 3 ja 5, 8, 9, 10 (4 paria); 8 ja 2, 3, 9, 11 (4 paria); 9 ja 2, 3, 11, 12 (4 paria). 2, 3, 8 ja 9 karjan pareilla oli 4-6 Fst–arvoa 0,002-0,003 (Taulukko 1). Näin ollen vähämerkityksisten karjaparien määrittämisen tulokset (Taulukko 3) vastaavat taulukossa 1 esitettyjä vähimmäistietoja Fst: stä. Taulukossa 3 merkittävimmät karjaparit tällä lopetusajalla olivat karja 4 (10 pars), 7 (12 paria), 13 (12 paria) tai tiukempi merkitsevyystaso lopetusajalla P ≤ 1.28e-39 karjoissa 4, 7 ja 13 oli 10, 8 ja 11 merkittävää karjaparia (Taulukko 3).
oli tarpeen määrittää merkittävimmät laumaparit. Merkittävimmät karjan lopetusvaiheessa P ≥ 1, 28 e-50 paria olivat 2 ja 5, 6; 4 ja 2, 3, 5, 12; 5 ja 11; 7 ja 1, 2, 9; 13 ja 5, 9, 12 (Taulukko 2). Nämä karjojen parit vastaavat geneettisesti eniten eriparisia karjoja, kun taas Fst: n datavirheet otettiin myös huomioon. Yhteenveto tulokset P-arvot laskettaessa voimme väittää noin suuri merkitys FST analyysi.
Evaluation PCA analysis data
alleelien kovarianssimatriisista 803 lehmältä laskettujen 100 eigenvektorin elinarvot alenivat monotonisesti 9, 5: stä nollaan. Se todistaa, että kovarianssimatriisin rakenne oli tarpeeksi homogeeninen. Kokonaisp – arvot ja varianssiprosentti (braketteina) kymmenelle eigenvektorille täydelliselle ja karsitulle aineistolle laskettuna olivat 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1, 02), 1, 9 e-08 (0, 88), 9, 7 e-03 (0, 76), 2, 3 e-03 (0, 72), 8, 2 e-03 (0, 71), 6, 0 e-09 (0, 66), 4, 9 e-05 (0, 62), 5, 6 e-04 (0, 59) (1) ja 3, 3 e-16 (0, 84), 6, 4 E-06 (0, 79), 2, 0 e-04 (0, 76), 3, 4 ee-06 (0, 70), 2, 6 e-05 (0, 67), 3, 2 e-08 (0, 58), 2, 0 e-03 (0, 55), 4, 0 e-04 (0, 54), 2, 2 e-07 (0, 53), 3, 0 e-03 (0, 51) (2) vastaavasti, eli ne olivat samanlaisia. Karsittujen tietojen toisen eigenvektorin p – arvo on kuitenkin noussut merkittäväksi (6.4e – 06) ja samalla kolmannen eigenvektorin p-arvo laski monissa suuruusluokissa (3,9 e-14 vs. 2,0 e-04). Tällainen oli LD – pohjaisen karsinnan vaikutus Kokonaisp – arvoihin. Yleisestä P-arvojen luettelosta pitäisi olla selvää, mitkä tärkeimmät merkittävät ”vaihteluakselit” olivat. Kunkin eigenvektorin (1) ja (2) varianssiluettelosta voidaan laskea varianssit, joita käytetään kymmenen eigenvektorin yhteenlaskun jälkeen. Täydellisten tietojen osalta se oli 8,17% ja karsittujen tietojen osalta 6,47%. Mistä, enemmän eigenvektorit summataan, sitä enemmän arvoa varianssi käytetään.
pienien Fst-arvojen ja eigen-arvojen vähittäisen pienenemisen perusteella laskimme kunkin karjan keskiarvon PC-asteikoista tilastolliseen kuvaukseen karjojen välillä PCA: n paljastamat geneettiset erot. Kaikkien PC 1: n ja PC 3: n karjojen havaintoala esitetään kuvassa. 3 ja pitkin PC 1 ja PC 4 näkyy kuvassa. 4. 13 karjan geneettisen eron merkittävyyden arvioimiseksi PC 1: n perusteella listasimme taulukossa 4 (+) (karjojen välinen merkitsevyys), joka on saatu taulukon 2 p – arvoista, joissa merkitsevyys on poistettu arvolla P ≤ 0.05 mutta Bonferroni-korjauksen ansiosta saamme p ≤ 6,4 e-4. Edelleen, lyhyys, kirjoitamme p ≤ 0.05 sijaan P ≤ 6.4 e-4. PC 1: llä 78 parista karjoja oli 14 merkittävää paria. Useimmiten merkittäviä tietoja havaittiin karjoista 4 ja 13. Joitakin merkittäviä tuloksia, jotka saatiin Fst statisticilla, vahvistettiin myös PCA: lla eigenvektorien osalta 1. Esimerkiksi karjan 4 suurimmat pairwise Fst-arvot vahvistettiin PCA: n huomattavasti suuremmalla merkitsevyydellä (Taulukko 2). Lisäksi karjojen 1 ja 4, 4 ja 6, 4 ja 13 vähämerkityksiset parit PC 1 vastaavat pienimpiä Fst-arvoja karjan 4 kanssa muodostetuille pareille (Taulukko 1). On huomattava, että LD-karsinnan vaikutus karjojen väliseen merkitykseen eigenvektorille 1 on vähäinen (Taulukko 2).
sama menettely tehtiin PC 3: lle (Taulukko 4). Pairwise setin joukossa oli 16 merkittävää laumaparia. Useimmiten merkittävimmät tiedot saatiin myös karjasta 4, ei karjasta 13. Neljästätoista merkittävä pari karjojen paljasti PC 1 vain 9 samaan aikaan kuusitoista merkittävä pari karjojen paljasti PC 3. Näin ollen PC 3 score on erilainen kuin PC 1 one. On selvää, että olisi väärin tehdä johtopäätös karjojen merkittävistä eroista, jos käyttäisimme tietoja erillisestä eläimenvektorista (Taulukko 2).
vertaamalla näkyvää sijaintimallia karjojen keskiarvoihin PC 1-3: lla ja PC 1-4: llä voidaan tehdä joitakin yleisiä päätelmiä (viikunat. 3 ja 4). Laumoja yhdistävä liikerata 4-7-6-13-1 säilyi molemmissa kuvioissa. Muut karjat siirtyivät silmämääräisesti suhteessa toisiinsa, vaikka kaikki siirtymät eivät olleet merkitseviä, kun P < 0, 05, kuten osoitettiin eigenvektoreilla 1 ja 3. Näiden laumaparien välinen ero oli kuitenkin erittäin merkittävä, kun mittasimme niitä Fst-tilastoilla (Taulukko 2). Niinpä karjojen näköerot sijoittuvat viikunoihin. 3 ja 4 saattavat olla virheellisiä, jos käytämme vain visuaalista informaatiota erillisillä eigenvektoreilla.
kokonaismerkityksen puuttuminen (P < 0.20) toisesta eigenvector for complete data and invalidance of the most paries of the karstes in Pairwise set osoittaa, että karjojen välillä ei ole geneettistä eroa tällä akselilla. Tämän vuoksi nämä tiedot jätettiin tarkastelun ulkopuolelle.
lisäksi testasimme täydellisten tietojen perusteella PCA-tietojen merkitsevyyden tason, jos Pairwise-sarjan p-arvot laskettiin yhteenlasketusta kymmenestä PC: stä. Asianmukaiset P-arvot esitetään taulukossa 2, ja merkittävät karjaparit, jotka merkittiin arvolla ( + ), luetellaan taulukossa 5 kohdassa cutoff p ≤ 0,05. Niiden joukossa oli 47 pairwise merkitsevää karjaa summatulle PC 1-10: lle. Merkittävin tulos saatiin karjoista 4 ja 7, kun taas merkityksettömiä tuloksia saatiin karjoista 8, 9 ja 10. Näin ollen 10 eigenvektorin yhteenlasketun geneettisen varianssin antaminen johtaa merkitsevyyden tason huomattavaan kasvuun ja tulosten merkittävyyttä koskevien päätelmien muuttumiseen, kuten PC 1: llä ja PC 3: lla osoitettiin.
varmistaaksemme merkitsevyyden tason laskimme karjojen pairwise-joukolle p-arvot täydellisistä tiedoista, joiden yhteenlasketut 20 eigenvektoria ovat (Taulukko 2). Kävi ilmi, että kun raja-arvo P ≤ 0,05, 78 parista karjasta 61 oli merkittävä (Taulukko 5). Merkittävimmät laumaparit olivat 1, 4, 7, 8, 11 ja 12 ja merkityksettömin laumapari muodostettiin lauman 3. Kun otetaan huomioon kymmenen ja kahdenkymmenen eigenvektorin yhteenlasketut tiedot, on tärkeää huomata, että merkittävät laumaparit vaihtelivat suuresti, kun yhteenlaskettujen eigenvektorien määrä kasvoi. Näin ollen yhteenlaskettujen eigenvektorien määrän lisääminen johtaa merkitsevyystason yleiseen kasvuun.
SISÄLTÄÄKSEMME PCA-analyysistä saatavilla olevat täydelliset varianssit laskimme P-arvot 100 summatulle eigenvektorille (Taulukko 2). Täydellisissä tiedoissa P-arvojen jakauma oli keskimäärin 2, 2 e-07 ja mediaani 2, 2 e-15, joten jakauma on hyvin vääristynyt. Karja 3: lla oli pienin p-arvo muiden karjojen kanssa (Taulukko 2), joten näiden arvojen perusteella valitsimme merkittäviä karjapareja raja-arvolla p ≤ 1,0 e-10 ja Bonferroni-korjauksen perusteella p ≤ 1,28 e-12. Tulokset esitetään taulukossa 6. Lauma 3 muodosti 6 merkityksetöntä laumaparia 3 ja 6, 8, 9, 10, 11, 12 ja lauma 8 muodosti 9 merkityksetöntä paria laumoista 8 ja 1, 2, 3, 5, 6, 9, 10, 11, 12. Näin ollen karjat 8 ja 3 olivat geneettisesti eniten sukua muille karjoille, eikä tämä tulos ole ristiriidassa Fst-arvojen 0.002 ja 0.003 kanssa, jotka vallitsevat näiden karjojen parimäärissä (Taulukko 1). Oli tarpeen määrittää merkittävimmät laumaparit. Merkittävimmät laumaparit katkolla P ≤ 1,28 e-20 olivat 4 ja 2, 3, 7, 9, 12, 13 (6 pareja); 7 ja 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 pistettä); 13 ja 2, 3, 4, 7, 9, 10, 12 (7 pareja). Karjojen 7 ja 13 tulos johtuu näiden karjojen pienemmistä keskivirheistä kuin karjan 4 (ks.lisätiedosto 1: Taulukko 5).
karsituissa aineistoissa P-arvojen jakauma oli keskimäärin 2, 6 e-06 ja mediaani 1.8e-16. Siten täydelliset ja karsitut tiedonjakaumat ovat samanlaisia. Samalla raja-arvolla p ≤ 1,28 e-12 kuin täydellisillä tiedoilla taulukon 2 TIEDOT asetettiin paremmuusjärjestykseen (Taulukko 7). Lauma 3 muodosti 4 merkityksetöntä paria laumasta 3 ja 6, 8, 9, 12. Lauma 8 muodosti 9 merkityksetöntä laumaparia 8 ja 1, 2, 3, 4, 5, 6, 9, 11, 12. Täydellisten tietojen osalta 15: stä karjaparista 3 ja 8 vain 11 paria vastaa karsittuja tietoja. Merkittävimmät laumaparit, joiden raja-arvo P ≤ 1,28 e-20, olivat 4 ja 2, 3, 7 (3 paria); 5 ja 1, 2, 7, 11 (4 paria); 7 ja 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 paria); 13 ja 2, 7, 9, 10, 12 (5 pareja). Näin ollen täydellisten ja karsittujen tietojen P-arvot ovat riittävän hyvät (lukuun ottamatta karjoja 4 ja 5).
FST – ja PCA-analyysien tehon arviointi
taulukossa 2 on lueteltu p-arvot karjojen Pairwise-joukolle, jotka on laskettu PCA-ja Fst-analyyseillä. Näiden tietojen mukaan yhteen laskettujen 100 eigenvektorin P-arvot olivat pienimmät minkään muun eigenvektorin arvoista tai yhteen laskettujen 10 ja 20 eigenvektorin arvoista. Tämä tulos johtui siitä, että käytettiin täydellistä varianssia alkuperäisistä tiedoista. Lisäksi vertaamalla PCA – ja Fst – analyysien P-arvoja tehdään johtopäätös, että Fst-p-arvot olivat monta suuruusluokkaa vähemmän kuin summatut 100 eigenvektoria. Yli Pairwise asettaa PCA laskettu teho oli alueella 0.8–1.0, kun taas Fst se oli alueella 0.9–1, joka on todennäköisyydet tyypin II virhe ovat samanlaisia. Kaiken kaikkiaan, ottaen huomioon useita kertaluokkia pienempiä P-arvot Fst, voimme päätellä, että todennäköisyys tyyppi I virhe Fst analyysi oli paljon vähemmän PCA yksi. Sen vuoksi olisi hyväksyttävä, että Fst-analyysistä saadut tiedot ovat luotettavampia.