- Evaluering korrespondansen AV MAF og sammenhengen ulikevekt
- Vurdering av virkningen av fjerning av uteliggere på Fst-data
- Evaluering Ld – basert beskjæringsmetodikk på Fst-verdier
- Evalueringsvirkningen Av SNPs MAF på Fst-verdier
- evaluering signifikans Av Fst-verdier
- Evaluering pca analysedata
- Vurdere kraften Av Fst og pca analyser
Evaluering korrespondansen AV MAF og sammenhengen ulikevekt
effekten AV LD-basert beskjæring på antall SNPs var stor (se Tilleggsfil 1: figur s1). For å estimere effekten AV LD – basert beskjæring PÅ MAF Av SNPs beregnet vi fordelingen AV MAF i åtte hyller (Fig. 1). Andelen SNPs angående MAF-hyllene i den komplette og beskjærte dataene var merkbart forskjellig. LD-basert beskjæring helt fjernet monomorfe SNPs, uforholdsmessig fjernet SNPs MED MAF 0.2-0.4 mens andelen sjeldne Og vanlige SNPs med MAF 0.0001–0.1 og 0.5 økt (Fig . 1). Det kan foreslås at i gjennomsnitt SNPs MED MAF 0.1-0.4 fordelt i genom nærmere hverandre enn gjenværende SNPs som fører til den største LD mellom dem.
Vurdering av virkningen av fjerning av uteliggere på Fst-data
på første trinn evaluerte vi virkningen av utliggere på Fst-verdier. Vi beregnet Fst-verdier For Parvis sett med komplette data både med korreksjon og uten korreksjon på utliggere(se Tilleggsfil 1: Tabell S1). Etter outliers korreksjon I EIGENSOFT 799 kyr og 46,626 SNPs ble igjen.
Fravær av outliers-korreksjonen fører til en bias Av Fst-verdier, men bare for 6 fra 78 par av besetningene. I alle tilfeller var forskjellen Mellom Fst-verdier ±0,001 med unntak av 4 og 13 par av besetningene som hadde 0,002 forskjell. Nesten De samme Fst-verdiene ble også lagret For Parvis sett der Ble ekskludert SNPs med MAF < 0.01. Blant Disse Fst-verdiene var det bare seks par av besetningene som skilte seg med 0,001 fra Fst-verdier for komplette data I Tabell S2 (Se Tilleggsfil 1), og tre av dem var de samme som i resultat av avvikskorrigering.
Evaluering Ld – basert beskjæringsmetodikk på Fst-verdier
Trepunktsforskjellbeskjæring (LD < 0,1) hadde samme effektstørrelse på Fst-verdier ±0,001 som uteliggerne hadde, men påvirket flere par av besetningene 22 vs. 6 for utligningseffekt (Tabell 1 og Se Tilleggsfil 1: Tabell 1). Faktisk var effektstørrelsen på Fst ikke stor til tross for betydelig reduksjon i totalt Antall SNPs (5827 vs 48 108) og deres andel I SNPs-hyllene(Fig. 1). DERMED HADDE ld-basert beskjæring en moderat effekt På Fst-verdier, men det påvirket flere par besetninger.
Evalueringsvirkningen Av SNPs MAF på Fst-verdier
for å evaluere effekten Av SNPs MAF på Fst-verdier, delte vi HELE maf-intervallet 0,0001-0,5 i 6 hyller og beregnet for hver av dem den gjennomsnittlige Fst-verdien På Tvers Av Parvise sett dannet fra komplette og beskjærte data(Fig . 2). De sjeldne SNPs-allelene MED MAF 0,0001-0,005 hadde den minste gjennomsnittlige fst-verdien (0,0027) på tvers av alle besetninger enn de for gjenværende Snper(Se Tilleggsfil 1: Tabell S3). Det kan konkluderes med at i gjennomsnitt mellom besetninger forskjeller beregnet for sjeldne alleler var mindre av de for vanlige alleler. FOR MAF i området 0,1-0,5 var forskjellen mellom de gjennomsnittlige Fst-verdiene på tvers av bønner for to datasett ikke signifikant. Som et resultat av gjensidig kompensasjon av de gjennomsnittlige Fst-verdiene i komplette og beskjærte data i hele MAF-området, var den totale summerte verdien Av Fst-verdien mellom dem ubetydelig (se Tilleggsfil 1: Tabell S3). Dermed bekrefter disse resultatene igjen en liten effektstørrelse PÅ LD-basert beskjæring på Fst-verdier bare for sjeldne Snp-er, ikke vanlige Snp-alleler.
evaluering signifikans Av Fst-verdier
for å vurdere signifikans Av Fst-verdier i Tabell 1 utførte vi parvis flokker permutasjoner av kyrne behandle dem Som h null-fordeling. Resultatene av Disse Beregningene For Fst-verdier er oppført I Tabell S4 (Se tilleggsfil 1). Deretter beregner Vi P-verdier For hvert par av besetningene I Parvis sett ved Hjelp Av Studentens t-test (Tabell 2). Alle av Dem var Med P – verdier i området fra 1,0 e-06 til 3,6 e-60 med gjennomsnittlig 6,5 e-18 og median 3,6 e-40, og dermed er det higly skjev fordeling. For å beregne Fst For h null-distribusjon utførte vi bare 5 permutasjoner for hver av 78 par av besetningene da det var tidkrevende prosess og resultatet Av p-verdier estimater ville bare være litt undervurdert. I Tabell 1 var Minimum Fst-verdiene 0,002-0,003. Parene av besetningene som svarer til disse verdiene er kandidatene for genetisk mest liknende besetninger. Ved sammenligning av disse besetningene I Tabell 1 ble imidlertid ikke feilene tatt i betraktning. Sannsynlighetene for å gjøre en type 1-feil for alle 78 besetningskombinasjoner er gitt I Tabell 2. For å evaluere de genetiske forskjellene mellom besetningene har Vi valgt å kutte Av p ≤ 1.0 e-30 (P ≤ 1.28 e-32 med Hensyn Til Bonferroni-korreksjonen) der forskjellene mellom besetningene ved Fst-verdier 0.002-0.003 som regel bør være ubetydelige. Resultatene er vist i Tabell 3. Ubetydelige par av besetninger var 2 og 8, 9, 11, 12 (4 par); 3 og 5, 8, 9, 10 (4 par); 8 og 2, 3, 9, 11 (4 par); 9 og 2, 3, 11, 12 (4 par). Par av besetninger med 2, 3, 8 og 9 besetninger hadde 4-6 Fst-verdier 0,002 – 0,003 (Tabell 1). Derfor svarer resultatene av å identifisere ubetydelige par besetninger (Tabell 3) til de minimale Fst-dataene i Tabell 1. I Tabellen 3 var de mest signifikante par flokker ved denne avskjæringen besetningen 4 (10 pars), 7 (12 par), 13 (12 par) Eller et strengere signifikansnivå Ved avskjæring P ≤ 1.28e-39 flokken 4, 7 og 13 hadde 10, 8 og 11 signifikante par av flokken (Tabell 3).
Det var nødvendig å bestemme de viktigste parene av besetninger. Den mest signifikante ved avskjæring Av p ≥ 1.28 e-50 par av besetningene var 2 og 5, 6; 4 Og 2, 3, 5, 12; 5 Og 11; 7 Og 1, 2, 9; 13 og 5, 9, 12 (Tabell 2). Disse parene av besetningene tilsvarer de mest genetisk forskjellige parene av besetningene, mens Fst – datafeil også ble tatt i betraktning. Oppsummering av resultatene Av p-verdier beregning vi kan hevde om et høyt nivå av betydning Fst analyse.
Evaluering pca analysedata
egenverdiene til 100 egenvektorer beregnet fra kovariansmatrisen av alleler fra 803 kyr monotont redusert fra 9,5 til null. Det viser at strukturen av kovariansmatrisen var nok homogen. Totale p-verdier og prosent av variansen (i braketter) for ti egenvektorer beregnet for komplette og beskjærte data var 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1,02), 1,9 e-08 (0,88), 9,7 e-03 (0,76), 2,3 e-03 (0,72), 8,2 e-03 (0,71), 6,0 e-09 (0,66), 4,9 e-05 (0,62), 5,6 e-04 (0,59) (1) og 3,3 e-16 (0,84), 6,4 e-06 (0,79), 2,0 e-04 (0,76), 3,4 ee-06 (0,70), 2,6 e-05 (0,67), 3,2 e-08 (0,58), 2,0 e-03 (0,55), 4,0 e-04 (0,54), 2,2 e-07 (0,53), 3,0 e-03 (0,51) (2) henholdsvis, dvs.de var like. Men den totale p-verdien for den andre egenvektoren av beskjærte data har blitt signifikant (6.4e-06) og samtidig samlet p – verdi for tredje egenvektor på mange størrelsesordener redusert (3.9 e-14 vs 2.0 e-04). Slik var effekten AV LD-basert beskjæring på samlede p-verdier. Fra listen over samlede p-verdier bør det være klart hvilke viktigste signifikante «variasjonsakser» var. Fra listen over avvik for hver egenvektor (1) og (2) kan beregnes avvikene som skal brukes etter summere ti egenvektorer. Det var 8,17% for komplette data og 6,47% for beskjærte data. Derfra, jo flere egenvektorer vil bli summert, jo mer verdi av varians vil bli brukt.
med de små Fst-verdiene og gradvis reduksjon av egenverdiene beregnet vi gjennomsnittet for hver flokk I PC-skalaene til statistisk beskrivelse mellom besetninger genetiske forskjeller avslørt AV PCA. Plottet av midlene for ALLE besetninger LANGS PC 1 OG PC 3 er vist På Fig. 3 og LANGS PC 1 OG PC 4 er vist På Fig. 4. For å vurdere signifikans av genetisk forskjell mellom 13 besetninger basert PÅ PC 1 listet vi opp ( + ) (betegner mellom besetninger signifikans) I Tabell 4 hentet fra P-verdier I Tabell 2 hvor det ble tatt avskåret signifikans Ved P ≤ 0.05 men gitt Bonferroni-korreksjonen får Vi p ≤ 6.4 e-4. Videre, for korthet, skriver Vi P ≤ 0.05 i stedet P ≤ 6.4 e-4. FOR PC 1 blant 78 par av besetningene var det 14 signifikante par av besetningene. Oftest ble det observert signifikante data for besetninger 4 og 13. Noen signifikante resultater oppnådd Med Fst-statistikk bekreftet også MED PCA for egenvektorer 1. For eksempel ble de største parvise Fst – verdiene for herd 4 bekreftet av merkbart høyere signifikansnivå avslørt AV PCA (Tabell 2). Videre svarer ubetydelige par av besetningene 1 og 4, 4 og 6, 4 og 13 FOR PC 1 til minste Fst-verdier for par av besetningene dannet med besetningen 4 (Tabell 1). Det bør noteres en ubetydelig effektstørrelse PÅ LD basert beskjæring på mellom besetningens betydning for egenvektor 1 (Tabell 2).
SAMME prosedyre ble utført FOR PC 3 (Tabell 4). Blant Parvis sett var det 16 signifikante par besetninger. De oftest signifikante dataene ble også oppnådd for besetning 4 ikke besetning 13. Ut av fjorten betydelig par av flokker avslørt PC 1 bare 9 sammenfaller med seksten betydelig par av flokker avslørt PC 3. DERMED ER PC 3-poengsummen forskjellig FRA PC 1-en. Det ville selvsagt være feil å konkludere om mellom besetninger betydelige forskjeller hvis vi brukte data for en egen egenvektor (Tabell 2).
Ved Å Sammenligne det synlige lokaliseringsmønsteret med middelverdiene til flokkene LANGS PC 1-3 OG PC 1-4 kan vi trekke noen generelle konklusjoner (Fig. 3 og 4). Banen forbinder besetninger 4-7-6-13-1 bevart pa begge tallene. Andre besetninger skiftet visuelt i forhold til hverandre, selv om ikke alle disse forskyvningene var signifikante ved P < 0,05 som vist langs egenvektorer 1 og 3. Forskjellen mellom disse par av besetningene var imidlertid svært signifikant når vi målte dem Med Fst-statistikk (Tabell 2). Dermed er visuelle forskjeller i besetningene stillinger pa Fiken. 3 og 4 kan være feil hvis vi bare brukte visuell informasjon langs separate egenvektorer.
mangelen på samlet betydning (P < 0.20) av andre egenvektor for komplette data og ubetydelighet av de fleste par av besetningene I Parvis sett indikerer at det ikke er mellom besetninger genetisk forskjell for denne aksen. Derfor ble disse dataene utelukket fra vurdering.
videre, basert på komplette data, testet vi nivået AV pca data signifikans hvis P-verdier For Parvis sett ble beregnet fra summert ti PC. Passende p-verdier er gitt I Tabell 2, og signifikante par av besetningene som ble betegnet som ( + ) er oppført i Tabell 5 ved cutoff P ≤ 0,05. Blant dem var det 47 parvise signifikante kombinasjoner av besetningene for summed PC 1-10. Det viktigste resultatet ble oppnådd for besetning 4 og 7 mens ubetydelige resultater for besetning 8, 9 og 10. Dermed gir summert genetisk varians fra 10 egenvektorer merkbart øke nivået av signifikans og endre konklusjoner om data signifikans som ble vist FOR PC 1 OG PC 3.
for å verifisere signifikansnivået videre beregnet Vi P-verdier For Parvis sett av besetningene fra komplette data på tvers av summerte 20 egenvektorer (Tabell 2). Det viste seg at for cutoff Ved p ≤ 0,05 var 61 fra 78 par av besetningene signifikante (Tabell 5). De mest betydningsfulle par av flokker var 1, 4,7, 8, 11 og 12 og den mest ubetydelige par av flokker ble dannet med flokken 3. Med tanke på dataene for summerte ti og tjue egenvektorer, er det viktig å merke seg at betydelige par av besetningene varierte sterkt med en økning i antall summerte egenvektorer. Dermed øker antall summerte egenvektorer til total økning av signifikansnivå.
for å inkludere komplett varians tilgjengelig FRA pca-analyse beregnet Vi P-verdier for 100 summerte egenvektorer (Tabell 2). For fullstendige data hadde p-verdier fordeling gjennomsnittlig 2,2 e-07 og median 2,2 e-15, og dermed er fordelingen svært skjev. Besetningen 3 hadde minimum p-verdier med andre besetninger (Tabell 2) derfor valgte vi på grunnlag av disse verdiene betydelige par av besetningene ved cutoff P ≤ 1.0 e-10 og gitt Bonferroni-korreksjonen P ≤ 1.28 e-12. Resultatene er vist i Tabell 6. Flokken 3 dannet 6 ubetydelige par besetninger 3 og 6, 8, 9, 10, 11, 12 og flokken 8 dannet 9 ubetydelige par av flokken 8 og 1, 2, 3, 5, 6, 9, 10, 11, 12. Dermed var besetningen 8 og 3 mest genetisk beslektet med andre besetninger, og dette resultatet motsier Ikke Fst-verdiene 0,002 og 0,003 som er rådende i parvis sett for disse besetningene (Tabell 1). Det var nødvendig å bestemme de viktigste parene av besetningene. De mest betydningsfulle par av flokkene ved cutoff P ≤ 1.28 e – 20 var 4 og 2, 3, 7, 9, 12, 13 (6 par); 7 og 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 par); 13 og 2, 3, 4, 7, 9, 10, 12 (7 par). Dette resultatet for besetninger 7 og 13 skyldes mindre standardfeil for disse besetningene enn for besetninger 4(Se Tilleggsfil 1: Tabell 5).
for beskjærte data hadde p-verdier fordeling gjennomsnittlig 2,6 e-06 og median 1.8e-16. Dermed er de komplette og beskjærte datafordelingene like. For samme cutoff P ≤ 1.28 e-12 som for komplette data ble dataene i Tabell 2 rangert (Tabell 7). Flokken 3 dannet 4 ubetydelige par av flokken 3 og 6, 8, 9, 12. Flokken 8 dannet 9 ubetydelig par av flokken 8 og 1, 2, 3, 4, 5, 6, 9, 11, 12. Blant 15 par besetninger 3 og 8 for komplette data faller bare 11 av disse parene sammen med beskjærte data. Det mest signifikante paret av besetningene Med cutoff P ≤ 1.28 e-20 var 4 og 2, 3, 7 (3 par); 5 og 1, 2, 7, 11 (4 par); 7 og 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 par); 13 og 2, 7, 9, 10, 12 (5 par). Dermed samsvarer p-verdiene for komplette og beskjærte data godt nok (unntatt flokken 4 og 5).
Vurdere kraften Av Fst og pca analyser
I Tabellen 2 oppført P-verdier For Parvis sett av besetningene beregnet MED PCA og Fst analyser. Ifølge disse dataene for summerte 100 egenvektorer Var P-verdier den minste av dem for andre egenvektorer eller summerte 10 og 20 egenvektorer. Dette resultatet skyldtes å bruke den komplette variansen fra innledende data. Videre, sammenligne p-verdier AV pca og Fst analyser trekke en konklusjon At Fst p-verdier var mange størrelsesordener mindre de av summerte 100 egenvektorer. På Tvers Av Parvis sett var pca-beregnet effekt innenfor området 0,8-1,0, mens For Fst var det innenfor området 0,9–1 som er sannsynlighetene for en TYPE II-feil er like. Totalt, med tanke på flere størrelsesordener mindre P-verdier For Fst, kan vi konkludere med at sannsynlighetstype i-feil for fst-analysen var langt mindre PCA-en. Derfor bør det aksepteres at dataene Fra fst-analysen er mer pålitelige.