BMC genomiske Data

evaluering korrespondancen mellem MAF og koblingsuligevægt

effekten af LD – baseret beskæring på antallet af SNP ‘ er var stor (se yderligere fil 1: Figur S1). For at estimere virkningen af LD – baseret beskæring på MAF af SNP ‘ er beregnede vi fordelingen af MAF i otte beholdere (Fig. 1). Andelen af SNP ‘ er vedrørende MAF-beholderne i de komplette og de beskårne data var mærkbart anderledes. LD-baseret beskæring fjernede fuldstændigt monomorfe SNP ‘er, uforholdsmæssigt fjernede SNP’ er med MAF 0,2–0,4, mens andelen af sjældne og almindelige SNP ‘ er med MAF 0,0001–0,1 og 0,5 steg (Fig. 1). Det kan antydes, at i gennemsnit SNP ‘er med MAF 0,1–0,4 fordelt i genom tættere på hinanden end resterende SNP’ er, der fører til den største LD mellem dem.

Fig. 1
figur1

andel af SNP ‘ er i de komplette og beskårne data

vurdering af virkningen af fjernelse af outliers på Fst-data

på det første trin vurderede vi virkningen af outliers på Fst-værdier. Vi beregnede Fst-værdier for parvis sæt komplette data både med korrektion og uden korrektion på outliers (se yderligere fil 1: tabel S1). Efter outliers korrektion i EIGENSOFT blev 799 køer og 46.626 SNP ‘ er forblevet.

fravær af outliers-korrektionen fører til en bias af Fst-værdier, men kun for 6 fra 78 par af besætningerne. I alle tilfælde var forskellen mellem Fst-værdier 0,001 med undtagelse af 4 og 13 par af besætningerne med 0,002 forskel. Næsten de samme Fst-værdier blev også gemt for parvis sæt, hvor blev udelukket SNP ‘ er med MAF < 0.01. Blandt disse FST-værdier adskilte kun seks par af besætningerne sig med 0,001 fra Fst-værdier for komplette data i tabel S2 (se yderligere fil 1), og tre af dem var de samme som i resultat af outliers korrektion.

evaluering ld-baseret beskæringsmetode på Fst-værdier

beskæring af uligevægt i forbindelse med koblinger (ld < 0,1) havde samme effektstørrelse på FST-værdier på 0,001, som outliers havde, men påvirkede flere par af besætningerne 22 vs. 6 for outliers-effekt (tabel 1 og se yderligere fil 1: Tabel 1). Faktisk var effektstørrelsen på Fst ikke stor på trods af et betydeligt fald i det samlede antal SNP ‘er (5827 mod 48.108) og deres andel i SNP’ erne (Fig. 1). Således havde ld-baseret beskæring en moderat effekt på Fst-værdier, men det påvirkede flere par besætninger.

tabel 1 estimater af Fst-værdier for komplette og beskårne data

Evalueringspåvirkning af SNPs MAF på Fst-værdier

for at evaluere virkningen af SNPs MAF på Fst–værdier delte vi hele MAF-intervallet 0,0001-0,5 i 6 kasser og beregnet for hver af dem den gennemsnitlige Fst-værdi på tværs af parvise sæt dannet ud fra komplette og beskårne data (Fig. 2). De sjældne SNP-alleler med MAF 0,0001 – 0,005 havde den mindste gennemsnitlige FST-værdi (0,0027) på tværs af alle besætninger end for de resterende SNP ‘ er (se yderligere fil 1: tabel S3). Det kan konkluderes, at forskelle beregnet for sjældne alleler i gennemsnit mellem besætninger var mindre end for almindelige alleler. For MAF i intervallet 0,1–0,5 var forskellen mellem de gennemsnitlige FST-værdier på tværs af bønner for to datasæt ikke signifikant. Som et resultat af gensidig kompensation af de gennemsnitlige Fst-værdier i komplette og beskårne data i hele MAF-området var den samlede summerede værdi af Fst-værdien mellem dem ubetydelig (se yderligere fil 1: tabel S3). Således bekræfter disse resultater igen en lille effektstørrelse af LD – baseret beskæring på Fst-værdier kun for sjældne SNP ‘er, ikke almindelige SNP’ er.

Fig. 2
figur2

afhængighed af gennemsnitlig Fst på MAF-området

Evalueringsbetydning af Fst-værdier

for at vurdere betydningen af Fst-værdier i tabel 1 udførte vi de parvise besætninger permutationer af køerne, der behandlede dem som H null-distribution. Resultaterne af disse beregninger af Fst-værdier er angivet i tabel S4 (se yderligere fil 1). Derefter beregner vi P-værdier for hvert par af besætningerne i parvis sæt ved hjælp af elevens t-test (tabel 2). Alle af dem var med P – værdier i området fra 1,0 e-06 til 3,6 e-60 med Middel 6,5 e-18 og median 3,6 e-40, hvorved det er higly skæv fordeling. For at beregne Fst for H null-distribution udførte vi kun 5 permutationer for hver af 78 par af besætningerne, da det var tidskrævende proces og resultat af p – værdier estimater ville kun være lidt undervurderet. I tabel 1 var de mindste FST–værdier 0,002-0,003. Parene af besætningerne svarende til disse værdier er kandidaterne til genetisk mest lignende besætninger. Ved sammenligning af disse besætninger i tabel 1 blev der imidlertid ikke taget hensyn til fejlene. Sandsynligheden for at lave en type 1-fejl for alle 78 besætningskombinationer er angivet i tabel 2. For at evaluere de genetiske forskelle mellem de besætninger, vi har valgt, afskåret P-1,0 E-30 (p–1,28 e-32 under hensyntagen til Bonferroni-korrektionen), hvor forskellene mellem besætningerne ved Fst-værdier 0,002-0,003 som regel skal være ubetydelige. Resultaterne er vist i tabel 3. Ubetydelige par besætninger var 2 og 8, 9, 11, 12 (4 par); 3 og 5, 8, 9, 10 (4 par); 8 og 2, 3, 9, 11 (4 par); 9 og 2, 3, 11, 12 (4 par). Parene af besætninger med 2, 3, 8 og 9 besætninger havde 4-6 Fst–værdier 0,002-0,003 (tabel 1). Derfor svarer resultaterne af identifikation af ubetydelige par besætninger (tabel 3) til de minimale FST-data i tabel 1. I tabel 3 var de mest betydningsfulde par besætninger ved denne afskæring besætningen 4 (10 pars), 7 (12 par), 13 (12 par) eller et strengere signifikansniveau ved afskæring p-1.28E-39 besætningerne 4, 7 og 13 havde 10, 8 og 11 signifikante par af besætningerne (tabel 3).

tabel 2 estimater mellem besætninger genetiske forskelle (P – værdier) a
tabel 3 mellem besætninger genetiske forskelle for fuldstændige data afsløret ved FST-analyse

det var nødvendigt at bestemme de mest betydningsfulde par besætninger. De mest betydningsfulde ved afskårne p-1,28 e-50-par af besætningerne var 2 og 5, 6; 4 og 2, 3, 5, 12; 5 og 11; 7 og 1, 2, 9; 13 og 5, 9, 12 (tabel 2). Disse par af besætningerne svarer til de mest genetisk forskellige par af besætningerne, mens der også blev taget hensyn til Fst-datafejl. Sammenfatning af resultaterne af beregning af p-værdier kan vi hævde om et højt niveau af betydning Fst-analysen.

evaluerings-PCA-analysedata

egenværdierne for 100 egenvektorer beregnet ud fra kovariansmatricen af alleler fra 803 køer faldt monotont fra 9,5 til nul. Det beviser, at strukturen af kovariansmatricen var tilstrækkelig homogen. De samlede P-værdier og procent af variansen (i bremser) for ti egenvektorer beregnet for komplette og beskårne data var 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1, 02), 1, 9 e-08 (0, 88), 9, 7 e-03 (0, 76), 2, 3 e-03 (0, 72), 8, 2 e-03 (0, 71), 6, 0 e-09 (0, 66), 4, 9 e-05 (0, 62), 5, 6 e-04 (0, 59) (1) og 3, 3 e-16 (0, 84), 6, 4 E-06 (0, 79), 2, 0 E-04 (0, 76), 3, 4 ee-06 (0, 70), 2, 6 e-05 (0, 67), 3, 2 e-08 (0, 58), 2, 0 e-03 (0, 55), 4, 0 E-04 (0, 54), 2, 2 e-07 (0, 53), 3, 0 e-03 (0, 51) (2) henholdsvis, dvs.de var ens. Den samlede P-værdi for den anden egenvektor af beskærede data er imidlertid blevet betydelig (6.4e-06) og samtidig samlet P – værdi for tredje egenvektor på mange størrelsesordener faldt (3.9 e-14 vs. 2.0 e-04). Sådan var effekten af LD – baseret beskæring på de samlede P – værdier. Fra listen over samlede P-værdier bør det være klart, hvilke vigtigste signifikante “variationsakser” var. Fra listen over afvigelser for hver egenvektor (1) og (2) kan beregnes de afvigelser, der skal anvendes efter opsummering af ti egenvektorer. Det var 8,17% for komplette data og 6,47% for beskårne data. Hvorfra, jo flere egenvektorer vil blive opsummeret, jo mere værdi af varians vil blive brugt.

med de små FST-værdier og gradvist fald i egenværdierne beregnede vi gennemsnittet for hver besætning i PC-skalaerne til statistisk beskrivelse mellem besætninger genetiske forskelle afsløret af PCA. Plottet af midlerne til alle besætninger langs PC 1 og PC 3 er vist på Fig. 3 og langs PC 1 og PC 4 er vist på Fig. 4. For at vurdere betydningen af genetisk forskel mellem 13 besætninger baseret på PC 1 opregnede vi (+) (angiver mellem besætningens betydning) i tabel 4 opnået fra P – værdier i tabel 2, hvor afskåret af betydning blev taget ved p-kr 0.05 men i betragtning af Bonferroni korrektion får vi p l 6.4 e-4. Yderligere, for kortfattethed, skriver vi P-0,05 i stedet P-6,4 e-4. For PC 1 blandt 78 par af besætningerne var der 14 signifikante par af besætningerne. Oftest blev der observeret signifikante data for besætninger 4 og 13. Nogle signifikante resultater opnået med Fst-statistik bekræftede også med PCA for egenvektorer 1. For eksempel blev de største parvise Fst – værdier for besætning 4 bekræftet af mærkbart højere signifikansniveau afsløret af PCA (tabel 2). Desuden svarer ubetydelige par af besætningerne 1 og 4, 4 og 6, 4 og 13 For PC 1 til de mindste FST-værdier for par af besætningerne dannet med besætningen 4 (tabel 1). Det skal bemærkes, at størrelsen af LD-baseret beskæring med ubetydelig virkning er mellem besætningernes betydning for egenvektor 1 (Tabel 2).

Fig. 3
figur3

placering af gennemsnitlige FST-værdier for besætningerne langs PC 1 og Pc 3. Hvert punkt angiver den gennemsnitlige besætningsposition langs PC 1 og PC 3 for komplette data

Fig. 4
figur4

placering af besætningernes gennemsnitlige Fst-værdier langs PC 1 og Pc 4. Hvert punkt angiver den gennemsnitlige besætningsposition langs PC 1 og PC 4 for komplette data

Tabel 4 mellem besætninger genetisk forskel for fuldstændige data afsløret af PC 1 og PC 3

den samme procedure blev udført for PC 3 (Tabel 4). Blandt parvis sæt var der 16 betydelige par besætninger. De oftest signifikante data blev også opnået for besætning 4 ikke besætning 13. Ud af fjorten betydelige par af besætningerne afslørede PC 1 kun 9 falder sammen med seksten betydelige par af besætningerne afslørede PC 3. Således er PC 3 score forskellig fra PC 1 en. Det er klart, at det ville være forkert at konkludere, at der er betydelige forskelle mellem besætningerne, hvis vi brugte data for en separat egenvektor (tabel 2).

sammenligning af det synlige placeringsmønster middelværdierne for besætningerne langs PC 1-3 og PC 1-4 kan vi drage nogle generelle konklusioner (Fig. 3 og 4). Banen forbinder besætninger 4-7-6-13-1 bevaret på begge figurer. Andre besætninger skiftede visuelt i forhold til hinanden, skønt ikke alle disse forskydninger var signifikante ved P < 0,05 som vist langs egenvektor 1 og 3. Forskellen mellem disse par af besætningerne var imidlertid meget signifikant, da vi målte dem med Fst-Statistik (Tabel 2). Således visuelle forskelle i besætningerne positioner på figner. 3 og 4 kan være forkert, hvis vi kun brugte visuel information langs separate egenvektorer.

manglen på samlet betydning (P < 0.20) af anden egenvektor for fuldstændige data og ubetydelighed af de fleste par af besætningerne i parvis sæt indikerer, at der ikke er mellem besætninger genetisk forskel for denne akse. Derfor blev disse data udelukket fra overvejelse.

desuden, baseret på komplette data, vi testede niveauet af PCA data betydning, hvis P – værdier for parvis sæt blev beregnet ud fra summerede ti PC. Passende P-værdier er angivet i tabel 2, og signifikante par af besætningerne, der blev betegnet som ( + ), er anført i tabel 5 ved cutoff p-kr.0,05. Blandt dem var der 47 parvis signifikante kombinationer af besætningerne til summerede PC 1-10. Det mest signifikante resultat blev opnået for besætning 4 og 7, mens ubetydelige resultater for besætning 8, 9 og 10. Dermed, giver summerede genetiske varians fra 10 egenvektorer føre til mærkbart øge niveauet af betydning og ændre konklusioner om data betydning som blev vist for PC 1 og PC 3.

tabel 5 mellem besætninger genetisk forskel for komplette data afsløret af summed PC 1-10 og PC 1-20

for at verificere signifikansniveauet yderligere beregnede vi P – værdier for parvis sæt af besætningerne ud fra komplette data på tværs af summerede 20 egenvektorer (tabel 2). Det viste sig, at for cutoff ved p kr 0,05 var 61 Fra 78 par af besætningerne signifikante (tabel 5). De mest betydningsfulde par besætninger var 1, 4, 7, 8, 11 og 12, og det mest ubetydelige par af besætningerne blev dannet med besætningen 3. I betragtning af dataene for summerede ti og tyve egenvektorer er det vigtigt at bemærke, at betydelige par af besætningerne varierede meget med en stigning i antallet af summerede egenvektorer. Forøgelse af antallet af summerede egenvektorer fører således til en samlet stigning i signifikansniveauet.

for at inkludere komplet varians tilgængelig fra PCA-analyse beregnede vi P – værdier for 100 summerede egenvektorer (tabel 2). For komplette data havde p-værdier fordelingen middel 2,2 e – 07 og median 2,2 e-15, hvorved fordelingen er stærkt skæv. Besætningen 3 havde minimum P-værdier med andre besætninger (tabel 2) Derfor valgte vi på baggrund af disse værdier betydelige par af besætningerne ved cutoff P-1.0 e-10 og givet Bonferroni-korrektionen P-1.28 e-12. Resultaterne er vist i tabel 6. Besætningen 3 dannede 6 ubetydelige par besætninger 3 og 6, 8, 9, 10, 11, 12 og besætning 8 dannede 9 ubetydelige par af besætningerne 8 og 1, 2, 3, 5, 6, 9, 10, 11, 12. Besætningen 8 og 3 var således den mest genetisk beslægtede med andre besætninger, og dette resultat modsiger ikke Fst-værdier 0,002 og 0,003, der hersker i parvis sæt for disse besætninger (tabel 1). Det var nødvendigt at bestemme de mest betydningsfulde par af besætningerne. De mest betydningsfulde par af besætningerne ved cutoff p kurst1.28 e-20 var 4 og 2, 3, 7, 9, 12, 13 (6 par); 7 og 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11par); 13 og 2, 3, 4, 7, 9, 10, 12 (7 par). Dette resultat for besætninger 7 og 13 skyldes mindre standardfejl for disse besætninger end for besætninger 4 (Se yderligere fil 1: Tabel 5).

Tabel 6 mellem besætninger genetiske forskelle for komplette data afsløret af PC 1-100

for beskårne data havde fordelingen af p-værdier gennemsnitlig 2,6 e – 06 og median 1.8e-16. Dermed er de komplette og beskårne datafordelinger ens. For den samme cutoff p-kurs 1.28 e-12 som for komplette data blev dataene i tabel 2 rangeret (Tabel 7). Besætningen 3 dannede 4 ubetydelige par af besætningen 3 og 6, 8, 9, 12. Besætningen 8 dannede 9 ubetydelige par af besætningen 8 og 1, 2, 3, 4, 5, 6, 9, 11, 12. Blandt 15 Par besætninger 3 og 8 for komplette data falder kun 11 af disse par sammen med beskårne data. Det mest betydningsfulde par af besætningerne med cutoff p-1.28 e-20 var 4 og 2, 3, 7 (3 par); 5 og 1, 2, 7, 11 (4 par); 7 og 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 par); 13 og 2, 7, 9, 10, 12 (5 par). P-værdierne for fuldstændige og beskårne data svarer således godt nok (undtagen for besætningerne 4 og 5).

Tabel 7 mellem besætninger genetiske forskelle for beskårne data afsløret af summeret PC 1-100

vurdering af effekten af FST-og PCA-analyser

i tabel 2 anførte P – værdier for parvis sæt besætninger beregnet med PCA-og Fst-analyser. Ifølge disse data for summerede 100 egenvektorer VAR P – værdier de mindste af dem for enhver anden egenvektor eller summerede 10 og 20 egenvektorer. Dette resultat skyldtes at bruge den komplette varians fra indledende data. Sammenligning af P-værdier for PCA – og Fst-analyser drager endvidere en konklusion om, at Fst P-værdier var mange størrelsesordener mindre end de summerede 100 egenvektorer. På tværs af parvis indstillet var PCA-beregnet effekt inden for området 0,8–1,0, mens det for Fst var inden for området 0,9–1, der er sandsynligheden for en type II-fejl er ens. I alt i betragtning af flere størrelsesordener mindre P-værdier for Fst kan vi konkludere, at sandsynlighedstype i-fejl for Fst-analysen var langt mindre PCA-en. Derfor bør det accepteres, at dataene fra Fst-analysen er mere pålidelige.

You might also like

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.