- utvärdering korrespondensen mellan MAF och länkningsvikt
- bedömning av effekten av borttagning av avvikelser på fst-data
- utvärdering ld-baserad beskärningsmetodik på fst-värden
- Utvärderingseffekter av SNPs MAF på Fst-värden
- Utvärderingsbetydelse för Fst-värden
- utvärdering PCA-analysdata
- bedömning av effekten av FST-och PCA-analyser
utvärdering korrespondensen mellan MAF och länkningsvikt
effekten av LD – baserad beskärning på antalet SNP: er var stor (se ytterligare fil 1: figur S1). För att uppskatta effekten av LD – baserad beskärning på MAF av SNP beräknade vi fördelningen av MAF i åtta fack (Fig. 1). Andelen SNP: er avseende MAF-facken i hela och de beskurna uppgifterna var märkbart olika. Ld-baserad beskärning avlägsnades helt monomorfa SNP: er, oproportionerligt borttagna SNP: er med MAF 0,2–0,4 medan andelen sällsynta och vanliga SNP: er med MAF 0,0001–0,1 och 0,5 ökade (Fig. 1). Det kan föreslås att i genomsnitt SNP med MAF 0.1-0.4 fördelat i genom närmare varandra än återstående SNP som leder till den största LD mellan dem.
bedömning av effekten av borttagning av avvikelser på fst-data
i det första steget utvärderade vi effekterna av avvikelserna på Fst-värden. Vi beräknade FST-värden för parvis uppsättning fullständiga data både med korrigering och utan korrigering på avvikare (se ytterligare fil 1: Tabell S1). Efter extremvärden korrigering i EIGENSOFT 799 kor och 46,626 SNP återstod.
frånvaro av outliers-korrigeringen leder till en bias av Fst-värden men endast för 6 från 78 par av besättningarna. I samtliga fall var skillnaden mellan Fst-värden 0,001 i 0,001 med undantag för 4 och 13 par av besättningarna med 0,002 skillnader. Nästan samma Fst-värden lagrades också för parvis uppsättning där exkluderades SNP med MAF < 0.01. Bland dessa FST-värden skilde sig endast sex par av besättningarna med 0,001 från Fst-värden för fullständiga data i tabell S2 (se ytterligare fil 1) och tre av dem var desamma som i resultat av outliers-korrigering.
utvärdering ld-baserad beskärningsmetodik på fst-värden
koppling obalans beskärning (ld < 0.1) hade samma effektstorlek på fst-värden 0.001 som avvikelserna hade men påverkat fler par av besättningarna 22 vs. 6 för avvikande effekt (Tabell 1 och se ytterligare fil 1: Tabell 1). I själva verket var effektstorleken på Fst inte stor trots en avsevärd minskning av det totala antalet SNP (5827 vs. 48,108) och deras andel i SNP-behållarna (Fig. 1). Således hade ld-baserad beskärning en måttlig effekt på Fst-värden men det påverkade fler par besättningar.
Utvärderingseffekter av SNPs MAF på Fst-värden
för att utvärdera effekten av SNPs MAF på Fst-värden delade vi hela MAF–intervallet 0.0001-0.5 i 6 fack och beräknade för var och en av dem det genomsnittliga Fst-värdet över parvisa uppsättningar bildade från fullständiga och beskurna data (Fig. 2). De sällsynta SNP-allelerna med MAF 0.0001-0.005 hade det minsta genomsnittliga Fst-värdet (0.0027) över alla besättningar än de för återstående SNP: er (se ytterligare fil 1: Tabell S3). Man kan dra slutsatsen att i genomsnitt mellan besättningar var skillnader beräknade för sällsynta alleler mindre av de för vanliga alleler. För MAF i intervallet 0,1–0,5 var skillnaden mellan de genomsnittliga Fst-värdena över bönor för två datamängder inte signifikant. Som ett resultat av ömsesidig kompensation av de genomsnittliga Fst-värdena i fullständiga och beskurna data i hela MAF-intervallet var det totala summerade värdet av Fst-värdet mellan dem obetydligt (se ytterligare fil 1: Tabell S3). Således bekräftar dessa resultat igen en liten effektstorlek av LD-baserad beskärning på Fst-värden endast för sällsynta SNP: er, inte vanliga SNP-alleler.
Utvärderingsbetydelse för Fst-värden
för att bedöma betydelsen av Fst-värden i Tabell 1 utförde vi parvisa besättningar permutationer av korna som behandlade dem som H null-distribution. Resultaten av dessa FST-värden beräkningar listas i tabell S4 (se ytterligare fil 1). Sedan beräknar vi P-värden för varje par av besättningarna i parvis uppsättning med studentens t-test (Tabell 2). Alla var med P-värden i intervallet från 1,0 e-06 till 3,6 e-60 med medelvärde 6,5 e-18 och median 3,6 e-40, varigenom den är kraftigt skev fördelning. För att beräkna Fst för H null-distribution utförde vi endast 5 permutationer för var och en av 78 par av besättningarna eftersom det var tidskrävande process och resultatet av P – värden uppskattningar skulle bara underskattas något. I tabellen 1 var de minsta Fst-värdena 0,002-0,003. Paren av besättningarna som motsvarar dessa värden är kandidaterna för genetiskt mest liknande besättningar. Vid jämförelse av dessa besättningar i Tabell 1 beaktades emellertid inte felen. Sannolikheten för att göra ett typ 1-fel för alla 78 flockkombinationer anges i Tabell 2. För att utvärdera de genetiska skillnaderna mellan besättningarna har vi valt avskurna p 1,0 e-30 (p 1,28 e-32 med hänsyn till Bonferroni-korrigeringen) där skillnaderna mellan besättningarna vid FST–värden 0,002-0,003 i regel bör vara obetydliga. Resultaten visas i tabell 3. Obetydliga par besättningar var 2 och 8, 9, 11, 12 (4 par); 3 och 5, 8, 9, 10 (4 par); 8 och 2, 3, 9, 11 (4 par); 9 och 2, 3, 11, 12 (4 par). Paren av besättningar med 2, 3, 8 och 9 besättningar hade 4-6 Fst–värden 0,002-0,003 (Tabell 1). Därför motsvarar resultaten av att identifiera obetydliga par av besättningar (tabell 3) de minimala FST-data i tabellen 1. I tabellen 3 var de mest signifikanta paren av besättningar vid denna avskurna besättningen 4 (10 par), 7 (12 par), 13 (12 par) eller en strängare nivå av betydelse vid avskuren p 1.28e – 39 besättningarna 4, 7 och 13 hade 10, 8 och 11 signifikanta par av besättningarna (tabell 3).
det var nödvändigt att bestämma de viktigaste paren av besättningar. Den mest signifikanta vid avskurna p 1,28 e-50 par av besättningarna var 2 och 5, 6; 4 och 2, 3, 5, 12; 5 och 11; 7 och 1, 2, 9; 13 och 5, 9, 12 (tabell 2). Dessa par av besättningarna motsvarar de mest genetiskt olika paren av besättningarna, medan Fst-datafel också beaktades. Sammanfattar resultaten av p-värden som beräknar vi kan hävda om en hög nivå av betydelse Fst-analysen.
utvärdering PCA-analysdata
egenvärdena för 100 egenvektorer beräknade från kovariansmatrisen för alleler från 803 kor minskade monotont från 9,5 till noll. Det visar sig att strukturen hos kovariansmatrisen var tillräckligt homogen. Totala p-värden och procent av variansen (i brakets) för tio egenvektorer beräknade för fullständiga och beskurna data var 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1, 02), 1, 9 e-08 (0, 88), 9, 7 e-03 (0, 76), 2, 3 e-03 (0, 72), 8, 2 e-03 (0, 71), 6, 0 e-09 (0, 66), 4, 9 e-05 (0, 62), 5, 6 e-04 (0, 59) (1) och 3, 3 e-16 (0, 84), 6,4 e-06 (0,79), 2,0 e-04 (0,76), 3,4 ee-06 (0,70), 2,6 e-05 (0,67), 3,2 e-08 (0,58), 2,0 e-03 (0,55), 4,0 e-04 (0,54), 2,2 e-07 (0,53), 3,0 e-03 (0,51) (2) respektive, dvs. de var liknande. Det totala p-värdet för den andra egenvektorn av beskärda data har emellertid blivit betydande (6.4e-06) och samtidigt minskade det totala P – värdet för tredje egenvektorn på många storleksordningar (3,9 e-14 mot 2,0 e-04). Sådan var effekten av LD – baserad beskärning på övergripande P-värden. Från listan över övergripande P – värden bör det vara tydligt vilka huvudsakliga signifikanta ”variationsaxlar” var. Från listan över avvikelser för varje egenvektor (1) och (2) kan beräknas varianser som ska användas efter summering tio egenvektorer. Det var 8,17% för fullständiga data och 6,47% för beskuren data. Varifrån kommer ju fler egenvektorer att summeras, desto mer variansvärde kommer att användas.
med de små Fst-värdena och gradvis minskning av egenvärdena beräknade vi medelvärdet för varje besättning i PC-skalorna till statistisk beskrivning mellan besättningar genetiska skillnader avslöjade av PCA. Plot av medel för alla besättningar längs PC 1 och PC 3 visas på Fig. 3 och längs PC 1 och PC 4 visas på Fig. 4. För att bedöma betydelsen av genetisk skillnad mellan 13 besättningar baserat på PC 1 listade vi (+) (betecknar mellan besättningar betydelse) i Tabell 4 erhållen från P – värden i Tabell 2 där avskuren av betydelse togs vid p 0.05 men med tanke på Bonferroni-korrigeringen får vi p 6.4 6.4 e-4. Vidare, för korthet, skriver vi p 0,05 i stället p 6,4 6,4 e-4. För PC 1 bland 78 par av besättningarna fanns 14 signifikanta par av besättningarna. Oftast observerades signifikanta data för besättningar 4 och 13. Några signifikanta resultat erhållna med Fst-statistik bekräftades också med PCA för egenvektorer 1. Till exempel bekräftades de största parvisa Fst – värdena för besättning 4 av märkbart högre signifikansnivå som avslöjades av PCA (Tabell 2). Vidare motsvarar obetydliga par av besättningarna 1 och 4, 4 och 6, 4 och 13 för PC 1 minsta Fst-värden för par av besättningarna som bildas med besättningen 4 (Tabell 1). Det bör noteras en försumbar effekt storlek LD baserad beskärning på mellan besättningar betydelse för egenvektor 1 (Tabell 2).
samma procedur utfördes för PC 3 (Tabell 4). Bland parvis uppsättning fanns 16 signifikanta par besättningar. De oftast signifikanta uppgifterna erhölls också för besättning 4 inte besättning 13. Av fjorton signifikanta par av besättningarna avslöjade PC 1 Endast 9 sammanfaller med sexton signifikanta par av besättningarna avslöjade PC 3. Således skiljer sig PC 3-poängen från PC 1 one. Uppenbarligen skulle det vara felaktigt att dra en slutsats om betydande skillnader mellan besättningar om vi använde data för en separat egenvektor (Tabell 2).
jämför det synliga mönstret av plats medelvärdena för besättningarna längs PC 1-3 och PC 1-4 kan vi dra några allmänna slutsatser (Fig. 3 och 4). Banan som förbinder besättningar 4-7-6-13-1 bevaras på båda figurerna. Andra besättningar skiftade visuellt i förhållande till varandra även om inte alla dessa förskjutningar var signifikanta vid P < 0,05 som visades längs egenvektorerna 1 och 3. Skillnaden mellan dessa par av besättningarna var dock mycket signifikant när vi mätte dem med Fst-statistik (Tabell 2). Således visuella skillnader i besättningarna positioner på fikon. 3 och 4 kan vara felaktiga om vi bara använde visuell information längs separata egenvektorer.
bristen på övergripande betydelse (P < 0.20) av andra egenvektor för fullständiga data och obetydlighet av de flesta par av besättningarna i parvis set Indikerar att det inte finns mellan besättningar genetisk skillnad för denna axel. Därför utesluts dessa uppgifter från överväganden.
dessutom, baserat på fullständiga data, testade vi nivån på PCA – databetydelse om P-värden för parvis uppsättning beräknades från summerade tio PC. Lämpliga p-värden anges i Tabell 2 och signifikanta par av besättningarna som betecknades som (+) listas i Tabell 5 vid cutoff p 0,05. Bland dem fanns 47 parvisa signifikanta kombinationer av besättningarna för summerad PC 1-10. Det mest signifikanta resultatet erhölls för besättning 4 och 7 medan obetydliga resultat för besättning 8, 9 och 10. Således ger summerad genetisk varians från 10 egenvektorer leda till märkbart öka nivån av betydelse och ändra slutsatser om databetydelse som visades för PC 1 och PC 3.
för att verifiera signifikansnivån ytterligare beräknade vi P – värden för parvis uppsättning besättningar från fullständiga data över summerade 20 egenvektorer (Tabell 2). Det visade sig att för cutoff vid p 0,05 var 61 Från 78 par av besättningarna signifikanta (Tabell 5). De viktigaste paren av besättningar var 1, 4, 7, 8, 11 och 12 och det mest obetydliga paret av besättningarna bildades med besättningen 3. Med tanke på uppgifterna för summerade tio och tjugo egenvektorer är det viktigt att notera att betydande par av besättningarna varierade kraftigt med en ökning av antalet summerade egenvektorer. Således ökar antalet summerade egenvektorer till övergripande ökning av signifikansnivå.
för att inkludera fullständig varians tillgänglig från PCA-analys beräknade vi P-värden för 100 summerade egenvektorer (Tabell 2). För fullständiga data hade p-värden fördelningen medelvärde 2,2 e-07 och median 2,2 e-15, varigenom fördelningen är mycket skev. Flocken 3 hade minsta P-värden med andra besättningar (Tabell 2) därför baserat på dessa värden valde vi signifikanta par av besättningarna vid cutoff p 1.0 E-10 och med tanke på Bonferroni-korrigeringen p 1.28 e-12. Resultaten visas i Tabell 6. Besättningen 3 bildade 6 obetydliga par besättningar 3 och 6, 8, 9, 10, 11, 12 och besättning 8 bildade 9 obetydliga par av besättningarna 8 och 1, 2, 3, 5, 6, 9, 10, 11, 12. Således var besättningen 8 och 3 den mest genetiskt relaterade med andra besättningar och detta resultat strider inte mot FST-värdena 0.002 och 0.003 som råder i parvis uppsättning för dessa besättningar (Tabell 1). Det var nödvändigt att bestämma de viktigaste paren av besättningarna. De mest signifikanta paren av besättningarna vid cutoff p 1.28 e-20 var 4 och 2, 3, 7, 9, 12, 13 (6 par); 7 och 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11par); 13 och 2, 3, 4, 7, 9, 10, 12 (7 par). Detta resultat för besättningar 7 och 13 beror på mindre standardfel för dessa besättningar än för besättning 4 (se ytterligare fil 1: Tabell 5).
för beskärda data hade p-värden fördelningen medelvärde 2,6 e-06 och median 1.8e-16. Därmed är de fullständiga och beskurna datafördelningarna likartade. För samma gränsvärde p 1,28 e-12 för fullständiga uppgifter rankades uppgifterna i Tabell 2 (Tabell 7). Besättningen 3 bildade 4 obetydliga par av besättningen 3 och 6, 8, 9, 12. Besättningen 8 bildade 9 obetydligt par av besättningen 8 och 1, 2, 3, 4, 5, 6, 9, 11, 12. Bland 15 Par besättningar 3 och 8 för fullständig data endast 11 av dessa par sammanfaller med beskuren data. Det mest signifikanta paret av besättningarna med cutoff p 1.28 e-20 var 4 och 2, 3, 7 (3 par); 5 och 1, 2, 7, 11 (4 par); 7 och 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 par); 13 och 2, 7, 9, 10, 12 (5 par). Således matchar P – värden för fullständiga och beskurna data tillräckligt bra (förutom besättningarna 4 och 5).
bedömning av effekten av FST-och PCA-analyser
i tabellen 2 listade P-värden för parvis uppsättning besättningar beräknade med PCA-och Fst-analyser. Enligt dessa data för summerade 100 egenvektorer var P – värdena de minsta av dem för någon annan egenvektor eller summerade 10 och 20 egenvektorer. Detta resultat berodde på att använda den fullständiga variansen från initiala data. Vidare drar jämförelse av P-värden för PCA-och Fst-analyser en slutsats att Fst – p-värden var många storleksordningar mindre än de för summerade 100 egenvektorer. Över parvis satt den PCA-beräknade effekten inom intervallet 0,8–1,0, medan för Fst var det inom intervallet 0,9-1 som är sannolikheten för ett typ II-fel är likartade. Totalt sett, med tanke på flera storleksordningar mindre P-värden för Fst, kan vi dra slutsatsen att sannolikhetstyp i-fel för Fst-analysen var mycket mindre PCA-en. Därför bör det accepteras att data från Fst-analysen är mer tillförlitliga.