- evaluare corespondența MAF și dezechilibrul de legătură
- Evaluarea impactului eliminării valorilor aberante asupra datelor Fst
- evaluare LD metodologia de tăiere bazată pe valorile Fst
- evaluarea impactului SNPS MAF asupra valorilor Fst
- evaluarea semnificației valorilor Fst
- evaluare date de analiză PCA
- evaluarea puterii analizelor Fst și PCA
evaluare corespondența MAF și dezechilibrul de legătură
efectul tăierii bazate pe LD asupra numărului de SNP-uri a fost mare (a se vedea fișierul suplimentar 1: figura S1). Pentru a estima impactul tăierii pe bază de LD asupra MAF a SNP-urilor am calculat distribuția MAF în opt coșuri (Fig. 1). Proporția SNP-urilor în ceea ce privește coșurile MAF în datele complete și tăiate a fost vizibil diferită. Tăierea pe bază de LD a îndepărtat complet SNP–urile monomorfe, SNP–urile îndepărtate disproporționat cu MAF 0,2-0,4, în timp ce proporția SNP-urilor rare și comune cu MAF 0,0001-0,1 și 0,5 A crescut (Fig. 1). Se poate sugera că în medie SNP–urile cu MAF 0,1-0,4 distribuite în genom mai aproape unul de celălalt decât SNP-urile rămase care duc la cel mai mare LD dintre ele.
Evaluarea impactului eliminării valorilor aberante asupra datelor Fst
în prima etapă am evaluat impactul valorilor aberante asupra valorilor Fst. Am calculat valorile Fst pentru setul pereche de date complete atât cu corecție, cât și fără corecție pe valori aberante (a se vedea fișierul suplimentar 1: Tabelul S1). După corectarea valorilor aberante la EIGENSOFT au rămas 799 de vaci și 46.626 SNP.
absența corecției valorilor aberante duce la o părtinire a valorilor Fst, dar numai pentru 6 din 78 de perechi de efective. În toate cazurile, diferența dintre valorile Fst a fost de 0,001, cu excepția a 4 și 13 perechi de efective având o diferență de 0,002. Aproape aceleași valori Fst au fost, de asemenea, stocate pentru setul pereche unde a fost exclus SNP-urile cu MAF < 0.01. Dintre aceste valori Fst, doar șase perechi de efective au diferit cu 0,001 de valorile Fst pentru datele complete din tabelul S2 (A se vedea fișierul suplimentar 1) și trei dintre ele au fost aceleași ca în rezultatul corecției valorilor aberante.
evaluare LD metodologia de tăiere bazată pe valorile Fst
tăierea dezechilibrului de legătură (LD < 0.1) a avut aceeași dimensiune a efectului asupra valorilor FST 0.001 ca valorile aberante, dar au afectat mai multe perechi de efective 22 vs.6 pentru efectul aberant (Tabelul 1 și a se vedea fișierul suplimentar 1: Tabelul 1). De fapt, dimensiunea efectului asupra Fst nu a fost mare, în ciuda scăderii considerabile a numărului total de SNP-uri (5827 vs.48.108) și a proporției acestora în coșurile SNP-urilor (Fig. 1). Astfel, tăierea pe bază de LD a avut un efect moderat asupra valorilor Fst, dar a afectat mai multe perechi de efective.
evaluarea impactului SNPS MAF asupra valorilor Fst
pentru a evalua impactul SNPS MAF asupra valorilor Fst, am împărțit întregul interval MAF 0,0001–0,5 în 6 coșuri și am calculat pentru fiecare dintre ele valoarea medie Fst pe seturi perechi formate din date complete și tăiate (Fig. 2). Alelele rare SNP cu MAF 0,0001-0,005 au avut cea mai mică valoare medie Fst (0,0027) pentru toate efectivele decât cele pentru SNP rămase (a se vedea fișierul suplimentar 1: Tabelul S3). Se poate concluziona că, în medie, între efective, diferențele calculate pentru alelele rare au fost mai mici decât cele pentru alelele comune. Pentru MAF în intervalul 0,1–0,5, diferența dintre valorile medii ale Fst pentru fasole pentru două seturi de date nu a fost semnificativă. Ca urmare a compensării reciproce a valorilor medii Fst în datele complete și tăiate în întregul interval MAF, valoarea totală însumată a valorii Fst între ele a fost nesemnificativă (a se vedea fișierul suplimentar 1: Tabelul S3). Astfel, aceste rezultate confirmă din nou o dimensiune mică a efectului tăierii bazate pe LD pe valorile Fst numai pentru SNP – urile rare, care nu sunt alele SNP comune.
evaluarea semnificației valorilor Fst
pentru evaluarea semnificației valorilor Fst în tabelul 1 s-au efectuat permutări în perechi ale efectivelor de vaci tratându-le CA H distribuție nulă. Rezultatele acestor calcule ale valorilor Fst sunt enumerate în tabelul S4 (a se vedea fișierul suplimentar 1). Apoi, calculăm valorile P pentru fiecare pereche de turme în set pereche folosind testul T al elevului (Tabelul 2). Toate acestea au fost cu valori P în intervalul de la 1,0 e-06 la 3,6 e-60 cu media 6,5 e-18 și mediana 3,6 E-40, prin urmare este o distribuție higly înclinată. Pentru a calcula Fst pentru H null-distribution am efectuat doar 5 permutări pentru fiecare dintre cele 78 de perechi de efective, deoarece procesul a fost consumator de timp, iar rezultatul estimărilor valorilor P ar fi doar ușor subestimat. În tabelul 1 valorile minime ale Fst au fost de 0,002-0,003. Perechile de efective care corespund acestor valori sunt candidații pentru cele mai similare efective din punct de vedere genetic. Cu toate acestea, la compararea acestor efective în tabelul 1, erorile nu au fost luate în considerare. Probabilitățile de a face o eroare de tip 1 Pentru toate cele 78 de combinații de efective sunt prezentate în tabelul 2. Pentru a evalua diferențele genetice dintre efective am ales cut off p 0,0 E-30 (p 1,28 e-32 având în vedere corecția Bonferroni) în care, de regulă, diferențele dintre efective la valorile Fst 0,002–0,003 ar trebui să fie nesemnificative. Rezultatele sunt prezentate în tabelul 3. Perechile nesemnificative de efective au fost 2 și 8, 9, 11, 12 (4 perechi); 3 și 5, 8, 9, 10 (4 perechi); 8 și 2, 3, 9, 11 (4 perechi); 9 și 2, 3, 11, 12 (4 perechi). Perechile de efective cu 2, 3, 8 și 9 efective au avut 4-6 valori Fst 0,002–0,003 (Tabelul 1). Prin urmare, rezultatele identificării perechilor nesemnificative de efective (Tabelul 3) corespund datelor minime Fst din tabelul 1. În tabelul 3 cele mai semnificative perechi de turme la această tăiere au fost efectivul 4 (10 pars), 7 (12 perechi), 13 (12 perechi) sau un nivel mai strict de semnificație la tăiere p 1.28E-39 efectivele 4, 7 și 13 aveau 10, 8 și 11 perechi semnificative de efective (Tabelul 3).
a fost necesar să se determine cele mai semnificative perechi de efective. Cele mai semnificative la cut off p 1.28 e-50 perechi de efective au fost 2 și 5, 6; 4 și 2, 3, 5, 12; 5 și 11; 7 și 1, 2, 9; 13 și 5, 9, 12 (Tabelul 2). Aceste perechi de efective corespund celor mai diferite perechi genetice ale efectivelor, în timp ce erorile de date Fst au fost luate în considerare, de asemenea. Rezumând rezultatele calculării valorilor p putem afirma despre un nivel ridicat de semnificație analiza Fst.
evaluare date de analiză PCA
valorile proprii ale 100 de vectori proprii calculate din matricea de covarianță a alelelor de la 803 vaci au scăzut monoton de la 9,5 la zero. Aceasta dovedește că structura matricei de covarianță a fost suficient de omogenă. Valorile P globale și procentul de varianță (în brakets) pentru zece vectori proprii calculați pentru datele complete și tăiate au fost de 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1, 02), 1, 9 E-08 (0, 88), 9, 7 e-03 (0, 76), 2, 3 e-03 (0, 72), 8, 2 e-03 (0, 71), 6, 0 E-09 (0, 66), 4, 9 E-05 (0, 62), 5, 6 e-04 (0, 59) (1) și 3, 3 e-16 (0, 84), 6, 4 E-06 (0, 79), 2, 0 e-04 (0, 76), 3, 4 ee-06 (0, 70), 2, 6 E-05 (0, 67), 3, 2 E-08 (0, 58), 2, 0 e-03 (0, 55), 4, 0 e-04 (0, 54), 2, 2 E-07 (0, 53), 3, 0 e-03 (0, 51) (2) respectiv, adică au fost similare. Cu toate acestea, valoarea p globală pentru cel de – al doilea vector propriu al datelor tăiate a devenit semnificativă (6.4e-06) și, în același timp, valoarea totală P pentru al treilea vector propriu pe multe ordine de mărime a scăzut (3,9 e – 14 vs.2,0 e-04). Acesta a fost efectul tăierii bazate pe LD asupra valorilor p globale. Din lista valorilor p globale ar trebui să fie clar care au fost principalele „axe de variație” semnificative. Din lista varianțelor pentru fiecare vector propriu (1) și (2) se pot calcula varianțele care vor fi utilizate după însumarea a zece vectori proprii. Au fost 8,17% pentru datele complete și 6,47% pentru datele tăiate. De unde, cu cât vor fi însumați mai mulți vectori proprii, cu atât va fi utilizată mai multă valoare a varianței.
având valorile Fst mici și scăderea treptată a valorilor proprii am calculat media pentru fiecare șeptel din scalele PC la descrierea statistică între diferențele genetice ale șeptelului relevate de APC. Graficul mijloacelor pentru toate efectivele de-a lungul PC 1 și PC 3 este prezentat în Fig. 3 și de-a lungul PC 1 și PC 4 este prezentat în Fig. 4. Pentru a evalua semnificația diferenței genetice între 13 efective pe baza PC 1, am enumerat ( + ) (care indică semnificația între efective) în tabelul 4 obținut din valorile P din tabelul 2, Unde s – a luat reducerea semnificației la p 0.05 dar având în vedere corecția Bonferroni obținem p 6.4 e-4. Mai mult, pentru concizie, scriem p 0.05 in loc de p 0.4 e-4. Pentru PC 1 dintre 78 de perechi de efective au existat 14 perechi semnificative de efective. Cel mai adesea au fost observate date semnificative pentru efectivele 4 și 13. Unele rezultate semnificative obținute cu statistica Fst au fost confirmate și cu PCA pentru vectorii proprii 1. De exemplu, cele mai mari valori FST în perechi pentru efectivul 4 au fost confirmate de un nivel semnificativ mai ridicat de semnificație relevat de PCA (Tabelul 2). În plus, perechile nesemnificative ale efectivelor 1 și 4, 4 și 6, 4 și 13 pentru PC 1 corespund celor mai mici valori Fst pentru perechile de efective formate cu efectivul 4 (Tabelul 1). Se remarcă o dimensiune neglijabilă a efectului tăierii LD pe baza semnificației efectivelor pentru vectorul propriu 1 (Tabelul 2).
aceeași procedură a fost efectuată pentru PC 3 (Tabelul 4). Printre setul pereche au existat 16 perechi semnificative de turme. Datele cele mai semnificative au fost obținute și pentru efectivul 4, nu pentru efectivul 13. Din paisprezece pereche semnificativă a efectivelor a relevat PC 1 doar 9 coincid cu șaisprezece pereche semnificativă a efectivelor a relevat PC 3. Astfel, scorul PC 3 este diferit de cel PC 1. Evident, ar fi incorect să facem o concluzie cu privire la diferențele semnificative dintre efective dacă am folosi date pentru un vector propriu separat (Tabelul 2).
comparând modelul vizibil de localizare a valorilor medii ale efectivelor de-a lungul PC 1-3 și PC 1-4 putem trage câteva concluzii generale (Fig. 3 și 4). Traiectoria care leagă efectivele 4-7-6-13-1 s-a păstrat pe ambele figuri. Alte efective s-au deplasat vizual unele față de altele, deși nu toate aceste deplasări au fost semnificative la P < 0,05 așa cum s-a arătat de-a lungul vectorilor proprii 1 și 3. Cu toate acestea, diferența dintre aceste perechi de efective a fost extrem de semnificativă atunci când le-am măsurat cu statistici Fst (Tabelul 2). Astfel, diferențele vizuale ale pozițiilor efectivelor pe smochine. 3 și 4 ar putea fi incorecte dacă am folosi doar informații vizuale de-a lungul vectorilor proprii separați.
lipsa semnificației generale (P < 0.20) din al doilea vector propriu pentru date complete și insignifianța celor mai multe perechi de efective în set pereche indică faptul că nu există diferențe genetice între efective pentru această axă. Prin urmare, aceste date au fost excluse de la examinare.
mai mult, pe baza datelor complete, am testat nivelul semnificației datelor PCA dacă valorile P pentru setul pereche au fost calculate din zece PC însumate. Valorile P corespunzătoare sunt prezentate în tabelul 2, iar perechile semnificative ale efectivelor care au fost notate ca (+) sunt enumerate în tabelul 5 la limita p 0.05. Printre acestea au existat 47 de combinații semnificative în perechi ale efectivelor pentru PC-ul însumat 1-10. Cel mai semnificativ rezultat a fost obținut pentru efectivele 4 și 7, în timp ce rezultate nesemnificative pentru efectivele 8, 9 și 10. Astfel, acordarea varianței genetice însumate de la 10 vectori proprii duce la creșterea semnificativă a nivelului de semnificație și la modificarea concluziilor privind semnificația datelor, așa cum s-a arătat pentru PC 1 și PC 3.
pentru a verifica nivelul de semnificație în continuare am calculat valorile P pentru setul pereche al efectivelor din date complete pe 20 de vectori proprii însumați (Tabelul 2). S-a dovedit că pentru cutoff la p 0,05, 61 din 78 de perechi de efective au fost semnificative (Tabelul 5). Cele mai semnificative perechi de efective au fost 1, 4, 7, 8, 11 și 12, iar cea mai nesemnificativă pereche de efective a fost formată cu efectivul 3. Având în vedere datele pentru zece și douăzeci de vectori proprii însumați, este important de menționat că perechile semnificative de efective au variat foarte mult cu o creștere a numărului de vectori proprii însumați. Astfel, creșterea numărului de vectori proprii însumați duce la creșterea generală a nivelului de semnificație.
pentru a include varianța completă disponibilă din analiza PCA, am calculat valorile P pentru 100 de vectori proprii însumați (Tabelul 2). Pentru datele complete distribuția valorilor p a avut media 2,2 e-07 și mediana 2,2 e-15, astfel distribuția este foarte înclinată. Efectivul 3 a avut valori p minime cu alte efective (Tabelul 2) prin urmare, pe baza acestor valori am selectat perechi semnificative ale efectivelor la limita p 0,0 E-10 și având în vedere corecția Bonferroni p 1,28 e-12. Rezultatele sunt prezentate în Tabelul 6. Turma 3 a format 6 perechi nesemnificative de turme 3 și 6, 8, 9, 10, 11, 12 și turma 8 a format 9 perechi nesemnificative ale efectivelor 8 și 1, 2, 3, 5, 6, 9, 10, 11, 12. Astfel, efectivul 8 și 3 a fost cel mai înrudit genetic cu alte efective și acest rezultat nu contrazice valorile Fst 0,002 și 0,003 predominante în setul pereche pentru aceste efective (Tabelul 1). A fost necesar să se determine cele mai semnificative perechi de efective. Cele mai semnificative perechi de efective la cutoff p 1.28 e-20 au fost 4 și 2, 3, 7, 9, 12, 13 (6 perechi); 7 și 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 perechi); 13 și 2, 3, 4, 7, 9, 10, 12 (7 perechi). Acest rezultat pentru efectivele 7 și 13 se datorează unor erori standard mai mici pentru aceste efective decât pentru efectivul 4 (a se vedea fișierul suplimentar 1: Tabelul 5).
pentru datele tăiate, distribuția valorilor P a avut o medie de 2,6 e-06 și mediana 1.8e-16. Astfel, distribuțiile de date complete și tăiate sunt similare. Pentru aceeași limită p 1.28 e-12 ca și pentru datele complete, datele din tabelul 2 au fost clasate (Tabelul 7). Efectivul 3 a format 4 perechi nesemnificative din efectivul 3 și 6, 8, 9, 12. Turma 8 a format 9 pereche nesemnificativă a turmei 8 și 1, 2, 3, 4, 5, 6, 9, 11, 12. Dintre 15 perechi de efective 3 și 8 pentru date complete, doar 11 dintre aceste perechi coincid cu datele tăiate. Cele mai semnificative perechi de turme cu cutoff p 1.28 e-20 au fost 4 și 2, 3, 7 (3 perechi); 5 și 1, 2, 7, 11 (4 perechi); 7 și 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 perechi); 13 și 2, 7, 9, 10, 12 (5 perechi). Astfel, valorile P pentru datele complete și tăiate se potrivesc suficient de bine (cu excepția efectivelor 4 și 5).
evaluarea puterii analizelor Fst și PCA
în tabelul 2 sunt enumerate valorile P pentru setul pereche al efectivelor calculate cu analizele PCA și Fst. Conform acestor date pentru vectorii proprii însumați 100, valorile P au fost cele mai mici dintre cele pentru orice alt Vector propriu sau pentru vectorii proprii însumați 10 și 20. Acest rezultat s-a datorat utilizării varianței complete față de datele inițiale. Mai mult, compararea valorilor P ale analizelor PCA și Fst trage concluzia că valorile P Fst au fost cu multe ordine de mărime mai mici decât cele ale 100 de vectori proprii însumați. De–a lungul setului pereche, puterea calculată PCA s–a situat în intervalul 0,8-1,0, în timp ce pentru Fst s-a situat în intervalul 0,9-1, adică probabilitățile unei erori de tip II sunt similare. În total, luând în considerare prin mai multe ordine de mărime valori P mai mici pentru Fst, putem concluziona că eroarea de probabilitate de tip I pentru analiza Fst a fost mult mai mică decât cea PCA. Prin urmare, ar trebui acceptat faptul că datele din analiza Fst sunt mai fiabile.