Hodnocení výkonu hlavních komponent a wright je fixace index analyzuje aplikuje odhalit celogenomové genetické rozdíly mezi stády Holstein krávy

Hodnocení korespondence MAF a vazebné nerovnováhy

efekt LD – na základě prořezávání na počtu Snp byl velký (viz Další soubor 1: Obrázek S1). Pro odhad dopadu prořezávání založeného na LD na MAF SNP jsme vypočítali distribuci MAF v osmi koších (obr. 1). Podíl SNP, pokud jde o koše MAF v úplných a prořezaných datech, byl znatelně odlišný. LD – na základě prořezávání zcela odstraněny monomorfní Snp, nepřiměřeně odstraněny Snp s MAF 0.2–0.4, zatímco podíl vzácných a společné Modifikace s MAF 0.0001–0.1 a 0.5 zvýšená (Obr. 1). To může být navrženo, že v průměru Snp s MAF 0.1–0.4 distribuovány v genomu blíže k sobě, než zbývající Snp vedoucí k největší LD mezi nimi.

obr. 1
1

Podíl Snp v úplné a prořezávají údaje

Posuzování vlivu odlehlých hodnot odstranění na Fst data

v prvním kroku jsme hodnotili vliv odlehlých hodnot na hodnoty Fst. Vypočítali jsme hodnoty Fst pro párovou sadu úplných dat jak s korekcí, tak bez korekce na odlehlých hodnotách (Viz další soubor 1: tabulka S1). Po korekci odlehlých hodnot v EIGENSOFTU zůstalo 799 krav a 46 626 SNP.

Absence korekce odlehlých hodnot vede k zkreslení hodnot Fst, ale pouze pro 6 ze 78 párů stád. Ve všech případech byl rozdíl mezi hodnotami Fst ±0,001 s výjimkou 4 a 13 párů stád s rozdílem 0,002. Téměř stejné hodnoty Fst byly také uloženy pro párovou sadu, kde byly vyloučeny SNP s MAF < 0.01. Mezi tyto hodnoty Fst pouze šest párů stáda, které se liší od 0.001 Fst hodnoty pro kompletní data v Tabulce S2 (viz Další soubor 1) a tři z nich byly stejné jako v důsledku odlehlé hodnoty korekce.

Hodnocení LD založený prořezávání metodiky na Fst hodnoty

Vazebné nerovnováhy prořezávání (LD < 0.1) měl stejnou velikost účinku na Fst hodnoty ±0.001 jako odlehlé hodnoty byl ale ovlivněn více párů stáda 22 vs. 6 pro odpadlíky účinek (Tabulka 1 a viz Další soubor 1: Tabulka 1). Ve skutečnosti velikost účinku na Fst nebylo velké, i přes značný pokles celkového počtu Snp (5827 vs. 48,108) a jejich podíl v Snp koše (Obr. 1). Prořezávání založené na LD mělo mírný účinek na hodnoty Fst, ale ovlivnilo více párů stád.

Tabulka 1 Odhady hodnoty Fst pro kompletní a prořezávají údaje

Hodnocení dopadů Modifikace MAF na Fst hodnoty

vyhodnotit vliv Snp MAF na Fst hodnoty, rozdělili jsme celý MAF interval 0.0001–0.5 do 6 přihrádek a vypočítat pro každou z nich znamená Fst hodnota v Párové sady tvořené z úplné a prořezávají dat (Obr. 2). Vzácné alely SNP s MAF 0,0001–0,005 měly nejmenší střední hodnotu Fst (0,0027) u všech stád než u zbývajících SNP (viz další soubor 1: tabulka S3). Lze konstatovat, že v průměru mezi stády byly rozdíly vypočtené pro vzácné alely menší než u běžných alel. Pro MAF v rozmezí 0,1–0,5 nebyl rozdíl mezi průměrnými hodnotami Fst napříč fazolemi pro dvě datové sady významný. Jako výsledek vzájemného vyrovnání střední hodnoty Fst v kompletní a prořezávají dat v celé MAF rozsahu, celkového součtu hodnota Fst hodnoty mezi nimi byl zanedbatelný (viz Další soubor 1: Tabulka S3). Tyto výsledky tedy opět potvrzují malou velikost efektu prořezávání založeného na LD na hodnotách Fst pouze pro vzácné SNP, nikoli běžné alely SNP.

obr. 2
obrázek 2

Závislost znamená Fst na MAF rozsah

Hodnocení významu hodnoty Fst

posoudit význam Fst hodnoty v Tabulce 1 jsme provedli párové obměny stáda krav s nimi zacházet jako s H null-distribuce. Výsledky těchto výpočtů hodnot Fst jsou uvedeny v tabulce S4 (Viz další soubor 1). Poté vypočítáme p-hodnoty pro každou dvojici stád v párovém nastavení pomocí Studentova t-testu (Tabulka 2). Všechny z nich byly s P – hodnot v rozmezí od 1,0 e-06 3,6 e-60 s tím 6.5 e-18 a medián 3.6 e-40, což je vysoce asymetrické rozdělení. Pro výpočet Fst pro H null-rozdělení jsme provedli pouze 5 permutace pro každý z 78 párů stád, protože to byl časově náročný proces a výsledek odhadů P-hodnot by byl jen mírně podceňován. V tabulce 1 byly minimální hodnoty Fst 0,002-0,003. Dvojice stád odpovídajících těmto hodnotám jsou kandidáty na geneticky nejpodobnější stáda. Při porovnávání těchto stád v tabulce 1 však nebyly zohledněny chyby. Pravděpodobnost chyby typu 1 u všech 78 kombinací stáda je uvedena v tabulce 2. Pro vyhodnocení genetické rozdíly mezi stády jsme se rozhodli odříznout P ≤ 1.0 e-30 (P ≤ 1.28 e-32 brát v úvahu Bonferroniho korekci), ve kterém, jako pravidlo, rozdíly mezi stády na Fst hodnoty 0.002–0.003 by měly být zanedbatelné. Výsledky jsou uvedeny v tabulce 3. Nevýznamné dvojici stáda byly 2 a 8, 9, 11, 12 (4 páry); 3 a 5, 8, 9, 10 (4 páry); 8 a 2, 3, 9, 11 (4 páry); 9 a 2, 3, 11, 12 (4 páry). Páry stád s 2, 3, 8 a 9 stády měly hodnoty 4-6 Fst 0,002–0,003 (Tabulka 1). Proto výsledky identifikace nevýznamných párů stád (Tabulka 3) odpovídají minimálním údajům Fst v tabulce 1. V Tabulce 3 nejvýznamnější dvojici stád v této odříznout byli stádo 4 (10 pars), 7 (12 párů), 13 (12 párů), nebo přísnější hladinu významnosti, při cut off P ≤ 1.28e-39 stáda 4, 7 a 13 měla 10, 8 a 11 významných párů stád (Tabulka 3).

Tabulka 2 Odhady mezi stáda genetické rozdíly (P – hodnota)
Tabulka 3 Mezi stáda genetické rozdíly pro kompletní data odhalila Fst analýzy

bylo nutné určit nejvýznamnější dvojici stáda. Nejvýznamnější v uříznout P ≥ 1.28 e-50 párů stáda byly 2 a 5, 6; 4 a 2, 3, 5, 12; 5 a 11; 7 a 1, 2, 9; 13 a 5, 9, 12 (Tabulka 2). Tyto páry stád odpovídají nejvíce geneticky odlišným párům stád, přičemž byly zohledněny i chyby dat Fst. Shrneme-li výsledky výpočtu P-hodnot, můžeme tvrdit o vysoké úrovni významnosti FST analýzy.

vyhodnocení PCA analýza dat

vlastní čísla 100 vlastních vektorů vypočtená z kovarianční matice alel z 803 krav monotónně klesla z 9,5 na nulu. Dokazuje, že struktura kovarianční matice byla dostatečně homogenní. Celkově P – hodnoty a procenta rozptylu (v brakets) pro deset vektory vypočtené pro kompletní a prořezávají údaje byly 2.8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1.02), 1.9 e-08 (0.88), 9.7 e-03 (0.76), 2.3 e-03 (0.72), 8.2 e-03 (0.71), 6.0 e-09 (0.66), 4.9 e-05 (0.62), 5.6 e-04 (0.59) (1) a 3.3. e-16 (0.84), 6.4 e-06 (0.79), 2.0 e-04 (0.76), 3.4 eE-06 (0.70), 2.6 e-05 (0.67), 3.2 e-08 (0.58), 2.0 e-03 (0.55), 4.0 e-04 (0.54), 2.2 e-07 (0.53), 3.0 e-03 (0.51) (2) respektive, byly tedy podobné. Celková hodnota P pro druhý vlastní vektor prořezaných dat se však stala významnou (6.4e-06) a zároveň celková hodnota P pro třetí vlastní vektor na mnoha řádech se snížila (3,9 e-14 vs. 2,0 e-04). Takový byl účinek prořezávání založeného na LD na celkové hodnoty P. Ze seznamu celkových hodnot P by mělo být jasné, jaké hlavní významné „osy variace“ byly. Ze seznamu odchylek pro každý vlastní vektor (1) a (2) lze vypočítat rozptyly být použity po sčítání deseti vlastní vektory. To byly 8.17% na kompletní data a 6.47% pro prořezávají data. Odkud bude sčítáno více vlastních vektorů, bude použita větší hodnota rozptylu.

Mají malé hodnoty Fst a postupné snižování vlastní hodnoty jsme vypočítali průměr pro každé stádo v PC váhy pro statistické popis mezi stáda genetické rozdíly, které odhalila PCA. Graf prostředků pro všechna stáda podél PC 1 a PC 3 je znázorněn na obr. 3 a podél PC 1 a PC 4 je znázorněno na obr. 4. Posoudit význam genetických rozdíl mezi 13 stáda založené na PC 1 máme uvedeny (+) (označující mezi stáda význam) v Tabulce 4 získané z P – hodnoty v Tabulce 2, kde odříznout významnosti byla přijata na P ≤ 0.05 ale vzhledem k bonferroniho korekci dostaneme p ≤ 6,4 e-4. Dále pro stručnost píšeme P ≤ 0,05 místo p ≤ 6,4 e-4. Pro PC 1 mezi 78 páry stád bylo 14 významných párů stád. Nejčastěji byly pozorovány významné údaje pro stáda 4 a 13. Některé významné výsledky získané statistikou Fst byly také potvrzeny pomocí PCA pro vlastní vektory 1. Například největší párové hodnoty Fst pro stádo 4 byly potvrzeny znatelně vyšší úrovní významnosti odhalenou PCA (Tabulka 2). Dále nevýznamné páry stád 1 a 4, 4 a 6, 4 a 13 pro PC 1 odpovídají nejmenším hodnotám Fst pro páry stád vytvořených se stádem 4 (tabulka 1). Je třeba poznamenat zanedbatelnou velikost efektu LD založeného na prořezávání na významu mezi stády pro vlastní vektor 1 (Tabulka 2).

obr. 3
číslo3

pozice středních hodnot Fst stád podél PC 1 a Pc 3. Každý bod označuje střední polohu stáda podél PC 1 a PC 3 pro úplná data

obr. 4
číslo4

pozice středních hodnot Fst stád podél PC 1 a Pc 4. Každý bod představuje průměr stáda pozice podél PC 1 a PC 4 kompletní údaje

Tabulka 4 Mezi stáda genetický rozdíl pro kompletní data odhalila PC 1 a PC 3

stejný postup byl proveden pro PC 3 (Tabulka 4). Mezi dvojicemi bylo 16 významných párů stád. Nejčastěji významné údaje byly získány také pro stádo 4, nikoli pro stádo 13. Ze čtrnácti významných párů stád odhalených PC 1 Pouze 9 se shoduje se šestnácti významnými páry stád odhalených PC 3. Skóre PC 3 se tedy liší od skóre PC 1. Je zřejmé, že by bylo nesprávné učinit závěr o významných rozdílech mezi stády, pokud bychom použili data pro samostatný vlastní vektor(Tabulka 2).

porovnáním viditelného vzoru umístění střední hodnoty stád podél PC 1-3 a PC 1-4 můžeme vyvodit některé obecné závěry (obr. 3 a 4). Trajektorie spojující stáda 4-7-6-13-1 se zachovala na obou obrázcích. Ostatní stáda se vůči sobě vizuálně posunula, i když ne všechny tyto posuny byly významné při P < 0,05, jak bylo ukázáno podél vlastních vektorů 1 a 3. Rozdíl mezi těmito páry stád byl však velmi významný, když jsme je měřili pomocí statistik Fst (Tabulka 2). Tedy vizuální rozdíly pozic stád na obr. 3 a 4 mohou být nesprávné, pokud jsme použili pouze vizuální informace podél samostatných vlastních vektorů.

nedostatek celkového významu (P < 0.20) druhý vlastní vektor pro kompletní data a bezvýznamnost většina párů stáda v Párové nastavit naznačuje, že tam nejsou mezi stáda genetický rozdíl na této ose. Proto byly tyto údaje vyloučeny z úvahy.

dále jsme na základě úplných dat testovali úroveň významnosti dat PCA, pokud byly p-hodnoty pro párovou sadu vypočteny ze součtu deseti PC. Příslušné P – hodnoty jsou uvedeny v Tabulce 2 a významné dvojici stáda, které byly označeny jako (+) jsou uvedeny v Tabulce 5 na mezní P ≤ 0,05. Mezi nimi bylo 47 párově významných kombinací stád pro součet PC 1-10. Nejvýznamnější výsledek byl získán za stádo 4 a 7, zatímco nevýznamné výsledky pro stádo, 8, 9 a 10. Tak, dávat shrnul genetické varianci z 10 vlastní vektory vést k výrazně zvýšit hladinu významnosti a změnit závěry o data význam, jak se ukázalo, pro PC 1 a PC 3.

Tabulka 5 Mezi stáda genetický rozdíl pro kompletní data odhalila shrnul PC 1-10 a PC 1-20

ověřit hladinu významnosti, dále jsme vypočítali P – hodnoty Párového nastavit stád, od kompletní data celé shrnul 20 vlastní vektory (Tabulka 2). Ukázalo se, že pro mezní hodnotu při p ≤ 0,05 bylo 61 ze 78 párů stád významných (Tabulka 5). Nejvýznamnějšími páry stád byly 1, 4, 7, 8, 11 a 12 a nejvýznamnější pár stád byl vytvořen se stádem 3. S ohledem na údaje pro shrnul deset a dvacet vektory, je důležité si uvědomit, že významnou dvojici stáda značně lišila s nárůstem počtu shrnul vlastní vektory. Zvýšení počtu sčítaných vlastních vektorů tedy vede k celkovému zvýšení úrovně významnosti.

zahrnout kompletní rozptyl dostupné z PCA analýzy jsme vypočítali P – hodnoty pro 100 shrnul vlastní vektory (Tabulka 2). U úplných dat měla distribuce P-hodnot průměr 2,2 e-07 a medián 2,2 e-15, čímž je distribuce vysoce zkreslená. Stádo 3 měl minimální P – hodnoty s jinými stáda (Tabulka 2), proto na základě těchto hodnot jsme vybrali významné dvojici stáda na cutoff P ≤ 1.0 e-10 a vzhledem k tomu, Bonferroniho korekce P ≤ 1.28 e-12. Výsledky jsou uvedeny v tabulce 6. Stádo 3 tvořen 6 nevýznamné dvojici stáda 3 a 6, 8, 9, 10, 11, 12 a stádo 8 tvořen 9 nevýznamné dvojici stáda a 8 1, 2, 3, 5, 6, 9, 10, 11, 12. To znamená, že stádo 8 a 3 bylo nejvíce geneticky příbuzné s ostatními stáda a tento výsledek není v rozporu Fst hodnoty 0.003 0,002 a převažující v párové nastavit pro tyto stáda (Tabulka 1). Bylo nutné určit nejvýznamnější páry stád. Nejvýznamnější dvojici stáda na cutoff P ≤ 1.28 e-20 byly 4 a 2, 3, 7, 9, 12, 13 (6 páry); 7. a 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11pairs); 13 a 2, 3, 4, 7, 9, 10, 12 (7 párů). Tento výsledek u stád 7 a 13 je způsoben menšími standardními chybami u těchto stád než u stáda 4 (viz další soubor 1: Tabulka 5).

Tabulka 6 Mezi stáda genetické rozdíly pro kompletní data odhalila PC 1-100

Pro prořezávají dat P-hodnoty distribuční měl na mysli 2.6 e-06 a medián 1.8e-16. Kompletní a prořezané distribuce dat jsou tedy podobné. Pro stejnou mezní hodnotu p ≤ 1,28 e-12 jako pro úplné údaje byly údaje v tabulce 2 seřazeny (Tabulka 7). Stádo 3 tvořily 4 nevýznamné páry stáda 3 a 6, 8, 9, 12. Stádo 8 tvořilo 9 nevýznamných párů stáda 8 a 1, 2, 3, 4, 5, 6, 9, 11, 12. Mezi 15 pár stád 3 a 8 pro úplné údaje pouze 11 z těchto párů se shoduje s prořezanými daty. Nejvýznamnější pár stád s cutoff P ≤ 1.28 e-20 byly 4 a 2, 3, 7 (3 páry); 5 a 1, 2, 7, 11 (4 páry); 7 a 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 páry); 13 a 2, 7, 9, 10, 12 (5 dvojice). P-hodnoty pro úplná a prořezaná data se tedy shodují dostatečně dobře (s výjimkou stád 4 a 5).

Tabulka 7 Mezi stáda genetické rozdíly pro prořezávají dat odhalila shrnul PC 1-100

Posuzování síly Fst a PCA analýzy

V Tabulce 2 uvedeny P – hodnoty Párového sada stáda počítá s PCA a Fst analýzy. Podle těchto údajů pro sečtených 100 vlastních vektorů byly P – hodnoty nejmenší z hodnot pro jakýkoli jiný vlastní vektor nebo sečtené 10 a 20 vlastní vektor. Tento výsledek byl způsoben použitím úplné odchylky od počátečních dat. Dále, porovnání P – hodnot PCA a Fst analýzy vyvodit závěr, že Fst P – hodnoty byly o mnoho řádů méně těch shrnul 100 vlastní vektory. V párovém nastavení byl vypočtený výkon PCA v rozmezí 0,8-1,0, zatímco u Fst to bylo v rozmezí 0,9-1, což je pravděpodobnost chyby typu II podobná. Celkově, s ohledem na několik řádů menších P-hodnot pro Fst, můžeme usoudit, že chyba pravděpodobnosti typu I pro analýzu Fst byla mnohem menší než PCA. Proto je třeba připustit, že údaje z analýzy Fst jsou spolehlivější.

You might also like

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.