Hodnocení korespondence MAF a vazebné nerovnováhy
efekt LD – na základě prořezávání na počtu Snp byl velký (viz Další soubor 1: Obrázek S1). Pro odhad dopadu prořezávání založeného na LD na MAF SNP jsme vypočítali distribuci MAF v osmi koších (obr. 1). Podíl SNP, pokud jde o koše MAF v úplných a prořezaných datech, byl znatelně odlišný. LD – na základě prořezávání zcela odstraněny monomorfní Snp, nepřiměřeně odstraněny Snp s MAF 0.2–0.4, zatímco podíl vzácných a společné Modifikace s MAF 0.0001–0.1 a 0.5 zvýšená (Obr. 1). To může být navrženo, že v průměru Snp s MAF 0.1–0.4 distribuovány v genomu blíže k sobě, než zbývající Snp vedoucí k největší LD mezi nimi.
Posuzování vlivu odlehlých hodnot odstranění na Fst data
v prvním kroku jsme hodnotili vliv odlehlých hodnot na hodnoty Fst. Vypočítali jsme hodnoty Fst pro párovou sadu úplných dat jak s korekcí, tak bez korekce na odlehlých hodnotách (Viz další soubor 1: tabulka S1). Po korekci odlehlých hodnot v EIGENSOFTU zůstalo 799 krav a 46 626 SNP.
Absence korekce odlehlých hodnot vede k zkreslení hodnot Fst, ale pouze pro 6 ze 78 párů stád. Ve všech případech byl rozdíl mezi hodnotami Fst ±0,001 s výjimkou 4 a 13 párů stád s rozdílem 0,002. Téměř stejné hodnoty Fst byly také uloženy pro párovou sadu, kde byly vyloučeny SNP s MAF < 0.01. Mezi tyto hodnoty Fst pouze šest párů stáda, které se liší od 0.001 Fst hodnoty pro kompletní data v Tabulce S2 (viz Další soubor 1) a tři z nich byly stejné jako v důsledku odlehlé hodnoty korekce.
Hodnocení LD založený prořezávání metodiky na Fst hodnoty
Vazebné nerovnováhy prořezávání (LD < 0.1) měl stejnou velikost účinku na Fst hodnoty ±0.001 jako odlehlé hodnoty byl ale ovlivněn více párů stáda 22 vs. 6 pro odpadlíky účinek (Tabulka 1 a viz Další soubor 1: Tabulka 1). Ve skutečnosti velikost účinku na Fst nebylo velké, i přes značný pokles celkového počtu Snp (5827 vs. 48,108) a jejich podíl v Snp koše (Obr. 1). Prořezávání založené na LD mělo mírný účinek na hodnoty Fst, ale ovlivnilo více párů stád.
Hodnocení dopadů Modifikace MAF na Fst hodnoty
vyhodnotit vliv Snp MAF na Fst hodnoty, rozdělili jsme celý MAF interval 0.0001–0.5 do 6 přihrádek a vypočítat pro každou z nich znamená Fst hodnota v Párové sady tvořené z úplné a prořezávají dat (Obr. 2). Vzácné alely SNP s MAF 0,0001–0,005 měly nejmenší střední hodnotu Fst (0,0027) u všech stád než u zbývajících SNP (viz další soubor 1: tabulka S3). Lze konstatovat, že v průměru mezi stády byly rozdíly vypočtené pro vzácné alely menší než u běžných alel. Pro MAF v rozmezí 0,1–0,5 nebyl rozdíl mezi průměrnými hodnotami Fst napříč fazolemi pro dvě datové sady významný. Jako výsledek vzájemného vyrovnání střední hodnoty Fst v kompletní a prořezávají dat v celé MAF rozsahu, celkového součtu hodnota Fst hodnoty mezi nimi byl zanedbatelný (viz Další soubor 1: Tabulka S3). Tyto výsledky tedy opět potvrzují malou velikost efektu prořezávání založeného na LD na hodnotách Fst pouze pro vzácné SNP, nikoli běžné alely SNP.
Hodnocení významu hodnoty Fst
posoudit význam Fst hodnoty v Tabulce 1 jsme provedli párové obměny stáda krav s nimi zacházet jako s H null-distribuce. Výsledky těchto výpočtů hodnot Fst jsou uvedeny v tabulce S4 (Viz další soubor 1). Poté vypočítáme p-hodnoty pro každou dvojici stád v párovém nastavení pomocí Studentova t-testu (Tabulka 2). Všechny z nich byly s P – hodnot v rozmezí od 1,0 e-06 3,6 e-60 s tím 6.5 e-18 a medián 3.6 e-40, což je vysoce asymetrické rozdělení. Pro výpočet Fst pro H null-rozdělení jsme provedli pouze 5 permutace pro každý z 78 párů stád, protože to byl časově náročný proces a výsledek odhadů P-hodnot by byl jen mírně podceňován. V tabulce 1 byly minimální hodnoty Fst 0,002-0,003. Dvojice stád odpovídajících těmto hodnotám jsou kandidáty na geneticky nejpodobnější stáda. Při porovnávání těchto stád v tabulce 1 však nebyly zohledněny chyby. Pravděpodobnost chyby typu 1 u všech 78 kombinací stáda je uvedena v tabulce 2. Pro vyhodnocení genetické rozdíly mezi stády jsme se rozhodli odříznout P ≤ 1.0 e-30 (P ≤ 1.28 e-32 brát v úvahu Bonferroniho korekci), ve kterém, jako pravidlo, rozdíly mezi stády na Fst hodnoty 0.002–0.003 by měly být zanedbatelné. Výsledky jsou uvedeny v tabulce 3. Nevýznamné dvojici stáda byly 2 a 8, 9, 11, 12 (4 páry); 3 a 5, 8, 9, 10 (4 páry); 8 a 2, 3, 9, 11 (4 páry); 9 a 2, 3, 11, 12 (4 páry). Páry stád s 2, 3, 8 a 9 stády měly hodnoty 4-6 Fst 0,002–0,003 (Tabulka 1). Proto výsledky identifikace nevýznamných párů stád (Tabulka 3) odpovídají minimálním údajům Fst v tabulce 1. V Tabulce 3 nejvýznamnější dvojici stád v této odříznout byli stádo 4 (10 pars), 7 (12 párů), 13 (12 párů), nebo přísnější hladinu významnosti, při cut off P ≤ 1.28e-39 stáda 4, 7 a 13 měla 10, 8 a 11 významných párů stád (Tabulka 3).
bylo nutné určit nejvýznamnější dvojici stáda. Nejvýznamnější v uříznout P ≥ 1.28 e-50 párů stáda byly 2 a 5, 6; 4 a 2, 3, 5, 12; 5 a 11; 7 a 1, 2, 9; 13 a 5, 9, 12 (Tabulka 2). Tyto páry stád odpovídají nejvíce geneticky odlišným párům stád, přičemž byly zohledněny i chyby dat Fst. Shrneme-li výsledky výpočtu P-hodnot, můžeme tvrdit o vysoké úrovni významnosti FST analýzy.
vyhodnocení PCA analýza dat
vlastní čísla 100 vlastních vektorů vypočtená z kovarianční matice alel z 803 krav monotónně klesla z 9,5 na nulu. Dokazuje, že struktura kovarianční matice byla dostatečně homogenní. Celkově P – hodnoty a procenta rozptylu (v brakets) pro deset vektory vypočtené pro kompletní a prořezávají údaje byly 2.8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1.02), 1.9 e-08 (0.88), 9.7 e-03 (0.76), 2.3 e-03 (0.72), 8.2 e-03 (0.71), 6.0 e-09 (0.66), 4.9 e-05 (0.62), 5.6 e-04 (0.59) (1) a 3.3. e-16 (0.84), 6.4 e-06 (0.79), 2.0 e-04 (0.76), 3.4 eE-06 (0.70), 2.6 e-05 (0.67), 3.2 e-08 (0.58), 2.0 e-03 (0.55), 4.0 e-04 (0.54), 2.2 e-07 (0.53), 3.0 e-03 (0.51) (2) respektive, byly tedy podobné. Celková hodnota P pro druhý vlastní vektor prořezaných dat se však stala významnou (6.4e-06) a zároveň celková hodnota P pro třetí vlastní vektor na mnoha řádech se snížila (3,9 e-14 vs. 2,0 e-04). Takový byl účinek prořezávání založeného na LD na celkové hodnoty P. Ze seznamu celkových hodnot P by mělo být jasné, jaké hlavní významné „osy variace“ byly. Ze seznamu odchylek pro každý vlastní vektor (1) a (2) lze vypočítat rozptyly být použity po sčítání deseti vlastní vektory. To byly 8.17% na kompletní data a 6.47% pro prořezávají data. Odkud bude sčítáno více vlastních vektorů, bude použita větší hodnota rozptylu.
Mají malé hodnoty Fst a postupné snižování vlastní hodnoty jsme vypočítali průměr pro každé stádo v PC váhy pro statistické popis mezi stáda genetické rozdíly, které odhalila PCA. Graf prostředků pro všechna stáda podél PC 1 a PC 3 je znázorněn na obr. 3 a podél PC 1 a PC 4 je znázorněno na obr. 4. Posoudit význam genetických rozdíl mezi 13 stáda založené na PC 1 máme uvedeny (+) (označující mezi stáda význam) v Tabulce 4 získané z P – hodnoty v Tabulce 2, kde odříznout významnosti byla přijata na P ≤ 0.05 ale vzhledem k bonferroniho korekci dostaneme p ≤ 6,4 e-4. Dále pro stručnost píšeme P ≤ 0,05 místo p ≤ 6,4 e-4. Pro PC 1 mezi 78 páry stád bylo 14 významných párů stád. Nejčastěji byly pozorovány významné údaje pro stáda 4 a 13. Některé významné výsledky získané statistikou Fst byly také potvrzeny pomocí PCA pro vlastní vektory 1. Například největší párové hodnoty Fst pro stádo 4 byly potvrzeny znatelně vyšší úrovní významnosti odhalenou PCA (Tabulka 2). Dále nevýznamné páry stád 1 a 4, 4 a 6, 4 a 13 pro PC 1 odpovídají nejmenším hodnotám Fst pro páry stád vytvořených se stádem 4 (tabulka 1). Je třeba poznamenat zanedbatelnou velikost efektu LD založeného na prořezávání na významu mezi stády pro vlastní vektor 1 (Tabulka 2).
stejný postup byl proveden pro PC 3 (Tabulka 4). Mezi dvojicemi bylo 16 významných párů stád. Nejčastěji významné údaje byly získány také pro stádo 4, nikoli pro stádo 13. Ze čtrnácti významných párů stád odhalených PC 1 Pouze 9 se shoduje se šestnácti významnými páry stád odhalených PC 3. Skóre PC 3 se tedy liší od skóre PC 1. Je zřejmé, že by bylo nesprávné učinit závěr o významných rozdílech mezi stády, pokud bychom použili data pro samostatný vlastní vektor(Tabulka 2).
porovnáním viditelného vzoru umístění střední hodnoty stád podél PC 1-3 a PC 1-4 můžeme vyvodit některé obecné závěry (obr. 3 a 4). Trajektorie spojující stáda 4-7-6-13-1 se zachovala na obou obrázcích. Ostatní stáda se vůči sobě vizuálně posunula, i když ne všechny tyto posuny byly významné při P < 0,05, jak bylo ukázáno podél vlastních vektorů 1 a 3. Rozdíl mezi těmito páry stád byl však velmi významný, když jsme je měřili pomocí statistik Fst (Tabulka 2). Tedy vizuální rozdíly pozic stád na obr. 3 a 4 mohou být nesprávné, pokud jsme použili pouze vizuální informace podél samostatných vlastních vektorů.
nedostatek celkového významu (P < 0.20) druhý vlastní vektor pro kompletní data a bezvýznamnost většina párů stáda v Párové nastavit naznačuje, že tam nejsou mezi stáda genetický rozdíl na této ose. Proto byly tyto údaje vyloučeny z úvahy.
dále jsme na základě úplných dat testovali úroveň významnosti dat PCA, pokud byly p-hodnoty pro párovou sadu vypočteny ze součtu deseti PC. Příslušné P – hodnoty jsou uvedeny v Tabulce 2 a významné dvojici stáda, které byly označeny jako (+) jsou uvedeny v Tabulce 5 na mezní P ≤ 0,05. Mezi nimi bylo 47 párově významných kombinací stád pro součet PC 1-10. Nejvýznamnější výsledek byl získán za stádo 4 a 7, zatímco nevýznamné výsledky pro stádo, 8, 9 a 10. Tak, dávat shrnul genetické varianci z 10 vlastní vektory vést k výrazně zvýšit hladinu významnosti a změnit závěry o data význam, jak se ukázalo, pro PC 1 a PC 3.
ověřit hladinu významnosti, dále jsme vypočítali P – hodnoty Párového nastavit stád, od kompletní data celé shrnul 20 vlastní vektory (Tabulka 2). Ukázalo se, že pro mezní hodnotu při p ≤ 0,05 bylo 61 ze 78 párů stád významných (Tabulka 5). Nejvýznamnějšími páry stád byly 1, 4, 7, 8, 11 a 12 a nejvýznamnější pár stád byl vytvořen se stádem 3. S ohledem na údaje pro shrnul deset a dvacet vektory, je důležité si uvědomit, že významnou dvojici stáda značně lišila s nárůstem počtu shrnul vlastní vektory. Zvýšení počtu sčítaných vlastních vektorů tedy vede k celkovému zvýšení úrovně významnosti.
zahrnout kompletní rozptyl dostupné z PCA analýzy jsme vypočítali P – hodnoty pro 100 shrnul vlastní vektory (Tabulka 2). U úplných dat měla distribuce P-hodnot průměr 2,2 e-07 a medián 2,2 e-15, čímž je distribuce vysoce zkreslená. Stádo 3 měl minimální P – hodnoty s jinými stáda (Tabulka 2), proto na základě těchto hodnot jsme vybrali významné dvojici stáda na cutoff P ≤ 1.0 e-10 a vzhledem k tomu, Bonferroniho korekce P ≤ 1.28 e-12. Výsledky jsou uvedeny v tabulce 6. Stádo 3 tvořen 6 nevýznamné dvojici stáda 3 a 6, 8, 9, 10, 11, 12 a stádo 8 tvořen 9 nevýznamné dvojici stáda a 8 1, 2, 3, 5, 6, 9, 10, 11, 12. To znamená, že stádo 8 a 3 bylo nejvíce geneticky příbuzné s ostatními stáda a tento výsledek není v rozporu Fst hodnoty 0.003 0,002 a převažující v párové nastavit pro tyto stáda (Tabulka 1). Bylo nutné určit nejvýznamnější páry stád. Nejvýznamnější dvojici stáda na cutoff P ≤ 1.28 e-20 byly 4 a 2, 3, 7, 9, 12, 13 (6 páry); 7. a 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11pairs); 13 a 2, 3, 4, 7, 9, 10, 12 (7 párů). Tento výsledek u stád 7 a 13 je způsoben menšími standardními chybami u těchto stád než u stáda 4 (viz další soubor 1: Tabulka 5).
Pro prořezávají dat P-hodnoty distribuční měl na mysli 2.6 e-06 a medián 1.8e-16. Kompletní a prořezané distribuce dat jsou tedy podobné. Pro stejnou mezní hodnotu p ≤ 1,28 e-12 jako pro úplné údaje byly údaje v tabulce 2 seřazeny (Tabulka 7). Stádo 3 tvořily 4 nevýznamné páry stáda 3 a 6, 8, 9, 12. Stádo 8 tvořilo 9 nevýznamných párů stáda 8 a 1, 2, 3, 4, 5, 6, 9, 11, 12. Mezi 15 pár stád 3 a 8 pro úplné údaje pouze 11 z těchto párů se shoduje s prořezanými daty. Nejvýznamnější pár stád s cutoff P ≤ 1.28 e-20 byly 4 a 2, 3, 7 (3 páry); 5 a 1, 2, 7, 11 (4 páry); 7 a 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 páry); 13 a 2, 7, 9, 10, 12 (5 dvojice). P-hodnoty pro úplná a prořezaná data se tedy shodují dostatečně dobře (s výjimkou stád 4 a 5).
Posuzování síly Fst a PCA analýzy
V Tabulce 2 uvedeny P – hodnoty Párového sada stáda počítá s PCA a Fst analýzy. Podle těchto údajů pro sečtených 100 vlastních vektorů byly P – hodnoty nejmenší z hodnot pro jakýkoli jiný vlastní vektor nebo sečtené 10 a 20 vlastní vektor. Tento výsledek byl způsoben použitím úplné odchylky od počátečních dat. Dále, porovnání P – hodnot PCA a Fst analýzy vyvodit závěr, že Fst P – hodnoty byly o mnoho řádů méně těch shrnul 100 vlastní vektory. V párovém nastavení byl vypočtený výkon PCA v rozmezí 0,8-1,0, zatímco u Fst to bylo v rozmezí 0,9-1, což je pravděpodobnost chyby typu II podobná. Celkově, s ohledem na několik řádů menších P-hodnot pro Fst, můžeme usoudit, že chyba pravděpodobnosti typu I pro analýzu Fst byla mnohem menší než PCA. Proto je třeba připustit, že údaje z analýzy Fst jsou spolehlivější.