ocena mocy głównych składników i analiza indeksu fiksacji Wrighta zastosowana w celu ujawnienia różnic genetycznych w całym genomie między stadami krów Holsztyńskich

ocena zgodność MAF i braku równowagi wiązania

wpływ przycinania opartego na LD na liczbę SNPs był duży (patrz dodatkowy plik 1: rysunek S1). Aby oszacować wpływ przycinania opartego na LD na MAF SNP, obliczyliśmy rozkład MAF w ośmiu pojemnikach (rys. 1). Odsetek SNP w odniesieniu do koszy MAF w kompletnych i przycinanych danych był zauważalnie różny. Przycinanie oparte na LD całkowicie usunęło monomorficzne SNP, nieproporcjonalnie usunięto SNP z MAF 0,2 – 0,4, podczas gdy odsetek rzadkich i wspólnych SNP z MAF 0,0001–0,1 i 0,5 wzrósł (Fig. 1). Można zasugerować, że w średnich SNP z MAF 0,1–0,4 rozmieszczonych w genomie bliżej siebie niż pozostałe SNP prowadzące do największego LD między nimi.

Fig. 1
figurka1

udział SNP w pełnych i przycinanych danych

Ocena wpływu usuwania wartości odstających na dane Fst

na pierwszym etapie oceniliśmy wpływ wartości odstających na wartości Fst. Obliczyliśmy wartości Fst dla parowego zestawu kompletnych danych zarówno z korektą, jak i bez korekty dla wartości odstających (patrz dodatkowy plik 1: Tabela S1). Po korekcji odstających w EIGENSOFT pozostało 799 krów i 46 626 SNP.

Brak korekcji wartości odstających prowadzi do odchylenia wartości Fst, ale tylko dla 6 z 78 par stad. We wszystkich przypadkach różnica między wartościami Fst wynosiła ±0,001, z wyjątkiem 4 i 13 par stad o różnicy 0,002. Prawie te same wartości Fst były również przechowywane dla zestawu par, gdzie wykluczono SNP z MAF < 0,01. Wśród tych wartości Fst tylko sześć par stad różniło się o 0,001 od wartości FST dla pełnych danych w tabeli S2 (patrz dodatkowy plik 1), a trzy z nich były takie same jak w wyniku korekty wartości odstających.

ocena metodyki przycinania opartej na LD na wartościach Fst

przycinanie bez równowagi wiązania (LD < 0.1) miało taki sam wpływ na wartości FST ±0.001 jak wartości odstające, ale wpływało na więcej par stad 22 vs.6 dla efektu odstających (Tabela 1 i zobacz dodatkowy plik 1: Tabela 1). W rzeczywistości wielkość wpływu na Fst nie była duża, pomimo znacznego spadku całkowitej liczby SNPs (5827 vs.48,108) i ich udziału w pojemnikach SNPs (rys. 1). Tak więc przycinanie oparte na LD miało umiarkowany wpływ na wartości Fst, ale dotyczyło większej liczby par stad.

Tabela 1 szacunki wartości Fst dla danych kompletnych i przycinanych

Ocena wpływu SNPs MAF na wartości Fst

aby ocenić wpływ SNPs MAF na wartości Fst, podzieliliśmy cały przedział MAF 0,0001-0,5 na 6 pojemników i obliczyliśmy dla każdego z nich średnią wartość Fst w parowych zestawach utworzonych na podstawie pełnych i przyciętych danych (rys. 2). Rzadkie allele SNPs z MAF 0,0001–0,005 miały najmniejszą średnią wartość Fst (0,0027) we wszystkich stadach niż te dla pozostałych SNPs (Patrz dodatkowy plik 1: Tabela S3). Można wywnioskować, że średnie różnice między stadami obliczone dla alleli rzadkich były mniejsze niż dla alleli pospolitych. Dla MAF w zakresie 0,1–0,5 różnica między średnimi wartościami Fst w dwóch zestawach danych nie była znacząca. W wyniku wzajemnej kompensacji średnich wartości Fst w danych kompletnych i przycinanych w całym zakresie MAF całkowita sumowana wartość wartości FST między nimi była nieistotna (patrz dodatkowy plik 1: Tabela S3). Tak więc wyniki te ponownie potwierdzają niewielki rozmiar efektu przycinania opartego na LD na wartościach Fst tylko dla rzadkich SNP, a nie zwykłych alleli SNP.

Fig. 2
figurka2

zależność średniego Fst od zakresu MAF

ocena znaczenia wartości Fst

w celu oceny znaczenia wartości Fst w tabeli 1 przeprowadziliśmy permutacje stad parowych krów traktując je jako rozkład zerowy H. Wyniki tych obliczeń wartości Fst są wymienione w tabeli S4 (patrz dodatkowy plik 1). Następnie obliczamy wartości P dla każdej pary stad w zestawie parowym za pomocą testu t ucznia (Tabela 2). Wszystkie z nich miały wartości P w zakresie od 1,0 e-06 do 3,6 e-60 ze średnią 6,5 e-18 i medianą 3,6 E-40, tym samym jest to rozkład wysoce przekrzywiony. Aby obliczyć FST dla rozkładu zerowego H, przeprowadziliśmy tylko 5 permutacji dla każdej z 78 par stad, ponieważ był to czasochłonny proces, a wynik oszacowań wartości P byłby tylko nieznacznie zaniżony. W tabeli 1 minimalne wartości Fst wynosiły 0,002-0,003. Pary stad odpowiadające tym wartościom są kandydatami do genetycznie większości podobnych stad. Jednakże przy porównywaniu tych stad w tabeli 1 błędy nie zostały uwzględnione. Prawdopodobieństwo popełnienia błędu typu 1 dla wszystkich 78 kombinacji stad podano w tabeli 2. W celu oceny różnic genetycznych pomiędzy stadami wybraliśmy cut off p ≤ 1,0 e-30 (p ≤ 1,28 e-32 z uwzględnieniem korekty Bonferroni), w którym z reguły różnice między stadami przy wartościach Fst 0,002–0,003 powinny być nieznaczne. Wyniki przedstawiono w tabeli 3. Nieliczne pary stad to 2 i 8, 9, 11, 12 (4 pary); 3 i 5, 8, 9, 10 (4 pary); 8 i 2, 3, 9, 11 (4 pary); 9 i 2, 3, 11, 12 (4 pary). Pary ze stadami 2, 3, 8 i 9 miały 4-6 wartości Fst 0,002–0,003 (Tabela 1). W związku z tym wyniki identyfikacji nieistotnych par stad (Tabela 3) odpowiadają minimalnym danym dotyczącym Fst w tabeli 1. W tabeli 3 najbardziej znaczącymi parami stad w tym odcięciu było stado 4 (10 par), 7 (12 par), 13 (12 par) lub bardziej rygorystyczny poziom istotności przy odcięciu p ≤ 1.28E-39 stada 4, 7 i 13 miały po 10, 8 i 11 znaczących par (Tabela 3).

Tabela 2 szacunki różnic genetycznych stad (wartości P) a
Tabela 3 różnice genetyczne między stadami w celu uzyskania pełnych danych ujawnionych za pomocą analizy Fst

konieczne było określenie najbardziej znaczących par stad. Najistotniejsze przy odciętym P ≥ 1,28 e-50 par stad były 2 i 5, 6; 4 i 2, 3, 5, 12; 5 i 11; 7 i 1, 2, 9; 13 i 5, 9, 12 (Tabela 2). Te pary stad odpowiadają najbardziej zróżnicowanym genetycznie parom stad, przy czym uwzględniono również błędy w danych dotyczących Fst. Podsumowując wyniki obliczeń wartości P możemy stwierdzić o wysokim stopniu istotności analizy Fst.

ocena dane z analizy PCA

wartości własne 100 wektorów własnych obliczone na podstawie macierzy kowariancji alleli z 803 krów monotonicznie spadły z 9,5 do zera. Dowodzi to, że struktura macierzy kowariancji była wystarczająco jednorodna. Całkowite wartości P i procent wariancji (w brakach) dla dziesięciu wektorów własnych obliczonych dla pełnych i przycinanych danych wynosiły 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1, 02), 1, 9 e-08 (0, 88), 9, 7 e-03 (0, 76), 2, 3 e-03 (0, 72), 8, 2 e-03 (0, 71), 6, 0 E-09 (0, 66), 4, 9 E-05 (0, 62), 5, 6 e-04 (0, 59) (1) i 3, 3 E-16 (0, 84), 6, 4 E-06 (0, 79), 2, 0 E-04 (0, 76), 3, 4 ee-06 (0, 70), 2, 6 E-05 (0, 67), 3, 2 E-08 (0, 58), 2, 0 E-03 (0, 55), 4, 0 E-04 (0, 54), 2, 2 E-07 (0, 53), 3, 0 E-03 (0, 51) (2) odpowiednio, tzn. były one podobne. Jednak ogólna wartość p dla drugiego wektora własnego odciętych danych stała się znacząca (6.4e-06) i jednocześnie zmniejszyła się ogólna wartość p dla trzeciego wektora własnego dla wielu rzędów wielkości (3,9 e-14 vs 2,0 E-04). Taki był wpływ przycinania opartego na LD na ogólne wartości P. Z listy ogólnych wartości P powinno być jasne, jakie były główne znaczące „osie zmienności”. Z listy wariancji dla każdego wektora własnego (1) i (2) można obliczyć wariancje, które mają być użyte po zsumowaniu dziesięciu wektorów własnych. Dla pełnych danych było to 8,17%, a dla przycinanych 6,47%. Skąd, im więcej wektorów własnych zostanie zsumowanych, tym więcej wartości wariancji zostanie użytych.

mając małe wartości Fst i stopniowe zmniejszanie wartości własnych obliczyliśmy średnią dla każdego stada w skalach PC do opisu statystycznego między stadami różnice genetyczne ujawnione przez PCA. Wykres środków dla wszystkich stad wzdłuż PC 1 i PC 3 przedstawiono na Fig. 3 i wzdłuż PC 1 i PC 4 pokazano na Fig. 4. W celu oceny istotności różnicy genetycznej pomiędzy 13 stadami na podstawie PC 1 w tabeli 4 wymieniliśmy (+) (oznaczające istotność między stadami) uzyskane na podstawie wartości P W Tabeli 2, gdzie odcięto istotność przy P ≤ 0.05 ale biorąc pod uwagę korektę Bonferroniego otrzymujemy P ≤ 6,4 e-4. Ponadto, dla zwięzłości, piszemy P ≤ 0,05 zamiast p ≤ 6,4 e-4. Dla PC 1 spośród 78 par stad było 14 znaczących par stad. Najczęściej istotne dane obserwowano dla stad 4 i 13. Niektóre znaczące wyniki uzyskane ze statystyką Fst potwierdziły się również z PCA dla wektorów własnych 1. Na przykład największe parowe wartości Fst dla stada 4 zostały potwierdzone zauważalnie wyższym poziomem istotności ujawnionym przez PCA (Tabela 2). Ponadto nieznaczne pary stad 1 i 4, 4 i 6, 4 i 13 dla PC 1 odpowiadają najmniejszym wartościom Fst dla par stad utworzonych ze stadem 4 (Tabela 1). Należy zauważyć znikomy wpływ wielkości LD na podstawie przycinania między znaczeniem stad dla wektora własnego 1 (Tabela 2).

Fig. 3
figurka3

pozycja średnich wartości Fst dla stad wzdłuż PC 1 i Pc 3. Każdy punkt oznacza średnią pozycję stada wzdłuż PC 1 i PC 3 dla pełnych danych

Fig. 4
figurka4

pozycja średnich wartości Fst dla stad wzdłuż PC 1 i Pc 4. Każdy punkt oznacza średnią pozycję stada wzdłuż PC 1 i PC 4 dla pełnych danych

Tabela 4 różnice genetyczne między stadami dla pełnych danych ujawnionych przez PC 1 i PC 3

tę samą procedurę przeprowadzono dla PC 3 (Tabela 4). W grupie parowej znajdowało się 16 znaczących par stad. Najczęściej istotne dane uzyskano również dla stada 4, a nie stada 13. Spośród czternastu znaczących par stad ujawnionych PC 1 tylko 9 pokrywa się z szesnastoma znaczącymi parami stad ujawnionych PC 3. Tak więc wynik PC 3 różni się od wyniku PC 1. Oczywiście błędne byłoby wyciąganie wniosków na temat istotnych różnic między stadami, gdybyśmy korzystali z danych dla osobnego wektora własnego (Tabela 2).

porównując widoczny wzór lokalizacji średnich wartości stad wzdłuż PC 1-3 i PC 1-4 możemy wyciągnąć pewne ogólne wnioski (Fig. 3 i 4). Trajektoria łącząca stada 4-7-6-13-1 zachowała się na obu figurach. Inne stada wizualnie przemieszczały się względem siebie, chociaż nie wszystkie te przemieszczenia były znaczące przy P < 0,05, jak pokazano wzdłuż wektorów własnych 1 i 3. Jednak różnica między tymi parami stad była bardzo znacząca, gdy mierzyliśmy je za pomocą statystyk Fst (Tabela 2). Tak więc wizualne różnice pozycji stad na fig. 3 i 4 mogą być nieprawidłowe, jeśli użyjemy tylko informacji wizualnej wzdłuż oddzielnych wektorów własnych.

brak znaczenia ogólnego (P < 0.20) drugiego wektora własnego dla kompletnych danych i nieistotności większości par stad w zestawie par wskazuje, że nie ma między stadami różnic genetycznych dla tej osi. W związku z tym dane te nie zostały uwzględnione.

ponadto, na podstawie pełnych danych, przetestowaliśmy poziom istotności danych PCA, jeśli wartości p dla zestawu par zostały obliczone z zsumowanych dziesięciu PC. Odpowiednie wartości P podano w tabeli 2, a znaczące pary stad, które zostały oznaczone jako ( + ), są wymienione w tabeli 5 w punkcie odcięcia p ≤ 0,05. Wśród nich było 47 par znaczących kombinacji stad dla zsumowanych PC 1-10. Najbardziej znaczący wynik uzyskano dla stada 4 i 7, natomiast nieznaczny dla stada 8, 9 i 10. Tak więc, podanie sumarycznej wariancji genetycznej z 10 wektorów własnych prowadzi do zauważalnego zwiększenia poziomu istotności i zmiany wniosków dotyczących istotności danych, jak wykazano dla PC 1 i PC 3.

Tabela 5 różnice genetyczne między stadami dla pełnych danych ujawnionych przez zsumowane PC 1-10 i PC 1-20

aby jeszcze bardziej zweryfikować poziom istotności, obliczyliśmy wartości P Dla parowego zestawu stad na podstawie pełnych danych w zsumowanych 20 wektorach własnych (Tabela 2). Okazało się, że dla odcięcia przy P ≤ 0,05 było 61 Z 78 par stad (Tabela 5). Najbardziej znaczącymi parami stad były 1, 4, 7, 8, 11 i 12, a najbardziej znacząca para stad została utworzona ze stadem 3. Biorąc pod uwagę dane dotyczące sumowanych dziesięciu i dwudziestu wektorów własnych, należy zauważyć, że znaczne pary stad bardzo się różniły wraz ze wzrostem liczby sumowanych wektorów własnych. W związku z tym zwiększenie liczby sumowanych wektorów własnych prowadzi do ogólnego wzrostu poziomu istotności.

aby uwzględnić pełną wariancję dostępną z analizy PCA, obliczyliśmy wartości P dla 100 sumowanych wektorów własnych (Tabela 2). Dla pełnych danych Dystrybucja wartości P miała średnią wartość 2, 2 e-07 i medianę 2, 2 e-15, przez co dystrybucja jest bardzo przekrzywiona. Stado 3 miało minimalne wartości P w porównaniu z innymi stadami (Tabela 2), dlatego na podstawie tych wartości wybraliśmy znaczące pary stad przy granicy P ≤ 1,0 e-10 i przy korekcie Bonferroni p ≤ 1,28 e-12. Wyniki przedstawiono w tabeli 6. Stado 3 tworzyło 6 par stad 3 i 6, 8, 9, 10, 11, 12 i stado 8 tworzyło 9 mało znaczących par stad 8 i 1, 2, 3, 5, 6, 9, 10, 11, 12. Tak więc stado 8 i 3 było najbardziej genetycznie spokrewnione z innymi stadami i wynik ten nie jest sprzeczny z wartościami Fst 0,002 i 0,003 dominującymi w zestawie parowym dla tych stad(Tabela 1). Konieczne było określenie najbardziej znaczących par stad. Najbardziej znaczącymi parami stad przy granicy P ≤ 1,28 e-20 były 4 i 2, 3, 7, 9, 12, 13 (6 par); 7 i 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 par); 13 i 2, 3, 4, 7, 9, 10, 12 (7 par). Wynik ten dla stad 7 i 13 wynika z mniejszych błędów standardowych dla tych stad niż dla stada 4 (zob. dodatkowy plik 1: Tabela 5).

Tabela 6 różnice genetyczne między stadami dla pełnych danych ujawnionych przez PC 1-100

dla odciętych danych rozkład wartości P wynosił średnio 2, 6 e-06 i medianę 1.8e-16. Tym samym kompletne i przycinane rozkłady danych są podobne. Dla tego samego odcięcia p ≤ 1,28 e-12, jak dla pełnych danych, dane w tabeli 2 zostały uszeregowane (Tabela 7). Stado 3 utworzyło 4 pary stad 3 i 6, 8, 9,12. Stado 8 tworzyło 9 par stada 8 i 1, 2, 3, 4, 5, 6, 9, 11, 12. Spośród 15 Par stad 3 i 8 dla kompletnych danych tylko 11 z tych par pokrywa się z przycinanymi danymi. Najistotniejszą parą stad z odcięciem P ≤ 1,28 e-20 były 4 i 2, 3, 7 (3 pary); 5 i 1, 2, 7, 11 (4 pary); 7 i 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 par); 13 i 2, 7, 9, 10, 12 (5 par). Zatem wartości P dla kompletnych i przycinanych danych są wystarczająco dobre (z wyjątkiem stad 4 i 5).

Tabela 7 różnice genetyczne między stadami w odniesieniu do przycinanych danych ujawnionych przez summed PC 1-100

ocena mocy Fst i PCA analizuje

w tabeli 2 wymieniono wartości P dla zestawu par stad obliczonych za pomocą analiz PCA i Fst. Zgodnie z tymi danymi dla sumowanych 100 wektorów własnych, wartości P były najmniejsze z tych dla każdego innego wektora własnego lub sumowanych 10 i 20 wektorów własnych. Wynik ten był spowodowany wykorzystaniem pełnej wariancji z danych początkowych. Ponadto, porównując wartości P analiz PCA i FST wyciągnąć wniosek, że wartości P FST były o wiele rzędów wielkości mniejsze od sumowanych 100 wektorów własnych. W całym zestawie par obliczona moc PCA mieściła się w zakresie 0,8–1,0, podczas gdy w przypadku Fst mieściło się w zakresie 0,9–1, co oznacza, że prawdopodobieństwo błędu typu II jest podobne. W sumie, biorąc pod uwagę kilka rzędów wielkości mniejszych wartości p dla Fst, możemy stwierdzić, że błąd prawdopodobieństwa typu I dla analizy FST był znacznie mniejszy niż PCA. W związku z tym należy przyjąć, że dane z analizy Fst są bardziej wiarygodne.

You might also like

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.