ocena zgodność MAF i braku równowagi wiązania
wpływ przycinania opartego na LD na liczbę SNPs był duży (patrz dodatkowy plik 1: rysunek S1). Aby oszacować wpływ przycinania opartego na LD na MAF SNP, obliczyliśmy rozkład MAF w ośmiu pojemnikach (rys. 1). Odsetek SNP w odniesieniu do koszy MAF w kompletnych i przycinanych danych był zauważalnie różny. Przycinanie oparte na LD całkowicie usunęło monomorficzne SNP, nieproporcjonalnie usunięto SNP z MAF 0,2 – 0,4, podczas gdy odsetek rzadkich i wspólnych SNP z MAF 0,0001–0,1 i 0,5 wzrósł (Fig. 1). Można zasugerować, że w średnich SNP z MAF 0,1–0,4 rozmieszczonych w genomie bliżej siebie niż pozostałe SNP prowadzące do największego LD między nimi.
Ocena wpływu usuwania wartości odstających na dane Fst
na pierwszym etapie oceniliśmy wpływ wartości odstających na wartości Fst. Obliczyliśmy wartości Fst dla parowego zestawu kompletnych danych zarówno z korektą, jak i bez korekty dla wartości odstających (patrz dodatkowy plik 1: Tabela S1). Po korekcji odstających w EIGENSOFT pozostało 799 krów i 46 626 SNP.
Brak korekcji wartości odstających prowadzi do odchylenia wartości Fst, ale tylko dla 6 z 78 par stad. We wszystkich przypadkach różnica między wartościami Fst wynosiła ±0,001, z wyjątkiem 4 i 13 par stad o różnicy 0,002. Prawie te same wartości Fst były również przechowywane dla zestawu par, gdzie wykluczono SNP z MAF < 0,01. Wśród tych wartości Fst tylko sześć par stad różniło się o 0,001 od wartości FST dla pełnych danych w tabeli S2 (patrz dodatkowy plik 1), a trzy z nich były takie same jak w wyniku korekty wartości odstających.
ocena metodyki przycinania opartej na LD na wartościach Fst
przycinanie bez równowagi wiązania (LD < 0.1) miało taki sam wpływ na wartości FST ±0.001 jak wartości odstające, ale wpływało na więcej par stad 22 vs.6 dla efektu odstających (Tabela 1 i zobacz dodatkowy plik 1: Tabela 1). W rzeczywistości wielkość wpływu na Fst nie była duża, pomimo znacznego spadku całkowitej liczby SNPs (5827 vs.48,108) i ich udziału w pojemnikach SNPs (rys. 1). Tak więc przycinanie oparte na LD miało umiarkowany wpływ na wartości Fst, ale dotyczyło większej liczby par stad.
Ocena wpływu SNPs MAF na wartości Fst
aby ocenić wpływ SNPs MAF na wartości Fst, podzieliliśmy cały przedział MAF 0,0001-0,5 na 6 pojemników i obliczyliśmy dla każdego z nich średnią wartość Fst w parowych zestawach utworzonych na podstawie pełnych i przyciętych danych (rys. 2). Rzadkie allele SNPs z MAF 0,0001–0,005 miały najmniejszą średnią wartość Fst (0,0027) we wszystkich stadach niż te dla pozostałych SNPs (Patrz dodatkowy plik 1: Tabela S3). Można wywnioskować, że średnie różnice między stadami obliczone dla alleli rzadkich były mniejsze niż dla alleli pospolitych. Dla MAF w zakresie 0,1–0,5 różnica między średnimi wartościami Fst w dwóch zestawach danych nie była znacząca. W wyniku wzajemnej kompensacji średnich wartości Fst w danych kompletnych i przycinanych w całym zakresie MAF całkowita sumowana wartość wartości FST między nimi była nieistotna (patrz dodatkowy plik 1: Tabela S3). Tak więc wyniki te ponownie potwierdzają niewielki rozmiar efektu przycinania opartego na LD na wartościach Fst tylko dla rzadkich SNP, a nie zwykłych alleli SNP.
ocena znaczenia wartości Fst
w celu oceny znaczenia wartości Fst w tabeli 1 przeprowadziliśmy permutacje stad parowych krów traktując je jako rozkład zerowy H. Wyniki tych obliczeń wartości Fst są wymienione w tabeli S4 (patrz dodatkowy plik 1). Następnie obliczamy wartości P dla każdej pary stad w zestawie parowym za pomocą testu t ucznia (Tabela 2). Wszystkie z nich miały wartości P w zakresie od 1,0 e-06 do 3,6 e-60 ze średnią 6,5 e-18 i medianą 3,6 E-40, tym samym jest to rozkład wysoce przekrzywiony. Aby obliczyć FST dla rozkładu zerowego H, przeprowadziliśmy tylko 5 permutacji dla każdej z 78 par stad, ponieważ był to czasochłonny proces, a wynik oszacowań wartości P byłby tylko nieznacznie zaniżony. W tabeli 1 minimalne wartości Fst wynosiły 0,002-0,003. Pary stad odpowiadające tym wartościom są kandydatami do genetycznie większości podobnych stad. Jednakże przy porównywaniu tych stad w tabeli 1 błędy nie zostały uwzględnione. Prawdopodobieństwo popełnienia błędu typu 1 dla wszystkich 78 kombinacji stad podano w tabeli 2. W celu oceny różnic genetycznych pomiędzy stadami wybraliśmy cut off p ≤ 1,0 e-30 (p ≤ 1,28 e-32 z uwzględnieniem korekty Bonferroni), w którym z reguły różnice między stadami przy wartościach Fst 0,002–0,003 powinny być nieznaczne. Wyniki przedstawiono w tabeli 3. Nieliczne pary stad to 2 i 8, 9, 11, 12 (4 pary); 3 i 5, 8, 9, 10 (4 pary); 8 i 2, 3, 9, 11 (4 pary); 9 i 2, 3, 11, 12 (4 pary). Pary ze stadami 2, 3, 8 i 9 miały 4-6 wartości Fst 0,002–0,003 (Tabela 1). W związku z tym wyniki identyfikacji nieistotnych par stad (Tabela 3) odpowiadają minimalnym danym dotyczącym Fst w tabeli 1. W tabeli 3 najbardziej znaczącymi parami stad w tym odcięciu było stado 4 (10 par), 7 (12 par), 13 (12 par) lub bardziej rygorystyczny poziom istotności przy odcięciu p ≤ 1.28E-39 stada 4, 7 i 13 miały po 10, 8 i 11 znaczących par (Tabela 3).
konieczne było określenie najbardziej znaczących par stad. Najistotniejsze przy odciętym P ≥ 1,28 e-50 par stad były 2 i 5, 6; 4 i 2, 3, 5, 12; 5 i 11; 7 i 1, 2, 9; 13 i 5, 9, 12 (Tabela 2). Te pary stad odpowiadają najbardziej zróżnicowanym genetycznie parom stad, przy czym uwzględniono również błędy w danych dotyczących Fst. Podsumowując wyniki obliczeń wartości P możemy stwierdzić o wysokim stopniu istotności analizy Fst.
ocena dane z analizy PCA
wartości własne 100 wektorów własnych obliczone na podstawie macierzy kowariancji alleli z 803 krów monotonicznie spadły z 9,5 do zera. Dowodzi to, że struktura macierzy kowariancji była wystarczająco jednorodna. Całkowite wartości P i procent wariancji (w brakach) dla dziesięciu wektorów własnych obliczonych dla pełnych i przycinanych danych wynosiły 2,8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1, 02), 1, 9 e-08 (0, 88), 9, 7 e-03 (0, 76), 2, 3 e-03 (0, 72), 8, 2 e-03 (0, 71), 6, 0 E-09 (0, 66), 4, 9 E-05 (0, 62), 5, 6 e-04 (0, 59) (1) i 3, 3 E-16 (0, 84), 6, 4 E-06 (0, 79), 2, 0 E-04 (0, 76), 3, 4 ee-06 (0, 70), 2, 6 E-05 (0, 67), 3, 2 E-08 (0, 58), 2, 0 E-03 (0, 55), 4, 0 E-04 (0, 54), 2, 2 E-07 (0, 53), 3, 0 E-03 (0, 51) (2) odpowiednio, tzn. były one podobne. Jednak ogólna wartość p dla drugiego wektora własnego odciętych danych stała się znacząca (6.4e-06) i jednocześnie zmniejszyła się ogólna wartość p dla trzeciego wektora własnego dla wielu rzędów wielkości (3,9 e-14 vs 2,0 E-04). Taki był wpływ przycinania opartego na LD na ogólne wartości P. Z listy ogólnych wartości P powinno być jasne, jakie były główne znaczące „osie zmienności”. Z listy wariancji dla każdego wektora własnego (1) i (2) można obliczyć wariancje, które mają być użyte po zsumowaniu dziesięciu wektorów własnych. Dla pełnych danych było to 8,17%, a dla przycinanych 6,47%. Skąd, im więcej wektorów własnych zostanie zsumowanych, tym więcej wartości wariancji zostanie użytych.
mając małe wartości Fst i stopniowe zmniejszanie wartości własnych obliczyliśmy średnią dla każdego stada w skalach PC do opisu statystycznego między stadami różnice genetyczne ujawnione przez PCA. Wykres środków dla wszystkich stad wzdłuż PC 1 i PC 3 przedstawiono na Fig. 3 i wzdłuż PC 1 i PC 4 pokazano na Fig. 4. W celu oceny istotności różnicy genetycznej pomiędzy 13 stadami na podstawie PC 1 w tabeli 4 wymieniliśmy (+) (oznaczające istotność między stadami) uzyskane na podstawie wartości P W Tabeli 2, gdzie odcięto istotność przy P ≤ 0.05 ale biorąc pod uwagę korektę Bonferroniego otrzymujemy P ≤ 6,4 e-4. Ponadto, dla zwięzłości, piszemy P ≤ 0,05 zamiast p ≤ 6,4 e-4. Dla PC 1 spośród 78 par stad było 14 znaczących par stad. Najczęściej istotne dane obserwowano dla stad 4 i 13. Niektóre znaczące wyniki uzyskane ze statystyką Fst potwierdziły się również z PCA dla wektorów własnych 1. Na przykład największe parowe wartości Fst dla stada 4 zostały potwierdzone zauważalnie wyższym poziomem istotności ujawnionym przez PCA (Tabela 2). Ponadto nieznaczne pary stad 1 i 4, 4 i 6, 4 i 13 dla PC 1 odpowiadają najmniejszym wartościom Fst dla par stad utworzonych ze stadem 4 (Tabela 1). Należy zauważyć znikomy wpływ wielkości LD na podstawie przycinania między znaczeniem stad dla wektora własnego 1 (Tabela 2).
tę samą procedurę przeprowadzono dla PC 3 (Tabela 4). W grupie parowej znajdowało się 16 znaczących par stad. Najczęściej istotne dane uzyskano również dla stada 4, a nie stada 13. Spośród czternastu znaczących par stad ujawnionych PC 1 tylko 9 pokrywa się z szesnastoma znaczącymi parami stad ujawnionych PC 3. Tak więc wynik PC 3 różni się od wyniku PC 1. Oczywiście błędne byłoby wyciąganie wniosków na temat istotnych różnic między stadami, gdybyśmy korzystali z danych dla osobnego wektora własnego (Tabela 2).
porównując widoczny wzór lokalizacji średnich wartości stad wzdłuż PC 1-3 i PC 1-4 możemy wyciągnąć pewne ogólne wnioski (Fig. 3 i 4). Trajektoria łącząca stada 4-7-6-13-1 zachowała się na obu figurach. Inne stada wizualnie przemieszczały się względem siebie, chociaż nie wszystkie te przemieszczenia były znaczące przy P < 0,05, jak pokazano wzdłuż wektorów własnych 1 i 3. Jednak różnica między tymi parami stad była bardzo znacząca, gdy mierzyliśmy je za pomocą statystyk Fst (Tabela 2). Tak więc wizualne różnice pozycji stad na fig. 3 i 4 mogą być nieprawidłowe, jeśli użyjemy tylko informacji wizualnej wzdłuż oddzielnych wektorów własnych.
brak znaczenia ogólnego (P < 0.20) drugiego wektora własnego dla kompletnych danych i nieistotności większości par stad w zestawie par wskazuje, że nie ma między stadami różnic genetycznych dla tej osi. W związku z tym dane te nie zostały uwzględnione.
ponadto, na podstawie pełnych danych, przetestowaliśmy poziom istotności danych PCA, jeśli wartości p dla zestawu par zostały obliczone z zsumowanych dziesięciu PC. Odpowiednie wartości P podano w tabeli 2, a znaczące pary stad, które zostały oznaczone jako ( + ), są wymienione w tabeli 5 w punkcie odcięcia p ≤ 0,05. Wśród nich było 47 par znaczących kombinacji stad dla zsumowanych PC 1-10. Najbardziej znaczący wynik uzyskano dla stada 4 i 7, natomiast nieznaczny dla stada 8, 9 i 10. Tak więc, podanie sumarycznej wariancji genetycznej z 10 wektorów własnych prowadzi do zauważalnego zwiększenia poziomu istotności i zmiany wniosków dotyczących istotności danych, jak wykazano dla PC 1 i PC 3.
aby jeszcze bardziej zweryfikować poziom istotności, obliczyliśmy wartości P Dla parowego zestawu stad na podstawie pełnych danych w zsumowanych 20 wektorach własnych (Tabela 2). Okazało się, że dla odcięcia przy P ≤ 0,05 było 61 Z 78 par stad (Tabela 5). Najbardziej znaczącymi parami stad były 1, 4, 7, 8, 11 i 12, a najbardziej znacząca para stad została utworzona ze stadem 3. Biorąc pod uwagę dane dotyczące sumowanych dziesięciu i dwudziestu wektorów własnych, należy zauważyć, że znaczne pary stad bardzo się różniły wraz ze wzrostem liczby sumowanych wektorów własnych. W związku z tym zwiększenie liczby sumowanych wektorów własnych prowadzi do ogólnego wzrostu poziomu istotności.
aby uwzględnić pełną wariancję dostępną z analizy PCA, obliczyliśmy wartości P dla 100 sumowanych wektorów własnych (Tabela 2). Dla pełnych danych Dystrybucja wartości P miała średnią wartość 2, 2 e-07 i medianę 2, 2 e-15, przez co dystrybucja jest bardzo przekrzywiona. Stado 3 miało minimalne wartości P w porównaniu z innymi stadami (Tabela 2), dlatego na podstawie tych wartości wybraliśmy znaczące pary stad przy granicy P ≤ 1,0 e-10 i przy korekcie Bonferroni p ≤ 1,28 e-12. Wyniki przedstawiono w tabeli 6. Stado 3 tworzyło 6 par stad 3 i 6, 8, 9, 10, 11, 12 i stado 8 tworzyło 9 mało znaczących par stad 8 i 1, 2, 3, 5, 6, 9, 10, 11, 12. Tak więc stado 8 i 3 było najbardziej genetycznie spokrewnione z innymi stadami i wynik ten nie jest sprzeczny z wartościami Fst 0,002 i 0,003 dominującymi w zestawie parowym dla tych stad(Tabela 1). Konieczne było określenie najbardziej znaczących par stad. Najbardziej znaczącymi parami stad przy granicy P ≤ 1,28 e-20 były 4 i 2, 3, 7, 9, 12, 13 (6 par); 7 i 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 par); 13 i 2, 3, 4, 7, 9, 10, 12 (7 par). Wynik ten dla stad 7 i 13 wynika z mniejszych błędów standardowych dla tych stad niż dla stada 4 (zob. dodatkowy plik 1: Tabela 5).
dla odciętych danych rozkład wartości P wynosił średnio 2, 6 e-06 i medianę 1.8e-16. Tym samym kompletne i przycinane rozkłady danych są podobne. Dla tego samego odcięcia p ≤ 1,28 e-12, jak dla pełnych danych, dane w tabeli 2 zostały uszeregowane (Tabela 7). Stado 3 utworzyło 4 pary stad 3 i 6, 8, 9,12. Stado 8 tworzyło 9 par stada 8 i 1, 2, 3, 4, 5, 6, 9, 11, 12. Spośród 15 Par stad 3 i 8 dla kompletnych danych tylko 11 z tych par pokrywa się z przycinanymi danymi. Najistotniejszą parą stad z odcięciem P ≤ 1,28 e-20 były 4 i 2, 3, 7 (3 pary); 5 i 1, 2, 7, 11 (4 pary); 7 i 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 par); 13 i 2, 7, 9, 10, 12 (5 par). Zatem wartości P dla kompletnych i przycinanych danych są wystarczająco dobre (z wyjątkiem stad 4 i 5).
ocena mocy Fst i PCA analizuje
w tabeli 2 wymieniono wartości P dla zestawu par stad obliczonych za pomocą analiz PCA i Fst. Zgodnie z tymi danymi dla sumowanych 100 wektorów własnych, wartości P były najmniejsze z tych dla każdego innego wektora własnego lub sumowanych 10 i 20 wektorów własnych. Wynik ten był spowodowany wykorzystaniem pełnej wariancji z danych początkowych. Ponadto, porównując wartości P analiz PCA i FST wyciągnąć wniosek, że wartości P FST były o wiele rzędów wielkości mniejsze od sumowanych 100 wektorów własnych. W całym zestawie par obliczona moc PCA mieściła się w zakresie 0,8–1,0, podczas gdy w przypadku Fst mieściło się w zakresie 0,9–1, co oznacza, że prawdopodobieństwo błędu typu II jest podobne. W sumie, biorąc pod uwagę kilka rzędów wielkości mniejszych wartości p dla Fst, możemy stwierdzić, że błąd prawdopodobieństwa typu I dla analizy FST był znacznie mniejszy niż PCA. W związku z tym należy przyjąć, że dane z analizy Fst są bardziej wiarygodne.