- Bewertung Die Übereinstimmung von MAF und Verknüpfungsungleichgewicht
- Bewertung der Auswirkungen der Entfernung von Ausreißern auf die Fst-Daten
- Auswertung LD-basierte Beschneidungsmethodik auf Fst-Werten
- Bewertung Auswirkungen des SNPs-MAF auf die Fst-Werte
- Bewertung Signifikanz der Fst-Werte
- Auswertung PCA-Analysedaten
- Beurteilung der Leistung von Fst- und PCA-Analysen
Bewertung Die Übereinstimmung von MAF und Verknüpfungsungleichgewicht
Der Effekt des LD-basierten Beschneidens auf die Anzahl der SNPs war groß (siehe zusätzliche Datei 1: Abbildung S1). Um die Auswirkungen von LD-basiertem Pruning auf die MAF von SNPs abzuschätzen, haben wir die Verteilung von MAF in acht Bins berechnet (Abb. 1). Der Anteil der SNPs in Bezug auf die MAF-Bins in den vollständigen und den beschnittenen Daten war merklich unterschiedlich. LD -basiertes Pruning entfernte vollständig monomorphe SNPs, disproportional entfernte SNPs mit MAF 0,2–0,4, während der Anteil seltener und häufiger SNPs mit MAF 0,0001-0,1 und 0,5 anstieg (Abb. 1). Es kann vorgeschlagen werden, dass im Durchschnitt SNPs mit MAF 0,1–0,4 im Genom näher beieinander verteilt sind als verbleibende SNPs, was zu der größten LD zwischen ihnen führt.
Bewertung der Auswirkungen der Entfernung von Ausreißern auf die Fst-Daten
Im ersten Schritt haben wir die Auswirkungen der Ausreißer auf die Fst-Werte bewertet. Wir berechneten Fst-Werte für einen paarweisen Satz vollständiger Daten sowohl mit Korrektur als auch ohne Korrektur von Ausreißern (siehe zusätzliche Datei 1: Tabelle S1). Nach Ausreißerkorrektur in EIGENSOFT blieben 799 Kühe und 46.626 SNPs übrig.
Das Fehlen der Ausreißerkorrektur führt zu einer Verzerrung der Fst-Werte, jedoch nur für 6 von 78 Paaren der Herden. In allen Fällen betrug der Unterschied zwischen den Fst-Werten ± 0,001, mit Ausnahme von 4 und 13 Paaren der Bestände, die einen Unterschied von 0,002 aufwiesen. Fast die gleichen Fst-Werte wurden auch für den paarweisen Satz gespeichert, wobei SNPs mit MAF < 0,01 ausgeschlossen wurden. Unter diesen Fst-Werten unterschieden sich nur sechs Paare der Bestände um 0,001 von den Fst-Werten für vollständige Daten in Tabelle S2 (siehe zusätzliche Datei 1) und drei von ihnen waren die gleichen wie im Ergebnis der Ausreißerkorrektur.
Auswertung LD-basierte Beschneidungsmethodik auf Fst-Werten
Verknüpfungsungleichgewichtsschnitt (LD < 0,1) hatte die gleiche Effektgröße auf Fst-Werte ±0,001 wie die Ausreißer, betraf jedoch mehr Paare der Herden 22 vs. 6 für den Ausreißereffekt (Tabelle 1 und siehe zusätzliche Datei 1: Tabelle 1). Tatsächlich war die Effektgröße auf Fst nicht groß, obwohl die Gesamtzahl der SNPs (5827 vs. 48.108) und ihr Anteil in den SNPs-Bins (Abb. 1). Somit hatte das LD-basierte Beschneiden einen moderaten Effekt auf die Fst-Werte, betraf jedoch mehr Herdenpaare.
Bewertung Auswirkungen des SNPs-MAF auf die Fst-Werte
Um die Auswirkungen des SNPs-MAF auf die Fst-Werte zu bewerten, haben wir das gesamte MAF–Intervall 0,0001-0,5 in 6 Bins unterteilt und für jeden von ihnen den mittleren Fst-Wert über paarweise Sätze berechnet, die aus vollständigen und beschnittenen Daten gebildet wurden (Abb. 2). Die seltenen SNPs-Allele mit MAF 0,0001–0,005 hatten über alle Herden hinweg den kleinsten mittleren Fst-Wert (0,0027) als die übrigen SNPs (siehe zusätzliche Datei 1: Tabelle S3). Daraus kann geschlossen werden, dass die für seltene Allele berechneten Unterschiede im Durchschnitt zwischen den Herden geringer waren als die für gewöhnliche Allele. Für MAF im Bereich von 0,1-0,5 war der Unterschied zwischen den mittleren Fst-Werten über Beans für zwei Datensätze nicht signifikant. Infolge der gegenseitigen Kompensation der mittleren Fst-Werte in vollständigen und beschnittenen Daten im gesamten MAF-Bereich war der Gesamtsummenwert des Fst-Wertes zwischen ihnen unbedeutend (siehe zusätzliche Datei 1: Tabelle S3). Somit bestätigen diese Ergebnisse erneut eine geringe Effektgröße des LD -basierten Beschneidens auf Fst-Werte nur für seltene SNPs, nicht für häufige SNPs-Allele.
Bewertung Signifikanz der Fst-Werte
Um die Signifikanz der Fst-Werte in der Tabelle 1 zu bewerten, führten wir die paarweisen Herdenpermutationen der Kühe durch, die sie als H-Null-Verteilung behandelten. Die Ergebnisse dieser Fst-Werte-Berechnungen sind in Tabelle S4 aufgeführt (siehe zusätzliche Datei 1). Dann berechnen wir P-Werte für jedes Paar der Herden im paarweisen Satz mit Student’s t-Test (Tabelle 2). Alle von ihnen waren mit P – Werten im Bereich von 1,0 e-06 bis 3,6 e-60 mit Mittelwert 6,5 e-18 und Median 3,6 e-40, wodurch es sich um eine stark verzerrte Verteilung handelt. Um die Fst für die H-Nullverteilung zu berechnen, haben wir nur 5 Permutationen für jedes der 78 Herdenpaare durchgeführt, da dies ein zeitaufwändiger Prozess war und das Ergebnis von P–Wertschätzungen nur geringfügig unterschätzt würde. In der Tabelle 1 lagen die minimalen Fst-Werte bei 0,002-0,003. Die Paare der Herden, die diesen Werten entsprechen, sind die Kandidaten für genetisch ähnlichste Herden. Beim Vergleich dieser Bestände in Tabelle 1 wurden die Fehler jedoch nicht berücksichtigt. Die Wahrscheinlichkeiten, einen Fehler vom Typ 1 für alle 78 Herdenkombinationen zu machen, sind in Tabelle 2 angegeben. Um die genetischen Unterschiede zwischen den Herden zu bewerten, haben wir Cut off P ≤ 1,0 e-30 (P ≤ 1,28e-32 unter Berücksichtigung der Bonferroni–Korrektur) gewählt, bei dem in der Regel die Unterschiede zwischen den Herden bei Fst-Werten 0,002-0,003 unbedeutend sein sollten. Die Ergebnisse sind in Tabelle 3 dargestellt. Unbedeutende Herdenpaare waren 2 und 8, 9, 11, 12 (4 Paare); 3 und 5, 8, 9, 10 (4 Paare); 8 und 2, 3, 9, 11 (4 Paare); 9 und 2, 3, 11, 12 (4 Paare). Die Herdenpaare mit 2, 3, 8 und 9 Herden hatten 4-6 Fst–Werte von 0,002-0,003 (Tabelle 1). Daher entsprechen die Ergebnisse der Identifizierung unbedeutender Herdenpaare (Tabelle 3) den minimalen Fst-Daten in Tabelle 1. In der Tabelle 3 waren die Herde 4 (10 Paare), 7 (12 Paare), 13 (12 Paare) oder ein strengeres Signifikanzniveau bei Cut-off P ≤ 1 die signifikantesten Herdenpaare bei diesem Cut-off.28e-39 die Herden 4, 7 und 13 hatten 10, 8 und 11 signifikante Herdenpaare (Tabelle 3).
Es war notwendig, die bedeutendsten Herdenpaare zu bestimmen. Die signifikantesten bei Cut off P ≥ 1,28e-50 Paare der Herden waren 2 und 5, 6; 4 und 2, 3, 5, 12; 5 und 11; 7 und 1, 2, 9; 13 und 5, 9, 12 (Tabelle 2). Diese Paare der Herden entsprechen den genetisch am meisten unterschiedlichen Paaren der Herden, wobei auch Fst-Datenfehler berücksichtigt wurden. Fasst man die Ergebnisse der P – Werte Berechnung können wir über ein hohes Maß an Signifikanz der Fst-Analyse behaupten.
Auswertung PCA-Analysedaten
Die Eigenwerte von 100 Eigenvektoren, die aus der Kovarianzmatrix der Allele von 803 Kühen berechnet wurden, nahmen monoton von 9,5 auf Null ab. Es beweist, dass die Struktur der Kovarianzmatrix ausreichend homogen war. Die Gesamt-P-Werte und der Prozentsatz der Varianz (in Brakets) für zehn Eigenvektoren, die für vollständige und beschnittene Daten berechnet wurden, betrugen 2.8e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1,02), 1,9 e-08 (0,88), 9,7 e-03 (0,76), 2,3 e-03 (0,72), 8,2 e-03 (0,71), 6,0 e-09 (0,66), 4,9 e-05 (0,62), 5,6 e-04 (0,59) (1) und 3,3 e-16 (0,84), 6,4 e-06 (0,79), 2,0 e-04 (0,76), 3,4 eE-06 (0,70), 2,6 e-05 (0,67), 3,2 e-08 (0,58), 2,0 e-03 (0,55), 4,0 e-04 (0,54), 2,2 e-07 (0,53), 3,0 e-03 (0,51) (2) jeweils, d.h. sie waren ähnlich. Der Gesamt-P – Wert für den zweiten Eigenvektor der beschnittenen Daten ist jedoch signifikant geworden (6.4e-06) und gleichzeitig nahm der Gesamt-P – Wert für den dritten Eigenvektor in vielen Größenordnungen ab (3.9e-14 vs. 2.0e-04). Dies war der Effekt des LD-basierten Beschneidens auf die Gesamt-P-Werte. Aus der Liste der Gesamt–P – Werte sollte klar sein, was die wichtigsten signifikanten „Variationsachsen“ waren. Aus der Liste der Varianzen für jeden Eigenvektor (1) und (2) können die nach Summierung von zehn Eigenvektoren zu verwendenden Varianzen berechnet werden. Es waren 8,17% für vollständige Daten und 6,47% für beschnittene Daten. Je mehr Eigenvektoren summiert werden, desto mehr Varianzwerte werden verwendet.
Mit den kleinen Fst-Werten und der allmählichen Abnahme der Eigenwerte berechneten wir den Mittelwert für jede Herde in den PC-Skalen zur statistischen Beschreibung der genetischen Unterschiede zwischen den Herden, die durch PCA aufgedeckt wurden. Der Verlauf der Mittelwerte für alle Herden entlang PC1 und PC3 ist in Fig. 3 und entlang PC1 und PC4 ist in Fig. 4. Um die Signifikanz des genetischen Unterschieds zwischen 13 Herden basierend auf PC 1 zu bewerten, haben wir (+) (was die Signifikanz zwischen den Herden bezeichnet) in Tabelle 4 aufgeführt, die aus P – Werten in Tabelle 2 erhalten wurde, wobei der Signifikanzschnitt bei P ≤ 0 vorgenommen wurde.05 aber angesichts der Bonferroni-Korrektur erhalten wir P ≤ 6,4e-4. Der Kürze halber schreiben wir P ≤ 0,05 anstelle von P ≤ 6,4e-4. Für PC 1 gab es unter 78 Paaren der Herden 14 signifikante Paare der Herden. Am häufigsten wurden signifikante Daten für die Herden 4 und 13 beobachtet. Einige signifikante Ergebnisse, die mit der Fst-Statistik erhalten wurden, wurden auch mit PCA für Eigenvektoren 1 bestätigt. Zum Beispiel wurden die größten paarweisen Fst – Werte für Herde 4 durch ein deutlich höheres Signifikanzniveau bestätigt, das durch PCA aufgedeckt wurde (Tabelle 2). Weiterhin entsprechen unbedeutende Paare der Herden 1 und 4, 4 und 6, 4 und 13 für PC1 kleinsten Fst-Werten für Paare der mit der Herde 4 gebildeten Herden (Tabelle 1). Es sollte eine vernachlässigbare Effektgröße von LD basierend auf der Signifikanz der Herden für Eigenvektor 1 festgestellt werden (Tabelle 2).
Für PC 3 wurde das gleiche Verfahren durchgeführt (Tabelle 4). Unter Paarweise Satz gab es 16 signifikante Paare von Herden. Die am häufigsten signifikanten Daten wurden auch für Herde 4 und nicht für Herde 13 erhalten. Von vierzehn signifikanten Herdenpaaren, die PC 1 enthüllten, stimmen nur 9 mit sechzehn signifikanten Herdenpaaren überein, die PC 3 enthüllten. Somit unterscheidet sich der PC 3-Score vom PC 1-Score. Offensichtlich wäre es falsch, eine Schlussfolgerung über signifikante Unterschiede zwischen Herden zu ziehen, wenn wir Daten für einen separaten Eigenvektor verwenden würden (Tabelle 2).
Vergleicht man das sichtbare Muster der Lage der Mittelwerte der Herden entlang PC 1-3 und PC 1-4 können wir einige allgemeine Schlussfolgerungen ziehen (Abb. 3 und 4). Die Flugbahn verbindet Herden 4-7-6-13-1 auf beiden Figuren erhalten. Andere Herden verschoben sich visuell relativ zueinander, obwohl nicht alle dieser Verschiebungen bei P < 0,05 signifikant waren, wie entlang der Eigenvektoren 1 und 3 gezeigt wurde. Der Unterschied zwischen diesen Herdenpaaren war jedoch sehr signifikant, wenn wir sie mit Fst-Statistiken maßen (Tabelle 2). So sind visuelle Unterschiede der Herdenpositionen auf Fig. 3 und 4 könnten falsch sein, wenn wir nur visuelle Informationen entlang separater Eigenvektoren verwenden würden.
Der Mangel an Gesamtbedeutung (P < 0.20) des zweiten Eigenvektors für vollständige Daten und die Bedeutungslosigkeit der meisten Paare der Herden in der paarweisen Menge zeigt an, dass für diese Achse kein genetischer Unterschied zwischen den Herden besteht. Daher wurden diese Daten von der Betrachtung ausgeschlossen.
Darüber hinaus haben wir basierend auf vollständigen Daten das Niveau der PCA–Daten getestet Signifikanz, wenn P – Werte für den paarweisen Satz aus summierten zehn PC berechnet wurden. Entsprechende P – Werte sind in der Tabelle 2 angegeben und signifikante Paare der Bestände, die mit (+) bezeichnet wurden, sind in der Tabelle 5 bei Cutoff P ≤ 0,05 aufgeführt. Unter ihnen gab es 47 paarweise signifikante Kombinationen der Herden für summierte PC 1-10. Das signifikanteste Ergebnis wurde für Herde 4 und 7 erzielt, während für Herde 8, 9 und 10 unbedeutende Ergebnisse erzielt wurden. Somit führt die summierte genetische Varianz von 10 Eigenvektoren zu einer merklichen Erhöhung des Signifikanzniveaus und zu einer Änderung der Schlussfolgerungen über die Datenwichtigkeit, wie für PC 1 und PC 3 gezeigt wurde.
Um das Signifikanzniveau weiter zu verifizieren, berechneten wir P – Werte für die paarweise Menge der Herden aus vollständigen Daten über summierte 20 Eigenvektoren (Tabelle 2). Es stellte sich heraus, dass für den Cutoff bei P ≤ 0,05 61 von 78 Herdenpaaren signifikant waren (Tabelle 5). Die bedeutendsten Herdenpaare waren 1, 4, 7, 8, 11 und 12 und das unbedeutendste Herdenpaar wurde mit der Herde 3 gebildet. In Anbetracht der Daten für summierte zehn und zwanzig Eigenvektoren ist es wichtig zu beachten, dass signifikante Paare der Herden mit zunehmender Anzahl summierter Eigenvektoren stark variierten. Somit führt eine Erhöhung der Anzahl summierter Eigenvektoren zu einer allgemeinen Erhöhung des Signifikanzniveaus.
Um die vollständige Varianz aus der PCA-Analyse einzubeziehen, haben wir P – Werte für 100 summierte Eigenvektoren berechnet (Tabelle 2). Für vollständige Daten hatte die P-Wert-Verteilung einen Mittelwert von 2,2 e-07 und einen Median von 2,2 e-15, wodurch die Verteilung stark verzerrt ist. Die Herde 3 hatte minimale P – Werte mit anderen Herden (Tabelle 2), daher wählten wir basierend auf diesen Werten signifikante Paare der Herden bei Cutoff P ≤ 1,0e-10 und angesichts der Bonferroni-Korrektur P ≤ 1,28e-12. Die Ergebnisse sind in Tabelle 6 dargestellt. Die Herde 3 bildete 6 unbedeutende Herdenpaare 3 und 6, 8, 9, 10, 11, 12 und Herde 8 bildeten 9 unbedeutende Paare der Herden 8 und 1, 2, 3, 5, 6, 9, 10, 11, 12. Somit war die Herde 8 und 3 die genetisch mit anderen Herden verwandt und dieses Ergebnis nicht im Widerspruch zu Fst-Werte 0,002 und 0,003 vorherrschenden paarweise für diese Herden eingestellt (Tabelle 1). Es war notwendig, die bedeutendsten Paare der Herden zu bestimmen. Die signifikantesten Paare der Herden bei Cutoff P ≤ 1,28e-20 waren 4 und 2, 3, 7, 9, 12, 13 (6 paare); 7 und 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 ( 11pairs); 13 und 2, 3, 4, 7, 9, 10, 12 (7 paare). Dieses Ergebnis für die Herden 7 und 13 ist auf kleinere Standardfehler für diese Herden zurückzuführen als für Herde 4 (siehe zusätzliche Datei 1: Tabelle 5).
Für beschnittene Daten hatte die P-Wert-Verteilung einen Mittelwert von 2,6 e-06 und einen Median von 1.8e-16. Dadurch sind die vollständigen und beschnittenen Datenverteilungen ähnlich. Für den gleichen Cutoff P ≤ 1,28e-12 wie für vollständige Daten wurden die Daten in der Tabelle 2 eingestuft (Tabelle 7). Die Herde 3 bildete 4 unbedeutende Paare der Herde 3 und 6, 8, 9, 12. Die Herde 8 bildete 9 ein Paar der Herde 8 und 1, 2, 3, 4, 5, 6, 9, 11, 12. Unter den 15 Herdenpaaren 3 und 8 für vollständige Daten stimmen nur 11 dieser Paare mit beschnittenen Daten überein. Das bedeutendste Paar der Herden mit Cutoff P ≤ 1,28e-20 waren 4 und 2, 3, 7 (3 Paare); 5 und 1, 2, 7, 11 (4 Paare); 7 und 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 paare); 13 und 2, 7, 9, 10, 12 (5 paare). Somit stimmen die P – Werte für vollständige und beschnittene Daten gut genug überein (mit Ausnahme der Herden 4 und 5).
Beurteilung der Leistung von Fst- und PCA-Analysen
In der Tabelle 2 sind P – Werte für den paarweisen Satz der mit PCA- und Fst-Analysen berechneten Herden aufgeführt. Nach diesen Daten für summierte 100 Eigenvektoren waren P – Werte die kleinsten von denen für jeden anderen Eigenvektor oder summierten 10 und 20 Eigenvektoren. Dieses Ergebnis war darauf zurückzuführen, dass die vollständige Abweichung von den Ausgangsdaten verwendet wurde. Ein Vergleich der P-Werte von PCA- und Fst-Analysen ergibt ferner, dass die Fst–P-Werte um viele Größenordnungen geringer waren als die von summierten 100 Eigenvektoren. Über den paarweisen Satz lag die von PCA berechnete Leistung im Bereich von 0,8–1,0, während sie für Fst im Bereich von 0,9-1 lag, dh die Wahrscheinlichkeiten eines Typ-II-Fehlers sind ähnlich. Insgesamt können wir unter Berücksichtigung mehrerer Größenordnungen kleinerer P -Werte für Fst den Schluss ziehen, dass der Typ-I-Fehler für die Fst-Analyse weitaus geringer war als der PCA-Fehler. Daher sollte akzeptiert werden, dass die Daten aus der Fst-Analyse zuverlässiger sind.