- Valutazione della corrispondenza di MAF e linkage disequilibrium
- Valutare l’impatto della rimozione dei valori anomali sui dati Fst
- Valutazione La metodologia di potatura basata su LD sui valori Fst
- Valutazione impatto di SNPs MAF sui valori Fst
- Valutazione significato dei valori Fst
- Valutazione Dati di analisi PCA
- Valutare la potenza delle analisi Fst e PCA
Valutazione della corrispondenza di MAF e linkage disequilibrium
L’effetto di LD a base di potatura sul numero di SNPs è stato grande (vedi file 1: Figura S1). Per stimare l’impatto della potatura basata su LD sulla MAF di SNPs abbiamo calcolato la distribuzione di MAF in otto bidoni (Fig. 1). La percentuale di SNP per quanto riguarda i bidoni MAF nei dati completi e potati era notevolmente diversa. La potatura basata su LD ha rimosso completamente SNP monomorfi, SNP sproporzionatamente rimossi con MAF 0.2-0.4 mentre la proporzione di SNP rari e comuni con MAF 0.0001–0.1 e 0.5 è aumentata (Fig. 1). Si può suggerire che in SNPS media con MAF 0,1-0,4 distribuiti nel genoma più vicini l’uno all’altro rispetto ai restanti SNPS che portano al più grande LD tra di loro.
Valutare l’impatto della rimozione dei valori anomali sui dati Fst
Nella prima fase abbiamo valutato l’impatto dei valori anomali sui valori Fst. Abbiamo calcolato i valori Fst per l’insieme a coppie di dati completi sia con correzione che senza correzione su valori anomali (vedere il file aggiuntivo 1: Tabella S1). Dopo la correzione dei valori anomali in EIGENSOFT sono rimaste 799 mucche e 46.626 SNPS.
L’assenza della correzione dei valori anomali porta ad un bias dei valori Fst ma solo per 6 delle 78 coppie delle mandrie. In tutti i casi la differenza tra i valori di Fst era ±0,001 con l’eccezione di 4 e 13 coppie di mandrie con differenza di 0,002. Quasi gli stessi valori Fst sono stati memorizzati anche per il set a coppie in cui è stato escluso SNPS con MAF < 0.01. Tra questi valori Fst solo sei coppie delle mandrie differivano di 0,001 dai valori Fst per i dati completi nella Tabella S2 (vedere il file aggiuntivo 1) e tre di esse erano le stesse del risultato della correzione dei valori anomali.
Valutazione La metodologia di potatura basata su LD sui valori Fst
La potatura del disequilibrio del legame (LD < 0.1) ha avuto la stessa dimensione dell’effetto sui valori Fst ±0.001 dei valori anomali, ma ha interessato più coppie di mandrie 22 contro 6 per l’effetto anomalo (Tabella 1 e vedere il file aggiuntivo 1: Tabella 1). In effetti la dimensione dell’effetto su Fst non era grande nonostante la notevole diminuzione del numero totale di SNPS (5827 contro 48.108) e la loro proporzione nei bidoni SNPs (Fig. 1). Pertanto, la potatura basata su LD ha avuto un effetto moderato sui valori di Fst, ma ha interessato più coppie di mandrie.
Valutazione impatto di SNPs MAF sui valori Fst
Per valutare l’impatto di SNPs MAF sui valori Fst, abbiamo diviso l’intero intervallo MAF 0.0001 – 0.5 in 6 bidoni e calcolato per ciascuno di essi il valore medio di Fst attraverso insiemi a coppie formati da dati completi e potati (Fig. 2). I rari alleli SNPs con MAF 0.0001-0.005 avevano il valore Fst medio più piccolo (0.0027) in tutte le mandrie rispetto a quelli per gli SNP rimanenti (vedere il file aggiuntivo 1: Tabella S3). Si può concludere che in media tra le mandrie le differenze calcolate per gli alleli rari erano inferiori a quelle per gli alleli comuni. Per MAF nell’intervallo 0,1-0,5 la differenza tra i valori Fst medi tra i bean per due set di dati non era significativa. Come risultato della compensazione reciproca dei valori medi di Fst nei dati completi e potati nell’intero intervallo MAF, il valore totale sommato del valore Fst tra di loro era insignificante (vedere il file aggiuntivo 1: Tabella S3). Pertanto, questi risultati confermano ancora una volta una piccola dimensione dell’effetto di potatura basata su LD su valori Fst solo per SNPS rari non comuni alleli SNPs.
Valutazione significato dei valori Fst
Per valutare il significato dei valori Fst nella Tabella 1 abbiamo effettuato le permutazioni a coppie delle mucche trattandole come distribuzione H null. I risultati di questi calcoli dei valori Fst sono elencati nella Tabella S4 (vedere il file aggiuntivo 1). Quindi, calcoliamo i valori P per ogni coppia delle mandrie in set a coppie usando il t-test dello Studente (Tabella 2). Tutti erano con valori P nell’intervallo da 1,0 e – 06 a 3,6 e-60 con media 6,5 e-18 e mediana 3,6 e-40, quindi è una distribuzione fortemente distorta. Per calcolare Fst per H null-distribuzione abbiamo effettuato solo 5 permutazioni per ciascuna delle 78 coppie delle mandrie come era processo che richiede tempo e risultato di P-valori stime sarebbe solo leggermente sottovalutato. Nella Tabella 1 i valori minimi di Fst erano 0,002-0,003. Le coppie delle mandrie corrispondenti a questi valori sono i candidati per le mandrie geneticamente più simili. Tuttavia, quando si confrontano queste mandrie nella tabella 1, gli errori non sono stati presi in considerazione. Le probabilità di commettere un errore di tipo 1 per tutte le 78 combinazioni di mandrie sono riportate nella tabella 2. Per valutare le differenze genetiche tra le mandrie abbiamo scelto di tagliare P ≤ 1,0 e-30 (P ≤ 1,28 e-32 tenendo conto della correzione Bonferroni) in cui, di norma, le differenze tra le mandrie ai valori Fst 0,002–0,003 dovrebbero essere insignificanti. I risultati sono riportati nella Tabella 3. Coppie insignificanti di mandrie erano 2 e 8, 9, 11, 12 (4 coppie); 3 e 5, 8, 9, 10 (4 coppie); 8 e 2, 3, 9, 11 (4 coppie); 9 e 2, 3, 11, 12 (4 coppie). Le coppie di mandrie con 2, 3, 8 e 9 mandrie avevano 4-6 valori Fst 0,002–0,003 (Tabella 1). Pertanto, i risultati dell’identificazione di coppie insignificanti di mandrie (Tabella 3) corrispondono ai dati Fst minimi nella Tabella 1. Nella tabella 3 le coppie di mandrie più significative a questo taglio erano la mandria 4 (10 par), 7 (12 coppie), 13 (12 coppie) o un livello di significatività più rigoroso al taglio P ≤ 1.28e – 39 le mandrie 4, 7 e 13 avevano 10, 8 e 11 coppie significative delle mandrie (Tabella 3).
Era necessario determinare le coppie più significative di mandrie. Le coppie più significative al taglio P ≥ 1,28 e-50 delle mandrie erano 2 e 5, 6; 4 e 2, 3, 5, 12; 5 e 11; 7 e 1, 2, 9; 13 e 5, 9, 12 (Tabella 2). Queste coppie delle mandrie corrispondono alle coppie geneticamente più diverse delle mandrie, mentre sono stati presi in considerazione anche gli errori dei dati Fst. Riassumendo i risultati del calcolo dei valori P possiamo affermare su un alto livello di significatività l’analisi Fst.
Valutazione Dati di analisi PCA
Gli autovalori di 100 autovettori calcolati dalla matrice di covarianza degli alleli di 803 mucche sono diminuiti monotonicamente da 9,5 a zero. Dimostra che la struttura della matrice di covarianza era abbastanza omogenea. Nel complesso P – valori e la percentuale di varianza (in brakets) per una decina di autovettori calcolati per completare e potati i dati sono stati 2.8 e-15 (1.16), 0.20 (1.05), 3.9 e-14 (1.02), 1.9 e-08 (0.88), 9.7 e-03 (0.76), 2.3 e-03 (0.72), 8.2 e-03 (0.71), 6.0 e-09 (0.66), 4.9 e-05 (0.62), 5.6 e-04 (0.59) (1) e 3.3 e-16 (0.84), 6.4 e-06 (0.79), 2.0 e-04 (0.76), 3.4 eE-06 (0.70), 2.6 e-05 (0.67), 3.2 e-08 (0.58), 2.0 e-03 (0.55), 4.0 e-04 (0.54), 2.2 e-07 (0.53), 3.0 e-03 (0.51) (2), rispettivamente, cioè erano simili. Tuttavia, il valore P complessivo per il secondo autovettore dei dati potati è diventato significativo (6.4e-06) e allo stesso tempo il valore P complessivo per il terzo autovettore su molti ordini di grandezza è diminuito (3.9 e – 14 vs. 2.0 e-04). Tale era l’effetto della potatura basata su LD sui valori P complessivi. Dall’elenco dei valori P complessivi dovrebbe essere chiaro quali fossero i principali “assi di variazione” significativi. Dall’elenco delle varianze per ciascun autovettore (1) e (2) si possono calcolare le varianze da utilizzare dopo aver sommato dieci autovettori. Era 8.17% per i dati completi e 6.47% per i dati potati. Da dove, più autovettori saranno sommati, più valore di varianza verrà utilizzato.
Avendo i piccoli valori di Fst e la diminuzione graduale degli autovalori abbiamo calcolato la media per ogni mandria nelle scale PC alla descrizione statistica tra le mandrie differenze genetiche rivelate da PCA. La trama dei mezzi per tutte le mandrie lungo PC 1 e PC 3 è mostrata in Fig. 3 e lungo PC 1 e PC 4 è mostrato in Fig. 4. Per valutare il significato della differenza genetica tra 13 mandrie basate su PC 1 abbiamo elencato ( + ) (che denota il significato tra le mandrie) nella Tabella 4 ottenuta dai valori P nella Tabella 2 in cui il taglio della significatività è stato preso a P ≤ 0.05 ma data la correzione Bonferroni otteniamo P ≤ 6.4 e-4. Inoltre, per brevità, scriviamo P ≤ 0.05 invece P ≤ 6.4 e-4. Per PC 1 tra 78 coppie di mandrie c’erano 14 coppie significative di mandrie. I dati più spesso significativi sono stati osservati per le mandrie 4 e 13. Alcuni risultati significativi ottenuti con Fst statistica confermata anche con PCA per autovettori 1. Ad esempio, i più grandi valori di Fst a coppie per la mandria 4 sono stati confermati da un livello di significatività notevolmente più elevato rivelato da PCA (Tabella 2). Inoltre, coppie insignificanti delle mandrie 1 e 4, 4 e 6, 4 e 13 per PC 1 corrispondono a valori Fst più piccoli per le coppie delle mandrie formate con la mandria 4 (Tabella 1). Si dovrebbe notare una dimensione trascurabile dell’effetto della potatura basata su LD sul significato tra le mandrie per l’autovettore 1 (Tabella 2).
La stessa procedura è stata eseguita per PC 3 (Tabella 4). Tra i set a coppie c’erano 16 coppie significative di mandrie. I dati più spesso significativi sono stati ottenuti anche per la mandria 4 e non per la mandria 13. Su quattordici coppia significativa delle mandrie rivelato PC 1 solo 9 coincidono con sedici coppia significativa delle mandrie rivelato PC 3. Pertanto, il punteggio PC 3 è diverso da quello PC 1. Ovviamente, sarebbe errato trarre una conclusione sulle differenze significative tra le mandrie se utilizzassimo i dati per un autovettore separato (Tabella 2).
Confrontando il modello visibile di posizione i valori medi delle mandrie lungo PC 1-3 e PC 1-4 possiamo trarre alcune conclusioni generali (Fig. 3 e 4). La traiettoria che collega mandrie 4-7-6-13-1 conservato su entrambe le figure. Altre mandrie si sono spostate visivamente l’una rispetto all’altra anche se non tutti questi spostamenti erano significativi a P < 0.05 come è stato mostrato lungo gli autovettori 1 e 3. Tuttavia, la differenza tra queste coppie di mandrie era molto significativa quando le abbiamo misurate con le statistiche Fst (Tabella 2). Così, differenze visive delle mandrie posizioni sui fichi. 3 e 4 potrebbero non essere corretti se usassimo solo informazioni visive lungo autovettori separati.
La mancanza di significato complessivo (P < 0.20) del secondo autovettore per i dati completi e l’insignificanza della maggior parte delle coppie delle mandrie nel set a coppie indica che non ci sono differenze genetiche tra le mandrie per questo asse. Pertanto, questi dati sono stati esclusi dalla considerazione.
Inoltre, sulla base di dati completi, abbiamo testato il livello di significatività dei dati PCA se i valori P per il set a coppie sono stati calcolati da dieci PC sommati. I valori di P appropriati sono riportati nella Tabella 2 e le coppie significative delle mandrie che sono state indicate come ( + ) sono elencate nella Tabella 5 al limite P ≤ 0,05. Tra questi c’erano 47 combinazioni significative a coppie delle mandrie per PC sommati 1-10. Il risultato più significativo è stato ottenuto per le mandrie 4 e 7, mentre risultati insignificanti per le mandrie 8, 9 e 10. Pertanto, dare una varianza genetica sommata da 10 autovettori porta ad aumentare sensibilmente il livello di significatività e modificare le conclusioni sulla significatività dei dati come è stato dimostrato per PC 1 e PC 3.
Per verificare ulteriormente il livello di significatività, abbiamo calcolato i valori P per l’insieme a coppie delle mandrie da dati completi su 20 autovettori sommati (Tabella 2). Si è scoperto che per il taglio a P ≤ 0,05, 61 delle 78 coppie delle mandrie erano significative (Tabella 5). Le coppie più significative di mandrie erano 1, 4, 7, 8, 11 e 12 e la coppia più insignificante delle mandrie era formata con la mandria 3. Considerando i dati per dieci e venti autovettori sommati, è importante notare che coppie significative delle mandrie variavano notevolmente con un aumento del numero di autovettori sommati. Pertanto, l’aumento del numero di autovettori sommati porta ad un aumento complessivo del livello di significatività.
Per includere la varianza completa disponibile dall’analisi PCA abbiamo calcolato i valori P per 100 autovettori sommati (Tabella 2). Per i dati completi la distribuzione dei valori P aveva media 2,2 e-07 e mediana 2,2 e-15, quindi la distribuzione è altamente distorta. La mandria 3 aveva valori minimi di P con altre mandrie (Tabella 2) quindi sulla base di questi valori abbiamo selezionato coppie significative delle mandrie al cutoff P ≤ 1.0 e-10 e data la correzione Bonferroni P ≤ 1.28 e-12. I risultati sono riportati nella Tabella 6. La mandria 3 formava 6 coppie insignificanti di mandrie 3 e 6, 8, 9, 10, 11, 12 e la mandria 8 formò 9 coppie insignificanti delle mandrie 8 e 1, 2, 3, 5, 6, 9, 10, 11, 12. Pertanto, la mandria 8 e 3 era la più geneticamente correlata con altre mandrie e questo risultato non contraddice i valori Fst 0.002 e 0.003 prevalenti nel set a coppie per queste mandrie (Tabella 1). Era necessario determinare le coppie più significative delle mandrie. Le coppie più significative delle mandrie al taglio P ≤ 1,28 e-20 erano 4 e 2, 3, 7, 9, 12, 13 (6 coppie); 7 e 1, 2, 3, 4, 5, 6, 9, 10, 11, 12, 13 (11 pairs) ; 13 e 2, 3, 4, 7, 9, 10, 12 (7 coppie). Questo risultato per le mandrie 7 e 13 è dovuto a errori standard più piccoli per queste mandrie rispetto alla mandria 4 (vedere il file aggiuntivo 1: Tabella 5).
Per i dati potati la distribuzione dei valori P aveva media 2,6 e – 06 e mediana 1.8e-16. Pertanto, le distribuzioni di dati complete e potate sono simili. Per lo stesso cutoff P ≤ 1,28 e-12 come per i dati completi, i dati nella Tabella 2 sono stati classificati (Tabella 7). La mandria 3 formava 4 coppie insignificanti della mandria 3 e 6, 8, 9, 12. La mandria 8 ha formato 9 coppia insignificante della mandria 8 e 1, 2, 3, 4, 5, 6, 9, 11, 12. Tra 15 coppie di mandrie 3 e 8 per dati completi solo 11 di queste coppie coincidono con i dati potati. La coppia più significativa delle mandrie con cutoff P ≤ 1.28 e-20 erano 4 e 2, 3, 7 (3 coppie); 5 e 1, 2, 7, 11 (4 coppie); 7 e 1, 2, 4, 5, 6, 9, 10, 11, 12, 13 (10 coppie); 13 e 2, 7, 9, 10, 12 (5 coppie). Pertanto, i valori P per i dati completi e potati corrispondono abbastanza bene (ad eccezione delle mandrie 4 e 5).
Valutare la potenza delle analisi Fst e PCA
Nella Tabella 2 sono elencati i valori P per l’insieme a coppie delle mandrie calcolate con analisi PCA e Fst. Secondo questi dati per gli autovettori sommati 100, i valori P erano i più piccoli di quelli per qualsiasi altro autovettore o gli autovettori sommati 10 e 20. Questo risultato era dovuto all’utilizzo della varianza completa dai dati iniziali. Inoltre, confrontando i valori P delle analisi PCA e Fst si conclude che i valori P Fst erano molti ordini di grandezza inferiori a quelli degli autovettori sommati 100. Attraverso il set a coppie, la potenza calcolata PCA era compresa nell’intervallo 0,8–1,0, mentre per Fst era compresa nell’intervallo 0,9–1, ovvero le probabilità di un errore di tipo II sono simili. In totale, considerando di diversi ordini di grandezza valori P più piccoli per Fst, possiamo concludere che l’errore di tipo I di probabilità per l’analisi Fst era molto inferiore a quello PCA. Pertanto, dovrebbe essere accettato che i dati dell’analisi Fst siano più affidabili.