- Modifica di appartenenza OTUs a diverse profondità di sequenziamento (OTU instabilità) – una trascurato ma importante struttura per l’analisi delle diversità microbica
- Metodi di clustering gerarchici e avidi alternativi producono anche OTU instabili
- I metodi basati sui riferimenti minimizzano il problema delle OTU unstable
- Le metriche di beta-diversità filogenetica minimizzano l’effetto dell’instabilità OTU
Modifica di appartenenza OTUs a diverse profondità di sequenziamento (OTU instabilità) – una trascurato ma importante struttura per l’analisi delle diversità microbica
Per illustrare il problema creato dal instabile OTUs, abbiamo riprodotto la non sovrapposizione di curve di rarefazione utilizzando lo stesso set di dati (Canada suolo set di dati) e lo stesso metodo di clustering (complete linkage clustering, di cui all’come CL clustering) impiegato da Roesch et al. (Figura 1a). Abbiamo sottocampionato casualmente le sequenze grezze a quattro profondità di sequenziamento(20%, 40%, 60%, e l ‘ 80% delle sequenze di input) utilizzando 30 repliche di ciascuna. Abbiamo quindi utilizzato il clustering di collegamento completo (CL) per raggruppare ciascuno dei sottocampioni (le definizioni di tutti i metodi di clustering possono essere trovate nel file aggiuntivo 1) e generato curve di rarefazione per ogni profondità di campionamento. Nel caso di CL clustering, la curva di rarefazione prodotta da un sottocampione più grande è più ripida di quella prodotta da un sottocampione più piccolo.
Un obiettivo quando si generano curve di rarefazione è supportare l’interpolazione, il che significa che se creiamo una curva di rarefazione da un set di dati completo, vorremmo usare quella curva per determinare quante specie sarebbero state osservate per un numero di sequenze inferiore al totale. Ad esempio, quando interpoliamo dalla curva di rarefazione creata da un set di dati completo, stimiamo che abbiamo circa 4.500 specie se selezioniamo casualmente 30.000 sequenze dal set di dati completo (punto A in Figura 1a). Il problema che le curve di rarefazione non sovrapposte pongono per l’interpolazione, tuttavia, è che se invece sottocampionassimo casualmente 30.000 sequenze da un sottocampione dell ‘ 80% dell’intero set di dati, stimeremmo che solo 4.200 specie sono rappresentate da queste 30.000 sequenze (punto B in Figura 1a). Questo scenario sarebbe essenzialmente vero nei casi in cui sono state raccolte solo poche sequenze per campione, un fenomeno che è in conflitto con il comportamento previsto delle curve di rarefazione.
Abbiamo osservato che la non sovrapposizione delle curve di rarefazione, come illustrato nella Figura 1a, è in realtà causata dall’instabilità dei metodi di clustering OTU. In altre parole, il cluster a cui viene assegnata una sequenza può essere influenzato dal numero di sequenze raggruppate. Un’illustrazione di questa ipotesi è mostrata in Figura 1b. Se osserviamo solo due sequenze, S1 e S2, entro la soglia di somiglianza (indicata collegando con una barra), vengono raggruppate in un singolo OTU (OTU1). Aggiungiamo quindi altre tre sequenze, S3, S4 e S5, che potrebbero essere collegate a S1 o a S2, ma diverse distanze a coppie superano la soglia (queste coppie non sono collegate da barre). Per definizione di CL, le distanze a coppie per tutte le sequenze assegnate a un singolo OTU devono rientrare nella soglia di distanza , che potrebbe consentire a S1 e S2 di essere separati in OTU2 e OTU3. OTU1 scompare a questa profondità di sequenziamento e le sue sequenze vengono riassegnate a due OTU diversi, illustrando il problema dell’instabilità OTU. Teoricamente, l’aggiunta di più sequenze tende a dividere le OTU esistenti quando si utilizza l’algoritmo CL. Di conseguenza, quando vengono raggruppati con un set di dati più grande rispetto a un set di dati più piccolo, le stesse sequenze saranno raggruppate in più OTU. Ciò si tradurrà in un aumento della curva di rarefazione che deriva dal campione più grande e la conclusione che ha una maggiore alfa-diversità. Le curve di rarefazione che derivano da CL sono quindi più sensibili alla profondità di sequenziamento. Sebbene questo effetto sia debole, illustra ancora parzialmente perché, in alcuni casi, la raccolta di un numero di sequenze basate su una dimensione del campione più piccola dovrebbe produrre una curva di rarefazione che raggiunge un plateau, e invece viene prodotta una curva di rarefazione in continuo aumento. Questo fenomeno di un individuo che viene assegnato a diversi OTU semplicemente a causa della profondità di campionamento aumentata o diminuita è ovviamente problematico. Una situazione analoga basata sull’ecologia tradizionale (macroscala) sarebbe se il conteggio di un numero diverso di uccelli all’interno di un’area fissa portasse alla ridefinizione di quali singoli uccelli si raggruppano come specie. Tuttavia, l’instabilità sopra descritta non è dovuta all’identificazione occasionale di nuove specie, come potrebbe essere il caso nell’ecologia tradizionale. Al contrario, queste modifiche all’appartenenza OTU si verificano sistematicamente in gran parte delle sequenze riassegnate tra OTU.
Per indagare ulteriormente l’effetto degli OTU instabili sull’interpretazione biologica, abbiamo successivamente esplorato la beta-diversità usando l’ordinazione. Utilizzando l’analisi delle coordinate principali (PCoA), abbiamo confrontato le comunità microbiche con il set di dati completo utilizzando sottocampioni che comprendono il 60% del set di dati completo. Abbiamo ripetuto questo sottocampionamento 30 volte per creare repliche. Abbiamo quindi utilizzato CL clustering per raggruppare tutti i sottocampioni, così come il set di dati completo, e combinato i risultati del clustering per sequenza OTU rappresentativa (definita come la sequenza più abbondante in ogni OTU). I campioni sono stati quindi rarefatti casualmente per includere 30.000 sequenze per campione, incluse le 30 rarefazioni replicate risultanti dal clustering dell’intero set di dati. Dopo la rarefazione, tutti i campioni contenevano lo stesso numero di sequenze in modo che le uniche differenze tra loro erano il numero di sequenze che erano inizialmente raggruppate. PCoA ha dimostrato che questi campioni si sono separati in base al numero di sequenze inizialmente raggruppate, indicando che l’instabilità OTU provoca gli stessi campioni che sembrano avere composizioni diverse (Figura 1c). Un risultato simile è stato osservato confrontando i sottocampioni 20%, 40% e 80% con il set di dati completo (File aggiuntivo 2: Figura S1). Inoltre, 125 OTU (dopo la correzione del tasso di scoperta falsa (FDR)) e 26 OTU (dopo la correzione Bonferroni) sono stati determinati per essere significativamente diversi tra questi due gruppi utilizzando il test Mann-Whitney U. Abbiamo anche testato l’effetto che gli OTU instabili hanno sul calcolo della composizione tassonomica e abbiamo trovato l’effetto molto limitato (File aggiuntivo 3: Figura S2 e file aggiuntivo 4). Questo perché questi OTU sono ancora assegnati agli stessi taxa come conseguenza della loro vicinanza filogenetica, nonostante il fatto che stiano cambiando quando vengono aggiunte più sequenze usando CL (anche discusso di seguito nella sezione che descrive la tolleranza del PCoA all’uso di metriche filogenetiche con OTU instabili).
Metodi di clustering gerarchici e avidi alternativi producono anche OTU instabili
Tutti i metodi gerarchici utilizzati per determinare l’appartenenza a OTU si basano su distanze a coppie tra le sequenze in OTU. CL clustering richiede la distanza a coppie tra tutte le sequenze in un OTU per adattarsi all’interno della soglia di distanza. Il clustering Single linkage (SL) richiede la distanza a coppie tra qualsiasi coppia di sequenze in un OTU per adattarsi alla soglia di distanza. Il clustering di collegamento medio (AL) richiede le distanze medie a coppie tra tutte le sequenze in un OTU per adattarsi alla soglia di distanza. Come ci si aspetterebbe quando si utilizza il clustering SL (Figura 2a), le OTU tendono ad essere unite quando vengono aggiunte più sequenze, il che è l’opposto del problema di scissione osservato con CL. Di conseguenza, le curve di rarefazione create usando SL diventano meno ripide all’aumentare della dimensione del sottocampione (Figura 2b). La beta-diversità è anche influenzata dal clustering SL instabile di OTU (Figura 2c). Ad esempio, 167 OTU (dopo la correzione FDR) e 36 OTU (dopo la correzione Bonferroni) sono stati determinati per essere rappresentati in modo differenziato sia nel sottocampione del 60% che nell’intero set di dati.
L’instabilità prodotta dal collegamento medio è più complicata perché possono verificarsi sia la divisione OTU che la fusione OTU. Questi effetti contrastanti portano a differenze più sottili nei conteggi OTU e alle curve di rarefazione risultanti che vengono create con la sovrapposizione di AL a diverse profondità (Figura 2d). Inoltre, gli AL OTU stessi sono instabili (file aggiuntivo 5: Figura S3) a causa dell’elevato numero di eventi di divisione e fusione di OTU che si verificano. Inoltre, anche se questi OTU instabili influenzano la beta-diversità (Adonis, R = 0.16, P = 0.001), la maggiore separazione in PCoA sembra essere causata da fattori diversi dalla dimensione del campione; ad esempio, la possibile inclusione di differenze derivanti dall’ordine di input delle sequenze o dalla presenza o assenza di determinate sequenze di tasti all’interno di diversi sottocampioni (Figura 2e). Questa osservazione può derivare dalla sensibilità di AL all’ordine delle sequenze di input, che si tradurrebbe in diversi modelli di clustering. Quando si utilizza AL, 804 OTU (dopo la correzione FDR) e 5 OTU (dopo la correzione Bonferroni) sono stati rappresentati in modo differenziato tra le due profondità di campionamento.
Il clustering Greedy, come quello implementato in USEARCH, è un altro metodo di clustering de novo comunemente usato che è più computazionalmente efficiente di CL, SL e AL. Quando si utilizza il clustering greedy, una sequenza deve essere entro la soglia di distanza di un singolo centroide OTU da raggruppare in quell’OTU. Inoltre, le sequenze vengono elaborate in un ordine definito e ogni sequenza di query verrà assegnata a un OTU esistente o come centroide di un nuovo OTU. Se una sequenza di query si trova entro la soglia di distanza di più centroidi OTU esistenti, può essere assegnata al centroide più vicino (qui indicato come clustering avido basato sulla distanza (DGC)) o al centroide più abbondante (qui indicato come clustering avido basato sull’abbondanza (AGC)) (file aggiuntivo 1). Esistono approcci alternativi per rompere tali legami; tuttavia, abbiamo scelto di limitare la nostra attenzione a quelli che sono i più comunemente impiegati. Nel presente studio, valutiamo USEARCH come metodo per il clustering greedy (non abbiamo valutato UPARSE perché il suo algoritmo di clustering è lo stesso utilizzato in USEARCH).
L’instabilità OTU è anche un problema nei metodi di clustering avidi e deriva da diverse fonti. Innanzitutto, la scelta dei centroidi dipende fortemente dall’ordine in cui vengono elaborate le sequenze. Pertanto, quando viene modificata la dimensione di un campione, è possibile modificare anche l’ordine delle sequenze. In secondo luogo, quando si utilizza DGC, anche se la scelta dei centroidi rimane stabile quando la dimensione del campione viene aumentata, le sequenze aggiunte possono diventare nuovi centroidi e attrarre membri da OTU esistenti (questo generalmente non accadrà in AGC). Ad esempio, immagina che S10, S11 e S12 formino OTU7 con S10 come centroide (Figura 3a,b). Se in una sequenza successiva viene aggiunta un’altra sequenza, S13, l’ordine di elaborazione del campione più grande può diventare S10, S13, S11 e S12. In questo caso, S10 sarà ancora un centroide, ma S13 diventerà anche un centroide. S13 quindi recluta S11, poiché la distanza tra i due è inferiore alla distanza tra S11 e S10. In DGC, S11 finirà per raggrupparsi con S13 anziché S10 e l’OTU7 originale sarà diviso in OTU8 e OTU9 (Figura 3a). In AGC, S11 continuerà a raggrupparsi con S10 e l’OTU7 originale manterrà la sua struttura originale (Figura 3b).
Abbiamo usato greedy clustering sulle curve di rarefazione alfa e beta-diversità PCoA per analizzare gli effetti generati da OTU instabili. Come detto sopra, DGC e AGC soffrono entrambi di mutevolezza del centroide (questo effetto non è polarizzato verso la scissione o la fusione di OTU), e DGC soffre inoltre della scissione di OTU esistenti. Di conseguenza, il clustering DGC e CL ha prodotto curve simili, che sono diventate più ripide all’aumentare della dimensione del sottocampione (Figura 3c). Al contrario, AGC ha prodotto curve sovrapposte che non sono state influenzate dalla profondità (Figura 3d). Tuttavia, come nel caso del clustering AL, ciò non significa che gli OTU fossero stabili, ma solo che numeri simili di OTU (possibilmente diversi) sono stati ottenuti alle diverse profondità di sottocampionamento. Le OTU instabili prodotte nelle stime degli effetti DGC e AGC della beta-diversità (Figura 3e,f). Nel caso di AGC, 392 OTU (dopo la correzione FDR) e 14 OTU (dopo la correzione Bonferroni) sono stati determinati per essere rappresentati in modo differenziato tra le due profondità, e nel caso di DGC, questi numeri erano rispettivamente 370 e 15.
Per quantificare le differenze tra questi metodi instabili, abbiamo confrontato la proporzione di sequenze instabili e OTU instabili (Figura 4a,b; File aggiuntivo 6: Tabella S1). CL ha prodotto la più alta percentuale di sequenze instabili (circa il 22%), mentre AL (13%) e AGC (12%) hanno ottenuto risultati leggermente migliori rispetto a SL (15%) e DGC (14%). Questi risultati non erano sempre coerenti quando si confrontava l’uso di set di dati alternativi (File aggiuntivo 7: Figura S6); tuttavia, AGC ha generalmente dimostrato le migliori prestazioni rispetto agli altri metodi de novo. Per OTU instabili, CL e DGC hanno prodotto la più alta percentuale di OTU instabili: circa il 60% di OTU con centroidi con frequenze maggiori o uguali a 10 è stato osservato essere instabile in ciascuno dei metodi (>90% è stato trovato instabile quando si analizzano determinati set di dati, come mostrato nel file aggiuntivo 7: Figura S6). AL e SL sono più stabili di CL o DGC, ma hanno comunque comportato un’instabilità OTU superiore al 30% per i centroidi osservati almeno 10 volte. L’AGC è risultato essere il metodo de novo più stabile, specialmente per gli OTU con centroidi altamente abbondanti.
Un metodo di clustering de novo che produce OTU stabili è la dereplicazione o il clustering di sequenze identiche e di uguale lunghezza (File aggiuntivo 8: Figura S4a). Come con il clustering OTU a riferimento chiuso, tutti gli OTU rimangono assolutamente stabili su diverse profondità di sequenziamento perché il clustering non è influenzato dalla composizione della raccolta di sequenze in cluster. Di conseguenza, le curve di rarefazione prodotte utilizzando la dereplicazione si sovrappongono a diverse profondità (file aggiuntivo 8: Figura S4b), e beta-diversità non è influenzata dalla dimensione dei sottocampioni (File aggiuntivo 8: Figura S4c). Inoltre, non è determinato che un singolo OTU sia significativamente diverso tra i due gruppi. È importante notare che la dereplicazione è altamente vulnerabile all’identificazione di OTU spuri derivanti da errori di sequenziamento. A causa della sua stabilità nel binning OTU, produce anche curve di rarefazione sovrapposte su diverse profondità, indicando che OTU instabili (piuttosto che errori di sequenziamento) sono la causa principale delle curve di rarefazione non sovrapposte. Inoltre, la stabilità del metodo di dereplicazione suggerisce che una soglia di somiglianza più elevata per il clustering può ridurre il verificarsi di OTU instabili, poiché i metodi di clustering de novo diventano più simili alla dereplicazione all’aumentare della soglia di somiglianza. In pratica, il clustering dereplication produce un numero elevato di OTU, che è computazionalmente costoso da impiegare a valle. Pertanto, le moderne dimensioni del set di dati ci impediscono di lavorare con sequenze che sono state solo dereplicate. È possibile che i metodi futuri possano utilizzare approcci basati sulla dereplicazione per gestire il problema dell’instabilità OTU. Un altro esempio estremo sarebbe il clustering di tutte le sequenze in un OTU mentre quell’OTU rimane assolutamente stabile. Tuttavia, a differenza della dereplicazione, OTUs può essere utilizzato in ulteriori analisi, come l’alfa-diversità, la beta-diversità e la composizione tassonomica. Inoltre, clustering tutte le sequenze in un OTU difficilmente può essere chiamato ‘clustering’ ed è completamente inutile per l’analisi a valle.
I metodi basati sui riferimenti minimizzano il problema delle OTU unstable
Una caratteristica che tutti i metodi di clustering unstable hanno in comune è che le definizioni dei cluster dipendono dalle sequenze di input. Il clustering OTU a riferimento chiuso evita questa dipendenza con una importante limitazione pratica: durante il clustering OTU a riferimento chiuso, le letture vengono raggruppate su un set di dati di riferimento (ad esempio, il database Greengenes ) di centroidi pre-calcolati e non vengono creati nuovi centroidi durante il clustering, il che si traduce in OTU perfettamente stabili (Figura 5a). Di conseguenza,le stime di diversità alfa e beta basate sul clustering a riferimento chiuso non sono influenzate dalla dimensione dei campioni (Figura 5b, c) e nessun OTU è determinato essere significativamente diverso tra le due profondità. Oltre a produrre OTU stabili, il clustering a riferimento chiuso offre diverse altre funzioni utili. In primo luogo, i nomi delle sequenze di riferimento possono essere utilizzati come identificatori OTU universali piuttosto che utilizzare nomi assegnati arbitrariamente, facilitando così il confronto diretto degli OTU tra gli studi. In secondo luogo, le letture di sequenza da diverse regioni del gene marcatore possono essere raggruppate insieme se il set di dati di riferimento è costituito da geni marker a lunghezza intera. Infine, il clustering a riferimento chiuso può parallelizzare il clustering OTU per set di dati di grandi dimensioni. La principale limitazione del clustering OTU a riferimento chiuso è che le letture che sono al di fuori della soglia di somiglianza con qualsiasi centroide di riferimento vengono scartate, in modo tale che solo le OTU già rappresentate nel database possono essere osservate.”Nell’elaborazione del set di dati del suolo canadese, circa il 14% delle sequenze non ha potuto essere abbinato alle sequenze di riferimento e sono state quindi scartate dopo il clustering. Questa limitazione del clustering OTU a riferimento chiuso può diventare banale in quanto vengono apportati miglioramenti proiettati ai set di dati di riferimento, portando i riferimenti corrispondenti necessari per progetti di ricerca specifici (ad esempio, il microbioma intestinale) a diventare più sviluppati.
Per superare i limiti del clustering OTU a riferimento chiuso, è possibile utilizzare il clustering OTU a riferimento aperto. Il clustering con riferimento aperto inizia allo stesso modo del clustering con riferimento chiuso, ma continua a raggruppare le sequenze che non corrispondono alla raccolta di riferimento in modo de novo. Sebbene i metodi di clustering de novo esistenti producano OTU instabili, il clustering a riferimento aperto può essere molto più stabile di tali metodi perché molte sequenze sono inizialmente raggruppate dall’approccio a riferimento chiuso. Abbiamo valutato la stabilità OTU nel clustering open-reference usando AGC per la fase di clustering de novo (Figura 4a,b, c) e lo abbiamo trovato un metodo molto più efficace rispetto all’utilizzo dei soli metodi de novo. La maggior parte delle OTU instabili erano sequenze a bassa abbondanza senza corrispondenza di riferimento (una categoria di sequenze che è comunemente considerata soggetta a errori). Il clustering OTU con riferimento aperto produce curve di rarefazione sovrapposte (file aggiuntivo 9: Figura S5a) e anche se l’instabilità del clustering OTU con riferimento aperto influisce ancora sull’analisi PCoA (file aggiuntivo 9: Figura S5b), il valore PC e R (per ADONIS, R = 0,03) è inferiore rispetto a qualsiasi altro metodo de novo da solo, così come il numero di OTU che sono rappresentati in modo differenziato tra i due gruppi (104 OTU dopo la correzione FDR e 2 OTU dopo la correzione Bonferroni). Abbiamo confrontato i metodi di clustering open-reference con altri metodi de novo su set di dati aggiuntivi, concentrandosi sulla proporzione di sequenze instabili e OTU instabili e abbiamo scoperto che questi risultati sono generalmente coerenti tra i tipi di ambiente e le tecnologie di sequenziamento (File aggiuntivo 7: Figura S6).
Oltre a quantificare l’instabilità di OTU, abbiamo usato l’indice MCC per indagare come il clustering delle coppie di sequenze è cambiato in base al clustering del set di dati completo rispetto al sottoinsieme del 60% (Figura 4b, File aggiuntivo 6: Tabella S2). È chiaro che i due metodi basati su riferimento e il clustering di dereplicazione hanno la massima stabilità da questa metrica e che AGC è il più stabile dei metodi di clustering de novo (test di Kruskal-Wallis, P < 0.05). AL ha avuto il valore MCC più basso, indicando che il clustering di molte coppie di sequenze è cambiato quando si utilizza questo metodo. In alternativa, SL ha prodotto un valore MCC più alto rispetto alla maggior parte dei metodi de novo, inclusi AL e CL. Tuttavia, parte del motivo per l’alto valore MCC di SL è che il suo valore FP è uguale a 0 (le sequenze che sono separate in un sottocampione più piccolo verranno unite in un singolo OTU in un sottocampione più grande, ma la situazione inversa non si verifica affatto). Pertanto, a causa dei suoi gravi problemi con la fusione OTU, SL non dovrebbe essere considerato un metodo molto più stabile.
Le metriche di beta-diversità filogenetica minimizzano l’effetto dell’instabilità OTU
A differenza delle metriche non filogenetiche, dove tutti gli OTU sono considerati ugualmente dissimili l’uno dall’altro, le metriche filogenetiche come UniFrac tengono conto della relazione filogenetica tra OTU quando calcolano le distanze tra i campioni. I metodi di clustering OTU instabili sposteranno sequenze tra OTU che di solito sarebbero strettamente correlate evolutivamente in modo che la distanza calcolata tra i campioni dovrebbe generalmente rimanere più simile di quanto sarebbe quando si usano metriche di diversità non filogenetiche. Abbiamo ri-analizzato l’effetto di OTU instabili sulla beta-diversità utilizzando CL, SL, AL, AGC e DGC in base alla distanza UniFrac (File aggiuntivo 10: Figura S7). I risultati mostrano che gli OTU instabili di CL, AGC e DGC influenzano minimamente la beta-diversità usando la distanza UniFrac, confermando l’ipotesi che quando le sequenze cambiano tra OTU strettamente correlati con questi metodi instabili, le metriche filogenetiche sono più tolleranti a tale instabilità. Tuttavia, nel clustering SL, le OTU lontanamente correlate possono essere unite in un unico OTU, in modo che la beta-diversità possa essere influenzata anche quando si utilizza la distanza UniFrac. In AL, la separazione principale è ancora causata da diversi modelli di clustering, come con le metriche non filogenetiche.