Stabilität operativer taxonomischer Einheiten: eine wichtige, aber vernachlässigte Eigenschaft für die Analyse der mikrobiellen Diversität

Änderung der Zugehörigkeit von OTUs in verschiedenen Sequenziertiefen (OTU-Instabilität) – eine vernachlässigte, aber wichtige Eigenschaft für die Analyse der mikrobiellen Diversität

Um das durch instabile OTUs verursachte Problem zu veranschaulichen, reproduzierten wir die nicht überlappenden Verdünnungskurven mit demselben Datensatz (Canada Soil Dataset) und derselben Clustering-Methode (Complete Linkage Clustering, als CL-Clustering bezeichnet) von Roesch et al. (Abbildung 1a). Wir haben die Rohsequenzen zufällig in vier Sequenzierungstiefen unterabgetastet (20%, 40%, 60%, und 80% der Eingabesequenzen) mit jeweils 30 Replikaten. Wir haben dann das Clustering der vollständigen Verknüpfung (CL) verwendet, um jede der Unterstichproben zu clustern (Definitionen aller Clustermethoden finden Sie in zusätzlicher Datei 1) und Verdünnungskurven für jede Stichprobentiefe generiert. Im Fall von CL-Clustering ist die von einer größeren Teilstichprobe erzeugte Verdünnungskurve steiler als die von einer kleineren Teilstichprobe erzeugte.

Ein Ziel bei der Erzeugung von Verdünnungskurven ist die Unterstützung der Interpolation, was bedeutet, dass wir, wenn wir eine Verdünnungskurve aus einem vollständigen Datensatz erstellen, diese Kurve verwenden möchten, um zu bestimmen, wie viele Arten für eine bestimmte Anzahl von Sequenzen beobachtet werden, die kleiner als die Summe sind. Wenn wir beispielsweise aus der Verdünnungskurve interpolieren, die aus einem vollständigen Datensatz erstellt wurde, schätzen wir, dass wir ungefähr 4.500 Arten haben, wenn wir zufällig 30.000 Sequenzen aus dem vollständigen Datensatz auswählen (Punkt A in Abbildung 1a). Das Problem, das nicht überlappende Verdünnungskurven für die Interpolation darstellen, besteht jedoch darin, dass wir, wenn wir stattdessen zufällig 30.000 Sequenzen aus einer 80% igen Teilstichprobe des gesamten Datensatzes subsampeln würden, schätzen würden, dass nur 4.200 Arten durch diese 30.000 Sequenzen repräsentiert werden (Punkt B in Abbildung 1a). Dieses Szenario würde im Wesentlichen in Fällen zutreffen, in denen nur wenige Sequenzen pro Probe gesammelt wurden, ein Phänomen, das im Widerspruch zum erwarteten Verhalten von Verdünnungskurven steht.

Wir haben beobachtet, dass die Nichtüberlappung von Verdünnungskurven, wie in Abbildung 1a dargestellt, tatsächlich durch die Instabilität von OTU-Clustering-Methoden verursacht wird. Mit anderen Worten, der Cluster, dem eine Sequenz zugewiesen ist, kann durch die Anzahl der zu gruppierenden Sequenzen beeinflusst werden. Eine Illustration dieser Hypothese zeigt Abbildung 1b. Wenn wir nur zwei Sequenzen, S1 und S2, innerhalb der Ähnlichkeitsschwelle (angezeigt durch Verknüpfung mit einem Balken) beobachten, werden sie zu einer einzigen OTU (OTU1) zusammengefasst. Wir fügen dann drei weitere Sequenzen hinzu, S3, S4 und S5, die mit S1 oder S2 verknüpft werden könnten, aber mehrere paarweise Abstände überschreiten den Schwellenwert (diese Paare sind nicht durch Balken verknüpft). Per Definition von CL müssen paarweise Abstände für alle Sequenzen, die einer einzelnen OTU zugewiesen sind, innerhalb der Abstandsschwelle liegen, wodurch S1 und S2 in OTU2 und OTU3 getrennt werden können. OTU1 verschwindet bei dieser Sequenzierungstiefe und seine Sequenzen werden zwei verschiedenen OTUs zugewiesen, was das Problem der OTU-Instabilität veranschaulicht. Theoretisch neigt das Hinzufügen weiterer Sequenzen dazu, vorhandene OTUs zu teilen, wenn der CL-Algorithmus verwendet wird. Wenn Sie also mit einem größeren Dataset im Vergleich zu einem kleineren Dataset gruppiert werden, werden dieselben Sequenzen in mehr OTUs gruppiert. Dies führt zu einer Steilheit der Verdünnungskurve, die aus der größeren Probe abgeleitet wird, und zu der Schlussfolgerung, dass sie eine höhere Alpha-Diversität aufweist. Verdünnungskurven, die sich aus CL ergeben, sind daher empfindlicher für die Sequenziertiefe. Obwohl dieser Effekt schwach ist, veranschaulicht er immer noch teilweise, warum in einigen Fällen das Sammeln einer Anzahl von Sequenzen, die auf einer kleineren Stichprobengröße basieren, eine Verdünnungskurve erzeugen würde, die ein Plateau erreicht, und stattdessen eine kontinuierlich ansteigende Verdünnungskurve erzeugt wird. Dieses Phänomen, dass eine Person einfach aufgrund einer erhöhten oder verringerten Abtasttiefe verschiedenen OTUs zugeordnet wird, ist offensichtlich problematisch. Eine analoge Situation, die auf der traditionellen (Makro-) Ökologie basiert, wäre, wenn die Zählung unterschiedlicher Vogelzahlen innerhalb eines festen Gebiets dazu führen würde, dass neu definiert wird, welche einzelnen Vögel sich als Art zusammenschließen. Die oben beschriebene Instabilität ist jedoch nicht auf die gelegentliche Identifizierung neuer Arten zurückzuführen, wie dies in der traditionellen Ökologie der Fall sein könnte. Im Gegensatz dazu treten diese Änderungen der OTU-Mitgliedschaft systematisch innerhalb eines großen Teils der Sequenzen auf, die zwischen OTUs neu zugewiesen werden.

Um die Wirkung instabiler OTUs auf die biologische Interpretation weiter zu untersuchen, untersuchten wir als nächstes die Beta-Diversität mithilfe der Ordination. Unter Verwendung der Hauptkoordinatenanalyse (PCoA) verglichen wir die mikrobiellen Gemeinschaften mit dem vollständigen Datensatz unter Verwendung von Teilstichproben, die 60% des vollständigen Datensatzes umfassten. Wir haben dieses Subsampling 30 Mal wiederholt, um Replikate zu erstellen. Anschließend verwendeten wir CL-Clustering, um alle Teilstichproben sowie den gesamten Datensatz zu clustern, und kombinierten die Clusterergebnisse nach repräsentativer OTU-Sequenz (definiert als die am häufigsten vorkommende Sequenz in jeder OTU). Die Stichproben wurden dann zufällig verdünnt, um 30.000 Sequenzen pro Stichprobe einzuschließen, einschließlich der 30 Replikatverdünnungen, die sich aus dem Clustering des gesamten Datensatzes ergaben. Nach der Verdünnung enthielten alle Proben die gleiche Anzahl von Sequenzen, so dass die einzigen Unterschiede zwischen ihnen die Anzahl der Sequenzen waren, die anfänglich gruppiert waren. PCoA zeigte, dass diese Proben nach der Anzahl der Sequenzen getrennt wurden, die anfänglich gruppiert wurden, was darauf hinweist, dass die OTU-Instabilität dazu führt, dass dieselben Proben unterschiedliche Zusammensetzungen zu haben scheinen (Abbildung 1c). Ein ähnliches Ergebnis wurde beim Vergleich der 20% -, 40% – und 80% -Teilstichproben mit dem vollständigen Datensatz beobachtet (Zusätzliche Datei 2: Abbildung S1). Darüber hinaus wurden 125 OTUs (nach FDR-Korrektur (False Discovery Rate)) und 26 OTUs (nach Bonferroni-Korrektur) mit dem Mann-Whitney-U-Test als signifikant unterschiedlich zwischen diesen beiden Gruppen bestimmt. Wir haben auch den Effekt instabiler OTUs auf die Berechnung der taxonomischen Zusammensetzung getestet und festgestellt, dass der Effekt sehr begrenzt ist (Zusätzliche Datei 3: Abbildung S2 und zusätzliche Datei 4). Dies liegt daran, dass diese OTUs aufgrund ihrer phylogenetischen Nähe immer noch denselben Taxa zugeordnet sind, obwohl sie sich ändern, wenn mehr Sequenzen unter Verwendung von CL hinzugefügt werden (siehe auch unten im Abschnitt über die Toleranz von PCoA gegenüber der Verwendung phylogenetischer Metriken mit instabilen OTUs).

Alternative hierarchische und gierige Clustering-Methoden erzeugen auch instabile OTUs

Alle hierarchischen Methoden, die zur Bestimmung der OTU-Mitgliedschaft verwendet werden, basieren auf paarweisen Abständen zwischen den Sequenzen in OTUs. Für das CL-Clustering muss der paarweise Abstand zwischen allen Sequenzen in einer OTU innerhalb des Abstandsschwellenwerts liegen. SL-Clustering (Single Linkage) erfordert, dass der paarweise Abstand zwischen einem beliebigen Sequenzpaar in einer OTU innerhalb des Abstandsschwellenwerts liegt. Average Linkage (AL) -Clustering erfordert, dass die durchschnittlichen paarweisen Abstände zwischen allen Sequenzen in einer OTU innerhalb des Abstandsschwellenwerts liegen. Wie bei der Verwendung von SL-Clustering zu erwarten wäre (Abbildung 2a), neigen OTUs dazu, zusammengeführt zu werden, wenn mehr Sequenzen hinzugefügt werden, was das Gegenteil des Spaltungsproblems ist, das bei CL beobachtet wird. Dementsprechend werden mit SL erstellte Verdünnungskurven mit zunehmender Größe der Teilstichprobe weniger steil (Abbildung 2b). Die Beta-Diversität wird auch durch instabiles SL-Clustering von OTUs beeinflusst (Abbildung 2c). Zum Beispiel wurden 167 OTUs (nach FDR-Korrektur) und 36 OTUs (nach Bonferroni-Korrektur) bestimmt, um sowohl in der 60% -Teilstichprobe als auch im gesamten Datensatz differentiell dargestellt zu werden.

Abbildung 2
 abbildung2

Prinzipien, die dem Clustering instabiler Einzelverknüpfungen (SL), Verdünnungskurven und PCoA basierend auf der Bray-Curtis-Entfernung zugrunde liegen. (a) Prinzipien, die dem instabilen SL-Clustering in zwei Probentiefen zugrunde liegen. Weiße Kreise zeigen einzelne Sequenzen an, die sowohl in der kleinen als auch in der großen Teilstichprobe enthalten waren, und dunkle Kreise zeigen Sequenzen an, die nur in der großen Teilstichprobe hinzugefügt werden. Linien kennzeichnen Sequenzpaare mit Abständen gleich oder kleiner als der Schwellenwert, die daher zu einer einzigen OTU verknüpft werden könnten. Große Kreise in Rot oder Blau zeigen OTUs in der kleinen bzw. der großen Teilstichprobe an. (b, d) Verdünnungskurven erzeugt mit SL (b) und average Linkage (AL) (d) Clustering in fünf verschiedenen Tiefen. (c, e) PCoA basierend auf der Bray-Curtis-Distanz, Vergleich von 60% Teilstichproben mit den vollständigen Datensätzen unter Verwendung von SL (c) und AL (e). Alle Teilproben wurden auf 30.000 Sequenzen pro Probe verdünnt, um in diese Analyse einbezogen zu werden.

Die durch diese Verknüpfung erzeugte Instabilität ist komplizierter, da sowohl OTU-Splitting als auch OTU-Merging auftreten können. Diese widersprüchlichen Effekte führen zu subtileren Unterschieden in den OTU-Zählungen, und die resultierenden Verdünnungskurven, die mit AL erzeugt werden, überlappen sich in verschiedenen Tiefen (Abbildung 2d). Darüber hinaus sind die AL-OTUs selbst aufgrund der großen Anzahl von OTU-Splitting- und Merging-Ereignissen instabil (Zusätzliche Datei 5: Abbildung S3). Obwohl diese instabilen OTUs die Beta-Diversität beeinflussen (Adonis, R = 0.16, P = 0.001), scheint die Haupttrennung in PCoA durch andere Faktoren als die Stichprobengröße verursacht zu werden; zum Beispiel die mögliche Einbeziehung von Unterschieden, die sich aus der Eingabereihenfolge der Sequenzen oder dem Vorhandensein oder Fehlen bestimmter Schlüsselsequenzen innerhalb verschiedener Teilsamples ergeben (Abbildung 2e). Diese Beobachtung kann sich aus der Empfindlichkeit von AL gegenüber der Reihenfolge der Eingabesequenzen ergeben, was zu unterschiedlichen Clusteringmustern führen würde. Bei Verwendung von AL wurden 804 OTUs (nach FDR-Korrektur) und 5 OTUs (nach Bonferroni-Korrektur) über die beiden Probentiefen differentiell dargestellt.

Gieriges Clustering, wie es in USEARCH implementiert ist, ist eine weitere häufig verwendete De-Novo-Clustering-Methode, die recheneffizienter ist als CL, SL und AL. Bei Verwendung von gierigem Clustering muss eine Sequenz innerhalb des Entfernungsschwellenwerts eines einzelnen OTU-Schwerpunkts liegen, um in dieser OTU geclustert zu werden. Darüber hinaus werden Sequenzen in einer definierten Reihenfolge verarbeitet, und jede Abfragesequenz wird entweder einer vorhandenen OTU oder als Schwerpunkt einer neuen OTU zugewiesen. Wenn eine Abfragesequenz innerhalb des Abstandsschwellenwerts mehrerer vorhandener OTU-Schwerpunkte liegt, kann sie entweder dem nächstgelegenen Schwerpunkt (hier als entfernungsbasiertes gieriges Clustering (DGC) bezeichnet) oder dem am häufigsten vorkommenden Schwerpunkt (hier als abundanzbasiertes gieriges Clustering (AGC) bezeichnet) zugewiesen werden (Zusätzliche Datei 1). Es gibt alternative Ansätze, um solche Bindungen aufzubrechen; Wir haben uns jedoch entschlossen, unseren Fokus auf diejenigen zu beschränken, die am häufigsten eingesetzt werden. In der vorliegenden Studie bewerten wir USEARCH als Methode für gieriges Clustering (wir haben UPARSE nicht bewertet, da sein Clustering-Algorithmus mit dem in USEARCH verwendeten übereinstimmt).

OTU-Instabilität ist auch ein Problem bei gierigen Clustering-Methoden und tritt aus mehreren Quellen auf. Erstens hängt die Anzahl der Schwerpunkte stark von der Reihenfolge ab, in der Sequenzen verarbeitet werden. Wenn die Größe einer Probe geändert wird, kann daher auch die Reihenfolge der Sequenzen geändert werden. Zweitens können bei Verwendung von DGC die hinzugefügten Sequenzen zu neuen Schwerpunkten werden und Mitglieder aus vorhandenen OTUs anziehen, selbst wenn die Auswahl der Schwerpunkte bei zunehmender Stichprobengröße stabil bleibt (dies wird in AGC im Allgemeinen nicht der Fall sein). Stellen Sie sich beispielsweise vor, dass S10, S11 und S12 OTU7 mit S10 als Schwerpunkt bilden (Abbildung 3a, b). Wenn in einem nachfolgenden Sequenzierungslauf eine andere Sequenz, S13, hinzugefügt wird, kann die Verarbeitungsreihenfolge der größeren Probe zu S10, S13, S11 und S12 werden. In diesem Fall wird S10 immer noch ein Schwerpunkt sein, aber S13 wird auch ein Schwerpunkt. S13 rekrutiert dann S11, da der Abstand zwischen den beiden kleiner ist als der Abstand zwischen S11 und S10. In DGC wird S11 am Ende mit S13 und nicht mit S10 gruppiert, und das ursprüngliche OTU7 wird in OTU8 und OTU9 aufgeteilt (Abbildung 3a). In AGC wird S11 weiterhin mit S10 gruppiert und das ursprüngliche OTU7 behält seine ursprüngliche Struktur bei (Abbildung 3b).

Abbildung 3
 abbildung3

Prinzipien, die dem instabilen entfernungsbasierten gierigen Clustering (DGC) und dem abundanzbasierten gierigen Clustering (AGC) zugrunde liegen, Verdünnungskurven und PCoA basierend auf der Bray-Curtis-Entfernung. (a, b) Prinzipien, die instabilen DGC (a) und AGC (b) in zwei Probentiefen zugrunde liegen. Weiße Kreise zeigen einzelne Sequenzen an, die sowohl in der kleinen als auch in der großen Teilstichprobe enthalten waren, und dunkle Kreise zeigen Sequenzen an, die nur in der großen Teilstichprobe hinzugefügt wurden. Gelbe Punkte zeigen OTU-Schwerpunkte an. Linien kennzeichnen Sequenzpaare mit Abständen gleich oder kleiner als der Schwellenwert, die daher zu einer einzigen OTU verknüpft werden könnten. Große Kreise in Rot oder Blau zeigen OTUs in der kleinen bzw. der großen Teilstichprobe an. (c, d) Verdünnungskurven erzeugt mit DGC (c) und AGC (d) in fünf verschiedenen Tiefen. (e, f) PCoA basierend auf der Bray-Curtis-Distanz, Vergleich von 60% Teilstichproben mit den vollständigen Datensätzen unter Verwendung von AGC (e) und DGC (f). Alle Teilproben wurden auf 30.000 Sequenzen pro Probe verdünnt, um in diese Analyse einbezogen zu werden.

Wir verwendeten gieriges Clustering auf Alpha-Verdünnungskurven und Beta-Diversity-PCoA, um die von instabilen OTUs erzeugten Effekte zu analysieren. Wie oben erwähnt, leiden DGC und AGC beide unter der Schwerpunktänderbarkeit (dieser Effekt ist nicht auf OTU-Spaltung oder -Verschmelzung ausgerichtet), und DGC leidet zusätzlich unter der Spaltung bestehender OTUs. Infolgedessen erzeugten DGC- und CL-Clustering ähnliche Kurven, die mit zunehmender Größe der Teilstichprobe steiler wurden (Abbildung 3c). Im Gegensatz dazu erzeugte AGC überlappende Kurven, die von der Tiefe nicht beeinflusst wurden (Abbildung 3d). Wie beim AL-Clustering bedeutet dies jedoch nicht, dass die OTUs stabil waren, sondern nur, dass ähnliche Anzahlen von (möglicherweise unterschiedlichen) OTUs in den verschiedenen Subsampling-Tiefen erhalten wurden. Die instabilen OTUs, die in DGC- und AGC-Effektschätzungen der Beta-Diversität erzeugt wurden (Abbildung 3e, f). Im Fall von AGC wurden 392 OTUs (nach FDR-Korrektur) und 14 OTUs (nach Bonferroni-Korrektur) als differentiell über die beiden Tiefen hinweg dargestellt, und im Fall von DGC waren diese Zahlen 370 bzw. 15.

Um die Unterschiede zwischen diesen instabilen Methoden zu quantifizieren, verglichen wir den Anteil instabiler Sequenzen und instabiler OTUs (Abbildung 4a, b; Zusätzliche Datei 6: Tabelle S1). CL erzeugte den höchsten Anteil instabiler Sequenzen (ungefähr 22%), während AL (13%) und AGC (12%) etwas besser abschnitten als SL (15%) und DGC (14%). Diese Ergebnisse waren beim Vergleich der Verwendung alternativer Datensätze nicht immer konsistent (Zusätzliche Datei 7: Abbildung S6); AGC zeigte jedoch im Allgemeinen die beste Leistung im Vergleich zu den anderen de-novo-Methoden. Für instabile OTUs produzierten CL und DGC den höchsten Anteil an instabilen OTUs: Ungefähr 60% der OTUs mit Schwerpunkten mit Frequenzen größer oder gleich 10 wurden bei jeder der Methoden als instabil beobachtet (> 90% wurden bei der Analyse bestimmter Datensätze als instabil befunden, wie in Zusätzlicher Datei 7: Abbildung S6 gezeigt). AL und SL sind stabiler als CL oder DGC, führten jedoch immer noch zu einer OTU-Instabilität von mehr als 30% für Zentroide, die mindestens 10-mal beobachtet wurden. AGC erwies sich als die stabilste De-Novo-Methode, insbesondere für OTUs mit sehr häufigen Schwerpunkten.

Abbildung 4
 abbildung4

Anteil instabiler Sequenzen, Anteil instabiler OTUs und MCC-Wert jeder Methode. (a) Anteil instabiler Sequenzen, wie sie durch die Methode erzeugt werden. Instabile Sequenzen sind als Sequenzen definiert, die in der 60% -Teilstichprobe auf einen Schwerpunkt gruppiert sind, aber im 100% -Datensatz (vollständig) auf einen anderen Schwerpunkt gruppiert sind. (b) Anteil instabiler OTUs, der nach Methode und Häufigkeit der Clusterschwerpunkte erzeugt wird (die Werte für geschlossene Referenz und Dereplikation sind Null und daher in dieser Abbildung nicht enthalten). Wenn eine OTU in den 60% – und 100% -Datensätzen identisch war (ohne Sequenzen, die nicht in der 60% -Teilstichprobe vorhanden sind), wird sie als stabil definiert. (c) MCC-Wert jeder Methode. Höhere Werte entsprechen einer größeren Stabilität.

Eine De-Novo-Clustering-Methode, die stabile OTUs erzeugt, ist die Dereplikation oder das Clustering von Sequenzen, die identisch und gleich lang sind (Zusätzliche Datei 8: Abbildung S4a). Wie beim OTU-Clustering mit geschlossener Referenz bleiben alle OTUs über verschiedene Sequenzierungstiefen hinweg absolut stabil, da das Clustering nicht von der Zusammensetzung der zu clusternden Sequenzsammlung beeinflusst wird. Infolgedessen überlappen sich die durch Dereplikation erzeugten Verdünnungskurven über verschiedene Tiefen (zusätzliche Datei 8: Abbildung S4b), und die Beta-Diversität wird durch die Größe der Teilstichproben nicht beeinflusst (Zusätzliche Datei 8: Abbildung S4c). Darüber hinaus wird festgestellt, dass sich keine einzige OTU zwischen den beiden Gruppen signifikant unterscheidet. Es ist wichtig zu beachten, dass die Dereplikation sehr anfällig für die Identifizierung falscher OTUs ist, die aus Sequenzierungsfehlern resultieren. Aufgrund seiner Stabilität beim Binning von OTUs erzeugt es auch überlappende Verdünnungskurven über verschiedene Tiefen hinweg, was darauf hinweist, dass instabile OTUs (anstelle von Sequenzierungsfehlern) die Hauptursache für nicht überlappende Verdünnungskurven sind. Darüber hinaus legt die Stabilität der Dereplizierungsmethode nahe, dass eine höhere Ähnlichkeitsschwelle für das Clustering das Auftreten instabiler OTUs verringern kann, da De-Novo-Clustering-Methoden der Dereplizierung ähnlicher werden, wenn die Ähnlichkeitsschwelle ansteigt. In der Praxis führt das Dereplizierungs-Clustering zu einer hohen Anzahl von OTUs, deren Verwendung nachgelagert rechenintensiv ist. Moderne Datensatzgrößen hindern uns daher daran, mit Sequenzen zu arbeiten, die nur derepliziert wurden. Es ist möglich, dass zukünftige Methoden Ansätze verwenden, die auf der Dereplikation basieren, um das Problem der OTU-Instabilität zu bewältigen. Ein anderes Extrembeispiel wäre das Clustern aller Sequenzen zu einer OTU, während diese OTU absolut stabil bleibt. Im Gegensatz zur Dereplikation können OTUs jedoch für weitere Analysen wie Alpha-Diversität, Beta-Diversität und taxonomische Zusammensetzung verwendet werden. Darüber hinaus kann das Clustern aller Sequenzen zu einer OTU kaum als Clustering bezeichnet werden und ist für die Downstream-Analyse völlig unbrauchbar.

Referenzbasierte Methoden minimieren das Problem instabiler OTUs

Ein Merkmal, das alle instabilen Clustering-Methoden gemeinsam haben, ist, dass Clusterdefinitionen von den Eingabesequenzen abhängig sind. Das OTU-Clustering mit geschlossener Referenz vermeidet diese Abhängigkeit mit einer großen praktischen Einschränkung: Während des OTU-Clusters mit geschlossener Referenz werden Lesevorgänge gegen einen Referenzdatensatz (z. B. die Greengenes-Datenbank) mit vorberechneten Schwerpunkten gruppiert, und während des Clusters werden keine neuen Schwerpunkte erstellt, was zu vollkommen stabilen OTUs führt (Abbildung 5a). Infolgedessen werden Alpha- und Beta-Diversitätsschätzungen, die auf Closed-Reference-Clustering basieren, nicht von der Größe der Proben beeinflusst (Abbildung 5b, c), und es wird festgestellt, dass sich keine OTUs zwischen den beiden Tiefen signifikant unterscheiden. Neben der Erzeugung stabiler OTUs bietet Closed-Reference-Clustering mehrere weitere praktische Funktionen. Erstens können die Namen der Referenzsequenzen als universelle OTU-Identifikatoren verwendet werden, anstatt willkürlich zugewiesene Namen zu verwenden, wodurch der direkte Vergleich von OTUs über Studien hinweg erleichtert wird. Zweitens können Sequenzlesungen aus verschiedenen Markergenregionen zusammengefasst werden, wenn der Referenzdatensatz aus Markergenen voller Länge besteht. Schließlich kann Closed-Reference-Clustering OTU-Clustering für große Datensätze parallelisieren. Die Haupteinschränkung des OTU-Clusters mit geschlossener Referenz besteht darin, dass Lesevorgänge, die außerhalb des Ähnlichkeitsschwellenwerts für Referenzschwerpunkte liegen, verworfen werden, sodass nur die OTUs beobachtet werden können, die bereits in der Datenbank dargestellt sind. Bei der Verarbeitung des Canada Soil-Datensatzes konnten ungefähr 14% der Sequenzen nicht mit den Referenzsequenzen abgeglichen werden und wurden daher nach dem Clustering verworfen. Diese Einschränkung des OTU-Clusters mit geschlossener Referenz kann trivial werden, wenn projizierte Verbesserungen an Referenzdatensätzen vorgenommen werden, was dazu führt, dass die entsprechenden Referenzen, die für bestimmte Forschungsprojekte (z. B. das Darmmikrobiom) benötigt werden, höher entwickelt werden.

Abbildung 5
 abbildung5

Prinzipien, die stabilem Closed-Reference-Clustering, Verdünnungskurven und PCoA basierend auf der Bray-Curtis-Distanz zugrunde liegen. (a) Prinzipien, die einer stabilen Clusterbildung mit geschlossener Referenz in zwei Stichprobentiefen zugrunde liegen. Weiße Kreise zeigen einzelne Sequenzen an, die sowohl in der kleinen als auch in der großen Teilstichprobe enthalten waren, und dunkle Kreise zeigen Sequenzen an, die nur in der großen Teilstichprobe hinzugefügt wurden. Diamanten zeigen Referenzsequenzen an. Linien kennzeichnen Sequenzpaare mit Abständen gleich oder kleiner als der Schwellenwert, die daher zu einer einzigen OTU verknüpft werden könnten. Große Kreise in Rot oder Blau zeigen OTUs in der kleinen bzw. der großen Teilstichprobe an. (b) Verdünnungskurven, die mit Closed-Reference-Clustering in fünf verschiedenen Tiefen erzeugt wurden. (c) PCoA basierend auf der Bray-Curtis-Distanz, Vergleich von 60% Teilstichproben mit den vollständigen Datensätzen unter Verwendung eines geschlossenen Referenzclusters. Alle Teilproben wurden auf 30.000 Sequenzen pro Probe verdünnt, um in diese Analyse einbezogen zu werden.

Um die Einschränkungen des OTU-Clusters mit geschlossener Referenz zu überwinden, kann das OTU-Clustering mit offener Referenz verwendet werden. Das Clustering mit offener Referenz beginnt auf dieselbe Weise wie das Clustering mit geschlossener Referenz, clustert jedoch weiterhin die Sequenzen, die nicht mit der Referenzsammlung übereinstimmen, de novo. Obwohl bestehende De-Novo-Clustering-Methoden instabile OTUs erzeugen, kann das Open-Reference-Clustering viel stabiler sein als solche Methoden, da viele Sequenzen anfänglich durch den Closed-Reference-Ansatz geclustert werden. Wir haben die OTU-Stabilität im Open-Reference-Clustering mit AGC für den De-Novo-Clustering-Schritt bewertet (Abbildung 4a, b, c) und festgestellt, dass dies eine viel effektivere Methode ist als die Verwendung von De-Novo-Methoden allein. Die Mehrheit der instabilen OTUs waren Sequenzen mit geringer Häufigkeit ohne Referenzübereinstimmung (eine Kategorie von Sequenzen, die allgemein als fehleranfällig angesehen wird). Open-Reference-OTU-Clustering erzeugt überlappende Verdünnungskurven (Zusätzliche Datei 9: Abbildung S5a), und obwohl die Instabilität des Open-Reference-OTU-Clusters die PCoA-Analyse weiterhin beeinflusst (zusätzliche Datei 9: Abbildung S5b) ist der PC- und R-Wert (nach ADONIS, R = 0,03) niedriger als bei jeder anderen De-Novo-Methode allein, ebenso wie die Anzahl der OTUs, die in den beiden Gruppen differentiell dargestellt werden (104 OTUs nach FDR-Korrektur und 2 OTUs nach Bonferroni-Korrektur). Wir verglichen Open-Reference-Clustering-Methoden mit anderen De-Novo-Methoden für zusätzliche Datensätze, wobei wir uns auf den Anteil instabiler Sequenzen und instabiler OTUs konzentrierten, und stellten fest, dass diese Ergebnisse im Allgemeinen über Umgebungstypen und Sequenzierungstechnologien hinweg konsistent sind (Zusätzliche Datei 7: Abbildung S6).

Zusätzlich zur Quantifizierung der Instabilität von OTUs verwendeten wir den MCC-Index, um zu untersuchen, wie sich das Clustering von Sequenzpaaren basierend auf dem Clustering des gesamten Datensatzes im Vergleich zur 60% -Teilmenge änderte (Abbildung 4b, Zusätzliche Datei 6: Tabelle S2). Es ist klar, dass die beiden referenzbasierten Methoden und das Dereplikationsclustering nach dieser Metrik die höchste Stabilität aufweisen und dass AGC die stabilste der De-novo-Clustering-Methoden ist (Kruskal-Wallis-Test, P < 0,05). AL hatte den niedrigsten MCC-Wert, was darauf hinweist, dass sich das Clustering vieler Sequenzpaare bei Verwendung dieser Methode geändert hat. Alternativ erzeugte SL einen höheren MCC-Wert als die meisten de-Novo-Methoden, einschließlich AL und CL. Nichtsdestotrotz ist ein Teil des Grundes für den hohen MCC-Wert von SL, dass sein FP-Wert gleich 0 ist (Sequenzen, die in einer kleineren Teilstichprobe getrennt sind, werden in einer größeren Teilstichprobe zu einer einzigen OTU zusammengeführt, aber die umgekehrte Situation tritt überhaupt nicht auf). Daher sollte SL aufgrund seiner schwerwiegenden Probleme mit der OTU-Zusammenführung nicht als viel stabilere Methode angesehen werden.

Phylogenetische Beta-Diversity-Metriken minimieren den Effekt der OTU-Instabilität

Im Gegensatz zu nicht-phylogenetischen Metriken, bei denen alle OTUs als gleichermaßen unähnlich angesehen werden, berücksichtigen phylogenetische Metriken wie UniFrac die phylogenetische Beziehung zwischen OTUs bei der Berechnung der Abstände zwischen Proben. Instabile OTU-Clustering-Methoden verschieben Sequenzen zwischen OTUs, die normalerweise evolutionär eng miteinander verwandt sind, so dass der berechnete Abstand zwischen Proben im Allgemeinen ähnlicher bleiben sollte als bei Verwendung nicht phylogenetischer Diversitätsmetriken. Wir haben den Effekt instabiler OTUs auf die Beta-Diversität anhand von CL, SL, AL, AGC und DGC basierend auf der UniFrac-Entfernung erneut analysiert (Zusätzliche Datei 10: Abbildung S7). Die Ergebnisse zeigen, dass instabile OTUs von CL, AGC, und DGC beeinflussen die Beta-Diversität mithilfe der UniFrac-Entfernung minimal, Bestätigung der Hypothese, dass, wenn Sequenzen zwischen eng verwandten OTUs mit diesen instabilen Methoden wechseln, Phylogenetische Metriken sind toleranter gegenüber dieser Instabilität. Dennoch können beim SL-Clustering entfernt verwandte OTUs letztendlich zu einer einzigen OTU zusammengefügt werden, so dass die Beta-Diversität auch bei Verwendung der UniFrac-Entfernung beeinträchtigt werden kann. In AL, Die Haupttrennung wird immer noch durch unterschiedliche Clustermuster verursacht, wie bei den nicht phylogenetischen Metriken.

You might also like

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.