Stabilité des unités taxonomiques opérationnelles: une propriété importante mais négligée pour l’analyse de la diversité microbienne

Modification de l’appartenance des OTU à différentes profondeurs de séquençage (instabilité des OTU) – une propriété négligée mais importante pour les analyses de la diversité microbienne

Pour illustrer le problème créé par les OTU instables, nous avons reproduit les courbes de raréfaction sans chevauchement en utilisant le même ensemble de données (Ensemble de données sur les sols du Canada) et la même méthode de regroupement (regroupement complet de liaisons, appelé regroupement CL) utilisée par Roesch et al. (Figure 1a). Nous avons sous-échantillonné aléatoirement les séquences brutes à quatre profondeurs de séquençage (20%, 40%, 60%, et 80% des séquences d’entrée) en utilisant 30 répliques de chacune. Nous avons ensuite utilisé le regroupement de liaisons complètes (CL) pour regrouper chacun des sous-échantillons (les définitions de toutes les méthodes de regroupement se trouvent dans le fichier supplémentaire 1) et généré des courbes de raréfaction pour chaque profondeur d’échantillonnage. Dans le cas du clustering CL, la courbe de raréfaction produite par un sous-échantillon plus grand est plus raide que celle produite par un sous-échantillon plus petit.

Un objectif lors de la génération de courbes de raréfaction est de prendre en charge l’interpolation, ce qui signifie que si nous créons une courbe de raréfaction à partir d’un ensemble de données complet, nous aimerions utiliser cette courbe pour déterminer combien d’espèces seraient observées pour un nombre de séquences inférieur au total. Par exemple, lorsque nous interpolons à partir de la courbe de raréfaction créée à partir d’un ensemble de données complet, nous estimons que nous avons environ 4 500 espèces si nous sélectionnons au hasard 30 000 séquences de l’ensemble de données complet (point A de la figure 1a). Le problème que posent les courbes de raréfaction sans chevauchement pour l’interpolation, cependant, est que si nous sous-échantillonnions au hasard 30 000 séquences à partir d’un sous-échantillon de 80% de l’ensemble de données complet, nous estimerions que seules 4 200 espèces sont représentées par ces 30 000 séquences (point B de la figure 1a). Ce scénario serait essentiellement vrai dans les cas où seulement quelques séquences ont été collectées par échantillon, un phénomène qui entre en conflit avec le comportement attendu des courbes de raréfaction.

Nous avons observé que le non-chevauchement des courbes de raréfaction, comme illustré à la figure 1a, est en fait causé par l’instabilité des méthodes de clustering OTU. En d’autres termes, le cluster auquel une séquence est affectée peut être affecté par le nombre de séquences en cluster. Une illustration de cette hypothèse est illustrée à la figure 1b. Si nous n’observons que deux séquences, S1 et S2, dans le seuil de similarité (indiqué par une liaison avec une barre), elles sont regroupées en une seule OTU (OTU1). Nous ajoutons ensuite trois autres séquences, S3, S4 et S5, qui pourraient être liées à S1 ou à S2, mais plusieurs distances par paires dépassent le seuil (ces paires ne sont pas liées par des barres). Par définition de CL, les distances par paires pour toutes les séquences affectées à une seule OTU doivent correspondre au seuil de distance, ce qui pourrait permettre de séparer S1 et S2 en OTU2 et OTU3. OTU1 disparaît à cette profondeur de séquençage, et ses séquences sont réaffectées à deux OTU différentes, illustrant le problème de l’instabilité des OTU. Théoriquement, l’ajout de plus de séquences a tendance à diviser les OTU existantes lors de l’utilisation de l’algorithme CL. Par conséquent, lorsqu’elles sont regroupées avec un ensemble de données plus grand par rapport à un ensemble de données plus petit, les mêmes séquences seront regroupées en plus d’OTU. Cela se traduira par un raidissement de la courbe de raréfaction qui est dérivée de l’échantillon plus grand et la conclusion qu’il a une diversité alpha plus élevée. Les courbes de raréfaction issues de CL sont donc plus sensibles à la profondeur de séquençage. Bien que cet effet soit faible, il illustre encore partiellement pourquoi, dans certains cas, la collecte d’un certain nombre de séquences basées sur une taille d’échantillon plus petite devrait produire une courbe de raréfaction qui atteint un plateau, et à la place une courbe de raréfaction qui augmente continuellement est produite. Ce phénomène d’assignation d’un individu à différents OTU simplement en raison de l’augmentation ou de la diminution de la profondeur d’échantillonnage est évidemment problématique. Une situation analogue basée sur l’écologie traditionnelle (à l’échelle macro) serait si le comptage de différents nombres d’oiseaux dans une zone fixe conduisait à redéfinir quels oiseaux individuels se regroupent en tant qu’espèce. Cependant, l’instabilité décrite ci-dessus n’est pas due à l’identification occasionnelle d’espèces nouvelles, comme cela pourrait être le cas en écologie traditionnelle. En revanche, ces changements d’appartenance à l’OTU se produisent systématiquement dans une grande proportion des séquences réaffectées entre OTU.

Pour étudier plus en détail l’effet des OTU instables sur l’interprétation biologique, nous avons ensuite exploré la diversité bêta en utilisant l’ordination. En utilisant l’Analyse des coordonnées principales (PCoA), nous avons comparé les communautés microbiennes à l’ensemble de données complet en utilisant des sous-échantillons comprenant 60% de l’ensemble de données complet. Nous avons répété ce sous-échantillonnage 30 fois pour créer des répliques. Nous avons ensuite utilisé le clustering CL pour regrouper tous les sous-échantillons, ainsi que l’ensemble de données complet, et avons combiné les résultats du clustering par séquence OTU représentative (définie comme la séquence la plus abondante dans chaque OTU). Les échantillons ont ensuite été raréfiés au hasard pour inclure 30 000 séquences par échantillon, y compris les 30 raréfactions répliquées résultant du regroupement de l’ensemble de données complet. Après raréfaction, tous les échantillons contenaient le même nombre de séquences de sorte que les seules différences entre eux étaient le nombre de séquences initialement regroupées. Le PCoA a démontré que ces échantillons se séparaient en fonction du nombre de séquences qui étaient initialement groupées, ce qui indique que l’instabilité de l’OTU fait que les mêmes échantillons semblent avoir des compositions différentes (figure 1c). Un résultat similaire a été observé en comparant les sous-échantillons de 20 %, 40 % et 80 % à l’ensemble de données complet (fichier supplémentaire 2: Figure S1). De plus, il a été déterminé que 125 OTU (après correction du taux de fausses découvertes (FDR)) et 26 OTU (après correction de Bonferroni) étaient significativement différents entre ces deux groupes en utilisant le test U de Mann-Whitney. Nous avons également testé l’effet des OTU instables sur le calcul de la composition taxonomique et constaté que l’effet était très limité (fichier supplémentaire 3: Figure S2 et fichier supplémentaire 4). En effet, ces OTU sont toujours assignés aux mêmes taxons en raison de leur proximité phylogénétique, malgré le fait qu’ils changent lorsque plus de séquences sont ajoutées en utilisant CL (également discuté ci-dessous dans la section détaillant la tolérance de PCoA à l’utilisation de métriques phylogénétiques avec des OTU instables).

Des méthodes de clustering hiérarchiques et gourmandes alternatives produisent également des OTU instables

Toutes les méthodes hiérarchiques utilisées pour déterminer l’appartenance à des OTU sont basées sur des distances par paires entre les séquences dans les OTU. Le clustering CL nécessite que la distance par paires entre toutes les séquences d’une OTU corresponde au seuil de distance. Le regroupement de liaisons simples (SL) nécessite que la distance par paires entre n’importe quelle paire de séquences dans une OTU s’adapte au seuil de distance. Le regroupement de liaisons moyennes (AL) nécessite que les distances par paires moyennes entre toutes les séquences d’une OTU s’adaptent au seuil de distance. Comme on pourrait s’y attendre lors de l’utilisation du clustering SL (figure 2a), les OTU ont tendance à être fusionnées lorsque plus de séquences sont ajoutées, ce qui est le contraire du problème de division observé avec CL. En conséquence, les courbes de raréfaction créées à l’aide de SL deviennent moins raides à mesure que la taille du sous-échantillon augmente (figure 2b). La diversité bêta est également affectée par le regroupement instable des OTU (Figure 2c). Par exemple, il a été déterminé que 167 OTU (après correction du FDR) et 36 OTU (après correction de Bonferroni) étaient représentés de manière différentielle à la fois dans le sous-échantillon de 60 % et dans l’ensemble de données complet.

Figure 2
 figure2

Principes sous-jacents au regroupement de liaisons simples instables (SL), aux courbes de raréfaction et au PCoA basés sur la distance de Bray-Curtis. a) Principes sous-jacents au regroupement instable des SL à deux profondeurs d’échantillonnage. Les cercles blancs indiquent des séquences individuelles qui ont été incluses dans les sous-échantillons petits et grands, et les cernes indiquent des séquences qui ne sont ajoutées que dans le sous-échantillon grand. Les lignes indiquent des paires de séquences de distances égales ou inférieures au seuil, qui pourraient donc être liées en une seule OTU. De grands cercles en rouge ou en bleu indiquent les OTU dans les petits et les grands sous-échantillons, respectivement. (b, d) Courbes de raréfaction générées avec SL (b) et liaison moyenne (AL) (d) groupées à cinq profondeurs différentes. (c, e) PCoA basé sur la distance de Bray-Curtis, comparant des sous-échantillons à 60% avec les ensembles de données complets en utilisant SL(c) et AL(e). Tous les sous-échantillons ont été raréfiés à 30 000 séquences par échantillon pour être inclus dans cette analyse.

L’instabilité produite par la liaison moyenne est plus compliquée car la division OTU et la fusion OTU peuvent se produire. Ces effets contradictoires conduisent à des différences plus subtiles dans le nombre d’OTU, et les courbes de raréfaction qui en résultent qui sont créées avec AL se chevauchent à différentes profondeurs (Figure 2d). De plus, les OTU AL eux-mêmes sont instables (fichier supplémentaire 5: Figure S3) en raison du grand nombre d’événements de division et de fusion des OTU qui se produisent. De plus, même si ces OTU instables affectent la diversité bêta (Adonis, R = 0,16, P = 0,001), la séparation majeure dans le PCoA semble être causée par des facteurs autres que la taille de l’échantillon; par exemple, l’inclusion possible de différences résultant de l’ordre d’entrée des séquences ou de la présence ou de l’absence de certaines séquences clés dans différents sous-échantillons (Figure 2e). Cette observation peut résulter de la sensibilité de AL à l’ordre des séquences d’entrée, ce qui se traduirait par des modèles de clustering différents. Lors de l’utilisation d’AL, 804 OTU (après correction FDR) et 5 OTU (après correction Bonferroni) ont été représentés de manière différentielle entre les deux profondeurs d’échantillonnage.

Le clustering gourmand, tel que celui qui est implémenté dans USEARCH, est une autre méthode de clustering de novo couramment utilisée qui est plus efficace sur le plan informatique que CL, SL et AL. Lors de l’utilisation du clustering gourmand, une séquence doit se trouver dans le seuil de distance d’un centroïde OTU unique pour être regroupée dans cette OTU. De plus, les séquences sont traitées dans un ordre défini, et chaque séquence de requête sera soit affectée à une OTU existante, soit comme centroïde d’une nouvelle OTU. Si une séquence de requête se trouve dans le seuil de distance de plusieurs centroïdes OTU existants, elle peut être affectée au centroïde le plus proche (ici appelé clustering gourmand basé sur la distance (DGC)) ou au centroïde le plus abondant (ici appelé clustering gourmand basé sur l’abondance (AGC)) (fichier supplémentaire 1). D’autres approches existent pour rompre ces liens; cependant, nous avons choisi de nous concentrer uniquement sur celles qui sont les plus utilisées. Dans la présente étude, nous évaluons USEARCH comme une méthode de clustering gourmand (nous n’avons pas évalué UPARSE car son algorithme de clustering est le même que celui utilisé dans USEARCH).

L’instabilité OTU est également un problème dans les méthodes de clustering gourmandes et provient de plusieurs sources. Premièrement, le choix des centroïdes dépend fortement de l’ordre dans lequel les séquences sont traitées. Par conséquent, lorsque la taille d’un échantillon est modifiée, l’ordre des séquences peut également être modifié. Deuxièmement, lors de l’utilisation de DGC, même si le choix des centroïdes reste stable lorsque la taille de l’échantillon est augmentée, les séquences ajoutées peuvent devenir de nouveaux centroïdes et attirer des membres d’OTU existants (cela ne se produira généralement pas dans AGC). Par exemple, imaginez que S10, S11 et S12 forment OTU7 avec S10 comme centroïde (Figure 3a, b). Si, lors d’un séquençage ultérieur, une autre séquence, S13, est ajoutée, l’ordre de traitement de l’échantillon plus grand peut devenir S10, S13, S11 et S12. Dans ce cas, S10 sera toujours un centroïde, mais S13 deviendra également un centroïde. S13 recrute alors S11, car la distance entre les deux est plus petite que la distance entre S11 et S10. Dans DGC, S11 finira par se regrouper avec S13 plutôt que S10, et l’OTU7 d’origine sera divisé en OTU8 et OTU9 (Figure 3a). Dans AGC, S11 sera toujours regroupé avec S10 et l’OTU7 d’origine conservera sa structure d’origine (figure 3b).

Figure 3
 figure3

Principes sous-jacents au clustering gourmand basé sur la distance instable (DGC) et au clustering gourmand basé sur l’abondance (AGC), aux courbes de raréfaction et au PCoA basés sur la distance de Bray-Curtis. (a, b) Principes sous-jacents à la DGC instable (a) et à l’AGC(b) à deux profondeurs d’échantillonnage. Les cercles blancs indiquent des séquences individuelles qui ont été incluses dans les sous-échantillons petits et grands, et les cernes indiquent des séquences qui ont été ajoutées uniquement dans le sous-échantillon grand. Des points jaunes indiquent les centroïdes OTU. Les lignes indiquent des paires de séquences de distances égales ou inférieures au seuil, qui pourraient donc être liées en une seule OTU. De grands cercles en rouge ou en bleu indiquent les OTU dans les petits et les grands sous-échantillons, respectivement. (c, d) Courbes de raréfaction générées avec DGC (c) et AGC(d) à cinq profondeurs différentes. (e, f) PCoA basé sur la distance de Bray-Curtis, comparant 60% des sous-échantillons aux ensembles de données complets en utilisant AGC(e) et DGC(f). Tous les sous-échantillons ont été raréfiés à 30 000 séquences par échantillon pour être inclus dans cette analyse.

Nous avons utilisé le clustering gourmand sur les courbes de raréfaction alpha et le PCoA de diversité bêta pour analyser les effets générés par les OTU instables. Comme indiqué ci-dessus, DGC et AGC souffrent tous deux de la variabilité centroïde (cet effet n’est pas biaisé vers la division ou la fusion des OTU), et DGC souffre en outre de la division des OTU existantes. En conséquence, les regroupements DGC et CL ont produit des courbes similaires, qui sont devenues plus raides à mesure que la taille du sous-échantillon augmentait (figure 3c). En revanche, AGC a produit des courbes chevauchantes qui n’étaient pas affectées par la profondeur (figure 3d). Cependant, comme pour le regroupement AL, cela ne signifie pas que les OTU étaient stables, mais seulement que des nombres similaires d’OTU (éventuellement différents) ont été obtenus aux différentes profondeurs de sous-échantillonnage. Les OTU instables produites dans les estimations de l’effet DGC et AGC de la diversité bêta (Figure 3e, f). Dans le cas de l’AGC, on a déterminé que 392 OTU (après correction FDR) et 14 OTU (après correction Bonferroni) étaient représentés de manière différentielle entre les deux profondeurs, et dans le cas de la DGC, ces nombres étaient respectivement de 370 et 15.

Pour quantifier les différences entre ces méthodes instables, nous avons comparé la proportion de séquences instables et d’OTU instables (Figure 4a, b; Fichier supplémentaire 6: Tableau S1). CL a produit la plus forte proportion de séquences instables (environ 22%), tandis que AL (13%) et AGC (12%) ont obtenu des résultats légèrement meilleurs que SL (15%) et DGC (14%). Ces résultats n’étaient pas toujours cohérents lors de la comparaison de l’utilisation d’autres ensembles de données (fichier supplémentaire 7: Figure S6); cependant, AGC a généralement démontré les meilleures performances par rapport aux autres méthodes de novo. Pour les OTU instables, CL et DGC ont produit la plus forte proportion d’OTU instables: environ 60% des OTU avec des centroïdes de fréquences supérieures ou égales à 10 étaient instables dans chacune des méthodes (> 90% étaient instables lors de l’analyse de certains ensembles de données, comme le montre le fichier supplémentaire 7: Figure S6). AL et SL sont plus stables que CL ou DGC, mais ont tout de même entraîné une instabilité OTU supérieure à 30 % pour les centroïdes observée au moins 10 fois. L’AGC s’est avérée être la méthode de novo la plus stable, en particulier pour les OTU avec des centroïdes très abondants.

Figure 4
 figure4

Proportion de séquences instables, proportion d’OTU instables et valeur MCC de chaque méthode. (a) Proportion de séquences instables créées par la méthode. Les séquences instables sont définies comme des séquences groupées sur un centroïde dans le sous-échantillon à 60 %, mais groupées sur un centroïde différent dans l’ensemble de données à 100 % (complet). b) Proportion d’OTU instables créées par la méthode et par la fréquence des centroïdes des grappes (les valeurs de référence fermée et de déréplication sont nulles et ne sont donc pas incluses dans cette figure). Si une OTU était identique dans les ensembles de données à 60 % et à 100 % (sans compter les séquences qui ne sont pas présentes dans le sous-échantillon à 60 %), elle est définie comme stable. (c) Valeur MCC de chaque méthode. Des valeurs plus élevées correspondent à une plus grande stabilité.

Une méthode de clustering de novo qui produit des OTU stables est la déréplication ou le clustering de séquences identiques et de longueur égale (fichier supplémentaire 8: Figure S4a). Comme pour le clustering OTU de référence fermée, tous les OTU restent absolument stables à différentes profondeurs de séquençage car le clustering n’est pas affecté par la composition de la collection de séquences en cluster. En conséquence, les courbes de raréfaction produites à l’aide de la déréplication se chevauchent sur différentes profondeurs (fichier supplémentaire 8: Figure S4b), et la diversité bêta n’est pas affectée par la taille des sous-échantillons (fichier supplémentaire 8: Figure S4c). De plus, aucun OTU n’est déterminé comme étant significativement différent entre les deux groupes. Il est important de noter que la déréplication est très vulnérable à l’identification des OTU parasites résultant d’une erreur de séquençage. En raison de sa stabilité dans les OTU de regroupement, il produit également des courbes de raréfaction qui se chevauchent à différentes profondeurs, ce qui indique que les OTU instables (plutôt que les erreurs de séquençage) sont la principale cause des courbes de raréfaction qui ne se chevauchent pas. De plus, la stabilité de la méthode de déréplication suggère qu’un seuil de similarité plus élevé pour le clustering peut réduire l’apparition d’OTU instables, car les méthodes de clustering de novo deviennent plus similaires à la déréplication à mesure que le seuil de similarité augmente. En pratique, le clustering de déréplication donne un nombre élevé d’OTU, ce qui est coûteux en calcul à utiliser en aval. Ainsi, les tailles d’ensembles de données modernes nous empêchent de travailler avec des séquences qui n’ont été que dérépliquées. Il est possible que les méthodes futures utilisent des approches basées sur la déréplication pour gérer le problème de l’instabilité OTU. Un autre exemple extrême serait le regroupement de toutes les séquences en une seule OTU alors que cette OTU reste absolument stable. Néanmoins, contrairement à la déréplication, les OTU peuvent être utilisés dans d’autres analyses, telles que la diversité alpha, la diversité bêta et la composition taxonomique. De plus, le regroupement de toutes les séquences en une seule OTU peut difficilement être appelé « clustering » et est totalement inutile pour l’analyse en aval.

Les méthodes basées sur la référence minimisent le problème des OTU instables

Une caractéristique que toutes les méthodes de clustering instables ont en commun est que les définitions de cluster dépendent des séquences d’entrée. Le clustering OTU à référence fermée évite cette dépendance avec une limitation pratique majeure : lors du clustering OTU à référence fermée, les lectures sont regroupées par rapport à un ensemble de données de référence (par exemple, la base de données Greengenes) de centroïdes pré-calculés et aucun nouveau centroïde n’est créé pendant le clustering, ce qui donne des OTU parfaitement stables (figure 5a). Par conséquent, les estimations de la diversité alpha et bêta basées sur le regroupement de références fermées ne sont pas affectées par la taille des échantillons (figure 5b, c), et aucune OTU n’est significativement différente entre les deux profondeurs. En plus de produire des OTU stables, le clustering à référence fermée fournit plusieurs autres fonctionnalités pratiques. Premièrement, les noms des séquences de référence peuvent être utilisés comme identificateurs OTU universels plutôt que d’utiliser des noms attribués arbitrairement, facilitant ainsi la comparaison directe des OTU entre les études. Deuxièmement, les lectures de séquences de différentes régions de gènes marqueurs peuvent être regroupées si l’ensemble de données de référence est constitué de gènes marqueurs complets. Enfin, le clustering à référence fermée peut paralléliser le clustering OTU pour les grands ensembles de données. La principale limitation du clustering OTU à référence fermée est que les lectures qui sont en dehors du seuil de similarité avec les centroïdes de référence sont ignorées, de sorte que seules les OTU déjà représentées dans la base de données peuvent être observées. » Lors du traitement de l’ensemble de données sur le sol canadien, environ 14 % des séquences n’ont pas pu être appariées aux séquences de référence et ont donc été rejetées après le regroupement. Cette limitation du regroupement des OTU à référence fermée peut devenir triviale à mesure que des améliorations projetées sont apportées aux ensembles de données de référence, ce qui conduit les références correspondantes nécessaires à des projets de recherche spécifiques (par exemple, le microbiome intestinal) à devenir plus développées.

Figure 5
 figure5

Principes sous-jacents au regroupement de référence fermée stable, aux courbes de raréfaction et au PCoA basés sur la distance de Bray-Curtis. a) Principes sous-jacents à un regroupement stable de références fermées à deux profondeurs d’échantillonnage. Les cercles blancs indiquent des séquences individuelles qui ont été incluses dans les sous-échantillons petits et grands, et les cernes indiquent des séquences qui ont été ajoutées uniquement dans le sous-échantillon grand. Les diamants indiquent les séquences de référence. Les lignes indiquent des paires de séquences de distances égales ou inférieures au seuil, qui pourraient donc être liées en une seule OTU. De grands cercles en rouge ou en bleu indiquent les OTU dans les petits et les grands sous-échantillons, respectivement. b) Courbes de raréfaction générées par regroupement de références fermées à cinq profondeurs différentes. (c) PCoA basé sur la distance de Bray-Curtis, comparant 60% des sous-échantillons aux ensembles de données complets en utilisant un regroupement de référence fermé. Tous les sous-échantillons ont été raréfiés à 30 000 séquences par échantillon pour être inclus dans cette analyse.

Pour surmonter les limites du clustering OTU à référence fermée, le clustering OTU à référence ouverte peut être utilisé. Le clustering de référence ouverte commence de la même manière que le clustering de référence fermée, mais continue de regrouper les séquences qui ne correspondent pas à la collection de référence de manière novo. Bien que les méthodes de clustering de novo existantes produisent des OTU instables, le clustering à référence ouverte peut être beaucoup plus stable que de telles méthodes car de nombreuses séquences sont initialement regroupées par l’approche à référence fermée. Nous avons évalué la stabilité de l’OTU dans le clustering de référence ouvert en utilisant AGC pour l’étape de clustering de novo (Figure 4a, b, c) et nous avons trouvé que c’était une méthode beaucoup plus efficace que d’utiliser les méthodes de novo seules. La majorité des OTU instables étaient des séquences à faible abondance sans correspondance de référence (une catégorie de séquences généralement considérée comme sujette aux erreurs). Le clustering OTU de référence ouverte produit des courbes de raréfaction qui se chevauchent (fichier supplémentaire 9: Figure S5a), et même si l’instabilité du clustering OTU de référence ouverte affecte toujours l’analyse PCoA (fichier supplémentaire 9: Figure S5b), la valeur PC et R (par ADONIS, R = 0,03) est inférieure à celle de toute autre méthode de novo seule, de même que le nombre d’OTU représentés de manière différentielle entre les deux groupes (104 OTU après correction FDR et 2 OTU après correction Bonferroni). Nous avons comparé des méthodes de clustering de référence ouverte avec d’autres méthodes de novo sur des ensembles de données supplémentaires, en nous concentrant sur la proportion de séquences instables et d’OTU instables et avons constaté que ces résultats sont généralement cohérents entre les types d’environnement et les technologies de séquençage (fichier supplémentaire 7: Figure S6).

En plus de quantifier l’instabilité des OTU, nous avons utilisé l’indice MCC pour étudier comment le regroupement des paires de séquences a changé en fonction du regroupement de l’ensemble de données complet par rapport au sous-ensemble de 60% (Figure 4b, fichier supplémentaire 6: Tableau S2). Il est clair que les deux méthodes basées sur la référence et le clustering de déréplication ont la plus grande stabilité par cette métrique et que AGC est la plus stable des méthodes de clustering de novo (test de Kruskal-Wallis, P < 0,05). AL avait la valeur MCC la plus basse, ce qui indique que le regroupement de nombreuses paires de séquences a changé lors de l’utilisation de cette méthode. Alternativement, SL a produit une valeur de MCC plus élevée que la plupart des méthodes de novo, y compris AL et CL. Néanmoins, une partie de la raison de la valeur MCC élevée de SL est que sa valeur FP est égale à 0 (les séquences séparées dans un sous-échantillon plus petit seront fusionnées en une seule OTU dans un sous-échantillon plus grand, mais la situation inverse ne se produit pas du tout). Ainsi, en raison de ses graves problèmes de fusion OTU, la SL ne devrait pas être considérée comme une méthode beaucoup plus stable.

Les métriques phylogénétiques de la diversité bêta minimisent l’effet de l’instabilité des OTU

Contrairement aux métriques non phylogénétiques, où toutes les OTU sont considérées également différentes les unes des autres, les métriques phylogénétiques telles que UniFrac prennent en compte la relation phylogénétique entre les OTU lors du calcul des distances entre les échantillons. Les méthodes de regroupement d’OTU instables déplaceront des séquences entre OTU qui seraient généralement étroitement liées sur le plan évolutif, de sorte que la distance calculée entre les échantillons devrait généralement rester plus similaire qu’elle ne le serait lors de l’utilisation de mesures de diversité non phylogénétiques. Nous avons réanalysé l’effet des OTU instables sur la diversité bêta en utilisant CL, SL, AL, AGC et DGC en fonction de la distance UniFrac (fichier supplémentaire 10: Figure S7). Les résultats montrent que les OTUs instables de CL, AGC et DGC affectent minimalement la diversité bêta en utilisant la distance UniFrac, confirmant l’hypothèse selon laquelle lorsque des séquences changent entre des OTUs étroitement apparentés avec ces méthodes instables, les métriques phylogénétiques sont plus tolérantes à cette instabilité. Néanmoins, dans le clustering SL, les OTU distantes peuvent finalement être jointes en une seule OTU, de sorte que la diversité bêta peut être affectée même lors de l’utilisation de la distance UniFrac. Dans AL, la séparation majeure est toujours causée par différents modèles de regroupement, comme pour les métriques non phylogénétiques.

You might also like

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.