- Cambio de pertenencia a UTO a diferentes profundidades de secuenciación (inestabilidad de UTO) – una propiedad descuidada pero importante para el análisis de la diversidad microbiana
- Los métodos alternativos de agrupamiento jerárquico y codicioso también producen OTUs inestables
- Los métodos basados en referencias minimizan el problema de OTUs inestables
- Las métricas filogenéticas de diversidad beta minimizan el efecto de la inestabilidad de las OTU
Cambio de pertenencia a UTO a diferentes profundidades de secuenciación (inestabilidad de UTO) – una propiedad descuidada pero importante para el análisis de la diversidad microbiana
Para ilustrar el problema creado por UTO inestables, reproducimos las curvas de rarefacción no superpuestas utilizando el mismo conjunto de datos (Conjunto de datos de suelo de Canadá) y el mismo método de agrupación (agrupación de enlace completo, conocida como agrupación CL) empleado por Roesch et al. (Figura 1a). Muestreamos aleatoriamente las secuencias sin procesar a cuatro profundidades de secuenciación(20%, 40%, 60%, y el 80% de las secuencias de entrada) usando 30 réplicas de cada una. A continuación, utilizamos clustering de enlace completo (CL) para agrupar cada una de las submuestras (las definiciones de todos los métodos de clustering se pueden encontrar en el archivo Adicional 1) y generamos curvas de rarefacción para cada profundidad de muestreo. En el caso de la agrupación de CL, la curva de rarefacción producida por una submuestra más grande es más pronunciada que la producida por una submuestra más pequeña.
Un objetivo al generar curvas de rarefacción es admitir la interpolación, lo que significa que si creamos una curva de rarefacción a partir de un conjunto de datos completo, nos gustaría usar esa curva para determinar cuántas especies se observarían para un número de secuencias que sea menor que el total. Por ejemplo, cuando interpolamos a partir de la curva de rarefacción creada a partir de un conjunto de datos completo, estimamos que tenemos aproximadamente 4.500 especies si seleccionamos aleatoriamente 30.000 secuencias del conjunto de datos completo (punto A en la Figura 1a). Sin embargo, el problema que plantean las curvas de rarefacción no superpuestas para la interpolación es que si, en cambio, muestreamos aleatoriamente 30.000 secuencias de una submuestra del 80% del conjunto de datos completo, estimaríamos que solo 4.200 especies están representadas por estas 30.000 secuencias (punto B de la Figura 1a). Este escenario sería esencialmente cierto en los casos en que solo se recopilaron unas pocas secuencias por muestra, un fenómeno que entra en conflicto con el comportamiento esperado de las curvas de rarefacción.
Hemos observado que la no superposición de curvas de rarefacción, como se ilustra en la Figura 1a, en realidad es causada por la inestabilidad de los métodos de agrupamiento OTU. En otras palabras, el clúster al que se asigna una secuencia puede verse afectado por el número de secuencias que se agrupan. Una ilustración de esta hipótesis se muestra en la Figura 1b. Si observamos solo dos secuencias, S1 y S2, dentro del umbral de similitud (indicado mediante la vinculación con una barra), se agrupan en una sola OTU (OTU1). Luego agregamos tres secuencias más, S3, S4 y S5, que podrían estar vinculadas a S1 o a S2, pero varias distancias en pares exceden el umbral (estos pares no están vinculados por barras). Por definición de CL, las distancias en pares para todas las secuencias asignadas a una sola OTU deben caber dentro del umbral de distancia , lo que podría permitir que S1 y S2 se separen en OTU2 y OTU3. OTU1 desaparece a esta profundidad de secuenciación, y sus secuencias se reasignan a dos OTUS diferentes, lo que ilustra el problema de la inestabilidad de la OTU. Teóricamente, la adición de más secuencias tiende a dividir las UTO existentes cuando se usa el algoritmo CL. Como resultado, al agruparse con un conjunto de datos más grande en comparación con un conjunto de datos más pequeño, las mismas secuencias se agruparán en más UTO. Esto resultará en un empinado de la curva de rarefacción que se deriva de la muestra más grande y la conclusión de que tiene una mayor diversidad alfa. Las curvas de rarefacción que surgen de CL son, por lo tanto, más sensibles a la profundidad de secuenciación. Aunque este efecto es débil, todavía ilustra parcialmente por qué, en algunos casos, se espera que la recolección de un número de secuencias que se basa en un tamaño de muestra más pequeño produzca una curva de rarefacción que alcanza una meseta, y en su lugar se produce una curva de rarefacción en continuo aumento. Este fenómeno de un individuo asignado a diferentes UTO simplemente debido al aumento o disminución de la profundidad de muestreo es obviamente problemático. Una situación análoga basada en la ecología tradicional (a escala macro) sería si el recuento de diferentes números de aves dentro de un área fija llevara a la redefinición de qué aves individuales se agrupan como especie. Sin embargo, la inestabilidad descrita anteriormente no se debe a la identificación ocasional de especies nuevas, como podría ser el caso en la ecología tradicional. En contraste, estos cambios en la pertenencia a OTU ocurren sistemáticamente dentro de una gran proporción de las secuencias que se reasignan entre las OTU.
Para investigar más a fondo el efecto de las UTO inestables en la interpretación biológica, a continuación exploramos la diversidad beta utilizando la ordenación. Utilizando el Análisis de Coordenadas Principales (PCoA), comparamos las comunidades microbianas con el conjunto de datos completo utilizando submuestras que comprenden el 60% del conjunto de datos completo. Repetimos este submuestreo 30 veces para crear réplicas. A continuación, utilizamos CL clustering para agrupar todas las submuestras, así como el conjunto de datos completo, y combinamos los resultados de clustering por secuencia de OTU representativa (definida como la secuencia más abundante en cada OTU). Las muestras se enrarecieron aleatoriamente para incluir 30.000 secuencias por muestra, incluidas las 30 rarefacciones replicadas resultantes de la agrupación del conjunto de datos completo. Después de la rarefacción, todas las muestras contenían el mismo número de secuencias, de modo que las únicas diferencias entre ellas eran el número de secuencias que se agruparon inicialmente. PCoA demostró que estas muestras se separaron de acuerdo con el número de secuencias que se agruparon inicialmente, lo que indica que la inestabilidad de OTU da como resultado que las mismas muestras parezcan tener composiciones diferentes (Figura 1c). Se observó un resultado similar al comparar las submuestras de 20%, 40% y 80% con el conjunto de datos completo (Archivo adicional 2: Figura S1). Además, se determinó que 125 UTO (después de la corrección de la tasa de descubrimiento falso (FDR)) y 26 UTO (después de la corrección de Bonferroni) eran significativamente diferentes entre estos dos grupos utilizando la prueba U de Mann-Whitney. También probamos el efecto que tienen las UTO inestables en el cálculo de la composición taxonómica y encontramos que el efecto es muy limitado (Archivo adicional 3: Figura S2 y archivo adicional 4). Esto se debe a que estas UTO todavía se asignan a los mismos taxones como consecuencia de su proximidad filogenética, a pesar del hecho de que están cambiando cuando se agregan más secuencias usando CL (también se discute más adelante en la sección que detalla la tolerancia de PCoA al uso de métricas filogenéticas con UTO inestables).
Los métodos alternativos de agrupamiento jerárquico y codicioso también producen OTUs inestables
Todos los métodos jerárquicos que se utilizan para determinar la pertenencia a OTU se basan en distancias en pares entre las secuencias en OTUs. La agrupación en CL requiere la distancia en pares entre todas las secuencias en una OTU para que quepan dentro del umbral de distancia. La agrupación en clústeres de enlace único (SL) requiere la distancia en pares entre cualquier par de secuencias en una OTU para caber dentro del umbral de distancia. La agrupación en clústeres de vinculación media (AL) requiere que las distancias medias en pares entre todas las secuencias en una OTU se ajusten al umbral de distancia. Como es de esperar cuando se usa clustering SL (Figura 2a), las UTO tienden a fusionarse cuando se agregan más secuencias, lo que es lo opuesto al problema de división que se observa con CL. En consecuencia, las curvas de rarefacción creadas con SL se vuelven menos pronunciadas a medida que aumenta el tamaño de la submuestra (Figura 2b). La diversidad beta también se ve afectada por la agrupación inestable de SL de UTO (Figura 2c). Por ejemplo, se determinó que 167 UTO (después de la corrección de FDR) y 36 UTO (después de la corrección de Bonferroni) estaban representadas de manera diferencial en la submuestra del 60% y en el conjunto de datos completo.
La inestabilidad producida por el enlace promedio es más complicada porque tanto la división de OTU como la fusión de OTU pueden ocurrir. Estos efectos conflictivos conducen a diferencias más sutiles en los recuentos de OTU y las curvas de rarefacción resultantes que se crean con superposición de AL a diferentes profundidades (Figura 2d). Además, los AL OTUs en sí mismos son inestables (Archivo adicional 5: Figura S3) debido al gran número de eventos de división y fusión de OTU que ocurren. Además, a pesar de que estas UTO inestables afectan la diversidad beta (Adonis, R = 0,16, P = 0,001), la mayor separación en PCoA parece ser causada por factores distintos al tamaño de la muestra; por ejemplo, la posible inclusión de diferencias que resultan del orden de entrada de las secuencias o de la presencia o ausencia de ciertas secuencias clave dentro de diferentes submuestras (Figura 2e). Esta observación puede ser el resultado de la sensibilidad de AL AL AL orden de las secuencias de entrada, lo que daría lugar a diferentes patrones de agrupación. Al usar AL, 804 UTO (después de la corrección FDR) y 5 UTO (después de la corrección de Bonferroni) se representaron de manera diferente a través de las dos profundidades de muestreo.
La agrupación en clústeres codiciosos, como la que se implementa en USEARCH, es otro método de agrupación en clústeres de novo comúnmente utilizado que es más eficiente computacionalmente que CL, SL y AL. Cuando se utiliza la agrupación codiciosa, una secuencia debe estar dentro del umbral de distancia de un centroide de una sola OTU para agruparse en esa OTU. Además, las secuencias se procesan en un orden definido, y cada secuencia de consulta se asignará a una OTU existente o como centroide de una OTU nueva. Si una secuencia de consulta se encuentra dentro del umbral de distancia de varios centros de OTU existentes, se puede asignar al centroide más cercano (aquí denominado agrupamiento codicioso basado en la distancia (DGC)) o al centroide más abundante (aquí denominado agrupamiento codicioso basado en la abundancia (AGC)) (Archivo adicional 1). Existen enfoques alternativos para romper tales lazos; sin embargo, elegimos limitar nuestro enfoque a los que se emplean más comúnmente. En el presente estudio, evaluamos la búsqueda de uso como un método para la agrupación codiciosa (no evaluamos UPARSE porque su algoritmo de agrupación es el mismo que el utilizado en la BÚSQUEDA de uso).
La inestabilidad OTU también es un problema en los métodos de agrupamiento codiciosos y surge de varias fuentes. En primer lugar, la elección de los centroides depende en gran medida del orden en que se procesan las secuencias. Por lo tanto, cuando se cambia el tamaño de una muestra, también se puede cambiar el orden de las secuencias. En segundo lugar, cuando se usa DGC, incluso si la elección de centroides se mantiene estable cuando se aumenta el tamaño de la muestra, las secuencias agregadas pueden convertirse en nuevos centroides y atraer miembros de OTUs existentes (esto generalmente no sucederá en AGC). Por ejemplo, imagine que S10, S11 y S12 forman OTU7 con S10 como centroide (Figura 3a,b). Si en una secuencia de secuenciación posterior se agrega otra secuencia, S13, el orden de procesamiento de la muestra más grande puede convertirse en S10, S13, S11 y S12. En este caso, S10 seguirá siendo un centroide, pero S13 también se convertirá en un centroide. S13 recluta a S11, ya que la distancia entre los dos es menor que la distancia entre S11 y S10. En DGC, S11 terminará agrupándose con S13 en lugar de S10, y la OTU7 original se dividirá en OTU8 y OTU9 (Figura 3a). En AGC, S11 seguirá agrupándose con S10 y la OTU7 original conservará su estructura original (Figura 3b).
Utilizamos clústeres codiciosos en curvas de rarefacción alfa y PCoA de diversidad beta para analizar los efectos generados por OTUs inestables. Como se indicó anteriormente, DGC y AGC sufren de cambiabilidad centroide (este efecto no está sesgado hacia la división o fusión de OTU), y DGC sufre además de la división de OTUs existentes. Como resultado, la agrupación de DGC y CL produjo curvas similares, que se hicieron más pronunciadas a medida que aumentaba el tamaño de la submuestra (Figura 3c). En contraste, el AGC produjo curvas superpuestas que no se vieron afectadas por la profundidad (Figura 3d). Sin embargo, al igual que con la agrupación AL, esto no significa que las UTO fueran estables, sino que solo se obtuvieron números similares de UTO (posiblemente diferentes) en las diferentes profundidades del submuestreo. Las UTO inestables producidas en las estimaciones del efecto DGC y AGC de la diversidad beta (Figura 3e,f). En el caso de AGC, se determinó que 392 UTO (después de la corrección FDR) y 14 UTO (después de la corrección de Bonferroni) estaban representadas de manera diferencial a través de las dos profundidades, y en el caso de DGC, estos números fueron 370 y 15, respectivamente.
Para cuantificar las diferencias entre estos métodos inestables, comparamos la proporción de secuencias inestables y UTO inestables (Figura 4a,b; Archivo adicional 6: Tabla S1). CL produjo la mayor proporción de secuencias inestables (aproximadamente 22%), mientras que AL (13%) y AGC (12%) tuvieron un rendimiento ligeramente mejor que SL (15%) y DGC (14%). Estos resultados no siempre fueron consistentes al comparar el uso de conjuntos de datos alternativos (archivo adicional 7: Figura S6); sin embargo, el AGC generalmente demostró el mejor rendimiento frente a los otros métodos de novo. Para las UTO inestables, CL y DGC produjeron la mayor proporción de UTO inestables: aproximadamente el 60% de las UTO con centroides con frecuencias mayores o iguales a 10 se observaron inestables en cada uno de los métodos (>90% se encontraron inestables al analizar ciertos conjuntos de datos, como se muestra en el archivo adicional 7: Figura S6). El AL y el SL son más estables que el CL o el DGC, pero aun así dieron como resultado una inestabilidad OTU mayor del 30% para los centrooides que se observó al menos 10 veces. Se encontró que el AGC era el método de novo más estable, especialmente para las UTO con centroides muy abundantes.
Un método de agrupamiento de novo que produce OTUs estables es la desreplicación o el agrupamiento de secuencias que son idénticas y de igual longitud (Archivo adicional 8: Figura S4a). Al igual que con la agrupación en clústeres de OTU de referencia cerrada, todas las OTU permanecen absolutamente estables en diferentes profundidades de secuenciación porque la agrupación en clústeres no se ve afectada por la composición de la colección de secuencias que se agrupa. Como resultado, las curvas de rarefacción producidas mediante desreplicación se superponen a diferentes profundidades (Archivo adicional 8: Figura S4b), y la diversidad beta no se ve afectada por el tamaño de las submuestras (Archivo adicional 8: Figura S4c). Además, no se ha determinado que una sola OTU sea significativamente diferente entre los dos grupos. Es importante tener en cuenta que la desreplicación es altamente vulnerable a la identificación de UTO espurias que resultan de un error de secuenciación. Debido a su estabilidad en las UTO de binning, también produce curvas de rarefacción superpuestas a través de diferentes profundidades, lo que indica que las UTO inestables (en lugar de errores de secuenciación) son la causa principal de curvas de rarefacción no superpuestas. Además, la estabilidad del método de desreplicación sugiere que un umbral de similitud más alto para la agrupación puede reducir la aparición de UTO inestables, ya que los métodos de agrupación de novo se vuelven más similares a la desreplicación a medida que aumenta el umbral de similitud. En la práctica, el agrupamiento de desreplicación produce un gran número de UTO, que es computacionalmente costoso de emplear aguas abajo. Por lo tanto, los tamaños de conjuntos de datos modernos nos impiden trabajar con secuencias que solo se han desreplicado. Es posible que los métodos futuros utilicen enfoques basados en la desreplicación para manejar el problema de la inestabilidad de OTU. Otro ejemplo extremo sería la agrupación de todas las secuencias en una OTU mientras esa OTU permanece absolutamente estable. Sin embargo, a diferencia de la desreplicación, las UTO se pueden utilizar en análisis posteriores, como la diversidad alfa, la diversidad beta y la composición taxonómica. Además, agrupar todas las secuencias en una OTU difícilmente se puede llamar «agrupación» y es completamente inútil para el análisis descendente.
Los métodos basados en referencias minimizan el problema de OTUs inestables
Una característica que todos los métodos de agrupamiento inestable tienen en común es que las definiciones de clúster dependen de las secuencias de entrada. La agrupación en clústeres de OTU de referencia cerrada evita esta dependencia con una limitación práctica importante: durante la agrupación en clústeres de OTU de referencia cerrada, las lecturas se agrupan contra un conjunto de datos de referencia (por ejemplo, la base de datos Greengenes ) de centroides pre-calculados y no se crean nuevos centroides durante la agrupación, lo que resulta en OTUs perfectamente estables (Figura 5a). Como resultado, las estimaciones de diversidad alfa y beta basadas en agrupamientos de referencia cerrada no se ven afectadas por el tamaño de las muestras (Figura 5b,c), y no se determina que ninguna UTO sea significativamente diferente entre las dos profundidades. Además de producir UTO estables, la agrupación en clústeres de referencia cerrada proporciona otras funciones convenientes. En primer lugar, los nombres de las secuencias de referencia se pueden usar como identificadores OTU universales en lugar de usar nombres asignados arbitrariamente, lo que facilita la comparación directa de las OTU entre los estudios. En segundo lugar, las lecturas de secuencias de diferentes regiones de genes marcadores pueden agruparse si el conjunto de datos de referencia consiste en genes marcadores de longitud completa. Por último, la agrupación en clúster de referencia cerrada puede paralelizar la agrupación en clúster OTU para conjuntos de datos grandes. La principal limitación de la agrupación de OTU de referencia cerrada es que se descartan las lecturas que están fuera del umbral de similitud con cualquier centroide de referencia, de modo que solo se pueden observar las OTU que ya están representadas en la base de datos.»En el procesamiento del conjunto de datos del suelo de Canadá, aproximadamente el 14% de las secuencias no se pudieron comparar con las secuencias de referencia y, por lo tanto, se descartaron después de la agrupación. Esta limitación de la agrupación de OTU de referencia cerrada puede volverse trivial a medida que se realizan mejoras proyectadas en los conjuntos de datos de referencia, lo que lleva a que las referencias correspondientes necesarias para proyectos de investigación específicos (por ejemplo, el microbioma intestinal) se desarrollen más.
Para superar las limitaciones de la agrupación en clúster de OTU de referencia cerrada, se puede utilizar la agrupación en clúster de OTU de referencia abierta. La agrupación en clúster de referencia abierta comienza de la misma manera que la agrupación en clúster de referencia cerrada, pero continúa agrupando de nuevo las secuencias que no coinciden con la colección de referencia. Aunque los métodos de agrupación en clústeres de novo existentes producen UTO inestables, la agrupación en clústeres de referencia abierta puede ser mucho más estable que estos métodos porque muchas secuencias se agrupan inicialmente mediante el enfoque de referencia cerrada. Evaluamos la estabilidad de OTU en la agrupación de referencia abierta utilizando AGC para la etapa de agrupación de novo (Figura 4a,b,c) y encontramos que es un método mucho más efectivo que el uso de métodos de novo solos. La mayoría de las UTO inestables eran secuencias de baja abundancia sin coincidencia de referencia (una categoría de secuencias que comúnmente se considera propensa a errores). La agrupación en clústeres de OTU de referencia abierta produce curvas de rarefacción superpuestas (Archivo adicional 9: Figura S5a), y aunque la inestabilidad de la agrupación en clústeres de OTU de referencia abierta aún afecta al análisis de PCoA (Archivo adicional 9: Figura S5b), el valor de PC y R (por ADONIS, R = 0,03) es más bajo que con cualquier otro método de novo por sí solo, al igual que el número de UTO que se representan de manera diferencial entre los dos grupos (104 UTO después de la corrección FDR y 2 UTO después de la corrección de Bonferroni). Comparamos los métodos de agrupamiento de referencia abierta con otros métodos de novo en conjuntos de datos adicionales, centrándose en la proporción de secuencias inestables y UTO inestables, y encontramos que estos resultados son generalmente consistentes entre los tipos de entorno y las tecnologías de secuenciación (archivo adicional 7: Figura S6).
Además de cuantificar la inestabilidad de las UTO, utilizamos el índice MCC para investigar cómo cambió la agrupación de pares de secuencias en función de la agrupación del conjunto de datos completo en comparación con el subconjunto del 60% (Figura 4b, Archivo adicional 6: Tabla S2). Está claro que los dos métodos basados en referencia y la agrupación de desreplicación tienen la mayor estabilidad por esta métrica y que AGC es el más estable de los métodos de agrupación de novo (prueba de Kruskal-Wallis, P < 0,05). AL tenía el valor MCC más bajo, lo que indica que la agrupación de muchos pares de secuencias cambió al usar este método. Alternativamente, SL produjo un valor de CCM más alto que la mayoría de los métodos de novo, incluyendo AL y CL. Sin embargo, parte de la razón del alto valor de MCC de SL es que su valor de FP es igual a 0 (las secuencias que se separan en una submuestra más pequeña se fusionarán en una sola OTU en una submuestra más grande, pero la situación inversa no ocurre en absoluto). Por lo tanto, debido a sus graves problemas con la fusión de OTU, SL no debe considerarse un método mucho más estable.
Las métricas filogenéticas de diversidad beta minimizan el efecto de la inestabilidad de las OTU
A diferencia de las métricas no filogenéticas, en las que todas las UTO se consideran igualmente diferentes entre sí, las métricas filogenéticas como UniFrac tienen en cuenta la relación filogenética entre las UTO al calcular las distancias entre muestras. Los métodos de agrupamiento de OTU inestables moverán secuencias entre las OTU que generalmente estarían estrechamente relacionadas evolutivamente, de modo que la distancia calculada entre muestras debería permanecer generalmente más similar de lo que lo haría cuando se usan métricas de diversidad no filogenética. Se volvió a analizar el efecto de las UTO inestables sobre la diversidad beta utilizando CL, SL, AL, AGC y DGC en función de la distancia UniFrac (Archivo adicional 10: Figura S7). Los resultados muestran que las UTO inestables de CL, AGC y DGC afectan mínimamente la diversidad beta utilizando la distancia UniFrac, confirmando la hipótesis de que cuando las secuencias cambian entre UTO estrechamente relacionadas con estos métodos inestables, las métricas filogenéticas son más tolerantes a esa inestabilidad. Sin embargo, en la agrupación SL, las UTO relacionadas a distancia pueden finalmente unirse en una única UTO, de modo que la diversidad beta puede verse afectada incluso cuando se usa la distancia UniFrac. En AL, la separación mayor todavía es causada por diferentes patrones de agrupamiento, como con las métricas no filogenéticas.