Stability of operational taxonomic units: uma parte importante, mas negligenciado propriedade para a análise da diversidade microbiana

Alterar a associação de OTUs em diferentes sequenciamento de profundidade (OTU instabilidade) – um negligenciado mas propriedade importante para a análise da diversidade microbiana

Para ilustrar o problema criado pelo instável OTUs, nós reproduzido a não-sobreposição de curvas de rarefação usando o mesmo conjunto de dados (Canadá solo conjunto de dados) e o mesmo método de agrupamento (complete linkage clustering, conhecido como CL clustering) empregado por Roesch et al. (Figura 1a). Subamostrámos aleatoriamente as sequências em bruto a quatro profundidades sequenciais.(20%, 40%, 60%, e 80% das sequências de entrada) utilizando 30 replicados de cada. Em seguida, usamos a junção completa (CL) para agrupar cada uma das subamostras (definições de todos os métodos de agrupamento podem ser encontradas no arquivo adicional 1) e gerou curvas de rarefacção para cada profundidade de amostragem. No caso da clustering, a curva de rarefacção produzida por uma subamostra maior é mais íngreme do que a produzida por uma subamostra mais pequena.

Um gol quando a geração de curvas de rarefação é o suporte de interpolação, o que significa que, se estamos a criar uma curva de rarefação de um conjunto completo de dados, gostaríamos de usar que a curva para determinar quantas espécies seriam observados para algum número de sequências que equivale a menos do que o total. Por exemplo, quando interpolamos a partir da curva de rarefacção criada a partir de um conjunto de dados completo, estimamos que temos aproximadamente 4.500 espécies se seleccionarmos aleatoriamente 30.000 sequências do conjunto de dados completo (ponto A Na Figura 1a). O problema que curvas de rarefacção não sobrepostas representam para a interpolação, no entanto, é que se ao invés disso subamostrássemos aleatoriamente 30.000 sequências de uma subamostra de 80% do conjunto de dados completo, estimaríamos que apenas 4.200 espécies são representadas por estas 30.000 sequências (ponto B Na Figura 1a). Este cenário seria essencialmente verdadeiro nos casos em que apenas algumas sequências foram coletadas por Amostra, um fenômeno que entra em conflito com o comportamento esperado das curvas de rarefacção.

observamos que a não sobreposição de curvas de rarefacção, como ilustrado na figura 1a, é realmente causada pela instabilidade dos métodos de agrupamento OTU. Em outras palavras, o conjunto a que uma sequência é atribuída pode ser afetado pelo número de sequências que estão sendo agrupadas. Uma ilustração desta hipótese é mostrada na figura 1b.se observarmos apenas duas sequências, S1 e S2, dentro do limiar de semelhança (indicado pela ligação com uma barra), elas são agrupadas em uma única OTU (OTU1). Em seguida, adicionamos mais três sequências, S3, S4 e S5, que podem ser ligadas a S1 ou a S2, mas várias distâncias emparelhadas excedem o limiar (estes pares não são ligados por barras). Por definição de CL, distâncias em pares para todas as sequências atribuídas a uma única OTU devem caber dentro do limiar de distância , o que poderia permitir que S1 e S2 fossem separados em OTU2 e OTU3. OTU1 desaparece nesta profundidade de sequenciamento, e suas sequências são reatribuídas a dois OTUs diferentes, ilustrando o problema da instabilidade OTU. Teoricamente, adicionar mais sequências tende a dividir OT existente ao usar o algoritmo CL. Como resultado, ao ser agrupado com um conjunto de dados maior versus um conjunto de dados menor, as mesmas sequências serão agrupadas em mais OTUs. Isto resultará em uma inclinação da curva de rarefacção que é derivada da amostra maior e a conclusão de que ela tem uma maior diversidade Alfa. As curvas de rarefacção que surgem a partir de CL são, portanto, mais sensíveis à profundidade de sequenciamento. Embora este efeito seja fraco, ainda ilustra parcialmente por que, em alguns casos, a coleta de um número de sequências que é baseado em um tamanho de amostra menor seria esperado para produzir uma curva de rarefacção que atinge um patamar, e em vez disso uma curva de rarefacção continuamente crescente é produzida. Este fenômeno de um indivíduo ser atribuído a diferentes OTUs simplesmente por causa do aumento ou diminuição da profundidade de amostragem é obviamente problemático. Uma situação análoga baseada na ecologia tradicional (macro-escala) seria se a contagem de diferentes números de aves dentro de uma área fixa levou à redefinição de quais aves individuais agrupam-se como uma espécie. No entanto, a instabilidade acima descrita não se deve à identificação ocasional de novas espécies, como pode ser o caso na ecologia tradicional. Em contraste, estas mudanças na adesão à OTU ocorrem sistematicamente dentro de uma grande proporção das sequências que estão sendo reatribuídas entre OTUs.

To further investigate the effect of unstable OTUs on biological interpretation, we next explored beta-diversity using ordination. Usando a Principal Análise de coordenadas (PCoA), comparamos as comunidades microbianas com o conjunto completo de dados usando subamostras que compõem 60% do conjunto completo de dados. Repetimos esta subamostra 30 vezes para criar replicados. Nós então usamos clustering CL para agrupar todas as subamostras, bem como o conjunto de dados completo, e combinamos os resultados de agrupamento por uma sequência OTU representativa (definida como a sequência mais abundante em cada OTU). As amostras foram então aleatoriamente rarefeitas para incluir 30.000 sequências por amostra, incluindo as 30 rarefacções replicadas que resultaram da agregação do conjunto de dados completo. Após a rarefacção, todas as amostras continham o mesmo número de sequências, de modo que as únicas diferenças entre elas eram o número de sequências que foram inicialmente agrupadas. A ccoa demonstrou que estas amostras se separaram de acordo com o número de sequências que foram inicialmente agrupadas, indicando que a instabilidade da OTU resulta em que as mesmas amostras parecem ter composições diferentes (figura 1c). Um resultado semelhante foi observado ao comparar as subamostras de 20%, 40% e 80% com o conjunto de dados completo (ficheiro adicional 2: Figura S1). Além disso, 125 OTUs (após correcção da taxa de descoberta falsa (FDR)) e 26 OTUs (após correcção Bonferroni) foram determinados como sendo significativamente diferentes entre estes dois grupos utilizando o teste de Mann-Whitney U. Também testamos o efeito que o Otus instável tem no cálculo da composição taxonômica e descobrimos que o efeito é muito limitado (arquivo adicional 3: Figura S2 e arquivo adicional 4). Isto é porque estes OTUs são ainda atribuídos à mesma taxa em consequência da sua proximidade filogenética, apesar do fato de que eles estão a mudar quando mais sequências são adicionadas utilizando CL (também discutido abaixo, na seção detalhando a tolerância de PCoA para filogenética usando métricas instáveis OTUs).

Alternativa hierárquica e gananciosos cluster de métodos de também produzir instável OTUs

Todos os métodos hierárquicos, que são utilizados para determinar OTU associação são baseados em pares de distâncias entre as seqüências em OTUs. Clustering requer a distância emparelhada entre todas as sequências de uma OTU para caber dentro do limiar de distância. A agregação de uma única ligação (SL) requer a distância em pares entre qualquer par de sequências numa OTU para caber dentro do limiar de distância. A agregação de ligações médias (AL) requer que as distâncias médias em pares entre todas as sequências de uma OTU se encaixem dentro do limiar de distância. Como seria de esperar quando se usa clustering SL( figura 2a), OTUs tendem a ser unidos quando mais sequências são adicionadas, o que é o oposto do problema de divisão que é observado com CL. Assim, as curvas de rarefacção criadas com recurso à SL tornam-se menos acentuadas à medida que o tamanho subamostra aumenta (figura 2b). A Beta-diversidade também é afetada pela agregação SL instável de OTUs (figura 2c). Por exemplo, 167 OTUs (após correcção FDR) e 36 OTUs (após correcção Bonferroni) foram determinados como sendo representados diferencialmente, tanto na subamostra de 60% como no conjunto de dados completo.

Figura 2
Figura 2

princípios subjacentes unstable single linkage (SL) agrupamento, curvas de rarefacção, e PCoA baseado na distância Bray-Curtis. a) princípios subjacentes à agregação instável de SL a duas profundidades de amostragem. Círculos brancos indicam sequências individuais que foram incluídas tanto nas pequenas como nas grandes subamostras, e círculos escuros indicam sequências que são adicionadas apenas na grande subamostra. As linhas indicam pares de sequências com distâncias iguais ou inferiores ao limiar, que podem, portanto, ser ligadas a uma única OTU. Círculos grandes em vermelho ou azul indicam OTUs nas pequenas e grandes subamostras, respectivamente. B, d) curvas de rarefacção geradas com a SL (B) e a ligação média (AL) (d) agrupando-se a cinco profundidades diferentes. (C, e) PCoA baseado na distância Bray-Curtis, comparando 60% subamostras com os conjuntos de dados completos usando SL (C) e AL (e). Todas as subamplas foram rarefeitas para 30.000 sequências por amostra a serem incluídas nesta análise.

a instabilidade produzida pela ligação média é mais complicada porque tanto a divisão OTU como a fusão OTU podem ocorrer. Estes efeitos conflitantes levam a diferenças mais sutis nas contagens OTU, e as curvas de rarefacção resultantes que são criadas com sobreposição AL em diferentes profundidades (figura 2d). Além disso, os próprios OTUs AL são instáveis (arquivo adicional 5: Figura S3) devido ao grande número de eventos de divisão e fusão OTU que ocorrem. Além disso, embora estes OTUs instáveis afetem a beta-diversidade( Adonis, R = 0.16, P = 0.001), A maior separação em PCoA parece ser causada por fatores que não o tamanho da amostra; por exemplo, a possível inclusão de diferenças resultantes da ordem de entrada das sequências ou da presença ou ausência de certas sequências-chave em diferentes subamostras (figura 2e). Esta observação pode resultar da sensibilidade de AL à ordem das sequências de entrada, o que resultaria em diferentes padrões de agrupamento. Ao utilizar AL, 804 OTUs (após correcção FDR) e 5 OTUs (após correcção Bonferroni) foram representados diferentemente nas duas profundidades de amostragem.

Gananciosos de clustering, como a que é implementada no USEARCH, é mais comumente usado de novo método de clustering, que é computacionalmente mais eficiente do que a CL, SL, e AL. Ao usar clustering ganancioso, uma sequência deve estar dentro do limiar de distância de um único centroide OTU para ser agrupado nesse OTU. Além disso, sequências são processadas em uma ordem definida, e cada sequência de consulta será atribuída a uma OTU existente ou como o centroide de uma nova OTU. Se uma sequência de consulta estiver dentro do limiar de distância de múltiplos centroids OTU existentes, ela pode ser atribuída tanto ao centroídeo mais próximo (aqui referido como clustering ganancioso baseado em distância (DGC)) ou ao centroídeo mais abundante (aqui referido como agrupamento ganancioso baseado em abundância (AGC)) (arquivo adicional 1). Existem abordagens alternativas para quebrar tais laços; no entanto, escolhemos limitar o nosso foco para aqueles que são os mais comumente empregados. No presente estudo, avaliamos USEARCH como um método de agrupamento ganancioso (nós não avaliamos UPARSE porque seu algoritmo de agrupamento é o mesmo que o usado em USEARCH).

instabilidade OTU é também um problema em métodos de agrupamento gananciosos e surge de várias fontes. Em primeiro lugar, a escolha dos centroids é altamente dependente da ordem em que as sequências são processadas. Portanto, quando o tamanho de uma amostra é alterado, a ordem das sequências também pode ser alterada. Em segundo lugar, ao usar DGC, mesmo que a escolha de centroids permanece estável quando o tamanho da amostra é aumentado, as sequências adicionadas podem se tornar novos centroids e atrair membros de OTUs existentes (Isso geralmente não vai acontecer no AGC). Por exemplo, imagine que S10, S11,e S12 formam OTU7 com S10 como o centroide (figura 3a, b). Se em uma sequência subsequente executar outra sequência, S13, é adicionado, a ordem de processamento da amostra maior pode tornar-se S10, S13, S11, e S12. Neste caso, S10 ainda será um centroide, mas S13 também se tornará um centroide. S13 então recruta S11, pois a distância entre os dois é menor que a distância entre S11 e S10. Na DGC, o S11 acabará por se agrupar com o S13 em vez do S10, e o OTU7 original será dividido em OTU8 e OTU9 (figura 3a). No AGC, o S11 continuará a agrupar-se com o S10 e o OTU7 original manterá a sua estrutura original (figura 3b).

Figura 3
figueiraura3

Princípios subjacentes instável, baseado na distância gananciosos clustering (DGC) e a abundância de base gananciosos clustering (AGC), as curvas de rarefação, e PCoA com base no Bray-Curtis distância. A, b) princípios subjacentes à instável DGC (a) e AGC (b) a duas profundidades de amostragem. Círculos brancos indicam sequências individuais que foram incluídas tanto nas pequenas como nas grandes subamostras, e círculos escuros indicam sequências que foram adicionadas apenas na grande subamostra. Pontos amarelos indicam centroídeos OTU. As linhas indicam pares de sequências com distâncias iguais ou inferiores ao limiar, que podem, portanto, ser ligadas a uma única OTU. Círculos grandes em vermelho ou azul indicam OTUs nas pequenas e grandes subamostras, respectivamente. C, d) curvas de rarefacção geradas com DGC (C) e AGC (d) a cinco profundidades diferentes. (E, f) PCoA com base na distância Bray-Curtis, comparando 60% de subamostras com os conjuntos de dados completos utilizando AGC (e) e DGC (f). Todas as subamplas foram rarefeitas para 30.000 sequências por amostra a serem incluídas nesta análise.

usámos agrupamento ganancioso em curvas de rarefacção alfa e PCoA beta-diversidade para analisar os efeitos gerados pelos OTUs instáveis. Tal como acima referido, tanto a DGC como a AGC sofrem de uma alteração centroid (este efeito não é tendencioso para a divisão ou fusão da OTU) e a DGC sofre ainda da divisão dos Otu existentes. Como resultado, a agregação da DGC e da CL produziu curvas semelhantes, que se tornaram mais acentuadas à medida que o tamanho subamostrava aumentava (figura 3c). Em contraste, o AGC produziu curvas sobrepostas que não foram afetadas pela profundidade (figura 3d). No entanto, tal como acontece com a clustering AL, isto não significa que os OTUs eram estáveis, mas apenas que números semelhantes de OTUs (possivelmente diferentes) foram obtidos nas diferentes profundidades de subamostragem. As OTUs instáveis produzidas nas estimativas de efeito beta da DGC e da AGC (figura 3e,f). No caso da AGC, foram determinados 392 OTUs (após correcção FDR) e 14 OTUs (após correcção Bonferroni) como sendo representados diferentemente nas duas profundidades e, no caso da DGC, estes números eram 370 e 15, respectivamente.

para quantificar as diferenças entre estes métodos instáveis, comparámos a proporção de sequências instáveis e OTUs instáveis (figura 4a,b; ficheiro adicional 6: Quadro S1). A CL produziu a maior proporção de sequências instáveis (aproximadamente 22%), enquanto a AL (13%) e a AGC (12%) tiveram resultados ligeiramente melhores do que a SL (15%) e a DGC (14%). Estes resultados nem sempre foram consistentes ao comparar a utilização de conjuntos de dados alternativos (ficheiro adicional 7: Figura S6); no entanto, o AGC demonstrou geralmente o melhor desempenho em relação aos outros métodos de novo. Para instável OTUs, CL e DGC produzido a maior proporção de instável OTUs: cerca de 60% do OTUs com centróides com frequências iguais ou superiores a 10, foram observadas para ser instável em cada um dos métodos (>90% foram encontrados para ser instável quando da análise de determinados conjuntos de dados, como mostrado no arquivo Adicionais 7: Figura S6). AL e SL são mais estáveis do que CL ou DGC, mas ainda resultou em maior de 30% de instabilidade OTU para centroids sendo observado pelo menos 10 vezes. O AGC foi considerado o método de novo mais estável, especialmente para OTUs com centroídeos altamente abundantes.

Figura 4
Figura 4

proporção de sequências instáveis, proporção de OTUs instáveis e valor MCC de cada método. a) proporção de sequências instáveis criadas pelo método. Sequências instáveis são definidas como sequências que são agrupadas a um centroídeo na subamostra de 60%, mas agrupadas a um centroídeo diferente no conjunto de dados de 100% (completo). b) proporção de OTUs instáveis, tal como criada por método e por frequência de centroídeos de aglomerado (os valores de referência fechada e de dereplicação são nulos, pelo que não estão incluídos neste valor). Se uma OTU era idêntica nos conjuntos de dados de 60% e 100% (não incluindo sequências que não estão presentes na subamostra de 60%), é definida como estável. c) Valor MCC de cada método. Valores mais elevados correspondem a uma maior estabilidade.

um método de agrupamento de novo que produz um OTUs estável é a dereplicação ou o agrupamento de sequências idênticas e de igual comprimento (ficheiro adicional 8: Figura S4a). Tal como acontece com o agrupamento de referência fechada OTU, todos os OTUs permanecem absolutamente estáveis em diferentes profundidades de sequenciamento, porque o agrupamento não é afetado pela composição da coleção de sequências que está sendo agrupada. Como resultado, as curvas de rarefacção produzidas com dereplicação sobrepõem-se em diferentes profundidades (ficheiro adicional 8: Figura S4b), e beta-diversidade não é afetada pelo tamanho das subamostras (arquivo adicional 8: Figura S4c). Além disso, não se considera que uma única OTU seja significativamente diferente entre os dois grupos. É importante notar que a dereplicação é altamente vulnerável à identificação de OTUs espúrios que resultam de erros de sequenciação. Devido à sua estabilidade no Otus binning, também produz curvas de rarefacção sobrepostas em diferentes profundidades, indicando que OTUs instável (em vez de erros de sequenciação) são a principal causa de curvas de rarefacção não sobrepostas. Além disso, a estabilidade do método de dereplicação sugere que um limiar de semelhança mais elevado para a agrupamento pode reduzir a ocorrência de OTUs instáveis, uma vez que os métodos de agrupamento de novo se tornam mais semelhantes à dereplicação à medida que o limiar de semelhança aumenta. Na prática, a aglutinação de dereplicação produz um elevado número de OTUs, que é computacionalmente caro de empregar a jusante. Assim, os tamanhos modernos de conjuntos de dados impedem-nos de trabalhar com sequências que só foram dereplicadas. É possível que métodos futuros possam usar abordagens baseadas na dereplicação para gerenciar o problema da instabilidade OTU. Outro exemplo extremo seria o agrupamento de todas as sequências em um OTU enquanto que OTU permanece absolutamente estável. No entanto, ao contrário da dereplicação, OTUs pode ser utilizado em análises adicionais, tais como a diversidade alfa, beta-diversidade, e composição taxonômica. Além disso, agrupar todas as sequências numa única OTU dificilmente pode ser chamada de “agrupamento” e é completamente inútil para a análise a jusante.

métodos baseados em referência minimizam o problema dos OTUs instáveis

uma característica que todos os métodos de agrupamento instáveis têm em comum é que as definições de aglomerados são dependentes das sequências de entrada. Fechado-referência OTU clustering evita esta dependência com uma grande limitação prática: durante fechado-referência OTU clustering, lê são agrupados em relação a um conjunto de dados de referência (por exemplo, o Greengenes banco de dados ) de pré-calculada de centróides e não de novos centróides são criados durante o clustering, o que resulta perfeitamente estável OTUs (Figura 5a). Como resultado,as estimativas de diversidade alfa e beta baseadas em clusters de referência fechados não são afetadas pelo tamanho das amostras (figura 5b, c), e nenhum OTUs é determinado como sendo significativamente diferente entre as duas profundidades. Além de produzir OTUs estáveis, a clustering de referência fechada fornece várias outras características convenientes. Em primeiro lugar, os nomes das sequências de referência podem ser usados como identificadores universais OTU ao invés de usar nomes atribuídos arbitrariamente, facilitando assim a comparação direta de OTUs através de estudos. Em segundo lugar, a sequência lê-se a partir de diferentes regiões de genes marcadores podem ser agrupados juntos se o conjunto de dados de referência consiste de genes marcadores de comprimento completo. Finalmente, clustering de referência fechada pode paralelizar o agrupamento OTU para grandes conjuntos de dados. A maior limitação de clustering OTU de referência fechada é que se lê que estão fora do limiar de semelhança a qualquer centroídeo de referência são descartados, de modo que apenas os OTUs que já estão representados na base de dados podem ser ‘observados.”Ao processar o conjunto de dados sobre o solo do Canadá, aproximadamente 14% das sequências não puderam ser correspondentes às sequências de referência, pelo que foram descartadas após agrupamento. Esta limitação do Agrupamento de referência fechada da OTU pode tornar-se trivial à medida que as melhorias projetadas são feitas para conjuntos de dados de referência, levando as referências correspondentes necessárias para projetos de investigação específicos (por exemplo, o microbioma intestinal) se tornarem mais altamente desenvolvidos.

Figura 5
a figura5

Princípios subjacentes estável fechado-referência agrupamento, as curvas de rarefação, e PCoA com base no Bray-Curtis distância. a) princípios subjacentes à agregação estável de referência fechada a duas profundidades de amostragem. Círculos brancos indicam sequências individuais que foram incluídas tanto nas pequenas como nas grandes subamostras, e círculos escuros indicam sequências que foram adicionadas apenas na grande subamostra. Os diamantes indicam sequências de referência. As linhas indicam pares de sequências com distâncias iguais ou inferiores ao limiar, que podem, portanto, ser ligadas a uma única OTU. Círculos grandes em vermelho ou azul indicam OTUs nas pequenas e grandes subamostras, respectivamente. B) curvas de rarefacção geradas com agrupamento de referência fechado a cinco profundidades diferentes. c) PCoA com base na distância Bray-Curtis, comparando os subamples de 60% com os conjuntos de dados completos utilizando clusters de referência fechados. Todas as subamplas foram rarefeitas para 30.000 sequências por amostra a serem incluídas nesta análise.

para superar as limitações de clustering OTU de referência fechada, pode ser utilizado o clustering OTU de referência aberta. O agrupamento de referência aberta começa da mesma forma que o agrupamento de referência fechada, mas continua a agrupar as sequências que não correspondem à colecção de referência de novo. Embora os métodos de agrupamento de novo existentes produzam OTUs instáveis, o agrupamento de referência aberta pode ser muito mais estável do que esses métodos, porque muitas sequências são inicialmente agrupadas pela abordagem de referência fechada. Avaliámos a estabilidade da OTU em clustering de referência aberta utilizando o AGC para o passo de novo clustering (figura 4a,b,c) e achámos que era um método muito mais eficaz do que utilizar apenas os métodos de novo. A maioria dos OTUs instáveis eram sequências de baixa abundância sem correspondência de referência (uma categoria de sequências que é comumente considerada propensa a erros). A agregação de referência aberta da OTU produz curvas de rarefacção sobrepostas (ficheiro adicional 9: figura S5a), e apesar de a instabilidade da agregação de referência aberta da OTU ainda afectar a análise da PCoA (ficheiro adicional 9: Figura S5b), o valor PC e R (por ADONIS, R = 0, 03) é inferior ao de qualquer outro método de novo isoladamente, assim como o número de OTUs que são representados diferencialmente entre os dois grupos (104 OTUs após correcção FDR e 2 OTUs após correcção Bonferroni). Comparamos métodos de agrupamento de referência aberta com outros métodos de novo em conjuntos de dados adicionais, com foco na proporção de sequências instáveis e OTUs instáveis e descobrimos que estes resultados são geralmente consistentes entre tipos de ambiente e tecnologias de sequenciação (arquivo adicional 7: Figura S6).

além de quantificar a instabilidade do OTUs, nós usamos o índice MCC para investigar como a agregação de pares de seqüências mudou com base na agregação do conjunto de dados completo versus o subconjunto de 60% (figura 4b, arquivo adicional 6: Tabela S2). É evidente que os dois métodos baseados em referência e o agrupamento de dereplicação têm a maior estabilidade por esta métrica e que a AGC é a mais estável dos métodos de agrupamento de novo (teste Kruskal-Wallis, P < 0,05). AL tinha o menor valor MCC, indicando que o agrupamento de muitos pares de sequências mudou ao usar este método. Em alternativa, a SL produziu um valor MCC mais elevado do que a maioria dos métodos de novo, incluindo AL e CL. No entanto, parte da razão para o alto valor MCC de SL é que seu valor FP é igual a 0 (sequências que são separadas em uma subamostra menor serão fundidas em uma única OTU em uma subamostra maior, mas a situação inversa não acontece de todo). Assim, devido aos seus graves problemas com a fusão OTU, o SL não deve ser considerado um método muito mais estável.

métricas filogenéticas de diversidade Beta minimizam o efeito da instabilidade OTU

ao contrário das métricas não filogenéticas, onde todos os OTUs são considerados igualmente diferentes uns dos outros, métricas filogenéticas como UniFrac levam em conta a relação filogenética entre OTUs ao calcular distâncias entre amostras. Instável OTU métodos de clustering vai mover sequências entre OTUs que normalmente seriam intimamente relacionados evolutivamente, de modo que o cálculo da distância entre as amostras devem, geralmente, são mais semelhantes do que faria quando não filogenética diversidade de métricas. Analisamos novamente o efeito do Otus instável na beta-diversidade usando CL, SL, AL, AGC e DGC com base na distância UniFrac (arquivo adicional 10: figura S7). Os resultados mostram que OTUs instáveis de CL, AGC e DGC afetam minimamente a beta-diversidade usando a distância UniFrac, confirmando a hipótese de que quando sequências estão mudando entre OTUs intimamente relacionados com esses métodos instáveis, métricas filogenéticas são mais tolerantes a essa instabilidade. No entanto, em clustering SL, OTUs distantes relacionados podem finalmente ser unidos em uma única OTU, de modo que a beta-diversidade pode ser afetada mesmo quando usando a distância UniFrac. In AL, the major separation is still caused by different clustering patterns, as with the non-phylogenetic metrics.

You might also like

Deixe uma resposta

O seu endereço de email não será publicado.