Stabilitet av operasjonelle taksonomiske enheter: en viktig, men forsømt egenskap for å analysere mikrobielt mangfold

Endre medlemskap Av OTUs på forskjellige sekvenseringsdybder ( OTU ustabilitet)-en forsømt, men viktig egenskap for analyser av mikrobielt mangfold

for å illustrere problemet skapt av ustabile OTUs, reproduserte vi de ikke-overlappende sjeldne kurver ved hjelp av samme datasett (Canada soil dataset) og samme clustering metode (komplett kobling clustering, referert TIL SOM CL clustering) ansatt Av Roesch et al. (Figur 1a). Vi tilfeldig subsampled rå sekvenser på fire sekvensering dybder (20%, 40%, 60%, og 80% av inngangssekvensene) ved hjelp av 30 replikater av hver. Vi brukte deretter complete linkage (CL) clustering for å klynge hver av delsamplene (definisjoner av alle clustering metoder kan bli funnet I Tilleggsfil 1) og genererte rarefaction kurver for hver prøvetakingsdybde. I TILFELLE AV CL clustering er sjeldnekurven produsert av en større underprøve brattere enn den som produseres av en mindre underprøve.

Et mål ved generering av sjeldne kurver er å støtte interpolering, noe som betyr at hvis vi lager en sjeldne kurve fra et fullt datasett, vil vi gjerne bruke den kurven til å bestemme hvor mange arter som skal observeres for et antall sekvenser som utgjør mindre enn totalen. For eksempel, når vi interpolerer fra rarefaction-kurven opprettet fra et fullt datasett, anslår vi at vi har omtrent 4.500 arter hvis vi tilfeldig velger 30.000 sekvenser fra hele datasettet (punkt A I Figur 1a). Problemet med at ikke-overlappende sjeldne kurver utgjør for interpolering, er imidlertid at hvis vi i stedet tilfeldig undersamplerte 30.000 sekvenser fra en 80% underprøve av hele datasettet, vil vi anslå at bare 4.200 arter er representert av disse 30.000 sekvensene (punkt B I Figur 1a). Dette scenariet vil i hovedsak være sant i tilfeller der bare noen få sekvenser ble samlet per prøve, et fenomen som er i konflikt med forventet oppførsel av sjeldne kurver.

Vi har observert at ikke-overlappende av sjeldne kurver, som illustrert i Figur 1a, faktisk skyldes ustabiliteten TIL OTU-klyngemetoder. Med andre ord kan klyngen som en sekvens er tilordnet, påvirkes av antall sekvenser som grupperes. En illustrasjon av denne hypotesen er vist I Figur 1b. hvis vi bare observerer to sekvenser, S1 og S2, innenfor likhetstærskelen (angitt ved å koble med en bar), grupperes de i en ENKELT OTU (OTU1). Vi legger deretter til tre flere sekvenser, S3, S4 og S5, som kan knyttes Til S1 eller Til S2, men flere parvise avstander overskrider terskelen (disse parene er ikke koblet av stolper). VED definisjon AV CL må parvise avstander for alle sekvenser tilordnet en ENKELT OTU passe innenfor avstandsgrensen, noe som kan tillate S1 og S2 å bli separert I OTU2 og OTU3. OTU1 forsvinner på denne sekvenseringsdybden, og dens sekvenser er tilordnet to Forskjellige Otu, illustrerer problemet MED OTU ustabilitet. Teoretisk sett legger flere sekvenser til å dele eksisterende OTUs når DU bruker cl-algoritmen. Som et resultat, når de blir gruppert med et større datasett versus et mindre datasett, vil de samme sekvensene bli gruppert i Flere OTUs. Dette vil resultere i en steepening av sjeldningskurven som er avledet fra den større prøven og konklusjonen om at den har et høyere alfa-mangfold. Rarefaction kurver som oppstår FRA CL er derfor mer følsomme for sekvensering dybde. Selv om denne effekten er svak, det fortsatt delvis illustrerer hvorfor, i noen tilfeller, innsamling av en rekke sekvenser som er basert på en mindre prøvestørrelse forventes å produsere en rarefaction kurve som når et platå, og i stedet en stadig økende rarefaction kurve er produsert. Dette fenomenet av at en person blir tildelt forskjellige OTUs bare på grunn av økt eller redusert prøvetakingsdybde er åpenbart problematisk. En analog situasjon basert på tradisjonell (makroskala) økologi ville være hvis telling av forskjellige antall fugler innenfor et fast område førte til omdefinering av hvilke individuelle fugler som grupperer seg som en art. Den ovenfor beskrevne ustabiliteten skyldes imidlertid ikke sporadisk identifisering av nye arter, som det kan være tilfelle i tradisjonell økologi. I motsetning, disse endringene OTU medlemskap skje systematisk innenfor en stor andel av sekvensene blir overført mellom OTUs.

for å undersøke effekten av ustabile Otuer på biologisk tolkning, utforsket vi neste beta-mangfold ved hjelp av ordinasjon. Ved Hjelp Av Principal Coordinate Analysis (Pcoa) sammenlignet vi de mikrobielle samfunnene mot hele datasettet ved hjelp av underprøver som omfatter 60% av hele datasettet. Vi gjentok denne subsampling 30 ganger for å lage replikater. Vi brukte DERETTER clustering til å samle alle underprøvene, så vel som hele datasettet, og kombinerte clustering-resultatene med representativ OTU-sekvens (definert som den mest omfattende sekvensen i hver OTU). Prøvene ble deretter tilfeldig rarefied å inkludere 30.000 sekvenser per prøve, inkludert 30 replikere rarefactions som resulterte fra clustering av hele datasettet. Etter rarefaction inneholdt alle prøver det samme antall sekvenser, slik at de eneste forskjellene mellom dem var antall sekvenser som først ble gruppert. PCoA viste at disse prøvene separeres i henhold til antall sekvenser som opprinnelig ble gruppert, noe som indikerer at OTU ustabilitet resulterer i de samme prøvene som synes å ha forskjellige sammensetninger(Figur 1c). Et lignende resultat ble observert ved sammenligning av 20%, 40% og 80% underprøver mot hele datasettet (Tilleggsfil 2: Figur S1). Videre ble 125 Otuer (etter false discovery rate (fdr) – korreksjon) og 26 Otuer (Etter Bonferroni-korreksjon) bestemt å være signifikant forskjellige mellom Disse to gruppene ved Bruk Av Mann-Whitney U-testen. Vi testet også effekten som ustabil OTUs har på beregning av taksonomisk sammensetning og fant effekten å være svært begrenset (Tilleggsfil 3: Figur S2 og Tilleggsfil 4). Dette skyldes at Disse Otuene fortsatt er tildelt samme taxa som en konsekvens av deres fylogenetiske nærhet, til tross for at de endrer seg når flere sekvenser legges til VED HJELP AV CL (også omtalt nedenfor i avsnittet som beskriver toleransen Til PCoA til å bruke fylogenetiske beregninger med ustabile OTUs).

Alternative hierarkiske og grådige klyngemetoder produserer også ustabile OTUs

alle hierarkiske metoder som brukes til å bestemme OTU-medlemskap, er basert på parvise avstander mellom sekvensene I OTUs. CL clustering krever parvis avstand mellom alle sekvenser I EN OTU for å passe innenfor avstandsgrensen. Single linkage (SL) clustering krever parvis avstand mellom et par sekvenser I EN OTU for å passe innenfor avstandsgrensen. Gjennomsnittlig kobling (AL) clustering krever at gjennomsnittlige parvise avstander mellom alle sekvenser I EN OTU passer innenfor avstandsgrensen. Som forventet ved BRUK AV SL clustering (Figur 2a), Har OTUs en tendens til å bli slått sammen når flere sekvenser legges til, noe som er motsatt av splitteproblemet som observeres MED CL. Følgelig blir sjeldne kurver opprettet ved HJELP AV SL mindre bratte ettersom underprøvestørrelsen øker (Figur 2b). Beta-mangfold påvirkes også av ustabil Sl clustering Av OTUs(Figur 2c). For eksempel ble 167 Otuer (etter fdr-korreksjon) og 36 Otuer (Etter Bonferroni-korreksjon) bestemt å være differensielt representert over både 60% – underprøven og hele datasettet.

Figur 2
figur2

Prinsipper underliggende ustabil single linkage (SL) clustering, rarefaction kurver, og PCoA basert På Bray-Curtis avstand. (A) Prinsipper underliggende ustabil SL clustering på to prøvetaking dybder. Hvite sirkler angir individuelle sekvenser som ble inkludert i både små og store underprøver, og mørke sirkler angir sekvenser som bare legges til i det store underprøven. Linjer indikerer par sekvenser med avstander lik eller mindre enn terskelen, som derfor kan knyttes til en ENKELT OTU. Store sirkler i rød eller blå indikerer OTUs i henholdsvis små og store underprøver. (b, d) Rarefaction kurver generert MED SL (b) og gjennomsnittlig kobling (AL) (d) clustering på fem forskjellige dybder. (c, e) PCoA basert På Bray-Curtis-avstanden, sammenligner 60% delprøver med de fulle datasettene ved HJELP AV SL (c) og AL (e). Alle underprøvene ble sjeldne til 30.000 sekvenser per prøve som skal inkluderes i denne analysen.

ustabiliteten produsert av gjennomsnittlig kobling er mer komplisert fordi BÅDE OTU-splitting og OTU-sammenslåing kan forekomme. Disse motstridende effektene fører til mer subtile forskjeller I OTU-teller, og de resulterende sjeldne kurver som er opprettet MED al overlapping på forskjellige dybder (Figur 2d). Videre ER AL OTUs selv ustabile (Tilleggsfil 5: Figur S3) på grunn av det store antallet OTU splitting og sammenslåing hendelser som oppstår. I tillegg, selv om disse ustabile Otuene påvirker beta-mangfold (Adonis, R = 0,16, P = 0,001), synes den store separasjonen I PCoA å være forårsaket av andre faktorer enn prøvestørrelse; for eksempel, mulig inkludering av forskjeller som følge av input rekkefølgen av sekvenser eller tilstedeværelse eller fravær av visse nøkkelsekvenser innenfor ulike underprøver (Figur 2e). Denne observasjonen kan skyldes følsomheten TIL AL til rekkefølgen av inngangssekvenser, noe som vil resultere i forskjellige klyngemønstre. VED BRUK AV AL var 804 OTUs (etter fdr-korreksjon) og 5 OTUs (Etter Bonferroni-korreksjon) differensielt representert over de to prøvetakingsdybdene.

Grådig clustering, slik som det som er implementert I USEARCH, er en annen vanlig brukt de novo clustering metode som er mer beregningsmessig effektiv ENN CL, SL og AL. Når du bruker grådig clustering, må en sekvens være innenfor avstandsgrensen til en ENKELT OTU centroid som skal grupperes i DEN OTU. Videre behandles sekvenser i en definert rekkefølge, og hver spørringssekvens vil enten bli tildelt en eksisterende OTU eller som sentroid av en ny OTU. Hvis en spørringssekvens er innenfor avstandsgrensen for flere eksisterende OTU-sentroider, kan den tilordnes enten den nærmeste centroid (her referert til som distance-based greedy clustering (DGC)) eller den mest omfattende centroid (her referert til som abundance-based greedy clustering (AGC)) (Tilleggsfil 1). Alternative tilnærminger finnes for å bryte slike bånd; derimot, vi valgte å begrense vårt fokus til de som er mest ansatt. I denne studien vurderer VI USEARCH som en metode for grådig clustering (VI evaluerte IKKE UPARSE fordi clustering algoritmen er den samme som den som brukes I USEARCH).

OTU ustabilitet er også et problem i grådige clustering metoder og oppstår fra flere kilder. For det første er valg av sentroider svært avhengig av rekkefølgen i hvilke sekvenser behandles. Derfor, når størrelsen på en prøve endres, kan rekkefølgen av sekvenser også endres. For DET andre, når DU bruker DGC, selv om valget av sentroider forblir stabilt når størrelsen på prøven økes, kan de ekstra sekvensene bli nye sentroider og tiltrekke seg medlemmer fra eksisterende Otuer (dette vil vanligvis ikke skje I AGC). Tenk deg for eksempel At S10, S11 og S12 danner OTU7 med S10 som sentroid (Figur 3a,b). Hvis det i en etterfølgende sekvensering kjøres en annen sekvens, S13, legges Til, kan behandlingsrekkefølgen Til den større prøven bli S10, S13, S11 og S12. I Dette tilfellet Vil S10 fortsatt være en sentroid, Men S13 vil også bli en sentroid. S13 rekrutterer Deretter S11, da avstanden mellom de to er mindre enn avstanden Mellom S11 Og S10. I DGC vil S11 ende opp med clustering Med S13 i stedet For S10, og den opprinnelige OTU7 vil bli delt inn I OTU8 og OTU9 (Figur 3a). I AGC vil S11 fortsatt klynge Seg Med S10, og den opprinnelige OTU7 vil beholde sin opprinnelige struktur (Figur 3b).

Figur 3
figur3

Prinsipper som ligger til grunn for unstable distance-based greedy clustering (DGC) og abundance-based greedy clustering (AGC), rarefaction curves og PCoA basert På Bray-Curtis-avstanden. (a, b) Prinsipper underliggende ustabil DGC (a) OG AGC (b) på to prøvetaking dybder. Hvite sirkler angir individuelle sekvenser som ble inkludert i både små og store underprøver, og mørke sirkler angir sekvenser som bare ble lagt til i det store underprøven. Gule prikker indikerer OTU sentroider. Linjer indikerer par sekvenser med avstander lik eller mindre enn terskelen, som derfor kan knyttes til en ENKELT OTU. Store sirkler i rød eller blå indikerer OTUs i henholdsvis små og store underprøver. (c, d) Rarefaction kurver generert MED DGC (c) OG AGC (d) på fem forskjellige dybder. (e, f) PCoA basert På Bray-Curtis avstand, sammenligne 60% delprøver med hele datasett VED HJELP AV AGC (e) og DGC (f). Alle underprøvene ble sjeldne til 30.000 sekvenser per prøve som skal inkluderes i denne analysen.

vi brukte grådige clustering på alpha rarefaction kurver og beta-mangfold PCoA å analysere effektene generert av ustabil OTUs. SOM nevnt ovenfor, DGC OG AGC begge lider av centroid changeability (denne effekten er ikke partisk MOT OTU splitting eller sammenslåing), OG DGC i tillegg lider av splitting av eksisterende OTUs. SOM et resultat produserte DGC og CL clustering lignende kurver, som ble brattere da underprøvestørrelsen økte (Figur 3c). I kontrast produserte AGC overlappede kurver som var upåvirket av dybde (Figur 3d). Men, som MED al clustering, dette betyr ikke At OTUs var stabile, men bare at tilsvarende antall (muligens forskjellig) OTUs ble oppnådd ved de forskjellige subsampling dybder. Den ustabile OTUs produsert I dgc og AGC effekt estimeringer av beta-mangfold (Figur 3e, f). I TILFELLE AV AGC ble 392 OTUs (etter fdr-korreksjon) og 14 OTUs (etter Bonferroni-korreksjon) bestemt å være differensielt representert over de to dypene, og i TILFELLE AV DGC var disse tallene henholdsvis 370 og 15.

for å kvantifisere forskjellene mellom disse ustabile metodene, sammenlignet vi andelen ustabile sekvenser og ustabile Otuer (Figur 4a,b; Tilleggsfil 6: Tabell S1). CL produserte den høyeste andelen ustabile sekvenser (omtrent 22%), MENS AL (13%) og AGC (12%) utførte litt bedre ENN SL (15%) og DGC (14%). Disse resultatene var ikke alltid konsistente når man sammenlignet bruken av alternative datasett (Tilleggsfil 7: Figur S6); AGC viste imidlertid generelt den beste ytelsen mot de andre de novo-metodene. For ustabile Otuer produserte CL og DGC den høyeste andelen ustabile Otuer: omtrent 60% Av Otuer med sentroider med frekvenser større enn eller lik 10 ble observert å være ustabile i hver av metodene (>90% ble funnet å være ustabile ved analyse av visse datasett, som vist i tilleggsfil 7: Figur S6). AL og SL er mer stabile enn ENTEN CL eller DGC, men resulterte fortsatt i at MER enn 30% OTU-ustabilitet for sentroider ble observert minst 10 ganger. AGC ble funnet å være den mest stabile de novo metoden, spesielt For OTUs med svært rikelig sentroider.

Figur 4
figur4

andel av ustabile sekvenser, andel av ustabile OTUs og MCC-verdi for hver metode. (A) Andel av ustabile sekvenser som skapt av metoden. Ustabile sekvenser er definert som sekvenser som er gruppert til en sentroid i 60% – underprøven, men gruppert til en annen sentroid i 100% (full) datasettet. (B) Andel ustabile Otuer som skapt ved metode og ved frekvens av klyngesentroider (verdiene for lukket referanse og dereplikasjon er null og er dermed ikke inkludert i dette tallet). HVIS EN OTU var identisk i 60% og 100% datasettene (ikke inkludert sekvenser som ikke er tilstede i 60% – underprøven), er den definert som stabil. (c) MCC-verdien av hver metode. Høyere verdier tilsvarer større stabilitet.

En de novo clustering metode som produserer stabile OTUs er dereplication eller clustering av sekvenser som er identiske og like lange (Tilleggsfil 8: Figur S4a). Som med lukket-referanse OTU clustering, Alle OTUs forbli helt stabil på tvers av ulike sekvensering dybder fordi clustering ikke påvirkes av sammensetningen av sekvensen samlingen blir gruppert. Som et resultat, rarefaction kurver produsert ved dereplication er overlappende over ulike dybder (Ekstra fil 8: Figur S4b), og beta-mangfold påvirkes ikke av størrelsen på delsamplene (Tilleggsfil 8: Figur S4c). Videre er ikke en ENKELT OTU fast bestemt på å være vesentlig forskjellig mellom de to gruppene. Det er viktig å merke seg at dereplication er svært sårbar for å identifisere falske OTUs som skyldes sekvenseringsfeil. På grunn av sin stabilitet i binning OTUs, produserer den også overlappende sjeldne kurver over forskjellige dybder, noe som indikerer at ustabile OTUs (i stedet for sekvenseringsfeil) er hovedårsaken til ikke-overlappende sjeldne kurver. Videre antyder stabiliteten av dereplikasjonsmetoden at en høyere likhetsgrense for clustering kan redusere forekomsten av ustabile OTUs, da de novo clusteringsmetoder blir mer lik dereplikasjon når likhetsgrensen øker. I praksis gir dereplication clustering høyt Antall OTUs, som er beregningsmessig dyrt å ansette nedstrøms. Dermed hindrer moderne datasettstørrelser oss i å jobbe med sekvenser som bare har blitt dereplicated. Det er mulig at fremtidige metoder kan bruke tilnærminger basert på dereplikasjon for å håndtere PROBLEMET MED OTU ustabilitet. Et annet ekstremt eksempel ville være clustering av alle sekvenser i EN OTU mens DEN OTU forblir helt stabil. Likevel, i motsetning til dereplication, OTUs kan benyttes i videre analyser, slik som alfa-mangfold, beta-mangfold, og taksonomisk sammensetning. Videre clustering alle sekvenser i EN OTU kan neppe kalles ‘clustering’ og er helt ubrukelig for nedstrøms analyse.

Referansebaserte metoder minimerer problemet med ustabile OTUs

en funksjon som alle ustabile klyngemetoder har til felles er at klyngedefinisjoner er avhengige av inngangssekvensene. Lukket REFERANSE OTU clustering unngår denne avhengigheten med en stor praktisk begrensning: under lukket REFERANSE OTU clustering, leser er gruppert mot en referanse datasett (For Eksempel Greengenes database) av pre-beregnet sentroider og ingen nye sentroider er opprettet under clustering, noe som resulterer i perfekt stabile OTUs (Figur 5a). Som et resultat påvirkes ikke alfa – og beta-mangfoldsberegninger basert på lukkede referanseklynger av størrelsen på prøver (Figur 5b, c), og Ingen Otuer er bestemt til å være signifikant forskjellig mellom de to dybdene. I tillegg til å produsere stabile OTUs, gir clustering clustering flere andre praktiske funksjoner. For det første kan navnene på referansesekvensene brukes som universelle OTU-identifikatorer i stedet for å bruke vilkårlig tildelte navn, og dermed lette direkte sammenligning Av Otu på tvers av studier. Sekund, sekvens leser fra ulike markør gen regioner kan grupperes sammen hvis referansedatasettet består av full lengde markør gener. Endelig kan clustering med lukket referanse parallellisere OTU clustering for store datasett. Den store begrensning av lukket-referanse OTU clustering er at leser som er utenfor likheten terskelen til noen referanse centroids er forkastet, slik at bare OTUs som allerede er representert i databasen kan være ‘observert. 14% av sekvensene ikke kunne matches med referansesekvensene og ble derfor kassert etter clustering. Denne begrensningen av OTU-clustering med lukket referanse kan bli triviell ettersom projiserte forbedringer gjøres for å referere datasett, noe som fører til at de tilsvarende referansene som trengs for spesifikke forskningsprosjekter (for eksempel tarmmikrobiomet) blir mer utviklet.

Figur 5
figur5

Prinsipper underliggende stabil lukket referanse clustering, rarefaction kurver, og PCoA basert På Bray-Curtis avstand. (A) Prinsipper som ligger til grunn for stabil clustering med lukket referanse ved to prøvetakingsdybder. Hvite sirkler angir individuelle sekvenser som ble inkludert i både små og store underprøver, og mørke sirkler angir sekvenser som bare ble lagt til i det store underprøven. Diamanter indikerer referansesekvenser. Linjer indikerer par sekvenser med avstander lik eller mindre enn terskelen, som derfor kan knyttes til en ENKELT OTU. Store sirkler i rød eller blå indikerer OTUs i henholdsvis små og store underprøver. (b) Rarefaction kurver generert med lukket referanse clustering på fem forskjellige dybder. (c) PCoA basert På Bray-Curtis avstand, sammenligne 60% delprøver med hele datasett ved hjelp av lukket referanse clustering. Alle underprøvene ble sjeldne til 30.000 sekvenser per prøve som skal inkluderes i denne analysen.

for å overvinne begrensningene for lukket REFERANSE OTU clustering, kan åpen referanse OTU clustering brukes. Open-reference clustering begynner på samme måte som clustering clustering, men fortsetter å klynge sekvensene som ikke samsvarer med referansesamlingen på en de novo måte. Selv om eksisterende de novo clustering metoder produsere ustabile OTUs, åpen-referanse clustering kan være mye mer stabil enn slike metoder fordi mange sekvenser er i utgangspunktet gruppert av lukket-referanse tilnærming. VI evaluerte otu stabilitet i åpen referanse clustering VED HJELP AV AGC for de novo clustering trinn (Figur 4a, b, c) og fant det å være en mye mer effektiv metode enn å bruke de novo metoder alene. Flertallet av de ustabile OTUs var lav overflod sekvenser uten referanse kamp(en kategori av sekvenser som vanligvis anses å være utsatt for feil). Open-reference OTU clustering produserer overlappende sjeldningskurver (Tilleggsfil 9: Figur S5a), og selv om ustabiliteten til open-reference OTU clustering fortsatt påvirker pcoa-analyse (Tilleggsfil 9: Figur s5b), ER PC-og R-verdien (VED ADONIS, R = 0,03) lavere enn med noen annen de novo-metode alene, som er antall Otuer som er differensielt representert over de to gruppene (104 Otuer etter FDR-korreksjon og 2 Otuer etter Bonferroni-korreksjon). Vi sammenlignet åpen referanse clustering metoder med andre de novo metoder på flere datasett, med fokus på andelen ustabile sekvenser og ustabile OTUs og fant at disse resultatene er generelt konsistente på tvers av miljøtyper og sekvenseringsteknologier (Tilleggsfil 7: Figur S6).

i tillegg til å kvantifisere ustabiliteten Til OTUs, brukte VI MCC-indeksen til å undersøke hvordan clustering av sekvenspar endret seg basert på clustering av hele datasettet mot 60% delmengden (Figur 4b, Tilleggsfil 6: Tabell S2). DET er klart at de to referansebaserte metodene og dereplication clustering har den høyeste stabiliteten ved denne metriske og AT AGC er DEN mest stabile av de novo clustering metoder (Kruskal-Wallis test, P < 0.05). AL hadde den laveste MCC-verdien, noe som indikerer at klyngen av mange sekvenspar endret seg ved bruk av denne metoden. Alternativt, sl produsert en høyere MCC verdi enn de fleste av de novo metoder, inkludert AL OG CL. Likevel er en del av årsaken til DEN høye MCC-verdien AV SL at DENS fp-verdi er lik 0 (sekvenser som er skilt i en mindre underprøve, vil bli slått sammen i en ENKELT OTU i en større underprøve, men omvendt situasjon skjer ikke i det hele tatt). På grunn av sine alvorlige problemer MED OTU-sammenslåing, BØR SL derfor ikke betraktes som en mye mer stabil metode.

Fylogenetiske beta-mangfoldsmålinger minimerer effekten AV OTU-ustabilitet

I Motsetning til ikke-fylogenetiske beregninger, hvor Alle Otuer anses å være like forskjellige fra hverandre, tar fylogenetiske beregninger som UniFrac hensyn til det fylogenetiske forholdet Mellom Otuer ved beregning av avstander mellom prøver. Ustabile OTU clustering metoder vil flytte sekvenser mellom OTUs som vanligvis ville være nært beslektet evolusjonært slik at den beregnede avstanden mellom prøvene bør generelt forbli mer lik enn det ville gjort ved bruk av ikke-fylogenetisk mangfold beregninger. Vi analyserte effekten av ustabile OTUs på beta-mangfold ved HJELP AV CL, SL, AL, AGC og DGC basert På UniFrac-avstand (Tilleggsfil 10: Figur S7). Resultatene viser at ustabile Otuer AV CL, AGC og DGC minimalt påvirker beta-mangfold ved Hjelp Av UniFrac-avstand, og bekrefter hypotesen om at når sekvenser endrer seg mellom nært beslektede Otuer med disse ustabile metodene, er fylogenetiske beregninger mer tolerante for den ustabiliteten. Likevel, I SL clustering, fjernt relaterte OTUs kan til slutt bli slått sammen i en ENKELT OTU, slik at beta-mangfold kan påvirkes selv når Du bruker UniFrac avstand. I AL er den store separasjonen fortsatt forårsaket av forskjellige klyngemønstre, som med de ikke-fylogenetiske beregningene.

You might also like

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.