- ændring af medlemskab af OTU ‘er på forskellige sekventeringsdybder (OTU – ustabilitet)-en forsømt, men vigtig egenskab til analyser af mikrobiel mangfoldighed
- Alternative hierarkiske og grådige klyngemetoder producerer også ustabile OTUs
- Referencebaserede metoder minimerer problemet med ustabile OTUs
- fylogenetiske beta-mangfoldighedsmålinger minimerer effekten af OTU-ustabilitet
ændring af medlemskab af OTU ‘er på forskellige sekventeringsdybder (OTU – ustabilitet)-en forsømt, men vigtig egenskab til analyser af mikrobiel mangfoldighed
for at illustrere problemet skabt af ustabile OTU’ er reproducerede vi de ikke-overlappende sjældningskurver ved hjælp af det samme datasæt (Canada soil dataset) og den samme klyngemetode (komplet koblingsklynger, kaldet CL-klyngedannelse) ansat af Roesch et al. (Figur 1A). Vi undersamlede tilfældigt de rå sekvenser på fire sekventeringsdybder (20%, 40%, 60%, 80% af inputsekvenserne) ved hjælp af 30 replikater af hver. Vi brugte derefter complete linkage (CL) clustering til at klynge hver af underprøverne (definitioner af alle klyngemetoder findes i yderligere fil 1) og genererede sjældne kurver for hver prøveudtagningsdybde. I tilfælde af CL-klyngedannelse er sjældningskurven produceret af en større delprøve stejlere end den, der produceres af en mindre delprøve.
et mål ved generering af rarefaction-kurver er at understøtte interpolation, hvilket betyder, at hvis vi opretter en rarefaction-kurve fra et fuldt datasæt, vil vi gerne bruge denne kurve til at bestemme, hvor mange arter der vil blive observeret for et antal sekvenser, der udgør mindre end det samlede antal. For eksempel, når vi interpolerer fra den sjældne kurve, der er oprettet fra et fuldt datasæt, estimerer vi, at vi har cirka 4.500 arter, hvis vi tilfældigt vælger 30.000 sekvenser fra det fulde datasæt (punkt A i figur 1a). Problemet, som ikke-overlappende sjældningskurver udgør for interpolation, er imidlertid, at hvis vi i stedet tilfældigt undersamlede 30.000 sekvenser fra en 80% delprøve af det fulde datasæt, ville vi estimere, at kun 4.200 arter er repræsenteret af disse 30.000 sekvenser (punkt B i figur 1a). Dette scenario ville i det væsentlige være sandt i tilfælde, hvor kun få sekvenser blev indsamlet pr.
vi har observeret, at den ikke-overlappende af sjældne kurver, som illustreret i figur 1a, faktisk skyldes ustabiliteten af OTU-klyngemetoder. Med andre ord kan klyngen, som en sekvens er tildelt, påvirkes af antallet af sekvenser, der grupperes. En illustration af denne hypotese er vist i figur 1b. hvis vi kun observerer to sekvenser, S1 og S2, inden for lighedstærsklen (angivet ved at forbinde med en bjælke), grupperes de i en enkelt OTU (OTU1). Vi tilføjer derefter yderligere tre sekvenser, S3, S4 og S5, som kunne knyttes til S1 eller til S2, men flere parvise afstande overstiger tærsklen (disse par er ikke forbundet med søjler). Per definition af CL skal parvise afstande for alle sekvenser , der er tildelt en enkelt OTU, passe inden for afstandstærsklen, hvilket kan gøre det muligt at adskille S1 og S2 i OTU2 og OTU3. OTU1 forsvinder ved denne sekventeringsdybde, og dens sekvenser tildeles igen til to forskellige OTU ‘ er, hvilket illustrerer problemet med OTU-ustabilitet. Teoretisk set har Tilføjelse af flere sekvenser en tendens til at opdele eksisterende OTU ‘ er, når du bruger CL-algoritmen. Som et resultat, når de grupperes med et større datasæt versus et mindre datasæt, grupperes de samme sekvenser i flere OTU ‘ er. Dette vil resultere i en stigning i sjældenhedskurven, der er afledt af den større prøve, og konklusionen om, at den har en højere alfa-mangfoldighed. Sjældne kurver, der opstår fra CL, er derfor mere følsomme over for sekventeringsdybde. Selvom denne effekt er svag, illustrerer den stadig delvist, hvorfor indsamling af et antal sekvenser, der er baseret på en mindre prøvestørrelse, i nogle tilfælde forventes at producere en sjældenhedskurve, der når et plateau, og i stedet produceres en konstant stigende sjældenhedskurve. Dette fænomen, hvor et individ tildeles forskellige OTUs simpelthen på grund af øget eller nedsat prøveudtagningsdybde, er åbenlyst problematisk. En analog situation baseret på traditionel (Makro-skala) økologi ville være, hvis tælling af forskellige antal fugle inden for et fast område førte til omdefinering af hvilke individuelle fugle grupperer sig som en art. Den ovenfor beskrevne ustabilitet skyldes imidlertid ikke Lejlighedsvis identifikation af nye arter, som det kan være tilfældet i traditionel økologi. I modsætning hertil forekommer disse ændringer i OTU-medlemskab systematisk inden for en stor del af sekvenserne, der tildeles igen mellem OTU ‘ er.
for yderligere at undersøge effekten af ustabil OTUs på biologisk fortolkning undersøgte vi næste beta-mangfoldighed ved hjælp af ordination. Ved hjælp af Principal Coordinate Analysis (PCoA) sammenlignede vi de mikrobielle samfund mod det fulde datasæt ved hjælp af delprøver, der omfatter 60% af det fulde datasæt. Vi gentog denne subsampling 30 gange for at oprette replikater. Vi brugte derefter CL-klyngedannelse til at klynge alle underprøverne såvel som det fulde datasæt og kombinerede klyngeresultaterne efter repræsentativ OTU-sekvens (defineret som den mest rigelige sekvens i hver OTU). Prøverne blev derefter tilfældigt sjældne til at omfatte 30.000 sekvenser pr. Efter sjældenhed indeholdt alle prøver det samme antal sekvenser, så de eneste forskelle blandt dem var antallet af sekvenser, der oprindeligt blev grupperet. PCoA demonstrerede, at disse prøver adskilt i henhold til antallet af sekvenser, der oprindeligt blev grupperet, hvilket indikerer, at OTU-ustabilitet resulterer i, at de samme prøver ser ud til at have forskellige sammensætninger (figur 1C). Et lignende resultat blev observeret ved sammenligning af 20%, 40% og 80% delprøver mod det fulde datasæt (yderligere fil 2: Figur S1). Desuden blev 125 OTUs (efter falsk opdagelsesrate (FDR) korrektion) og 26 OTUs (efter Bonferroni korrektion) bestemt til at være signifikant forskellige mellem disse to grupper ved anvendelse af Mann-Hvidney U-testen. Vi testede også den effekt, som ustabile OTU ‘ er har ved beregning af taksonomisk sammensætning og fandt, at effekten var meget begrænset (yderligere fil 3: figur S2 og yderligere fil 4). Dette skyldes, at disse OTU ‘er stadig tildeles den samme taksa som en konsekvens af deres fylogenetiske nærhed, på trods af at de ændrer sig, når flere sekvenser tilføjes ved hjælp af CL (også diskuteret nedenfor i afsnittet, der beskriver tolerancen for PCoA til at bruge fylogenetiske målinger med ustabile OTU’ er).
Alternative hierarkiske og grådige klyngemetoder producerer også ustabile OTUs
alle hierarkiske metoder, der bruges til at bestemme OTU-medlemskab, er baseret på parvise afstande mellem sekvenserne i OTUs. Cl-klyngedannelse kræver den parvise afstand mellem alle sekvenser i en OTU for at passe inden for afstandstærsklen. Single linkage (SL) clustering kræver den parvise afstand mellem ethvert par sekvenser i en OTU for at passe inden for afstandstærsklen. Gennemsnitlig kobling (AL) klyngedannelse kræver de gennemsnitlige parvise afstande mellem alle sekvenser i en OTU for at passe inden for afstandstærsklen. Som man kunne forvente, når man bruger SL-klyngedannelse (figur 2a), har OTUs tendens til at blive fusioneret, når der tilføjes flere sekvenser, hvilket er det modsatte af det opdelingsproblem, der observeres med CL. Følgelig bliver sjældne kurver oprettet ved hjælp af SL mindre stejle, når undersampelstørrelsen øges (figur 2b). Beta-mangfoldighed påvirkes også af ustabil SL-klyngedannelse af OTUs (figur 2C). For eksempel blev 167 OTU ‘er (efter FDR-korrektion) og 36 OTU’ er (efter Bonferroni-korrektion) bestemt til at være differentielt repræsenteret på tværs af både 60% – delprøven og det fulde datasæt.
ustabiliteten produceret af gennemsnitlig kobling er mere kompliceret, fordi både OTU-opdeling og OTU-sammensmeltning kan forekomme. Disse modstridende effekter fører til mere subtile forskelle i OTU-tællinger, og de resulterende sjældningskurver, der oprettes med al, overlapper hinanden på forskellige dybder (figur 2D). Desuden er Al OTUs selv ustabile (yderligere fil 5: figur S3) på grund af det store antal OTU-opdeling og sammenlægning af begivenheder, der opstår. Selvom disse ustabile OTU ‘ er påvirker beta-mangfoldighed (Adonis, R = 0,16, P = 0,001), synes den største adskillelse i PCoA at være forårsaget af andre faktorer end prøvestørrelse; for eksempel den mulige inkludering af forskelle, der skyldes inputrækkefølgen for sekvenserne eller tilstedeværelsen eller fraværet af visse nøglesekvenser inden for forskellige underprøver (figur 2e). Denne observation kan skyldes følsomheden af AL til rækkefølgen af inputsekvenser, hvilket ville resultere i forskellige klyngemønstre. Ved anvendelse af AL var 804 OTUs (efter FDR-korrektion) og 5 OTUs (efter Bonferroni-korrektion) differentielt repræsenteret på tværs af de to prøveudtagningsdybder.
grådig klyngedannelse, såsom den, der er implementeret i USEARCH, er en anden almindeligt anvendt de novo klyngedannelse metode, der er mere beregningsmæssigt effektiv end CL, SL og AL. Når du bruger grådig klyngedannelse, skal en sekvens være inden for afstandstærsklen for en enkelt OTU centroid, der skal grupperes i den OTU. Desuden behandles sekvenser i en defineret rækkefølge, og hver forespørgselssekvens tildeles enten en eksisterende OTU eller som centroid for en ny OTU. Hvis en forespørgselssekvens er inden for afstandstærsklen for flere eksisterende OTU-centroider, kan den tildeles enten den nærmeste centroid (her benævnt afstandsbaseret grådig klyngedannelse (DGC)) eller den mest rigelige centroid (her benævnt overflodbaseret grådig klyngedannelse (AGC)) (yderligere fil 1). Der findes Alternative tilgange til at bryde sådanne bånd; imidlertid, vi valgte at begrænse vores fokus til dem, der er de mest anvendte. I denne undersøgelse vurderer vi USEARCH som en metode til grådig klyngedannelse (vi vurderede ikke UPARSE, fordi dens klyngealgoritme er den samme som den, der blev brugt i USEARCH).
OTU ustabilitet er også et problem i grådige klyngemetoder og opstår fra flere kilder. For det første er valget af centroider meget afhængig af rækkefølgen, i hvilken sekvenser behandles. Derfor, når størrelsen af en prøve ændres, kan rækkefølgen af sekvenser også ændres. For det andet, når du bruger DGC, selvom valget af centroider forbliver stabilt, når størrelsen af prøven øges, kan de tilføjede sekvenser blive nye centroider og tiltrække medlemmer fra eksisterende OTU ‘ er (dette vil generelt ikke ske i AGC). Forestil dig for eksempel, at S10, S11 og S12 danner OTU7 med S10 som centroid (figur 3a,b). Hvis der i en efterfølgende sekventering køres en anden sekvens, S13, tilføjes, kan behandlingsrækkefølgen for den større prøve blive S10, S13, S11 og S12. I dette tilfælde vil S10 stadig være en centroid, men S13 bliver også en centroid. S13 rekrutterer derefter S11, da afstanden mellem de to er mindre end afstanden mellem S11 og S10. I DGC vil S11 ende med at gruppere med S13 snarere end S10, og den oprindelige OTU7 vil blive opdelt i OTU8 og OTU9 (figur 3a). I AGC vil S11 stadig klynge sig med S10, og den originale OTU7 bevarer sin oprindelige struktur (figur 3b).
vi brugte grådige klyngedannelse på alpha rarefaction kurver og beta-mangfoldighed PCoA at analysere virkningerne genereret af ustabile OTUs. Som nævnt ovenfor lider DGC og AGC begge af centroid-skiftbarhed (denne effekt er ikke partisk mod OTU-opdeling eller fusion), og DGC lider desuden af opdeling af eksisterende OTU ‘ er. Som et resultat producerede DGC og CL-klyngedannelse lignende kurver, som blev stejlere, da undersampelstørrelsen steg (figur 3c). I modsætning hertil producerede AGC overlappede kurver, der ikke var påvirket af dybden (figur 3D). Men som med al clustering betyder det ikke, at OTUs var stabile, men kun at lignende antal (muligvis forskellige) OTUs blev opnået ved de forskellige subsampling dybder. De ustabile OTU ‘ er produceret i DGC-og AGC-effekt estimater af beta-mangfoldighed (figur 3e,f). I tilfælde af AGC blev 392 OTU ‘er (efter FDR-korrektion) og 14 OTU’ er (efter Bonferroni-korrektion) bestemt til at være differentielt repræsenteret på tværs af de to dybder, og i tilfælde af DGC var disse tal henholdsvis 370 og 15.
for at kvantificere forskellene mellem disse ustabile metoder sammenlignede vi andelen af ustabile sekvenser og ustabile OTUs (figur 4a, b; yderligere fil 6: tabel S1). 22%), mens AL (13%) og AGC (12%) presterede lidt bedre end SL (15%) og DGC (14%). Disse resultater var ikke altid konsistente, når man sammenlignede brugen af alternative datasæt (yderligere fil 7: Figur S6); AGC demonstrerede dog generelt den bedste ydelse i forhold til de andre de novo-metoder. 60% af OTU ‘ er med centroider med frekvenser større end eller lig med 10 blev observeret at være ustabile i hver af metoderne (>90% viste sig at være ustabile ved analyse af visse datasæt, som vist i yderligere fil 7: Figur S6). AL og SL er mere stabile end enten CL eller DGC, men resulterede stadig i, at mere end 30% OTU-ustabilitet for centroider blev observeret mindst 10 gange. AGC viste sig at være den mest stabile de novo-metode, især for OTUs med meget rigelige centroider.
en de novo klyngemetode, der producerer stabil OTUs, er dereplicering eller klyngning af sekvenser, der er identiske og af samme længde (yderligere fil 8: figur S4a). Som med lukket reference OTU-klyngedannelse forbliver alle OTU ‘ er absolut stabile på tværs af forskellige sekventeringsdybder, fordi klyngedybder ikke påvirkes af sammensætningen af sekvenssamlingen, der er grupperet. Som et resultat overlapper sjældne kurver produceret ved hjælp af dereplicering på tværs af forskellige dybder (yderligere fil 8: Figur S4b), og beta-mangfoldighed påvirkes ikke af størrelsen af underprøverne (yderligere fil 8: figur S4c). Desuden er ikke en enkelt OTU bestemt til at være signifikant forskellig mellem de to grupper. Det er vigtigt at bemærke, at dereplicering er meget sårbar over for at identificere falske OTU ‘ er, der skyldes sekventeringsfejl. På grund af dets stabilitet i binning OTU ‘er producerer det også overlappende sjældningskurver på tværs af forskellige dybder, hvilket indikerer, at ustabile OTU’ er (snarere end sekventeringsfejl) er hovedårsagen til ikke-overlappende sjældningskurver. Desuden antyder stabiliteten af dereplikationsmetoden, at en højere lighedstærskel for klyngedannelse kan reducere forekomsten af ustabile OTU ‘ er, da de novo-klyngemetoder bliver mere ligner dereplikation, når lighedstærsklen stiger. I praksis giver dereplication clustering et stort antal OTU ‘ er, hvilket er beregningsmæssigt dyrt at anvende nedstrøms. Således forhindrer moderne datasætstørrelser os i at arbejde med sekvenser, der kun er blevet dereplikeret. Det er muligt, at fremtidige metoder kan bruge tilgange baseret på dereplicering til at håndtere problemet med OTU-ustabilitet. Et andet ekstremt eksempel ville være klyngningen af alle sekvenser i en OTU, mens den OTU forbliver absolut stabil. Ikke desto mindre kan OTUs i modsætning til dereplicering anvendes i yderligere analyser, såsom alfa-mangfoldighed, beta-mangfoldighed og taksonomisk sammensætning. Desuden kan klyngning af alle sekvenser i en OTU næppe kaldes ‘klyngedannelse’ og er helt ubrugelig til nedstrømsanalyse.
Referencebaserede metoder minimerer problemet med ustabile OTUs
en funktion, som alle ustabile klyngemetoder har til fælles, er, at klyngedefinitioner er afhængige af inputsekvenserne. Lukket reference OTU-klyngedannelse undgår denne afhængighed med en vigtig praktisk begrænsning: under lukket reference OTU-klyngedannelse er læsninger grupperet mod et referencedatasæt (for eksempel Greengenes-databasen ) af forudberegnede centroider, og der oprettes ingen nye centroider under klyngedannelse, hvilket resulterer i perfekt stabil OTUs (figur 5a). Som et resultat påvirkes alfa-og beta-mangfoldighedsestimeringer baseret på closed reference clustering ikke af størrelsen af prøver (figur 5b,c), og ingen OTU ‘ er bestemmes at være signifikant forskellige mellem de to dybder. Ud over at producere stabile OTUs giver closed reference clustering flere andre praktiske funktioner. For det første kan navnene på referencesekvenserne bruges som universelle OTU-identifikatorer snarere end at bruge vilkårligt tildelte navne, hvilket letter den direkte sammenligning af OTU ‘ er på tværs af undersøgelser. For det andet kan sekvenslæsninger fra forskellige markørgenregioner grupperes sammen, hvis referencedatasættet består af markørgener i fuld længde. Endelig kan clustering med lukket reference parallelisere OTU-clustering til store datasæt. Den største begrænsning af lukket reference OTU-klyngedannelse er, at læsninger, der ligger uden for lighedstærsklen til enhver referencecentroider, kasseres, således at kun de OTU ‘er, der allerede er repræsenteret i databasen, kan observeres. 14% af sekvenserne ikke kunne matches med referencesekvenserne og blev derfor kasseret efter klyngedannelse. Denne begrænsning af OTU-klyngedannelse med lukket reference kan blive triviel, efterhånden som der forventes forbedringer af referencedatasæt, hvilket fører til, at de tilsvarende referencer, der er nødvendige for specifikke forskningsprojekter (for eksempel tarmmikrobiomet), bliver mere højtudviklede.
for at overvinde begrænsningerne ved lukket reference OTU-klyngedannelse kan Åben reference OTU-klyngedannelse bruges. Open-reference clustering begynder på samme måde som closed-reference clustering, men fortsætter med at klynge de sekvenser, der ikke matcher referencesamlingen på en de novo måde. Selvom eksisterende De novo-klyngemetoder producerer ustabile OTU ‘ er, kan Åben reference-klyngedannelse være meget mere stabil end sådanne metoder, fordi mange sekvenser oprindeligt er grupperet af den lukkede reference-tilgang. Vi vurderede OTU-stabilitet i åben reference-klyngedannelse ved hjælp af AGC til de novo-klyngetrinnet (figur 4a,b,c) og fandt, at det var en meget mere effektiv metode end at bruge de novo-metoder alene. Størstedelen af de ustabile OTU ‘ er var sekvenser med lav overflod uden referencematch (en kategori af sekvenser, der almindeligvis anses for at være fejlbehæftet). Open-reference OTU clustering producerer overlappende rarefaction kurver (yderligere fil 9: figur S5a), og selvom ustabiliteten af open-reference OTU clustering stadig påvirker PCoA analyse (yderligere fil 9: Figur S5b), PC-og R-værdien (ved ADONIS, R = 0,03) er lavere end med nogen anden de novo-metode alene, ligesom antallet af OTU ‘er, der er differentielt repræsenteret på tværs af de to grupper (104 OTU’ er efter FDR-korrektion og 2 OTU ‘ er efter Bonferroni-korrektion). Vi sammenlignede open-reference clustering metoder med andre de novo metoder på yderligere datasæt med fokus på andelen af ustabile sekvenser og ustabile OTU ‘ er og fandt ud af, at disse resultater generelt er konsistente på tværs af miljøtyper og sekventeringsteknologier (yderligere fil 7: Figur S6).
ud over at kvantificere ustabiliteten af OTU ‘ er brugte vi MCC-indekset til at undersøge, hvordan klyngningen af sekvenspar ændrede sig baseret på klyngedannelse af det fulde datasæt versus 60% – undersættet (figur 4b, yderligere fil 6: tabel S2). Det er klart, at de to referencebaserede metoder og dereplikationsklynger har den højeste stabilitet ved denne måling, og at AGC er den mest stabile af de novo-klyngemetoderne (Kruskal-Test, P < 0,05). AL havde den laveste MCC-værdi, hvilket indikerer, at klyngen af mange sekvenspar ændrede sig, når man brugte denne metode. Alternativt producerede SL en højere MCC-værdi end de fleste af de novo-metoderne, inklusive AL og CL. Ikke desto mindre er en del af årsagen til den høje MCC-værdi af SL, at dens FP-værdi er lig med 0 (sekvenser, der er adskilt i en mindre delprøve, flettes til en enkelt OTU i en større delprøve, men den omvendte situation sker slet ikke). På grund af dets alvorlige problemer med OTU-sammenlægning bør SL således ikke betragtes som en meget mere stabil metode.
fylogenetiske beta-mangfoldighedsmålinger minimerer effekten af OTU-ustabilitet
i modsætning til ikke-fylogenetiske målinger, hvor alle OTU ‘er betragtes som lige forskellige fra hinanden, tager fylogenetiske målinger såsom UniFrac hensyn til det fylogenetiske forhold mellem OTU’ er ved beregning af afstande mellem prøver. Ustabile OTU-klyngemetoder vil flytte sekvenser mellem OTU ‘ er, der normalt ville være nært beslægtede evolutionært, så den beregnede afstand mellem prøver generelt skal forblive mere ens, end den ville, når man bruger ikke-fylogenetiske mangfoldighedsmålinger. Vi analyserede effekten af ustabile OTU ‘ er på beta-mangfoldighed ved hjælp af CL, SL, al, AGC og DGC baseret på UniFrac-afstand (yderligere fil 10: figur S7). Resultaterne viser, at ustabile OTU ‘er af CL, AGC og DGC minimalt påvirker beta-mangfoldighed ved hjælp af UniFrac-afstand, hvilket bekræfter hypotesen om, at når sekvenser skifter mellem nært beslægtede OTU’ er med disse ustabile metoder, er fylogenetiske målinger mere tolerante over for denne ustabilitet. Ikke desto mindre kan fjernt beslægtede OTU ‘ er i SL-klynger i sidste ende forbindes til en enkelt OTU, så beta-mangfoldighed kan påvirkes, selv når man bruger UniFrac-afstand. I AL er den største adskillelse stadig forårsaget af forskellige klyngemønstre, som med de ikke-fylogenetiske målinger.