- ändra medlemskap i OTUs vid olika sekvenseringsdjup ( OTU-instabilitet)-en försummad men viktig egenskap för analyser av mikrobiell mångfald
- alternativa hierarkiska och giriga klustermetoder producerar också instabila OTUs
- Referensbaserade metoder minimerar problemet med instabila OTUs
- fylogenetiska beta-mångfaldsmått minimerar effekten av OTU-instabilitet
ändra medlemskap i OTUs vid olika sekvenseringsdjup ( OTU-instabilitet)-en försummad men viktig egenskap för analyser av mikrobiell mångfald
för att illustrera problemet skapat av instabila OTUs reproducerade vi de icke-överlappande sällsynthetskurvorna med samma dataset (Canada soil dataset) och samma klustringsmetod (komplett kopplingsklustring, kallad CL-kluster) anställd av Roesch et al. (Figur 1a). Vi delsamplade slumpmässigt de råa sekvenserna vid fyra sekvenseringsdjup (20%, 40%, 60%, och 80% av ingångssekvenserna) med 30 replikat av varje. Vi använde sedan complete linkage (CL) clustering för att klustera var och en av delproverna (definitioner av alla klustringsmetoder finns i ytterligare fil 1) och genererade sällsynthetskurvor för varje provtagningsdjup. I fallet med CL-kluster är den sällsynta kurvan som produceras av ett större delprov brantare än den som produceras av ett mindre delprov.
ett mål vid generering av sällsynthetskurvor är att stödja interpolering, vilket innebär att om vi skapar en sällsynthetskurva från en fullständig dataset, skulle vi vilja använda den kurvan för att bestämma hur många arter som skulle observeras för ett antal sekvenser som uppgår till mindre än summan. Till exempel, när vi interpolerar från den sällsynta kurvan som skapats från en fullständig dataset, uppskattar vi att vi har cirka 4 500 arter om vi slumpmässigt väljer 30 000 sekvenser från hela dataset (punkt A i Figur 1a). Problemet som icke-överlappande sällsynthetskurvor utgör för interpolering är emellertid att om vi istället slumpmässigt subsamplade 30 000 sekvenser från ett 80% delprov av hela datasetet, skulle vi uppskatta att endast 4 200 arter representeras av dessa 30 000 sekvenser (punkt B i Figur 1a). Detta scenario skulle i huvudsak vara sant i fall där endast några sekvenser samlades in per prov, ett fenomen som strider mot det förväntade beteendet hos sällsynthetskurvor.
vi har observerat att icke-överlappning av sällsynthetskurvor, som illustreras i Figur 1a, faktiskt orsakas av instabiliteten hos OTU-klustermetoder. Med andra ord kan klustret som en sekvens tilldelas påverkas av antalet sekvenser som grupperas. En illustration av denna hypotes visas i Figur 1b. om vi bara observerar två sekvenser, S1 och S2, inom likhetströskeln (indikeras genom att länka med en stapel), grupperas de i en enda OTU (OTU1). Vi lägger sedan till ytterligare tre sekvenser, S3, S4 och S5, som kan kopplas till S1 eller S2, men flera parvisa avstånd överstiger tröskeln (dessa par är inte länkade av staplar). Per definition av CL måste parvisa avstånd för alla sekvenser som tilldelas en enda OTU passa inom avståndsgränsen, vilket kan tillåta att S1 och S2 separeras i OTU2 och OTU3. OTU1 försvinner vid detta sekvenseringsdjup och dess sekvenser omfördelas till två olika OTUs, vilket illustrerar problemet med OTU-instabilitet. Teoretiskt tenderar att lägga till fler sekvenser att dela upp befintliga OTUs när man använder CL-algoritmen. Som ett resultat, när de grupperas med en större dataset kontra en mindre dataset, kommer samma sekvenser att grupperas i fler OTUs. Detta kommer att resultera i en fördjupning av sällsynthetskurvan som härrör från det större provet och slutsatsen att den har en högre alfa-mångfald. Sällsynta kurvor som uppstår från CL är därför mer känsliga för sekvenseringsdjup. Även om denna effekt är svag illustrerar den fortfarande delvis varför, i vissa fall, insamling av ett antal sekvenser som är baserade på en mindre provstorlek skulle förväntas producera en sällsynthetskurva som når en platå, och istället produceras en ständigt ökande sällsynthetskurva. Detta fenomen av att en individ tilldelas olika OTUs helt enkelt på grund av ökat eller minskat provtagningsdjup är uppenbarligen problematiskt. En analog situation baserad på traditionell (makroskala) ekologi skulle vara om man räknar olika antal fåglar inom ett fast område ledde till omdefinieringen av vilka enskilda fåglar som grupperas som en art. Den ovan beskrivna instabiliteten beror emellertid inte på tillfällig identifiering av nya arter, vilket kan vara fallet i traditionell ekologi. Däremot sker dessa förändringar av OTU-medlemskap systematiskt inom en stor del av sekvenserna som omfördelas mellan OTUs.
för att ytterligare undersöka effekten av instabila OTUs på biologisk Tolkning undersökte vi nästa beta-mångfald med ordination. Med hjälp av Principal Coordinate Analysis (PCoA) jämförde vi de mikrobiella samhällena mot hela datasetet med hjälp av delprover som omfattar 60% av hela datasetet. Vi upprepade denna delsampling 30 gånger för att skapa replikat. Vi använde sedan CL-kluster för att klustera alla delprover, liksom hela datauppsättningen, och kombinerade klusterresultaten med representativ OTU-sekvens (definierad som den vanligaste sekvensen i varje OTU). Proverna var sedan slumpmässigt sällsynta för att inkludera 30 000 sekvenser per prov, inklusive de 30 replikerade sällsynta faktumen som resulterade från klustringen av hela datauppsättningen. Efter sällsynthet innehöll alla prover samma antal sekvenser så att de enda skillnaderna mellan dem var antalet sekvenser som ursprungligen grupperades. PCoA visade att dessa prover separerade enligt antalet sekvenser som ursprungligen grupperades, vilket indikerar att OTU-instabilitet resulterar i att samma prover verkar ha olika kompositioner (figur 1C). Ett liknande resultat observerades vid jämförelse av delproverna 20%, 40% och 80% mot hela datauppsättningen (ytterligare Fil 2: Figur S1). Vidare bestämdes 125 Otus (efter FDR-korrigering) och 26 Otus (efter Bonferroni-korrigering) att vara signifikant olika mellan dessa två grupper med Mann-Whitney U-testet. Vi testade också effekten som instabila OTUs har vid beräkning av taxonomisk sammansättning och fann att effekten var mycket begränsad (ytterligare fil 3: Figur S2 och ytterligare fil 4). Detta beror på att dessa Otuer fortfarande tilldelas samma taxa som en följd av deras fylogenetiska närhet, trots att de förändras när fler sekvenser läggs till med CL (diskuteras också nedan i avsnittet som beskriver toleransen för PCoA att använda fylogenetiska mätvärden med instabil Otuer).
alternativa hierarkiska och giriga klustermetoder producerar också instabila OTUs
alla hierarkiska metoder som används för att bestämma OTU-medlemskap baseras på parvisa avstånd mellan sekvenserna i OTUs. CL-kluster kräver parvis avstånd mellan alla sekvenser i en OTU för att passa inom avståndsgränsen. Sl-kluster (Single linkage) kräver parvis avstånd mellan alla sekvenspar i en OTU för att passa inom avståndsgränsen. Average linkage (al) clustering kräver de genomsnittliga parvisa avstånden mellan alla sekvenser i en OTU för att passa inom avståndsgränsen. Som kan förväntas vid användning av SL-kluster (figur 2a) tenderar OTUs att slås samman när fler sekvenser läggs till, vilket är motsatsen till delningsproblemet som observeras med CL. Följaktligen blir sällsynta kurvor som skapas med SL mindre branta när delprovstorleken ökar (Figur 2B). Beta-mångfald påverkas också av instabil sl-kluster av OTUs (figur 2C). Till exempel bestämdes 167 OTUs (efter FDR-korrigering) och 36 OTUs (efter Bonferroni-korrigering) att vara differentiellt representerade över både 60% – delprovet och hela datasatsen.
instabiliteten som produceras av genomsnittlig koppling är mer komplicerad eftersom både OTU-delning och OTU-sammanslagning kan uppstå. Dessa motstridiga effekter leder till mer subtila skillnader i OTU-räkningar och de resulterande sällsynthetskurvorna som skapas med Al-överlappning på olika djup (figur 2D). Dessutom är AL OTUs själva instabila (ytterligare fil 5: figur S3) på grund av det stora antalet OTU-splittring och sammanslagning av händelser som inträffar. Dessutom, även om dessa instabila OTUs påverkar beta-mångfald (Adonis, r = 0.16, P = 0.001), verkar den stora separationen i PCoA orsakas av andra faktorer än provstorlek; till exempel möjlig inkludering av skillnader som härrör från sekvensernas ingångsordning eller närvaron eller frånvaron av vissa nyckelsekvenser inom olika delprover (figur 2e). Denna observation kan bero på känsligheten hos AL till ordningen av ingångssekvenser, vilket skulle resultera i olika klustermönster. Vid användning av AL, 804 OTUs (efter FDR-korrigering) och 5 OTUs (efter Bonferroni-korrigering) representerades differentiellt över de två provtagningsdjupen.
Greedy clustering, som det som implementeras i USEARCH, är en annan vanligt använd de novo clustering-metod som är mer beräkningseffektiv än CL, SL och AL. När du använder girig kluster, en sekvens måste vara inom avståndsgränsen för en enda OTU centroid som ska grupperas i den OTU. Vidare bearbetas sekvenser i en definierad ordning, och varje frågesekvens kommer antingen att tilldelas en befintlig OTU eller som centroid för en ny OTU. Om en frågesekvens ligger inom avståndsgränsen för flera befintliga OTU-centroider kan den tilldelas antingen närmaste centroid (här kallad distansbaserad girig clustering (DGC)) eller den vanligaste centroid (här kallad abundance-based girig clustering (AGC))) (ytterligare fil 1). Alternativa metoder finns för att bryta sådana band; i alla fall, vi valde att begränsa vårt fokus till de som är de vanligaste. I den aktuella studien utvärderar vi USEARCH som en metod för girig klustring (vi utvärderade inte UPARSE eftersom dess klusteralgoritm är densamma som den som används i USEARCH).
otu-instabilitet är också ett problem i giriga klustermetoder och uppstår från flera källor. För det första är valet av centroider mycket beroende av den ordning i vilken sekvenser behandlas. Därför, när storleken på ett prov ändras, ordningen på sekvenser kan också ändras. För det andra, när man använder DGC, även om valet av centroider förblir stabilt när provets storlek ökas, kan de tillagda sekvenserna bli nya centroider och locka medlemmar från befintliga OTUs (detta kommer i allmänhet inte att hända i AGC). Föreställ dig till exempel att S10, S11 och S12 bildar OTU7 med S10 som centroid (figur 3a, b). Om en annan sekvens, S13, läggs till i en efterföljande sekvensering, kan bearbetningsordningen för det större provet bli S10, S13, S11 och S12. I detta fall kommer S10 fortfarande att vara en centroid, men S13 kommer också att bli en centroid. S13 rekryterar sedan S11, eftersom avståndet mellan de två är mindre än avståndet mellan S11 och S10. I DGC kommer S11 att hamna i kluster med S13 snarare än S10, och den ursprungliga OTU7 kommer att delas upp i OTU8 och OTU9 (figur 3a). I AGC kommer S11 fortfarande att klustera med S10 och den ursprungliga OTU7 behåller sin ursprungliga struktur (figur 3b).
vi använde giriga kluster på Alfa-sällsynthetskurvor och beta-mångfald PCoA för att analysera effekterna som genereras av instabila OTUs. Som nämnts ovan lider DGC och AGC båda av centroid-förändringsbarhet (denna effekt är inte partisk mot OTU-splittring eller sammanslagning), och DGC lider dessutom av splittring av befintliga OTUs. Som ett resultat producerade DGC och CL-kluster liknande kurvor, som blev brantare när delprovstorleken ökade (figur 3c). Däremot producerade AGC överlappade kurvor som inte påverkades av djupet (figur 3d). Men som med Al-kluster betyder detta inte att Otuerna var stabila, utan bara att liknande antal (eventuellt olika) Otuer erhölls vid olika subsamplingsdjup. De instabila OTUs produceras i DGC och AGC effekt uppskattningar av beta-mångfald (figur 3e,f). I fallet med AGC bestämdes 392 OTUs (efter FDR-korrigering) och 14 OTUs (efter Bonferroni-korrigering) att vara differentiellt representerade över de två djupen, och i fallet med DGC var dessa siffror 370 respektive 15.
för att kvantifiera skillnaderna mellan dessa instabila metoder jämförde vi andelen instabila sekvenser och instabila OTUs (figur 4a,b; ytterligare fil 6: tabell S1). CL producerade den högsta andelen instabila sekvenser (cirka 22%), medan AL (13%) och AGC (12%) presterade något bättre än SL (15%) och DGC (14%). Dessa resultat var inte alltid konsekventa när man jämförde användningen av alternativa datamängder (ytterligare fil 7: Figur S6); AGC visade emellertid generellt den bästa prestandan jämfört med de andra de novo-metoderna. För instabila Otuer producerade CL och DGC den högsta andelen instabila Otuer: cirka 60% av Otuer med centroider med frekvenser större än eller lika med 10 observerades vara instabila i var och en av metoderna (>90% befanns vara instabila vid analys av vissa datamängder, som visas i ytterligare fil 7: Figur S6). AL och SL är mer stabila än antingen CL eller DGC men resulterade fortfarande i att mer än 30% OTU-instabilitet för centroider observerades minst 10 gånger. AGC befanns vara den mest stabila de novo-metoden, särskilt för OTUs med mycket rikliga centroider.
en de novo-klustringsmetod som producerar stabila OTUs är dereplikation eller klustring av sekvenser som är identiska och lika långa (ytterligare fil 8: figur S4a). Som med otu-kluster med sluten referens förblir alla Otuer absolut stabila över olika sekvenseringsdjup eftersom kluster inte påverkas av sammansättningen av sekvenssamlingen som grupperas. Som ett resultat överlappar sällsynta kurvor som produceras med dereplikation över olika djup (ytterligare fil 8: Figur S4b), och beta-mångfald påverkas inte av storleken på delproverna (ytterligare fil 8: figur S4c). Dessutom är inte en enda OTU fast besluten att vara signifikant olika mellan de två grupperna. Det är viktigt att notera att dereplikation är mycket sårbar för att identifiera falska OTUs som härrör från sekvenseringsfel. På grund av dess stabilitet i binning OTUs producerar den också överlappande sällsynthetskurvor över olika djup, vilket indikerar att instabila OTUs (snarare än sekvenseringsfel) är den främsta orsaken till icke-överlappande sällsynthetskurvor. Vidare antyder stabiliteten hos derepliceringsmetoden att en högre likhetströskel för kluster kan minska förekomsten av instabila OTUs, eftersom de novo-klustringsmetoder blir mer lik dereplikation när likhetströskeln ökar. I praktiken ger dereplication clustering ett stort antal OTUs, vilket är beräkningsmässigt dyrt att använda nedströms. Således hindrar moderna datasetstorlekar oss från att arbeta med sekvenser som bara har dereplicerats. Det är möjligt att framtida metoder kan använda metoder baserade på dereplicering för att hantera problemet med OTU-instabilitet. Ett annat extremt exempel skulle vara klustring av alla sekvenser i en OTU medan den OTU förblir absolut stabil. Icke desto mindre, till skillnad från dereplication, OTUs kan användas i ytterligare analyser, såsom Alfa-mångfald, beta-mångfald, och taxonomisk sammansättning. Dessutom kan klustring av alla sekvenser i en OTU knappast kallas ’clustering’ och är helt värdelös för nedströmsanalys.
Referensbaserade metoder minimerar problemet med instabila OTUs
en funktion som alla instabila klustringsmetoder har gemensamt är att klusterdefinitioner är beroende av ingångssekvenserna. Otu-kluster med sluten referens undviker detta beroende med en stor praktisk begränsning: under otu-kluster med sluten referens grupperas läsningar mot en referensdataset (till exempel Greengenes-databasen ) av förberäknade centroider och inga nya centroider skapas under kluster, vilket resulterar i perfekt stabila OTUs (figur 5a). Som ett resultat påverkas inte alfa – och beta-mångfaldsberäkningar baserade på slutna referenskluster av storleken på proverna (figur 5b,c), och inga otu: er bestäms vara signifikant olika mellan de två djupen. Förutom att producera stabila OTUs, ger closed-reference clustering flera andra praktiska funktioner. För det första kan namnen på referenssekvenserna användas som universella OTU-identifierare snarare än att använda godtyckligt tilldelade namn, vilket underlättar direkt jämförelse av OTUs över studier. För det andra kan sekvensläsningar från olika markörgenregioner grupperas ihop om referensdatasetet består av markörgener i full längd. Slutligen kan closed-reference clustering parallellisera OTU clustering för stora dataset. Den stora begränsningen av otu-kluster med sluten referens är att läsningar som ligger utanför likhetströskeln till alla referenscentroider kasseras, så att endast de Otuer som redan finns representerade i databasen kan observeras. Vid bearbetning av Kanadas jorddataset kunde cirka 14% av sekvenserna inte matchas med referenssekvenserna och kastades därför efter kluster. Denna begränsning av otu-kluster med sluten referens kan bli trivial när projicerade förbättringar görs för att referera till datamängder, vilket leder till motsvarande referenser som behövs för specifika forskningsprojekt (till exempel tarmmikrobiomen) för att bli mer utvecklade.
för att övervinna begränsningarna för otu-kluster med sluten referens kan OTU-kluster med öppen referens användas. Open-reference clustering börjar på samma sätt som closed-reference clustering men fortsätter att klustera sekvenserna som inte matchar referenssamlingen på ett de novo sätt. Även om befintliga de novo-klustringsmetoder producerar instabila Otuer, kan öppen referensklustring vara mycket stabilare än sådana metoder eftersom många sekvenser initialt grupperas av sluten referensmetod. Vi utvärderade OTU-stabilitet i öppen referens clustering med AGC för de novo clustering step (figur 4a,b,c) och fann att det var en mycket effektivare metod än att använda de novo-metoder ensam. Majoriteten av de instabila Otuerna var sekvenser med låg överflöd utan referensmatchning (en kategori av sekvenser som vanligtvis anses vara felbenägna). Otu-kluster med öppen referens producerar överlappande sällsynthetskurvor (ytterligare fil 9: figur S5a), och även om instabiliteten hos otu-kluster med öppen referens fortfarande påverkar PCoA-analys (ytterligare fil 9: Figur S5b), PC-och R-värdet (av ADONIS, R = 0,03) är lägre än med någon annan de novo-metod ensam, liksom antalet OTUs som differentiellt representeras över de två grupperna (104 Otus efter FDR-korrigering och 2 OTUs efter Bonferroni-korrigering). Vi jämförde öppna referensklusteringsmetoder med andra de novo-metoder på ytterligare dataset, med fokus på andelen instabila sekvenser och instabila OTUs och fann att dessa resultat i allmänhet är konsekventa över miljötyper och sekvenseringstekniker (ytterligare fil 7: Figur S6).
förutom att kvantifiera otu: s instabilitet använde vi MCC-indexet för att undersöka hur klustringen av sekvenspar förändrades baserat på klustring av hela datauppsättningen jämfört med 60% – delmängden (figur 4b, ytterligare fil 6: tabell S2). Det är uppenbart att de två referensbaserade metoderna och dereplication clustering har den högsta stabiliteten med denna metriska och att AGC är den mest stabila av de novo clustering-metoderna (Kruskal-Wallis-test, P < 0.05). AL hade det lägsta MCC-värdet, vilket indikerar att klustringen av många sekvenspar förändrades när man använde denna metod. Alternativt producerade SL ett högre MCC-värde än de flesta de novo-metoderna, inklusive AL och CL. Ändå är en del av orsaken till det höga MCC-värdet av SL att dess FP-värde är lika med 0 (sekvenser som separeras i ett mindre delprov kommer att slås samman till en enda OTU i ett större delprov, men den omvända situationen händer inte alls). På grund av dess allvarliga problem med OTU-sammanslagning bör SL inte betraktas som en mycket stabilare metod.
fylogenetiska beta-mångfaldsmått minimerar effekten av OTU-instabilitet
till skillnad från icke-fylogenetiska mätvärden, där alla OTUs anses vara lika olika från varandra, fylogenetiska mätvärden som UniFrac tar hänsyn till det fylogenetiska förhållandet mellan OTUs vid beräkning av avstånd mellan prover. Ostabila OTU-klustermetoder kommer att flytta sekvenser mellan Otuer som vanligtvis skulle vara nära besläktade evolutionärt så att det beräknade avståndet mellan prover i allmänhet borde förbli mer lika än det skulle när man använder icke-fylogenetiska mångfaldsmått. Vi analyserade effekten av instabila OTUs på beta-mångfald med hjälp av CL, SL, AL, AGC och DGC baserat på UniFrac-avstånd (ytterligare fil 10: figur S7). Resultaten visar att instabila OTUs av CL, AGC och DGC minimalt påverkar beta-mångfald med UniFrac-avstånd, bekräftar hypotesen att när sekvenser förändras mellan närbesläktade OTUs med dessa instabila metoder, fylogenetiska mätvärden är mer toleranta mot den instabiliteten. I SL-kluster kan emellertid avlägset relaterade OTUs i slutändan förenas i en enda OTU, så att beta-mångfald kan påverkas även vid användning av UniFrac-avstånd. I AL orsakas den stora separationen fortfarande av olika klustermönster, som med de icke-fylogenetiska mätvärdena.