stabiliteit van operationele taxonomische eenheden: een belangrijke maar verwaarloosde eigenschap voor het analyseren van microbiële diversiteit

veranderend lidmaatschap van OTUs op verschillende sequencingdieptes (OTU instabiliteit) – een verwaarloosde maar belangrijke eigenschap voor analyses van microbiële diversiteit

om het probleem van instabiele OTUs te illustreren, reproduceerden we de niet-overlappende zeldzaamheid curven met behulp van dezelfde dataset (Canada soil dataset) en dezelfde clustering methode (complete linkage clustering, aangeduid als CL clustering) gebruikt door Roesch et al. (Figuur 1a). We hebben willekeurig de ruwe sequenties gesubstamped op vier sequentiediepten (20%, 40%, 60%, en 80% van de invoersequenties), waarbij 30 replicaten van elk worden gebruikt. Vervolgens gebruikten we complete linkage (CL) clustering om elk van de subsamples te clusteren (definities van alle clustering methoden zijn te vinden in aanvullend bestand 1) en gegenereerde rarefaction curves voor elke bemonstering diepte. In het geval van CL clustering, is de rarrefaction curve die door een grotere subsample wordt geproduceerd steiler dan die door een kleinere subsample wordt geproduceerd.

een doel bij het genereren van rarefaction curves is het ondersteunen van interpolatie, wat betekent dat als we een rarefaction curve maken uit een volledige dataset, we die curve willen gebruiken om te bepalen hoeveel soorten zouden worden waargenomen voor een aantal sequenties die kleiner zijn dan het totaal. Bijvoorbeeld, wanneer we interpoleren vanuit de rarrefaction curve gemaakt van een volledige dataset, schatten we dat we ongeveer 4.500 soorten hebben als we willekeurig 30.000 sequenties selecteren uit de volledige dataset (punt A in Figuur 1a). Het probleem dat niet-overlappende rarefaction krommen vormen voor interpolatie, echter, is dat als we in plaats daarvan willekeurig 30.000 sequenties van een 80% subsample van de volledige dataset gesubstampt zouden hebben, we zouden schatten dat slechts 4.200 soorten vertegenwoordigd zijn door deze 30.000 sequenties (punt B in Figuur 1a). Dit scenario zou in wezen waar zijn in gevallen waar slechts een paar opeenvolgingen per steekproef werden verzameld, een fenomeen dat met het verwachte gedrag van zeldzaamheid krommen conflicteert.

we hebben opgemerkt dat het niet overlappen van de rarefactiekrommen, zoals geïllustreerd in Figuur 1a, in feite wordt veroorzaakt door de instabiliteit van OTU-clusteringsmethoden. Met andere woorden, de cluster die een opeenvolging wordt toegewezen kan door het aantal opeenvolgingen worden beà nvloed die worden geclusterd. Een illustratie van deze hypothese is te zien in Figuur 1b. als we slechts twee sequenties waarnemen, S1 en S2, binnen de gelijkvormigheidsdrempel (aangegeven door te linken met een bar), worden ze geclusterd in een enkele OTU (OTU1). We voegen dan nog drie reeksen toe, S3, S4 en S5, die aan S1 of aan S2 kunnen worden gekoppeld, maar meerdere paarsgewijze afstanden overschrijden de drempel (deze paren zijn niet verbonden door staven). Per definitie van CL moeten paarsgewijze afstanden voor alle aan een enkele OTU toegewezen sequenties binnen de afstandsdrempel passen, waardoor S1 en S2 kunnen worden gescheiden in OTU2 en OTU3. OTU1 verdwijnt bij deze rangschikkende diepte, en zijn opeenvolgingen worden opnieuw toegewezen aan twee verschillende OTUs, die het probleem van de instabiliteit van OTU illustreren. Theoretisch gezien heeft het toevoegen van meer sequenties de neiging om bestaande OTUs te splitsen bij het gebruik van het CL-algoritme. Als gevolg hiervan, wanneer geclusterd met een grotere dataset versus een kleinere dataset, zullen dezelfde sequenties worden gegroepeerd in meer OTUs. Dit zal resulteren in een steiling van de rarrefaction curve die is afgeleid van de grotere steekproef en de conclusie dat het een hogere Alfa-diversiteit heeft. De rarefactionkrommen die uit CL voortvloeien zijn daarom gevoeliger voor het rangschikken van diepte. Hoewel dit effect zwak is, illustreert het nog gedeeltelijk waarom, in sommige gevallen, het verzamelen van een aantal opeenvolgingen die op een kleinere steekproefgrootte wordt gebaseerd zou worden verwacht om een rarefactionkromme te veroorzaken die een plateau bereikt, en in plaats daarvan een voortdurend stijgende rarefactionkromme wordt veroorzaakt. Dit fenomeen van een individu wordt toegewezen aan verschillende OTUs gewoon vanwege verhoogde of verminderde bemonsteringsdiepte is duidelijk problematisch. Een analoge situatie gebaseerd op traditionele (macro-schaal) ecologie zou zijn als het tellen van verschillende aantallen vogels binnen een vast gebied zou leiden tot de herdefiniëring van welke individuele vogels zich als soort bij elkaar voegen. De hierboven beschreven instabiliteit is echter niet te wijten aan de occasionele identificatie van nieuwe soorten, zoals het geval zou kunnen zijn in de traditionele ecologie. In tegenstelling, komen deze veranderingen in OTU-lidmaatschap systematisch binnen een groot deel van de opeenvolgingen voor die tussen OTUs opnieuw worden toegewezen.

om het effect van instabiele OTUs op de biologische interpretatie verder te onderzoeken, onderzochten we vervolgens bèta-diversiteit met behulp van ordinatie. Met behulp van Principal Coordinate Analysis (PCoA) hebben we de microbiële gemeenschappen vergeleken met de volledige dataset met behulp van subsamples die 60% van de volledige dataset omvatten. We herhaalden deze subsampling 30 keer om replicaten te maken. Vervolgens gebruikten we CL clustering om alle subsamples en de volledige dataset te clusteren en combineerden we de clustering resultaten door representatieve OTU-sequentie (gedefinieerd als de meest voorkomende sequentie in elke OTU). De steekproeven werden toen willekeurig om 30.000 opeenvolgingen per steekproef te omvatten, met inbegrip van de 30 replicate rarefactions die uit het clusteren van de volledige dataset resulteerden. Na rarefaction, bevatten alle steekproeven het zelfde aantal opeenvolgingen zodat de enige verschillen onder hen het aantal opeenvolgingen waren die aanvankelijk werden geclusterd. PCoA toonde aan dat deze monsters gescheiden volgens het aantal sequenties die aanvankelijk werden geclusterd, wat erop wijst dat de instabiliteit van de OTU resulteert in dezelfde monsters die verschillende samenstellingen lijken te hebben (figuur 1c). Een vergelijkbaar resultaat werd waargenomen bij het vergelijken van de subsamples van 20%, 40% en 80% met de volledige dataset (aanvullend bestand 2: Figuur S1). Verder werden 125 OTUs (na correctie van de false discovery rate (FDR)) en 26 OTUs (na correctie van Bonferroni) significant verschillend vastgesteld tussen deze twee groepen met behulp van de Mann-Whitney U-test. We hebben ook het effect getest dat onstabiele OTUs hebben op het berekenen van de taxonomische samenstelling en vonden het effect zeer beperkt (aanvullend bestand 3: figuur S2 en aanvullend bestand 4). Dit is omdat deze OTUs nog aan dezelfde taxa als gevolg van hun phylogenetic nabijheid worden toegewezen, ondanks het feit dat zij veranderen wanneer meer opeenvolgingen worden toegevoegd gebruikend CL (ook hieronder besproken in de sectie die de tolerantie van PCoA aan het gebruiken van phylogenetic metrics met onstabiele OTUs detailleren).

alternatieve hiërarchische en hebzuchtige clusteringsmethoden produceren ook instabiele OTUs

alle hiërarchische methoden die worden gebruikt om het OTU-lidmaatschap te bepalen, zijn gebaseerd op paarsgewijze afstanden tussen de sequenties in OTUs. CL clustering vereist de paarsgewijze afstand tussen alle opeenvolgingen in één OTU om binnen de afstandsdrempel te passen. Single linkage (SL) clustering vereist dat de paarsgewijze afstand tussen een paar reeksen in één OTU binnen de afstandsdrempel past. Gemiddelde koppeling (AL) clustering vereist dat de gemiddelde paarsgewijze afstanden tussen alle sequenties in één OTU binnen de afstandsdrempel passen. Zoals verwacht zou worden bij het gebruik van SL clustering (figuur 2a), OTUs de neiging om te worden samengevoegd wanneer meer sequenties worden toegevoegd, dat is het tegenovergestelde van het splitsen probleem dat wordt waargenomen met CL. Dienovereenkomstig, zeldzaamheid curves gemaakt met behulp van SL worden minder steil als subsample grootte toeneemt (figuur 2b). Beta-diversiteit wordt ook beïnvloed door onstabiele SL clustering van OTUs (figuur 2c). Zo werden bijvoorbeeld 167 OTUs (na FDR-correctie) en 36 OTUs (na Bonferroni-correctie) verschillend weergegeven in zowel de 60% – subsample als de volledige dataset.

Figuur 2
figuur 2

principes die ten grondslag liggen aan unstable single linkage (SL) clustering, rarefaction curves en PCoA gebaseerd op de Bray-Curtis afstand. a) beginselen die ten grondslag liggen aan de onstabiele SL-clustering op twee bemonsteringsdiepten. De witte cirkels wijzen op individuele opeenvolgingen die in zowel de kleine als de grote subsamples werden opgenomen, en de donkere kringen wijzen op opeenvolgingen die slechts in de grote subsample worden toegevoegd. Lijnen geven paren van reeksen aan met afstanden gelijk aan of kleiner dan de drempel, die daarom in een enkele OTU kunnen worden gekoppeld. Grote cirkels in rood of blauw geven OTUs aan in respectievelijk de kleine en de grote subsamples. (b, d) Rarefaction curves gegenereerd met SL (b) en gemiddelde linkage (AL) (d) clustering op vijf verschillende dieptes. (c, e) PCoA gebaseerd op de Bray-Curtis afstand, waarbij 60% subsamples worden vergeleken met de volledige datasets met behulp van SL (c) en AL (e). Alle subsamples waren ijl tot 30.000 opeenvolgingen per steekproef die in deze analyse moeten worden opgenomen.

de instabiliteit veroorzaakt door de gemiddelde koppeling is ingewikkelder omdat zowel OTU splitsen en OTU samenvoegen kan optreden. Deze conflicterende effecten leiden tot meer subtiele verschillen in OTU tellingen, en de resulterende zeldzaamheid krommen die worden gemaakt met al overlap op verschillende dieptes (figuur 2d). Bovendien zijn de Al OTUs zelf instabiel (extra bestand 5: Figuur S3) vanwege het grote aantal OTU-splitsings-en mergegebeurtenissen die zich voordoen. Bovendien, hoewel deze onstabiele OTUs de bètadiversiteit beïnvloeden (Adonis, R = 0,16, P = 0,001), lijkt de belangrijke scheiding in PCoA veroorzaakt te worden door andere factoren dan de steekproefgrootte; bijvoorbeeld, de mogelijke opname van verschillen die het gevolg zijn van de invoervolgorde van de sequenties of de aanwezigheid of afwezigheid van bepaalde sleutelsequenties binnen verschillende subsamples (figuur 2e). Deze observatie kan het gevolg zijn van de gevoeligheid van AL voor de volgorde van invoersequenties, wat zou resulteren in verschillende clustering patronen. Bij gebruik van AL werden 804 OTUs (na FDR-correctie) en 5 OTUs (na Bonferroni-correctie) verschillend weergegeven over de twee bemonsteringsdiepten.

hebzuchtige clustering, zoals die welke wordt geïmplementeerd in USEARCH, is een andere veelgebruikte de novo clustering methode die meer rekenkundig efficiënt is dan CL, SL, en AL. Bij gebruik van hebzuchtige clustering moet een sequentie binnen de afstandsdrempel van een enkele OTU-centroid liggen om in die OTU te worden geclusterd. Bovendien worden sequenties verwerkt in een bepaalde volgorde, en elke query-sequentie zal ofwel worden toegewezen aan een bestaande OTU of als de centroid van een nieuwe OTU. Als een query-reeks binnen de afstandsdrempel van meerdere bestaande OTU-centroids ligt, kan deze worden toegewezen aan de dichtstbijzijnde centroid (hier aangeduid als distance-based greedy clustering (DGC)) of de meest voorkomende centroid (hier aangeduid als abundance-based greedy clustering (AGC)) (aanvullend bestand 1). Er bestaan alternatieve benaderingen om dergelijke banden te verbreken; we kozen er echter voor om onze focus te beperken tot degenen die het meest worden gebruikt. In de huidige studie evalueren we USEARCH als een methode voor hebzuchtige clustering (we hebben UPARSE niet geëvalueerd omdat het clustering algoritme hetzelfde is als dat gebruikt in USEARCH).

instabiliteit van de OTU is ook een probleem bij hebzuchtige clustering methoden en komt voort uit verschillende bronnen. Ten eerste is het kiezen van centroids in hoge mate afhankelijk van de volgorde waarin de opeenvolgingen worden verwerkt. Daarom, wanneer de grootte van een steekproef wordt veranderd, kan de Orde van opeenvolgingen ook worden veranderd. Ten tweede, wanneer het gebruiken van DGC, zelfs als de keuze van centroids stabiel blijft wanneer de grootte van de steekproef wordt verhoogd, kunnen de toegevoegde opeenvolgingen nieuwe centroids worden en leden van bestaande OTUs aantrekken (dit zal over het algemeen niet in AGC gebeuren). Stel je bijvoorbeeld voor dat S10, S11 en S12 OTU7 vormen met S10 als het middelpunt (figuur 3a,b). Als in een volgende het rangschikken looppas een andere opeenvolging, S13, wordt toegevoegd, kan de verwerkingsorde van de grotere steekproef S10, S13, S11, en S12 worden. In dit geval blijft S10 een centroid, maar wordt S13 ook een centroid. S13 rekruteert vervolgens S11, omdat de afstand tussen de twee kleiner is dan de afstand tussen S11 en S10. In DGC zal S11 uiteindelijk samengaan met S13 in plaats van S10, en de oorspronkelijke OTU7 zal worden opgesplitst in OTU8 en OTU9 (figuur 3a). In AGC, zal S11 nog steeds cluster met S10 en de oorspronkelijke OTU7 behoudt zijn oorspronkelijke structuur (figuur 3b).

Figuur 3
figuur 3

principes die ten grondslag liggen aan instabiele distance-based greedy clustering (DGC) en abundance-based greedy clustering (AGC), zeldzaamheid curves en PCoA gebaseerd op de Bray-Curtis afstand. (a, b) beginselen die ten grondslag liggen aan onstabiele DGC (A) en AGC (b) op twee bemonsteringsdiepten. De witte cirkels wijzen op individuele opeenvolgingen die in zowel de kleine als de grote subsamples werden opgenomen, en de donkere cirkels wijzen op opeenvolgingen die slechts in de grote subsample werden toegevoegd. Gele stippen wijzen op OTU centroids. Lijnen geven paren van reeksen aan met afstanden gelijk aan of kleiner dan de drempel, die daarom in een enkele OTU kunnen worden gekoppeld. Grote cirkels in rood of blauw geven OTUs aan in respectievelijk de kleine en de grote subsamples. (c, d) Rarefaction curves gegenereerd met DGC (C) en AGC (d) op vijf verschillende dieptes. (e, f) PCoA gebaseerd op de Bray-Curtis afstand, waarbij 60% subsamples worden vergeleken met de volledige datasets met behulp van AGC (e) en DGC (f). Alle subsamples waren ijl tot 30.000 opeenvolgingen per steekproef die in deze analyse moeten worden opgenomen.

we gebruikten hebzuchtige clustering op alfa-rarefaction curves en beta-diversiteit PCoA om de effecten van onstabiele OTUs te analyseren. Zoals hierboven vermeld, lijden DGC en AGC beide aan centroid veranderbaarheid (dit effect is niet bevooroordeeld naar OTU splitsing of samenvoeging), en DGC bovendien lijdt aan de splitsing van bestaande Otu. Als gevolg hiervan produceerden DGC en CL clustering vergelijkbare curves, die steiler werden naarmate de deelsteekproef groter werd (figuur 3c). In tegenstelling, produceerde AGC overlappende krommen die niet werden beïnvloed door diepte (figuur 3d). Net als bij al clustering betekent dit echter niet dat de OTUs stabiel waren, maar alleen dat vergelijkbare aantallen (mogelijk verschillende) OTUs werden verkregen op de verschillende subsamplingdieptes. De onstabiele Otu ‘ s geproduceerd in DGC en AGC effectschattingen van beta-diversiteit (figuur 3e,f). In het geval van AGC werden 392 OTUs (na FDR-correctie) en 14 OTUs (na Bonferroni-correctie) verschillend weergegeven over de twee dieptes, en in het geval van DGC waren deze getallen respectievelijk 370 en 15.

om de verschillen tussen deze onstabiele methoden te kwantificeren, hebben we de verhouding van onstabiele sequenties en instabiele OTUs vergeleken (figuur 4a,B; aanvullend dossier 6: tabel S1). CL produceerde het hoogste percentage onstabiele sequenties (ongeveer 22%), terwijl AL (13%) en AGC (12%) iets beter presteerden dan SL (15%) en DGC (14%). Deze resultaten waren niet altijd consistent bij het vergelijken van het gebruik van alternatieve datasets (aanvullend bestand 7: figuur S6); echter, AGC toonde over het algemeen de beste prestaties ten opzichte van de andere de novo methoden. Voor onstabiele OTUs produceerden CL en DGC het hoogste percentage onstabiele OTUs: ongeveer 60% van OTUs met centroïden met frequenties groter dan of gelijk aan 10 werd waargenomen onstabiel te zijn in elk van de methoden (>90% bleek instabiel te zijn bij het analyseren van bepaalde datasets, zoals getoond in aanvullend bestand 7: figuur S6). AL en SL zijn stabieler dan CL of DGC, maar resulteerden nog steeds in meer dan 30% OTU-instabiliteit voor centroïden die ten minste 10 keer werden waargenomen. AGC werd gevonden om de stabielste de novo methode te zijn, vooral voor OTUs met hoogst overvloedige centroids.

Figuur 4
figuur 4

aandeel van onstabiele sequenties, aandeel van onstabiele OTUs en MCC-waarde van elke methode. (A) aandeel van de volgens de methode gecreëerde onstabiele sequenties. De onstabiele opeenvolgingen worden gedefinieerd als opeenvolgingen die aan één centroid in de 60% subsample worden geclusterd maar aan een verschillend centroid in de (volledige) dataset van 100% worden geclusterd. b) Het aandeel van de onstabiele Otu ‘ s zoals gecreëerd door de methode en de frequentie van de clustercentroïden (de waarden voor gesloten referentie en verwijdering zijn nul en zijn dus niet in dit cijfer opgenomen). Als een OTU identiek was in de datasets van 60% en 100% (exclusief sequenties die niet aanwezig zijn in de subsample van 60%), wordt deze gedefinieerd als stabiel. c) MCC-waarde van elke methode. Hogere waarden komen overeen met een grotere stabiliteit.

één de novo clustering methode die stabiele OTUs produceert is dereplicatie of het clusteren van opeenvolgingen die identiek en van gelijke lengte zijn (aanvullend dossier 8: figuur S4A). Net als bij gesloten-referentie OTU-clustering blijven alle Otu ‘ s absoluut stabiel over verschillende sequentiediepten, omdat de clustering niet wordt beïnvloed door de samenstelling van de sequentiecollectie die wordt geclusterd. Als gevolg hiervan overlappen rarefaction curves geproduceerd met dereplicatie over verschillende dieptes (extra bestand 8: Figuur S4b), en beta-diversiteit wordt niet beïnvloed door de grootte van de subsamples (extra bestand 8: figuur S4C). Bovendien wordt niet bepaald dat één OTU significant verschilt tussen de twee groepen. Het is belangrijk op te merken dat dereplicatie zeer kwetsbaar is voor het identificeren van valse OTUs die het gevolg zijn van het rangschikken van fout. Wegens zijn stabiliteit in binning OTUs, veroorzaakt het ook overlappende rarefactionkrommen over verschillende dieptes, die erop wijzen dat onstabiele OTUs (eerder dan het rangschikken van fouten) de belangrijkste oorzaak van niet-overlappende rarefactionkrommen zijn. Bovendien suggereert de stabiliteit van de dereplicatiemethode dat een hogere gelijkvormigheidsdrempel voor clustering het optreden van onstabiele OTUs kan verminderen, aangezien de novo clusteringsmethoden meer lijken op dereplicatie naarmate de gelijkvormigheidsdrempel toeneemt. In de praktijk levert dereplicatie clustering hoge aantallen Otu ‘ s op, wat rekenkundig duur is om downstream te gebruiken. Moderne datasetgroottes verhinderen ons dus om te werken met reeksen die alleen zijn verwijderd. Het is mogelijk dat toekomstige methoden benaderingen op basis van dereplicatie kunnen gebruiken om het probleem van de instabiliteit van de OTU te beheren. Een ander extreem voorbeeld zou het clusteren van alle sequenties in één OTU zijn, terwijl die OTU absoluut stabiel blijft. Niettemin, in tegenstelling tot dereplicatie, kan OTUs in verdere analyses, zoals alpha-diversiteit, beta-diversiteit, en taxonomische samenstelling worden gebruikt. Bovendien kan het clusteren van alle sequenties in één OTU nauwelijks ‘clustering’ worden genoemd en is het volledig nutteloos voor downstream analyse.

Referentiegebaseerde methoden minimaliseren het probleem van instabiele OTUs

een eigenschap die alle instabiele clusteringsmethoden gemeen hebben is dat clusterdefinities afhankelijk zijn van de invoersequenties. Closed-reference OTU clustering vermijdt deze afhankelijkheid met één belangrijke praktische beperking: tijdens closed-reference OTU clustering worden reads geclusterd tegen een referentiedataset (bijvoorbeeld de Greengenes database ) van vooraf berekende centroids en worden er geen nieuwe centroids aangemaakt tijdens clustering, wat resulteert in perfect stabiele OTUs (figuur 5a). Als gevolg hiervan worden de alfa – en bèta-diversiteitsschattingen op basis van gesloten referentieclustering niet beïnvloed door de grootte van de monsters (figuur 5b, c) en worden geen Otu ‘ s vastgesteld die significant verschillen tussen de twee dieptes. Naast het produceren van stabiele OTUs, biedt closed-reference clustering verschillende andere handige functies. Ten eerste kunnen de namen van de referentiesequenties worden gebruikt als universele OTU-identifiers in plaats van willekeurig toegewezen namen te gebruiken, waardoor de directe vergelijking van OTUs tussen studies wordt vergemakkelijkt. Ten tweede, kan de opeenvolging van verschillende gebieden van het teller gen samen worden geclusterd als de verwijzingsdataset uit teller genen van volledige lengte bestaat. Tot slot kan closed-reference clustering parallelliseren met OTU clustering voor grote datasets. De belangrijkste beperking van gesloten-referentie OTU-clustering is dat leest die buiten de gelijkaardigheidsdrempel aan om het even welke referentiecentroids worden verwijderd, zodanig dat alleen de Otu ’s die reeds in de database worden vertegenwoordigd kunnen worden’ waargenomen.”Bij de verwerking van de Canadese bodemdataset kon ongeveer 14% van de sequenties niet worden gekoppeld aan de referentiesequenties en werd daarom na clustering weggegooid. Deze beperking van gesloten-verwijzing OTU het clusteren kan triviaal worden aangezien de geprojecteerde verbeteringen aan verwijzingsdatasets worden gemaakt, leidend de overeenkomstige verwijzingen nodig voor specifieke onderzoeksprojecten (bijvoorbeeld, darm microbiome) om hoogst ontwikkeld te worden.

Figuur 5
figuur 5

principes die ten grondslag liggen aan stabiele closed-reference clustering, rarefaction curves en PCoA gebaseerd op de Bray-Curtis afstand. a) beginselen die ten grondslag liggen aan een stabiele closed-reference clustering op twee bemonsteringsdiepten. De witte cirkels wijzen op individuele opeenvolgingen die in zowel de kleine als de grote subsamples werden opgenomen, en de donkere cirkels wijzen op opeenvolgingen die slechts in de grote subsample werden toegevoegd. Diamanten geven referentie sequenties aan. Lijnen geven paren van reeksen aan met afstanden gelijk aan of kleiner dan de drempel, die daarom in een enkele OTU kunnen worden gekoppeld. Grote cirkels in rood of blauw geven OTUs aan in respectievelijk de kleine en de grote subsamples. b) Rarefaction curves gegenereerd met closed-reference clustering op vijf verschillende dieptes. (c) PCoA op basis van de Bray-Curtis-afstand, waarbij 60% subsamples worden vergeleken met de volledige datasets met behulp van gesloten referentieclustering. Alle subsamples waren ijl tot 30.000 opeenvolgingen per steekproef die in deze analyse moeten worden opgenomen.

om de beperkingen van closed-reference OTU clustering te overwinnen, kan open-reference OTU clustering worden gebruikt. Het Open-verwijzingsclusteren begint op dezelfde manier als het gesloten – verwijzingsclusteren maar blijft de opeenvolgingen clusteren die niet de verwijzingsinzameling op een de novo manier overeenkomen. Hoewel de bestaande De novo clustering methodes onstabiele OTUs veroorzaken, kan het Open-verwijzingsclustering veel stabieler zijn dan dergelijke methodes omdat vele opeenvolgingen aanvankelijk door de gesloten-verwijzingsbenadering worden geclusterd. We evalueerden OTU stabiliteit in open-referentie clustering met behulp van AGC voor de de novo clustering stap (figuur 4a,b,c) en vonden het een veel effectievere methode dan het gebruik van de novo methoden alleen. De meerderheid van onstabiele OTUs was lage abundantieopeenvolgingen zonder verwijzing overeenkomst (een categorie van opeenvolgingen die algemeen om fout-naar voren gebogen wordt beschouwd). Open-reference OTU clustering produceert overlappende rarefaction curves (aanvullend bestand 9: figuur S5a), en hoewel de instabiliteit van open-reference OTU clustering nog steeds invloed PCoA analyse (aanvullend bestand 9: Figuur S5b), de PC-en R-waarde (door ADONIS, R = 0,03) is lager dan met enige andere de novo-methode alleen, net als het aantal OTUs dat differentieel wordt weergegeven in de twee groepen (104 OTUs na FDR-correctie en 2 OTUs na Bonferroni-correctie). We vergeleken open-reference clustering methoden met andere de novo methoden op extra datasets, gericht op het aandeel van instabiele sequenties en instabiele OTUs en vonden dat deze resultaten zijn over het algemeen consistent over de omgeving types en sequencing technologieën (aanvullend bestand 7: figuur S6).

naast het kwantificeren van de instabiliteit van OTUs, gebruikten we de MCC-index om te onderzoeken hoe de clustering van sequentieparen veranderde op basis van clustering van de volledige dataset versus de 60% subset (figuur 4b, aanvullend bestand 6: tabel S2). Het is duidelijk dat de twee referentiegebaseerde methoden en de onttrekking van de toepassing clustering de hoogste stabiliteit hebben door deze metriek en dat AGC de meest stabiele van de de novo clustering methoden is (Kruskal-Wallis test, P < 0,05). AL had de laagste MCC-waarde, wat erop wijst dat de clustering van vele opeenvolgingsparen veranderde bij het gebruik van deze methode. Als alternatief produceerde SL een hogere MCC-waarde dan de meeste DE novo-methoden, inclusief AL en CL. Niettemin is een deel van de reden voor de hoge MCC-waarde van SL dat de FP-waarde gelijk is aan 0 (sequenties die gescheiden zijn in een kleinere subsample zullen worden samengevoegd in een enkele OTU in een grotere subsample, maar de omgekeerde situatie gebeurt helemaal niet). Dus, vanwege de ernstige problemen met het samenvoegen van OTU, moet SL niet worden beschouwd als een veel stabielere methode.

fylogenetische bètadiversiteit metrics minimaliseren het effect van OTU instabiliteit

in tegenstelling tot niet-fylogenetische metrics, waar alle OTUs worden beschouwd als even verschillend van elkaar, fylogenetische metrics zoals UniFrac rekening houden met de fylogenetische relatie tussen OTUs bij het berekenen van afstanden tussen monsters. De onstabiele OTU clustering methodes zullen opeenvolgingen tussen OTUs bewegen die gewoonlijk nauw evolutionarily verwant zouden zijn zodat de berekende afstand tussen steekproeven over het algemeen meer gelijkaardig zou moeten blijven dan het wanneer het gebruiken van niet-phylogenetic diversiteitsmetrics zou. We hebben het effect van instabiele OTUs op bètadiversiteit opnieuw geanalyseerd met behulp van CL, SL, AL, AGC en DGC op basis van UniFrac-afstand (aanvullend bestand 10: figuur S7). De resultaten tonen aan dat onstabiele OTUs van CL, AGC, en DGC minimaal Bà ta-diversiteit beà nvloeden gebruikend UniFrac afstand, bevestigend de hypothese dat wanneer de opeenvolgingen tussen nauw verwant OTUs met deze onstabiele methodes veranderen, phylogenetic metrics toleranter aan die instabiliteit zijn. Niettemin, in SL clustering, ver verwante OTUs kan uiteindelijk worden samengevoegd tot een enkele OTU, zodat beta-diversiteit kan worden beà nvloed, zelfs bij het gebruik van UniFrac afstand. In AL, wordt de belangrijke scheiding nog veroorzaakt door verschillende het clusteren patronen, zoals met de niet-fylogenetic metrics.

You might also like

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.