toiminnallisten taksonomisten yksiköiden Stabiilisuus: tärkeä mutta laiminlyöty ominaisuus mikrobien monimuotoisuuden analysoinnissa

otus: n jäsenyyden muuttaminen eri sekvensointisyvyyksissä (OTU: n epävakaus) – laiminlyöty mutta tärkeä ominaisuus mikrobien monimuotoisuuden analysoinnissa

epästabiilin OTUs: n aiheuttaman ongelman havainnollistamiseksi toistimme ei-päällekkäiset harvinaistumiskäyrät käyttäen samaa aineistoa (Canada soil data) ja samaa ryhmittelymenetelmää (complete linkage clustering, jäljempänä ’CL clustering’), jota Roesch et al käyttää. (Kuva 1a). Me satunnaisesti subsampled raaka sekvenssit neljällä sekvensointi syvyyksissä (20%, 40%, 60%, ja 80% syöttösekvensseistä) käyttäen 30 toistoa jokaisesta. Sitten käytimme täydellinen linkage (CL) klusterointi klusterin kunkin osanäytteitä (määritelmät kaikkien klusteroinnin menetelmiä löytyy ylimääräinen tiedosto 1) ja luotu rarefaction käyrät kunkin näytteenottosyvyyden. KLUSTEROINNISSA suuremman osanäytteen tuottama harvinaistumiskäyrä on jyrkempi kuin pienemmän osanäytteen tuottama.

yksi tavoite harvinaistumiskäyriä luotaessa on interpoloinnin tukeminen, mikä tarkoittaa, että jos luomme harvinaistumiskäyrän täydestä aineistosta, haluaisimme käyttää tätä käyrää määrittääksemme, kuinka monta lajia havaittaisiin joidenkin sekvenssien osalta, jotka ovat vähemmän kuin kokonaismäärä. Kun esimerkiksi interpoloimme koko aineistosta luodusta harvinaisuuskäyrästä, arvioimme, että meillä on noin 4500 lajia, jos valitsemme satunnaisesti 30000 sekvenssiä koko aineistosta (Kuvan a kohta). Ongelma, että ei-päällekkäiset harvinaistumiskäyrät aiheuttavat interpolointia, on kuitenkin se, että jos sen sijaan satunnaisesti subsampled 30,000 sekvenssit 80% osaotos koko aineisto, arvioisimme, että vain 4,200 lajia edustavat nämä 30,000 sekvenssit (Kohta B Kuvassa 1a). Tämä skenaario olisi periaatteessa totta tapauksissa, joissa näytettä kohden kerättiin vain muutama sekvenssi, mikä on ristiriidassa harvinaisten käyrien odotetun käyttäytymisen kanssa.

olemme havainneet, että harvinaisten hajoamiskäyrien päällekkäisyys, kuten kuvassa 1a on esitetty, johtuu itse asiassa OTU: n ryhmitysmenetelmien epävakaudesta. Toisin sanoen, klusterin, että jono on osoitettu, voidaan vaikuttaa useita sekvenssien on ryhmitelty. Havainnollistetaan tätä hypoteesia kuviossa 1b. jos havaitsemme vain kaksi sekvenssiä, S1 ja S2, samankaltaisuuskynnyksen sisällä (joka on merkitty liittämällä tankoon), ne ryhmitellään yhdeksi OTU: ksi (OTU1). Tämän jälkeen lisätään vielä kolme sekvenssiä, S3, S4 ja S5, jotka voitaisiin liittää S1: een tai S2: een, mutta useat parimatkat ylittävät kynnyksen (näitä pareja ei yhdistetä baareilla). CL: n määritelmän mukaan kaikkien yhdelle OTU: lle osoitettujen sekvenssien parietäisyyksien on mahduttava etäisyyskynnyksen sisälle, mikä voisi mahdollistaa S1: n ja S2: n erottamisen OTU2: ksi ja OTU3: ksi. OTU1 katoaa tässä sekvensointisyvyydessä, ja sen sekvenssit siirretään kahteen eri otukseen, mikä kuvaa OTU-epävakauden ongelmaa. Teoreettisesti, lisäämällä sekvenssejä taipumus jakaa olemassa OTUs käytettäessä CL algoritmi. Tämän seurauksena, kun on ryhmitelty suurempi aineisto vastaan pienempi aineisto, samat sekvenssit ryhmitellään enemmän OTUs. Tämä johtaa harvinaisuuskäyrän jyrkkenemiseen, joka saadaan suuremmasta otoksesta, ja johtopäätökseen, että sillä on suurempi alfa-diversiteetti. Cl: stä syntyvät harvinaistumiskäyrät ovat siis herkempiä sekvensointisyvyydelle. Vaikka tämä vaikutus on heikko, se osoittaa silti osittain, miksi joissakin tapauksissa pienempään otoskokoon perustuvan useiden sekvenssien keräämisen odotettaisiin tuottavan harvinaistumiskäyrän, joka saavuttaa tasanteen, ja sen sijaan tuotetaan jatkuvasti kasvava harvinaistumiskäyrä. Tämä ilmiö, että yksilö on määrätty eri OTUs yksinkertaisesti lisääntyneen tai vähentyneen näytteenottosyvyyden vuoksi, on ilmeisen ongelmallinen. Vastaavanlainen tilanne perinteiseen (makroasteikon) ekologiaan perustuen olisi, jos eri lintumäärien laskeminen tietyllä alueella johtaisi siihen, että määriteltäisiin uudelleen, mitkä yksittäiset linnut ryhmittelevät lajikseen. Edellä kuvattu epävakaus ei kuitenkaan johdu uusien lajien satunnaisesta tunnistamisesta, kuten perinteisessä ekologiassa voisi olla. Sen sijaan nämä muutokset OTU: n jäsenyyteen tapahtuvat systemaattisesti suuressa osassa OTUs: n välillä uudelleensijoitetuista jaksoista.

tutkiaksemme tarkemmin epästabiilin otuksen vaikutusta biologiseen tulkintaan, tutkimme seuraavaksi beta-monimuotoisuutta ordinaation avulla. Pääasiallisen Koordinaattianalyysin (Pcoa) avulla vertasimme mikrobiyhteisöjä koko aineistoon käyttäen osanäytteitä, jotka käsittävät 60% koko aineistosta. Toistimme tämän 30 kertaa luodaksemme toisintoja. Sitten käytimme CL klusterointi klusterin kaikki osanäytteet, sekä koko aineisto, ja yhdistettiin klusteroinnin tulokset edustava OTU sekvenssi (määritellään runsain sekvenssi kussakin OTU). Näytteet satunnaistettiin siten, että ne sisälsivät 30 000 sekvenssiä näytettä kohti, mukaan lukien 30 toistuvaa rarefaktiota, jotka syntyivät koko aineiston ryhmittelystä. Harvinaistumisen jälkeen kaikki näytteet sisälsivät saman määrän sekvenssejä niin, että ainoat erot niiden välillä olivat sekvenssien määrä, jotka alun perin ryhmiteltiin. PCoA osoitti, että nämä näytteet erotettiin alun perin ryhmiteltyjen sekvenssien lukumäärän mukaan, mikä osoittaa, että OTU: n epävakaus johtaa siihen, että samoilla näytteillä näyttää olevan eri koostumukset (Kuva 1c). Vastaavanlainen tulos havaittiin verrattaessa 20%: n, 40%: n ja 80%: n osanäytteitä koko aineistoon (Lisätiedosto 2: Kuva S1). Lisäksi 125 OTUs: n (false discovery rate (FDR)-korjauksen jälkeen) ja 26 OTUs: n (Bonferroni-korjauksen jälkeen) määritettiin eroavan merkittävästi näiden kahden ryhmän välillä Mann-Whitney U-testin avulla. Testasimme myös epästabiilien otusten vaikutusta taksonomisen koostumuksen laskemiseen ja huomasimme vaikutuksen olevan hyvin rajallinen (Lisätiedosto 3: kuva S2 ja Lisätiedosto 4). Tämä johtuu siitä, että nämä OTUs on edelleen liitetty samaan taksoniin niiden fylogeneettisen läheisyyden vuoksi, huolimatta siitä, että ne muuttuvat, kun lisätään useampia sekvenssejä käyttäen CL: ää (käsitellään myös jäljempänä kohdassa, jossa selvitetään pcoa: n toleranssi fylogeneettisten metriikkojen käyttöön epävakaalla Otuksella).

Vaihtoehtoiset hierarkkiset ja ahneet ryhmitysmenetelmät tuottavat myös epävakaan otuksen

kaikki hierarkkiset menetelmät, joita käytetään OTU: n jäsenyyden määrittämiseen, perustuvat otuksen sekvenssien välisiin parietäisyyksiin. CL-ryhmittely edellyttää, että kaikkien sekvenssien välinen parietäisyys yhdessä OTU: ssa mahtuu etäisyyskynnyksen sisälle. Yhden linkin (SL) ryhmittely edellyttää, että yhden OTU: n minkä tahansa sekvenssiparin välinen parietäisyys mahtuu etäisyyskynnykseen. Keskimääräinen linkitys (AL) – ryhmittely edellyttää kaikkien sekvenssien keskimääräisiä parietäisyyksiä yhdessä OTU: ssa, jotta ne mahtuvat etäisyyskynnyksen sisälle. Kuten olisi odotettavissa käytettäessä SL clustering (Kuva 2a), OTUs yleensä yhdistää, kun enemmän sekvenssejä lisätään, mikä on päinvastainen halkaisu ongelma, joka havaitaan CL. Vastaavasti SL: n avulla luodut harvinaiset mätänemiskäyrät heikkenevät osanäytteen koon kasvaessa (Kuva 2b). Beta-monimuotoisuuteen vaikuttaa myös otuksen epävakaa SL-ryhmittely (Kuva 2C). Esimerkiksi 167 OTUs: n (FDR-korjauksen jälkeen) ja 36 OTUs: n (Bonferroni-korjauksen jälkeen) määritettiin olevan eri tavalla edustettuina sekä 60%: n osaotoksen että koko aineiston osalta.

kuva 2
kuva2

periaatteet taustalla epävakaa single linkage (SL) klusterointi, rarefaction käyrät, ja PCoA perustuu Bray-Curtis etäisyys. a) epästabiilin SL-ryhmittelyn periaatteet kahdella näytteenottosyvyydellä. Valkoiset ympyrät osoittavat yksittäisiä sekvenssejä, jotka sisältyivät sekä pieniin että suuriin osanäytteisiin, ja tummat ympyrät osoittavat sekvenssejä, jotka lisätään vain suureen osanäytteeseen. Viivat osoittavat sekvenssipareja, joiden etäisyydet ovat yhtä suuret tai pienemmät kuin kynnysarvo, ja jotka voidaan näin ollen yhdistää yhdeksi OTU: ksi. Suuret ympyrät punaisella tai sinisellä osoittavat otus pieni ja suuri osanäytteet, vastaavasti. (B, d) Rarefaction käyrät syntyy SL (b) ja keskimääräinen linkage (AL) (d) klusterointi viidessä eri syvyydessä. (c, e) PCoA perustuu Bray-Curtis etäisyys, vertaamalla 60% osanäytteitä koko aineistot käyttäen SL (c) ja AL (e). Kaikki osanäytteet rajoitettiin 30 000 sekvenssiin näytettä kohti, jotta ne sisällytettäisiin tähän analyysiin.

keskimääräisen liitoksen tuottama epävakaus on monimutkaisempaa, koska sekä OTU-jakautumista että OTU-yhdistymistä voi tapahtua. Nämä ristiriitaiset vaikutukset johtavat hienovaraisempiin eroihin OTU-määrissä ja niistä johtuviin harvinaisiin mätänemiskäyriin, jotka syntyvät AL: n ollessa päällekkäisiä eri syvyyksissä (Kuva 2d). Lisäksi AL OTUs itse ovat epävakaita (Lisätiedosto 5: Kuva S3) johtuen suuresta määrästä OTU jakaminen ja yhdistäminen tapahtumia, jotka tapahtuvat. Lisäksi, vaikka nämä epävakaat OTUs-aineet vaikuttavat beetadiversiteettiin (Adonis, R = 0.16, P = 0.001), pcoa: n merkittävä erottelu näyttää johtuvan muista tekijöistä kuin otoksen koosta; esimerkiksi niiden erojen mahdollinen sisällyttäminen, jotka johtuvat sekvenssien tulojärjestyksestä tai tiettyjen keskeisten sekvenssien esiintymisestä tai puuttumisesta eri osanäytteiden sisällä (kuva 2e). Tämä havainto voi johtua AL: n herkkyydestä tulosekvenssien järjestykseen, mikä johtaisi erilaisiin ryhmittelymalleihin. AL-menetelmää käytettäessä 804 OTUs (FDR-korjauksen jälkeen) ja 5 OTUs (Bonferroni-korjauksen jälkeen) edustivat eri tavoin kahta näytteenottosyvyyttä.

ahne ryhmittely, kuten KÄYTTÖTUTKIMUKSESSA toteutettu, on toinen yleisesti käytetty de novo-ryhmittelymenetelmä, joka on laskennallisesti tehokkaampi kuin CL, SL ja AL. Kun käytetään ahnetta ryhmittelyä, sekvenssin on oltava yhden OTU: n centroidin etäisyyskynnyksen sisällä, jotta se voidaan ryhmittää kyseisessä OTU: ssa. Lisäksi sekvenssit käsitellään määritellyssä järjestyksessä, ja jokainen kyselysekvenssi annetaan joko olemassa olevalle OTU: lle tai uuden OTU: n centroidiksi. Jos yksi kyselysekvenssi on useiden olemassa olevien OTU-centroidien etäisyysrajan sisällä, se voidaan määrittää joko lähimpään centroidiin (tässä kutsutaan etäisyysperusteiseksi ahneeksi ryhmittelyksi (DGC)) tai runsaimpaan centroidiin (tässä kutsutaan runsausperusteiseksi ahneeksi ryhmittelyksi (AGC)) (Lisätiedosto 1). Vaihtoehtoisia lähestymistapoja on olemassa murtaa tällaisia siteitä; kuitenkin, päätimme rajoittaa keskittyä niihin, jotka ovat yleisimmin käytetty. Tässä tutkimuksessa, arvioimme USEARCH menetelmänä ahne clustering(emme arvioineet UPARSE koska sen clustering algoritmi on sama kuin USEARCH).

OTU-epästabiilisuus on myös ahneiden ryhmitysmenetelmien ongelma, ja se ilmenee useasta lähteestä. Ensinnäkin centroidien valinta riippuu suuresti siitä, missä järjestyksessä sekvenssejä käsitellään. Näin ollen, kun otoksen kokoa muutetaan, myös sekvenssien järjestys voi muuttua. Toiseksi, kun käytetään DGC: tä, vaikka centroidien valinta pysyisi vakaana, kun otoksen kokoa suurennetaan, lisätyt sekvenssit voivat muuttua uusiksi centroideiksi ja houkutella jäseniä olemassa olevista OTUs: ista (tämä ei yleensä tapahdu AGC: ssä). Esimerkiksi kuvitellaan, että S10, S11 ja S12 muodostavat OTU7: n S10: n ollessa centroid (Kuva 3a,b). Jos myöhemmässä sekvensointijaksossa lisätään toinen sekvenssi, S13, suuremman näytteen käsittelyjärjestys voi olla S10, S13, S11 ja S12. Tällöin S10 on edelleen centroid, mutta S13: sta tulee myös centroid. S13 värvää S11: n, koska näiden välinen etäisyys on pienempi kuin S11: n ja S10: n välinen etäisyys. DGC: ssä S11 päätyy S13: een S10: n sijaan, Ja alkuperäinen OTU7 jaetaan OTU8: aan ja OTU9: ään (Kuva 3a). AGC: ssä S11 on edelleen klusteri S10: n kanssa ja alkuperäinen OTU7 säilyttää alkuperäisen rakenteensa (kuva 3b).

kuva 3
kuva3

epästabiilin etäisyysperusteisen ahneen ryhmittelyn (DGC) ja runsausperusteisen ahneen ryhmittelyn (AGC) periaatteet, rarefaction curves ja Bray-Curtis-etäisyyteen perustuva PCoA. A, b) epästabiilin DGC (A) ja AGC (b): n taustalla olevat periaatteet kahdella näytteenottosyvyydellä. Valkoiset ympyrät osoittavat yksittäisiä sekvenssejä, jotka sisältyivät sekä pieniin että suuriin osanäytteisiin, ja tummat ympyrät osoittavat sekvenssejä, jotka lisättiin vain suureen osanäytteeseen. Keltaiset pisteet viittaavat Otun centroideihin. Viivat osoittavat sekvenssipareja, joiden etäisyydet ovat yhtä suuret tai pienemmät kuin kynnysarvo, ja jotka voidaan näin ollen yhdistää yhdeksi OTU: ksi. Suuret ympyrät punaisella tai sinisellä osoittavat otus pieni ja suuri osanäytteet, vastaavasti. (c, d) Harvinaistumiskäyrät, jotka syntyvät DGC (c): llä ja AGC (d): llä viidessä eri syvyydessä. (e, f) PCoA Bray-Curtis-etäisyyden perusteella vertaamalla 60%: n osanäytteitä AGC (e): n ja DGC (f): n avulla saatuihin tietoihin. Kaikki osanäytteet rajoitettiin 30 000 sekvenssiin näytettä kohti, jotta ne sisällytettäisiin tähän analyysiin.

käytimme ahnetta ryhmittelyä alpha rarefaction-käyriin ja beta-diversity PCoA: han analysoidaksemme epävakaan otuksen vaikutuksia. Kuten edellä todettiin, sekä DGC että AGC kärsivät centroid-vaihdettavuudesta (tämä vaikutus ei ole yksipuolinen OTU: n jakamiselle tai yhdistämiselle), ja DGC kärsii lisäksi olemassa olevien Otu: iden jakautumisesta. Tämän seurauksena DGC ja CL clustering tuottivat samanlaisia käyriä, jotka jyrkenivät osanäytteen koon kasvaessa (Kuva 3c). AGC sen sijaan valmisti päällekkäisiä käyriä, joihin syvyys ei vaikuttanut (kuva 3d). Kuten AL clustering, tämä ei kuitenkaan tarkoita, että OTUs oli vakaa, vaan ainoastaan, että samanlainen määrä (mahdollisesti eri) OTUs saatiin eri subsampling syvyyksissä. Epästabiili OTUs,joka on tuotettu beeta-monimuotoisuuden DGC-ja AGC-vaikutusarvioissa (Kuva 3e, f). AGC: n tapauksessa 392 OTUs: n (FDR-korjauksen jälkeen) ja 14 OTUs: n (Bonferroni-korjauksen jälkeen) määritettiin edustavan toisiaan eri syvyyksissä, ja DGC: n tapauksessa nämä luvut olivat vastaavasti 370 ja 15.

näiden epästabiilien menetelmien välisten erojen kvantifioimiseksi vertasimme epästabiilien sekvenssien ja epästabiilien OTUs-menetelmien osuutta (Kuva 4a, b; Lisätiedosto 6: taulukko S1). CL tuotti eniten epästabiileja sekvenssejä (noin 22%), kun taas AL (13%) ja AGC (12%) suoriutuivat hieman paremmin kuin SL (15%) ja DGC (14%). Nämä tulokset eivät aina olleet yhdenmukaisia vertailtaessa vaihtoehtoisten tietokokonaisuuksien käyttöä (Lisätiedosto 7: Kuva S6); AGC osoitti kuitenkin yleensä parhaan suorituskyvyn verrattuna muihin de novo-menetelmiin. Epästabiileille OTUs-yksiköille CL ja DGC tuottivat suurimman osan epästabiileista OTUs-yksiköistä: noin 60% centroideilla varustetuista otus-yksiköistä, joiden frekvenssi on suurempi tai yhtä suuri kuin 10, havaittiin epästabiileiksi kussakin menetelmässä (>90% todettiin epästabiileiksi analysoitaessa tiettyjä aineistoja, kuten Lisätiedosto 7: Kuva S6). AL ja SL ovat vakaampia kuin CL tai DGC, mutta silti yli 30%: n OTU-epävakaus centroideilla havaittiin vähintään 10 kertaa. AGC: n todettiin olevan stabiilein de novo-menetelmä erityisesti OTUs: lle, jossa on erittäin runsaasti centroideja.

Kuva 4
kuva4

epävakaiden sekvenssien osuus, epävakaiden OTUs-arvojen osuus ja MCC-arvo kunkin menetelmän osalta. (a) osuus epävakaa sekvenssien luotu menetelmällä. Epästabiileilla sekvensseillä tarkoitetaan sekvenssejä, jotka ryhmittyvät yhteen centroidiin 60%: n osanäytteessä mutta ryhmittyvät eri centroidiin 100%: n (täydessä) aineistossa. (b) epästabiilien OTUs-solujen osuus, joka on luotu menetelmän ja klusterien centroidien taajuuden mukaan (suljetun referenssin ja dereplikaation arvot ovat nolla, eivätkä ne näin ollen sisälly tähän lukuun). Jos OTU oli identtinen 60%: n ja 100%: n tietokokonaisuuksissa (lukuun ottamatta sekvenssejä, joita ei ole 60%: n osanäytteessä), se määritellään vakaaksi. c) kunkin menetelmän MCC-arvo. Korkeammat arvot vastaavat suurempaa vakautta.

yksi De novo-ryhmittelymenetelmä, joka tuottaa stabiileja otuksia, on dereplication eli sekvenssien ryhmittely, jotka ovat identtisiä ja yhtä pitkiä (Lisätiedosto 8: Kuva S4a). Kuten suljetussa otu-ryhmittelyssä, kaikki otukset pysyvät täysin stabiileina eri sekvensointisyvyyksissä, koska sekvenssikokoelman koostumus ei vaikuta ryhmittelyyn. Tämän seurauksena harvinaiset dereplication-sovelluksella tuotetut käyrät ovat päällekkäisiä eri syvyyksissä (Lisätiedosto 8: Kuva S4b), ja beta-monimuotoisuuteen ei vaikuta osanäytteiden koko (Lisätiedosto 8: Kuva S4C). Lisäksi yhden OTU: n ei katsota eroavan merkittävästi näiden kahden ryhmän välillä. On tärkeää huomata, että dereplication on erittäin altis tunnistamaan virheellisiä OTUs, jotka johtuvat sekvensointivirheestä. Koska OTUs on stabiili binning Otuksessa, se tuottaa myös päällekkäisiä rarefektiokäyriä eri syvyyksissä, mikä osoittaa, että epästabiilit otukset (sekvensointivirheiden sijaan) ovat pääsyy ei-päällekkäisiin rarefektiokäyriin. Lisäksi dereplication-menetelmän stabiilisuus viittaa siihen, että korkeampi samankaltaisuuskynnys ryhmittelyssä voi vähentää epästabiilien OTUs-yhdisteiden esiintymistä, koska de novo-ryhmittelymenetelmät tulevat samankaltaisemmiksi kuin dereplication samankaltaisuuskynnyksen kasvaessa. Käytännössä dereplication clustering tuottaa suuria määriä OTUs, joka on laskennallisesti kallista työllistää loppupään. Siten, moderni aineisto koot estää meitä työskentelemästä sekvenssejä, jotka ovat vain dereplicated. On mahdollista, että tulevissa menetelmissä voidaan käyttää dereplikaatioon perustuvia lähestymistapoja OTU: n epävakauden ongelman hallitsemiseksi. Toinen äärimmäinen esimerkki olisi kaikkien jaksojen ryhmittely yhdeksi OTU: ksi, kun OTU pysyy täysin vakaana. Dereplikaatiosta poiketen otusta voidaan kuitenkin hyödyntää lisäanalyyseissä, kuten alfa-diversiteetissa, beeta-diversiteetissa ja taksonomisessa koostumuksessa. Lisäksi kaikkien sekvenssien ryhmittelyä yhdeksi OTU: ksi voidaan tuskin kutsua ”ryhmittelyksi”, ja se on täysin hyödytöntä loppupään analyysissä.

Referenssipohjaiset menetelmät minimoivat epästabiilin OTUs-ongelman

yksi ominaisuus, joka kaikilla epästabiileilla ryhmittelymenetelmillä on yhteistä, on se, että klusterin määritelmät riippuvat syöttösekvensseistä. Suljetulla OTU-ryhmittelyllä vältetään tämä riippuvuus yhdellä merkittävällä käytännön rajoituksella: suljetun OTU-ryhmittelyn aikana lukuja ryhmitellään ennalta laskettujen centroidien vertailutietokantaa (esimerkiksi Greengenes-tietokanta ) vastaan, eikä uusia centroideja muodosteta ryhmittelyn aikana, jolloin OTUs on täysin vakaa (kuva 5a). Tämän seurauksena näytteiden koko ei vaikuta suljettuun referenssiklusterointiin perustuviin alfa – ja beeta-diversiteettiarvioihin (Kuva 5b,c), eikä OTUs: ien määritetä eroavan merkittävästi näiden kahden syvyyden välillä. Vakaan otuksen tuottamisen lisäksi suljettu referenssiklusterointi tarjoaa useita muita käteviä ominaisuuksia. Ensinnäkin vertailusekvenssien nimiä voidaan käyttää universaaleina OTU-tunnisteina mielivaltaisten nimien sijaan, mikä helpottaa OTUs-tunnisteiden suoraa vertailua eri tutkimusten välillä. Toiseksi sekvenssien lukemat eri merkkigeenialueilta voidaan ryhmitellä yhteen, jos viiteaineisto koostuu täysmittaisista merkkigeeneistä. Lopuksi, suljettu viittaus klusterointi voi parallelize OTU klusterointi suurten aineistojen. Suljetun otu-ryhmittelyn suurin rajoitus on se, että lukemat, jotka eivät ole samankaltaisuuskynnyksen ulkopuolella minkään viitteellisen centroidin kanssa, hylätään siten, että vain otus, jotka ovat jo edustettuina tietokannassa, voidaan ” havaita.”Kanadan maannostietoja käsiteltäessä noin 14 prosenttia sekvensseistä ei voitu sovittaa vertailusekvensseihin, minkä vuoksi ne hylättiin ryhmittelyn jälkeen. Tämä suljetun OTU-viiteryhmittelyn rajoittaminen voi käydä vähäpätöiseksi, koska viitetietoihin tehdään ennustettuja parannuksia, minkä ansiosta yksittäisissä tutkimushankkeissa (esimerkiksi suoliston mikrobiomi) tarvittavat viitteet ovat entistä kehittyneempiä.

kuva 5
kuva5

periaatteet, joiden taustalla on vakaa suljettu referenssiklusterointi, rarefaction-käyrät ja Bray-Curtis-etäisyyteen perustuva PCoA. a) stabiilin suljetun referenssiklusteroinnin periaatteet kahdella näytteenottosyvyydellä. Valkoiset ympyrät osoittavat yksittäisiä sekvenssejä, jotka sisältyivät sekä pieniin että suuriin osanäytteisiin, ja tummat ympyrät osoittavat sekvenssejä, jotka lisättiin vain suureen osanäytteeseen. Timantit viittaavat vertailusarjoihin. Viivat osoittavat sekvenssipareja, joiden etäisyydet ovat yhtä suuret tai pienemmät kuin kynnysarvo, ja jotka voidaan näin ollen yhdistää yhdeksi OTU: ksi. Suuret ympyrät punaisella tai sinisellä osoittavat otus pieni ja suuri osanäytteet, vastaavasti. (b) Rarefaction käyrät, jotka on luotu suljetulla referenssiklusteroinnilla viidessä eri syvyydessä. (C) PCoA perustuu Bray-Curtis etäisyys, vertaamalla 60% osanäytteitä koko aineistot käyttäen suljettua referenssiklusterointia. Kaikki osanäytteet rajoitettiin 30 000 sekvenssiin näytettä kohti, jotta ne sisällytettäisiin tähän analyysiin.

suljetun otu-ryhmittelyn rajoitusten poistamiseksi voidaan käyttää avointa OTU-ryhmittelyä. Open-reference clustering alkaa samalla tavalla kuin Cluster-reference clustering, mutta jatkaa niiden sekvenssien klusterointia, jotka eivät vastaa referenssikokoelmaa de novo-tavalla. Vaikka olemassa olevat de novo-ryhmittelymenetelmät tuottavat epävakaita otuksia, avoimen referenssin ryhmittely voi olla paljon vakaampaa kuin tällaiset menetelmät, koska monet sekvenssit ryhmitellään aluksi suljetun referenssin lähestymistavalla. Arvioimme otu: n stabiilisuutta avoimessa referenssiryhmittymässä AGC: n avulla de novo-ryhmittelyvaiheessa (Kuva 4a,b,c) ja totesimme sen olevan paljon tehokkaampi menetelmä kuin pelkillä de novo-menetelmillä. Suurin osa epästabiileista otuksista oli vähäisen runsauden sekvenssejä, joilla ei ollut vertailukohtaa (sekvenssien luokka, jota yleisesti pidetään virhealttiina). Open-reference OTU klusterointi tuottaa päällekkäisiä rarefaction käyrät (Lisätiedosto 9: Kuva S5a), ja vaikka epävakaus avoimen otu klusteroinnin edelleen vaikuttaa PCoA analyysi (Lisätiedosto 9: Kuva S5b), PC-ja R-arvo (Adonis-menetelmällä r = 0,03) on pienempi kuin millään muulla de novo-menetelmällä, samoin kuin niiden OTUs-arvojen lukumäärä, jotka ovat eri tavalla edustettuina kahdessa ryhmässä (104 OTUs FDR-korjauksen jälkeen ja 2 OTUs Bonferroni-korjauksen jälkeen). Vertailimme avoimen referenssin ryhmittelymenetelmiä muihin de novo-menetelmiin lisäaineistoissa keskittyen epävakaiden sekvenssien ja epävakaiden OTUs-menetelmien osuuteen ja huomasimme, että nämä tulokset ovat yleensä yhdenmukaisia eri ympäristötyypeissä ja sekvensointitekniikoissa (Lisätiedosto 7: Kuva S6).

OTUs: n epävakauden määrittämisen lisäksi käytimme MCC-indeksiä selvittääksemme, miten sekvenssiparien ryhmittely muuttui koko aineiston ryhmittelyn ja 60%: n osajoukon perusteella (Kuva 4b, Lisätiedosto 6: taulukko S2). On selvää, että kahden referenssipohjaisen menetelmän ja dereplication-ryhmittelyn stabiilisuus on tällä mittarilla korkein ja että AGC on de novo-ryhmittelymenetelmistä stabiilein (Kruskal-Wallis-testi, p < 0,05). AL oli pienin MCC-arvo, mikä osoittaa, että klusterointi monien sekvenssien paria muuttunut käytettäessä tätä menetelmää. Vaihtoehtoisesti SL tuotti korkeamman MCC-arvon kuin useimmat de novo-menetelmät, mukaan lukien AL ja CL. Osasyy SL: n korkeaan MCC-arvoon on kuitenkin se, että sen FP-arvo on 0 (pienemmässä osaotoksessa erotetut sekvenssit sulautuvat yhdeksi OTU: ksi suuremmassa osaotoksessa, mutta päinvastaista tilannetta ei tapahdu lainkaan). Näin ollen, koska sen vakavia ongelmia OTU yhdistäminen, SL ei pitäisi pitää paljon vakaampi menetelmä.

fylogeneettiset beeta-diversiteettimittarit minimoivat OTU: n epävakauden vaikutuksen

toisin kuin ei-fylogeneettiset metriikat, joissa kaikkia otuksia pidetään yhtä erilaisina keskenään, fylogeneettiset metriikat, kuten UniFrac, ottavat otus: n välisen fylogeneettisen suhteen huomioon laskettaessa näytteiden välisiä etäisyyksiä. Epävakaat OTU-ryhmittelymenetelmät siirtävät OTUs-ryhmien välisiä sekvenssejä, jotka yleensä liittyvät läheisesti toisiinsa evolutionaarisesti, joten näytteiden välisen lasketun etäisyyden pitäisi yleensä pysyä samankaltaisempana kuin käytettäessä ei-fylogeneettisiä monimuotoisuusmittareita. Analysoimme uudelleen epävakaan OTUs: n vaikutusta beta-monimuotoisuuteen käyttäen CL: ää, SL: ää, AL: tä, AGC: tä ja DGC: tä unifrac-etäisyyden perusteella (Lisätiedosto 10: Kuva S7). Tulokset osoittavat, että CL: n, AGC: n ja DGC: n epävakaat OTUs-arvot vaikuttavat beta-monimuotoisuuteen minimaalisesti käyttämällä unifrac-etäisyyttä, mikä vahvistaa hypoteesin, että kun sekvenssit muuttuvat näiden epävakaiden menetelmien kanssa läheisesti toisiinsa liittyvien OTUs-yhdisteiden välillä, fylogeneettiset metriikat sietävät epävakautta paremmin. Kuitenkin SL-ryhmittelyssä etäisesti toisiinsa liittyvät OTUs: t voidaan lopulta liittää yhdeksi OTU: ksi, jolloin beta-monimuotoisuuteen voidaan vaikuttaa myös unifrac-etäisyyttä käytettäessä. AL: ssa pääerotus johtuu edelleen erilaisista ryhmittelykuvioista, kuten ei-fylogeneettisillä metriikoilla.

You might also like

Vastaa

Sähköpostiosoitettasi ei julkaista.