az operatív taxonómiai egységek stabilitása: fontos, de elhanyagolt tulajdonság a mikrobiális sokféleség elemzéséhez

az Otu – k tagságának megváltoztatása különböző szekvenálási mélységekben (OTU instabilitás)-elhanyagolt, de fontos tulajdonság a mikrobiális sokféleség elemzéséhez

az instabil Otu-k által okozott probléma szemléltetésére a nem átfedő ritkítási görbéket reprodukáltuk ugyanazon adatkészlet (Kanadai talajadatkészlet) és ugyanazon klaszterezési módszer (teljes összekapcsolási klaszterezés, a továbbiakban: CL klaszterezés) alkalmazásával Roesch et al. (1A. ábra). Véletlenszerűen almintáztuk a nyers szekvenciákat négy szekvenálási mélységben (20%, 40%, 60%, a bemeneti szekvenciák 80% – a) mindegyikből 30 ismétlést használva. Ezután teljes összekapcsolási (CL) fürtözést használtunk az egyes részminták fürtözéséhez (az összes fürtözési módszer meghatározása megtalálható az 1.további fájlban), és minden mintavételi mélységhez ritkítási görbéket generáltunk. CL klaszterezés esetén a nagyobb részminta által előállított ritkítási görbe meredekebb, mint egy kisebb részminta által előállított görbe.

a ritkítási görbék előállításának egyik célja az interpoláció támogatása, ami azt jelenti, hogy ha egy teljes adatkészletből létrehozunk egy ritkítási görbét, akkor ezt a görbét szeretnénk használni annak meghatározására, hogy hány faj figyelhető meg bizonyos számú szekvenciánál, amely kevesebb, mint az összes. Például, amikor egy teljes adatkészletből létrehozott ritkítási görbéből interpolálunk, úgy becsüljük, hogy körülbelül 4500 fajunk van, ha véletlenszerűen kiválasztunk 30 000 szekvenciát a teljes adatkészletből (az 1a ábra A pontja). Az a probléma, amelyet a nem átfedő ritkítási görbék jelentenek az interpolációhoz, az, hogy ha ehelyett véletlenszerűen 30 000 szekvenciát veszünk fel a teljes adatkészlet 80% – os részmintájából, akkor becslésünk szerint csak 4200 fajt képvisel ez a 30 000 szekvencia (B pont az 1a.ábrán). Ez a forgatókönyv lényegében igaz lenne azokban az esetekben, amikor mintánként csak néhány szekvenciát gyűjtöttek össze, ez a jelenség ütközik a ritkítási görbék várható viselkedésével.

megfigyeltük, hogy a ritkítási görbék nem átfedését, amint azt az 1a.ábra szemlélteti, valójában az OTU klaszterezési módszerek instabilitása okozza. Más szavakkal, azt a fürtöt, amelyhez egy szekvencia van hozzárendelve, befolyásolhatja a fürtözött szekvenciák száma. Ezt a hipotézist szemlélteti az 1b. ábra. ha csak két szekvenciát figyelünk meg, S1 és S2, a hasonlósági küszöbön belül (amelyet egy sávval való összekapcsolás jelez), akkor egyetlen OTU-ba (OTU1) csoportosulnak. Ezután hozzáadunk még három szekvenciát, S3, S4 és S5, amelyek összekapcsolhatók S1 vagy S2, de több páros távolság meghaladja a küszöböt (ezeket a párokat nem kötik össze rudak). A CL definíciója szerint az egyetlen OTU-hoz rendelt összes szekvencia páros távolságának be kell illeszkednie a távolság küszöbébe , amely lehetővé teheti az S1 és S2 elválasztását OTU2 és OTU3-ra. Az OTU1 ebben a szekvenálási mélységben eltűnik, szekvenciáit két különböző Otu-hoz rendelik, szemléltetve az OTU instabilitásának problémáját. Elméletileg több szekvencia hozzáadása hajlamos a meglévő Otu-k felosztására a CL algoritmus használatakor. Ennek eredményeként, amikor egy nagyobb adatkészlettel csoportosulnak, szemben egy kisebb adatkészlettel, ugyanazok a szekvenciák több Otu-ba lesznek csoportosítva. Ez a nagyobb mintából levezetett ritkítási görbe meredekségét eredményezi, és azt a következtetést vonja le, hogy nagyobb alfa-sokféleséggel rendelkezik. A CL-ből eredő ritkítási görbék ezért érzékenyebbek a szekvenálási mélységre. Bár ez a hatás gyenge, még mindig részben szemlélteti, miért, egyes esetekben, számos szekvencia összegyűjtése, amely kisebb mintaméreten alapul, várhatóan ritkítási görbét eredményez, amely eléri a fennsíkot, és ehelyett folyamatosan növekvő ritkítási görbe keletkezik. Nyilvánvalóan problematikus az a jelenség, hogy az egyént különböző Otu-khoz rendelik egyszerűen a megnövekedett vagy csökkent mintavételi mélység miatt. A hagyományos (makroszintű) ökológián alapuló hasonló helyzet az lenne, ha egy rögzített területen belül a különböző számú madár számolása annak újradefiniálásához vezetne, hogy az egyes madarak mely fajként csoportosulnak. A fent leírt instabilitás azonban nem az új fajok alkalmi azonosításának köszönhető, mint a hagyományos ökológia esetében. Ezzel szemben az OTU tagság ezen változásai szisztematikusan fordulnak elő az Otu-k között átcsoportosított szekvenciák nagy részén belül.

az instabil OTUs biológiai értelmezésre gyakorolt hatásának további vizsgálata érdekében a béta-sokféleséget ordinációval vizsgáltuk. A Principal Coordinate Analysis (Pcoa) segítségével összehasonlítottuk a mikrobiális közösségeket a teljes adatkészlettel, a teljes adatkészlet 60% – át tartalmazó részminták felhasználásával. Ezt az almintát 30-szor megismételtük, hogy ismétléseket hozzunk létre. Ezután a CL fürtözést használtuk az összes részmintát, valamint a teljes adatkészletet, és a fürtözési eredményeket reprezentatív OTU szekvenciával kombináltuk (az egyes OTU-k leggyakoribb szekvenciájaként definiálva). A mintákat ezután véletlenszerűen ritkítottuk, hogy mintánként 30 000 szekvenciát tartalmazzanak, beleértve a 30 replikált ritka műveletet, amely a teljes adatkészlet csoportosításából származott. A ritkítást követően az összes minta azonos számú szekvenciát tartalmazott, így az egyetlen különbség közöttük az eredetileg csoportosított szekvenciák száma volt. A PCoA kimutatta, hogy ezek a minták az eredetileg csoportosított szekvenciák száma szerint váltak szét, jelezve, hogy az OTU instabilitása azt eredményezi, hogy ugyanazok a minták különböző összetételűek (1C ábra). Hasonló eredményt figyeltek meg a 20% – os, 40% – os és 80% – os részminták összehasonlításakor a teljes adatkészlettel (2.Kiegészítő fájl: S1 ábra). Továbbá 125 Otu (hamis felfedezési Arány (FDR) korrekció után) és 26 Otu (Bonferroni korrekció után) szignifikánsan különbözött e két csoport között a Mann-Whitney U teszt segítségével. Teszteltük azt is, hogy az instabil Otu-k milyen hatással vannak a taxonómiai összetétel kiszámítására, és azt találtuk, hogy a hatás nagyon korlátozott (3.Kiegészítő fájl: S2 Ábra és 4. Kiegészítő fájl). Ennek oka az, hogy ezeket az Otu-kat filogenetikai közelségük következtében továbbra is ugyanahhoz a taxonokhoz rendelik, annak ellenére, hogy változnak, ha több szekvenciát adnak hozzá CL használatával (az alábbiakban a pcoa toleranciáját részletezzük a filogenetikai metrikák instabil OTUs-okkal történő alkalmazásával szemben).

az alternatív hierarchikus és kapzsi klaszterezési módszerek instabil Otu-kat is eredményeznek

az OTU-tagság meghatározására használt összes hierarchikus módszer az Otu-k szekvenciái közötti páros távolságokon alapul. A CL-csoportosításhoz az egyik Otu összes szekvenciája közötti páronkénti távolság szükséges, hogy illeszkedjen a távolság küszöbébe. Az egykötéses (SL) fürtözéshez az egyik Otu bármelyik szekvenciapárja közötti páros távolság szükséges, hogy illeszkedjen a távolság küszöbébe. Az átlagos összekapcsolási (AL) fürtözéshez az egyik Otu összes szekvenciája közötti átlagos páros távolságok szükségesek, hogy illeszkedjenek a távolság küszöbébe. Ahogy az SL klaszterezés alkalmazásakor várható lenne (2a.ábra), az Otu-k általában összeolvadnak, ha több szekvenciát adnak hozzá, ami ellentétes a CL-nél megfigyelt hasítási problémával. Ennek megfelelően az SL használatával létrehozott ritkítási görbék kevésbé meredekek lesznek, amikor a részminta mérete növekszik (2b ábra). A béta-sokféleséget az Otu-k instabil SL-csoportosítása is befolyásolja (2C ábra). Például 167 Otu-t (az FDR korrekció után) és 36 Otu-t (a Bonferroni korrekció után) különbözőképpen ábrázoltak mind a 60% – os részmintában, mind a teljes adatkészletben.

ábra 2
2. ábra

az unstable single linkage (SL) klaszterezés, a rarefaction görbék és a PCoA alapelvei a Bray-Curtis távolság alapján. a) az instabil SL-csoportosulás alapjául szolgáló elvek két mintavételi mélységben. A fehér körök az egyes szekvenciákat jelzik, amelyek mind a kicsi, mind a nagy részmintákban szerepeltek, a sötét körök pedig azokat a szekvenciákat jelzik, amelyeket csak a nagy részmintában adnak hozzá. A vonalak a küszöbértékkel egyenlő vagy annál kisebb távolságú szekvenciapárokat jelölnek, amelyek ezért egyetlen OTU-ba kapcsolhatók. A piros vagy kék színű nagy körök az OTUs-t jelzik a kicsi, illetve a nagy részmintákban. (b, d) Rarefaction görbék generált SL (b) és átlagos kapcsolat (AL) (d) fürtözés öt különböző mélységben. (c, e) PCoA a Bray-Curtis távolság alapján, 60% – os részmintákat összehasonlítva a teljes adatkészletekkel SL (c) és AL (E) használatával. Az összes részmintát ritkítottuk 30 000 szekvenciára mintánként, hogy szerepeljen ebben az elemzésben.

az átlagos kapcsolat által okozott instabilitás bonyolultabb, mivel mind az OTU hasítás, mind az OTU egyesülés előfordulhat. Ezek az egymásnak ellentmondó hatások finomabb eltérésekhez vezetnek az OTU-számokban, és az ebből eredő ritkítási görbék, amelyek az AL-val jönnek létre, különböző mélységekben átfedik egymást (2D ábra). Ezenkívül maguk az AL Otu-k is instabilak (további Fájl 5: S3 ábra) a nagyszámú OTU hasító és egyesítő esemény miatt. Továbbá, annak ellenére, hogy ezek az instabil Otu-k befolyásolják a béta-sokféleséget (Adonis, R = 0,16, P = 0,001), úgy tűnik, hogy a pcoa fő elválasztását a mintamérettől eltérő tényezők okozzák; például a szekvenciák bemeneti sorrendjéből eredő különbségek lehetséges beillesztése vagy bizonyos kulcsszekvenciák jelenléte vagy hiánya a különböző részmintákon belül (2e ábra). Ez a megfigyelés az al érzékenységéből eredhet a bemeneti szekvenciák sorrendjében, ami különböző klaszterezési mintákat eredményezne. Az AL használatakor 804 Otu (FDR korrekció után) és 5 Otu (Bonferroni korrekció után) különbözőképpen volt ábrázolva a két mintavételi mélységben.

a mohó fürtözés, mint például az USEARCH-ben megvalósított, egy másik általánosan használt de novo fürtözési módszer, amely számítási szempontból hatékonyabb, mint a CL, SL és AL. Mohó fürtözés használatakor egy szekvenciának az adott OTU-ban fürtözendő egyetlen OTU-centroid távolsági küszöbén belül kell lennie. Ezenkívül a szekvenciák meghatározott sorrendben kerülnek feldolgozásra, és minden lekérdezési szekvenciát vagy egy meglévő OTU-hoz rendelnek, vagy egy új OTU centroidjaként. Ha egy lekérdezési szekvencia több létező OTU-centroid távolságküszöbén belül van, akkor a legközelebbi centroidhoz (itt távolságalapú kapzsi fürtözésnek (DGC)) vagy a leggyakoribb centroidhoz (itt bőség-alapú kapzsi fürtözésnek (AGC)) rendelhető (további fájl 1). Alternatív megközelítések léteznek az ilyen kapcsolatok megszakítására; azonban, úgy döntöttünk, hogy összpontosítunk azokra, amelyek a leggyakrabban foglalkoztatottak. Jelen tanulmányban az USEARCH-et a mohó klaszterezés módszereként értékeljük (az UPARSE-t nem értékeltük, mert annak fürtözési algoritmusa megegyezik az USEARCH-ben használtal).

az OTU instabilitása szintén problémát jelent a kapzsi klaszterezési módszerekben, és több forrásból származik. Először is, a centroidok kiválasztása nagymértékben függ a szekvenciák feldolgozásának sorrendjétől. Ezért a minta méretének megváltoztatásakor a szekvenciák sorrendje is megváltozhat. Másodszor, a DGC használatakor, még akkor is, ha a centroidok kiválasztása stabil marad a minta méretének növelésekor, a hozzáadott szekvenciák új centroidokká válhatnak, és vonzzák a meglévő Otu-k tagjait (ez általában nem történik meg az AGC-ben). Képzeljük el például, hogy S10, S11 és S12 OTU7-et alkot,S10-et pedig centroidként (3a., b. ábra). Ha egy későbbi szekvenálás során egy másik szekvencia, az S13 kerül hozzáadásra, akkor a nagyobb minta feldolgozási sorrendje S10, S13, S11 és S12 lehet. Ebben az esetben az S10 továbbra is centroid lesz, de az S13 is centroid lesz. Az S13 ezután felveszi az S11-et, mivel a kettő közötti távolság kisebb, mint az S11 és az S10 közötti távolság. A DGC – ben az S11 végül az S13-Mal csoportosul az S10 helyett, az eredeti OTU7 pedig OTU8-ra és OTU9-re oszlik (3a ábra). Az AGC – ben az S11 továbbra is az S10-gyel fog klaszterezni, az eredeti OTU7 pedig megtartja eredeti szerkezetét (3b ábra).

ábra 3
3. ábra

az unstable distance-based greedy clustering (DGC) és az abundance-based greedy clustering (AGC), a rarefaction curves és a Bray-Curtis távolságon alapuló PCoA alapelvei. a, b) az instabil DGC (a) és AGC (b) alapjául szolgáló elvek két mintavételi mélységben. A fehér körök az egyes szekvenciákat jelzik, amelyek mind a kicsi, mind a nagy részmintákban szerepeltek, a sötét körök pedig azokat a szekvenciákat jelzik, amelyeket csak a nagy részmintában adtak hozzá. A sárga pontok az OTU centroidokat jelzik. A vonalak a küszöbértékkel egyenlő vagy annál kisebb távolságú szekvenciapárokat jelölnek, amelyek ezért egyetlen OTU-ba kapcsolhatók. A piros vagy kék színű nagy körök az OTUs-t jelzik a kicsi, illetve a nagy részmintákban. (c, d) a DGC (c) és AGC (d) öt különböző mélységben létrehozott ritkítási görbék. (e, f) PCoA a Bray-Curtis távolság alapján, 60% – os részmintákat összehasonlítva a teljes adatkészletekkel AGC (e) és DGC (f) használatával. Az összes részmintát ritkítottuk 30 000 szekvenciára mintánként, hogy szerepeljen ebben az elemzésben.

mohó klaszterezést használtunk az alfa-ritkítási görbéken és a béta-Sokszínűségi PCoA-n, hogy elemezzük az instabil Otu-k által generált hatásokat. Mint fentebb említettük, a DGC és az AGC egyaránt szenved a centroid változékonyságtól (ez a hatás nem torzul az OTU felosztása vagy egyesítése felé), és a DGC emellett szenved a meglévő Otu-k felosztásától. Ennek eredményeként a DGC és a CL klaszterezés hasonló görbéket eredményezett, amelyek meredekebbé váltak az alminták méretének növekedésével (3C ábra). Ezzel szemben az AGC átfedő görbéket készített, amelyeket a mélység nem befolyásolt (3D ábra). Azonban, mint az AL klaszterezésnél, ez nem azt jelenti, hogy az Otu-k stabilak voltak, hanem csak azt, hogy hasonló számú (esetleg eltérő) Otu-t kaptunk a különböző részmintavételi mélységekben. A béta-sokféleség DGC és AGC hatásbecslésében előállított instabil Otu-k (3e., f. ábra). Az AGC esetében 392 Otu-t (az FDR korrekció után) és 14 Otu-t (a Bonferroni korrekció után) határoztunk meg a két mélységben, és a DGC esetében ezek a számok 370, illetve 15 voltak.

az instabil módszerek közötti különbségek számszerűsítéséhez összehasonlítottuk az instabil szekvenciák és az instabil Otu-k arányát (4a., b. ábra; kiegészítő fájl 6: S1 táblázat). 22%), míg az AL (13%) és az AGC (12%) valamivel jobban teljesített, mint az SL (15%) és a DGC (14%). Ezek az eredmények nem mindig voltak konzisztensek az alternatív adatkészletek összehasonlításakor (kiegészítő Fájl 7: S6 ábra); az AGC azonban általában a legjobb teljesítményt mutatta a többi de novo módszerhez képest. Az instabil Otu-k esetében a CL és a DGC produkálta az instabil Otu-k legnagyobb arányát: a 10-nél nagyobb vagy azzal egyenlő gyakoriságú centroidokkal rendelkező Otu-k körülbelül 60% – át figyelték meg instabilnak az egyes módszereknél (>90% – ot találtak instabilnak bizonyos adatkészletek elemzése során, amint azt a kiegészítő Fájl 7: S6 ábra mutatja). Az AL és az SL stabilabbak, mint a CL vagy a DGC, de még mindig több mint 30% OTU instabilitást eredményezett a centroidoknál legalább 10 alkalommal. Az AGC – t találták a legstabilabbnak de novo módszer, különösen az erősen bőséges centroidokkal rendelkező OTUs-ok esetében.

ábra 4
4. ábra

az instabil szekvenciák aránya, az instabil Otu-k aránya és az egyes módszerek MCC értéke. a) a módszerrel létrehozott instabil szekvenciák aránya. Az instabil szekvenciák olyan szekvenciák, amelyek a 60% – os részmintában egy centroidba vannak csoportosítva, de a 100% – os (teljes) adatkészletben egy másik centroidba vannak csoportosítva. (b) az instabil Otu-k aránya a módszerrel és a klaszter centroidok gyakoriságával létrehozva (a zárt referencia és a dereplikáció értékei nulla, ezért nem szerepelnek ebben az ábrán). Ha EGY OTU azonos volt a 60% – os és 100% – os adatkészletben (kivéve azokat a szekvenciákat, amelyek nincsenek jelen a 60% – os részmintában), akkor stabilnak kell tekinteni. C) az egyes módszerek MCC-értéke. A magasabb értékek nagyobb stabilitásnak felelnek meg.

az egyik de novo klaszterezési módszer, amely stabil Otu-kat eredményez, a dereplikáció vagy azonos hosszúságú szekvenciák klaszterezése (8.kiegészítő fájl: S4a ábra). Mint a zárt referenciájú OTU fürtözésnél, az összes Otu abszolút stabil marad a különböző szekvenálási mélységekben, mert a fürtözést nem befolyásolja a csoportosított szekvenciagyűjtemény összetétele. Ennek eredményeként a dereplikációval előállított ritkítási görbék átfedik egymást a különböző mélységekben (további fájl 8: S4B ábra), és a béta-sokféleséget nem befolyásolja az alminták mérete (további fájl 8: S4C ábra). Sőt, egyetlen OTU-t sem határoztak meg szignifikánsan a két csoport között. Fontos megjegyezni, hogy a dereplikáció nagyon érzékeny a szekvenálási hibából eredő hamis Otu-k azonosítására. A binning OTUs stabilitása miatt átfedő ritkítási görbéket is produkál a különböző mélységekben, jelezve, hogy az instabil OTUs (nem pedig szekvenálási hibák) a nem átfedő ritkítási görbék fő oka. Ezenkívül a dereplikációs módszer stabilitása azt sugallja, hogy a klaszterezés magasabb hasonlósági küszöbértéke csökkentheti az instabil Otu-k előfordulását, mivel a De novo klaszterezési módszerek a hasonlósági küszöb növekedésével jobban hasonlítanak a dereplikációhoz. A gyakorlatban a dereplikációs klaszterezés nagy számú Otu-t eredményez, amelyet számítási szempontból drága a downstream alkalmazása. Így a modern adatkészlet-méretek megakadályozzák, hogy olyan szekvenciákkal dolgozzunk, amelyeket csak lemásoltak. Lehetséges, hogy a jövőbeni módszerek dereplikáción alapuló megközelítéseket használhatnak az OTU instabilitásának problémájának kezelésére. Egy másik szélsőséges példa az összes szekvencia egy OTU-ba csoportosítása, miközben az OTU teljesen stabil marad. Mindazonáltal a dereplikációval ellentétben az Otu-k további elemzésekben is felhasználhatók, mint például az alfa-sokféleség, a béta-sokféleség és a taxonómiai összetétel. Továbbá, az összes szekvencia egyetlen OTU-ba csoportosítása aligha nevezhető ‘fürtözésnek’, és teljesen haszontalan a downstream elemzéshez.

a referencia-alapú módszerek minimalizálják az instabil Otu-k problémáját

az egyik jellemző, hogy minden instabil klaszterezési módszer közös, hogy a klaszterdefiníciók a bemeneti szekvenciáktól függenek. A zárt REFERENCIÁJÚ OTU-klaszterezés egy fő gyakorlati korlátozással elkerüli ezt a függőséget: a zárt referenciájú OTU-klaszterezés során az olvasásokat előre kiszámított centroidok referenciaadatkészletével (például a Greengenes adatbázis ) csoportosítják, és a klaszterezés során nem jönnek létre új centroidok, ami tökéletesen stabil Otu-kat eredményez (5a.ábra). Ennek eredményeként a zárt referenciacsoportosításon alapuló alfa – és béta-sokféleség becsléseket a minták mérete nem befolyásolja (5B., c. Ábra), és egyetlen Otu-t sem állapítottak meg szignifikánsan eltérőnek a két mélység között. A stabil Otu-k előállítása mellett a zárt referenciacsoportosítás számos más kényelmi funkciót is biztosít. Először is, a referenciaszekvenciák nevei univerzális OTU azonosítóként használhatók az önkényesen hozzárendelt nevek használata helyett, megkönnyítve ezzel az Otu-k közvetlen összehasonlítását a tanulmányok között. Másodszor, a különböző marker génrégiókból származó szekvenciaolvasások csoportosíthatók, ha a referenciaadatkészlet teljes hosszúságú marker génekből áll. Végül a zárt hivatkozású fürtözés párhuzamosíthatja az OTU fürtözést a nagy adatkészletek számára. A zárt referenciájú OTU klaszterezés legfőbb korlátja, hogy azokat az olvasásokat, amelyek kívül esnek a hasonlóság küszöbén bármely referenciaközponthoz, elvetik, így csak az adatbázisban már képviselt Otu-k figyelhetők meg. A kanadai talajadatkészlet feldolgozása során a szekvenciák körülbelül 14% – át nem lehetett összehasonlítani a referenciaszekvenciákkal, ezért csoportosítás után elvetették őket. A zárt referenciájú OTU klaszterezés ezen korlátozása triviálissá válhat, mivel a referenciaadatkészletek előrejelzett fejlesztéseit hajtják végre, ami a specifikus kutatási projektekhez szükséges megfelelő referenciákat eredményezi (például a bél mikrobióma) fejlettebbé válnak.

ábra 5
5. ábra

a stabil zárt referencia-klaszterezés, a ritkítási görbék és a Bray-Curtis-távolságon alapuló PCoA alapelvei. a) A stabil zárt referenciacsoportosulás alapelvei két mintavételi mélységben. A fehér körök az egyes szekvenciákat jelzik, amelyek mind a kicsi, mind a nagy részmintákban szerepeltek, a sötét körök pedig azokat a szekvenciákat jelzik, amelyeket csak a nagy részmintában adtak hozzá. A gyémántok referenciaszekvenciákat jeleznek. A vonalak a küszöbértékkel egyenlő vagy annál kisebb távolságú szekvenciapárokat jelölnek, amelyek ezért egyetlen OTU-ba kapcsolhatók. A piros vagy kék színű nagy körök az OTUs-t jelzik a kicsi, illetve a nagy részmintákban. (b) ritkítás görbék generált zárt referencia klaszterezés öt különböző mélységben. C) PCoA a Bray-Curtis távolság alapján, 60% – os részminták összehasonlítása a teljes adatkészletekkel zárt referenciacsoportosítással. Az összes részmintát ritkítottuk 30 000 szekvenciára mintánként, hogy szerepeljen ebben az elemzésben.

a zárt referencia OTU klaszterezés korlátainak leküzdésére nyílt referencia OTU klaszterezés használható. A nyitott referenciacsoportosítás ugyanúgy kezdődik, mint a zárt referenciacsoportosítás, de továbbra is csoportosítja azokat a szekvenciákat, amelyek nem felelnek meg a referenciagyűjteménynek de novo módon. Bár a meglévő de novo klaszterezési módszerek instabil Otu-kat eredményeznek, a nyílt referencia-klaszterezés sokkal stabilabb lehet, mint az ilyen módszerek, mivel sok szekvenciát kezdetben a zárt referencia megközelítés csoportosít. Az OTU stabilitását AGC-vel értékeltük a De novo klaszterezési lépéshez (4a., b., c. Ábra), és sokkal hatékonyabbnak találtuk, mint a de novo módszerek alkalmazása önmagában. Az instabil Otu-k többsége alacsony bőségű szekvenciák voltak, referenciaegyezés nélkül (a szekvenciák kategóriája, amelyet általában hibára hajlamosnak tartanak). Az Open-reference OTU klaszterezés átfedő ritkítási görbéket eredményez (további fájl 9: S5A ábra), annak ellenére, hogy a nyílt reference OTU klaszterezés instabilitása továbbra is befolyásolja a PCoA elemzést (további fájl 9: S5b ábra), a PC és R érték (ADONIS szerint, R = 0,03) alacsonyabb, mint bármely más de novo módszer esetében, csakúgy, mint a két csoportban differenciáltan ábrázolt Otu-k száma (104 Otu az FDR korrekció után és 2 Otu a Bonferroni korrekció után). Összehasonlítottuk a nyílt referencia klaszterezési módszereket más de novo módszerekkel további adatkészleteken, az instabil szekvenciák és az instabil Otu-k arányára összpontosítva, és azt találtuk, hogy ezek az eredmények általában konzisztensek a környezettípusok és a szekvenálási technológiák között (kiegészítő Fájl 7: S6 ábra).

az Otu-k instabilitásának számszerűsítése mellett az MCC indexet használtuk annak vizsgálatára, hogy a szekvenciapárok csoportosítása hogyan változott a teljes adatkészlet csoportosítása alapján a 60% – os részhalmazhoz képest (4b ábra, 6.Kiegészítő fájl: S2 táblázat). Nyilvánvaló, hogy a két referencia-alapú módszer és a dereplikációs klaszterezés a legnagyobb stabilitással rendelkezik ezzel a mutatóval, és hogy az AGC a legstabilabb a De novo klaszterezési módszerek közül (Kruskal-Wallis teszt, P < 0,05). Az AL-nak volt a legalacsonyabb MCC-értéke, ami azt jelzi, hogy sok szekvenciapár csoportosítása megváltozott ennek a módszernek a használatakor. Alternatív megoldásként az SL magasabb MCC értéket eredményezett, mint a legtöbb de novo módszer, beleértve az AL-t és a CL-t. Ennek ellenére az SL magas MCC-értékének egyik oka az, hogy FP-értéke 0 (a kisebb részmintában elválasztott szekvenciákat egy nagyobb részmintában egyetlen OTU-ba egyesítjük, de a fordított helyzet egyáltalán nem fordul elő). Így az OTU egyesülésével kapcsolatos súlyos problémái miatt az SL nem tekinthető sokkal stabilabb módszernek.

a filogenetikai béta-sokféleség mérőszámok minimalizálják az OTU instabilitás hatását

a nem filogenetikai mutatókkal ellentétben, ahol az összes Otu-t egyformán különbözőnek tekintik egymástól, a filogenetikai mutatók, mint például az UniFrac, figyelembe veszik az Otu-k filogenetikai kapcsolatát a minták közötti távolság kiszámításakor. Az instabil OTU klaszterezési módszerek olyan szekvenciákat mozgatnak az Otu-k között, amelyek általában evolúciós szempontból szorosan összefüggenek, így a minták közötti számított távolságnak általában hasonlóbbnak kell maradnia, mint a nem filogenetikai sokféleségi mutatók használata esetén. Újra elemeztük az instabil Otu-k béta-sokféleségre gyakorolt hatását CL, SL, AL, AGC és DGC segítségével az UniFrac távolság alapján (további fájl 10: S7 ábra). Az eredmények azt mutatják, hogy a CL, az AGC és a DGC instabil Otusai minimálisan befolyásolják a béta-sokféleséget az UniFrac távolság alkalmazásával, megerősítve azt a hipotézist, hogy amikor a szekvenciák változnak a szorosan rokon OTUs-ok között ezekkel az instabil módszerekkel, a filogenetikai mutatók toleránsabbak az instabilitással szemben. Ennek ellenére az SL csoportosításban a távoli rokon Otu-k végül egyetlen OTU-ba kapcsolhatók, így a béta-sokféleség még az UniFrac távolság használatakor is befolyásolható. Az AL-ban a fő elválasztást továbbra is a különböző klaszterezési minták okozzák, mint a nem filogenetikai mutatóknál.

You might also like

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.