- Změna členství OTUs v různých sekvenování hlubin (OTU nestabilita) – opomíjenou, ale důležitou vlastnost pro analýzy mikrobiální rozmanitost
- Alternativní hierarchické a chamtivý metody shlukování také produkovat nestabilní OTUs
- Referenční metody založené na minimalizaci problému nestabilní OTUs
- Fylogenetický beta-diverzity metriky minimalizovat vliv OTU nestability
Změna členství OTUs v různých sekvenování hlubin (OTU nestabilita) – opomíjenou, ale důležitou vlastnost pro analýzy mikrobiální rozmanitost
Pro ilustraci problému vytvořen nestabilní OTUs, jsme reprodukovat non-překrývající se rarefakční křivky pomocí stejných údajů (Kanada půdy dataset) a stejné shlukovací metody (complete linkage clustering, označované jako CL clustering) zaměstnán Roesch et al. (Obrázek 1a). Náhodně jsme převzorkovali surové sekvence ve čtyřech hloubkách sekvenování(20%, 40%, 60%, a 80% vstupních sekvencí) s použitím 30 replik z každého. Pak jsme se použít kompletní propojení (CL) clustering clusteru každý z dílčích vzorků (definice všechny metody shlukování lze nalézt v Další soubor 1) a generované rarefakční křivky pro každou hloubku odběru vzorků. V případě CL, clustering, rarefakční křivka produkován větší podvzorek je strmější, než že vyrábí menší podvzorek.
Jeden gól při generování rarefakční křivky je podpora interpolace, což znamená, že pokud jsme se vytvořit rarefakční křivky z plné dataset, jsme chtěli použít, že křivky určit, kolik druhů by být pozorována u některých počet sekvencí, které činí méně než celková. Například, když jsme interpolovat z rarefakční křivky vytvořené z úplné sady dat, odhadujeme, že máme přibližně 4500 druhů, pokud budeme náhodně vybrat 30,000 sekvence z úplného souboru údajů (bod A na Obrázku 1a). Problém je, že non-překrývající se rarefakční křivky představují pro interpolace, nicméně, je, že pokud budeme místo toho náhodně subsampled 30,000 sekvence z 80% podvzorek úplný soubor údajů, bychom odhadují, že pouze 4.200 druhů jsou zastoupeny tyto 30,000 sekvence (bod B na Obrázku 1a). Tento scénář by v podstatě být pravda v případech, kdy pouze několik sekvencí byly shromážděny na vzorek, což je jev, který je v rozporu s očekávaným chováním rarefakční křivky.
pozorovali Jsme, že non-překrývání rarefakční křivky, jak je znázorněno na Obrázku 1a, je ve skutečnosti způsobené nestabilitou OTU metody shlukování. Jinými slovy, cluster, kterému je sekvence přiřazena, může být ovlivněn počtem seskupených sekvencí. Ilustraci této hypotézy je na Obrázku 1b. Pokud budeme sledovat pouze dvě sekvence, S1 a S2, v podobnosti práh (označeno propojení s barem), jsou seskupeny do jedné OTU (OTU1). Pak přidáme další tři sekvence, S3, S4 a S5, které by mohly být spojeny s S1 nebo S2, ale několik párových vzdáleností překračuje prahovou hodnotu (tyto páry nejsou spojeny pruhy). Podle definice CL, párové vzdálenosti pro všechny sekvence přiřazené k jednomu OTU musí odpovídat prahu vzdálenosti, což by mohlo umožnit rozdělení S1 a S2 na OTU2 a OTU3. OTU1 zmizí v této hloubce sekvenování a jeho sekvence jsou přeřazeny do dvou různých Otu, což ilustruje problém nestability Otu. Teoreticky, přidání více sekvencí má tendenci rozdělit existující OTUs při použití algoritmu CL. Jako výsledek, když je seskupený s větší dataset versus menší dataset, stejné sekvence budou seskupeny do více OTUs. To bude mít za následek strmosti z rarefakční křivka, která je odvozena od většího vzorku a závěr, že to má vyšší alfa-diverzity. Křivky vzácnosti, které vznikají z CL, jsou proto citlivější na hloubku sekvenování. I když tento účinek je slabý, to ještě částečně ilustruje, proč v některých případech, sběr z řady sekvencí, které je na základě menší velikosti vzorku, se očekává, že produkovat rarefakční křivka, která ustrne, a místo toho se neustále zvyšuje rarefakční křivka je produkován. Tento jev jednotlivce přiřazeného k různým Otu jednoduše kvůli zvýšené nebo snížené hloubce odběru vzorků je zjevně problematický. Analogická situace založené na tradiční (makro-měřítku) ekologie by bylo, kdyby počítání různých počtech ptáků v určité oblasti vedla k vymezení, které jednotlivé skupiny ptáků spolu jako druh. Výše popsaná nestabilita však není způsobena občasnou identifikací nových druhů, jak by tomu mohlo být v tradiční ekologii. Naproti tomu k těmto změnám členství v OTU dochází systematicky v rámci velké části sekvencí, které jsou přeřazeny mezi Otu.
abychom dále zkoumali vliv nestabilního Otu na biologickou interpretaci, zkoumali jsme beta-rozmanitost pomocí ordinace. Pomocí Hlavní Koordinovat Analysis (PCoA), jsme ve srovnání mikrobiální společenství proti celé datové sady pomocí dílčích vzorků, obsahující 60% úplného souboru údajů. Tento dílčí vzorkování jsme opakovali 30krát, abychom vytvořili replikáty. Poté jsme použili clustering CL ke shlukování všech dílčích vzorků i celé datové sady a zkombinovali výsledky shlukování reprezentativní sekvencí OTU (definovanou jako nejhojnější sekvence v každém OTU). Vzorky byly poté náhodně řidší zahrnout 30,000 sekvence za vzorek, včetně 30 replikovat rarefactions, které vyplynuly z shlukování úplný soubor údajů. Po rozředění, všechny vzorky obsahovaly stejné množství sekvencí tak, že jediné rozdíly mezi nimi byl počet sekvencí, které byly původně seskupeny. PCoA prokázala, že tyto vzorky byly odděleny podle počtu sekvencí, které byly původně seskupeny, což naznačuje, že nestabilita OTU má za následek, že stejné vzorky mají odlišné složení (obrázek 1c). Podobný výsledek byl pozorován při srovnání 20%, 40% a 80% dílčích vzorků proti celé datové sady (Další soubor 2: Obrázek S1). Dále bylo stanoveno, že 125 Otu (po korekci FDR) a 26 Otu (po korekci Bonferroni) se významně liší mezi těmito dvěma skupinami pomocí Mann-Whitneyho u testu. Testovali jsme také vliv, který mají nestabilní OTUs na výpočet taxonomického složení, a zjistili jsme, že účinek je velmi omezený (další soubor 3: obrázek S2 a další soubor 4). Je to proto, že tyto OTUs jsou stále přiřazeny do stejné taxony jako důsledek jejich fylogenetická blízkost, a to navzdory skutečnosti, že se mění, když více sekvencí, které jsou přidány pomocí CL (také pojednáno níže v části podrobně tolerance PCoA se pomocí fylogenetických metriky s nestabilní OTUs).
Alternativní hierarchické a chamtivý metody shlukování také produkovat nestabilní OTUs
Všechny hierarchické metody, které se používají k určení OTU členství jsou založeny na párových vzdáleností mezi sekvence v OTUs. Shlukování CL vyžaduje párovou vzdálenost mezi všemi sekvencemi V jednom OTU, aby se vešla do prahu vzdálenosti. Shlukování s jedním spojením (SL) vyžaduje párovou vzdálenost mezi jakoukoli dvojicí sekvencí v jednom OTU, aby se vešla do prahu vzdálenosti. Průměrná vazba (AL) shlukování vyžaduje průměrné párové vzdálenosti mezi všemi sekvencemi V jednom OTU, aby se vešly do prahu vzdálenosti. Jak by se dalo očekávat při použití shlukování SL (obrázek 2a), OTUs mají tendenci být sloučeny, když jsou přidány další sekvence, což je opak problému štěpení, který je pozorován u CL. Proto rarefakční křivky vytvořené pomocí SL stávají méně strmý jako podvzorek velikost zvyšuje (Obrázek 2b). Beta-rozmanitost je také ovlivněna nestabilním shlukováním SL OTUs (obrázek 2c). Například, 167 OTUs (po FDR korekci) a 36 OTUs (po Bonferroniho korekci) byli odhodláni být rozdílně zastoupeny v obou 60% podvzorek a úplný soubor údajů.
nestabilita způsobená průměrnou vazbou je komplikovanější, protože může dojít k rozdělení OTU i sloučení OTU. Tyto protichůdné účinky vedou k jemnější rozdíly v OTU počítá, a výsledné rarefakční křivky, které jsou vytvořeny s AL překrývají v různých hloubkách (Obrázek 2d). Kromě toho jsou samotné AL OTUs nestabilní (další soubor 5: obrázek S3) kvůli velkému počtu událostí rozdělení a sloučení OTU, ke kterým dochází. Navíc, i když tyto nestabilní OTUs vliv beta-diverzitu (Adonis, R = 0.16, P = 0,001), hlavní oddělení v PCoA se zdá být způsobena jinými faktory, než je velikost vzorku; například na možné zařazení rozdíly, které vyplývají ze vstupního pořadí sekvencí nebo přítomnosti nebo nepřítomnosti určitých klíčových sekvencí v rámci různých dílčích vzorků (Obrázek 2e). Toto pozorování může být výsledkem citlivosti AL na pořadí vstupních sekvencí, což by mělo za následek různé shlukovací vzory. Při použití AL bylo 804 OTUs (po korekci FDR) a 5 OTUs (po korekci Bonferroni) odlišně zastoupeno ve dvou hloubkách odběru vzorků.
Chamtivý clustering, jako je ten, který je realizován v USEARCH, je další běžně používané de novo clustering metoda, která je více výpočetně efektivní, než CL, SL, a AL. Při použití greedy shlukování, sekvence musí být v prahu vzdálenosti jednoho Otu těžiště, které mají být seskupeny v tomto OTU. Dále jsou sekvence zpracovány v definovaném pořadí a každá sekvence dotazu bude buď přiřazena existujícímu OTU, nebo jako těžiště nového OTU. Pokud jeden dotaz sekvence je ve vzdálenosti prahu více stávajících OTU centroidy, to může být přiřazen buď nejblíže těžišti (zde odkazoval se na jako vzdálenost, na chamtivý clustering (DGC)) nebo nejhojnější těžiště (zde odkazoval se na jako množství-na základě chamtivý clustering (AGC)) (Další soubor 1). Existují alternativní přístupy k prolomení těchto vazeb; nicméně, rozhodli jsme se omezit naše zaměření na ty, které jsou nejčastěji zaměstnávány. V této studii hodnotíme USEARCH jako metoda pro chamtivý clustering (jsme neměli hodnotit UPARSE, protože jeho clustering algoritmus je stejný jako v USEARCH).
nestabilita OTU je také problémem v chamtivých metodách shlukování a vychází z několika zdrojů. Za prvé, výběr centroidů je velmi závislý na pořadí, ve kterém jsou sekvence zpracovávány. Proto při změně velikosti vzorku může být také změněno pořadí sekvencí. Za druhé, při použití DGC, i když volba centroidů zůstává stabilní, když se zvětší velikost vzorku, přidané sekvence se mohou stát novými centroidy a přilákat členy ze stávajících OTUs (to se obecně nestane v AGC). Představte si například, že S10, S11 a S12 tvoří OTU7 s S10 jako těžiště (obrázek 3a ,b). Pokud se v následném sekvenačním běhu přidá další sekvence, S13, pořadí zpracování většího vzorku se může stát S10, S13, S11 a S12. V tomto případě bude S10 stále těžištěm, ale S13 se také stane těžištěm. S13 pak rekrutuje S11, protože vzdálenost mezi nimi je menší než vzdálenost mezi S11 a S10. V DGC se S11 nakonec shlukuje spíše s S13 než S10 a původní OTU7 bude rozdělen na OTU8 a OTU9 (obrázek 3a). V AGC bude S11 stále shlukovat s S10 a původní OTU7 si zachová svou původní strukturu (obrázek 3b).
použili Jsme chamtiví clusterů na alfa rarefakční křivky a beta-diverzity PCoA analyzovat dopady generované nestabilní OTUs. Jak bylo uvedeno výše, DGC i AGC trpí proměnlivostí středu (tento účinek není zaujatý vůči rozdělení nebo sloučení OTU) a DGC navíc trpí rozdělením existujících OTUs. Jako výsledek, DGC a CL clustering vyrábí podobné křivky, která se stala strmější jako podvzorek velikost zvýšená (Obrázek 3c). Naproti tomu AGC produkovala překrývající se křivky, které nebyly ovlivněny hloubkou (obrázek 3d). Nicméně, stejně jako u AL clustering, to neznamená, že OTUs byly stabilní, ale pouze to, že podobná čísla (případně jiný) OTUs byly získány na různých subsampling hlubin. Nestabilní OTUs produkované v odhadech účinku beta-diverzity DGC a AGC (obrázek 3e, f). V případě AGC, 392 OTUs (po FDR korekci) a 14 OTUs (po Bonferroniho korekci) byli odhodláni být rozdílně zastoupeny po dvou hloubkách, a v případě, DGC, tato čísla byla 370 a 15, resp.
kvantifikovat rozdíly mezi těmito nestabilní metody, jsme porovnávali podíl z nestabilní sekvence a nestabilní OTUs (Obrázek 4a,b; Další soubor 6: Tabulka S1). CL produkován nejvyšší podíl z nestabilní sekvence (přibližně 22%), zatímco AL (13%) a AGC (12%) si vedly o něco lépe než SL (15%) a DGC (14%). Tyto výsledky nebyly vždy konzistentní při porovnávání využívání alternativních datových souborů (Další soubor 7: Obrázek S6); nicméně, AGC obecně prokázal nejlepší výkon oproti ostatním de novo metody. Pro nestabilní OTUs, CL a DGC produkován nejvyšší podíl z nestabilní OTUs: přibližně 60% OTUs s centroidy s frekvencí větší než nebo se rovná 10 byly pozorovány být nestabilní v každé z metod (>90% bylo zjištěno, že nestabilní při analýze některých datových souborech, jak je znázorněno v Další soubor 7: Obrázek S6). AL A SL jsou stabilnější než CL nebo DGC, ale stále vedly k větší než 30% nestabilitě OTU pro centroidy, která byla pozorována alespoň 10krát. Bylo zjištěno, že AGC je nejstabilnější de novo metodou, zejména pro OTUs s vysoce hojnými centroidy.
Jeden de novo clustering metoda, která má produkovat stabilní OTUs je dereplication nebo clustering sekvence, které jsou identické a stejné délky (Další soubor 8: Obrázek S4a). Stejně jako u shlukování Otu s uzavřeným odkazem zůstávají všechny Otu absolutně stabilní v různých hloubkách sekvenování, protože shlukování není ovlivněno složením seskupené kolekce sekvencí. Výsledkem je, že křivky vzácnosti vytvořené pomocí dereplikace se překrývají v různých hloubkách (další soubor 8: Obrázek S4b), a beta-rozmanitost není ovlivněna velikostí dílčích vzorků (další soubor 8: obrázek S4c). Navíc ani jeden OTU není určen k tomu, aby se mezi oběma skupinami významně lišil. Je důležité si uvědomit, že dereplikace je velmi zranitelná při identifikaci falešných OTUs, které jsou výsledkem chyby sekvenování. Vzhledem ke své stabilitě v binning OTUs, ale také vytváří překrývající se rarefakční křivky v různých hloubkách, což znamená, že nestabilní OTUs (spíše než sekvenční chyby) jsou hlavní příčinou non-překrývající se rarefakční křivky. Kromě toho, stabilitu dereplication metoda naznačuje, že vyšší podobnosti práh pro clustering může snížit výskyt nestabilní OTUs, jako de novo metody shlukování se stal více podobný dereplication jako podobnosti práh zvyšuje. V praxi, dereplikace shlukování přináší vysoký počet OTUs, což je výpočetně nákladné zaměstnávat po proudu. Moderní velikosti datových souborů nám tedy brání v práci se sekvencemi, které byly pouze dereplikovány. Je možné, že budoucí metody mohou používat přístupy založené na dereplikaci k řešení problému nestability OTU. Dalším extrémním příkladem by bylo shlukování všech sekvencí do jednoho OTU, zatímco OTU zůstává naprosto stabilní. Nicméně, na rozdíl od dereplikace, OTUs lze použít v dalších analýzách, jako je alfa-rozmanitost, beta-rozmanitost, a taxonomické složení. Kromě toho shlukování všech sekvencí do jednoho OTU lze jen stěží nazvat „shlukováním“ a je zcela zbytečné pro následnou analýzu.
Referenční metody založené na minimalizaci problému nestabilní OTUs
Jeden rys, který všechny nestabilní clustering metody mají společné, je, že cluster definice jsou závislé na vstupních sekvencí. Uzavřená referenční OTU clustering vyhýbá se této závislosti s jedním velkým praktické omezení: při uzavřené referenční OTU clustering, čte se shlukli proti referenční datové sady (například, Greengenes databáze ) pre-vypočteny centroidy a žádné nové centroidy jsou vytvořeny v průběhu shlukování, což má za následek dokonale stabilní OTUs (Obrázek 5a). Jako výsledek, alfa – a beta-diverzity odhady na základě uzavřené referenční clustering nejsou ovlivněny velikosti vzorků (Obrázek 5b,c), a ne OTUs jsou odhodláni být výrazně liší mezi dvěma hloubkami. Kromě výroby stabilního OTUs poskytuje clustering s uzavřeným odkazem několik dalších výhodných funkcí. Za prvé, názvy referenčních sekvencí lze použít spíše jako univerzální identifikátory OTU než jako libovolně přiřazená jména, což usnadňuje přímé srovnání Otu napříč studiemi. Druhý, sekvenční čtení z různých oblastí markerových genů lze seskupit, pokud referenční datová sada sestává z markerových genů po celé délce. Konečně, clustering s uzavřeným odkazem může paralelizovat clustering OTU pro velké datové sady. Hlavním omezením clusteru Otu s uzavřenou referencí je to, že čtení, která jsou mimo práh podobnosti s referenčními centroidy, jsou vyřazena, takže lze pozorovat pouze Otu, které jsou již zastoupeny v databázi.“Při zpracování údajů o půdě v Kanadě nemohlo být přibližně 14% sekvencí porovnáno s referenčními sekvencemi, a proto byly po shlukování vyřazeny. Toto omezení uzavřené referenční OTU clustering může stát triviální, jak se předpokládalo zlepšení jsou vyrobeny, aby referenční datové sady, což vede odpovídající odkazy potřebné pro konkrétní výzkumné projekty (například, střevního mikrobiomu), aby se více vysoce vyvinuté.
překonat omezení plynoucí z uzavřené referenční OTU clustering, open-referenční OTU clustering mohou být použity. Open-reference clustering začíná stejným způsobem jako closed-reference clustering, ale pokračuje shlukovat sekvence, které neodpovídají referenční kolekce v de novo způsobem. Ačkoli stávající de novo shlukování metody produkují nestabilní OTUs, open-referenční shlukování může být mnohem stabilnější než takové metody, protože mnoho sekvencí jsou zpočátku seskupeny uzavřeným přístupem. Hodnotili jsme OTU stabilitu v otevřené referenční clustering pomocí AGC pro de novo clustering krok (Obrázek 4a,b,c) a zjistil, že je to mnohem účinnější metoda než použití de novo metody sám. Většina nestabilních OTUs byla sekvencí s nízkou hojností bez referenční shody(Kategorie sekvencí, která je běžně považována za náchylnou k chybám). Open-referenční OTU shlukování vytváří překrývající se rarefakční křivky (Další soubor 9: Obrázek S5a), a i když nestabilita open-referenční OTU clustering stále ovlivňuje PCoA analýzy (Další soubor 9: Obrázek S5b), PC a hodnota R (ADONIS, R = 0.03) je nižší než u jakékoli jiné de novo metody, jako je počet OTUs, které jsou rozdílně zastoupeny v celé dvou skupin (104 OTUs po FDR korekci a 2 OTUs po Bonferroniho korekce). Jsme ve srovnání open-referenční metody shlukování s jinými de novo metody na další datové sady, se zaměřením na podíl z nestabilní sekvence a nestabilní OTUs a zjistil, že tyto výsledky jsou obecně konzistentní prostředí, typy a technologie sekvencování (Další soubor 7: Obrázek S6).
kromě kvantifikace nestability OTUs, jsme použili MCC index, aby prošetřila, jak clustering sekvence párů změněn na základě shlukování úplný soubor údajů versus 60% podmnožina (Obrázek 4b, Další soubor 6: Tabulka S2). Je jasné, že dvě referenční metody založené a dereplication clustering mají nejvyšší stabilitu tím, že tato metrika a že AGC je nejvíce stabilní de novo metody shlukování (Kruskal-Wallis test, P < 0.05). AL měl nejnižší hodnotu MCC, což naznačuje, že shlukování mnoha párů sekvencí se při použití této metody změnilo. Alternativně SL produkoval vyšší hodnotu MCC než většina de novo metod, včetně AL a CL. Nicméně, jedním z důvodů pro vysokou MCC hodnoty SL je, že jeho FP hodnota se rovná 0 (sekvence, které jsou od sebe odděleny v menší podvzorek budou sloučeny do jednoho OTU ve větší podvzorek, ale naopak situace nestane vůbec). Vzhledem k vážným problémům se sloučením OTU by tedy SL neměla být považována za mnohem stabilnější metodu.
Fylogenetický beta-diverzity metriky minimalizovat vliv OTU nestability
na Rozdíl od non-fylogenetická metriky, kde všechny OTUs jsou považovány za stejně odlišné od sebe navzájem, fylogenetické metriky, jako je UniFrac vzít v úvahu fylogenetický vztah mezi OTUs při výpočtu vzdálenosti mezi vzorky. Nestabilní OTU metody shlukování se bude pohybovat sekvence mezi OTUs, které by obvykle být úzce souvisí evolučně tak, aby vypočtené vzdálenosti mezi vzorky by měly obecně zůstávají více podobné, než by se při použití non-fylogenetická rozmanitost metriky. Znovu jsme analyzovali vliv nestabilního Otu na beta-rozmanitost pomocí Cl, SL, AL, AGC a DGC na základě vzdálenosti UniFrac (další soubor 10: obrázek S7). Výsledky ukazují, že nestabilní OTUs CL, AGC, a DGC minimálně ovlivňují beta-diverzity pomocí UniFrac vzdálenost, což potvrzuje hypotézu, že když sekvence se mění mezi úzce souvisí OTUs s těmito nestabilní metody, fylogenetické metriky jsou více tolerantní na to, že nestabilita. Nicméně, v SL clustering, vzdáleně související Otu mohou být nakonec spojeny do jednoho OTU, takže beta-rozmanitost může být ovlivněna i při použití UniFrac vzdálenosti. V AL, hlavní separace je stále způsobena různými shlukovacími vzory, jako u nefylogenetických metrik.