stabilność operacyjnych jednostek taksonomicznych: ważna, ale zaniedbana właściwość do analizy różnorodności drobnoustrojów

Zmiana członkostwa OTUs na różnych głębokościach sekwencjonowania (niestabilność OTU) – zaniedbana, ale ważna właściwość do analizy różnorodności drobnoustrojów

aby zilustrować problem stworzony przez niestabilne OTUs, odtworzyliśmy nie nakładające się krzywe rozrzedzenia przy użyciu tego samego zestawu danych (Canada soil dataset) i tej samej metody klastrowania (complete linkage clustering, dalej clustering) stosowanej przez Roesch et al.. (Rys. 1a). Losowo podgrupowaliśmy surowe sekwencje na czterech głębokościach sekwencjonowania(20%, 40%, 60%, i 80% sekwencji wejściowych) przy użyciu 30 replik każda. Następnie użyliśmy klastrowania complete linkage (CL) do klastrowania każdego z podpróbek (definicje wszystkich metod klastrowania można znaleźć w dodatkowym pliku 1) i wygenerowaliśmy krzywe rozrzedzenia dla każdej głębokości próbkowania. W przypadku klastrowania CL krzywa rozrzedzenia wytwarzana przez większą podpróbkę jest bardziej stroma niż krzywa wytwarzana przez mniejszą podpróbkę.

jednym z celów generowania krzywych rozrzedzenia jest obsługa interpolacji, co oznacza, że jeśli utworzymy krzywą rozrzedzenia z pełnego zbioru danych, chcielibyśmy użyć tej krzywej do określenia, ile gatunków będzie obserwowanych dla pewnej liczby sekwencji, która wynosi mniej niż całkowita. Na przykład, gdy interpolujemy z krzywej rozrzedzenia utworzonej z pełnego zbioru danych, szacujemy, że mamy około 4500 gatunków, jeśli losowo wybierzemy 30 000 sekwencji z pełnego zbioru danych (punkt a na rysunku 1a). Problem, jaki Nie nakładające się krzywe rozrzedzenia stwarzają dla interpolacji, polega jednak na tym, że gdybyśmy zamiast tego losowo podpróbkowali 30 000 sekwencji z 80% podpróbki pełnego zbioru danych, oszacowalibyśmy, że tylko 4 200 gatunków jest reprezentowanych przez te 30 000 sekwencji (punkt B na rysunku 1a). Ten scenariusz byłby zasadniczo prawdziwy w przypadkach, gdy tylko kilka sekwencji zostały zebrane na próbkę, zjawisko, które koliduje z oczekiwanym zachowaniem krzywych rozrzedzenia.

zaobserwowaliśmy, że nie nakładanie się krzywych rozrzedzenia, jak pokazano na rysunku 1a, jest rzeczywiście spowodowane niestabilnością metod klastrowania OTU. Innymi słowy, klaster, do którego przypisana jest sekwencja, może mieć wpływ na liczbę sekwencji grupowanych. Ilustracja tej hipotezy jest pokazana na rysunku 1b. jeśli zaobserwujemy tylko dwie sekwencje, S1 i S2, w granicach progu podobieństwa (wskazanego przez połączenie z kreską), są one grupowane w jeden OTU (OTU1). Następnie dodajemy trzy kolejne sekwencje, S3, S4 i S5, które mogą być połączone z S1 lub S2, ale kilka par odległości przekracza próg (te pary nie są połączone słupkami). Z definicji CL, odległości parowe dla wszystkich sekwencji przypisanych do pojedynczego OTU muszą mieścić się w granicach progu odległości, co może pozwolić na rozdzielenie S1 i S2 na OTU2 i OTU3. OTU1 zanika na tej głębokości sekwencjonowania, a jego sekwencje są przypisywane do dwóch różnych otu, co ilustruje problem niestabilności OTU. Teoretycznie dodawanie kolejnych sekwencji ma tendencję do dzielenia istniejących OTUs przy użyciu algorytmu CL. W rezultacie, gdy jest klastrowany z większym zestawem danych w porównaniu z mniejszym zestawem danych, te same sekwencje będą grupowane w więcej otu. Spowoduje to zwiększenie krzywej rozrzedzenia, która pochodzi z większej próbki i wniosek, że ma większą różnorodność Alfa. Krzywe rozrzedzenia wynikające z CL są zatem bardziej wrażliwe na głębokość sekwencjonowania. Chociaż efekt ten jest słaby, nadal częściowo ilustruje, dlaczego, w niektórych przypadkach, zbieranie wielu sekwencji, które jest oparte na mniejszym rozmiarze próbki można oczekiwać, aby wytworzyć krzywą rozrzedzenia, który osiąga plateau, a zamiast tego stale rosnąca krzywa rozrzedzenia jest wytwarzana. To zjawisko przypisywania jednostki do różnych OTUs po prostu ze względu na zwiększoną lub zmniejszoną głębokość próbkowania jest oczywiście problematyczne. Analogiczną sytuacją opartą na tradycyjnej (w skali makro) ekologii byłoby liczenie różnej liczby ptaków w obrębie ustalonego obszaru, co prowadziłoby do redefinicji, które ptaki grupują razem jako gatunek. Jednak wyżej opisana niestabilność nie wynika z okazjonalnej identyfikacji nowych gatunków, jak to może mieć miejsce w tradycyjnej ekologii. W przeciwieństwie do tego, te zmiany członkostwa w OTU występują systematycznie w dużej części sekwencji przenoszonych między OTUs.

aby dokładniej zbadać wpływ niestabilnej OTUs na interpretację biologiczną, następnie zbadaliśmy beta-różnorodność za pomocą ordynacji. Wykorzystując główną analizę współrzędnych (Pcoa), porównaliśmy społeczności mikrobiologiczne z pełnym zestawem danych, używając podpróbek zawierających 60% pełnego zestawu danych. Powtórzyliśmy to próbkowanie 30 razy, aby stworzyć replikaty. Następnie użyliśmy klastrowania CL do klastrowania wszystkich podpróbek, a także pełnego zestawu danych i połączyliśmy wyniki klastrowania przez reprezentatywną sekwencję OTU (zdefiniowaną jako najbardziej obfita Sekwencja w każdym OTU). Próbki następnie losowo rozrzedzono, aby obejmowały 30 000 sekwencji na próbkę, w tym 30 replikowanych rozrzedzeń, które wynikały z klastrowania pełnego zestawu danych. Po rozrzedzeniu wszystkie próbki zawierały tę samą liczbę sekwencji, tak że jedyną różnicą między nimi była liczba sekwencji, które były początkowo grupowane. PCoA wykazał, że próbki te rozdzielały się zgodnie z liczbą sekwencji, które zostały początkowo zgrupowane, co wskazuje, że niestabilność OTU powoduje, że te same próbki wydają się mieć różne kompozycje (Fig.1C). Podobny wynik zaobserwowano przy porównaniu podpróbek 20%, 40% i 80% z pełnym zestawem danych (dodatkowy plik 2: Rysunek S1). Ponadto, 125 OTUs (po korekcji false discovery rate (FDR)) i 26 OTUs (po korekcji Bonferroni) uznano za znacząco różniące się między tymi dwiema grupami za pomocą testu U Manna-Whitneya. Przetestowaliśmy również wpływ niestabilnego Otusa na obliczanie składu taksonomicznego i stwierdziliśmy, że efekt jest bardzo ograniczony (dodatkowy plik 3: Rysunek S2 i dodatkowy plik 4). Dzieje się tak dlatego, że te OTUs są nadal przypisywane do tych samych taksonów jako konsekwencja ich bliskości filogenetycznej, pomimo faktu, że zmieniają się, gdy więcej sekwencji jest dodawanych za pomocą Cl (również omówione poniżej w sekcji opisującej tolerancję PCoA na używanie metryk filogenetycznych z niestabilnym Otusem).

alternatywne metody hierarchicznego i chciwego grupowania również wytwarzają niestabilne OTUs

wszystkie metody hierarchiczne, które są używane do określenia przynależności OTU, opierają się na parowych odległościach między sekwencjami w OTUs. Klastrowanie CL wymaga parowej odległości między wszystkimi sekwencjami w jednym OTU, aby zmieścić się w progu odległości. Klastrowanie pojedynczego połączenia (SL) wymaga parowej odległości między dowolną parą sekwencji w jednym OTU, aby zmieścić się w progu odległości. Średnie łączenie (AL) grupowanie wymaga średnich par odległości między wszystkimi sekwencjami w jednym OTU, aby zmieścić się w progu odległości. Jak można się spodziewać przy użyciu klastrowania SL (Fig. 2a), OTUs mają tendencję do łączenia się, gdy dodaje się więcej sekwencji, co jest przeciwieństwem problemu dzielenia, który obserwuje się w przypadku CL. W związku z tym krzywe rozrzedzenia utworzone przy użyciu SL stają się mniej strome wraz ze wzrostem rozmiaru podpróbki (rys. 2b). Na różnorodność Beta wpływa również niestabilne klastrowanie SL OTUs (rys. 2C). Na przykład, 167 OTUs (po korekcji FDR) i 36 OTUs (po korekcji Bonferroni) zostały określone jako różnie reprezentowane zarówno w podgrupie 60%, jak i w pełnym zbiorze danych.

Rysunek 2
figurka2

zasady leżące u podstaw klastrowania niestabilnego pojedynczego połączenia (SL), krzywych rozrzedzenia i PCoA w oparciu o odległość Bray ’ a-Curtisa. a) zasady leżące u podstaw niestabilnego grupowania SL na dwóch głębokościach pobierania próbek. Białe kółka wskazują na poszczególne sekwencje, które były zawarte zarówno w małych, jak i dużych podgrupach, a cienie wskazują sekwencje, które są dodawane tylko w dużych podgrupach. Linie oznaczają pary sekwencji o odległościach równych lub mniejszych od progu, które mogą być połączone w jeden OTU. Duże koła w kolorze czerwonym lub niebieskim wskazują OTUs odpowiednio w małych i dużych podgrupach. B, d) krzywe rozrzedzenia generowane za pomocą grupowania SL (b) i średniego połączenia (AL) (d) na pięciu różnych głębokościach. (c, e) PCoA na podstawie odległości Bray-Curtisa, porównując 60% podpróbek z pełnymi zestawami danych przy użyciu SL (c) i AL (e). Wszystkie podgrupy rozrzedzono do 30 000 sekwencji na próbkę, które miały zostać włączone do tej analizy.

niestabilność wytwarzana przez średnie połączenie jest bardziej skomplikowana, ponieważ może wystąpić zarówno rozszczepienie OTU, jak i scalenie OTU. Te sprzeczne efekty prowadzą do bardziej subtelnych różnic w liczbach OTU, a powstałe krzywe rozrzedzenia, które są tworzone z AL, nakładają się na różne głębokości (Rysunek 2D). Ponadto same otu AL są niestabilne (dodatkowy plik 5: Rysunek S3) ze względu na dużą liczbę zdarzeń dzielenia i scalania OTU, które występują. Dodatkowo, nawet jeśli te niestabilne OTUs wpływają na różnorodność beta (Adonis, R = 0,16, P = 0,001), główna separacja w PCoA wydaje się być spowodowana czynnikami innymi niż wielkość próbki; na przykład możliwe włączenie różnic, które wynikają z kolejności wejściowej sekwencji lub obecności lub braku pewnych sekwencji kluczowych w różnych podpróbkach(rysunek 2e). Obserwacja ta może wynikać z wrażliwości AL na kolejność sekwencji wejściowych, co skutkowałoby różnymi schematami grupowania. Przy użyciu AL, 804 OTUs (po korekcji FDR) i 5 OTUs (po korekcji Bonferroni) były różnie reprezentowane na dwóch głębokościach próbkowania.

chciwe klastrowanie, takie jak to, które jest zaimplementowane w USEARCH, jest kolejną powszechnie stosowaną metodą klastrowania de novo, która jest bardziej wydajna obliczeniowo niż CL, SL i Al. W przypadku użycia chciwego grupowania sekwencja musi znajdować się w granicach odległości pojedynczego centroida OTU, aby mogła być zgrupowana w tym OTU. Co więcej, sekwencje są przetwarzane w określonej kolejności, a każda sekwencja zapytań będzie przypisana do istniejącego OTU lub jako centroid nowego OTU. Jeśli jedna sekwencja zapytania mieści się w granicach odległości wielu istniejących centroidów OTU, może być przypisana do najbliższego centroida (tutaj określanego jako chciwe grupowanie oparte na odległości (DGC)) lub najbardziej obfitego centroida (tutaj określanego jako chciwe grupowanie oparte na obfitości (AGC)) (dodatkowy plik 1). Istnieją alternatywne podejścia do zerwania takich więzi, jednak zdecydowaliśmy się ograniczyć naszą uwagę do tych, które są najczęściej stosowane. W niniejszym badaniu oceniamy USEARCH jako metodę chciwego klastrowania (nie oceniliśmy UPARSE ’ a, ponieważ jego algorytm klastrowania jest taki sam jak używany w USEARCH).

niestabilność OTU jest również problemem w metodach grupowania i wynika z kilku źródeł. Po pierwsze, wybór centroidów jest w dużym stopniu zależny od kolejności przetwarzania sekwencji. W związku z tym, gdy zmienia się wielkość próbki, kolejność sekwencji może być również zmieniona. Po drugie, podczas korzystania z DGC, nawet jeśli wybór centroidów pozostaje stabilny, gdy rozmiar próbki jest zwiększany, dodane sekwencje mogą stać się nowymi centroidami i przyciągać członków z istniejących OTUs (na ogół nie nastąpi to w AGC). Na przykład, wyobraźmy sobie, że S10, S11 i S12 tworzą OTU7 z S10 jako centroidem (rysunek 3a, b). Jeśli w kolejnym sekwencjonowaniu zostanie dodana Inna Sekwencja, S13, kolejność przetwarzania większej próbki może wynosić S10, S13, S11 i S12. W tym przypadku S10 nadal będzie centroidem, ale S13 również stanie się centroidem. S13 następnie rekrutuje S11, ponieważ odległość między nimi jest mniejsza niż odległość między S11 i S10. W DGC, S11 zakończy się klastrowaniem z S13 zamiast S10, a oryginalny OTU7 zostanie podzielony na OTU8 i OTU9 (rysunek 3a). W AGC S11 nadal będzie łączyć się z S10, a oryginalny OTU7 zachowa swoją pierwotną strukturę (rysunek 3b).

Rysunek 3
figurka3

zasady leżące u podstaw zachłannego klastrowania opartego na niestabilnej odległości (DGC) i zachłannego klastrowania opartego na obfitości (AGC), krzywe rozrzedzenia i PCoA w oparciu o odległość Bray ’ a-Curtisa. A, b) zasady leżące u podstaw niestabilnych DGC (a) i AGC (B) na dwóch głębokościach pobierania próbek. Białe kółka wskazują na poszczególne sekwencje, które były zawarte zarówno w małych, jak i dużych podgrupach, a cienie wskazują sekwencje, które zostały dodane tylko w dużych podgrupach. Żółte kropki wskazują CENTROIDY OTU. Linie oznaczają pary sekwencji o odległościach równych lub mniejszych od progu, które mogą być połączone w jeden OTU. Duże koła w kolorze czerwonym lub niebieskim wskazują OTUs odpowiednio w małych i dużych podgrupach. C, d) krzywe rozrzedzenia generowane za pomocą DGC (C) i AGC (D) na pięciu różnych głębokościach. (e, f) PCoA na podstawie odległości Bray-Curtisa, porównując 60% podpróbek z pełnymi zestawami danych przy użyciu AGC (e) i DGC (f). Wszystkie podgrupy rozrzedzono do 30 000 sekwencji na próbkę, które miały zostać włączone do tej analizy.

użyliśmy chciwego klastrowania na krzywych Alfa rozrzedzenia i beta-różnorodności PCoA do analizy efektów generowanych przez niestabilne OTUs. Jak wspomniano powyżej, zarówno DGC, jak i AGC cierpią na zmienność centroidów (efekt ten nie jest stronniczy w stosunku do dzielenia lub łączenia OTU), a DGC dodatkowo cierpi na dzielenie istniejących otu. W rezultacie klastry DGC i CL wytworzyły podobne krzywe, które stały się bardziej strome wraz ze wzrostem rozmiaru podpróbki (rysunek 3c). Natomiast AGC wytworzyło krzywe nakładające się na siebie, na które głębokość nie miała wpływu (Rysunek 3d). Jednak, podobnie jak w przypadku klastrowania AL, nie oznacza to, że OTUs były stabilne, a jedynie, że podobne liczby (być może różnych) OTUs uzyskano na różnych głębokościach podpróbkowania. Niestabilne OTUs wytworzone w estymacjach efektów DGC i AGC Beta-różnorodności (Fig. 3e, f). W przypadku AGC, 392 OTUs (po korekcji FDR) i 14 OTUs (po korekcji Bonferroni) zostały określone jako różne reprezentacje na obu głębokościach, a w przypadku DGC liczby te wynosiły odpowiednio 370 i 15.

aby określić ilościowo różnice między tymi niestabilnymi metodami, porównaliśmy proporcję niestabilnych sekwencji i niestabilnych OTUs (rysunek 4a,b; dodatkowy plik 6: tabela S1). CL wytwarzało najwyższy odsetek sekwencji niestabilnych (około 22%), podczas gdy AL (13%) i AGC (12%) osiągały nieco lepsze wyniki niż SL (15%) i DGC (14%). Wyniki te nie zawsze były spójne przy porównywaniu wykorzystania alternatywnych zestawów danych (dodatkowy plik 7: Rysunek S6); jednak AGC ogólnie wykazał najlepszą wydajność w porównaniu z innymi metodami de novo. W przypadku niestabilnych OTUs, CL i DGC wytworzyły najwyższy odsetek niestabilnych OTUs: około 60% OTUs z centroidami o częstotliwościach większych lub równych 10 było niestabilnych w każdej z metod (>90% było niestabilnych podczas analizy niektórych zbiorów danych, jak pokazano w dodatkowym pliku 7: Rysunek S6). AL I SL są bardziej stabilne niż CL lub DGC, ale nadal powodowały większą niż 30% niestabilność OTU dla centroidów, co najmniej 10 razy. AGC okazał się najbardziej stabilną metodą de novo, szczególnie dla OTUs z bardzo obfitymi centroidami.

Rysunek 4
figurka4

proporcja niestabilnych sekwencji, proporcja niestabilnego Otusa i wartość MCC każdej metody. (a) proporcja niestabilnych sekwencji utworzonych metodą. Niestabilne sekwencje definiuje się jako sekwencje, które są grupowane do jednego centroida w podpróbce 60%, ale grupowane do innego centroida w 100% (pełnym) zbiorze danych. B) proporcja niestabilnych OTUs utworzonych metodą i częstotliwością centroidów klastrowych (wartości dla zamkniętego odniesienia i dereplikacji są zerowe i dlatego nie są uwzględnione na tym rysunku). Jeśli OTU był identyczny w zestawach danych 60% i 100% (nie wliczając sekwencji, które nie są obecne w podpróbce 60%), jest definiowany jako stabilny. C) Wartość MCC każdej metody. Wyższe wartości odpowiadają większej stabilności.

jedną z nowych metod klastrowania, która wytwarza stabilne OTUs, jest dereplikacja lub klastrowanie sekwencji, które są identyczne i tej samej długości (dodatkowy plik 8: rysunek S4a). Podobnie jak w przypadku closed-reference OTU clustering, wszystkie otu pozostają absolutnie stabilne na różnych głębokościach sekwencjonowania, ponieważ klastrowanie nie ma wpływu na skład kolekcji sekwencji, która jest klastrowana. W rezultacie krzywe rozrzedzenia wytwarzane za pomocą dereplikacji nakładają się na różne głębokości (dodatkowy plik 8: Rysunek S4b), a na różnorodność beta nie ma wpływu rozmiar podpróbek (dodatkowy plik 8: rysunek S4C). Ponadto nie ustalono, aby ani jedno OTU różniło się znacząco między tymi dwiema grupami. Ważne jest, aby zauważyć, że dereplikacja jest bardzo podatna na identyfikację fałszywych OTUs, które wynikają z błędu sekwencjonowania. Ze względu na stabilność w binowaniu OTUs, tworzy również nakładające się krzywe rozrzedzenia na różnych głębokościach, co wskazuje, że niestabilne OTUs (zamiast błędów sekwencjonowania) są główną przyczyną nie nakładających się krzywych rozrzedzenia. Ponadto stabilność metody dereplikacji sugeruje, że wyższy próg podobieństwa dla grupowania może zmniejszyć występowanie niestabilnego OTUs, ponieważ de novo metody grupowania stają się bardziej podobne do dereplikacji wraz ze wzrostem progu podobieństwa. W praktyce klastrowanie dereplikacji daje dużą liczbę otu, co jest kosztowne obliczeniowo w użyciu. Tak więc, nowoczesne rozmiary zbiorów danych uniemożliwiają nam pracę z sekwencjami, które zostały tylko dereplikowane. Możliwe jest, że przyszłe metody mogą wykorzystywać podejścia oparte na dereplikacji do zarządzania problemem niestabilności OTU. Innym skrajnym przykładem byłoby grupowanie wszystkich sekwencji w jedno OTU, podczas gdy OTU pozostaje absolutnie stabilne. Niemniej jednak, w przeciwieństwie do dereplikacji, OTUs może być wykorzystywany w dalszych analizach, takich jak Alfa-różnorodność, Beta-różnorodność i skład taksonomiczny. Co więcej, grupowanie wszystkich sekwencji w jeden OTU trudno nazwać „grupowaniem” i jest całkowicie bezużyteczne dla dalszej analizy.

metody oparte na referencjach minimalizują problem niestabilnego OTUs

jedną cechą wspólną wszystkich niestabilnych metod klastrowania jest to, że definicje klastrów są zależne od sekwencji wejściowych. Closed-reference OTU clustering unika tej zależności z jednym głównym praktycznym ograniczeniem: podczas closed-reference OTU clustering odczyty są grupowane w stosunku do referencyjnego zbioru danych (na przykład bazy danych Greengenes ) wstępnie obliczonych centroidów, a żadne nowe centroidy nie są tworzone podczas klastrowania, co skutkuje idealnie stabilnym OTUs (Fig.5a). W rezultacie wielkość próbek nie ma wpływu na estymacje alfa – i beta-różnorodności oparte na closed-reference clustering (Fig.5b, c), a żadne OTUs nie są określane jako znacząco różniące się między tymi dwoma głębokościami. Oprócz tworzenia stabilnych OTUs, closed-reference clustering zapewnia kilka innych wygodnych funkcji. Po pierwsze, nazwy sekwencji referencyjnych mogą być używane jako uniwersalne identyfikatory OTU, zamiast używać arbitralnie przypisanych nazw, ułatwiając tym samym bezpośrednie porównanie otu w badaniach. Po drugie, odczyty sekwencji z różnych regionów genów markerowych można grupować razem, jeśli zbiór danych referencyjnych składa się z genów markerowych o Pełnej długości. Wreszcie, closed-reference clustering może parallelizować klastry OTU dla dużych zbiorów danych. Głównym ograniczeniem closed-reference otu klastrowania jest to, że odczyty, które są poza progiem podobieństwa do wszelkich centroidów odniesienia są odrzucane, tak, że tylko otu, które są już reprezentowane w bazie danych mogą być ” obserwowane.”Podczas przetwarzania zbioru danych dotyczących gleby Kanady Około 14% sekwencji nie mogło być dopasowane do sekwencji referencyjnych i dlatego zostały odrzucone po klastrowaniu. To ograniczenie closed-reference otu clustering może stać się trywialne, ponieważ przewidywane ulepszenia są wprowadzane do zestawów danych referencyjnych, prowadząc odpowiednie odniesienia potrzebne do konkretnych projektów badawczych (na przykład mikrobiomu jelitowego), aby stać się bardziej rozwiniętym.

Rysunek 5
figurka5

zasady leżące u podstaw stabilnego closed-reference clustering, krzywe rozrzedzenia i PCoA oparte na odległości Bray-Curtisa. a) zasady leżące u podstaw stabilnego closed-reference clustering na dwóch głębokościach pobierania próbek. Białe kółka wskazują na poszczególne sekwencje, które były zawarte zarówno w małych, jak i dużych podgrupach, a cienie wskazują sekwencje, które zostały dodane tylko w dużych podgrupach. Diamenty wskazują sekwencje odniesienia. Linie oznaczają pary sekwencji o odległościach równych lub mniejszych od progu, które mogą być połączone w jeden OTU. Duże koła w kolorze czerwonym lub niebieskim wskazują OTUs odpowiednio w małych i dużych podgrupach. B) krzywe rozrzedzenia generowane z closed-reference clustering na pięciu różnych głębokościach. c) PCoA w oparciu o odległość Bray ’ a-Curtisa, porównując 60% podpróbek z pełnymi zestawami danych za pomocą zamkniętego klastrowania referencyjnego. Wszystkie podgrupy rozrzedzono do 30 000 sekwencji na próbkę, które miały zostać włączone do tej analizy.

aby przezwyciężyć ograniczenia closed-reference OTU clustering, można użyć open-reference OTU clustering. Open-reference clustering rozpoczyna się w taki sam sposób jak closed-reference clustering, ale kontynuuje grupowanie sekwencji, które nie pasują do zbioru odniesienia w sposób de novo. Chociaż istniejące de novo metody klastrowania wytwarzają niestabilne OTUs, klastry otwarte mogą być znacznie bardziej stabilne niż takie metody, ponieważ wiele sekwencji jest początkowo klastrowanych przez podejście zamknięte. Oceniliśmy stabilność OTU w klastrowaniu otwartym przy użyciu AGC dla etapu klastrowania de novo (Fig. 4a, b, c) i stwierdziliśmy, że jest to znacznie bardziej skuteczna metoda niż stosowanie samych metod de novo. Większość niestabilnych OTUs to sekwencje o niskiej obfitości bez dopasowania referencyjnego (Kategoria sekwencji, która jest powszechnie uważana za podatną na błędy). Otwarte klastrowanie OTU powoduje nakładanie się krzywych rozrzedzenia (dodatkowy plik 9: rysunek S5a) i mimo że niestabilność otwartego klastra OTU nadal wpływa na analizę PCoA (dodatkowy plik 9: S5B), wartość PC i R (według Adonisa, R = 0,03) jest niższa niż w przypadku jakiejkolwiek innej samej metody de novo, podobnie jak liczba OTUs, które są różnie reprezentowane w obu grupach (104 OTUs po korekcji FDR i 2 OTUs po korekcji Bonferroni). Porównaliśmy metody klastrowania open-reference z innymi metodami de novo na dodatkowych zestawach danych, koncentrując się na proporcji niestabilnych sekwencji i niestabilnych OTUs i stwierdziliśmy, że wyniki te są ogólnie spójne we wszystkich typach środowiska i technologiach sekwencjonowania (dodatkowy plik 7: Rysunek S6).

oprócz ilościowego określenia niestabilności OTUs, użyliśmy indeksu MCC do zbadania, w jaki sposób zmieniało się grupowanie par sekwencji w oparciu o grupowanie pełnego zestawu danych w porównaniu z podzbiorem 60% (rysunek 4b, dodatkowy plik 6: tabela S2). Oczywiste jest, że dwie metody oparte na referencjach i grupowanie dereplikacji mają najwyższą stabilność według tego wskaźnika i że AGC jest najbardziej stabilną z metod grupowania de novo (Test Kruskala-Wallisa, P < 0,05). AL miał najniższą wartość MCC, co wskazuje, że klastrowanie wielu par sekwencji zmieniło się podczas stosowania tej metody. Alternatywnie, SL wytworzył wyższą wartość MCC niż większość metod de novo, w tym AL i CL. Niemniej jednak, po części powodem wysokiej wartości MCC SL jest to, że jego wartość FP jest równa 0 (sekwencje, które są oddzielone w mniejszej podgrupie, zostaną połączone w jeden OTU w większej podgrupie, ale odwrotna sytuacja w ogóle się nie dzieje). Tak więc, ze względu na poważne problemy z scalaniem OTU, SL nie powinien być uważany za znacznie bardziej stabilną metodę.

filogenetyczne metryki beta-różnorodności minimalizują efekt niestabilności OTU

w przeciwieństwie do metryki niefilogenetycznej, gdzie wszystkie OTUs są uważane za równie odmienne od siebie, metryki filogenetyczne, takie jak UniFrac, uwzględniają filogenetyczne relacje między OTUs podczas obliczania odległości między próbkami. Niestabilne metody klastrowania OTU będą przenosić sekwencje między OTUs, które zwykle byłyby ściśle powiązane ewolucyjnie, tak że obliczona odległość między próbkami powinna pozostać na ogół bardziej podobna niż przy użyciu niefilogenetycznych metryk różnorodności. Ponownie przeanalizowaliśmy wpływ niestabilnego otu na różnorodność beta przy użyciu CL, SL, AL, AGC i DGC na podstawie odległości UniFrac (dodatkowy plik 10: rysunek S7). Wyniki pokazują, że niestabilne OTUs CL, AGC i DGC minimalnie wpływają na różnorodność beta przy użyciu odległości UniFrac, potwierdzając hipotezę, że gdy sekwencje zmieniają się między blisko spokrewnionymi Otusami z tymi niestabilnymi metodami, metryki filogenetyczne są bardziej tolerancyjne na tę niestabilność. Niemniej jednak, w klastrowaniu SL, odległe pokrewne OTUs mogą ostatecznie zostać połączone w jeden OTU, tak że różnorodność beta może mieć wpływ nawet przy użyciu odległości UniFrac. W AL główny podział jest nadal spowodowany różnymi schematami grupowania, jak w metrykach niefilogenetycznych.

You might also like

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.