stabilitatea unităților taxonomice operaționale: o proprietate importantă, dar neglijată pentru analiza diversității microbiene

schimbarea apartenenței la Otu la diferite adâncimi de secvențiere (instabilitate OTU) – o proprietate neglijată, dar importantă pentru analizele diversității microbiene

pentru a ilustra problema creată de Otu instabile, am reprodus curbele de rarefiere care nu se suprapun folosind același set de date (Canada soil dataset) și aceeași metodă de clustering (clustering de legătură completă, denumită CL clustering) folosită de Roesch și colab. (Figura 1a). Am subeșantionat aleatoriu secvențele brute la patru adâncimi de secvențiere(20%, 40%, 60%, și 80% din secvențele de intrare) folosind 30 de replici din fiecare. Apoi am folosit clustering complete linkage (CL) pentru a grupa fiecare dintre subeșantioane (definițiile tuturor metodelor de clustering pot fi găsite în fișierul suplimentar 1) și a generat curbe de rarefiere pentru fiecare adâncime de eșantionare. În cazul grupării CL, curba de rărire produsă de un subeșantion mai mare este mai abruptă decât cea produsă de un subeșantion mai mic.

un obiectiv atunci când generăm curbe de rarefiere este de a sprijini interpolarea, ceea ce înseamnă că, dacă creăm o curbă de rarefiere dintr-un set complet de date, am dori să folosim acea curbă pentru a determina câte specii ar fi observate pentru un număr de secvențe care se ridică la mai puțin decât totalul. De exemplu, când interpolăm din curba de rărire creată dintr-un set de date complet, estimăm că avem aproximativ 4.500 de specii dacă selectăm aleatoriu 30.000 de secvențe din setul de date complet (punctul A din Figura 1a). Problema pe care curbele de rarefiere care nu se suprapun o prezintă pentru interpolare este totuși că, dacă am subeșantiona aleatoriu 30.000 de secvențe dintr-un subeșantion de 80% din setul complet de date, am estima că doar 4.200 de specii sunt reprezentate de aceste 30.000 de secvențe (punctul B din Figura 1a). Acest scenariu ar fi în esență adevărat în cazurile în care au fost colectate doar câteva secvențe pe eșantion, fenomen care intră în conflict cu comportamentul așteptat al curbelor de rarefiere.

am observat că non-suprapunerea curbelor de rărire, așa cum este ilustrat în figura 1a, este de fapt cauzată de instabilitatea metodelor de clustering OTU. Cu alte cuvinte, clusterul căruia i se atribuie o secvență poate fi afectat de numărul de secvențe grupate. O ilustrare a acestei ipoteze este prezentată în figura 1b. dacă observăm doar două secvențe, S1 și S2, în pragul de similitudine (indicat prin legarea cu o bară), acestea sunt grupate într-un singur OTU (OTU1). Apoi adăugăm încă trei secvențe, S3, S4 și S5, care ar putea fi legate de S1 sau de S2, dar mai multe distanțe pereche depășesc pragul (aceste perechi nu sunt legate prin bare). Prin definiția CL, distanțele pereche pentru toate secvențele atribuite unui singur OTU trebuie să se încadreze în pragul distanței , ceea ce ar putea permite separarea S1 și S2 în OTU2 și OTU3. OTU1 dispare la această adâncime de secvențiere, iar secvențele sale sunt reatribuite la două Otu diferite, ilustrând problema instabilității OTU. Teoretic, adăugarea mai multor secvențe tinde să împartă Otu-urile existente atunci când se utilizează algoritmul CL. Ca urmare, atunci când sunt grupate cu un set de date mai mare față de un set de date mai mic, aceleași secvențe vor fi grupate în mai multe Otu-uri. Acest lucru va duce la o abruptă a curbei de rărire care este derivată din eșantionul mai mare și la concluzia că are o diversitate Alfa mai mare. Curbele de rarefiere care apar din CL sunt, prin urmare, mai sensibile la adâncimea de secvențiere. Deși acest efect este slab, încă ilustrează parțial de ce, în unele cazuri, colectarea unui număr de secvențe care se bazează pe o dimensiune mai mică a eșantionului ar fi de așteptat să producă o curbă de rărire care ajunge la un platou și, în schimb, se produce o curbă de rărire în continuă creștere. Acest fenomen al unui individ care este atribuit diferitelor Otu-uri pur și simplu din cauza adâncimii de eșantionare crescute sau scăzute este evident problematic. O situație analogă bazată pe ecologia tradițională (la scară macro) ar fi dacă numărarea unui număr diferit de păsări într-o zonă fixă ar duce la redefinirea cărora păsările individuale se grupează ca specie. Cu toate acestea, instabilitatea descrisă mai sus nu se datorează identificării ocazionale a speciilor noi, așa cum ar putea fi cazul în ecologia tradițională. În schimb, aceste modificări ale calității de membru OTU apar sistematic într-o mare parte din secvențele care sunt reatribuite între Otu.

pentru a investiga în continuare efectul OTUs instabil asupra interpretării biologice, am explorat apoi beta-diversitatea folosind hirotonirea. Folosind analiza coordonatelor principale (Pcoa), am comparat comunitățile microbiene cu setul de date complet folosind subeșantioane care cuprind 60% din setul de date complet. Am repetat această subeșantionare de 30 de ori pentru a crea replici. Apoi am folosit clustering CL pentru a grupa toate subeșantioanele, precum și setul complet de date și am combinat rezultatele clusterizării prin secvență Otu reprezentativă (definită ca cea mai abundentă secvență din fiecare OTU). Probele au fost apoi rarefiate aleatoriu pentru a include 30.000 de secvențe pe eșantion, inclusiv cele 30 de rarefacții replicate care au rezultat din gruparea setului complet de date. După rarefiere, toate probele conțineau același număr de secvențe, astfel încât singurele diferențe dintre ele erau numărul de secvențe care au fost inițial grupate. PCoA a demonstrat că aceste probe s-au separat în funcție de numărul de secvențe care au fost inițial grupate, indicând faptul că instabilitatea OTU are ca rezultat aceleași probe care par să aibă compoziții diferite (figura 1C). Un rezultat similar a fost observat atunci când s-au comparat subeșantioanele de 20%, 40% și 80% cu setul complet de date (fișierul suplimentar 2: Figura S1). Mai mult, 125 Otu (după corecția ratei de descoperire falsă (FDR)) și 26 Otu (după corecția Bonferroni) au fost determinate a fi semnificativ diferite între aceste două grupuri folosind testul U Mann-Whitney. De asemenea, am testat efectul pe care Otu-urile instabile îl au asupra calculării compoziției taxonomice și am constatat că efectul este foarte limitat (fișier suplimentar 3: figura S2 și fișier suplimentar 4). Acest lucru se datorează faptului că aceste Otu sunt încă atribuite acelorași taxoni ca o consecință a proximității lor filogenetice, în ciuda faptului că se schimbă atunci când se adaugă mai multe secvențe folosind CL (discutat și mai jos în secțiunea care detaliază toleranța PCoA la utilizarea metricilor filogenetice cu Otu instabile).

metodele alternative de grupare ierarhică și lacomă produc, de asemenea, Otu instabile

toate metodele ierarhice care sunt utilizate pentru a determina apartenența la OTU se bazează pe distanțe pereche între secvențele din Otu. CL clustering necesită distanța pereche între toate secvențele dintr-un OTU pentru a se încadra în pragul distanței. Gruparea cu o singură legătură (SL) necesită distanța pereche dintre orice pereche de secvențe dintr-un OTU pentru a se încadra în pragul distanței. Gruparea medie de legătură (AL) necesită distanțele medii în perechi între toate secvențele dintr-un OTU pentru a se încadra în pragul distanței. Așa cum ar fi de așteptat atunci când se utilizează gruparea SL (figura 2a), Otu-urile tind să fie îmbinate atunci când se adaugă mai multe secvențe, ceea ce este opusul problemei de divizare care se observă cu CL. În consecință, curbele de rarefiere create folosind SL devin mai puțin abrupte pe măsură ce dimensiunea subeșantionului crește (figura 2b). Diversitatea Beta este, de asemenea, afectată de gruparea SL instabilă a Otu (figura 2c). De exemplu, 167 Otu (după corecția FDR) și 36 Otu (după corecția Bonferroni) au fost determinate a fi reprezentate diferențiat atât în cadrul subeșantionului de 60%, cât și al setului complet de date.

Figura 2
figura2

principiile care stau la baza grupării unicate instabile (SL), a curbelor de rarefiere și a PCoA pe baza distanței Bray-Curtis. (a) principiile care stau la baza grupării SL instabile la două adâncimi de eșantionare. Cercurile albe indică secvențe individuale care au fost incluse atât în subeșantioanele mici, cât și în cele mari, iar cercurile întunecate indică secvențe care sunt adăugate numai în subeșantionul mare. Liniile indică perechi de secvențe cu distanțe egale sau mai mici decât pragul, care ar putea fi, prin urmare, legate într-un singur OTU. Cercurile mari în roșu sau albastru indică OTUs în subeșantioanele mici și, respectiv, în cele mari. (b, d) curbele de rărire generate cu SL (b) și legătura medie (AL) (d) clustering la cinci adâncimi diferite. (c, e) PCoA pe baza distanței Bray-Curtis, comparând 60% subeșantioane cu seturile de date complete folosind SL (c) și AL (E). Toate subeșantioanele au fost rarefiate la 30.000 de secvențe pe eșantion pentru a fi incluse în această analiză.

instabilitatea produsă de legătura medie este mai complicată, deoarece pot apărea atât divizarea OTU, cât și fuzionarea OTU. Aceste efecte conflictuale conduc la diferențe mai subtile în numărul OTU și curbele de rarefiere rezultate care sunt create cu AL se suprapun la diferite adâncimi (figura 2D). În plus, AL Otu-urile în sine sunt instabile (fișier suplimentar 5: Figura S3) datorită numărului mare de evenimente de divizare și fuziune OTU care au loc. În plus, chiar dacă aceste Otu instabile afectează beta-diversitatea (Adonis, R = 0,16, P = 0,001), separarea majoră în PCoA pare să fie cauzată de alți factori decât dimensiunea eșantionului; de exemplu, posibila includere a diferențelor care rezultă din ordinea de intrare a secvențelor sau prezența sau absența anumitor secvențe cheie în cadrul diferitelor subeșantioane (figura 2e). Această observație poate rezulta din sensibilitatea AL la ordinea secvențelor de intrare, ceea ce ar duce la diferite tipare de grupare. La utilizarea AL, 804 Otu (după corecția FDR) și 5 Otu (după corecția Bonferroni) au fost reprezentate diferențiat pe cele două adâncimi de eșantionare.

clustering Greedy, cum ar fi cea care este implementată în USEARCH, este o altă metodă de clustering de novo utilizată în mod obișnuit, care este mai eficientă din punct de vedere computațional decât CL, SL și AL. Atunci când se utilizează clustering greedy, o secvență trebuie să se afle în pragul distanței unui singur centroid OTU pentru a fi grupat în acel OTU. Mai mult, secvențele sunt procesate într-o ordine definită și fiecare secvență de interogare va fi fie atribuită unui Otu existent, fie ca centroid al unui nou OTU. Dacă o secvență de interogare se află în pragul distanței mai multor centroizi Otu existenți, aceasta poate fi atribuită fie celui mai apropiat centroid (denumit aici clustering greedy bazat pe distanță (DGC)), fie celui mai abundent centroid (denumit aici clustering greedy bazat pe abundență (AGC)) (fișier suplimentar 1). Există abordări Alternative pentru ruperea acestor legături; cu toate acestea, am ales să ne limităm atenția la cele care sunt cele mai frecvent utilizate. În studiul de față, evaluăm USEARCH ca metodă pentru clustering greedy (nu am evaluat UPARSE deoarece algoritmul său de clustering este același cu cel utilizat în USEARCH).

instabilitatea OTU este, de asemenea, o problemă în metodele de grupare lacomi și apare din mai multe surse. În primul rând, alegerea centroidelor depinde în mare măsură de ordinea în care sunt procesate secvențele. Prin urmare, atunci când dimensiunea unui eșantion este modificată, ordinea secvențelor poate fi, de asemenea, modificată. În al doilea rând, atunci când se utilizează DGC, chiar dacă alegerea centroidelor rămâne stabilă atunci când dimensiunea eșantionului este mărită, secvențele adăugate pot deveni centroide noi și pot atrage membri din Otu-uri existente (acest lucru nu se va întâmpla în general în AGC). De exemplu, imaginați-vă că S10, S11 și S12 formează OTU7 cu S10 ca centroid (figura 3a,b). Dacă într-o secvență ulterioară se execută o altă secvență, S13, se adaugă, ordinea de procesare a eșantionului mai mare poate deveni S10, S13, S11 și S12. În acest caz, S10 va fi în continuare un centroid, dar S13 va deveni și un centroid. S13 recrutează apoi S11, deoarece distanța dintre cele două este mai mică decât distanța dintre S11 și S10. În DGC, S11 va ajunge să se grupeze cu S13 mai degrabă decât cu S10, iar OTU7 original va fi împărțit în OTU8 și OTU9 (figura 3a). În AGC, S11 se va grupa în continuare cu S10, iar OTU7 original își va păstra structura inițială (figura 3b).

Figura 3
figura3

principiile care stau la baza clusterului greedy instabil bazat pe distanță (DGC) și clustering greedy bazat pe abundență (AGC), curbele de rarefiere și PCoA bazate pe distanța Bray-Curtis. (a, b) principiile care stau la baza instabilității DGC (a) și AGC (b) la două adâncimi de eșantionare. Cercurile albe indică secvențe individuale care au fost incluse atât în subeșantioanele mici, cât și în cele mari, iar cercurile întunecate indică secvențe care au fost adăugate doar în subeșantionul mare. Punctele galbene indică centroizii OTU. Liniile indică perechi de secvențe cu distanțe egale sau mai mici decât pragul, care ar putea fi, prin urmare, legate într-un singur OTU. Cercurile mari în roșu sau albastru indică OTUs în subeșantioanele mici și, respectiv, în cele mari. (c, d) curbe de rărire generate cu DGC (c) și AGC (d) la cinci adâncimi diferite. (e, f) PCoA pe baza distanței Bray-Curtis, comparând 60% subeșantioane cu seturile de date complete folosind AGC (E) și DGC (f). Toate subeșantioanele au fost rarefiate la 30.000 de secvențe pe eșantion pentru a fi incluse în această analiză.

am folosit clustering greedy pe curbele de rarefiere alfa și pcoa beta-diversitate pentru a analiza efectele generate de Otu instabile. După cum sa menționat mai sus, DGC și AGC suferă de schimbarea centroidului (acest efect nu este părtinitor față de divizarea sau fuzionarea OTU), iar DGC suferă în plus de divizarea Otu-urilor existente. Ca urmare, gruparea DGC și CL a produs curbe similare, care au devenit mai abrupte pe măsură ce dimensiunea subeșantionului a crescut (figura 3c). În schimb, AGC a produs curbe suprapuse care nu au fost afectate de adâncime (figura 3D). Cu toate acestea, ca și în cazul grupării AL, acest lucru nu înseamnă că Otu-urile au fost stabile, ci doar că un număr similar de Otu-uri (posibil diferite) au fost obținute la diferite adâncimi de subeșantionare. Otu instabile produse în estimările efectului DGC și AGC ale beta-diversității (figura 3e,f). În cazul AGC, 392 Otu (după corecția FDR) și 14 Otu (după corecția Bonferroni) au fost determinate a fi reprezentate diferențiat pe cele două adâncimi, iar în cazul DGC, aceste numere au fost 370 și, respectiv, 15.

pentru a cuantifica diferențele dintre aceste metode instabile, am comparat proporția de secvențe instabile și Otu instabile (figura 4a,b; fișier suplimentar 6: tabelul S1). CL a produs cea mai mare proporție de secvențe instabile (aproximativ 22%), în timp ce AL (13%) și AGC (12%) au avut performanțe puțin mai bune decât SL (15%) și DGC (14%). Aceste rezultate nu au fost întotdeauna consecvente atunci când s-a comparat utilizarea seturilor de date alternative (fișier suplimentar 7: Figura S6); cu toate acestea, AGC a demonstrat, în general, cea mai bună performanță față de celelalte metode de novo. Pentru Otu instabile, CL și DGC au produs cea mai mare proporție de Otu instabile: aproximativ 60% din Otu cu centroizi cu frecvențe mai mari sau egale cu 10 au fost observate ca fiind instabile în fiecare dintre metode (>90% s-au dovedit a fi instabile la analizarea anumitor seturi de date, așa cum se arată în fișierul suplimentar 7: Figura S6). AL și SL sunt mai stabile decât CL sau DGC, dar totuși au dus la o instabilitate OTU mai mare de 30% pentru centroizi observată de cel puțin 10 ori. AGC s-a dovedit a fi cea mai stabilă metodă de novo, în special pentru OTUs cu centroizi foarte abundenți.

Figura 4
figura4

proporția secvențelor instabile, proporția Otu-urilor instabile și valoarea MCC a fiecărei metode. (a) proporția secvențelor instabile create prin metodă. Secvențele instabile sunt definite ca secvențe care sunt grupate la un centroid în subeșantionul 60%, dar grupate la un centroid diferit în setul de date 100% (complet). (b) proporția de Otu instabile, astfel cum a fost creată prin metoda și prin frecvența centroidelor cluster (valorile pentru referință închisă și dereplicare sunt zero și, prin urmare, nu sunt incluse în această figură). Dacă un OTU a fost identic în seturile de date de 60% și 100% (fără a include secvențe care nu sunt prezente în subeșantionul de 60%), acesta este definit ca stabil. (c) valoarea MCC a fiecărei metode. Valorile mai mari corespund unei stabilități mai mari.

o metodă de grupare de novo care produce Otu-uri stabile este dereplicarea sau gruparea secvențelor identice și de lungime egală (fișier suplimentar 8: figura S4A). Ca și în cazul grupării OTU cu referință închisă, toate Otu-urile rămân absolut stabile pe diferite adâncimi de secvențiere, deoarece gruparea nu este afectată de compoziția colecției de secvențe grupate. Drept urmare, curbele de rarefiere produse folosind dereplicare se suprapun pe diferite adâncimi (fișier suplimentar 8: Figura S4b), iar beta-diversitatea nu este afectată de dimensiunea subeșantioanelor (fișier suplimentar 8: figura S4C). Mai mult, nici un singur OTU nu este determinat să fie semnificativ diferit între cele două grupuri. Este important să rețineți că dereplicarea este extrem de vulnerabilă la identificarea Otu-urilor false care rezultă din eroarea de secvențiere. Datorită stabilității sale în binning Otu, produce, de asemenea, curbe de rărire suprapuse pe diferite adâncimi, indicând faptul că Otu instabile (mai degrabă decât erorile de secvențiere) sunt principala cauză a curbelor de rărire care nu se suprapun. În plus, stabilitatea metodei de dereplicare sugerează că un prag de similitudine mai mare pentru clustering poate reduce apariția Otu instabile, deoarece metodele de clustering de novo devin mai asemănătoare cu dereplicarea pe măsură ce pragul de similitudine crește. În practică, gruparea de dereplicare produce un număr mare de Otu-uri, ceea ce este costisitor din punct de vedere al calculului pentru a fi angajat în aval. Astfel, dimensiunile moderne ale seturilor de date ne împiedică să lucrăm cu secvențe care au fost doar dereplicate. Este posibil ca metodele viitoare să utilizeze abordări bazate pe dereplicare pentru a gestiona problema instabilității OTU. Un alt exemplu extrem ar fi gruparea tuturor secvențelor într-un singur OTU, în timp ce OTU rămâne absolut stabil. Cu toate acestea, spre deosebire de dereplicare, Otu-urile pot fi utilizate în analize suplimentare, cum ar fi alfa-diversitatea, beta-diversitatea și compoziția taxonomică. În plus, gruparea tuturor secvențelor într-un singur OTU nu poate fi numită ‘grupare’ și este complet inutilă pentru analiza din aval.

metodele bazate pe referință minimizează problema Otu-urilor instabile

o caracteristică pe care toate metodele de clustering instabile o au în comun este că definițiile clusterului depind de secvențele de intrare. Gruparea OTU cu referință închisă evită această dependență cu o limitare practică majoră: în timpul grupării OTU cu referință închisă, citirile sunt grupate împotriva unui set de date de referință (de exemplu, baza de date Greengenes ) de centroizi precalculați și nu se creează centroizi noi în timpul grupării, ceea ce duce la Otu-uri perfect stabile (figura 5a). Ca urmare,estimările de diversitate alfa și beta bazate pe clusterizarea de referință închisă nu sunt afectate de mărimea probelor (figura 5b, c) și nu se determină diferențe semnificative între cele două adâncimi. În plus față de producerea de Otu-uri stabile, clustering-ul de referință închis oferă alte câteva caracteristici convenabile. În primul rând, numele secvențelor de referință pot fi utilizate ca identificatori OTU universali, mai degrabă decât folosind nume atribuite arbitrar, facilitând astfel compararea directă a Otu-urilor între studii. În al doilea rând, secvențele citite din diferite regiuni ale genelor marker pot fi grupate împreună dacă setul de date de referință constă din gene marker de lungime întreagă. În cele din urmă, gruparea de referință închisă poate paraleliza gruparea OTU pentru seturi de date mari. Limitarea majoră a grupării OTU de referință închisă este aceea că citirile care se află în afara pragului de similitudine cu orice centroizi de referință sunt aruncate, astfel încât numai Otu-urile care sunt deja reprezentate în baza de date pot fi observate. În procesarea setului de date Canada soil, aproximativ 14% din secvențe nu au putut fi corelate cu secvențele de referință și, prin urmare, au fost eliminate după grupare. Această limitare a clusterizării OTU cu referință închisă poate deveni banală, deoarece îmbunătățirile proiectate sunt aduse seturilor de date de referință, conducând referințele corespunzătoare necesare pentru proiecte de cercetare specifice (de exemplu, microbiomul intestinal) să devină mai dezvoltate.

Figura 5
figura5

principii care stau la baza clusterizării stabile cu referință închisă, a curbelor de rarefiere și a PCoA pe baza distanței Bray-Curtis. (a) principiile care stau la baza clusterizării stabile de referință închisă la două adâncimi de eșantionare. Cercurile albe indică secvențe individuale care au fost incluse atât în subeșantioanele mici, cât și în cele mari, iar cercurile întunecate indică secvențe care au fost adăugate doar în subeșantionul mare. Diamantele indică secvențe de referință. Liniile indică perechi de secvențe cu distanțe egale sau mai mici decât pragul, care ar putea fi, prin urmare, legate într-un singur OTU. Cercurile mari în roșu sau albastru indică OTUs în subeșantioanele mici și, respectiv, în cele mari. (b) curbele de rarefiere generate cu clustere de referință închise la cinci adâncimi diferite. (c) PCoA pe baza distanței Bray-Curtis, comparând 60% subeșantioane cu seturile de date complete utilizând gruparea de referință închisă. Toate subeșantioanele au fost rarefiate la 30.000 de secvențe pe eșantion pentru a fi incluse în această analiză.

pentru a depăși limitările grupării Otu cu referință închisă, se poate utiliza gruparea OTU cu referință deschisă. Gruparea cu referință deschisă începe în același mod ca gruparea cu referință închisă, dar continuă să grupeze secvențele care nu se potrivesc cu colecția de referință într-un mod de novo. Deși metodele existente de grupare de novo produc Otu instabile, gruparea cu referință deschisă poate fi mult mai stabilă decât astfel de metode, deoarece multe secvențe sunt inițial grupate prin abordarea cu referință închisă. Am evaluat stabilitatea OTU în clustering de referință deschisă folosind AGC pentru etapa de clustering de novo (figura 4a,b,c) și am constatat că este o metodă mult mai eficientă decât utilizarea metodelor de novo singure. Majoritatea Otu instabile au fost secvențe de abundență scăzută, fără potrivire de referință (o categorie de secvențe care este în mod obișnuit considerată a fi predispusă la erori). Gruparea OTU cu referință deschisă produce curbe de rarefiere suprapuse (fișier suplimentar 9: figura S5a) și chiar dacă instabilitatea grupării OTU cu referință deschisă afectează în continuare analiza PCoA (fișier suplimentar 9: Figura S5b), valoarea PC și R (prin ADONIS, R = 0,03) este mai mică decât în cazul oricărei alte metode de novo, la fel ca și numărul de Otu care sunt reprezentate diferențiat între cele două grupuri (104 Otu după corecția FDR și 2 Otu după corecția Bonferroni). Am comparat metodele de clustering open-reference cu alte metode de novo pe seturi de date suplimentare, concentrându-ne pe proporția de secvențe instabile și Otu instabile și am constatat că aceste rezultate sunt în general consecvente între tipurile de mediu și tehnologiile de secvențiere (fișier suplimentar 7: Figura S6).

în plus față de cuantificarea instabilității Otu, am folosit indicele MCC pentru a investiga modul în care s-a modificat gruparea perechilor de secvențe pe baza grupării setului de date complet față de subsetul 60% (figura 4b, fișier suplimentar 6: tabelul S2). Este clar că cele două metode bazate pe referință și gruparea de dereplicare au cea mai mare stabilitate prin această metrică și că AGC este cea mai stabilă dintre metodele de grupare de novo (testul Kruskal-Wallis, P < 0,05). AL a avut cea mai mică valoare MCC, indicând faptul că gruparea multor perechi de secvențe s-a schimbat atunci când se utilizează această metodă. Alternativ, SL a produs o valoare MCC mai mare decât majoritatea metodelor de novo, inclusiv AL și CL. Cu toate acestea, o parte din motivul valorii MCC ridicate A SL este că valoarea sa FP este egală cu 0 (secvențele care sunt separate într-un subeșantion mai mic vor fi îmbinate într-un singur OTU într-un subeșantion mai mare, dar situația inversă nu se întâmplă deloc). Astfel, datorită problemelor sale grave cu fuzionarea OTU, SL nu ar trebui considerată o metodă mult mai stabilă.

metricile de diversitate Beta filogenetică minimizează efectul instabilității OTU

spre deosebire de valorile non-filogenetice, unde toate Otu sunt considerate la fel de diferite între ele, metricile filogenetice precum UniFrac iau în considerare relația filogenetică dintre Otu la calcularea distanțelor dintre probe. Metodele de clustering Otu instabile vor muta secvențe între Otu-uri care ar fi de obicei strâns legate evolutiv, astfel încât distanța calculată între probe să rămână, în general, mai asemănătoare decât ar fi atunci când se utilizează valori de diversitate non-filogenetică. Am reanalizat efectul Otu-urilor instabile asupra diversității beta folosind CL, sl, al, AGC și DGC pe baza distanței UniFrac (fișier suplimentar 10: figura S7). Rezultatele arată că Otu-urile instabile ale CL, AGC și DGC afectează minim diversitatea beta folosind distanța UniFrac, confirmând ipoteza că atunci când secvențele se schimbă între Otu-uri strâns legate cu aceste metode instabile, valorile filogenetice sunt mai tolerante la acea instabilitate. Cu toate acestea, în gruparea SL, Otu-urile înrudite la distanță pot fi în cele din urmă unite într-un singur OTU, astfel încât diversitatea beta poate fi afectată chiar și atunci când se utilizează distanța UniFrac. În AL, separarea majoră este încă cauzată de diferite tipare de grupare, ca și în cazul valorilor non-filogenetice.

You might also like

Lasă un răspuns

Adresa ta de email nu va fi publicată.