Calitate (Phred) scoruri

a se vedea, de asemenea,
fișiere FASTQ
medie Q este o idee proastă!
erori așteptate
filtrare de calitate

scorul de calitate al unei baze, cunoscut și sub numele de scor Phred sau Q, este o valoare întreagă reprezentând probabilitatea estimată a unei erori, adică că baza este incorectă. Dacă P este probabilitatea de eroare, atunci:

P = 10-Q/10

Q = -10 log10(P)

scorurile Q sunt adesea reprezentate ca caractere ASCII. Regula pentru Conversia unui caracter ASCII la un număr întreg variază, consultați opțiunile FASTQ pentru detalii. Tabelele care convertesc între scorurile Q întregi, caracterele ASCII și probabilitățile de eroare sunt prezentate în tabelul de mai jos ASCII_BASE 33, care este acum utilizat aproape universal, și ASCII_BASE 64, care este utilizat în unele date Illumina mai vechi.

imagine

ce fel de eroare?
există o diferență importantă între scorurile Q în citirile de la 454 și Illumina. De fapt, 454 ignoră posibilitatea erorilor de substituție, iar Illumina ignoră indels. Cu 454, scorul Q este probabilitatea estimată că lungimea homopolimerului este greșită, iar cu Illumina scorul Q este probabilitatea ca apelul de bază să fie incorect. În cazul Illumina, acest lucru este rezonabil, deoarece erorile indel sunt foarte rare. Dar cu 454, erorile de substituție sunt destul de frecvente, apar cu o frecvență comparabilă cu erorile de homopolimer. Aceasta înseamnă că scorurile 454 Q nu sunt la fel de informative ca scorurile Illumina Q, dar sunt încă utile în practică. Consultați filtrarea calității pentru discuții suplimentare.

scoruri Q mici
rețineți că un scor Q de 3 înseamnă P=0.5, ceea ce înseamnă că există o șansă de 50% ca baza să fie greșită, iar valorile mai mici reprezintă probabilități chiar mai mari de eroare. Q = 0 înseamnă P = 1, adică că apelul de bază este cu siguranță greșit, deci acest lucru este rar folosit, deși ar putea fi adecvat pentru o bază nedeterminată (adesea reprezentată ca ‘N’). Nu am văzut niciodată un fișier FASTQ cu Q=0, dar din moment ce formatul nu este standardizat, nu pot fi sigur. Cea mai mică valoare găsită de obicei în practică este Q=2 (P=0,63), ceea ce înseamnă că apelul de bază este mai probabil să fie greșit decât corect.

recunoașterea formatului
comenzile fastx_info și fastq_chars pot fi utilizate pentru a determina formatul. Cel mai important parametru este ASCII_BASE, care, din câte știu, este întotdeauna 33 sau 64. Cu o gamă tipică de la Q2 la Q40, aceasta oferă o gamă de valori ASCII de la 35 la 73 cu ASCII_BASE=33 și de la 66 la 104 cu ASCII_BASE=64. Aceste intervale se suprapun de la ASCII 66 la 73. De asemenea, valorile >Q40 pot fi produse de unele programe de mașină și de unele programe de post-procesare, cum ar fi asamblorii de citire împerecheați. Deci, dacă vedem valori ASCII >73 asta nu înseamnă neapărat că avem ASCII_BASE=64, acestea ar putea fi scoruri de înaltă calitate cu ASCII_BASE=33. Singura modalitate sigură de a distinge cu siguranță este dacă vedem valori ASCII < 64, caz în care știm ASCII_BASE=33. O modalitate rapidă de a verifica vizual este să căutați # și $, ceea ce înseamnă ASCII_BASE=33 sau litere mici, ceea ce implică probabil ASCII_BASE=64.

You might also like

Lasă un răspuns

Adresa ta de email nu va fi publicată.