Kvalitet (Phred) poäng

Se även
FASTQ filer
Genomsnittlig Q är en dålig ide!
förväntade fel
kvalitetsfiltrering

kvalitetsresultatet för en bas, även känd som en Phred-eller Q-poäng, är ett heltal som representerar den uppskattade sannolikheten för ett fel, dvs att basen är felaktig. Om P är felsannolikheten, då:

P = 10-Q/10

Q = -10 log10(P)

Q-poäng representeras ofta som ASCII-tecken. Regeln för att konvertera ett ASCII-tecken till ett heltal varierar, se FASTQ-alternativ för detaljer. Tabeller som konverterar mellan heltal Q-poäng, ASCII-tecken och felsannolikheter visas i tabellen nedan ASCII_BASE 33, som nu används nästan universellt, och ASCII_BASE 64 som används i vissa äldre Illumina-data.

 bild

vilken typ av fel?
det finns en viktig skillnad mellan Q-poäng i läsningar från 454 och Illumina. I själva verket ignorerar 454 möjligheten till substitutionsfel och Illumina ignorerar indels. Med 454 är Q-poängen den uppskattade sannolikheten för att homopolymerens längd är fel, och med Illumina är Q-poängen sannolikheten för att basanropet är felaktigt. När det gäller Illumina är detta rimligt eftersom indel-fel är mycket sällsynta. Men med 454 är substitutionsfel ganska vanliga och förekommer med jämförbar frekvens med homopolymerfel. Det betyder att 454 Q-poäng inte är lika informativa som Illumina Q-poäng, men är fortfarande användbara i praktiken. Se kvalitetsfiltrering för vidare diskussion.

små Q-poäng
Observera att en Q-poäng på 3 betyder P=0.5, vilket innebär att det finns en 50% chans att basen är fel, och lägre värden representerar ännu högre sannolikheter för fel. Q = 0 betyder P=1, dvs att basanropet verkligen är fel, så det används sällan, men kan vara lämpligt för en obestämd bas (ofta representerad som ’N’). Jag har aldrig sett en FASTQ-fil med Q = 0, men eftersom formatet inte är standardiserat kan jag inte vara säker. Det lägsta värdet som vanligtvis finns i praktiken är Q=2 (P=0,63), vilket innebär att basanropet är mer sannolikt att vara fel än korrekt.

känna igen formatet
fastx_info-och fastq_chars-kommandona kan användas för att bestämma formatet. Den viktigaste parametern är ASCII_BASE, som så vitt jag vet alltid är 33 eller 64. Med ett typiskt intervall från Q2 till Q40 ger detta ett intervall av ASCII-värden från 35 till 73 med ASCII_BASE=33 och från 66 till 104 med ASCII_BASE=64. Dessa intervall överlappar varandra från ASCII 66 till 73. Värden > Q40 kan också produceras av viss maskinprogramvara och av viss efterbehandlingsprogramvara, såsom Parade läsmonterare. Så om vi ser ASCII-värden > 73 betyder det inte nödvändigtvis att vi har ASCII_BASE=64, Det kan vara högkvalitativa poäng med ASCII_BASE=33. Det enda säkra sättet att skilja säkert är om vi ser ASCII-värden < 64, i vilket fall vi vet ASCII_BASE=33. Ett snabbt sätt att kontrollera visuellt är att leta efter # och $, vilket betyder ASCII_BASE = 33 eller små bokstäver som förmodligen innebär ASCII_BASE=64.

You might also like

Lämna ett svar

Din e-postadress kommer inte publiceras.