Punteggi di qualità (Phred)

Vedi anche
File FASTQ
La Q media è una cattiva idea!
Errori attesi
Filtraggio della qualità

Il punteggio di qualità di una base, noto anche come punteggio Phred o Q, è un valore intero che rappresenta la probabilità stimata di un errore, ovvero che la base non sia corretta. Se P è la probabilità di errore, allora:

P = 10-Q/10

Q = -10 log10(P)

I punteggi Q sono spesso rappresentati come caratteri ASCII. La regola per convertire un carattere ASCII in un numero intero varia, vedere Opzioni FASTQ per i dettagli. Le tabelle che convertono tra punteggi Q interi, caratteri ASCII e probabilità di errore sono mostrate nella tabella seguente ASCII_BASE 33, che ora è quasi universalmente utilizzato, e ASCII_BASE 64 che viene utilizzato in alcuni dati Illumina più vecchi.

 Immagine

Che tipo di errore?
C’è un’importante differenza tra i punteggi Q nelle letture da 454 e Illumina. In effetti, 454 ignora la possibilità di errori di sostituzione e Illumina ignora indels. Con 454, il punteggio Q è la probabilità stimata che la lunghezza dell’omopolimero sia errata e con Illumina il punteggio Q è la probabilità che la chiamata di base non sia corretta. Nel caso di Illumina, questo è ragionevole perché gli errori indel sono molto rari. Ma con 454, gli errori di sostituzione sono abbastanza comuni, che si verificano con frequenza paragonabile agli errori omopolimeri. Ciò significa che i punteggi 454 Q non sono così informativi come i punteggi Illumina Q, ma sono comunque utili nella pratica. Vedere filtro qualità per ulteriori discussioni.

Piccoli punteggi Q
Si noti che un punteggio Q di 3 significa P=0.5, il che significa che c’è una probabilità del 50% che la base sia sbagliata e valori più bassi rappresentano probabilità di errore ancora più elevate. Q = 0 significa P = 1, cioè che la chiamata di base è certamente sbagliata, quindi questo è usato raramente, anche se potrebbe essere appropriato per una base indeterminata (spesso rappresentata come ‘N’). Non ho mai visto un file FASTQ con Q=0, ma dal momento che il formato non è standardizzato non posso essere sicuro. Il valore più basso di solito trovato nella pratica è Q=2 (P=0.63), il che significa che la chiamata di base è più probabile che sia sbagliata che corretta.

Riconoscimento del formato
I comandi fastx_info e fastq_chars possono essere utilizzati per determinare il formato. Il parametro più importante è ASCII_BASE, che per quanto ne so è sempre 33 o 64. Con un intervallo tipico da Q2 a Q40, questo fornisce un intervallo di valori ASCII da 35 a 73 con ASCII_BASE=33 e da 66 a 104 con ASCII_BASE=64. Questi intervalli si sovrappongono da ASCII 66 a 73. Inoltre, i valori > Q40 possono essere prodotti da alcuni software della macchina e da alcuni software di post-elaborazione come assemblatori di lettura accoppiati. Quindi se vediamo valori ASCII > 73 ciò non significa necessariamente che abbiamo ASCII_BASE=64, questi potrebbero essere punteggi di alta qualità con ASCII_BASE=33. L’unico modo sicuro per distinguere con certezza è se vediamo valori ASCII < 64, nel qual caso sappiamo ASCII_BASE=33. Un modo rapido per controllare visivamente è cercare # e$, che significa ASCII_BASE=33 o lettere minuscole che probabilmente implicano ASCII_BASE=64.

You might also like

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.