Scores de qualité (Phred)

Voir aussi
Fichiers FASTQ
La moyenne Q est une mauvaise idée!
Erreurs attendues
Filtrage de qualité

Le score de qualité d’une base, également appelé score Phred ou Q, est une valeur entière représentant la probabilité estimée d’une erreur, c’est-à-dire que la base est incorrecte. Si P est la probabilité d’erreur, alors :

P = 10-Q / 10

Q = -10 log10 (P)

Les scores Q sont souvent représentés par des caractères ASCII. La règle de conversion d’un caractère ASCII en entier varie, voir Options FASTQ pour plus de détails. Les tables de conversion entre les scores Q entiers, les caractères ASCII et les probabilités d’erreur sont présentées dans le tableau ci-dessous ASCII_BASE 33, qui est maintenant presque universellement utilisé, et ASCII_BASE 64 qui est utilisé dans certaines données Illumina plus anciennes.

 Image

Quel genre d’erreur?
Il existe une différence importante entre les scores Q dans les lectures de 454 et Illumina. En effet, 454 ignore la possibilité d’erreurs de substitution et Illumina ignore indels. Avec 454, le score Q est la probabilité estimée que la longueur de l’homopolymère soit fausse, et avec Illumina, le score Q est la probabilité que l’appel de base soit incorrect. Dans le cas d’Illumina, cela est raisonnable car les erreurs indel sont très rares. Mais avec 454, les erreurs de substitution sont assez courantes, se produisant avec une fréquence comparable aux erreurs d’homopolymère. Cela signifie que les scores 454 Q ne sont pas aussi informatifs que les scores Illumina Q, mais restent utiles dans la pratique. Voir Filtrage de qualité pour plus de détails.

Petits scores Q
Notez qu’un score Q de 3 signifie P = 0.5, ce qui signifie qu’il y a 50% de chances que la base soit fausse et que les valeurs inférieures représentent des probabilités d’erreur encore plus élevées. Q = 0 signifie P = 1, c’est-à-dire que l’appel de base est certainement faux, donc cela est rarement utilisé, bien que cela puisse convenir à une base indéterminée (souvent représentée par « N »). Je n’ai jamais vu de fichier FASTQ avec Q = 0, mais comme le format n’est pas standardisé, je ne peux pas en être sûr. La valeur la plus basse habituellement trouvée dans la pratique est Q = 2 (P = 0,63), ce qui signifie que l’appel de base est plus susceptible d’être erroné que correct.

Reconnaissance du format
Les commandes fastx_info et fastq_chars peuvent être utilisées pour déterminer le format. Le paramètre le plus important est ASCI_BASE, qui pour autant que je sache est toujours 33 ou 64. Avec une plage typique de Q2 à Q40, cela donne une plage de valeurs ASCII de 35 à 73 avec ASCII_BASE=33 et de 66 à 104 avec ASCII_BASE=64. Ces plages se chevauchent de ASCII 66 à 73. De plus, les valeurs > Q40 peuvent être produites par certains logiciels de machine et par certains logiciels de post-traitement tels que les assembleurs de lecture appariés. Donc, si nous voyons des valeurs ASCII > 73, cela ne signifie pas nécessairement que nous avons ASCII_BASE = 64, il pourrait s’agir de scores de haute qualité avec ASCII_BASE = 33. Le seul moyen sûr de distinguer avec certitude est de voir les valeurs ASCII < 64, auquel cas nous connaissons ASCII_BASE = 33. Un moyen rapide de vérifier visuellement est de rechercher # et $, ce qui signifie ASCII_BASE = 33 ou des lettres minuscules, ce qui implique probablement ASCII_BASE = 64.

You might also like

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.