Ver también
Archivos FASTQ
¡La Q media es una mala idea!
Errores esperados
Filtrado de calidad
La puntuación de calidad de una base, también conocida como puntuación Phred o Q, es un valor entero que representa la probabilidad estimada de un error, es decir, que la base es incorrecta. Si P es la probabilidad de error, entonces:
P = 10-Q/10
Q = -10 log10(P)
Las puntuaciones Q a menudo se representan como caracteres ASCII. La regla para convertir un carácter ASCII a un entero varía, consulte Opciones FASTQ para obtener más información. Las tablas que convierten entre puntajes enteros Q, caracteres ASCII y probabilidades de error se muestran en la tabla a continuación ASCII_BASE 33, que ahora se usa casi universalmente, y ASCII_BASE 64 que se usa en algunos datos antiguos de Illumina.
¿Qué tipo de error?
Hay una diferencia importante entre las puntuaciones Q en lecturas de 454 e Illumina. En efecto, 454 ignora la posibilidad de errores de sustitución e Illumina ignora indels. Con 454, la puntuación Q es la probabilidad estimada de que la longitud del homopolímero sea incorrecta, y con Illumina, la puntuación Q es la probabilidad de que la llamada base sea incorrecta. En el caso de Illumina, esto es razonable porque los errores indel son muy raros. Pero con 454, los errores de sustitución son bastante comunes, y ocurren con una frecuencia comparable a los errores de homopolímero. Esto significa que las puntuaciones Q de 454 no son tan informativas como las puntuaciones Q de Illumina, pero siguen siendo útiles en la práctica. Consulte filtrado de calidad para más información.
Puntuaciones Q pequeñas
Tenga en cuenta que una puntuación Q de 3 significa P=0.5, lo que significa que hay un 50% de probabilidades de que la base esté equivocada, y los valores más bajos representan probabilidades de error aún más altas. Q = 0 significa P = 1, es decir, que la llamada base es ciertamente incorrecta, por lo que rara vez se usa, aunque podría ser apropiado para una base indeterminada (a menudo representada como ‘N’). Nunca he visto un archivo FASTQ con Q = 0, pero como el formato no está estandarizado, no puedo estar seguro. El valor más bajo generalmente encontrado en la práctica es Q=2 (P = 0.63), lo que significa que la llamada base es más probable que sea incorrecta que correcta.
Reconociendo el formato
Los comandos fastx_info y fastq_chars se pueden utilizar para determinar el formato. El parámetro más importante es ASCII_BASE, que por lo que sé es siempre 33 o 64. Con un rango típico de Q2 a Q40, esto da un rango de valores ASCII de 35 a 73 con ASCII_BASE=33 y de 66 a 104 con ASCII_BASE=64. Estos rangos se superponen de ASCII 66 a 73. Además, los valores > Q40 pueden ser producidos por algún software de máquina y por algún software de posprocesamiento, como ensambladores de lectura emparejados. Así que si vemos valores ASCII > 73 eso no significa necesariamente que tengamos ASCII_BASE = 64, estos podrían ser puntajes de alta calidad con ASCII_BASE = 33. La única forma segura de distinguir es si vemos valores ASCII < 64, en cuyo caso conocemos ASCII_BASE = 33. Una forma rápida de comprobar visualmente es buscar # y$, lo que significa ASCII_BASE=33 o letras minúsculas que probablemente implican ASCII_BASE=64.