Ver também
ficheiros FASTQ
média Q é uma má ideia!
erros esperados
filtragem de qualidade
a pontuação de qualidade de uma base, também conhecida como pontuação Phred ou Q, é um valor inteiro representando a probabilidade estimada de um erro, ou seja, que a base é incorreta. Se P é a probabilidade de erro, então:
P = 10-Q/10
Q = -10 log10(P)
q pontuações são frequentemente representadas como caracteres ASCII. A regra para converter um caractere ASCII para um inteiro varia, veja opções FASTQ para detalhes. Tabelas convertendo entre pontuações inteiros Q, caracteres ASCII e probabilidades de erro são mostradas na tabela abaixo ASCII_BASE 33, que agora é quase universalmente usado, e Ascii_base 64, que é usado em alguns dados ilumina mais antigos.
Que tipo de erro?
há uma diferença importante entre pontuações Q em leituras de 454 e ilumina. Com efeito, 454 ignora a possibilidade de erros de substituição e ilumina ignora indels. Com 454, a pontuação Q é a probabilidade estimada de que o comprimento do homopolímero é errado, e com ilumina a pontuação Q é a probabilidade de que a chamada de base é incorreta. No caso da Illumina, isto é razoável porque os erros indel são muito raros. Mas com 454, erros de substituição são bastante comuns, ocorrendo com frequência comparável aos erros homopolímeros. Isto significa que as pontuações de 454 Q não são tão informativas quanto as pontuações de ilumina Q, mas ainda são úteis na prática. Veja filtragem de qualidade para mais discussão.
pontuações Q pequenas
Note que uma pontuação Q de 3 significa P = 0.5, o que significa que há 50% de probabilidade de a base estar errada, e valores mais baixos representam probabilidades ainda maiores de erro. Q = 0 significa P=1, ou seja, que a chamada de base é certamente errada, então isso raramente é usado, embora possa ser apropriado para uma base indeterminada (muitas vezes representada como ‘N’). Eu nunca vi um arquivo FASTQ com Q=0, mas desde que o formato não é padronizado eu não posso ter certeza. O valor mais baixo geralmente encontrado na prática é Q=2( P = 0.63), o que significa que a chamada de base é mais provável estar errada do que correta.
reconhecendo o formato
os comandos fastx_info e fastq_chars podem ser usados para determin o formato. O parâmetro mais importante é ASCII_BASE, que tanto quanto sei é sempre 33 ou 64. Com uma gama típica de Q2 a Q40, isto dá uma gama de valores ASCII de 35 a 73 com ASCII_BASE=33 e de 66 a 104 com ASCII_BASE=64. Estes intervalos sobrepõem-se entre ASCII 66 e 73. Além disso, os valores >Q40 podem ser produzidos por alguns softwares de máquinas e por alguns softwares pós-processamento, tais como Montadores de leitura emparelhados. Então, se vemos valores ASCII > 73 que não significa necessariamente que temos ASCII_BASE = 64, estes podem ser pontuações de alta qualidade com ASCII_BASE=33. A única maneira segura de distinguir com certeza é se vemos os valores ASCII < 64, caso em que conhecemos ASCII_BASE=33. Uma maneira rápida de verificar visualmente é procurar por # e$, o que significa ASCII_BASE=33 ou letras minúsculas que provavelmente implica ascii_base=64.