Siehe auch
FASTQ-Dateien
Durchschnittliches Q ist eine schlechte Idee!
Erwartete Fehler
Qualitätsfilterung
Der Qualitätsfaktor einer Basis, auch als Phred- oder Q-Score bezeichnet, ist ein ganzzahliger Wert, der die geschätzte Wahrscheinlichkeit eines Fehlers darstellt, d. H. dass die Basis falsch ist. Wenn P die Fehlerwahrscheinlichkeit ist, dann:
P = 10-Q/10
Q = -10 log10(P)
Q-Werte werden oft als ASCII-Zeichen dargestellt. Die Regel zum Konvertieren eines ASCII-Zeichens in eine Ganzzahl variiert, siehe FASTQ-Optionen für Details. Tabellen, die zwischen ganzzahligen Q-Werten, ASCII-Zeichen und Fehlerwahrscheinlichkeiten konvertieren, sind in der folgenden Tabelle ASCII_BASE 33, die jetzt fast universell verwendet wird, und ASCII_BASE 64, die in einigen älteren Illumina-Daten verwendet wird, dargestellt.
Welche Art von Fehler?
Es gibt einen wichtigen Unterschied zwischen Q-Scores bei Lesevorgängen von 454 und Illumina. In der Tat ignoriert 454 die Möglichkeit von Substitutionsfehlern und Illumina ignoriert Indels. Bei 454 ist der Q-Score die geschätzte Wahrscheinlichkeit, dass die Länge des Homopolymers falsch ist, und bei Illumina ist der Q-Score die Wahrscheinlichkeit, dass der Basisaufruf falsch ist. Im Falle von Illumina ist dies sinnvoll, da Indel-Fehler sehr selten sind. Bei 454 sind Substitutionsfehler jedoch recht häufig und treten mit vergleichbarer Häufigkeit wie Homopolymerfehler auf. Dies bedeutet, dass 454 Q-Scores nicht so aussagekräftig sind wie Illumina Q-Scores, aber in der Praxis immer noch nützlich sind. Weitere Informationen finden Sie unter Qualitätsfilterung.
Kleine Q-Werte
Beachten Sie, dass ein Q-Wert von 3 P = 0 bedeutet.5, was bedeutet, dass es eine 50% ige Chance gibt, dass die Basis falsch ist, und niedrigere Werte stellen noch höhere Fehlerwahrscheinlichkeiten dar. Q = 0 bedeutet P = 1, dh dass der Basisaufruf sicherlich falsch ist, so dass dies selten verwendet wird, obwohl dies für eine unbestimmte Basis (oft als ‚N‘ dargestellt) geeignet sein könnte. Ich habe noch nie eine FASTQ-Datei mit Q = 0 gesehen, aber da das Format nicht standardisiert ist, kann ich nicht sicher sein. Der niedrigste Wert, der normalerweise in der Praxis gefunden wird, ist Q = 2 (P = 0,63), was bedeutet, dass der Basisaufruf eher falsch als richtig ist.
Erkennen des Formats
Die Befehle fastx_info und fastq_chars können verwendet werden, um das Format zu bestimmen. Der wichtigste Parameter ist ASCII_BASE , der meines Wissens immer 33 oder 64 ist. Mit einem typischen Bereich von Q2 bis Q40 ergibt dies einen Bereich von ASCII-Werten von 35 bis 73 mit ASCII_BASE = 33 und von 66 bis 104 mit ASCII_BASE = 64. Diese Bereiche überlappen sich von ASCII 66 bis 73. Auch Werte >Q40 können durch einige Maschinensoftware und durch einige Nachbearbeitungssoftware wie gepaarte Lese-Assembler erzeugt werden. Wenn wir also ASCII-Werte >73 sehen, bedeutet das nicht unbedingt, dass wir ASCII_BASE=64 haben, dies könnten hohe Qualitätswerte mit ASCII_BASE = 33 sein. Der einzige sichere Weg, um sicher zu unterscheiden, ist, wenn wir ASCII-Werte < 64 sehen, in diesem Fall wissen wir ASCII_BASE=33 . Eine schnelle Möglichkeit, dies visuell zu überprüfen, besteht darin, nach # und $ zu suchen, was ASCII_BASE=33 oder Kleinbuchstaben bedeutet, was wahrscheinlich ASCII_BASE=64 impliziert.