も参照してください
FASTQファイル
平均Qは悪い考えです!
期待エラー
品質フィルタリング
ベースの品質スコアは、PhredまたはQスコアとも呼ばれ、エラーの推定確率、つまりベースが正しくないことを表す整数値です。
P=10-Q/10
Q=-10log10(P)
Qスコアは、多くの場合、ASCII文字として表されます。 ASCII文字を整数に変換するための規則は異なります。 整数Qスコア、ASCII文字、エラー確率の間で変換する表は、現在ほぼ普遍的に使用されているASCII_BASE33と、いくつかの古いIlluminaデータで使用されているASCII_BASE64の下の表に
どのようなエラーですか?
454とIlluminaからの読み取りのQスコアには重要な違いがあります。 実際には、454は置換エラーの可能性を無視し、Illuminaはindelsを無視します。 4 5 4では、qスコアは、ホモポリマーの長さが間違っていると推定される確率であり、Illuminaでは、Qスコアは、ベースコールが間違っていると推定される確率である。 Illuminaの場合、indelエラーは非常にまれであるため、これは合理的です。 しかし、454では、置換誤差は非常に一般的であり、ホモポリマー誤差に匹敵する頻度で発生します。 これは、454QスコアはIllumina Qスコアほど有益ではありませんが、実際にはまだ有用であることを意味します。 詳細については、”品質フィルタリング”を参照してください。
小さなQスコア
Qスコアが3であることは、P=0を意味することに注意してください。5は、ベースが間違っている可能性が50%であり、値が小さいほどエラーの確率が高くなることを意味します。 Q=0はP=1、つまり基本呼び出しが確かに間違っていることを意味するので、これはほとんど使用されませんが、未決定の基底(しばしば’N’と表されます)に 私はQ=0のFASTQファイルを見たことがありませんが、フォーマットは標準化されていないので、私は確信できません。 通常、実際に見られる最低値はQ=2(P=0.63)であり、これは基本呼び出しが正しいよりも間違っている可能性が高いことを意味します。
フォーマットの認識
fastx_infoおよびfastq_charsコマンドを使用してフォーマットを決定することができます。 最も重要なパラメータはASCII_BASEで、私の知る限りでは常に33または64です。 Q2からQ40までの典型的な範囲では、ASCII_BASE=33では35から73まで、ASCII_BASE=64では66から104までのASCII値の範囲が得られます。 これらの範囲はASCII66から73まで重複しています。 また、値>Q40は、いくつかの機械ソフトウェアおよびペア読み取りアセンブラなどのいくつかの後処理ソフトウェアによって生成されてもよい。 したがって、ASCII_BASE=64であることを必ずしも意味するわけではないASCII値>73が表示された場合、ASCII_BASE=33で高品質のスコアになる可能性があります。 確かに区別する唯一の確実な方法は、ASCII値<64が表示されている場合で、その場合はASCII_BASE=33を知っています。 視覚的にチェックする簡単な方法は、ASCII_BASE=33またはおそらくASCII_BASE=64を意味する小文字を意味する#と$を探すことです。