Minőség (Phred) pontszámok

Lásd még
FASTQ fájlok
átlagos Q rossz ötlet!
várható hibák
minőségi szűrés

az alap minőségi pontszáma, más néven Phred vagy Q pontszám, egy egész érték, amely a hiba becsült valószínűségét képviseli, azaz hogy az alap helytelen. Ha P a hiba valószínűsége, akkor:

P = 10-Q/10

Q = -10 log10(P)

a Q pontszámokat gyakran ASCII karakterként ábrázolják. Az ASCII karakter egész számra konvertálásának szabálya változik, a részletekért lásd a FASTQ opciókat. Az egész Q pontszámok, az ASCII karakterek és a hiba valószínűségek között konvertáló táblázatokat az alábbi táblázat mutatja ASCII_BASE 33, amelyet ma már szinte általánosan használnak, és ASCII_BASE 64, amelyet néhány régebbi Illumina adatban használnak.

kép

milyen hiba?
fontos különbség van a Q pontszámok között a 454 és az Illumina olvasmányaiban. Valójában a 454 figyelmen kívül hagyja a helyettesítési hibák lehetőségét, az Illumina pedig figyelmen kívül hagyja az indeleket. 454 esetén a Q pontszám annak a becsült valószínűsége, hogy a homopolimer hossza helytelen, Illumina esetén pedig a Q pontszám annak a valószínűsége, hogy az alaphívás helytelen. Az Illumina esetében ez ésszerű, mert az indel hibák nagyon ritkák. De a 454-nél a helyettesítési hibák meglehetősen gyakoriak, hasonló gyakorisággal fordulnak elő, mint a homopolimer hibák. Ez azt jelenti, hogy a 454 Q pontszámok nem annyira informatívak, mint az Illumina Q pontszámok, de a gyakorlatban még mindig hasznosak. Lásd a minőségi szűrést további megbeszélésekhez.

kis Q pontszámok
vegye figyelembe, hogy a 3-as Q pontszám P=0-t jelent.5, ami azt jelenti, hogy 50% esély van arra, hogy az alap rossz, az alacsonyabb értékek pedig még nagyobb hibalehetőségeket jelentenek. Q=0 azt jelenti P=1, azaz, hogy az alaphívás minden bizonnyal téves, ezért ezt ritkán használják, bár megfelelő lehet egy meghatározatlan bázisra (gyakran ‘N’ – ként ábrázolva). Még soha nem láttam Fastq fájlt Q=0-val, de mivel a formátum nem szabványosított, nem lehetek biztos benne. A gyakorlatban általában a legalacsonyabb érték Q=2 (P=0,63), ami azt jelenti, hogy az alaphívás nagyobb valószínűséggel téves, mint helyes.

a formátum felismerése
a fastx_info és a fastq_chars parancsok használhatók a formátum meghatározására. A legfontosabb paraméter az ASCII_BASE, amely tudomásom szerint mindig 33 vagy 64. Tipikus Q2-Q40 tartomány esetén ez ASCII-értékek tartományát adja 35-től 73-ig ASCII_BASE=33 és 66-tól 104-ig ASCII_BASE=64 esetén. Ezek a tartományok átfedik az ASCII 66 – tól 73-ig. Ezenkívül a >Q40 értékeket előállíthatja néhány gépi szoftver és néhány utófeldolgozó szoftver, például párosított olvasószerelők. Tehát, ha ASCII értékeket látunk >73 ez nem feltétlenül jelenti azt, hogy ASCII_BASE=64 van, ezek magas minőségi pontszámok lehetnek ASCII_BASE=33 esetén. Az egyetlen biztos módja annak, hogy biztosan megkülönböztessük, ha ASCII értékeket látunk < 64, ebben az esetben tudjuk ASCII_BASE=33. A vizuális ellenőrzés gyors módja a # és a $ keresése, ami azt jelenti, hogy ASCII_BASE=33 vagy kisbetűk, ami valószínűleg azt jelenti, hogy ASCII_BASE=64.

You might also like

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.