Jakość (Phred) ocen

Zobacz też
pliki FASTQ
średnie Q to zły pomysł!
oczekiwane błędy
filtrowanie jakości

Wynik Jakości bazy, znany również jako wynik Phred lub q, jest wartością całkowitą reprezentującą szacowane prawdopodobieństwo błędu, tzn. że baza jest nieprawidłowa. Jeśli p jest prawdopodobieństwem błędu, to:

P = 10-Q/10

Q = -10 log10(P)

wyniki Q są często reprezentowane jako znaki ASCII. Reguły konwertowania znaku ASCII na liczbę całkowitą są różne, szczegóły w opcjach FASTQ. Tabele konwertujące między liczbami całkowitymi Q, znakami ASCII i prawdopodobieństwem błędów są pokazane w poniższej tabeli ASCII_BASE 33, który jest obecnie prawie powszechnie używany, oraz ASCII_BASE 64, który jest używany w niektórych starszych danych Illumina.

obrazek

jaki błąd?
istnieje istotna różnica między wynikami Q w odczytach z 454 a Illumina. W efekcie 454 ignoruje możliwość błędów podstawienia, a Illumina ignoruje indele. W przypadku 454 wynik Q jest szacunkowym prawdopodobieństwem, że długość homopolimeru jest nieprawidłowa, a w przypadku Illuminina wynik Q jest prawdopodobieństwem, że wywołanie bazy jest nieprawidłowe. W przypadku Illumina jest to uzasadnione, ponieważ błędy indel są bardzo rzadkie. Ale w przypadku 454 błędy podstawienia są dość powszechne, występujące z porównywalną częstotliwością do błędów homopolimerowych. Oznacza to, że wyniki 454 Q nie są tak pouczające jak wyniki Illumina Q, ale nadal są przydatne w praktyce. Zobacz filtrowanie jakości w celu dalszej dyskusji.

Małe wyniki Q
zauważ, że wynik Q równy 3 oznacza P=0.5, co oznacza, że istnieje 50% szansa, że baza jest błędna, a niższe wartości reprezentują jeszcze większe prawdopodobieństwo błędu. Q = 0 oznacza P=1, tzn. że wywołanie bazy jest z pewnością błędne, więc jest to rzadko używane, choć może być odpowiednie dla nieokreślonej bazy (często reprezentowanej jako „N”). Nigdy nie widziałem pliku FASTQ z Q=0, ale ponieważ format nie jest znormalizowany, nie mogę być pewien. Najniższa wartość zwykle spotykana w praktyce to Q=2 (P=0,63), co oznacza, że wywołanie bazowe jest bardziej błędne niż poprawne.

Rozpoznawanie formatu
polecenia fastx_info i fastq_chars mogą być użyte do określenia formatu. Najważniejszym parametrem jest ascii_base, który z tego co wiem to zawsze 33 lub 64. Przy typowym zakresie od Q2 do Q40 daje to zakres wartości ASCII od 35 do 73 przy ASCII_BASE=33 i od 66 do 104 przy ASCII_BASE=64. Zakresy te pokrywają się od ASCII 66 do 73. Ponadto wartości > Q40 mogą być wytwarzane przez niektóre programy maszynowe i niektóre programy do przetwarzania końcowego, takie jak sparowane asemblery odczytu. Więc jeśli widzimy wartości ASCII > 73 to niekoniecznie oznacza, że mamy ASCII_BASE=64, mogą to być wysokiej jakości wyniki z ASCII_BASE = 33. Jedynym pewnym sposobem rozróżnienia na pewno jest to, że widzimy wartości ASCII < 64, w którym to przypadku znamy ASCII_BASE=33. Szybkim sposobem na wizualne sprawdzenie jest szukanie # i$, co oznacza ASCII_BASE=33 lub małe litery, co prawdopodobnie oznacza ASCII_BASE = 64.

You might also like

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.