TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG ATCTCGTAGCTAGC ATCTCGTAGCTAGCT ATCTCGTAGCTAGCTAC ATCTCGTAGCTAGCTACG ATCTCGTAGCTAGCTACGA ATCTCGTAGCTAGCTACGAC ATCTCGTAGCTAGCTACGACG ATCTCGTAGCTAGCTACGACGT ATCTCGTAGCTAGCTACGACGTC ATCTCGTAGCTAGCTACGACGTCT ATCTCGTAGCT Cromatograma AGCTACGACGTCTAGCAGCATCAGCTATGCATCT PHRED A cada base é atribuída uma chance de erro da nomeação 1% = 0,01 = = PHRED 20 (qualidade)
Início Fim $phred –id chromat_dir –p –trim_alt –trim_cutoff seqüências de pUC18 (MegaBACE, single pool) ACGATCGTACGTACTACGATCGTATGCTATCGGCAGTTGCATCGTTAGCTGTATGCCT Seq: tgcatttcgacagaattgacttcagccgacaaaccttgcgga-caaaagtgacgaccata 648 |||||||||||||| |||||||||| |||||||||||||||| ||||||||||||||||| pUC18: tgcatttcgacagacttgacttcag-cgacaaaccttgcggaccaaaagtgacgaccata 859 Alinhamento com pUC18 (SWAT) Banco de dados de erros (Pearl, MySQL) trocainserçãodeleção 3%
Nomeação de bases em seqüências de DNA por PHRED: análise do padrão de erros Francisco, Fabiano e Miguel LCC-CENAPAD A T G C BIOINFORMÁTICA UFMG
Para as bases com um dado valor de PHRED: -Erro esperado (valor de PHRED e n° de bases) -Erro observado 35% das bases
Tipos de erro por valor de PHRED: -Troca: prevalece nos menores valores de PHRED -Deleção: erros na região de alta qualidade -Inserção: erros menos freqüentes
Qualidade média na vizinhança do erro: -Erros estão em região de escore muito similar -Deleção:vizinhança de maior qualidade -Troca: vizinhança de menor qualidade (suave viés)
Conclusões: Erros tendem a ser subestimados em bases com alta qualidade (20 ou superior) Trocas e deleções prevalecem em regiões de baixa e alta qualidade, respectivamente Não se consegue antever qual é a base errada Perspectivas: Resultados preliminares indicam que baixos valores de escore podem antever janelas onde os erros ocorrem A C G t G X T C C T G