A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST Candidato: Christian Baudet Orientador: Zanoni Dias.

Apresentações semelhantes


Apresentação em tema: "Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST Candidato: Christian Baudet Orientador: Zanoni Dias."— Transcrição da apresentação:

1 Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST Candidato: Christian Baudet Orientador: Zanoni Dias

2 Tópicos da Apresentação Motivação Trimagem Verificação de contaminação Clusterização Proposta Cronograma

3 Motivação Importância dos projetos de seqüenciamento Projetos EST no Brasil Ausência de metodologia padrão utilizada pelos diferentes projetos Possibilidade de identificação de melhorias a serem feitas nos processos existentes

4 Trimagem Seqüências EST possuem altas taxas de erros Remoção de regiões de: baixa qualidade vetores adaptadores trechos de baixa complexidade

5 Seqüência de bases 1 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG

6 Qualidades das bases 1 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG Baixa Qualidade Alta Qualidade

7 Baixa qualidade Baixa Qualidade Alta Qualidade 1 XXXGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

8 Vetor Baixa Qualidade Alta Qualidade 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

9 Adaptador Baixa Qualidade Alta Qualidade 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

10 Seqüência trimada Baixa Qualidade Alta Qualidade 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

11 Problemas – Trimagem Baixa Qualidade Alta Qualidade 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

12 Problemas – Trimagem 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTXXXXXXXXXXXXXXXXXXXTGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade

13 Verificação de contaminação Seqüências EST comumente sofrem contaminação de diferentes tipos Identificação e remoção de seqüências contaminadas são necessárias para que não sejam geradas informações inválidas sobre o organismo em estudo Métodos de detecção de contaminação: Similaridade Conjunto de características

14 Similaridade Contaminação Determinada por critério pré-definido Exemplo: similaridade de 98% e cobertura mínima de 75 bases BLAST Seqüências de organismos Contaminantes Seqüências a serem verificadas Seqüências contaminadas Seqüências não contaminadas

15 Conjunto de características Outras seqüências Seqüências pertencentes ao organismo Seqüências contaminadas Comparação Extratores de características Assinatura Seqüências de organismos contaminantes Extratores de características Assinatura Seqüências a serem analisadas Extratores de características Assinatura Seqüências conhecidas do organismo alvo

16 Clusterização Necessária para eliminação de redundância e identificação de genes Exemplo: 1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC 5 CGTTAATTGACGACTCTGATATTTACTAAGTTTGAGTTATGGACGA 6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG 7 CAAGTAGCTTTGGTAATCTTCTCAGTACAACCGACCCACCGTTTCAATCTTTGTA 8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA

17 Clusterização Cluster 1 – Tamanho 5 C GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGACGA 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT 6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG 1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT 8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA 5 CGTTAATTGACGACTC*TGATATTTACTAAGTTTGAGTTATGGACGA Cluster 2 – Tamanho 2 C TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATCTTTGTA 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC 7 CAAGTAGCTTTGGTAA*TCTTCTCAGTACAACCGACCCACCGTTTCAA*TCTTTGTA Singleton 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA

18 Clusterização Existência de diversos programas de clusterização: TGICL Phrap TIGR Assembler CAP3 Validação dos resultados obtidos nos processos de trimagem e verificação de contaminação

19 Proposta – Trimagem Estudos de possíveis melhorias nos processos de trimagem existentes Criação de um conjunto de procedimentos padrões Realização de testes para validação do conjunto de procedimentos

20 Proposta – Contaminação Estudo de possíveis melhorias nos critérios de verificação de contaminação existentes Integração entre os métodos de detecção por similaridade e por conjunto de características Definição de um critério que melhor se aplique ao contexto de projetos EST Realização de testes para validação da metodologia

21 Proposta – Clusterização Análise de programas de clusterização e de seus parâmetros Testes para identificação do melhor programa Utilização da clusterização para validação dos métodos desenvolvidos para trimagem e verificação de contaminação

22 Cronograma 1 – Trimagem: I – Estudo e identificação de melhorias II – Testes III – Escrita dos resultados obtidos no testes

23 Cronograma 2 – Verificação de contaminação: IV – Estudo e identificação de melhorias V – Testes VI – Escrita dos resultados obtidos nos testes

24 Cronograma 3 – Clusterização: VII – Escolha dos programas VIII – Avaliação dos valores de parâmetros IX – Testes X – Escrita dos resultados obtidos nos testes

25 Cronograma 4 – Dissertação: XI – Revisão final do texto XII – Defesa


Carregar ppt "Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST Candidato: Christian Baudet Orientador: Zanoni Dias."

Apresentações semelhantes


Anúncios Google