Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouFrancisco Cava Alterado mais de 10 anos atrás
1
Candidato: Christian Baudet Orientador: Zanoni Dias
Uma abordagem para trimagem, verificação de contaminação e clusterização de seqüências EST Candidato: Christian Baudet Orientador: Zanoni Dias
2
Tópicos da Apresentação
Motivação Trimagem Verificação de contaminação Clusterização Proposta Cronograma
3
Motivação Importância dos projetos de seqüenciamento
Projetos EST no Brasil Ausência de metodologia padrão utilizada pelos diferentes projetos Possibilidade de identificação de melhorias a serem feitas nos processos existentes
4
Trimagem Seqüências EST possuem altas taxas de erros
Remoção de regiões de: baixa qualidade vetores adaptadores trechos de baixa complexidade
5
Seqüência de bases 1 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG
6
Qualidades das bases 1 NCTGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAAAATGGGTGAAGGAACCTTCGGGCAGGT 481 TTTGGAATGCTGGGATCGTGAGAGGAGAGAAATGGGACGCNTTAGAGTTGGGCGGGGGAT 541 CCACAAATGTCGGGCCGCTGCTGGGGTGGACAGTGGGGCGCGTGGCGAAGGGGGAGGGGG 601 GGGGGAGGGGGGGGGGGCCGCGCCGCGGCGGGGCGCGGGCCGCATACGCGGGGAGGGGGG 661 GGGGAGGCGGGGGGCGGGGGGGCGGGCGGGGCCGGAGAGGGAGCGGACGGGGGGGGGGCG 721 CGGGGCGGCGGGGGGCGGGGCGGTAGCGGGGGGGGGGAGGGGGGCCGCGCGGGGGGGGGA 781 GAGAGGATGCCGGGCACCCGGGGGGAGGGGGGNCGGGGGGCCGGGGGGCGGGGGCGCGCC 841 GCGGTGGCCGGCGCGAGGCGCCGCCCGGACCGCCGAGAGCGGAGGAGGGCG Baixa Qualidade Alta Qualidade
7
Baixa qualidade 1 XXXGGTACGCCTGCAGGTACCGGTCCGGAATTCCCTGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade
8
Vetor 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCCACGCGTCCGAAATTC
61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade
9
Adaptador 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade
10
Seqüência trimada 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade
11
Problemas – Trimagem 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGCTCGACCCACGCGTCCGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTGTGGACAAGAGGTTGGGAATGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade
12
Problemas – Trimagem 1 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXGAAATTC 61 TTATCCCCGTTATTTTATTCGTTCGTTTCAATCGCATCAAGATCTCGATCTCTCTCTTAT 121 TTCCTCGCCGTGAGCTGCGATCATGGAGATGGAGCGCGTGACGGAGTTTCCTTTTTCGAG 181 ATCTGGATCGGCGTCCTCGTAAGCGAGCGCGTTTGGGCTGGGACGTGCCTCAGGTACCGA 241 AGGCTCAGGTAGGATTATTTTXXXXXXXXXXXXXXXXXXXTGTAACAAGCTTTGCACCTC 301 CAAGAGCTCCCTCAGACCATGTCACTAGTTCTTCTCTATTTGTAAAGGGAGTGGCTCGAA 361 ATGGTTCTCCCCCATGGCGTGAGGATGGGGGGATGGCCATTATATGTTTGCGCTTGGAGA 421 AAATTTAACTTCTCGCTATAAGATTCACAGCAXXXXXXXXXXXXXXXXXXXXXXXXXXXX 481 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 541 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 601 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 661 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 721 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 781 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 841 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Baixa Qualidade Alta Qualidade
13
Verificação de contaminação
Seqüências EST comumente sofrem contaminação de diferentes tipos Identificação e remoção de seqüências contaminadas são necessárias para que não sejam geradas informações inválidas sobre o organismo em estudo Métodos de detecção de contaminação: Similaridade Conjunto de características
14
Similaridade Contaminação Determinada por critério pré-definido
BLAST Seqüências de organismos Contaminantes Seqüências a serem verificadas Seqüências contaminadas Seqüências não contaminadas Contaminação Determinada por critério pré-definido Exemplo: similaridade de 98% e cobertura mínima de 75 bases
15
Conjunto de características
Extratores de características Assinatura Seqüências de organismos contaminantes Seqüências a serem analisadas Seqüências conhecidas do organismo alvo Seqüências contaminadas Comparação Outras seqüências Seqüências pertencentes ao organismo
16
Clusterização Necessária para eliminação de redundância e identificação de genes Exemplo: 1 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC 5 CGTTAATTGACGACTCTGATATTTACTAAGTTTGAGTTATGGACGA 6 CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG 7 CAAGTAGCTTTGGTAATCTTCTCAGTACAACCGACCCACCGTTTCAATCTTTGTA 8 TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA
17
Clusterização Cluster 1 – Tamanho 5
C GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGACGA 2 GAGCACTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTT CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATG CTGCTTTAAGGGTCGTTAATTGACGACTCTTGATATTTACTTAGTTTGAGTT TTAAGGGTCGTTAATTGACGACTCTTGATATTTACTAAGTTTGAGTTATGGA CGTTAATTGACGACTC*TGATATTTACTAAGTTTGAGTTATGGACGA Cluster 2 – Tamanho 2 C TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATCTTTGTA 4 TTGTGCAAGTAGCTTTGGTAATTCTTCTCAGTACAACCGACCCACCGTTTCAAATC CAAGTAGCTTTGGTAA*TCTTCTCAGTACAACCGACCCACCGTTTCAA*TCTTTGTA Singleton 3 GAAAAGGATCTTTCTGATTCTCGAAGAATGAGGGGCAAGGGGATTGATCGA
18
Clusterização Existência de diversos programas de clusterização:
TGICL Phrap TIGR Assembler CAP3 Validação dos resultados obtidos nos processos de trimagem e verificação de contaminação
19
Proposta – Trimagem Estudos de possíveis melhorias nos processos de trimagem existentes Criação de um conjunto de procedimentos padrões Realização de testes para validação do conjunto de procedimentos
20
Proposta – Contaminação
Estudo de possíveis melhorias nos critérios de verificação de contaminação existentes Integração entre os métodos de detecção por similaridade e por conjunto de características Definição de um critério que melhor se aplique ao contexto de projetos EST Realização de testes para validação da metodologia
21
Proposta – Clusterização
Análise de programas de clusterização e de seus parâmetros Testes para identificação do melhor programa Utilização da clusterização para validação dos métodos desenvolvidos para trimagem e verificação de contaminação
22
Cronograma 1 – Trimagem: I – Estudo e identificação de melhorias
II – Testes III – Escrita dos resultados obtidos no testes
23
Cronograma 2 – Verificação de contaminação:
IV – Estudo e identificação de melhorias V – Testes VI – Escrita dos resultados obtidos nos testes
24
Cronograma 3 – Clusterização: VII – Escolha dos programas
VIII – Avaliação dos valores de parâmetros IX – Testes X – Escrita dos resultados obtidos nos testes
25
Cronograma 4 – Dissertação: XI – Revisão final do texto XII – Defesa
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.