A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.

Apresentações semelhantes


Apresentação em tema: "RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001."— Transcrição da apresentação:

1 RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

2 Introdução http://repeatmasker.genome.washington.edu/cgi -bin/RepeatMasker/ Função: Esconder repetições esparsas, regiões de baixa complexidade e repetições simples Desenvolvido e mantido por: Phil Green, University of Washington

3 Repetições Repetições esparsas Regiões de baixa complexidade (ex.: CT-rich) –Repetições simples (ex.: (TG)n )

4 O Problema Sequência de DNA com repetições são dificeis de montar e de pesquisar Mascar regiões repetitivas pode facilitar o trabalho de varias outras ferramentas computacionais –Ex.: PhredPhrap

5 O Algoritmo Busca de alinhamentos de melhor score Compara uma seqüência, com seqüências numa base de dados Procura alinhamentos locais Utiliza matrizes de similaridade Esconde com: –N para nucleotídeos –X para proteínas

6 O Algoritmo RepeatMasker –cross_match + base de repetições swat –Smith-Waterman Algorithm

7 Algoritmo de Smith-Waterman Programação dinâmica Matriz de alinhamentos Tempo: O(n*m); Espaço: O(n*m) Matriz de Dayhoff: matrizes PAM

8 e T A A C G G e 0 0 0 0 0 0 0 A 0 0 1 1 0 0 0 A 0 0 1 2 0 0 0 C 0 0 0 0 3 1 0 T 0 1 0 0 1 2 0 Matriz de alinhamentos

9 base de repetições 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 2 0 0 0 0 0 0 0 3 1 0 0 1 0 0 1 2 0 Matriz de alinhamentos entrada

10 Matriz PAM A R N D... Z X * A 2 -2 0 0 0 0 -8 R -2 6 0 -1... 0 -1 -8 N 0 0 2 2 1 0 -8 D 0 -1 2 4 3 -1 -8.. Z 0 0 1 3 3 -1 -8 X 0 -1 0 -1...-1 -1 -8 * -8 -8 -8 -8 -8 -8 1

11 Entrada Seqüência –Formato Fasta –Modo de envio: html ou arquivo Opções

12 Formato de retorno: html, arquivo tar ou links Modo de retorno: na própria janela ou por e-mail Velocidade/sensibilidade –Default –Slow: 3 vezes mais lento, 0 a 5% mais seqüências encontradas –Quick: 3 a 6 vezes mais rápido. Ignora 5 a 10% mais seqüências

13 Opções Origem do DNA: –Primatas, roedores (otimizados) –Outros mamíferos, Arabidopsis, Drosophila –Outros vertebrados, gramíneas (recentes) –http://www.girinst.org/~server/repbase.html

14 Opções Mostrar alinhamentos (arquivo de alinhamentos) Não esconde repetições simples e DNA de baixa complexidade Esconde apenas repetições simples e DNA de baixa complexidade

15 Opções Apenas esconde Alus (específico para primatas) Esconde com “X” para distinguir regiões escondidas de “N”s já existentes na seqüência de entrada Gera uma “annotation table” com tamanho fixo de colunas

16 Outras Opções Opções menos comuns podem ser digitadas: –div ( limita a porcentagem máxima de divergências num alinhamento ) –inv ( por default, alinhamentos são no sentido das seqüências de entrada. Com esta opção, ficam no sentido das repetições da base ) –frag ( define o tamanho dos fragmentos com os quais o programa vai trabalhar ) –xsmall ( regiões repetitivas em minúsculas, o resto em maiúsculas ) –small ( toda a seqüência em minúsculas )

17 Saída Arquivos: –Seqüência original com regiões escondidas (masked sequence) –Annotation file –Resumo (summary table) –Alinhamentos (opcional)

18 Masked Sequence Arquivo idêntico ao arquivo de entrada. Exceto pelas regiões Escondidas

19 Annotation File Um resumo do arquivo de alinhamentos Para cada casamento (match) mostra informações da seqüência de entrada e da base de dados –Score –Porcentagem de Substituições, Deleções, Inserções –Nome da seqüência de entrada –Na seqüência de entrada, posições de início, fim, distância da extremidade direita –Marca de complemento. “C” = complemento –Nome e tipo da repetição –Na repetição, posições de início, fim, distância da extremidade direita

20 Summary Table Auto-explicativo Visão global e estatísticas sobre o que foi feito

21 Alinhamentos (Opcional) Mostra em detalhes os alinhamentos Legenda: –i: transition (g – a, c - t) –t: transvertion –?: alinhado com incógnita

22 Aplicações Busca em base de dados –Evita casamentos dispendiosos em regiões não codificantes –Ex.: antes do blast Associado a programas de predição de genes –Comparar a saida de ambos os programas –Incorporar RepeatMasker aos programas existentes

23 Referências –Página oficial http://repeatmasker.genome.washington.edu/cgi- bin/RepeatMasker/ –Base de repetições: Genetic Information Research Institute http://www.girinst.org/ –Notes on Interspersed Repeats: Um resumo dos principais tipos de repetições esparsas. http://globin.cse.psu.edu/globin/html/courses/spring2000/rep eats.html –National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/


Carregar ppt "RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001."

Apresentações semelhantes


Anúncios Google