RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.

Slides:



Advertisements
Apresentações semelhantes
Clustal-W Oscar Miranda.
Advertisements

Módulo II – Domine a Internet Introdução a Informática DCC - UFMG.
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
SISTEMAS DE INFORMAÇÃO
Montagem e análise de genomas
Introduction of RefSeq and LocusLink: resources at the NCBI
Interações do Algoritmo Phred/Phrap
Evolução Molecular Metodologias de Análise
FORMATAÇÃO.
Comandos para navegação no Sistema de Arquivos
Software Luciana O projeto microFênix foi criado pelo professor Antonio Borges, no NCE/UFRJ, em 2004/6, para facilitar.
INFORMÁTICA BÁSICA EXTRANET INTERNET
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Organização Gênica de Eucariotos
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013.
Solucionar de forma otimizada os problemas que exijam alto esforço computacional e assim assegurar a satisfação dos clientes.
LOGIN Para acessar o sistema, digite em seu browser:
Ulisses e Página das bibliotecas da UL - Princípios orientadores -
Bancos de dados para análise de sequências de DNA
Bioinformática (Alinhamento de Seqüências)
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
Disciplina: Metodologia da Pesquisa e Tecnologia
Blackbox Ferramenta de Planejamento em IA Jairson Vitorino, 06 de maio de 2005
Algoritmo e Programação
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Bancos de Dados.
MÓDULO 4 Como usar PubMed
OBJETIVOS Apresentar a metodologia de ensino das disciplinas on-line. Fornecer informações acadêmicas referente as disciplinas on-line.
Geração de Código aula-12-geração-de-código.pdf.
Plataforma NetAula Ambiente Aluno
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Diogo Silva Nº  1988 NCBI- Banco de dados público contendo sequências de DNA dos mais diversos organismos  1995 Técnica do microarranjo -perfil.
CAP3 (Contig Assembly Program)
Introdução à Biologia Molecular História Cadeias de DNA e de Proteínas.
Análises de sequências
Introdução ao MS Access
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
 Solucionar de forma otimizada os problemas que exijam alto esforço computacional e assim assegurar a satisfação dos clientes.
A Internet e Seu Impacto
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Allan Lima  Revisão sobre BDs Biológicos  Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias  The Gene Ontology 
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001.
Fluxos secundários Só devem ser analisados e descritos após a descrição dos fluxos básicos. Fluxos alternativos situações especiais (desconto para um cliente)
Introdução à Biologia Molecular Computacional
Seqüenciamento de DNA via Phred-Phrap-Consed
Melhorando Alinhamentos Locais Katia Guimarães
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
CAP3 (Contig Assembly Program)
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
 Solucionar de forma otimizada os problemas que exijam alto esforço computacional e assim assegurar a satisfação dos clientes.
Estruturas de Dados e Algoritmos para Inferência de Motifs Katia Guimarães.
Algoritmos e Heurísticas para Seqüenciamento de DNA
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Moodle para Professores Criar uma disciplina. Construir uma disciplina Acesse a plataforma Moodle, faça o login (acesso) e clique no nome da sua disciplina.
Estrutura de Dados Aula 3 - Listas
FERRAMENTAS DE ANÁLISE MOLECULAR
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Alinhamento Global de Seqüências Katia Guimarães.
INTRODUÇÃO THOBER CORADI DETOFENO, MSC. Aula 02 JOINVILLE 2015 Universidade do Estado de Santa Catarina – CCT/UDESC.
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
RepeatMasker Aluno: Fred Ulisses Maranhão Professora: Kátia S. Guimarães Cin, UFPE - 1/2001.
SUGESTÃO DE ESTRUTURA DO ARTIGO
Transcrição da apresentação:

RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001

Introdução -bin/RepeatMasker/ Função: Esconder repetições esparsas, regiões de baixa complexidade e repetições simples Desenvolvido e mantido por: Phil Green, University of Washington

Repetições Repetições esparsas Regiões de baixa complexidade (ex.: CT-rich) –Repetições simples (ex.: (TG)n )

O Problema Sequência de DNA com repetições são dificeis de montar e de pesquisar Mascar regiões repetitivas pode facilitar o trabalho de varias outras ferramentas computacionais –Ex.: PhredPhrap

O Algoritmo Busca de alinhamentos de melhor score Compara uma seqüência, com seqüências numa base de dados Procura alinhamentos locais Utiliza matrizes de similaridade Esconde com: –N para nucleotídeos –X para proteínas

O Algoritmo RepeatMasker –cross_match + base de repetições swat –Smith-Waterman Algorithm

Algoritmo de Smith-Waterman Programação dinâmica Matriz de alinhamentos Tempo: O(n*m); Espaço: O(n*m) Matriz de Dayhoff: matrizes PAM

e T A A C G G e A A C T Matriz de alinhamentos

base de repetições Matriz de alinhamentos entrada

Matriz PAM A R N D... Z X * A R N D Z X *

Entrada Seqüência –Formato Fasta –Modo de envio: html ou arquivo Opções

Formato de retorno: html, arquivo tar ou links Modo de retorno: na própria janela ou por Velocidade/sensibilidade –Default –Slow: 3 vezes mais lento, 0 a 5% mais seqüências encontradas –Quick: 3 a 6 vezes mais rápido. Ignora 5 a 10% mais seqüências

Opções Origem do DNA: –Primatas, roedores (otimizados) –Outros mamíferos, Arabidopsis, Drosophila –Outros vertebrados, gramíneas (recentes) –

Opções Mostrar alinhamentos (arquivo de alinhamentos) Não esconde repetições simples e DNA de baixa complexidade Esconde apenas repetições simples e DNA de baixa complexidade

Opções Apenas esconde Alus (específico para primatas) Esconde com “X” para distinguir regiões escondidas de “N”s já existentes na seqüência de entrada Gera uma “annotation table” com tamanho fixo de colunas

Outras Opções Opções menos comuns podem ser digitadas: –div ( limita a porcentagem máxima de divergências num alinhamento ) –inv ( por default, alinhamentos são no sentido das seqüências de entrada. Com esta opção, ficam no sentido das repetições da base ) –frag ( define o tamanho dos fragmentos com os quais o programa vai trabalhar ) –xsmall ( regiões repetitivas em minúsculas, o resto em maiúsculas ) –small ( toda a seqüência em minúsculas )

Saída Arquivos: –Seqüência original com regiões escondidas (masked sequence) –Annotation file –Resumo (summary table) –Alinhamentos (opcional)

Masked Sequence Arquivo idêntico ao arquivo de entrada. Exceto pelas regiões Escondidas

Annotation File Um resumo do arquivo de alinhamentos Para cada casamento (match) mostra informações da seqüência de entrada e da base de dados –Score –Porcentagem de Substituições, Deleções, Inserções –Nome da seqüência de entrada –Na seqüência de entrada, posições de início, fim, distância da extremidade direita –Marca de complemento. “C” = complemento –Nome e tipo da repetição –Na repetição, posições de início, fim, distância da extremidade direita

Summary Table Auto-explicativo Visão global e estatísticas sobre o que foi feito

Alinhamentos (Opcional) Mostra em detalhes os alinhamentos Legenda: –i: transition (g – a, c - t) –t: transvertion –?: alinhado com incógnita

Aplicações Busca em base de dados –Evita casamentos dispendiosos em regiões não codificantes –Ex.: antes do blast Associado a programas de predição de genes –Comparar a saida de ambos os programas –Incorporar RepeatMasker aos programas existentes

Referências –Página oficial bin/RepeatMasker/ –Base de repetições: Genetic Information Research Institute –Notes on Interspersed Repeats: Um resumo dos principais tipos de repetições esparsas. eats.html –National Center for Biotechnology Information