Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.

Slides:



Advertisements
Apresentações semelhantes
Clustal-W Oscar Miranda.
Advertisements

Instituto de Computação
ANÁLISE DA ENTROPIA NÃO-EXTENSIVA PARA MEDIÇÃO DE VARIAÇÕES EM SINAIS COMPLEXOS Clayton de Medeiros Vasconcelos 1 Israel Andrade Esquef 1 Marcelo Portes.
ANÁLISE DISCRIMINANTE
Replicação da molécula de DNA
Matrizes para Análise de Similaridade entre Seqüências.
Universidade Federal de Viçosa
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Uso da bioinformática na análise genômica
Dárlinton B. Feres Carvalho
O Surgimento dos Sistemas de Bioinformática
Seqüência e qualidade. Seqüência e qualidade Uso da bioinformática na análise genômica.
Miguel www. cromatina. icb. ufmg. br. Miguel www. cromatina. icb. ufmg. br.
Seqüenciamento e montagem do genoma humano e análise de transcriptoma
Michelle A. Graham, Kevin A. T. Silverstein, Steven B
Southern, Northern e Western Blot
EMBRAPA _ Foco: Dados  Conhecimento
Alinhamento de sequências
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Genômica funcional e metagenômica
RNAs não codificadores
Otimização por Colônia de Formigas (ACO)
Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.
ÁCIDO DESOXIRRIBONUCLEICO
Bioinformática (Alinhamento de Seqüências)
Bancos de Dados.
Matemática para Economia III
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
ESTRUTURA; Replicação; Transcrição;
Alinhamento de sequências
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Distância Mínima de Edição Profa. Sandra de Amo Bacharelado em Ciência da Computação - UFU.
Marcílio C. P. de Souto DIMAp/UFRN
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Melhorando Alinhamentos Locais Katia Guimarães
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo
Sequenciamento de Genomas
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Modelagem, Avaliação, Modificação e Seleção de Estruturas de Proteínas
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
Domínios, Motivos, Padrões e Perfis
Algoritmos e Heurísticas para Seqüenciamento de DNA
Principais algoritmos de alinhamento de sequências genéticas
Introdução à Programação
Alinhamentos Múltiplos
Versão em Português, traduzida por Luiz Carlos Machado – ACBC - Brasil.
Mailson Felipe da Silva Marques Johnson Cordeiro Sarmento
FERRAMENTAS DE ANÁLISE MOLECULAR
Professora: Ivaneide Alves de Araujo
Descrição Bivariada Comparando Duas Distribuições
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
Distribuição Normal de Probabilidade
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.
ACCESS Prof: Felipe Lira.  O que é o ACCESS ? Microsoft Access (nome completo Microsoft Office Access), também conhecido por MSAccess, é um sistema de.
Estagiário PAE: Pedro Shiguihara-Juárez Professor: Dilvan de Abreu Moreira (Baseado no material do prof. André Carvalho) Instituto de Ciências Matemáticas.
Estatística Descritiva de Uma População Base de Trichilia pallida Zimback, Léo (Instituto Florestal, Avaré, SP, Brazil) [Presenter]
Transcrição da apresentação:

Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005

As Origens... Rigorous Dynamic Programming: Needleman & Wunsch (1970) Smith & Waterman (1981) Heuristics: Lipman & Pearson (1985,1988) Altschul et al. (1990,1997)

BLAST - Basic Local Alignment Search Tool Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática Busca seqüências armazenadas nos bancos de dados pela similaridade entre a estrutura primária da seqüência query e as seqüências armazenadas no banco Propriedades biológicas descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes O maior problema é definir um cut-off, um limite abaixo do qual as similaridades encontradas entre a query e os hits não sejam mais significativos

BLAST É um método heurístico para alinhamentos locais Projetado especialmente para buscas em bancos de dados Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais

BLAST Existem vários “sabores” e tipos de BLAST: Nucleotídeo Proteína Traduzido Genomas

BLAST Nucleotídeo: Nucleotídeo-nucleotídeo (blastn) Megablast Megablast descontínuo Busca por hits curtos e quase perfeitos Busca em cromatogramas

BLAST Proteína: Proteína-proteína (blastp) Busca através da obtenção de perfis (PHI- BLAST e PSI-BLAST) Busca por hits curtos e quase perfeitos Busca em bancos de dados de domínios conservados (Smart, PFam e COG) (rps- blast) Busca pela arquitetura de domínios (cdart)

PHI-BLAST e PSI-BLAST PHI-BLAST: Em quais outras seqüências protéicas há ocorrência do padrão P e ao mesmo tempo estas seqüências são similares à query P na vizinhança do padrão? PSI-BLAST: Construção de uma matriz de valores posição-específica (Position Specific Scoring Matrix, PSSM)

BLAST Traduzido: query traduzida x banco de dados de proteínas (blastx) query de proteína x banco de dados traduzido (tblastn) query traduzida x banco de dados traduzido (tblastx)

BLAST Genomas: Galinha, vaca, porco, cachorro, ovelha, gato Amostras ambientais Homem, camundongo, rato Fugu rubripes, zebrafish Insetos, nematódeos, plantas, fungos, malária Genomas microbianos, outros genomas eucarióticos

BLAST - algoritmo 1. Filtrar as regiões de baixa complexidade 2. Fragmentar a seqüência query e as seqüências depositadas no banco de dados, criando “palavras“ (de comprimento 3 para proteínas e 11 para DNA) através do uso de uma janela deslizante MEF EFP FPG PGL GLG MEFPGLGSLGTSEPLPQFVDPALVSS

BLAST - algoritmo 3. Utilizando uma matriz de substituição (PAM, BLOSUM), encontrar todas as “palavras” de tamanho W que obtenham, no mínimo, um n o. de pontos (score) T quando comparadas com a seqüência query, criando uma lista de “palavras” de alta pontuação

(Parênteses – matrizes de substituição) É uma matriz representando todas as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas Esses valores são proporcionais à probabilidade de ocorrência de cada troca, tomando-se como base um determinado modelo evolutivo

(Parênteses – matrizes de substituição)

PAM family: Baseiam-se em alinhamentos globais de proteínas muito próximas PAM1 é a matriz calculada a partir da comparação de seqüências com não mais do que 1% de divergência As demais matrizes PAM são extrapolações da PAM1 BLOSUM family: Baseiam-se em alinhamentos locais de proteínas BLOSUM 62 é a matriz calculada a partir da comparação de seqüências com não menos do que 62% de divergência Todas as matrizes BLOSUM baseiam-se em alinhamentos observados; não há extrapolações

BLAST - algoritmo 4. Procurar em cada seqüência depositada no banco de dados por uma ou mais ocorrências de cada “palavra” de alta pontuação. Cada uma destas ocorrências (hit) será uma “semente” para um alinhamento sem gaps 5. Estender os hits em ambas as direções, na tentativa de gerar alinhamentos com score acima de um limiar S

BLAST - algoritmo 5.1. BLAST original: extensão dos hits à esquerda e à direita da “semente”, sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. O alinhamento obtido é chamado HSP (High Scoring Pair) 5.2. Atualmente: hits ao longo da mesma diagonal (Dot plot) com uma distância A entre os dois são reunidos e a extensão se dá com a seqüência maior obtida

(Parênteses – Dot Plots - matrizes de homologia)

BLAST - algoritmo 6. Reter somente os HSPs com score acima do limiar S 7. Determinar a significância estatística de cada alinhamento remanescente (p- value e E-value) 8. Mostrar os alinhamentos locais (de acordo com Smith-Waterman)

Resultado (BLASTN)

Resultado (campo de busca)

Resultado (opções)

Resultado (formato)

Resultado (BLASTN) O output é dividido em cinco partes: 1. Header contendo a versão do BLAST, data da compilação, referência, RID, etc. 2. Representação gráfica dos alinhamentos 3. Sumário com uma descrição em uma linha de cada hit 4. Os alinhamentos com seus respectivos parâmetros calculados 5. Rodapé com a descrição detalhada dos parâmetros de busca empregados, o banco de dados, etc.

Resultado (header)

Resultado (graphical overview)

Resultado (one-line descriptions)

Resultado (links) G: Gene U: UniGene E: GEO Profile (dados de expressão gênica e hibridização genômica obtidos por tecnologia high-throughput)

Resultado (alignments)

HSPs

Resultado (footer)

CDART