Análise Computacional de Seqüências Nucleotídicas e Protéicas

Slides:



Advertisements
Apresentações semelhantes
Clustal-W Oscar Miranda.
Advertisements

Instituto de Computação
Organização Gênica de Eucariotos
ANÁLISE DISCRIMINANTE
Matrizes para Análise de Similaridade entre Seqüências.
Universidade Federal de Viçosa
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Uso da bioinformática na análise genômica
Introduction of RefSeq and LocusLink: resources at the NCBI
Primeira e Segunda Leis de Mendel
1 MergeSort Seja uma lista A de n elementos. O algoritmo consiste das seguintes fases Dividir A em 2 sub-listas de tamanho n/2 Conquistar: ordenar cada.
Universidade Federal de Ouro Preto (UFOP)
Recursividade Conceitos e Aplicações.
A FAST APRIORI implementation
Mining Frequent Patterns without Candidate Generation
O Surgimento dos Sistemas de Bioinformática
Seqüência e qualidade. Seqüência e qualidade Uso da bioinformática na análise genômica.
Miguel www. cromatina. icb. ufmg. br. Miguel www. cromatina. icb. ufmg. br.
Seqüenciamento e montagem do genoma humano e análise de transcriptoma
Evolução Molecular Metodologias de Análise
Michelle A. Graham, Kevin A. T. Silverstein, Steven B
Alinhamento de sequências
Genômica funcional e metagenômica
RNAs não codificadores
Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.
ÁCIDO DESOXIRRIBONUCLEICO
Replicação, transcrição e tradução
Usando Microsoft Access 2010
Trabalho realizado por: Ana Serra nº 1 Eliana Lourenço nº 8.
Bioinformática (Alinhamento de Seqüências)
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Bancos de Dados.
Sistemas Operacionais
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Construção e Análise de Algoritmos
Alinhamento de sequências
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Marcílio C. P. de Souto DIMAp/UFRN
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Allan Lima  Revisão sobre BDs Biológicos  Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias  The Gene Ontology 
Melhorando Alinhamentos Locais Katia Guimarães
Sequenciamento de Genomas
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
Domínios, Motivos, Padrões e Perfis
Algoritmos e Heurísticas para Seqüenciamento de DNA
Segmentação A simplificação da imagem é uma questão central na visão computacional, o que pode ser feito reduzindo-se as informações da imagem para regiões.
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Ácidos Nucléicos Molécula de DNA e RNA.
FERRAMENTAS DE ANÁLISE MOLECULAR
Descrição Bivariada Comparando Duas Distribuições
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
Arrays Outline 7.1 Introdução 7.2 Arrays 7.3 Declarando e Criando Arrays 7.4 Exemplos usando arrays 7.5 Ordenando arrays 7.6 Procurando em.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.
Estagiário PAE: Pedro Shiguihara-Juárez Professor: Dilvan de Abreu Moreira (Baseado no material do prof. André Carvalho) Instituto de Ciências Matemáticas.
Estatística Descritiva de Uma População Base de Trichilia pallida Zimback, Léo (Instituto Florestal, Avaré, SP, Brazil) [Presenter]
Transcrição da apresentação:

Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004

BLAST – Basic Local Alignment and Search Tool Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática Busca seqüências armazenadas nos bancos de dados pela similaridade entre a estrutura primária da seqüência query e as armazenadas Anotações (características) descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes O maior problema é definir um “cut-off”, limite onde as similaridades encontradas entre a query e os hits não sejam mais significativos

BLAST – Basic Local Alignment and Search Tool É um método heurístico para alinhamentos locais Projetado especificamente para buscas em bancos de dados Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais

BLAST Existem vários “sabores” e tipos de BLAST: Nucleotídeo Proteína Traduzido Genomas

BLAST Nucleotídeo: Nucleotídeo-nucleotídeo (blastn) Megablast Megablast descontínuo Busca por hits curtos e quase perfeitos Busca em cromatogramas

BLAST Proteína: Proteína-proteína (blastp) PHI-BLAST e PSI-BLAST (através da obtenção de perfis) Busca por hits curtos e quase perfeitos Busca no banco de dados de domínios conservados (rps-blast) (Smart, PFam e COG) Busca pela arquitetura de domínios (cdart)

PHI-BLAST e PSI-BLAST PHI-BLAST: Quais outras seqüências protéicas contém tanto a ocorrência do padrão P e são homólogas a query P na vizinhança das ocorrências dos padrões? PSI-BLAST: Construção de uma matriz de valores posição-específica (position specific scoring matrix, PSSM)

BLAST Traduzido: query traduzida x banco de dados de proteínas (blastx) query de proteína x banco de dados traduzido (tblastn) query traduzida x banco de dados traduzido (tblastx)

BLAST Genomas: Galinha, vaca, porco, cachorro, ovelha, gato Amostras ambientais Homem, camundongo, rato Fugu rubripes, zebrafish Insetos, nematódeos, plantas, fungos, malária Genomas microbianos, outros genomas eucarióticos

BLAST - algoritmo 1. Filtrar as regiões de baixa complexidade 2. Criar as query words (de comprimento 3 para sequências protéicas e 11 para DNA) através do uso de uma janela deslizante MEFPGLGSLGTSEPLPQFVDPALVSS MEF EFP FPG PGL GLG

BLAST - algoritmo 3. Utilizando uma matriz de substituição (PAM, BLOSUM), contar todas as possíveis palavras de tamanho 3 ou 11 contra a query 4. Selecionar um limite (neighborhood word score threshold - T) para manter as sequências mais significativas (normalmente umas 50 por query)

(Parênteses – matrizes de substituição) O que é uma matriz de substituição? É uma matriz representando todas as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas Esses valores são obtidos através da contagem dessas trocas tomando-se como base umdeterminado modelo evolutivo

Parênteses – matrizes de substituição)

BLAST - algoritmo 5. Repetir os passos 3 e 4 para cada query word no passo 2 6. Organizar as palavras de alta pontuação em uma árvore de busca M E E P F G

BLAST - algoritmo 7. Procurar em cada sequência no banco de dados uma combinação com uma query word de alta pontuação. Cada combinação será uma “semente” para um alinhamento sem gaps. 8. Extensão das combinações 8.1. BLAST original: extensão das combinações à esquerda e à direita da “semente” usando alinhamentos sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. Esta extensão é o chamado HSP (High Scoring Pair).

BLAST - algoritmo 8.2. Atualmente: combinações ao longo da mesma diagonal (Dot plot) com uma distância A entre as duas são reunidas e a extensão se dá com a sequência maior. 9. Utilizando uma contagem limite S, manter somente as combinações estendidas com score mínimo igual a S.

BLAST - algoritmo 10. Determinar a significância estatística de cada combinação remanescente 11. Tentar estender os HSPs de cada combinação remanescente 12. Mostrar os alinhamentos locais (dea cordo com Smith-Waterman).

(Parênteses – matrizes de homologia)

Resultado (BLASTN)

Resultado (formatação)

Resultado (BLASTN) O output é dividido em cinco partes: 1. Um header contendo a versão do BLAST, data da compilação, referência, RID, etc. 2. Uma visão gráfica dos alinhamentos 3. Um sumário com uma descrição em uma linha de cada hit 4. Os alinhamentos 5. Rodapé com a descrição detalhada dos parâmetros de busca empregados, o banco de dados, etc. Existem várias opções de formatação dos resultados.

Resultado (header)

Resultado (graphical overview)

Resultado (one-line descriptions)

Resultado (links) G: Gene U: UniGene E: GEO Profile (dados de expressão gênica e hibridização genômica obtidos por tecnologia high-throughput)

Resultado (alignments)

HSP – High Scoring Pairs Segmentos onde o alinhamento possui alta qualidade

HSPs

Resultado (footer)

CDART