Melhorando Alinhamentos Locais Katia Guimarães

Slides:



Advertisements
Apresentações semelhantes
Socrates Grundtvig 2 Learning Partnership
Advertisements

Clustal-W Oscar Miranda.
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
Solved Exercises 1. Finding the Peak. Let A= a1,…,an be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
Verbo to be.
Língua Inglesa Instrumental
Matrizes para Análise de Similaridade entre Seqüências.
Christian Baudet Zanoni Dias (Orientador)
Algoritmos Genéticos Jorge H. C. Fernandes Setembro de 1998.
Evolução Molecular Metodologias de Análise
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Análise de Centralidade
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Aula prática 6 Vetores e Matrizes
Intr. à Biologia Computacional
Intr. à Biologia Computacional
Intr. à Biologia Computacional ALINHAMENTO DE SEQÜÊNCIAS.
CS276: Information Retrieval and Web Search
Avaliação Constituição dos grupos de trabalho:
SIMPLE PRESENT O Simple Present é o equivalente, na língua inglesa, ao Presente do Indicativo, na língua portuguesa. O Simple Present é usado para indicar.
Bioinformática (Alinhamento de Seqüências)
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
Gestão de Operações ( Operations Management ) Especialização em Gestão da Produção Profs. Jorge Muniz e Valério Salomon Col.: Marco Aurélio e Ricardo “Taiúva”
Fundamentos da teoria dos semicondutores
Alinhamento de sequências
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Criptografia Problema 5. Equipe  Hallan Cosmo - hcs  Phillip César - pcas.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo
I could start dreamin, but it never ends Eu poderia começar a sonhar mas isso nunca terminaria As long as you're gone we may as well pretend Enquanto.
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS
Análise de Centralidade
Intr. à Biologia Computacional ALINHAMENTOS ÓTIMOS GLOBAIS.
Estruturas de Dados e Algoritmos para Inferência de Motifs Katia Guimarães.
Domínios, Motivos, Padrões e Perfis
Complexidade de Computação Katia Guimarães. Avaliando a Qualidade de um Algoritmo É preciso ter bem definido –O que é dado de entrada e –O que é esperado.
Solved Exercises 1. Finding the Peak. Let A= a 1,…,a n be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
XML Namespaces XML Namespaces provê um método para evitar conflito de nomes de elementos.
Algoritmos e Heurísticas para Seqüenciamento de DNA
Analise de Algoritmos e Notação Assintótica
Linguagem de Programação II Parte VI Professora: Flávia Balbino da Costa.
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Título do Trabalho: xxxxxxxxxxxxxxxxxxxxxx Autores: xxxxxxxxxxxxxxxxxxxxxxxxx Instituição: xxxxxxxxxxxxxxxxxxxxxx Introdução (Tamanho da Fonte: Arial12)
O Professor de Inglês Aprendendo e Ensinando
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
Alinhamento Global de Seqüências Katia Guimarães.
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
Limit Equlibrium Method. Limit Equilibrium Method Failure mechanisms are often complex and cannot be modelled by single wedges with plane surfaces. Analysis.
They try to tell us we´re too young Tentam nos dizer que somos muito jovens Too young to really be in love Jovens demais pra amar They say that love´s.
Verbo to be. Outros verbos.. Verb to be Simple present Am Is Are.
Equação de Evolução e método do volume-finito.
Título do trabalho Autores Instituição
Visão geral do Aprendizado de máquina
O modelo de Lotka-Volterra
Three analogies to explain reactive power Why an analogy? Reactive power is an essential aspect of the electricity system, but one that is difficult to.
Título do Trabalho: xxxxxxxxxxxxxxxxxxxxxx Autores: xxxxxxxxxxxxxxxxxxxxxxxxx Instituição: xxxxxxxxxxxxxxxxxxxxxx Xxxxx xxxxxxxx xxxxxxxxxxxx xxxxxxxxx.
Simple Present Tense. . In English the Simple Present is used to express actions that are made with a certain frequency, like go to school, work, study…
Título da Pesquisa Título da Pesquisa Título da Pesquisa Título da Pesquisa Título da Pesquisa Título da Pesquisa Autor 1 Autor 2 Autor 3 Instituição.
Transcrição da apresentação:

Melhorando Alinhamentos Locais Katia Guimarães

Alinhamentos locais têm aplicações em comparação de proteínas

Homólogos, Ortólogos, Parálogos Ancestors Gene Duplication a1 a2 Speciation b1 b2 c1 c2 Espécie c Espécie b Homologia: Similaridade atribuída a descendentes de um ancestral comum. Ortólogos: Seqüências homólogas em espécies diferentes, originárias de um ancestral comum, devido a speciation; pode ter função similar ou não. Parálogos: Seqüências homólogas dentro de uma mesma espécie, gerada por duplicação de genes.

Alinhamento e evolução Evolutionary history Correct alignment Incorrect evolutionary model Probable alignment model To build the correct alignment, we need to know evolutionary history. Without knowing the evolution, it’s impossible to build the correct alignment. Only meaningful for homologous sequences. A “good” alignment can indicate homology.

Scoring System para Alinhamentos de Proteínas Matrizes de Substituição Dois resíduos diferentes têm diferentes medidas de similaridade. PAM, BLOSUM Gap model Linear General

Aminoácidos diferentes possuem diferentes propriedades bio-químicas e bio-físicas que influenciam a sua mutabilidade e evolução tiny P aliphatic C small S+S G G I A V S C N SH L T D hydrophobic M Y K E Q F W H R positive aromatic polar charged

ILVCAGMFYWHKREQDNSTPBZX- XXXXXXXXXXX·······X···XX Hydrophobic ········XXXXXXXXXX·XXXXX Polar ··XXXX·········XXXXX··XX Small ···················X··XX Proline ····XX···········X····XX Tiny XXX···················XX Aliphatic ·······XXXX···········XX Aromatic ··········XXX·········XX Positive ·············X·X······XX Negative ··········XXXX·X······XX Charged

ILVCAGMFYWHKREQDNSTPBZX- XXXXXXXXXXX·······X···XX Hydrophobic ········XXXXXXXXXX·XXXXX Polar ··XXXX·········XXXXX··XX Small ···················X··XX Proline ····XX···········X····XX Tiny XXX···················XX Aliphatic ·······XXXX···········XX Aromatic ··········XXX·········XX Positive ·············X·X······XX Negative ··········XXXX·X······XX Charged

Substituições de aminoácidos Synonymous Conservative Non-Conservative Thr Tyr Leu Leu ACC TAT TTG CTG Thr Tyr Leu Leu ACC TAT TTG CTG ACC TCT TTG CTG Thr Ser Leu Leu Thr Tyr Leu Leu ACC TAT TTG CTG ACC TAC TTG CTG Thr Tyr Leu Leu ACC GAT TTG CTG Thr Asp Leu Leu Substituções sinônimas preservam a identidade do aminoácido. Substituições conservativas preservam o tipo de aminoácido.

Matriz de Substituição BLOSUM 62

MATRIZES BLOSUM The BLOSUM (BLOck SUbstitution Matrix) Family BLOSUM matrices are based on local alignments. BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62% divergence. All BLOSUM matrices are based on observed alignments; they are not extrapolated from comparisons of closely rel. prots. BLOSUM 62 is the default matrix in BLAST 2.0. Though it is tailored for comparisons of moderately distant proteins, it performs well in detecting closer relationships. A search for distant relatives may be more sensitive with a different matrix.

Matrizes PAM The PAM PAM (Point Accepted Mutation) Family The PAM matrices are based on global alignments of closely related proteins. The PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence. Other PAM matrices are extrapolated from PAM1.

Relação entre matrizes Blosum e PAM • BLOSUM50 (L=50%): mainly used for alignment with gaps • BLOSUM62 (L=62%): mainly used for ungapped alignment

Gap Penalty Functions O custo de k “spaces” não tem um custo linear. Inserções e remoções tendem a ocorrer em blocos, de forma que gaps tendem a ocorrer juntos. Desta forma, um gap de comprimento k tem um custo menor do que k gaps de compr. um. Ou seja, o esquema de score não é aditivo. O nosso alinhamento será sobre BLOCOS.

Tipos de Blocos Dois caracteres de  alinhados Uma série maximal de caracteres consecutivos de t alinhados com espaços em s Uma série maximal de caracteres consecutivos de s alinhados com espaços em t. s: AAC---AATTCCGACTAC t: ACTACCT------CGC-- s: A|A|C|---|A|ATTCCG|A|C|T|AC t: A|C|T|ACC|T|------|C|G|C|--

Scoring a Nível de Bloco No algoritmo de Programação Dinâmica, ao invés de pensarmos na coluna anterior, temos que pensar no bloco anterior. Note que blocos do tipo 2 e 3 (que envolvem gaps) não podem seguir blocos do mesmo tipo. Por quê? s: A|A|C|--|-|A|ATT|CCG|A|C|T|AC t: A|C|T|AC|C|T|---|---|C|G

Scoring a Nível de Bloco Ao invés de lembrarmos para cada par (i, j) apenas o melhor score entre s[1..i] e t[1..j], precisaremos lembrar o melhor score destes prefixos terminando com um tipo de bloco em particular  Três matrizes. Inicialização: a [0, 0] = 0 b[0, j ] = - w(j) c[i, 0] = - w(i) Todos os demais valores devem ter -

Scoring a Nível de Bloco Passo: a [i, j] = p (i, j) + max  a [i-1, j-1] b [i-1, j-1] c [i-1, j-1] b[0, j ] = max  a [i, j-k] – w(k), para 1  k  j c [i, j-k] – w(k), para 1  k  j c[0, j ] = max  a [i-k, j] – w(k), para 1  k  j b [i-k, j] – w(k), para 1  k  j Note que cada entrada do array b ou c depende de vários valores anteriores, porque o último bloco pode ter tamanho variável.

Ao final... O custo do melhor alinhamento entre as duas seqüências será dado pelo máximo entre a[n, m], b[n, m] e c[n, m]. A complexidade desta nova versão do algoritmo é O ( m n2 + m2 n). Para conseguir um alinhamento ótimo, basta proceder da mesma forma que antes, apenas tendo o cuidado de usar o array (bloco) correto.

Complementando o projeto anterior Adicionar uma terceira opção de tipo de alinhamento: Alinhamento local. Neste alinhamento, - Serão usados blocos, como indicado na aula de hoje. - Os custos das substituições serão dados pela matriz BLOSUM 62. - Os custos dos gaps serão lidos como entrada.