Alinhamentos e Busca de Similaridade Ariane Machado Lima.

Slides:



Advertisements
Apresentações semelhantes
Clustal-W Oscar Miranda.
Advertisements

Integridade de Dados em Memórias Cache
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
Lógica e Estrutura de Dados Fundamentais Professor: Eduardo O. Teles
Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.
Matrizes para Análise de Similaridade entre Seqüências.
Antonio Figueira Centro de Energia Nuclear na Agricultura
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Seqüenciamento e montagem do genoma humano e análise de transcriptoma
Evolução Molecular Metodologias de Análise
DIALÉTICA EVOLUTIVA E EVIDÊNCIAS DA EVOLUÇÃO
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Aula prática 6 Vetores e Matrizes
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
[Clayton J Pereira] [Leonilson Kiyoshi] [Prof. Dr. Vitor Leite]
CS276: Information Retrieval and Web Search
Treinamento do Microsoft® Access® 2010
Cálculo Numérico / Métodos Numéricos
Organização Gênica de Eucariotos
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Bioinformática (Alinhamento de Seqüências)
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
Bancos de Dados.
Sistemas Operacionais
Algoritmos Genéticos Ricardo Prudêncio.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Alinhamento de sequências
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Equações algébricas e transcendentais
Análise Computacional de Seqüências Nucleotídicas e Protéicas
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Resolução de Problemas de Busca
Melhorando Alinhamentos Locais Katia Guimarães
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS
Hierarquia de Memória Arquitetura de Computadores Aula 4 – Memória 23/08/2012 Bruno Iran Ferreira Maciel Mestrando em Ciências da Computação – Cin/UFPE.
Marcadores mais utilizados Almir R. Pepato. Definição de marcador molecular Uma sequência nucleotídica ou de aminoácidos detectável experimentalmente.
Domínios, Motivos, Padrões e Perfis
Plano de Aulas  Estruturas de aceleração  Descarte contra volume de visão  Descarte por oclusão  Grafo de cena: OpenSceneGraph  Traçado de raios em.
Algoritmos e Heurísticas para Seqüenciamento de DNA
Algoritmos em Grafos Celso C. Ribeiro Caroline T. Rocha.
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Algoritmos Genéticos Ricardo Prudêncio.
Programação Computacional Aula 9: Meu primeiro programa em C
Professora: Ivaneide Alves de Araujo
VELOCIDADE OU ACELERAÇÃO?
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
Alinhamento Global de Seqüências Katia Guimarães.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
Busca Heurística Prof. Valmir Macário Filho. 2 Busca com informação e exploração Capítulo 4 – Russell & Norvig Seção 4.1 Estratégias de Busca Exaustiva.
Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias.
Comparação de Genoma Completo Dilvan Moreira (Baseado em material do prof. André Carvalho)
Estagiário PAE: Pedro Shiguihara-Juárez Professor: Dilvan de Abreu Moreira (Baseado no material do prof. André Carvalho) Instituto de Ciências Matemáticas.
Transcrição da apresentação:

Alinhamentos e Busca de Similaridade Ariane Machado Lima

Busca de identidade Identificar o que é determinada seqüência Ex.acabou de seqüenciar, seria contaminante? Outras fases de um projeto de seqüenciamento

Seqüenciamento shot-gun

Mascaramento de vetor

Montagem

Inferência de função a partir de similaridade

Nem sempre funciona...

Estrutura 3D de proteínas

2 seqüências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

Processo evolutivo

Similaridade (e não identidade) entre os aminoácidos

Evolução convergente CUIDADO: Duas seqüências similares e com a mesma função podem não ter o mesmo ancestral...

Homologia, paralogia e ortologia Homologia: 2 seqüências são homólogas se elas possuem uma seqüência ancestral comum Paralogia: homologia por duplicação Ortologia: homologia por especiação

Homologia, paralogia e ortologia Paralogia Ortologia

Se duas (ou mais) seqüências são parecidas: – elas podem ser homólogas – elas podem ter funções similares – elas podem ter a mesma estrutura Identidade, similaridade e homologia

Busca de similaridade Predição de genes Predição de função Predição de estrutura Inferência de árvores filogenéticas

Alinhamentos Pairwise: 2 seqüências Múltiplo: mais de 2 seqüências

Alinhamentos de 2 seqüências (pairwise) “Deixar 2 seqüências o mais parecidas possível” ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Ajustando as posições de suas letras, se necessário usando espaços:

ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15)

Sistema de scores Pontos para match (ex: +2) Penalidades para mismatch (ex: -1) Penalidades para gap – abertura (ex: -3) – extensão (ex: -1)

ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: ??? ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: ???

Identidade, similaridade e homologia Identidade Similaridade Homologia Tipo de Medida Quantitativa QUALITATIVA Sentido quantos idênticos quantos parecidos TEM ou NÃO TEM um ancestral comum

Tipos de alinhamentos Global Local Semi-global

Alinhamento global QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME---

Alinhamento global Aplicação: – comparar 2 proteínas (ex. para inferir estrutura secundária)

Alinhamento global Algoritmo Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA

Alinhamento local QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME--- QUER |||| QUER ROSAVERME ||| ||||| ROSOVERME

Alinhamento local Aplicações: – Encontrar um gene em um genoma – Identificar éxons – Identificar domínios proteicos – Identificar possíveis homólogos em um banco de dados

Alinhamento Local Algoritmo Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – bom para mascaramento – FASTA – BLAST – BLAT

Alinhamento semi-global ---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Alinhamento semi-global Aplicação: montagem de genomas!

Alinhamento múltiplo

Resumindo Alinhamento pairwise – global – local – semi-global Alinhamento múltiplo (sempre global)

Voltando ao sistema de score... Match/mismatch pode ser substituído por – uma matriz 4x4 (nucleotídeos) – uma matriz 20x20 (aminoácidos)

Similaridade entre os aminoácidos

Matrizes de score (matrizes de substituição) q ij : probabilidade do aa i ser substituído pelo aa j p i : probabilidade do aa i m ij = log (q ij / p i p j ) = m ij M ij = 1/ log (q ij / p i p j ) = M ij

Como achar q ij, p i e p j ? Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição)

Matrizes PAM de aminoácidos – Point Accepted Mutation Dayhoff, 1978 Processo: – Alinhamento de conjuntos de seqüências relacionadas (85% id) – Construção de árvores filogenéticas – Cálculo da freqüência de substituição de cada par de aa – Normalização das freqüências: 1% de mudança ~ 50 milhões de anos (PAM1)

Matrizes PAM de aminoácidos – Point Accepted Mutation Em um período de 2 PAMs, pode ter havido A  ?, e então ?  D Extrapolação: PAM2 = PAM1 x PAM1 PAMy = PAM1 x PAM1 x.... x PAM1 PAM120: 40% de identidade PAM250: 20% de identidade

PAM250 Diagonal Hidrofóbicos Hidrofílicos

Problemas das PAMs Inferida por um conjunto restrito de proteínas Extrapolação Muitas novas proteínas foram seqüênciadas desde 78...

Matrizes BLOSUM de aminoácidos Henikoff & Henikoff, 1992 Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS) Cálculo de freqüência de substituição de cada par de aa BLOSUMx: blocos de seqüências com no máximo x% de identidade Ex: BLOSUM62 e BLOSUM85

BLOSUM62 Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X *

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: – PAMs – BLOSUMs Para encontrar alinhamentos mais longos e com menor similaridade: – PAMs – BLOSUMs mais baixas mais altas

Papel dos gaps Veremos na aula prática....

Significância de scores Scores e a distribuição de Gumbel P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

Significância de scores E-value é um número real não negativo Quanto menor melhor!!!! E-value depende de... E(S) = Kmne - S... por isso não existe número mágico

BLAST Basic Local Alignment Search Tool NCBI BLAST ou WU-BLAST Heurísticas

“Palavras” do BLAST (W) MLI LII MLIIKRDELVISWASHERE seqüência query IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE todas as palavras de tamanho 3 com sobreposição

Outros programas BLAST PSI-BLAST – Position-Specific Iterated BLAST: –busca iterativa a partir de seqüências encontradas PHI-BLAST – Pattern-Hit Initiated BLAST: –expressões regulares + alinhamento local nos matches MEGABLAST: –algoritmo guloso para acelerar buscas de seqüências altamente similares (até 10x)

BLAT – Blast Like Alignment Tool Mais rápido e mais preciso (para seqüências altamente similares) Aplicação: mapeamento de seqüências (ex: transcritos) Mantém um índice de todo o banco em memória (non-overlapping k-mers)

Formato FASTA >Identificador da seqüência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

Programas standalone Programas como Blast, BLAT e muuuuitos outros: – via web server – standalone (linha de comando) – Perl scripts!!!! netblast: linha de comando, mas executa remotamente

Similaridade de seqüências Aula Prática

Ex.1: Identidade e similaridade Qual é o melhor alinhamento? a) 100% (10/10) b) 91% (95/104) c) 74% (80/108) d) 53% (59/111)

Alinhamento global Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA Alinhamento múltiplo: – ClustalW – T-Coffee

Alinhamento local Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – FASTA – BLAST

Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de camundongo

Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de cavalo x2

Ex.2: needle – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

Ex.3: water Vamos alinhar as seqüências do ex. 2 – Gaps default (10.0 ; 0.5) – Homework: Conservador (100.0 ; 10.0) Flexível (1.0 ; 0.1)

Ex.4: needle Vamos alinhar as seqüências de um mRNA de hemoglobina de camundongo com seu locus genômico – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

Ex.5: water Vamos alinhar as seqüências do exercício 4 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

Ex.6 - Matrizes BLOSUM Usando a matriz de escore default BLOSUM62, você encontrou duas proteínas que divergiram bem recentemente. Se você quiser refinar seu alinhamento, que matriz você deveria usar (com número mais alto ou mais baixo)?

Ex. 7 - Score e E-value Ordene por relevância: a) Score = 155 bits (393), Expect = 4e-37 Identities = 79/150 (52%), Positives = 101/150 (67%), Gaps = 1/150 (0%) b) Score = 74.3 bits (181), Expect = 2e-12 Identities = 36/105 (34%), Positives = 57/105 (54%), Gaps = 0/105 (0%) c) Score = 347 bits (889), Expect = 1e-94 Identities = 167/167 (100%), Positives = 167/167 (100%), Gaps = 0/167 (0%) d) Score = 189 bits (480), Expect = 3e-47 Identities = 88/151 (58%), Positives = 114/151 (75%), Gaps = 1/151 (0%) e) Score = 89.7 bits (221), Expect = 4e-17 Identities = 52/127 (40%), Positives = 68/127 (53%), Gaps = 5/127 (3%)

Ex. 8 - BLAST e filtros Vamos buscar seqüências similares a Qual um programa apropriado? 1) Ligue os filtros 2) Desligue os filtros

Ex. 9 - BLASTP Busque no SWISSPROT seqüências similares à hemoglobina de camundongo

Ex ? Você seqüenciou uma seqüência de DNA – Agora você quer encontrar seqüências similares com alta qualidade de anotação – Assim, você quer começar fazendo uma busca no SWISSPROT Que programa usar?

Ex ? Você tem uma seqüência de proteína (hemoglobina de camundongo) e quer saber em qual chromossomo está o gene desta proteína. Qual programa usar?

Ex: 12 - Seqüências de proteína x DNA Seqüências de DNA são menos conservadas que seqüências de aminoácidos, que por sua vez são menos conservadas que a estrutura de uma proteína Se você quer inferir função, qual das duas usar? Se você quer detalhes mais finos (ex: distância evolutiva), qual usar?

Ex.13 - BLAT Útil para buscar seqüências altamente similares (de forma mais rápida) Utilize a seqüência de hemoglobina de camundongo para fazer seu mapeamento no genoma de camundongo

Ex.14 - BLAT Dá para fazer o mesmo com seqüência de proteína? Utilize a seqüência de hemoglobina de proteína de camundongo para fazer seu mapeamento no genoma de camundongo

Ex PSI-BLAST Você se pergunta se há parentes próximos da família de antígenos de membrana no SWISSPROT. Para buscá-las, você decide usar o PSI-BLAST que usa seqüências similares à sua seqüência query (antígeno de membrana) para obter uma descrição mais flexível dessa família.

Ex PHI-BLAST Além das vantagens do PSI-BLAST, você também quer definir um “padrão” que as seqüências devem ter

Referências Caprichado: Mount - Básico: O'Reilly - BLAST: