A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Clustal-W Oscar Miranda. 17/06/2001 ClustalW Conteúdo Problema Características A ferramenta Algoritmos Referências.

Apresentações semelhantes


Apresentação em tema: "Clustal-W Oscar Miranda. 17/06/2001 ClustalW Conteúdo Problema Características A ferramenta Algoritmos Referências."— Transcrição da apresentação:

1 Clustal-W Oscar Miranda

2 17/06/2001 ClustalW Conteúdo Problema Características A ferramenta Algoritmos Referências

3 17/06/2001 ClustalW Alinhamento Múltiplo Comparando Várias Seqüências Visualmente – Manter bases conservadas -----GC-GATAG---- CAGTCGCTGATCGTACG Quantificando a qualidade de um alinhamento – Tratamento de gaps e substituições

4 17/06/2001 ClustalW Para quê? Encontrar padrões que caracterizam famílias de proteínas Detectar ou demonstrar homologia entre novas seqüências e famílias de seqüências existentes Ajuda a predizer as estruturas secundárias e terciárias de novas seqüências Sugerir oligonucleotídios primários para PCR Análise da evolução molecular

5 17/06/2001 ClustalW Comparando Várias Seqüências Caso geral do alinhamento de entre 2 seqüências – O(n 2 ) Alinhamento Ótimo – Programação dinâmica O(k 2 2 k n k ) – NP-completo Tree Alignment – Qualidade aceitavel – Rápido para poucas seqüências Outras Heurísticas – Busca em base de dados

6 17/06/2001 ClustalW Clustal-W: A ferramenta Disponível gratuitamente Código aberto Várias plataformas Parâmetros definidos pelo usuário Reconhece automaticamente vários formatos – NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF e GDE flat file. Clustal-X – Versão mais amigável – Alinhamento colorido – Ajuda/explicação de parâmetros

7 17/06/2001 ClustalW Processo Dividido em 3 passos Matriz de distâncias Geração da árvore Alinhamento

8 17/06/2001 ClustalW Processo: Passo 1 Passo 1 – É gerada a matriz de distâncias – Todas as seqüências são comparadas par a par – Dois métodos: Fast Approximate method – Rápido Full dynamic programming – Eficaz mas lento – default

9 17/06/2001 ClustalW Processo: Passo 1 Programação dinâmica – Alinha todas as seqüências par a par – Algoritmo de Myers e Miller modificado – Usa Matriz de pesos Proteínas: PAM, BLOSUM, GONNET DNA: IUB(bestfit), clustal – Parâmetros GAP Abertura de gap: GOP Extensão de gap: GEP

10 17/06/2001 ClustalW Algoritmo de Myers e Miller Espaço linear Cálculo do escore em espaço linear – Cada elemento da matriz é calculado com apenas 3 vizinhos

11 17/06/2001 ClustalW Algoritmo de Myers e Miller

12 17/06/2001 ClustalW Algoritmo de Myers e Miller Dividir para conquistar – Encontrar na linha do meio o ponto que faz parte do alinhamento

13 17/06/2001 ClustalW Algoritmo de Myers e Miller Path(i 1,j 1, i 2, j 2 ) midi = (i 1 +i 2 )/2 S + <- alinhamento(i 1, j 1, midi, j 2 ); S * <- alinhamento_reverso(midi, j 1, i 2, j 2 ); midj = j entre j 1 e j 2 tal que S + [j] + S * [j] é máximo path(i 1, j 1, midi, midj); path(midi, midj, i 2, j 2 );

14 17/06/2001 ClustalW Matriz de Distância >S1 ATCTCGAGA >S2 ATCCGAGA >S3 ATGTCGACGA >S4 ATGTCGACAGA >S5 ATTCAACGA S1S2S3S4S5 S1- S287- S S S

15 17/06/2001 ClustalW Processo: Passo 1 Fast Approximate – Algoritmo de Wilbur e Lipman – Alinhamento Aproximado – O(n + m + M 2 ) M: número de fragmentos

16 17/06/2001 ClustalW Algoritmo de Wilbur e Lipman 1. Seleciona os fragmentos onde cada fragmento é uma tripla (i,j,k) tal que as k-tuplas de símbolos das duas seqüências casam; x i =y j, x i+1 =y j+1,...,x i+k =y j+k O(n+m+M) Um fragmento (i,j,k) é dito abaixo(i,j,k) se i+k<=i e j+k<=j; Quando as substring no fragmento (i,j,k) aparecem estritamente depois das de (i,j,k) nas strings de entrada. O tamanho do fragmento (i,j,k) é k. A diagonal do fragmento (i,j,k) é o número j – i e a diagonal reversa é i + j;

17 17/06/2001 ClustalW Algoritmo de Wilbur e Lipman Um alinhamento de fragmentos é definido como uma seqüência de fragmentos tais que, se (i,j,k) e (i,j,k) são fragmentos adjacentes na seqüência, ou (i,j,k) está abaixo de (i,j,k) em uma diagonal diferente(um gap), ou os dois fragmentos estão na mesma diagonal, com i> i(mismatch).

18 17/06/2001 ClustalW Matriz de Distância 2 Fast-Approximate Programação dinâmica S1S2S3S4S5 S1- S262- S S S S1S2S3S4S5 S1- S287- S S S

19 17/06/2001 ClustalW Processo: Passo 2 Construção da árvore a partir da matriz de distâncias – Usada como guia para o próximo passo Método Neighbour-Joining Gera arquivo que pode ser visualizado posteriormente

20 17/06/2001 ClustalW Método Neighbor-Joining Saitou and Nei (1987) Algoritmo guloso – Inicia Com uma Árvore Estrela – A cada iteração junta os dois nós da raiz os quais a soma das divergências de cada para o resto da árvore seja mínimo – Estima o tamanho do novo nó a partir dos valores de divergência dos nós escolhidos

21 17/06/2001 ClustalW Exemplo Neighbor-Joining S1S2S3S4S5 S1- S287- S S S

22 17/06/2001 ClustalW Processo: Passo 3 Alinhamento Progressivo baseado na árvore filogenética – Feng e Doolittle Diferentes Penalidades para GAP Opção para modificar valores iniciais Valores atualizados durante o processo Utiliza o Algoritmo de Myers e Miller modificado para o alinhamento do consenso

23 17/06/2001 ClustalW Tratamento de GAPs Parâmetros iniciais dados pelo usuário – Abertura de gap(GOP) e extensão de gap(GEP) GAPs terminais não tem custo Escolha dos valores automaticamente durante o processo de alinhamento

24 17/06/2001 ClustalW GAP: valores iniciais 1) GOP dependente da matriz de pesos utilizada – Variar a penalidade dos gaps de acordo com diferentes matrizes melhora a qualidade. 2) Dependência no grau de similaridade das seqüências – Uso do percentual de semelhança entre seqüências para aumentar ou diminuir o GOP.

25 17/06/2001 ClustalW GAP: valores iniciais 3) Dependência no tamanho das seqüências – Crescimento do escore com o tamanho das seqüências GOP = GOP_origem + log(min(N,M)))* (escore médio de resíduos não casados) * (percentual de semelhança)

26 17/06/2001 ClustalW GAP: valores iniciais 4) Dependência na diferença do tamanho das seqüências – Se uma seqüência é muito menor que a outra, GEP é aumentado para inibir muitos gaps longos na seqüência menor. GEP = GEP_origem * ( |log(N/M)| )

27 17/06/2001 ClustalW GAP: penalidades localizadas Antes de cada alinhamento gera uma tabela de gaps para cada posição. 1) Diminuição da penalidade para gaps existentes – Se já existe um gap na posição o GOP é reduzido em proporção ao número de seqüências com gap, e o GEP é diminuído pela metade. GOP = GOP*0.3*(No_seqüências_sem_gap/No_seqüências)

28 17/06/2001 ClustalW GAP: penalidades localizadas 2) Aumento da penalidade proximo a gaps existentes – Se uma posição não possui gaps mas está a 8 residuos de um gap, o GOP é modificado para: GOP = GOP*(2 + ((8-distancia_do_gap)*2)/8) 3) Redução da penalidade em trecho hidrófilos – Uma seqüência de 5 resíduos hidrófilos é considerada um trecho hidrófilo – Se uma posição não há gaps e existe um trecho hidrófilo, o GOP é reduzido por um terço

29 17/06/2001 ClustalW GAP: penalidades localizadas 4) Penalidades especificas por resíduo – Se não há trechos hidrófilos e não há gaps em uma posição então o GOP é multiplicado pela média números atribuídos a cada aparição do resíduo na posição – Números provenientes da tabela de Pascarella e Argos com fatores de modificação do gap para cada resíduo

30 17/06/2001 ClustalW Matriz de Pesos Matrizes usadas para cálculo de similaridade entre amino ácidos – Dados auxiliares Dependendo da semelhança entre as seqüências uma matriz mais flexível é escolhida Pode-se definir uma matriz a ser utilizada

31 17/06/2001 ClustalW Matriz de Pesos Séries – GONNET(default) [35-100%]: Gonnet80; [25-35%]: Gonnet120; [0-25%]: Gonnet250 – BLOSUM(Heinkoff) [80-100%]: Blosum80; [60-80%]: Blosum62; [30-60%]: Blosum45; [0-30%]: Blosum30 – PAM(Dayhoff) [80-100%]: Pam20; [60-80%]: Pam60; [40-60%]: Pam120; [0- 40%]: Pam350 DNA – IUB (BESTFIT) (padrão) – CLUSTAL

32 17/06/2001 ClustalW Seqüências Divergentes Atrasar o alinhamento das seqüências mais divergentes para diminuir o erro na fase inicial do alinhamento

33 17/06/2001 ClustalW Exemplos

34 17/06/2001 ClustalW Referências Programas, documentação e artigos sobre Clustal-W e Clustal-X – Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position specific gap penalties and weight matrix choice. Nucleic Acids Research, 22(22): Eppstein, D.A. (1989) Efficient Algorithms for Sequence Analisys With Concave and Convex Gap Costs Neighbor-Joining –


Carregar ppt "Clustal-W Oscar Miranda. 17/06/2001 ClustalW Conteúdo Problema Características A ferramenta Algoritmos Referências."

Apresentações semelhantes


Anúncios Google