Definições e tipos de alinhamento. O uso do BLAST

Slides:



Advertisements
Apresentações semelhantes
Clustal-W Oscar Miranda.
Advertisements

ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
INTELIGÊNGIA COMPUTACIONAL
SQL Avançado Continuação
Software Básico Silvio Fernandes Universidade Federal Rural do Semi-Árido Departamento de Ciências Exatas e Naturais Ciência da Computação Aula.
Matrizes para Análise de Similaridade entre Seqüências.
Metaheurísticas Prof. Aurora Pozo Departamento de Informática Universidade Federal do Paraná
Seqüenciamento parcial de transcritos
Medida do Tempo de Execução de um Programa
Material III-Bimestre Wagner Santos C. de Jesus
Sistemas Operacionais I
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Heurísticas, algoritmos gulosos e aproximações
FACENS – Engenharia da Computação Inteligência Artificial Busca.
Informática Teórica Engenharia da Computação
Intr. à Biologia Computacional ALINHAMENTO DE SEQÜÊNCIAS.
Otimização por Colônia de Formigas (ACO)
Sistemas Operacionais
UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA
Otimização Inteira 5a. Aula Franklina.
Tópicos em otimização combinatória
LINGUAGENS DE PROGRAMAÇÃO PROF. DANIELA PIRES
Heurísticas, algoritmos gulosos e aproximações
Introdução e Busca Cega
Bioinformática (Alinhamento de Seqüências)
ALINHAMENTOS LOCAIS E SEMI-GLOBAIS
Tópicos Avançados em Inteligência Artificial
1 A COMPUTAÇÃO MODERNA Valdemar W. Setzer Depto. de Ciência da Computação da USP
Bancos de Dados.
Técnicas de Busca Heurística Problemas da IA complexos demais para serem solucionados por técnicas diretas: criam-se técnicas de busca aprorpiados; chamados.
ALGORITMOS Intensivo Janeiro e Fevereiro de 2011
Sistemas Operacionais
Alinhamento de sequências
Inteligência Artificial
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Distância Mínima de Edição Profa. Sandra de Amo Bacharelado em Ciência da Computação - UFU.
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Linguagens de Programação
Programação Dinâmica.
Melhorando Alinhamentos Locais Katia Guimarães
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS
Kátia de Paiva Lopes Orientador: Sandro Renato Dias Departamento de Sistemas de Informação Faculdade Fabrai-Anhanguera 1.
Domínios, Motivos, Padrões e Perfis
Algoritmos e Heurísticas para Seqüenciamento de DNA
Analise de Algoritmos e Notação Assintótica
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Aprendizado da rede O aprendizado, na maioria das vezes, constitui no ajuste do conjunto de pesos de modo que a rede consiga executar uma tarefa específica.
Conceitos básicos Professor Esp. Diego André Sant’Ana
Mailson Felipe da Silva Marques Johnson Cordeiro Sarmento
Professora: Ivaneide Alves de Araujo
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
Plano de Ensino Conceitos e Características Tipos de Banco de Dados
Alinhamento Global de Seqüências Katia Guimarães.
Distribuição Normal de Probabilidade
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Roteirização.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Acesso a Banco de Dados com o JDBC Prof. M.Sc. Ronnison Reges Vidal.
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
Persistência de dados e padrão DAO
Gestão da Tecnologia da Informação Fundamentos de Sistemas de Banco de Dados Faculdade de Tecnologia Senac Jaraguá do Sul.
Comportamento Assintótico
Transcrição da apresentação:

Definições e tipos de alinhamento. O uso do BLAST

Banco de dados Um banco de dados organiza e estrutura as informações de modo a facilitar consultas, atualizações e deleções de dados. A grande maioria dos bancos de dados é atrelado a um sistema denominado SGBD (Sistema de Gerenciamento de Banco de Dados). MySQL; postgreSQL; SQL Server; Oracle.

Algoritmo “Um algoritmo é uma seqüência finita e não ambígua de instruções para solucionar um problema ” Loops e decisões lógicas http://pt.wikipedia.org/wiki/Algoritmo

Problema do caixeiro viajante Problema: Qual o menor caminho para passar por todas as cidades e depois voltar a inicial?

Problema do caixeiro viajante Solução “ótima”: Calcular a distância total de todos os caminhos possíveis. Alta complexidade, (n-1)!

Heurística “heurística e método heurístico são denominações para o algoritmo que fornece soluções sem um limite formal de qualidade, tipicamente avaliado empiricamente em termos de complexidade (média) e qualidade das soluções”

Similaridade X Homologia Similaridade é a observação empírica das semelhanças entre duas seqüências e pode ser quantificada. Homologia implica ancestralidade comum entre duas seqüências, podendo apenas ser inferida e nunca quantificada.

Seqüências ortólogas e parálogas seqüências ortólogas: as quais têm origem em um ancestral comum seqüências parálogas: as quais têm origem em uma duplicação gênica Ex: Hemoglobina F e Hemoglobina A http://adi-38.bio.ib.usp.br/sismo/tipos.html

Alinhamento Comparação de duas ou mais sequências por meio de buscas de uma série de caracteres ou padrões de caracteres que estão na mesma ordem Tipos de alinhamento: Global Local Múltiplo

Para que fazer um alinhamento? Filogenia Busca de similaridade Anotação de seqüências Busca em bancos de dados de seqüências

Alinhamento local O alinhamento localiza fragmentos de sequências que são mais similares Query: 1 ALINHA 6 |||||| Sbjct: 1 ALINHA 6

Alinhamento global O alinhamento global se estende por toda a seqüência: ALINHAMENTO |||||| | ALINHAVAD_O

Alinhamento múltiplo Pode usar alinhamento local ou global (normalmente global) para alinhar múltiplas seqüências. Normalmente alinha duas a duas, e posteriormente vai juntando as mais similares

Parâmetros para avaliar um alinhamento Programação dinâmica Concodante - “match” Discordante - “mismatch” Ausente - “gap” ALINHAMENTO |||||| | ALINHAVAD_O

Algoritmo básico de programação dinâmica Si,j = MAX[ Si-1, j-1 + s(ai,bj) (match/mismatch), Si,j-1 + w (gap seq #1), Si-1,j + w (gap seq #2) ]  Variáveis do programa: ·        s(aibj) = +5 if ai = bj (match score) ·        s(aibj) = -3 if aibj (mismatch score) ·        w = -4 (gap penalty)

Matrizes de substituição http://mcb.berkeley.edu/labs/king/blast/docs/matrix_info.html PAM The rapid generation of mutation data matrices from protein sequences. Jones DT, Taylor WR, Thornton JM. Comput Appl Biosci. 1992 Jun;8(3):275-82. PMID: 1633570 http://www.bioinformatics.nl/tools/pam.html BLOSUM Amino acid substitution matrices from protein blocks. Henikoff S, Henikoff JG. Proc Natl Acad Sci U S A. 1992 Nov 15; 89(22): 10915-10919. PMCID: 50453

Matrizes de substituição Henikoff S. e Henikoff J.G. (1993) indicam a matriz BLOSUM62 como a matriz de substituição com melhores resultados para aplicações gerais no artigo “Performance evaluation of amino acid substitution matrices.” PS: Eles “inventaram” a BLOSUM62...

BLOSUM 62 http://www. icb. ufmg. br/~lbcd/grupo1/tabela1 BLOSUM 62 http://www.icb.ufmg.br/~lbcd/grupo1/tabela1.html - Tabela do código dos aminoácidos A R N D C Q E G H I L K M F P S T W Y V A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4

Algoritmo do BLAST O algorítimo BLAST é um método de busca heurística que busca por palavras de comprimento W (por padrão W = 3 no in blastp) que tenham valor de alinhamento (score) de pelo menos T quando alinhados com a seqüência consulta de acordo com a matriz de substituição utilizada. Palavras no banco de dados com valor igual ou maior à T são extendidas nas duas direções na tentativa de localizar um alinhamento ótimo local sem “gaps” ou HSP (high scoring pair) com um valor (“score”) de pelo menos S ou um E value menor que o especificado como limite superior. HSPs que estiverem dentro desses critérios serão reportadas pelo BLAST, desde que seu número não seja maior que o limite especificado de descrições ou alinhamtentos a serem reportados.

Algoritmo do BLAST