Antonio Figueira Centro de Energia Nuclear na Agricultura

Slides:



Advertisements
Apresentações semelhantes
Clustal-W Oscar Miranda.
Advertisements

Unidade VII Algoritmos Genéticos
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
O estudo da história dos organismos através das macromoléculas...
Matrizes para Análise de Similaridade entre Seqüências.
Universidade Federal de Viçosa
MODELAGEM ESTOCÁSTICA DE SEQÜÊNCIAS DE DNA ATRAVÉS DE CADEIAS COM MEMÓRIA DE ALCANCE VARIÁVEL Denise Duarte 11 de junho de 2010.
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Introduction of RefSeq and LocusLink: resources at the NCBI
Usando ArcMap Carlos Ruberto Fragoso Júnior www. ctec. ufal
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Reconhecimento de Padrões Computação Evolutiva
O Surgimento dos Sistemas de Bioinformática
Anotação de SAGE Tags Rodrigo Martins Brandão.
Bancos de Dados Biológicos
Formato de Arquivos e Bancos de Dados Biológicos
Formato de Arquivos e Banco de Dados Biológicos II
Seqüência e qualidade. Seqüência e qualidade Uso da bioinformática na análise genômica.
Evolução Molecular Metodologias de Análise
NUCLEOTÍDEOS E ÁCIDOS NUCLÉICOS
NUCLEOTÍDEOS E ÁCIDOS NUCLÉICOS
Vírus A maior de todas as pragas virtuais.
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Aprendizado de Máquina
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Emanuel Teixeira Nº24924 Bioengenharia
Inteligência Artificial
Universidade Federal de Santa Catarina Programa de Pós-graduação em Bioquímica Apoios aos alunos de graduação Florianópolis, 09 de novembro de 2010.
Uso da bioinformática na análise genômica TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG.
Genômica e Proteômica 1) Genômica Estrutural O que é Genômica ?
Desempenho de Algoritmos Genéticos
Resolução de problemas por meio de busca
Evolução Molecular O uso de macromoléculas como documentos históricos.
Softwares de Análises Estatísticas em Biologia Sistêmica
Bancos de dados para análise de sequências de DNA
Bioinformática (Alinhamento de Seqüências)
Buscando Informação Médica na Internet
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Bancos de Dados.
Recursos de Informação em Genética Médica na Internet Renato M.E. Sabbatini, PhD Disciplina de Informática Médica Depto. Genética Médica Faculdade de Ciências.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Diogo Silva Nº  1988 NCBI- Banco de dados público contendo sequências de DNA dos mais diversos organismos  1995 Técnica do microarranjo -perfil.
Introdução à Biologia Molecular História Cadeias de DNA e de Proteínas.
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
A database of Orthologous Mammalian Markers Rita Monteiro Nº25486.
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Allan Lima  Revisão sobre BDs Biológicos  Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias  The Gene Ontology 
Melhorando Alinhamentos Locais Katia Guimarães
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Algoritmos e Heurísticas para Seqüenciamento de DNA
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Bioinformática Felipe G. Torres.
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Bioinformática e O Projeto GENOMA EST da CANA
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Taís Sineiro Herig Laboratório de Genômica e Expressão / UNICAMP
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS
Transcrição da apresentação:

Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São Paulo - Piracicaba, SP figueira@cena.usp.br

Dogma Central

Estrutura de Gene Eucarioto

Estrutura de Gene Eucarioto

Banco de Dados NCBI - National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ Iniciado em 1988 Missão: melhor entendimento dos processos moleculares que afetam a saúde humana NCBI cria banco de dados públicos e recursos de biologia computacional; e disseminação de informações

http://www.ncbi.nlm.nih.gov/

Histórico de Seqüências do GenBank

X Ano Pares Base Sequences 1982 680 338 606 1983 2 274 029 2 427 1984 3 368 765 4 175 1985 5 204 420 5 700 1986 9 615 371 9 978 1987 15 514 776 14 584 1988 23 800 000 20 579 1989 34 762 585 28 791 1990 49 179 285 39 533 1991 71 947 426 55 627 1992 101 008 486 78 608 1993 157 152 442 143 492 1994 217 102 462 215 273 1995 384 939 485 555 694 1996 651 972 984 1 021 211 1997 1 160 300 687 1 765 847 1998 2 008 761 784 2 837 897 1999 3 841 163 011 4 864 570 2000 11 101 066 288 10 106 023 2001 15 849 921 438 14 976 310 2002 28 507 990 166 22 318 883 2005 56,037,734,462 52 016 762 X

Tipos de Banco de Dados Abrangentes Nucleotídeos Proteínas GenBank (more...) EMBL: European Molecular Biology Laboratory DDBJ: DNA Data Bank of Japan Proteínas Swiss-Prot Protein Information resource UniProt Estrutura de Proteínas PDB: Protein Data Bank MMDB: Molecular Modeling Database (baseado em PDB) Mapas e Genoma Entrez Genomes

Tipos de Banco de Dados Especializados Organismo-Específico Funcional Human Genome Sequencing GDB: Genome Database (human mapping information) MGD: Mouse Genome Database SGD: Saccharomyces Genome Database Funcional TRANSFAC: Transcription Factors Vector Database Organelle Genome Database GOBASE Tecnologia de Seqüenciamento EST: Expressed Sequence Tags GSS: Genome Survey Sequences STS: Sequence Tagged Sites HTG: High Throughput Sequences

Tipos de Banco de Dados Nível de Curadoria Preliminar Arquivo seqüências não terminadas - localizadas nos centros de seqüenciamento Arquivo repositório da informação redundante (várias seqüências do mesmo gene) submissor mantém controle editorial sobre registros Curadoria (cont.) Revisados (cont.)

Tipos de Banco de Dados Nível de Curadoria Curadoria Revisadas não-redundante cada registro pretende conter conhecimento corrente registro contém informações adicionais RefSeq: NCBI Database of Reference Sequences (mRNAs, proteínas, contigs genômicos e genomas/cromossomas completos) Swiss-Prot (seqüências de proteínas) EntrezGene (resumo de informações sobre loci genéticos em humanos, rato, camundongo, drosophila, levedura e zebrasfish) Clusters of Orthologous Groups (COGs) (sistema natural de família de genes de genomas completos) Revisadas cada registro revisado e comentado por especialistas ex, PROW: Protein Resources on the Web, revisões curtas sobre proteínas e famílias

http://www.ebi.ac.uk/Databases/

http://www.ddbj.nig.ac.jp

Estrutura do GenBank http://www.ncbi.nlm.nih.gov/Database/index.html

Entrez

PubMed

TaxBrowser

BLAST

Busca em Banco de Dados Por texto - palavra chave Entrez no NCBI Por seqüência: nucleotídeos ou amino ácidos (proteínas) BLAST no NCBI Basic Local Alignment Search Tool

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html#LocusA

Busca em Entrez Três níveis de complexidade de busca Básico Enter: cystic fibrosis human Avançado (cont.) Complexo Boolean Enter: cystic fibrosis[titl] AND human[orgn]

Busca em Entrez Avançado Step 1: Select "Limits" option Enter: cystic fibrosis Select "Title Word" as search field Press "Go" Step 2: Enter: human Select "Organism" as search field Step 3: Select "History" option Enter: #1 AND #2 (Note that Boolean operators must be in upper case. The OR and NOT operators are also available, and parentheses can be used to nest the search.)

Busca em BLAST Por seqüência de nucleotídeos ou de amino ácidos (proteínas) Comparação de seqüências para identificar similaridade significativa de DNA e PTN para inferir função, origem, filogenia Alinhamento: origem ou função comum Alinhamento Global ou Local (segmentos)

Busca em BLAST BLAST: Basic Local Alignment Search Tool realiza comparações entre pares de seqüências buscando regiões com similaridade local NCBI BLAST WU-BLAST (Washington University) FASTA SSEARCH http://www.ebi.ac.uk/fasta33/

Busca em BLAST Similaridade x Homologia identidade = ocorrência do exato mesmo nucleotídeo ou amino ácido na mesma posição nas seqüências alinhadas similaridade = considera combinações próximas e avaliada por medidas de diferença/igualdade homologia = dividem mesma ancestralidade com significado evolutivo Homologia => conceito central de Biologia

Busca em BLAST Algoritmos de BLAST, FASTA, SSEARCH NÃO AVALIAM HOMOLOGIA MEDEM SIMILARIDADE E IDENTIDADE DE SEQÜÊNCIAS

Busca em BLAST Por que saber o quanto 2 seqüências são similares? Porque a Natureza resolveu o mesmo problema várias vezes com significativa similaridade entre as soluções!

Busca em BLAST Alinhamento x Similaridade Requer meios de avaliar: o que fazer primeiro? = Círculo vicioso Requer meios de avaliar: combinações perfeitas e imperfeitas (matches e mismatches) inclusão de gaps (intervalos) Matrizes ou Tabela de Valores: descrevem a probabilidade com sentido biológico de uma base ou amino ácido ocorrer num alinhamento

Busca em BLAST Comparação de nucleotídeos -> por identidade matches: tipicamente +1 ou +5 mismatches: tipicamente -1 ou -4 Comparação de amino ácidos -> mais complexo! função natureza química e freqüência matrizes de substituição penalidades maiores: menor funcionalidade freqüência de ocorrência

Busca em BLAST

BLAST blastn DNA DNA DNA blastp PTN PTN PTN blastx DNA PTN PTN Programa Seqüência Base Comparação blastn DNA DNA DNA blastp PTN PTN PTN blastx DNA PTN PTN tblastn PTN DNA PTN tblastx DNA DNA PTN

BLAST tblastn blastn blastp blastx tblastx Nucleotide Protein Sequence Em 6 quadros Nucleotide Sequence Protein Sequence Translated Protein Sequence tblastn blastn blastp blastx Nucleotide DB Protein DB tblastx Translated DB (contain amino acid sequences) Em 6 quadros

Busca em BLAST Matrizes de Substituição: baseadas em alinhamentos de alta confiança de diversas proteínas homólogas, avaliando freqüência de todas as substituições Point Accepted Mutation - PAM Blocks substitution - BLOSUM

Point Accepted Mutation - PAM calculada baseada num modelo de distância evolucionária do alinhamento de seqüências próximas (mín. 85% idênticas) 34 super-famílias agrupadas em 71 árvores filogenéticas com 1.572 substituições substituições separadas por tipo, normalizadas por freqüência de uso e convertidas para log dos odds Matriz PAM1 = prob. mudança de 1 aa em 100 Multiplicando a matriz por ela mesmo - matriz com graus arbitrários de proximidade

Point Accepted Mutation - PAM250

Blocks Substitution - BLOSUM seqüências selecionadas para evitar aquelas muito relacionadas de ocorrência freqüente banco de dados - BLOCKS 2.000 blocos de segmentos de seqüência sem gaps alinhadas, caracterizando > de 500 grupos de famílias de ptns próximas seqüências dos blocos agrupadas freqüência de susbtituições entre grupos na família estimadas - prob. substituição importante nível de cut-off de % de identidade de seqüência que define os grupos (clusters) - ex. BLOSUM62

Blocks Substitution - BLOSUM62

Busca em BLAST Matrizes de Substituição do BLAST-NCBI Point Accepted Mutation - PAM PAM30, PAM70 Blocks substitution - BLOSUM BLOSUM45, BLOSUM62, BLOSUM80

Busca em BLAST Penalidades por Intervalo (gaps) prevê inserções e deleções penalidades - limitar introdução mas flexível para extender (ocorre vários resíduos) BLAST-NCBI penalidades existência: 7, 8 e 9 10, 11 e 12 extensão: 2 1 http://www.ncbi.nlm.nih.gov/BLAST/

Busca em BLAST Programação Dinâmica solução ótima de busca de alinhamentos algoritmo de Smith-Waterman alinhamento local ao invés de global -mais relevante biologicamente

Busca em BLAST Heurística: Sensibilidade x Rapidez FASTA: usa palavras exatas (strings) BLAST: usa matriz de scores (BLOSUM62) usa como semente de alinhamento com alto score realiza filtragem de seqüências repetidas (ex. CA) nos primeiros passos, gaps não são permitidos

(a) 1. Filtra regiões de baixa complexidade 2. Gera lista de seqüências pequenas 11 bases nt ou 3 aa 3. Determina pares de maior score baseado na matriz e sem gaps 4. Reduz lista por limite estabelecido (b) 5. Busca no banco de dados combinações perfeitas para a lista gerada 6. Procura extender o alinhamento a partir dessa “semente” (c) 7. Tenta extender alinhamento até o score continuar a crescer 8. Gaps são incluídos 9. Determina significância de cada score calculando valor E.

BLAST Estatísticas: raw score: soma de scores de substituições e gaps (função das matrizes e não comparável) bit scores: versão em escala do score valor E: representa o número de alinhamentos esperados, equivalentes ou melhores do que o obtido numa busca contra um banco de dados aleatório com a mesma composição (ao acaso)

BLAST Submissão de seqüência - query Alinhamento no banco de dados - target Melhores de escores são relatados usar valor E valor E <0.01 Submissão: DNA, PTN ou DNA como PTN Proteínas: melhor para identificar homologias DNA: degeneração do terceira base do códon

http://www.ncbi.nlm.nih.gov/BLAST/

Blastn

Blastp

BLAST Interpretação de função: cautelosa! Similaridada restrita a domínios Área de cobertura do alinhamento Erros de anotação no banco de dados Falta de homologia - distanciamento evolutivo

Alinhamento Múltiplo Alinhamento de 3 ou mais seqüências, com inserção de espaços (gaps) para que resíduos com posição estrutural e/ou co-ancestralidade comuns estejam alinhados na mesma coluna. Algoritmo: ClustalW

http://searchlauncher.bcm.tmc.edu/multi-align/multi-align.html

http://prodes.toulouse.inra.fr/multalin/multalin.html

http://www.ch.embnet.org/software/BOX_form.html