A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São.

Apresentações semelhantes


Apresentação em tema: "Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São."— Transcrição da apresentação:

1 Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São Paulo - Piracicaba, SP

2 Dogma Central

3 Estrutura de Gene Eucarioto

4

5

6 Banco de Dados NCBI - National Center for Biotechnology Information Iniciado em 1988 Missão: melhor entendimento dos processos moleculares que afetam a saúde humana NCBI cria banco de dados públicos e recursos de biologia computacional; e disseminação de informações

7

8 Histórico de Seqüências do GenBank

9 Ano Pares BaseSequences ,037,734, X

10 Tipos de Banco de Dados Abrangentes –Nucleotídeos GenBank (more...) GenBank (more...) EMBL: European Molecular Biology Laboratory DDBJ: DNA Data Bank of Japan –Proteínas Swiss-Prot Protein Information resource UniProt –Estrutura de Proteínas PDB: Protein Data Bank MMDB: Molecular Modeling Database (baseado em PDB) MMDB: Molecular Modeling Database –Mapas e Genoma »Entrez GenomesEntrez Genomes

11 Tipos de Banco de Dados Especializados –Organismo-Específico Human Genome Sequencing GDB: Genome Database (human mapping information) MGD: Mouse Genome Database SGD: Saccharomyces Genome Database –Funcional TRANSFAC: Transcription Factors Vector Database Organelle Genome Database GOBASE Organelle Genome Database GOBASE –Tecnologia de Seqüenciamento EST: Expressed Sequence Tags GSS: Genome Survey Sequences STS: Sequence Tagged Sites HTG: High Throughput Sequences

12 Tipos de Banco de Dados Nível de Curadoria –Preliminar seqüências não terminadas - localizadas nos centros de seqüenciamento –Arquivo repositório da informação redundante (várias seqüências do mesmo gene) submissor mantém controle editorial sobre registros –Curadoria (cont.) –Revisados (cont.)

13 Tipos de Banco de Dados Nível de Curadoria –Curadoria não-redundante cada registro pretende conter conhecimento corrente registro contém informações adicionais –RefSeq: NCBI Database of Reference Sequences (mRNAs, proteínas, contigs genômicos e genomas/cromossomas completos)RefSeq: NCBI Database of Reference Sequences –Swiss-Prot (seqüências de proteínas)Swiss-Prot –EntrezGene (resumo de informações sobre loci genéticos em humanos, rato, camundongo, drosophila, levedura e zebrasfish)EntrezGene –Clusters of Orthologous Groups (COGs) (sistema natural de família de genes de genomas completos)Clusters of Orthologous Groups (COGs) ( –Revisadas cada registro revisado e comentado por especialistas –ex, PROW: Protein Resources on the Web, revisões curtas sobre proteínas e famíliasPROW: Protein Resources on the Web,

14

15

16 Estrutura do GenBank

17

18 Entrez

19 PubMed

20 TaxBrowser

21 BLAST

22 Busca em Banco de Dados Por texto - palavra chave –Entrez no NCBI Por seqüência: nucleotídeos ou amino ácidos (proteínas) –BLAST no NCBI –Basic Local Alignment Search Tool

23

24

25

26 Busca em Entrez Três níveis de complexidade de busca –Básico Enter: cystic fibrosis human –Avançado (cont.) –Complexo Boolean Enter: cystic fibrosis[titl] AND human[orgn]

27 Busca em Entrez Avançado Step 1: Select "Limits" option Enter: cystic fibrosis Select "Title Word" as search field Press "Go" Step 2: Select "Limits" option Enter: human Select "Organism" as search field Press "Go" Step 3: Select "History" option Enter: #1 AND #2 (Note that Boolean operators must be in upper case. The OR and NOT operators are also available, and parentheses can be used to nest the search.)

28 Busca em BLAST Por seqüência de nucleotídeos ou de amino ácidos (proteínas) Comparação de seqüências para identificar similaridade significativa de DNA e PTN para inferir função, origem, filogenia Alinhamento: origem ou função comum Alinhamento Global ou Local (segmentos)

29 Busca em BLAST BLAST: Basic Local Alignment Search Tool realiza comparações entre pares de seqüências buscando regiões com similaridade local –NCBI BLAST –WU-BLAST (Washington University) FASTA SSEARCH

30 Busca em BLAST Similaridade x Homologia identidade = ocorrência do exato mesmo nucleotídeo ou amino ácido na mesma posição nas seqüências alinhadas similaridade = considera combinações próximas e avaliada por medidas de diferença/igualdade homologia = dividem mesma ancestralidade com significado evolutivo Homologia => conceito central de Biologia

31 Busca em BLAST Algoritmos de BLAST, FASTA, SSEARCH NÃO AVALIAM HOMOLOGIA MEDEM SIMILARIDADE E IDENTIDADE DE SEQÜÊNCIAS

32 Busca em BLAST Por que saber o quanto 2 seqüências são similares? Porque a Natureza resolveu o mesmo problema várias vezes com significativa similaridade entre as soluções!

33 Busca em BLAST Alinhamento x Similaridade –o que fazer primeiro? = Círculo vicioso Requer meios de avaliar: –combinações perfeitas e imperfeitas (matches e mismatches) –inclusão de gaps (intervalos) Matrizes ou Tabela de Valores: –descrevem a probabilidade com sentido biológico de uma base ou amino ácido ocorrer num alinhamento

34 Busca em BLAST Comparação de nucleotídeos -> por identidade matches: tipicamente +1 ou +5 mismatches: tipicamente -1 ou -4 Comparação de amino ácidos -> mais complexo! função natureza química e freqüência matrizes de substituição penalidades maiores: –menor funcionalidade –freqüência de ocorrência

35 Busca em BLAST

36 BLAST Programa Seqüência Base Comparação blastn DNA DNA DNA blastp PTN PTN PTN blastx DNA PTN PTN tblastn PTN DNA PTN tblastx DNA DNA PTN

37 Nucleotide DB Protein DB Nucleotide Sequence Protein Sequence blastnblastp Translated DB (contain amino acid sequences) Em 6 quadros blastx Translated Protein Sequence tblastx tblastn BLAST

38 Busca em BLAST Matrizes de Substituição: baseadas em alinhamentos de alta confiança de diversas proteínas homólogas, avaliando freqüência de todas as substituições Point Accepted Mutation - PAM Blocks substitution - BLOSUM

39 Point Accepted Mutation - PAM calculada baseada num modelo de distância evolucionária do alinhamento de seqüências próximas (mín. 85% idênticas) 34 super-famílias agrupadas em 71 árvores filogenéticas com substituições substituições separadas por tipo, normalizadas por freqüência de uso e convertidas para log dos odds Matriz PAM1 = prob. mudança de 1 aa em 100 Multiplicando a matriz por ela mesmo - matriz com graus arbitrários de proximidade

40 Point Accepted Mutation - PAM250

41 Blocks Substitution - BLOSUM seqüências selecionadas para evitar aquelas muito relacionadas de ocorrência freqüente banco de dados - BLOCKS blocos de segmentos de seqüência sem gaps alinhadas, caracterizando > de 500 grupos de famílias de ptns próximas seqüências dos blocos agrupadas freqüência de susbtituições entre grupos na família estimadas - prob. substituição importante nível de cut-off de % de identidade de seqüência que define os grupos (clusters) - ex. BLOSUM62

42 Blocks Substitution - BLOSUM62

43 Busca em BLAST Matrizes de Substituição do BLAST-NCBI Point Accepted Mutation - PAM –PAM30, PAM70 Blocks substitution - BLOSUM –BLOSUM45, BLOSUM62, BLOSUM80

44 Busca em BLAST Penalidades por Intervalo (gaps) prevê inserções e deleções penalidades - limitar introdução mas flexível para extender (ocorre vários resíduos) BLAST-NCBI penalidades –existência: 7, 8 e 9 10, 11 e 12 –extensão: 2 1

45 Busca em BLAST Programação Dinâmica solução ótima de busca de alinhamentos algoritmo de Smith-Waterman alinhamento local ao invés de global -mais relevante biologicamente

46 Busca em BLAST Heurística: Sensibilidade x Rapidez FASTA: usa palavras exatas (strings) BLAST: usa matriz de scores (BLOSUM62) –usa como semente de alinhamento com alto score –realiza filtragem de seqüências repetidas (ex. CA) –nos primeiros passos, gaps não são permitidos

47 (a) 1. Filtra regiões de baixa complexidade 2. Gera lista de seqüências pequenas 11 bases nt ou 3 aa 3. Determina pares de maior score baseado na matriz e sem gaps 4. Reduz lista por limite estabelecido (b) 5. Busca no banco de dados combinações perfeitas para a lista gerada 6. Procura extender o alinhamento a partir dessa semente (c) 7. Tenta extender alinhamento até o score continuar a crescer 8. Gaps são incluídos 9. Determina significância de cada score calculando valor E.

48 BLAST Estatísticas: –raw score: soma de scores de substituições e gaps (função das matrizes e não comparável) –bit scores: versão em escala do score –valor E: representa o número de alinhamentos esperados, equivalentes ou melhores do que o obtido numa busca contra um banco de dados aleatório com a mesma composição (ao acaso)

49 BLAST Submissão de seqüência - query Alinhamento no banco de dados - target Melhores de escores são relatados usar valor E –valor E <0.01 Submissão: DNA, PTN ou DNA como PTN Proteínas: melhor para identificar homologias DNA: degeneração do terceira base do códon

50

51

52 Blastn

53 Blastp

54 BLAST Interpretação de função: cautelosa! Similaridada restrita a domínios Área de cobertura do alinhamento Erros de anotação no banco de dados Falta de homologia - distanciamento evolutivo

55 Alinhamento Múltiplo Alinhamento de 3 ou mais seqüências, com inserção de espaços (gaps) para que resíduos com posição estrutural e/ou co-ancestralidade comuns estejam alinhados na mesma coluna. Algoritmo: ClustalW

56

57

58

59


Carregar ppt "Técnicas de Busca e Análise de Genes de Interesse pela internet (in silico) Antonio Figueira Centro de Energia Nuclear na Agricultura Universidade de São."

Apresentações semelhantes


Anúncios Google