A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira

Apresentações semelhantes


Apresentação em tema: "Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira"— Transcrição da apresentação:

1 Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira

2 DBs - NCBI NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular – Bancos de Dados públicos; – Pesquisas na área da biologia computacional; – Desenvolvimento de ferramentas para análise de dados genômicos; – Informações biomédicas.

3 NCBI

4 Entrez Sistema de busca robusto que realiza a procura simultânea em múltiplos bancos.

5 Entrez Mapa do relacionamento entre os diferentes bancos de dados. Mapa

6 Entrez Busca Entrez Busca

7 Formato GenPept GB: gene bank - accession number identifica a seqüência e sua versão GI : gene Info Identifier identificador único para cada seqüência

8 Formato GenPept O número do taxon é importante para pesquisas nos dbs.

9 Formato GenPept

10

11 Formato Fasta > identificação

12 Formato ASN Notação usada para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.

13 Acesso aos Dados SOAP (Simple Object Access Protocol) Protocolo para troca de informações. EInfo – retorna última atualização e links disponíveis para cada db. ESearch – busca e retorna IDs (uso no EFetch, Elink e Esummary). EPost – retorna arquivo com de IDs (buscas subseqüentes). ESummary – retorna o resumo de documentos buscando por IDs.

14 Acesso aos Dados SOAP EFetch – retorna registros de uma lista de IDs no formato solicitado. ELink – verifica links para artigos externos ou do db buscando por IDs. Retorna os IDs dos artigos. EGQuery – Fornece contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query). ESpell – Retorna sugestões de ortografia.

15 Acesso aos Dados FTP (File Transfer Protocol) GenBank – anotações de seqüências de DNA. Gene – Informações sobre genes (organismos completamente seqüenciados). RefSeq – conjunto não-redundante de seqüências de DNA, proteínas e transcritos. Cn3D – Programa de visualização de estruturas 3D. BLAST – alinhamento local em bases de dados. ftp://ftp.ncbi.nih.gov/

16 DBs - EMBL EMBL-EBI ( European Molecular Biology Laboratory European Bioinformatics Institute) Cambridge (Inglaterra); Pioneiro no desenvolvimento de pesquisas em bioinformática; Desenvolve banco de dados biológicos e programas

17 EMBL-EBI BD de seqüências de nucleotídeos do EMBL - Catálogo mais completo de informações sobre proteínas. - Repositório central de seqüências e funções de proteínas (informações UniProtKB/Swiss- Prot, UniProtKB/TrEMBL e PIR).

18 EMBL-EBI Repositório público para dados de transcriptoma e relacionados. -> armazena dados MIAME (Minimum Information About a Microarray Experiment). -> armazena padrões de expressão indexados por gene e as suas respectivas biomedidas. Ensembl Genome Browser Projeto em conjunto com o Instituto Sanger Matém anotação automática de genomas de eucariotos. Ensembl anota genes conhecidos e novos com a anotação de sua função fornecida por InterPro, OMIM, SAGE e famílias gênicas. O acesso aos dados e ao software são livres e sem restrição.

19 EMBL-EBI BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas. Macromolecular Structure Database Group Projeto europeu para a coleta, gerenciamento e destribuição de dados sobre estruturas macromoleculares derivadas em parte do PDB (World Wide Protein Data Bank).

20 Bancos de Dados

21 Busca

22 Busca

23 Busca

24 Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições BP RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco

25 Formato Embl FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final Continuação do arquivo

26 Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

27 Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

28 Formato PIR > Sinal de maior Duas letras descrevendo o tipo Protein (complete)P1 Protein (fragment)F1 DNA (linear)DL DNA (circular)DC RNA (linear)RL RNA (circular)RC tRNAN3 other functional RNAN1 ; ponto e vírgula Código de identificação Uma linha contendo a descrição Seqüência contendo 1 ou + linhas * Sinal de término

29 Acesso aos Dados SOAP WSDbfetch – Retorna entradas de vários dbs biológicos atualizados WSEB-Eye – Acesso ao mecanismo de busca EB-Eye WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest) WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes ) Outros serviços…

30 Acesso aos Dados FTP ArrayExpress – Dados de microarray Embl – BD de nucleotídeos do EMBL InterPro – Famílias, domínios de proteínas UniProt – BD universal de proteínas UniRef – BD referência de grupos de proteínas

31 Comparação NCBI BDs Nucleotídeos Busca - Seleciona itens de interesse - Padrão entre os BDs - Maior consistência Acesso aos dados - SOAP, FTP Específico para acesso de dados Forte: Pesquisas de publicações EBI BDs Proteínas Busca - Faz sub-buscas - Padrões diferentes - Maior quantidade de informações Acesso aos dados - SOAP, FTP Usado para dados e ferramentas Forte: Obtenção de seqüências novas

32 Site com os formatos EBI

33 Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando o clipboard

34 Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando FASTA

35 Embl Genbank Fasta

36 Bancos - KEEG KEEG (Kyoto Encyclopedia of Genes and Genomes) Kanehisa Laboratories in the Bioinformatics Center of Kyoto University and Human Genome Center of University of Tokyo – DB fonte de dados de bioinformática;

37 KEEG

38 KEEG Search NAT2

39 KEEG

40 DBs - GO Projeto: Gene Ontology (GO ) colaboração de produtos gênicos de diferentes dbs e iniciou com a colaboração de 3 organismos modelos: FlyBase FlyBase (Drosophila), Saccharomyces Genome Database Saccharomyces Genome Database (SGD) Mouse Genome Database Mouse Genome Database (MGD) Componente celulare, Processo biológico, Função molecular

41 GO Componente celular O componente da célula com a restrição de ser parte de uma estrutura maior. Processo biológico Série de eventos realizados. Função molecular Descreve atividade, função molecular.

42 Componentes celulares O componente de uma célula com a restrição de ser parte de uma estrutura maior. Processos biológicos Série de eventos realizados por uma ou mais configurações de processos biológicos. Funções moleculares Descreve atividades à nível molecular. GO

43 GO The GO Consortium É um conjunto de dbs de organismos modelo de proteína e a comunidade biológica está ativamente envolvida no desenvolvimento e aplicação dos dados de GO.

44 Conclusão


Carregar ppt "Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira"

Apresentações semelhantes


Anúncios Google