Formato de Arquivos e Bancos de Dados Biológicos

Slides:



Advertisements
Apresentações semelhantes
MÓDULO 4.1 PubMed/Como pesquisar, exibir, fazer download e enviar por os resultados
Advertisements

Módulo II – Domine a Internet Introdução a Informática DCC - UFMG.
Support.ebsco.com EBSCO Discovery Service Tutorial.
UNICEUMA – CENTRO UNIVERSITÁRIO DO MARANHÃO
Citation format 1 The “Citation” display option is similar to the abstract display but has some extra information such as MeSH terms and substances listed.
TUTORIAL BASE DE DADOS SCIENCE DIRECT Elaborado por:
Bancos de dados aplicados ao estudo de proteínas
KEGG: Enciclopédia de Genes e Genomas de Kyoto
CINAHL Tutorial de Pesquisa Básica
SISTEMAS DE INFORMAÇÃO
Universidade Federal de Viçosa
FACULDADE DOS GUARARAPES
SGBD.
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
Introduction of RefSeq and LocusLink: resources at the NCBI
Web of Science.
O Surgimento dos Sistemas de Bioinformática
Felipe Dias Maria Fernanda
Implementação de pipeline de sequenciamento configurável
Anotação de SAGE Tags Rodrigo Martins Brandão.
Bancos de Dados Biológicos
Formato de Arquivos e Banco de Dados Biológicos II
Tutorial para EDITORES DE SEÇÃO
EMBRAPA _ Foco: Dados  Conhecimento
PORTAL.PERIODICOS CAPES Iniciado no ano 2000 o Portal oferece acesso ao texto completo de revistas científicas e tecnológicas, acesso a bases de dados.
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Emanuel Teixeira Nº24924 Bioengenharia
EBSCO workshop Portal Capes – www. periodicos. capes. gov. br www
Universidade Federal de Santa Catarina Programa de Pós-graduação em Bioquímica Apoios aos alunos de graduação Florianópolis, 09 de novembro de 2010.
Engineering Village. Engineering Village – A Plataforma Desenvolvida pela Engineering Information (Ei), líder em fornecer informações.
Curso em Editoração Eletrônica por meio de Seminários
Softwares de Análises Estatísticas em Biologia Sistêmica
Portal.periodicos.CAPES ASSOCIATION FOR COMPUTING MACHINERY Portal.periodicos.CAPES ASSOCIATION FOR COMPUTING MACHINERY.
American Chemical Society Fundada em 1876, a American Chemical Society (ACS) é uma sociedade científica que conta com mais de membros. Sua primeira.
Bioinformática Prof. Paulo Fazendeiro Trabalho realizado por: • Ana Margarida Barata, nº • Ana Isabel Monteiro, nº • Henrique Matos Cardoso,
Vagner Estevam Instrutor Tel.: (21)
Bancos de dados para análise de sequências de DNA
ARTIGOS CIENTÍFICOS ABNT NBR 6022 / 2003
Exercício Modelagem Structure Prediction Flowchart
Buscando Informação Médica na Internet
IF803 - Introdução à Biologia Molecular Computacional Profa. Katia Guimarães 2007/2.
Bancos de Dados.
MÓDULO 4 Como usar PubMed
Escola de Engenharia de Piracicaba Sistemas de Apoio a Decisão
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Diogo Silva Nº  1988 NCBI- Banco de dados público contendo sequências de DNA dos mais diversos organismos  1995 Técnica do microarranjo -perfil.
Introdução à Biologia Molecular História Cadeias de DNA e de Proteínas.
Bases Disponíveis Para Buscas Informatizadas
PathogenPortal Bioinformática Universidade da Beira Interior Ciências Biomédicas Grupo 7 Manuela Pereira nº Bárbara Mendes nº25433 Mafalda Neto nº26132.
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Bioinformática Nuno Santos a25303 Bioengenharia 2011/2012.
RSS RDF SITE SUMMARY REALLY SIMPLE SINDICATION RICH SITE SUMMARY Débora Maria Russiano Pereira – Campus Araranguá Thais Garcia - Capes REUNI.
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
A Internet e Seu Impacto
Allan Lima  Revisão sobre BDs Biológicos  Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias  The Gene Ontology 
Introdução à Biologia Molecular Computacional
ACS Publications Visão geral do programa de publicação de periódicos da ACS.
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
IF803 - Introdução à Biologia Molecular Computacional Katia Guimarães 2008/2.
Kátia de Paiva Lopes Orientador: Sandro Renato Dias Departamento de Sistemas de Informação Faculdade Fabrai-Anhanguera 1.
HTML HyperText Markup Language. 2 Origem O HTML foi criado, juntamente com o HTTP nos laboratórios do CERN, na europa para permitir a consulta de documentos.
Links e recursos utilizados ou recomendados no curso Alguns dos links sugeridos ou utilizados no curso. As referências ausentes nessa apresentação são.
Bioinformática Felipe G. Torres.
FERRAMENTAS DE ANÁLISE MOLECULAR
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
HighWire Press. HighWire Press é uma divisão da Stanford University Libraries, que desde 1995 tem a missão de auxiliar na disseminação de informação acadêmica.
KEGG – Kyoto Encyclopedia of genes and genomes Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Seminários.
YOUR LOGO Tópicos Avançados em Internet Prof. Lincoln Ferreira Dantas Sistemas de Informação UNIESP – Presidente Epitácio.
Transcrição da apresentação:

Formato de Arquivos e Bancos de Dados Biológicos Gislaine S. P. Pereira gislaine@lgmb.fmrp.usp.br 1

DBs - NCBI NCBI (National Center for Biotechnology Information) 1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular Bancos de Dados públicos; Pesquisas na área da biologia computacional; Desenvolvimento de ferramentas para análise de dados genômicos; Informações biomédicas. http://www.ncbi.nlm.nih.gov/ 2

NCBI 3

Entrez Sistema de busca robusto que realiza a procura simultânea em múltiplos bancos. 4

Entrez Mapa do relacionamento entre os diferentes bancos de dados. 5

Entrez Busca 6

Formato GenPept GB: gene bank - accession number identifica a seqüência e sua versão GI : gene Info Identifier identificador único para cada seqüência 7

Formato GenPept O número do taxon é importante para pesquisas nos dbs. 8

Formato GenPept 9

Formato GenPept 10

Formato Fasta > identificação 11

Formato ASN Notação usada para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas. 12

Acesso aos Dados SOAP (Simple Object Access Protocol) Protocolo para troca de informações. EInfo – retorna última atualização e links disponíveis para cada db. ESearch – busca e retorna IDs (uso no EFetch, Elink e Esummary). EPost – retorna arquivo com de IDs (buscas subseqüentes). ESummary – retorna o resumo de documentos buscando por IDs. 13

Acesso aos Dados SOAP EFetch – retorna registros de uma lista de IDs no formato solicitado. ELink – verifica links para artigos externos ou do db buscando por IDs. Retorna os IDs dos artigos. EGQuery – Fornece contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query). ESpell – Retorna sugestões de ortografia. 14

Acesso aos Dados FTP (File Transfer Protocol) ftp://ftp.ncbi.nih.gov/ FTP (File Transfer Protocol) GenBank – anotações de seqüências de DNA. Gene – Informações sobre genes (organismos completamente seqüenciados). RefSeq – conjunto não-redundante de seqüências de DNA, proteínas e transcritos. Cn3D – Programa de visualização de estruturas 3D. BLAST – alinhamento local em bases de dados. 15

DBs - EMBL EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute) Cambridge (Inglaterra); Pioneiro no desenvolvimento de pesquisas em bioinformática; Desenvolve banco de dados biológicos e programas http://www.ebi.ac.uk/ 16

EMBL-EBI BD de seqüências de nucleotídeos do EMBL - Catálogo mais completo de informações sobre proteínas. - Repositório central de seqüências e funções de proteínas (informações UniProtKB/Swiss-Prot, UniProtKB/TrEMBL e PIR). 17

EMBL-EBI Repositório público para dados de transcriptoma e relacionados. -> armazena dados MIAME (Minimum Information About a Microarray Experiment). -> armazena padrões de expressão indexados por gene e as suas respectivas biomedidas. Ensembl Genome Browser Projeto em conjunto com o Instituto Sanger Matém anotação automática de genomas de eucariotos. Ensembl anota genes conhecidos e novos com a anotação de sua função fornecida por InterPro, OMIM, SAGE e famílias gênicas. O acesso aos dados e ao software são livres e sem restrição. 18

EMBL-EBI BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas. Macromolecular Structure Database Group Projeto europeu para a coleta, gerenciamento e destribuição de dados sobre estruturas macromoleculares derivadas em parte do PDB (World Wide Protein Data Bank). 19

Bancos de Dados 20

Busca 21

Busca 22

Busca 23

Formato Embl ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições BP RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco 24

Formato Embl Continuação do arquivo FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final Continuação do arquivo 25

Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final 26

Formato Swiss-Prot ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final 27

Formato PIR > Sinal de maior Duas letras descrevendo o tipo Protein (complete) P1 Protein (fragment) F1 DNA (linear) DL DNA (circular) DC RNA (linear) RL RNA (circular) RC tRNA N3 other functional RNA N1 ; ponto e vírgula Código de identificação Uma linha contendo a descrição Seqüência contendo 1 ou + linhas * Sinal de término 28

Acesso aos Dados SOAP WSDbfetch – Retorna entradas de vários dbs biológicos atualizados WSEB-Eye – Acesso ao mecanismo de busca EB-Eye WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest) WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes ) Outros serviços… http://www.ebi.ac.uk/Tools/webservices/ 29

Acesso aos Dados FTP ArrayExpress – Dados de microarray http://www.ebi.ac.uk/FTP/ FTP ArrayExpress – Dados de microarray Embl – BD de nucleotídeos do EMBL InterPro – Famílias, domínios de proteínas UniProt – BD universal de proteínas UniRef – BD referência de grupos de proteínas 30

Comparação NCBI BDs Nucleotídeos Busca - Seleciona itens de interesse - Padrão entre os BDs - Maior consistência Acesso aos dados - SOAP, FTP Específico para acesso de dados Forte: Pesquisas de publicações EBI BDs Proteínas Busca - Faz sub-buscas - Padrões diferentes Maior quantidade de informações Acesso aos dados - SOAP, FTP Usado para dados e ferramentas Forte: Obtenção de seqüências novas 31

Site com os formatos EBI http://www.ebi.ac.uk/help/formats_frame.html 32

Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando o clipboard 33

Exemplo busca de dados Busca rápida de dados em formato texto no NCBI usando FASTA 34

Genbank Fasta Embl 35

Bancos - KEEG KEEG (Kyoto Encyclopedia of Genes and Genomes) Kanehisa Laboratories in the Bioinformatics Center of Kyoto University and Human Genome Center of University of Tokyo DB fonte de dados de bioinformática; http://www.genome.jp/kegg/ 36

KEEG 37

KEEG Search NAT2 38

KEEG 39

DBs - GO Projeto: Gene Ontology (GO - 1998) colaboração de produtos gênicos de diferentes dbs e iniciou com a colaboração de 3 organismos modelos: FlyBase (Drosophila), Saccharomyces Genome Database (SGD) Mouse Genome Database (MGD) Componente celulare, Processo biológico, Função molecular http://www.geneontology.org/ 40

GO Componente celular Processo biológico Função molecular O componente da célula com a restrição de ser parte de uma estrutura maior. Processo biológico Série de eventos realizados. Função molecular Descreve atividade, função molecular. http://www.geneontology.org/ 41

GO Componentes celulares Processos biológicos Funções moleculares O componente de uma célula com a restrição de ser parte de uma estrutura maior. Processos biológicos Série de eventos realizados por uma ou mais configurações de processos biológicos. Funções moleculares Descreve atividades à nível molecular. http://www.geneontology.org/ 42

GO The GO Consortium É um conjunto de dbs de organismos modelo de proteína e a comunidade biológica está ativamente envolvida no desenvolvimento e aplicação dos dados de GO. 43

Conclusão 44