Bancos de Dados Biológicos

Bancos de Dados Biológicos
Boa tarde, meu nome é Daniel, sou aluno de doutorado do Departamento de Genética da Faculdade de Medicina de Ribeirão Preto e trabalho com bioinformática a cerca de 6 anos e meio no Laboratório de Genética Molecular e Bioinformática. A aula é sobre Bancos de Dados Biológicos, assunto que eu considero de extrema relevância pra quem quer trabalhar com bioinformática. Daniel Guariz Pinheiro Laboratório de Genética Molecular e Bioinformática ( ) Departamento de Genética ( ) Faculdade de Medicina de Ribeirão Preto ( ) Universidade de São Paulo ( )

Sumário Introdução Banco de Dados Dados Biológicos
Banco de Dados Biológicos Revisão Histórica Principais Bases de Dados Bases de Dados de Expressão Gênica NCBI GEO (Gene Expression Omnibus) Referências Sei que a classe é bastante heterogênea, que é composta por profissionais e também por alunos de áreas que aparentemente não se relacionam... Desse modo pretendo seguir um roteiro, tentando de certa forma nivelar o conhecimento necessário para os trabalhos no curso. O Objetivo é expor uma visão geral dos aspectos básicos de um banco de dados (que costuma gerar um pouco de confusão nas conversas entre biológos e computeiros), sobre o que seriam esses dados biológicos, é claro interagindo com os diferentes momentos, mostrando também um pouco da evolução desse assunto. Expor sobre as principais bases de dados biológicos, em especialmente de expressão gênica, como o NCBI GEO, O qual vamos fazer entrar na página e saber como a informação é organizada e como podemos obter essas informações. Informação útil para o sucesso nos trabalhos. (

Banco de Dados A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe) A database is a repository for a collection of computerized data files. (C.J.Date) Bancos de dados e sistemas de bancos de dados tornaram-se componentes essenciais em qualquer sociedade moderna.

Abordagem utilizando Sistema de Arquivos
Cada usuário define e implementa os arquivos necessários para uma aplicação específica. Gera redundância na definição e no armazenamento dos dados; Possui estrutura específica e dependente de determinada aplicação; Não permite compartilhamento e acesso concorrente; … Redundância na definição e no armazenamento dos dados; Ficando portanto suscetível a inconsistências, além é claro do consumo de espaço em disco

Abordagem utilizando Sistema de Banco de Dados
Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados; Evita redundância; Contém em si a definição de sua estrutura (metadados); Possui restrições implementadas que evitam inconsistências nos dados; Solução genérica para qualquer aplicação; Permite o acesso concorrente de múltiplos usuários; Permite diferentes visões dos dados; Independência da aplicação; Permite representar relacionamentos complexos entre os dados; ... *Metadados, ou Metainformação, são dados capazes de descrever outros dados, ou seja, dizer do que se tratam, dar um significado real e plausível a um arquivo de dados, são a representação de um objeto digital. Mais sinteticamente, podemos dizer que um metadado é um dado utilizado para descrever um dado primário. No SGBD Oracle, por exemplo, a tabela USER_TABLES é uma meta-tabela que possui informações a respeito das tabelas criadas pelos usuários. Entre estas informações podem ser encontradas: proprietário da tabela, nome da tabela, nome da tablespace (unidade de armazenamento lógico) para qual foi definida, entre outras.

Modelo de dados Uma coleção de conceitos que podem ser usados para descrever a estrutura do banco de dados. Projeto de um Banco de Dados Relacional Modelo de Dados Conceitual; Modelo de Entidades e Relacionamentos (MER); Entidades, atributos e relacionamentos; Diagrama de Entidades e Relacionamentos (DER); Modelo de Dados de Implementação; Modelo de Dados Relacional; Detalhamento do Modelo Conceitual (MER) e adequação ao SGBDR; Modelo de Dados Baseado em Registros Representação através de estruturas de registros; Modelo de Dados Físico; Detalhes internos de armazenamento; O Modelo de Dados Conceitual utiliza os conceitos de entidades, atributos e relacionamentos para descrever a estrutura. Modelos de Dados Conceituais ou de Alto-Nível fornecem conceitos próximos à percepção dos usuários. Já os Modelos de Dados Físicos ou de Baixo-Nível fornecem conceitos que descrevemos detalhes de como os dados são armazenados no computador. ( Modelo de Dados Relacional – considerado modelo de dados baseado em Registros, assim como o Network Data Model e o Hierarchical Data Model

Diagrama de Entidades e Relacionamentos
Notação Original Peter Chen,1976. Modelo diagramático que descreve o modelo de dados de um sistema com alto nível de abstração. Ele é a principal representação do Modelo de Entidades e Relacionamentos. Notação IDEF1X Chen, Peter P. English Sentece Structure and Entity-Relationship Diagrams, Elsevier Science Publishing Co,, Inc. 52 Vanderbilt Ave, New York, NY 10017 ERwin®

Sistema de Gerenciamento de Banco de Dados
A database management system (DBMS) is a collection of programs that enables users to create and maintain a database. The DBMS is hence a general-purpose software system that facilitates the processes of defining, constructing, and manipulating databases for various applications. (R. Elmasri and S. B. Navathe) Modelo de Dados Relacional (SGBDR) Inspirado na Álgebra Relacional Organiza os dados em uma estrutura de tabelas Linguagem SQL (Structured Query Language) Modelo de Dados Orientado a Objetos (SGBDOO) Inspirado nos Paradigmas de Orientação a Objetos Permite a persistência de objetos Linguagem OQL (Object Query Language) Modelo de Dados Objeto-Relacional (SGBDOR) Extensão do Modelo Relacional incorporando algumas das funcionalidades do modelo Orientado a Objetos; Extensão da linguagem SQL (SQL3); Linguagem SQL pode ser considerada uma das grandes rasões para o sucesso dos bancos de dados relacionais e pois ela se tornou um padrão para bancos de dados relacionais. A linguagem OQL é uma linguagem no estilo da SQL, permite a construção de expressões mais abrangentes do que select-from-where do SQL. Possui construções que permitem o acesso a estruturas próprias de sistemas orientados a objeto. ( Linguagem, Objeto-Relacional - A linguagem de consulta OR é uma extensão da linguagem SQL para suportar o modelo de objetos O2 Jasmine

Ambiente Simplificado de um Sistema de Banco de Dados
Elmasri, R. A. and Navathe O Sistema de Gerenciamento de Banco de Dados, que é composto basicamente por um módulo de processamento de consultas (SQL) que através do módulo de acesso aos dados, pode interagir com os dados armazenados (os dados primários e também os metadados), esse software de gerenciamento recebe instruções de aplicações compondo assim um Sistema de Banco de Dados, que por fim é manipulado ou por um programador ou usário do sistema através de uma interface.

Em que situações a abordagem com arquivos é indicada?
O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações; Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga; Não há necessidade de múltiplos acessos.

Banco de Dados Flat file
Abordagem utilizando arquivos Arquivos que contêm registros de dados que não estão estruturalmente relacionados. Exemplo: Banco de Dados flat file de seqüências de nucleotídeos (nt) Possui um padrão específico de formatação GenBank, Fasta, ASN.1 ... É necessário um programa chamado de parser, que reconhece esses formatos específicos e conseguem extrair informação de forma automática. Ex.: Módulos da BioPerl Flat files are data files that contain records with no structured relationships. Additional knowledge is required to interpret these files such as the file format properties Parser - programa que percorre arquivos texto reconhecendo padrões específicos de formatação e extrai as informações desejadas.

Revisão Histórica Leroy Hood Desenvolve o primeiro
seqüenciador automático 1977 1986 Gilbert & Sanger Desenvolvem um método para o seqüenciamento de DNA

Sequenciamento de DNA Sequenciamento manual x automático CCCAACT...
O surgimento dos seqüenciadores automáticos realmente é um marco pois fez com que a quantidade de dados biológicos, principalmente de seqüências de nucleotídeos crescesse de forma exponencial. No início a leitura das bases nucleotídicas era feita a olho ... Através dessa foto de gel (onde é possível ter uma visão da seqüência) e observando base por base, este é um sequenciador manual ... A partir da década de 1990, com o surgimento dos seqüenciadores automáticos o processo de sequenciamento tornou-se muito mais rápido e com uma capacidade muito maior, deu-se origem à era do sequenciamento em larga-escala. Como conseqüência, cada vez mais seqüências são geradas... Surgem os softwares que lêem as bases e as transformam em letras (A,C,G,T), há a necessidade cada de armazenar e de analisar essas seqüências de As Cs Gs Ts...

Revisão Histórica Iniciativa pública Projeto Genoma Humano Publicação do rascunho do Genoma Humano Cancer Genome Anatomy Project 1990 1996 1999 2001 O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Em 1990 é lançado o PGH. Com o objetivo de construir uma mapa do genoma humano. Para muitos pesquisadores tratava-se na época de um projeto irrealizável. Para outros não havia sentido em mapear o genoma pois as infomações obtidas seriam desencontradas e não valeriam o esforço. Por outro lado, alguns pesquisadores viram naquela oportunidade a chance de transformar a biologia (e mais especificamente a genética) em big science, com direito a financiamentos gigantescos e divulgação ampla. Em 2000, pesquisadores do consórcio público Projeto Genoma Humano e da empresa privada norte-americana Celera anunciam o rascunho do genoma humano, que seria publicado em fevereiro de 2001. No Brasil a genômica e a Bioinformática se desenvolve a partir da formação da rede ONSA em 1997, uma rede de laboratórios espalhados pelo Estado de São Paulo, que inicialmente surgiu com o objetivo de seqüenciar o genoma da bactéria Xylella fastidiosa, um patógeno que ataca os laranjais e causa uma doença conhecida como amarelinho. Em 2000 há a publicação do seqüenciamento completo do genoma da bactéria Xylella fastidiosa na revista Nature (Nature - Vol July 2000 ). Sendo o primeiro país a obter a seqüência completa de uma patógeno de plantas. Em 1996, inicou o CGAP, que é o projeto do NCI que promove a aquisição de dados de expressão gênica como os do HCGP, para a determinação de perfis de expressão gênica para uma série de tumores. O lançamento do projeto Genoma Humano do Câncer aconteceu em 1999. 1988 1997 2000 National Center for Biotechnology Information Rede Organization for Nucleotide Sequencing and Analysis Genoma Xylella fastidiosa

E agora ? Bom... Com esse conhecimento, tudo já está resolvido ? A resposta é Não... Como eu disse, isso é apenas o princípio, há muito outros detalhes que não foram mencionados e muito mais que ainda não se conhece... Os estudos de genomas, são importantes para produzir um grande volume de informações sobre a anatomia molecular de uma espécie. Tais informações podem ser usadas como pontos de partida para a produção de novos conhecimentos científicos através de diferentes modelos experimentais, seja in vitro, in vivo ou in silico. Com o genoma sequenciado, entramos na era da Genômica Funcional, em que estamos tentando determinar a função de toda essa informação que foi gerada... Estamos engatinhando em busca do conhecimento... E a bioinformática surgiu como um andador pra que possamos aprender um pouquinho mais rápido...

Repositórios de Dados Biológicos
1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - 1Mb 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information 1997 – EMBL – European Molecular Biology Laboratory 1986 – DDBJ – DNA Data Bank of Japan Pra organizar todos esses dados que foram sendo gerados, surgiram os primeiros repositórios de dados... A primeira base de dados de biologia molecular parece ter surgido por volta de 1960, quando Dayhoff e colaboradores construíram um catálogo contendo todas as seqüências de proteínas conhecidas até a data. Essas seqüências foram publicadas num livro chamado “Atlas of Protein Sequences and Structure”, de O conteúdo dessa base de dados não deveria conter mais de 1Mb de informação, se transferida para computadores modernos. Com o acúmulo desses dados provenientes de seqüenciamentos e informações relacionadas... Surgiram repositórios mais robustos para abrigar a explosão no número de seqüências obtidas pelos pesquisadores. O governo americano, em 1988, lançou o um banco de dados público contendo sequências de DNA dos mais diversos organismos, o NCBI (Centro Nacional para Informação em Biotecnologia). Hoje, o NCBI além de ser um enorme repositório de dados e informação biológica, proporciona um grande número de ferramentas de bioinformática e recursos para auxiliar o cientista na pesquisa genética. Além do NCBI, temos também o EMBL (Laboratório Europeu de Biologia Molecular) e o DDBJ (Banco de Dados de DNA, do Japão). Todos os 3 grandes centros possuem colaboração e compartilham dados entre si.

International Nucleotide Sequence Database Colaboration
100 Giga bases (Agosto de 2005) Os 3 centros em colaboração alcançaram cerca de 100 Bilhões de bases em Agosto de Sendo o GenBank do NCBI o que mais cresceu... Eles trocam informações entre si diariamente, de modo que todos os três possuem informações atualizadas de todas as seqüências de DNA depositadas. O Gráfico mostra os dados desde 2000, a curva expressa a grande quantidade de dados e seu crescimento exponencial.

Repositórios de Dados Biológicos
PDB – Protein Data Bank UniProt – Universal Protein Resource (Swiss-Prot, TrEMBL, and PIR) KEGG – Kyoto Encyclopedia of Genes and Genome Também há bancos de dados de proteínas ... O PDB é um banco de dados com informações de proteínas, e que também fornece recursos para o estudo de estruturas tridimensionais de proteínas, função e relações com as seqüências. O UniProt é um banco de dados de informações curadas de proteínas que reune informações de 3 outras fontes (Swiss-Prot, TrEMBL, and PIR. ) e inclui função, classificação e relações entre elas. O KEGG é um banco de dados japonês de informações de vias metabólicas ( sucessivas reações químicas causadas por interações entre proteínas )

Bancos de Dados Flat files do NCBI
FASTA GenBank ASN.1

Referências Date, C. J An Introduction to Database Systems. Addison-Wesley Longman Publishing Co., Inc. Elmasri, R. A. and Navathe, S. B Fundamentals of Database Systems. Addison-Wesley Longman Publishing Co., Inc. Ótimo livro de teoria de banco de dados, um livro bastante conceituado, porém não é recomendado como texto introdutório, apesar do nome.

Daniel Guariz Pinheiro
Perguntas... Daniel Guariz Pinheiro MUITO OBRIGADO !!! Perguntas ? Este é o meu (“lgmb” Laboratório de Genética Molecular e Bioinformática, “fmrp” Faculdade de Medicina de Ribeirão Preto, “usp” , “br”) Podem mandar s se quiserem discutir algo... A minha página, que está bastante desatualizada... E esta é a página do Laboratório...

Bancos de Dados Biológicos

Apresentações semelhantes

Apresentação em tema: "Bancos de Dados Biológicos"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Bancos de Dados Biológicos

Apresentações semelhantes

Apresentação em tema: "Bancos de Dados Biológicos"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback