Bioinformática Estruturas de Banco de Dados

Slides:



Advertisements
Apresentações semelhantes
ESTRUTURA DE DADOS Professor: Marcelo Mendes Turma: MBI-1
Advertisements

Curso: Banco de Dados I Análise de Sistemas PUC Campinas
Evolução dos SGBD’s (2ª Parte).
Profa. Rudson apostilas.wikidot.com/hipermidia
Resumo 1.1) Introdução 1.2) Abordagem Convencional de Arquivos
Funcionalidades de um SGBD
Diagrama de fluxo de dados (DFD)
Teste de Software.
Prototipação de Software
Projeto conceitual Mostra ao cliente exatamente o que o sistema fará
SISTEMAS DE INFORMAÇÃO
Maurício Edgar Stivanello
Sistemas de Gerenciamento de Bancos de Dados SGBD / DBMS
DATA MATRIX EQUIPE Danielli Lilian de Souza Giselle de Souza Lady Anai
Sistema Gerenciador de Banco de Dados SGBD
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Avaliação de Sistemas Operacionais
O Surgimento dos Sistemas de Bioinformática
Análise Estruturada O mais amplamente usado dos métodos de modelagem de requisitos Modelos que retratam fluxo e o conteúdo da informação (dados e controle)
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Análise e Projeto de Sistemas
Engenharia de Requisitos Requisito – sistema Caso de uso - usuário
TIPOS DE TESTES APLICÁVEIS E NÃO APLICÁVEIS AO PROJETO
FORMAS DE REPRESENTAÇÃO QUE SERVEM PARA DESCREVER AS ESTRUTURAS DAS INFORMAÇÕES CONTIDAS EM UM BD. Modelos de Dados.
A grande rede mundial de computadores
Administração de Sistemas de Informação Banco de Dados
Diagramas de Sequência e Comunicação
Treinamento do Microsoft® Access® 2010
Expansão dos Casos de Uso
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Metolodogia de Desenvolvimento de Data Warehouse
DISCIPLINA: SR, Geoprocessamento I e II e Cartografia A tecnologia do Geoprocessamento – Aplicações e Potencialidades 12/3/ Aula 5.
Gerenciamento de Dados
Ferramentas de modelagem do SI
BD.
Prof. Kelly E. Medeiros Bacharel em Sistemas de Informação
INTRODUÇÃO ÁS BASES DE DADOS
ACCESS 2007 EDIMILSON JÚNIOR.
Bioinformática (Alinhamento de Seqüências)
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Professor: Márcio Amador
Curso Técnico em Mineração
Analises de sistemas ESTRUTURADA Analise de sistema estruturada.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Banco de Dados Aplicado ao Desenvolvimento de Software
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
Introdução a Banco de Dados Aula 04
Teste.
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Universidade Federal de Lavras Departamento de Ciência da Computação
1 24/4/ :29 FMU – 1. Semestre – Tecnologia – Analise e Desenvolvimento de Sistemas Professor: Eduardo Silvestri Aluno:Clóvis de Oliveira- RA
Kátia de Paiva Lopes Orientador: Sandro Renato Dias Departamento de Sistemas de Informação Faculdade Fabrai-Anhanguera 1.
Expansão dos Casos de Uso
Alinhamentos Múltiplos
Fluxograma Juliana Borges
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Bioinformática Felipe G. Torres.
Professora Michelle Luz
UCSal – Bacharelado em Informática
Banco de dados e tipos de programação
Sistemas Operacionais IV – Gerenciamento de E/S
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
TÉCNICAS DE ESTIMATIVAS
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
Desenvolvimento WEB II Ajax – Utilização de Frameworks Javascript Professora: Kelly de Paula Cunha.
Copyright © 2011 Ramez Elmasri and Shamkant Navathe slide 1 Tópicos  Introdução  Um exemplo  Características da abordagem de banco de dados  Vantagens.
INTELIGÊNCIA EMPRESARIAL Aula 6 – Componentes dos Sistemas de Apoio à Decisão.
Modelagem de Banco de Dados: Conceitos
Transcrição da apresentação:

Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Introdução Este trabalho visa a abordagem sobre estruturas biomoleculares assim como as sequências contidas em estruturas tridimensionais. Os dados armazenados são provenientes de experimentos tais como: raio-x e resonância magnética nuclear. Características sobre ferramentas que possibilitam a visualização das estruturas em 3D.

Coordenadas, sequências e gráficos químicos Cada átomo dentro da estrutura tridimensional possui uma posição. Esta posição é representada pelas coordenadas(x, y, z). Cada sequência é um importante dado químico. Gráfico químico é a representação tridimensional da molécula.

Átomos, ligações e integridade estrutural As ligações são utilizadas para unir todos os átomos. Sao raras as estruturas armazenadas em banco de dados que possuem integridade completa(H). As regras que descrevem estes arquivos(PDB) nunca foram explicitamente codificadas. Isso gera um problema, pois será o programador que terá de decidir qual a melhor forma para decodificar as informações deste arquivo.

Átomos, ligações e integridade estrutural Arquivos PDB são arquivos que contém as regras químicas(união entre as moléculas) Formato de arquivos MMDB contém todas as informações sobre as ligações entre os átomos que formam a estrutura.

PDB (Protein Data Bank) PDB é um esforço colaborativo entre San Diego Supercomputing Center, Rutgers University e a National Institute of Standards and Technology (NIST). Este banco contém todas as publicações disponíveis de estruturas tridimensionais de proteínas, ácidos nucleicos(DNA e RNA), carboidratos e uma variedade de outros complexos experimentalmente determinados.

PDB (Protein Data Bank) RCSB (Research Collaboraty for Structural Bioinformatics) disponibiliza um site onde o usuário pode informar e/ou obter estruturas tri-dimensionais. Existem dois tipos de consulta neste site: SearchLite (procura por textos) e SearchField (procura por campos específicos)

PDB (Protein Data Bank) Para o envio de estruturas tridimensionais(PDB) foi disponibilizado um serviço na web de nome: ADIT É extremamente desencorajada a submissão de dados obtidos através de métodos não experimentais, ou seja, quase todos são rejeitados

PDB (Protein Data Bank) Para o controle da chave-única(PK), ou seja, cada registro armazenado no banco, será identificado por apenas um PDB-ID Code. Este ID é um alfanumérico(formado por letras e números) composto por 4 caracteres.

PDB (Protein Data Bank) Além de buscar as informações que o usuário está a procura, o PDB fornece uma lista de links interessantes(third-party), como: evolução estrutural, similaridade entre estruturas e movimentação da proteína.

PDB (Protein Data Bank) Arquivos PDB são sequências que seguidamente preocupam os programadores. Esta preocupação deve-se ao fato de que a integridade das estruturas não são garantidas. Este arquivo possui duas cópias da sequência de informações: uma implícita e outra explícita. Ambas sao necessárias para reconstrução do gráfico químico e de biopolímero(DNA, RNA e proteínas).

PDB (Protein Data Bank) Sequências implícitas: contém apenas as regras químicas que compõem a estrutura Sequências explícitas: contém todas as informações sobre as ligações entre os átomos, formas dos aminoácidos e dos resíduos dos ácidos nucleicos.

PDB (Protein Data Bank) Os registros nos arquivos PDB usam sequência de código de aminoácidos de 3 letras, mas são encontrados sequências de letras não padrão, faltando regras consistentes! Na prática muitos visualizadores de arquivos PDB, reconstrõem o gráfico químico de uma proteína utilizando somente a sequência implícita e ignorando a explícita, porém a sequência implícita não é suficientemente capaz de reconstruir um gráfico químico completo. Se o arquivo PDB estiver incompleto a sequência representada será irrelevante.

PDB (Protein Data Bank) - Validação Para validação de um registro do PDB primeiramente deriva-se a sequência implícita do registro ATOM. Processo não trivial. Se a estrutura tiver “gaps” teremos apenas fragmentos de sequências implícitas. Deve-se então alinhar com a sequência explícita para completar o gráfico químico. Este tipo de validação é feito na criação de registros do MMDB.

MMDB (Molecular Modeling Database AT NCBI) Os registros deste arquivo pertencem ao formato ASN.1, diferente do formato PDB. Arquivos PDB podem ser obtidos através de arquivos MMDB. A representação de dados no formato ASN.1 para os registros MMDB agregam valores além da representação no formato do PDB (informação de gráficos químicos explícitas, domínio da estrutura, citação para MEDLINE, entre outros).

MMDB (Molecular Modeling Database AT NCBI) O banco de dados MMDB pode ser acessado pela página da NCBI utilizando o Entrez. Visualização das informações no formato FASTA. Banco de dados BLAST contém uma cópia de todas as sequências válidas do MMDB. Além disso é utilizado para comparar sequências que tenham algum tipo de similaridade.

Estrutura do formato dos arquivos O formato do arquivo PDB é orientado a coluna. O formato exato do arquivo PDB está disponível no web site da PDB. Para ser feito o “parser” do arquivo os bioinformatas utilizam linguagens baseadas em C. Exemplo: Perl. Como temos várias ligações ausentes, isso obriga o programa a conter as regras da química. Necessita de tabelas para interpretar as exceções corretamente.

Estrutura do formato dos arquivos Para modernizar as informações do PDB foram criados dois tipos de arquivos: MMDB(Molecular Modeling Database Format) mmCIF(MacroMolecular Chemical Interchange Format) São facilmente “parseaveis” e são criados a partir dos formatos implícitos e explícitos do PDB, fazendo uma validação extensiva.

Estrutura do formato dos arquivos mmCIF é um grande dicionário que contém as especificações guardadas nos arquivos PDB. Contém outros dados derivados de coordenadas de dados primários, como ângulo das ligações. Para teste de “streams” de dados o tempo computacional é significante (alto).

Estrutura do formato dos arquivos Ao contrário do mmCIF os registros do MMDB são estruturas hierárquicas. O formato do arquivo é baseado em Hash Table. Velocidade de acesso é muito maior que a do mmCIF. Existem muitos softwares no NCBI toolkit, para a manipulação dessa estrutura.

Visualizando informações das estruturas São oferecidos múltiplos estilos de representações gráficas para a visualização dos diferentes aspectos das estruturas moleculares. Exemplos: Aramada Espaço-preenchido Rede alfa-carbono Estrutura secundária (alfa-hélice e folha-beta)

Visualizando informações das estruturas Os progamas que não levam em consideração a origem dos dados obtidos, se raio-X ou resonância magnética. Podem causar interpretações biológicas defasadas. O raio-X mostra as moléculas estáticas(estado de cristalização) Resonância magnética possui um “range” de distâncias entre os átomos(movimentação), ou seja, mostra a variação dinâmica de uma mólecula em solução.

Problemas na visualização das informações estruturais Desordem Correlacionada também é conhecida como coordenadas degeneradas. Os softwares tridimensionais mostram apenas a primeira localização de cada átomo de um conjunto de desordem correlacionada, ignorando o restante dos valores de coordenadas degeneradas. Locais Dinâmicos: Movimentação dos átomos: Maior conformação na parte externa Menor conformação na parte interna

Estruturas de visualização Sotwares para visualização, tem melhorado fortemente nos últimos anos em termo de qualidade de visualização, além de relacionar informações de sequênciais com informações da estrutura. WebMol – Visualizador de proteínas Assim como o WebMol o RasMol é muito recomendado para visualização de dados estruturais também. Seu código fonte é um excelente material de estudo para os interessados em gráficos tridimensionais de alta performance.

Estruturas de visualização RasMol Trata os arquivos PDB com extrema precaução e muitas vezes recomputa informações, refazendo inconsistências. Não valida gráficos químicos de sequências ou estruturas codificantes. Não realiza validações em alinhamento de sequências explícitas ou implícitas. Melhor visualizador para leitura de arquivos em formato mmCIF. Pode gerar diferentes tipos de arquivos de saída, como exemplo, postscript.

Estruturas de visualização Cn3D Visualizador de estrutura 3D, para arquivos MMDB. Capaz de mostrar estruturas tridimensionais consistentes, sem necessidade de parsing, validações e tratamento de exceções. Possui a imagem mais inteligível, devido ao funcionamento sem receio de encontrar representações errôneas. Possui a capacidade de guardar o estado, tornando possível renderizar e colorir uma estrutura. Possibilita também animação em 3D das estruturas tridimensionais.

Estruturas de visualização CAD Representa uma tecnologia madura, robusta, muito melhor que a maioria dos softwares que existem no mercado para estrutura molecular. Apresentam problemas ao examinar o mundo molecular, faltando algumas visões e funções analíticas para o exame detalhado de estruturas de proteínas.

Estruturas de visualização VRML Arquivo que contém informações para montar gráficos tridimensionais, mas pouca ou nenhuma informação sobre gráfico químico subjacente da molécula. Difícil renderização dos arquivos neste modelo, pois para cada forma de representação de uma estrutura molecular, precisará um tipo de arquivo correpondente para esta representação (linhas, preenchimento espacial, entre outros).

Estruras Avançadas de Modelagem Biólogos querem ferramentas que vão além de uma simples visualização. Necessitam de características de visualização como: Informações sobre distribuição de cargas; acessibilidade da superfície; forma molecular; fazer experimentos simples de mutagênese e modelagem de estruturas. Um ferramenta que engloba algumas destas características é o SwissPDB Viewer.

Busca de Similaridade entre Estruturas Embora um programa de similaridade seqüência-seqüência forneça o alinhamento de duas seqüências, um programa de similaridade estrutura-estrutura fornece uma superposição estrutural tridimensional, ou seja, resulta de um conjunto de operações matriciais sobre rotações-translações tridimensionais e que sobreponha partes similares da estrutura.

Busca de Similaridade entre Estruturas Ao comparar estruturas fazendo superposição tridimensional e existindo um acerto feito entre duas estruturas que não estão relacionadas por nenhuma similaridade de seqüência mensurável, então certamente uma surpreendente descoberta foi feita.

Busca de Similaridade entre Estruturas VAST fornece uma medida de similaridade de estruturas tridimensionais. É capaz de encontrar similaridades estruturais quando nenhuma similaridade seqüencial é detectada. Assim como BLAST, é executado em todas as entradas na base de dados de um modo N x N(matriz bidimensional), e os resultados são armazenados para uma rápida recuperação usando a interface Entrez.

Características do VAST Seu algoritmo foca realmente na similaridade de alinhamento; Não há perda de tempo examinando muitas similaridades de pequenas estruturas; As similaridade encontradas por esta ferramente podem fornecer uma vista mais ampla da estrutura, função, e evolução de uma família de proteínas; Tem a capacidade de integração com Cn3D como ferramenta de visualização para inspecionar relacionamentos estruturais surpreendentes em detalhes Pode mostrar exeplos de homologias remotas, não mostradas em alinhamento simples