A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini.

Apresentações semelhantes


Apresentação em tema: "Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini."— Transcrição da apresentação:

1 Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

2 Introdução Este trabalho visa a abordagem sobre estruturas biomoleculares assim como as sequências contidas em estruturas tridimensionais. Os dados armazenados são provenientes de experimentos tais como: raio-x e resonância magnética nuclear. Características sobre ferramentas que possibilitam a visualização das estruturas em 3D.

3 Coordenadas, sequências e gráficos químicos Cada átomo dentro da estrutura tridimensional possui uma posição. Esta posição é representada pelas coordenadas(x, y, z). Cada sequência é um importante dado químico. Gráfico químico é a representação tridimensional da molécula.

4 Átomos, ligações e integridade estrutural As ligações são utilizadas para unir todos os átomos. Sao raras as estruturas armazenadas em banco de dados que possuem integridade completa(H). As regras que descrevem estes arquivos(PDB) nunca foram explicitamente codificadas. Isso gera um problema, pois será o programador que terá de decidir qual a melhor forma para decodificar as informações deste arquivo.

5 Átomos, ligações e integridade estrutural Arquivos PDB são arquivos que contém as regras químicas(união entre as moléculas) Formato de arquivos MMDB contém todas as informações sobre as ligações entre os átomos que formam a estrutura.

6 PDB (Protein Data Bank) PDB é um esforço colaborativo entre San Diego Supercomputing Center, Rutgers University e a National Institute of Standards and Technology (NIST). Este banco contém todas as publicações disponíveis de estruturas tridimensionais de proteínas, ácidos nucleicos(DNA e RNA), carboidratos e uma variedade de outros complexos experimentalmente determinados.

7 PDB (Protein Data Bank) RCSB (Research Collaboraty for Structural Bioinformatics) disponibiliza um site onde o usuário pode informar e/ou obter estruturas tri- dimensionais. Existem dois tipos de consulta neste site: SearchLite (procura por textos) e SearchField (procura por campos específicos)

8 PDB (Protein Data Bank) Para o envio de estruturas tridimensionais(PDB) foi disponibilizado um serviço na web de nome: ADIT É extremamente desencorajada a submissão de dados obtidos através de métodos não experimentais, ou seja, quase todos são rejeitados

9 PDB (Protein Data Bank) Para o controle da chave-única(PK), ou seja, cada registro armazenado no banco, será identificado por apenas um PDB-ID Code. Este ID é um alfanumérico(formado por letras e números) composto por 4 caracteres.

10 PDB (Protein Data Bank) Além de buscar as informações que o usuário está a procura, o PDB fornece uma lista de links interessantes(third-party), como: evolução estrutural, similaridade entre estruturas e movimentação da proteína.

11 PDB (Protein Data Bank) Arquivos PDB são sequências que seguidamente preocupam os programadores. Esta preocupação deve-se ao fato de que a integridade das estruturas não são garantidas. Este arquivo possui duas cópias da sequência de informações: uma implícita e outra explícita. Ambas sao necessárias para reconstrução do gráfico químico e de biopolímero(DNA, RNA e proteínas).

12 PDB (Protein Data Bank) Sequências implícitas: contém apenas as regras químicas que compõem a estrutura Sequências explícitas: contém todas as informações sobre as ligações entre os átomos, formas dos aminoácidos e dos resíduos dos ácidos nucleicos.

13 PDB (Protein Data Bank) Os registros nos arquivos PDB usam sequência de código de aminoácidos de 3 letras, mas são encontrados sequências de letras não padrão, faltando regras consistentes! Na prática muitos visualizadores de arquivos PDB, reconstrõem o gráfico químico de uma proteína utilizando somente a sequência implícita e ignorando a explícita, porém a sequência implícita não é suficientemente capaz de reconstruir um gráfico químico completo. Se o arquivo PDB estiver incompleto a sequência representada será irrelevante.

14 PDB (Protein Data Bank) - Validação Para validação de um registro do PDB primeiramente deriva-se a sequência implícita do registro ATOM. Processo não trivial. Se a estrutura tiver gaps teremos apenas fragmentos de sequências implícitas. Deve-se então alinhar com a sequência explícita para completar o gráfico químico. Este tipo de validação é feito na criação de registros do MMDB.

15 MMDB (Molecular Modeling Database AT NCBI) Os registros deste arquivo pertencem ao formato ASN.1, diferente do formato PDB. Arquivos PDB podem ser obtidos através de arquivos MMDB. A representação de dados no formato ASN.1 para os registros MMDB agregam valores além da representação no formato do PDB (informação de gráficos químicos explícitas, domínio da estrutura, citação para MEDLINE, entre outros).

16 MMDB (Molecular Modeling Database AT NCBI) O banco de dados MMDB pode ser acessado pela página da NCBI utilizando o Entrez. Visualização das informações no formato FASTA. Banco de dados BLAST contém uma cópia de todas as sequências válidas do MMDB. Além disso é utilizado para comparar sequências que tenham algum tipo de similaridade.

17 Estrutura do formato dos arquivos O formato do arquivo PDB é orientado a coluna. O formato exato do arquivo PDB está disponível no web site da PDB. Para ser feito o parser do arquivo os bioinformatas utilizam linguagens baseadas em C. Exemplo: Perl. Como temos várias ligações ausentes, isso obriga o programa a conter as regras da química. Necessita de tabelas para interpretar as exceções corretamente.

18 Estrutura do formato dos arquivos Para modernizar as informações do PDB foram criados dois tipos de arquivos: – MMDB(Molecular Modeling Database Format) – mmCIF(MacroMolecular Chemical Interchange Format) São facilmente parseaveis e são criados a partir dos formatos implícitos e explícitos do PDB, fazendo uma validação extensiva.

19 Estrutura do formato dos arquivos mmCIF é um grande dicionário que contém as especificações guardadas nos arquivos PDB. Contém outros dados derivados de coordenadas de dados primários, como ângulo das ligações. Para teste de streams de dados o tempo computacional é significante (alto).

20 Estrutura do formato dos arquivos Ao contrário do mmCIF os registros do MMDB são estruturas hierárquicas. O formato do arquivo é baseado em Hash Table. Velocidade de acesso é muito maior que a do mmCIF. Existem muitos softwares no NCBI toolkit, para a manipulação dessa estrutura.

21 Visualizando informações das estruturas São oferecidos múltiplos estilos de representações gráficas para a visualização dos diferentes aspectos das estruturas moleculares. Exemplos: – Aramada – Espaço-preenchido – Rede alfa-carbono – Estrutura secundária (alfa-hélice e folha-beta)

22 Visualizando informações das estruturas Os progamas que não levam em consideração a origem dos dados obtidos, se raio-X ou resonância magnética. Podem causar interpretações biológicas defasadas. O raio-X mostra as moléculas estáticas(estado de cristalização) Resonância magnética possui um range de distâncias entre os átomos(movimentação), ou seja, mostra a variação dinâmica de uma mólecula em solução.

23 Problemas na visualização das informações estruturais Desordem Correlacionada também é conhecida como coordenadas degeneradas. Os softwares tridimensionais mostram apenas a primeira localização de cada átomo de um conjunto de desordem correlacionada, ignorando o restante dos valores de coordenadas degeneradas. Locais Dinâmicos: – Movimentação dos átomos: Maior conformação na parte externa Menor conformação na parte interna

24 Estruturas de visualização Sotwares para visualização, tem melhorado fortemente nos últimos anos em termo de qualidade de visualização, além de relacionar informações de sequênciais com informações da estrutura. WebMol – Visualizador de proteínas Assim como o WebMol o RasMol é muito recomendado para visualização de dados estruturais também. Seu código fonte é um excelente material de estudo para os interessados em gráficos tridimensionais de alta performance.

25 Estruturas de visualização RasMol Trata os arquivos PDB com extrema precaução e muitas vezes recomputa informações, refazendo inconsistências. Não valida gráficos químicos de sequências ou estruturas codificantes. Não realiza validações em alinhamento de sequências explícitas ou implícitas. Melhor visualizador para leitura de arquivos em formato mmCIF. Pode gerar diferentes tipos de arquivos de saída, como exemplo, postscript.

26 Estruturas de visualização Cn3D Visualizador de estrutura 3D, para arquivos MMDB. Capaz de mostrar estruturas tridimensionais consistentes, sem necessidade de parsing, validações e tratamento de exceções. Possui a imagem mais inteligível, devido ao funcionamento sem receio de encontrar representações errôneas. Possui a capacidade de guardar o estado, tornando possível renderizar e colorir uma estrutura. Possibilita também animação em 3D das estruturas tridimensionais.

27 Estruturas de visualização CAD Representa uma tecnologia madura, robusta, muito melhor que a maioria dos softwares que existem no mercado para estrutura molecular. Apresentam problemas ao examinar o mundo molecular, faltando algumas visões e funções analíticas para o exame detalhado de estruturas de proteínas.

28 Estruturas de visualização VRML Arquivo que contém informações para montar gráficos tridimensionais, mas pouca ou nenhuma informação sobre gráfico químico subjacente da molécula. Difícil renderização dos arquivos neste modelo, pois para cada forma de representação de uma estrutura molecular, precisará um tipo de arquivo correpondente para esta representação (linhas, preenchimento espacial, entre outros).

29 Estruras Avançadas de Modelagem Biólogos querem ferramentas que vão além de uma simples visualização. Necessitam de características de visualização como: – Informações sobre distribuição de cargas; – acessibilidade da superfície; – forma molecular; – fazer experimentos simples de mutagênese e modelagem de estruturas. Um ferramenta que engloba algumas destas características é o SwissPDB Viewer.

30 Busca de Similaridade entre Estruturas Embora um programa de similaridade seqüência- seqüência forneça o alinhamento de duas seqüências, um programa de similaridade estrutura-estrutura fornece uma superposição estrutural tridimensional, ou seja, resulta de um conjunto de operações matriciais sobre rotações-translações tridimensionais e que sobreponha partes similares da estrutura.

31 Busca de Similaridade entre Estruturas Ao comparar estruturas fazendo superposição tridimensional e existindo um acerto feito entre duas estruturas que não estão relacionadas por nenhuma similaridade de seqüência mensurável, então certamente uma surpreendente descoberta foi feita.

32 Busca de Similaridade entre Estruturas VAST fornece uma medida de similaridade de estruturas tridimensionais. É capaz de encontrar similaridades estruturais quando nenhuma similaridade seqüencial é detectada. Assim como BLAST, é executado em todas as entradas na base de dados de um modo N x N(matriz bidimensional), e os resultados são armazenados para uma rápida recuperação usando a interface Entrez.

33 Características do VAST Seu algoritmo foca realmente na similaridade de alinhamento; Não há perda de tempo examinando muitas similaridades de pequenas estruturas; As similaridade encontradas por esta ferramente podem fornecer uma vista mais ampla da estrutura, função, e evolução de uma família de proteínas; Tem a capacidade de integração com Cn3D como ferramenta de visualização para inspecionar relacionamentos estruturais surpreendentes em detalhes Pode mostrar exeplos de homologias remotas, não mostradas em alinhamento simples


Carregar ppt "Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini."

Apresentações semelhantes


Anúncios Google