A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS

Apresentações semelhantes


Apresentação em tema: "BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS"— Transcrição da apresentação:

1 BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS
CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi

2 Motivação Cientistas determinaram a estrutura de milhares de componentes biomoleculares das células Entendimento da biologia celular em nível atômico Estruturas levam a respostas a inúmeras questões biológicas, assim como permitem aos cientistas a colocação de inúmeras novas questões Raquel C. de Melo Minardi 2/63

3 Motivação Raquel C. de Melo Minardi 3/63

4 Estruturas disponíveis livremente
Arquivos de coordenadas de proteínas a ácidos nucleicos estão disponíveis on-line: robossomos, oncogenes, alvos terapêuticos e até mesmo vírus completos Desenvolvimento de fármacos: o conhecimento da estrutura de proteínas permite o projeto de pequenas moléculas que se liguem a elas e possam, por exemplo, bloquear sua função É comum encontrar no PDB milhares de estruturas de proteases de HIV com drogas anti-HIV Cientistas usam estruturas como esta para compreender ação dos medicamentos existentes e para projetar novos e mais poderosos medicamentos para lutar contra a resistência. Raquel C. de Melo Minardi 4/63

5 Estruturas disponíveis livremente
Raquel C. de Melo Minardi 5/63

6 Estruturas disponíveis livremente
Revelação de detalhes da vida: estruturas de oxi e desoxi-hemoglobinas revelam como ocorre o controle para ligação do oxigênio Uma pequena mutação faz com que hemoglobinas se agreguem em longas cadeias que distorcem as hemáceas e causam severos problemas circulatórios Raquel C. de Melo Minardi 6/63

7 Estruturas disponíveis livremente
Engenharia biomolecular e bionanotecnologia: Pesquisadores visam modificar biomoléculas para que adquiram novas funções ou mesmo projetar moléculas inteiramente novas Raquel C. de Melo Minardi 7/63

8 PDB Possibilta a exploração das bases atômicas da função molecular
É um repositório de coordenadas atômicas e anotações detalhadas sobre os detalhes experimentais Desafios: Obter o conjunto de moléculas de interesse Utilizar / desenvolver modelos, algoritmos e ferramentas que possibilitem obter as propriedades de interesse Raquel C. de Melo Minardi 8/63

9 PDB: Busca Há muitas ferramentas disponíveis para busca no PDB baseadas em diversas propriedades como por exemplo nomes de moléculas e sequências de aminoácidos Há ainda diversas referências cruzadas com outras bases como Gene Ontology, SCOP, CATH, EC numbers, etc Há ainda a possibilidade de se acessar este repositório via FTP wget -r ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/* -nd -nv Raquel C. de Melo Minardi 9/63

10 PDB: Visualização O PDB utiliza comumente o plug-in do Jmol (desenvolvido em Java) Há inúmeras outras possibilidades de ferramentas de visualização de estruturas no formato PDB como Rasmol e PyMol, por exemplo Infelizmente, cada ferramenta utiliza um conjunto de comandos extremamente específico Raquel C. de Melo Minardi 10/63

11 PDB: Visualização Rasmol Programa leve Simplicidade de aprendizado
PyMol Imagens de alta qualidade Raquel C. de Melo Minardi 11/63

12 PDB: Visualização Jmol Pode ser embutido em páginas web
Raquel C. de Melo Minardi 12/63

13 Dados do PDB Os arquivos PDB são arquivos texto, podendo ser abertos em qualquer editor de textos como notepad, vi, etc. Informação primária: coordenadas (x, y, z), ou seja, lista de átomos que compõem uma proteína e suas localizações no espaço tridimensional Um PDB típico traz um resumo sobre a proteína, informações sobre citações, detalhes dos experimentos de resolução seguido das coordenadas Outros formatos: mmCIF e XML Raquel C. de Melo Minardi 13/63

14 Coordenadas Um arquivo PDB pode conter coordenadas de uma coleção de proteínas, pequenas moléculas, íons e água As informações de cada átomo são descritas em uma linha que começa com as palavras-chave “ATOM” ou “HETATM” “ATOM” identifica átomos de proteínas e ácidos nucléicos “HETATM” identifica átomos de pequenas moléculas Após esta palavra, chave há uma lista de informações: nome do átomo, seu identificador no arquivo, nome e número do resíduo de aminoácidos ao qual pertence, uma letra indicando sua cadeia, coordenadas x, y, z e a sua ocupância e fator de temperatura Raquel C. de Melo Minardi 14/63

15 Coordenadas Raquel C. de Melo Minardi 15/63

16 Cadeias e modelos Um arquivo PDB é sempre dividido em cadeias
Cada cadeia polipeptídica recebe um identificador de uma letra No caso de experimentos de RNM, ele é dividido em múltiplos modelos representando possíveis conformações para a molécula Raquel C. de Melo Minardi 16/63

17 Resolução A resolução é uma medida da qualidade do dado coletado do cristal contendo a proteína Se todas as proteínas estiverem alinhadas de forma perfeita no cristal, obtem-se informações bastante precisas sobre a localização dos átomos Caso contrário, se houver, por exemplo, movimentações no interior do cristal, o padrão de difração não será tão confiável Raquel C. de Melo Minardi 17/63

18 Resolução Raquel C. de Melo Minardi 18/63

19 Fator de temperatura Se fossemos capazes de visualizar a nuvem eletrônica de um átomo rigidamente fixo, ela seria densa das proximidades do núcleo e cairia com o aumento da distância Quando olhamos para as densidades experimentais, provenientes de experimentos de difração de raios-X, pequenas vibrações nas posições dos átomos distorcem um pouco a nuvem que somos capazes de visualizar Estas distorções são captadas proporcionalmente pelo B-value ou fator de temperatura B-value < 10, modelo bastante preciso B-value > 50, átomos quase não podem ser localizados Raquel C. de Melo Minardi 19/63

20 Fator de temperatura Raquel C. de Melo Minardi 20/63

21 Ocupância Cristais macromoleculares são compostos de muitas moléculas individuais empacotadas em um arranjo simétrico Em alguns cristais, podem haver diferenças entre estas moléculas Uma cadeia lateral na superfície pode estar em diferentes orientações nos diferentes cristais, um ligante pode se ligar em diferentes orientações em um sítio ativo, um íon pode estar presente em apenas algumas moléculas A ocupância é uma medida de cada conformação presente no cristal De modo geral, a ocupância é 1 para a maioria dos átomos indicando que eles estão na mesma posição em todas as moléculas Ocupâncias variam de 0 a 1 Raquel C. de Melo Minardi 21/63

22 Ocupância Raquel C. de Melo Minardi 22/63

23 Ocupância Raquel C. de Melo Minardi 23/63

24 Por que o PDB não é completo?
Devido a algumas limitações das técnicas de resolução, algumas partes da proteína podem estar faltando como: Loops Porções N e/ou C-terminais Hidrogênios Raquel C. de Melo Minardi 24/63

25 Loops ausentes Como a resolução de estruturas por difração de raios-X é baseada na posição dos átomos nas diversas moléculas presentes no cristal, posições muito móveis podem não apresentar um padrão claro de difração Esta protease resolvida sem ligante e por difração de raios-X apresenta dois loops ausentes devido a alta flexibilidade A mesma protease resolvida com inibidores, não apresenta este problema visto que os loops apresentam uma conformação mais estável neste caso Raquel C. de Melo Minardi 25/63

26 Hidrogênios A grande maioria dos experimentos de difração de raios-X não resolve as posições dos hidrogênios. Estas podem ser inferidas por programas posteriormente Já os experimentos de RNM baseam-se em um conjunto de distâncias entre hidrogênios apresentando as coordenadas para tais átomos Raquel C. de Melo Minardi 26/63

27 Desoxiribonucleotídeos
Sequências Cada arquivo PDB possui registros chamados SEQRES que contém a sequência primária de resíduos de aminoácidos que compõem a molécula Moléculas Nomenclatura Aminoácidos ALA, CYS, ASP, GLU, PHE, GLY, HIS, ILE, LYS, LEU, MET, ASN, PRO, GLN, ARG, SER, THR, VAL, TRP, TYR, (outros como MSE, CBR) Desoxiribonucleotídeos DA, DC, DT, DG, DI Ribonucleotídeos A, C, T, G, I Raquel C. de Melo Minardi 27/63

28 Sequências É preciso ter cuidado ao usar a sequência proveniente de SEQRES: nem sempre ela corresponde à sequência descrita na seção de coordenadas Terminais das cadeias e loops muito móveis normalmente não são obtidos nos experimentos e não tem as coordenadas descritas no arquivo PDB mesmo estando presente no experimento e descrita no SEQRES Além disto, é comum trabalhar apenas com fragmentos das moléculas então normalmente apenas trechos da molécula têm suas coordenadas depositadas O número dos aminoácidos pode assumir qualquer valor (negativo, 0, positivo) Raquel C. de Melo Minardi 28/63

29 Coordenadas atômicas Raquel C. de Melo Minardi 29/63

30 Seção de coordenadas Raquel C. de Melo Minardi 30/63

31 Formato PDB http://www.wwpdb.org/documentation/format32/v3.2.html
Raquel C. de Melo Minardi 31/63

32 PDBest PDBest – PDB Enhanced Structures Toolkit
D. Pires , C. Silveira, M. Santoro e W. Meira Júnior. Conjunto de scripts perl que: Separa arquivos PDB em cadeias Separa os arquivos de Difração de Raios-X e RNM Separa em diferentes modelos Separa ligantes Renumera os resíduos das cadeias Retira átomos de hidrogênio Seleciona por tipo ou nome de átomo, nome do resíduo, cadeia, ocupância, intervalor de átomos e resíduos, estruturas secundárias. Raquel C. de Melo Minardi 32/63

33 PDBest ATOMTYPE = ,ALL, CHAIN = ,ALL, OCCUP = ,ALL, ATOMRANGE = ,ALL,
RESRANGE = ,ALL, ATOMNAME = ,NOT-H*, RESNAME = ,ALL, SECONDSTR = ,ALL,    INCREMENTINDEX = ,ALL,`` Raquel C. de Melo Minardi 33/63

34 Referências cruzadas Raquel C. de Melo Minardi 34/63

35 Referências cruzadas Raquel C. de Melo Minardi 35/63

36 SCOP Classificação hierárquica de domínios de proteínas segundo relacionamentos evolucionários e estruturais Construído essencialmente por inspeção visual Possui os seguintes níveis: Classe: conjunto de domínios cuja composição em termos de estruturas secundárias é a mesma. Ex.: alfa, beta, alfa+beta, alfa/beta,… Fold: conjunto de proteínas das quais o arranjo das estruturas secundárias e suas inter-conexões são os mesmos Super-família: proteínas com baixa similaridade sequencial mas cujas estruturas e características funcionais sugerem relacionamentoes evolucionários Família: conjunto de proteínas que compartilham pelo menos 30% de identidade de sequência ou que, apesar da baixa similaridade de sequência, têm alta conservação estrutural e funcional Raquel C. de Melo Minardi 36/63

37 SCOP http://scop.mrc-lmb.cam.ac.uk/scop/ Raquel C. de Melo Minardi
37/63

38 Pfam Raquel C. de Melo Minardi 38/63

39 Pfam Raquel C. de Melo Minardi 39/63

40 Pfam Raquel C. de Melo Minardi 40/63

41 Pfam Raquel C. de Melo Minardi 41/63

42 Sequence To and withIN Graphics http://www.cbi.cnptia.embrapa.br/SMS
STING Sequence To and withIN Graphics Raquel C. de Melo Minardi 42/63

43 Sequence To and withIN Graphics http://www.cbi.cnptia.embrapa.br/SMS
STING Sequence To and withIN Graphics Raquel C. de Melo Minardi 43/63

44 Raquel C. de Melo Minardi
44/63

45 PDB Ligand Explorer Raquel C. de Melo Minardi 45/63

46 PDB Ligand Expo http://ligand-expo.rcsb.org Raquel C. de Melo Minardi
46/63

47 PDB Ligand Expo Raquel C. de Melo Minardi 47/63

48 PubChem http://pubchem.ncbi.nlm.nih.gov/ Raquel C. de Melo Minardi
48/63

49 PubChem http://pubchem.ncbi.nlm.nih.gov/ Raquel C. de Melo Minardi
49/63

50 Qual a modelagem mais natural para um cientista da computação?
Formatos de moléculas Qual a modelagem mais natural para um cientista da computação? Raquel C. de Melo Minardi 50/63

51 Formatos de moléculas Um grafo no qual: os átomos são nós
as ligações covalentes são arestas Como tratar a ressonância? E o tautomerismo? (migração de um átomo de hidrogênio (ou próton) acompanhada da troca de uma ligação simples por uma dupla) Raquel C. de Melo Minardi 51/63

52 Tabelas: mol, mdl, sdf Linhas: smiles
Formatos de moléculas Tabelas: mol, mdl, sdf Linhas: smiles Raquel C. de Melo Minardi 52/63

53 Formatos de moléculas: SDF
Molécula tem 21 átomos e 20 ligações Raquel C. de Melo Minardi 53/63

54 Formatos de moléculas: SMILES
Simplified Molecular Input Line Entry Specification é uma forma de descrever estruturas moleculares de forma não ambígua e através de uma cadeia de caracteres A conversão de uma estrutura molecular para o formato SMILES baseia-se na modelagem de uma molécula como um grafo no qual nós são os átomos e as arestas são as ligações covalentes entre eles A string é obtida através do caminhamento em profundidade no grafo Antes, os átomos de hidrogênio são excluídos e os ciclos são transformados em uma árvore geradora mínima Quando os ciclos são quebrados, rótulos numéricos indicam as ligações quebradas Parênteses indicam ramificações Raquel C. de Melo Minardi 54/63

55 Formatos de moléculas: SMILES
Raquel C. de Melo Minardi 55/63

56 Formatos de moléculas: SMILES
ÁTOMOS Representados pelo símbolo do elemento químico entre [] exceto para o subconjunto orgânico B, C, N, O, P, S, F, Cl, Br e I Ex.: A água é representada como O Qualquer átomo carregado deve ser colocado entre [] mais o H e a carga Ex.: [OH-], [OH+3] Raquel C. de Melo Minardi 56/63

57 Formatos de moléculas: SMILES
LIGAÇÕES Ligações em cadeias alifáticas são assumidas como simples Ex.: Etanol seria COO Rótulos numéricos indicam o fechamento de anéis Ex.: Ciclohexano C1CCCCC1 Raquel C. de Melo Minardi 57/63

58 Formatos de moléculas: SMILES
LIGAÇÕES Um segundo anel entra com rótulo 2 Ex.: Naftaleno C1CCCCC1C2CCCCC2 Ligações duplas são representadas por = Ex. Dióxido de carbon O=C=O Ligações triplas são representadas por # Raquel C. de Melo Minardi 58/63

59 Formatos de moléculas: SMILES
RAMIFICAÇÕES Ramificações são indicadas por parênteses Ex.: CCC(=O)O C(F)(F)F Raquel C. de Melo Minardi 59/63

60 Formatos de moléculas: SMILES
ESTEREOQUÍMICA Configuração ao redor de ligações duplas F/C=C/F F/C=C\F Configuração ao redor de carbonos tetraédricos Ex.: L-Alanina D-Alanina Raquel C. de Melo Minardi 60/63

61 Depict http://www.daylight.com/daycgi/depict Raquel C. de Melo Minardi
61/63

62 babel –ipdb entrada.pdb -osmiles > saida.smiles
Depict Exemplo de uso: babel –ipdb entrada.pdb -osmiles > saida.smiles Raquel C. de Melo Minardi 62/63

63 Chemaxon Raquel C. de Melo Minardi 63/63


Carregar ppt "BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS"

Apresentações semelhantes


Anúncios Google