A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL.

Apresentações semelhantes


Apresentação em tema: "BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL."— Transcrição da apresentação:

1 BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL

2 Motivação Cientistas determinaram a estrutura de milhares de componentes biomoleculares das células Entendimento da biologia celular em nível atômico Estruturas levam a respostas a inúmeras questões biológicas, assim como permitem aos cientistas a colocação de inúmeras novas questões Raquel C. de Melo Minardi2/63

3 Motivação Raquel C. de Melo Minardi3/63

4 Estruturas disponíveis livremente Arquivos de coordenadas de proteínas a ácidos nucleicos estão disponíveis on-line: robossomos, oncogenes, alvos terapêuticos e até mesmo vírus completos Desenvolvimento de fármacos: o conhecimento da estrutura de proteínas permite o projeto de pequenas moléculas que se liguem a elas e possam, por exemplo, bloquear sua função Raquel C. de Melo Minardi É comum encontrar no PDB milhares de estruturas de proteases de HIV com drogas anti-HIV Cientistas usam estruturas como esta para compreender ação dos medicamentos existentes e para projetar novos e mais poderosos medicamentos para lutar contra a resistência. 4/63

5 Estruturas disponíveis livremente Raquel C. de Melo Minardi5/63

6 Estruturas disponíveis livremente Revelação de detalhes da vida: estruturas de oxi e desoxi-hemoglobinas revelam como ocorre o controle para ligação do oxigênio Raquel C. de Melo Minardi Uma pequena mutação faz com que hemoglobinas se agreguem em longas cadeias que distorcem as hemáceas e causam severos problemas circulatórios 6/63

7 Estruturas disponíveis livremente Engenharia biomolecular e bionanotecnologia: Pesquisadores visam modificar biomoléculas para que adquiram novas funções ou mesmo projetar moléculas inteiramente novas Raquel C. de Melo Minardi7/63

8 PDB Possibilta a exploração das bases atômicas da função molecular É um repositório de coordenadas atômicas e anotações detalhadas sobre os detalhes experimentais Desafios: 1. Obter o conjunto de moléculas de interesse 2. Utilizar / desenvolver modelos, algoritmos e ferramentas que possibilitem obter as propriedades de interesse Raquel C. de Melo Minardi8/63

9 PDB: Busca Há muitas ferramentas disponíveis para busca no PDB baseadas em diversas propriedades como por exemplo nomes de moléculas e sequências de aminoácidos Há ainda diversas referências cruzadas com outras bases como Gene Ontology, SCOP, CATH, EC numbers, etc Há ainda a possibilidade de se acessar este repositório via FTP wget -r ftp://ftp.wwpdb.org/pub/pdb/data/structures/all/pdb/* -nd -nv Raquel C. de Melo Minardi9/63

10 PDB: Visualização O PDB utiliza comumente o plug-in do Jmol (desenvolvido em Java) Há inúmeras outras possibilidades de ferramentas de visualização de estruturas no formato PDB como Rasmol e PyMol, por exemplo Infelizmente, cada ferramenta utiliza um conjunto de comandos extremamente específico Raquel C. de Melo Minardi10/63

11 PDB: Visualização Raquel C. de Melo Minardi Rasmol Programa leve Simplicidade de aprendizado PyMol Imagens de alta qualidade 11/63

12 PDB: Visualização Raquel C. de Melo Minardi Jmol Pode ser embutido em páginas web 12/63

13 Dados do PDB Os arquivos PDB são arquivos texto, podendo ser abertos em qualquer editor de textos como notepad, vi, etc. Informação primária: coordenadas (x, y, z), ou seja, lista de átomos que compõem uma proteína e suas localizações no espaço tridimensional Um PDB típico traz um resumo sobre a proteína, informações sobre citações, detalhes dos experimentos de resolução seguido das coordenadas Outros formatos: mmCIF e XML Raquel C. de Melo Minardi13/63

14 Coordenadas Um arquivo PDB pode conter coordenadas de uma coleção de proteínas, pequenas moléculas, íons e água As informações de cada átomo são descritas em uma linha que começa com as palavras-chave ATOM ou HETATM ATOM identifica átomos de proteínas e ácidos nucléicos HETATM identifica átomos de pequenas moléculas Após esta palavra, chave há uma lista de informações: nome do átomo, seu identificador no arquivo, nome e número do resíduo de aminoácidos ao qual pertence, uma letra indicando sua cadeia, coordenadas x, y, z e a sua ocupância e fator de temperatura Raquel C. de Melo Minardi14/63

15 Coordenadas Raquel C. de Melo Minardi15/63

16 Cadeias e modelos Um arquivo PDB é sempre dividido em cadeias Cada cadeia polipeptídica recebe um identificador de uma letra No caso de experimentos de RNM, ele é dividido em múltiplos modelos representando possíveis conformações para a molécula Raquel C. de Melo Minardi16/63

17 Resolução A resolução é uma medida da qualidade do dado coletado do cristal contendo a proteína Se todas as proteínas estiverem alinhadas de forma perfeita no cristal, obtem-se informações bastante precisas sobre a localização dos átomos Caso contrário, se houver, por exemplo, movimentações no interior do cristal, o padrão de difração não será tão confiável Raquel C. de Melo Minardi17/63

18 Resolução Raquel C. de Melo Minardi18/63

19 Fator de temperatura Se fossemos capazes de visualizar a nuvem eletrônica de um átomo rigidamente fixo, ela seria densa das proximidades do núcleo e cairia com o aumento da distância Quando olhamos para as densidades experimentais, provenientes de experimentos de difração de raios-X, pequenas vibrações nas posições dos átomos distorcem um pouco a nuvem que somos capazes de visualizar Estas distorções são captadas proporcionalmente pelo B- value ou fator de temperatura B-value < 10, modelo bastante preciso B-value > 50, átomos quase não podem ser localizados Raquel C. de Melo Minardi19/63

20 Fator de temperatura Raquel C. de Melo Minardi20/63

21 Ocupância Cristais macromoleculares são compostos de muitas moléculas individuais empacotadas em um arranjo simétrico Em alguns cristais, podem haver diferenças entre estas moléculas Uma cadeia lateral na superfície pode estar em diferentes orientações nos diferentes cristais, um ligante pode se ligar em diferentes orientações em um sítio ativo, um íon pode estar presente em apenas algumas moléculas A ocupância é uma medida de cada conformação presente no cristal De modo geral, a ocupância é 1 para a maioria dos átomos indicando que eles estão na mesma posição em todas as moléculas Ocupâncias variam de 0 a 1 Raquel C. de Melo Minardi21/63

22 Ocupância Raquel C. de Melo Minardi22/63

23 Ocupância Raquel C. de Melo Minardi23/63

24 Por que o PDB não é completo? Devido a algumas limitações das técnicas de resolução, algumas partes da proteína podem estar faltando como: Loops Porções N e/ou C-terminais Hidrogênios Raquel C. de Melo Minardi24/63

25 Loops ausentes Como a resolução de estruturas por difração de raios-X é baseada na posição dos átomos nas diversas moléculas presentes no cristal, posições muito móveis podem não apresentar um padrão claro de difração Raquel C. de Melo Minardi Esta protease resolvida sem ligante e por difração de raios-X apresenta dois loops ausentes devido a alta flexibilidade A mesma protease resolvida com inibidores, não apresenta este problema visto que os loops apresentam uma conformação mais estável neste caso 25/63

26 Hidrogênios A grande maioria dos experimentos de difração de raios-X não resolve as posições dos hidrogênios. Estas podem ser inferidas por programas posteriormente Já os experimentos de RNM baseam-se em um conjunto de distâncias entre hidrogênios apresentando as coordenadas para tais átomos Raquel C. de Melo Minardi26/63

27 Sequências Cada arquivo PDB possui registros chamados SEQRES que contém a sequência primária de resíduos de aminoácidos que compõem a molécula Raquel C. de Melo Minardi MoléculasNomenclatura AminoácidosALA, CYS, ASP, GLU, PHE, GLY, HIS, ILE, LYS, LEU, MET, ASN, PRO, GLN, ARG, SER, THR, VAL, TRP, TYR, (outros como MSE, CBR) DesoxiribonucleotídeosDA, DC, DT, DG, DI RibonucleotídeosA, C, T, G, I 27/63

28 Sequências É preciso ter cuidado ao usar a sequência proveniente de SEQRES: nem sempre ela corresponde à sequência descrita na seção de coordenadas Terminais das cadeias e loops muito móveis normalmente não são obtidos nos experimentos e não tem as coordenadas descritas no arquivo PDB mesmo estando presente no experimento e descrita no SEQRES Além disto, é comum trabalhar apenas com fragmentos das moléculas então normalmente apenas trechos da molécula têm suas coordenadas depositadas O número dos aminoácidos pode assumir qualquer valor (negativo, 0, positivo) Raquel C. de Melo Minardi28/63

29 Coordenadas atômicas Raquel C. de Melo Minardi29/63

30 Seção de coordenadas Raquel C. de Melo Minardi30/63

31 Formato PDB Raquel C. de Melo Minardi31/63

32 PDBest PDBest – PDB Enhanced Structures Toolkit D. Pires, C. Silveira, M. Santoro e W. Meira Júnior. Conjunto de scripts perl que: Separa arquivos PDB em cadeias Separa os arquivos de Difração de Raios-X e RNM Separa em diferentes modelos Separa ligantes Renumera os resíduos das cadeias Retira átomos de hidrogênio Seleciona por tipo ou nome de átomo, nome do resíduo, cadeia, ocupância, intervalor de átomos e resíduos, estruturas secundárias. Raquel C. de Melo Minardi32/63

33 PDBest ATOMTYPE =,ALL, CHAIN =,ALL, OCCUP =,ALL, ATOMRANGE =,ALL, RESRANGE =,ALL, ATOMNAME =,NOT-H*, RESNAME =,ALL, SECONDSTR =,ALL, INCREMENTINDEX =,ALL,`` Raquel C. de Melo Minardi33/63

34 Referências cruzadas Raquel C. de Melo Minardi34/63

35 Referências cruzadas Raquel C. de Melo Minardi35/63

36 SCOP Raquel C. de Melo Minardi Classificação hierárquica de domínios de proteínas segundo relacionamentos evolucionários e estruturais Construído essencialmente por inspeção visual Possui os seguintes níveis: 1. Classe: conjunto de domínios cuja composição em termos de estruturas secundárias é a mesma. Ex.: alfa, beta, alfa+beta, alfa/beta,… 2. Fold: conjunto de proteínas das quais o arranjo das estruturas secundárias e suas inter-conexões são os mesmos 3. Super-família: proteínas com baixa similaridade sequencial mas cujas estruturas e características funcionais sugerem relacionamentoes evolucionários 4. Família: conjunto de proteínas que compartilham pelo menos 30% de identidade de sequência ou que, apesar da baixa similaridade de sequência, têm alta conservação estrutural e funcional 36/63

37 SCOP Raquel C. de Melo Minardi 37/63

38 Pfam Raquel C. de Melo Minardi 38/63

39 Pfam Raquel C. de Melo Minardi 39/63

40 Pfam Raquel C. de Melo Minardi 40/63

41 Pfam Raquel C. de Melo Minardi 41/63

42 STING Raquel C. de Melo Minardi Sequence To and withIN Graphics 42/63

43 STING Raquel C. de Melo Minardi Sequence To and withIN Graphics 43/63

44 Raquel C. de Melo Minardi44/63

45 PDB Ligand Explorer Raquel C. de Melo Minardi erType=LX&structureId=1A6M&structIdFromStrutsAction=1A6M 45/63

46 PDB Ligand Expo Raquel C. de Melo Minardi 46/63

47 PDB Ligand Expo Raquel C. de Melo Minardi47/63

48 PubChem Raquel C. de Melo Minardi 48/63

49 PubChem Raquel C. de Melo Minardi 49/63

50 Formatos de moléculas Raquel C. de Melo Minardi Qual a modelagem mais natural para um cientista da computação? 50/63

51 Formatos de moléculas Raquel C. de Melo Minardi Um grafo no qual: os átomos são nós as ligações covalentes são arestas Como tratar a ressonância? E o tautomerismo? (migração de um átomo de hidrogênio (ou próton) acompanhada da troca de uma ligação simples por uma dupla) 51/63

52 Formatos de moléculas Raquel C. de Melo Minardi Tabelas: mol, mdl, sdf Linhas: smiles 52/63

53 Formatos de moléculas: SDF Raquel C. de Melo Minardi Molécula tem 21 átomos e 20 ligações 53/63

54 Formatos de moléculas: SMILES Raquel C. de Melo Minardi Simplified Molecular Input Line Entry Specification é uma forma de descrever estruturas moleculares de forma não ambígua e através de uma cadeia de caracteres A conversão de uma estrutura molecular para o formato SMILES baseia-se na modelagem de uma molécula como um grafo no qual nós são os átomos e as arestas são as ligações covalentes entre eles A string é obtida através do caminhamento em profundidade no grafo Antes, os átomos de hidrogênio são excluídos e os ciclos são transformados em uma árvore geradora mínima Quando os ciclos são quebrados, rótulos numéricos indicam as ligações quebradas Parênteses indicam ramificações 54/63

55 Formatos de moléculas: SMILES Raquel C. de Melo Minardi55/63

56 Formatos de moléculas: SMILES Raquel C. de Melo Minardi ÁTOMOS Representados pelo símbolo do elemento químico entre [] exceto para o subconjunto orgânico B, C, N, O, P, S, F, Cl, Br e I Ex.: A água é representada como O Qualquer átomo carregado deve ser colocado entre [] mais o H e a carga Ex.: [OH-], [OH+3] 56/63

57 Formatos de moléculas: SMILES Raquel C. de Melo Minardi LIGAÇÕES Ligações em cadeias alifáticas são assumidas como simples Ex.: Etanol seria COO Rótulos numéricos indicam o fechamento de anéis Ex.: Ciclohexano C1CCCCC1 57/63

58 Formatos de moléculas: SMILES Raquel C. de Melo Minardi LIGAÇÕES Um segundo anel entra com rótulo 2 Ex.: Naftaleno C1CCCCC1C2CCCCC2 Ligações duplas são representadas por = Ex. Dióxido de carbon O=C=O Ligações triplas são representadas por # 58/63

59 Formatos de moléculas: SMILES Raquel C. de Melo Minardi RAMIFICAÇÕES Ramificações são indicadas por parênteses Ex.: CCC(=O)O C(F)(F)F 59/63

60 Formatos de moléculas: SMILES Raquel C. de Melo Minardi ESTEREOQUÍMICA Configuração ao redor de ligações duplas F/C=C/F F/C=C\F Configuração ao redor de carbonos tetraédricos Ex.: L-Alanina D-Alanina 60/63

61 Depict Raquel C. de Melo Minardi 61/63

62 Depict Raquel C. de Melo Minardi Exemplo de uso: babel –ipdb entrada.pdb -osmiles > saida.smiles 62/63

63 Chemaxon Raquel C. de Melo Minardi 63/63


Carregar ppt "BASES DE DADOS DE ESTRUTURAS DE PROTEÍNAS E OUTRAS BIOMOLÉCULAS Raquel C. de Melo Minardi CURSO DE VERÃO EM BIOINFORMÁTICA ESTRUTURAL."

Apresentações semelhantes


Anúncios Google