Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas
Tiago Edmundo Ribeiro Brito Orientadora: Katia S. Guimarães Mestrado em Ciência da Computação

Roteiro Bibliotecas de Fragmentos Proteínas e sua Importância
Estruturas das Proteínas Determinação da Estrutura 3-D Bibliotecas de Fragmentos Trabalho Proposto Conclusões

Proteínas Proteínas são polímeros cuja unidade básica é o aminoácido.
São os principais e mais abundantes componentes orgânicos da célula, participando das estruturas celulares e dos processos bioquímicos da fisiologia celular.

Estruturas das Proteínas
Níveis Estruturais Est. Primária (Seqüência de Aminoácidos) Est. Secundária (Arranjos Recorrentes dos R) Est. Terciária (Conformação 3-D) Função x Forma 3-D

Determinação da Est. 3-D Métodos Experimentais: Métodos Teóricos:
Cristalografia Ressonância Magnética Nuclear Extremamente precisos, porém caros e instáveis Métodos Teóricos: Homologia ou Modelagem Comparativa (tradicional) Bibliotecas de Fragmentos (nova tendência)

Homologia Baseia-se na comparação entre as proteínas-alvo e outras cuja estrutura já seja conhecida Alinhamento entre proteínas homólogas e o alvo Verificação de proximidades locais Construção e validação do modelo total Desvantagens Requer pesquisa de proteínas homólogas Processo iterativo, com aplicação de restrições ao final de cada passo

Bibliotecas de Fragmentos
Baseia-se na construção de conjuntos de fragmentos representativos de proteínas 1986, Jones et al.: o backbone das proteínas é composto de estruturas repetidas (4 a 10 resíduos) Dificuldade Infinitas possibilidades de conformação entre dois fragmentos Solução Usar forte restrição na conformação

Bib. Fragmentos - Motivação
Breve histórico estrutural das proteínas: Há quase 50 anos, as hélices  e fitas  foram descritas por Corey & Pauling. Dez anos mais tarde, os ângulos de torção  e , permitidos a cada resíduo na interação das ramificações laterais com a cadeia principal, foram definidos por Ramachandran Em Jones & Thirup detectam que quase todas as regiões do backbone da proteína são formadas por estruturas canônicas repetidas. Posteriormente, Unger et al. classificaram as unidades peptídicas, formadas de 4 a 10 resíduos, da cadeia principal das proteínas numa coleção de fragmentos. Nível intermediário de representação das estruturas das proteínas (entre a estrutura primária e a secundária).

Bib. Fragmentos - Motivação
Mesmo utilizando os ângulos de torção para restringir o grau de liberdade, a cadeia de uma proteína pode ter um número infinito de diferentes conformações. Restringir a conformação local dos resíduos para um número limitado de estados pode ajudar na discretização da conformação da proteína, reduzindo o número de possíveis arranjos espaciais. Logicamente, a utilidade deste tipo de modelo depende da exatidão com que ele modela a conformação real da proteína bem como sua complexidade, o número de possíveis estados de cada resíduo.

Bib. Fragmentos – Princípio
Encontrar um conjunto finito de fragmentos de proteínas que possam ser utilizados para aproximar a conformação espacial de qualquer proteína com boa precisão.

Bib. Fragmentos – Etapas
I – Conjunto de Treinamento II – Construção das Bibliotecas III – Modelagem do Alvo IV – Validação do Modelo

Bib. Fragmentos – Etapa I
Conjunto de Treinamento Seleção das proteínas que darão origem às bibliotecas Fragmentação com escolha do comprimento dos fragmentos

Bib. Fragmentos – Etapa II
Construção das Bibliotecas Agrupamento dos fragmentos mais representativos através de clustering Escolha de uma das técnicas existentes Uso de uma métrica de comparação entre fragmentos

Bib. Fragmentos – Etapa III
Modelagem do Alvo A partir de uma biblioteca, modela-se a estrutura da proteína-alvo, semelhante à montagem de um quebra-cabeças Aplicação de restrições

Bib. Fragmentos – Etapa IV
Validação do Modelo Comparação com o modelo real (testes) Uso de softwares específicos

Bib. Fragmentos – Est. Caso
Estudo exaustivo com bibliotecas de fragmentos de comprimento variando de 4 a 7 resíduos. (Cientistas da Univ. de Stanford) A exatidão das representações discretas depende da sua complexidade e varia de 1.9Å para um modelo de 4 estados e fragmentos de tamanho 7 até 0.76Å para um modelo de 15 estados e fragmentos de tamanho 5.

Para a fase inicial de clustering um conjunto de proteínas do PDB, com os dados estruturais mais confiáveis, serviu como conjunto de dados inicial (tabela 1). Deste conjunto de proteínas foram extraídos quatro conjuntos de treinamento de fragmentos de backbone de proteínas. Estes conjuntos de treinamento diferiam no comprimento dos fragmentos que variava de 4 a 7 resíduos. O número de fragmentos em cada conjunto foi 8949, 7123, 5910, 5029 para comprimentos de 4, 5, 6 e 7 resíduos, respectivamente.

Antes da aplicação da técnica de clustering duas observações a respeito dos dados do conjunto de testes precisam ser ressaltadas: os fragmentos considerados fora do padrão e a grande quantidade de fragmentos hélice . Os primeiros são aqueles cujo desvio cRMS em relação a todos os outros é relativamente alto. De acordo com um limiar, estes fragmentos são removidos. Cerca de 10% são descartados com os seguintes valores de limiar: 0.074Å, 0.307Å, 0.487Å e 0.755Å, para conjuntos de de comprimento 4, 5, 6 e 7 resíduos, respectivamente. A grande quantidade de fragmentos contendo hélices  dificulta a rotina de clustering.

A similaridade estrutural entre dois fragmentos é medida através do desvio cRMS entre os átomos Cα, após superposições usando mínimos quadrados.

Técnica de clustering: Simulated annealing k-means. Indicado para vários problemas de clustering utilizando dados biológicos com distribuição desconhecida e desigual dos objetos. derivada da k-means pelo melhoramento do conjunto de centroids. O k-means clustering é executado repetidas vezes mesclando dois conjuntos e dividindo outro. Os conjuntos a serem mesclados são selecionados aleatoriamente, sendo que os conjuntos mais próximos têm maiores chances de ser selecionados. O conjunto a ser dividido também é selecionado aleatoriamente, sendo que conjuntos dispersos têm mais chances de ser escolhidos.

Várias funções diferentes foram testadas na atribuição de uma pontuação a cada conjunto e a escolhida (melhores resultados) foi a variância total do conjunto (soma de todos os quadrados das distâncias dos fragmentos em relação ao elemento principal do conjunto - centroid). O número de conjuntos desejado é um parâmetro para a rotina de clustering. O método utilizado é melhor que o seu antecessor pois lida melhor com altas concentrações de fragmentos (grande quantidade de hélices ) e por ser indiferente à escolha inicial dos elementos centrais dos conjuntos.

Esta técnica é ainda um pouco melhor que o método de clustering hierárquico (cujo tempo de execução é muito maior) que mescla os conjuntos em baseando-se na distância máxima entre quaisquer dois membros de conjuntos diferentes. O resultado da aplicação da técnica de clustering é compilado em bibliotecas, pequenos conjuntos de fragmentos representativos de proteínas. As bibliotecas são representações dos conjuntos e são constituídas pelos elementos centrais dos mesmos (o fragmento com a mínima soma dos desvios cRMS relativo a todos os outros fragmentos do conjunto).

Muitas execuções da rotina de clustering são realizadas (variando o número de conjuntos e o comprimento dos fragmentos). Cada execução inicia-se com 50 diferentes elementos centrais (sementes) aleatórias e, ao final, escolhe a melhor biblioteca com a mínima pontuação de variância total. Como os fragmentos agrupados são utilizados para construir bibliotecas representativas de todos os fragmentos do conjunto de treinamento, é esperado que resultem em boas bibliotecas, representando também todos os motifs encontrados nas proteínas reais. Para mensurar a qualidade de uma biblioteca são usados o local e o global fits (ajustes), obtidos a partir da aproximação da estrutura das proteínas do conjunto de testes (independente do conjunto de treinamento).

Local-fit: medida de quão bem a biblioteca modela a conformação local de todas as proteínas no conjunto de testes. Cada proteína é desmembrada num conjunto de fragmentos de tamanho específico f. Cada fragmento da proteína é associado a um fragmento da biblioteca que contenha o melhor valor do cRMS. O local-fit é a média dos valores dos cRMS de todos os fragmentos aproximados.

Global-fit, é a medida de quão bem uma biblioteca modela a conformação tridimensional global de todas as proteínas do conjunto de testes. Uma forma de construir estruturas tridimensionais contíguas a partir das bibliotecas de fragmentos é concatenar os fragmentos de bibliotecas com melhores local-fit citados anteriormente. Superpondo o primeiro átomo C de cada fragmento com o último átomo C  do fragmento anterior, torna-se necessário especificar a orientação dos dois fragmentos. Isso pode ser feito pela especificação os ângulos de torção  e . Porém, em muitos casos, estes ângulos podem assumir uma grande combinação de valores.

A solução encontrada foi utilizar o chamado global-fit aproximado, onde a posição de um fragmento é determinada pela superposição dos seus três primeiros C com os três últimos do fragmento anterior (Exemplo 2-D na figura 6). Esta abordagem discretiza o espaço de todas as aproximações construindo uma relação de um para um entre uma sequência de fragmentos e sua representação tridimensional. Enquanto o melhor local-fit pode ser facilmente calculado, a sequência de fragmentos de biblioteca necessários para o global-fit é muito mais difícil de encontrar. A sequência ótima de fragmentos de biblioteca deve definir a estrutura 3-D com o mínimo desvio cRMS em relação à estrutura real da proteína alvo.

Conjunto de teste de proteínas utilizado por Park & Levitt. Inclui 145 proteínas com diferentes estruturas de motifs, de comprimentos variáveis entre 36 e 753 resíduos. (Tabela 1, identificadores do PDB das 145 proteínas). Facilidade na comparação e extensão dos resultados obtidos em relação aos dois autores citados.

Tabela 2 mostra os melhores valores do local-fit. A figura 1 mostra os dados da tabela 2 em função da complexidade das bibliotecas. Os fragmentos das proteínas do conjunto de teste podem ser descritos satisfatoriamente por qualquer das bibliotecas consideradas (desvio abaixo de 1Å em todos os casos). Para bibliotecas cujos fragmentos têm o mesmo tamanho, a exatidão do local-fit aumenta junto com a complexidade. Para bibliotecas que possuem a mesma complexidade, a exatidão do local-fit aumenta com a diminuição do número de resíduos dos fragmentos (Menor número de átomos C).

Tabela 2 mostra também os valores do global-fit. A figura 2 mostra os dados da tabela 2 em função da complexidade das bibliotecas. A média do global-fit no conjunto de testes varia de 2.58 Å, para a complexidade mais baixa, até 0.76 Å para a biblioteca de complexidade mais alta. Para fragmentos que têm o mesmo tamanho, bibliotecas mais complexas oferecem uma melhor aproximação pelo global-fit. Para uma mesma complexidade, bibliotecas cujos fragmentos têm maior comprimento resultam numa melhor aproximação do global-fit.

Figura 4 mostra a média do desvio cRMS das aproximações local-fit versus a mesma medida das aproximações global-fit. O local-fit é sempre menor que o cRMS global-fit correspondente. Isto já era esperado, pois o local-fit ignora a ligação entre fragmentos adjacentes ao longo da cadeia. Desta forma, pode-se utilizar o local-fit na estimativa do global-fit. É possível perceber também que, para um mesmo nível de global-fit, o local-fit decresce com o comprimento do fragmento.

A dependência da exatidão das aproximações em relação ao comprimento das proteínas aproximadas. Foram considerados os desvios cRMS da melhor aproximação local-fit e da melhor aproximação global-fit versus o comprimento do polipeptídio. A exatidão da aproximação local-fit é independente do comprimento da cadeia. Já as aproximações global-fit são ligeiramente dependentes do comprimento da cadeia (os dados não foram exibidos). Exemplo de aproximações na figura 5.

Nas aproximações feitas com as bibliotecas de fragmentos o global-fit varia de 2.9 Ǻ até 0.76 Ǻ com complexidades de 2.66 a 15 estados por resíduo, respectivamente. Os modelos resultantes da aproximação da estrutura das proteínas utilizando tais bibliotecas são úteis para: predição de estruturas, ajustes de loops, enumeração exaustiva de conformações de peptídeos e determinação de estrutura de baixa resolução através de ressonância nuclear magnética (nuclear magnetic ressonance - NMR) ou critalografia de raio-X.

Resultados ainda melhores são esperados com a utilização de bibliotecas de fragmentos de tamanho 6 ou 7. Porém, para construção de tais bibliotecas uma grande quantidade de dados de coordenadas de proteínas é necessário. Aqui, são utilizadas bibliotecas de 250 fragmentos de comprimento 7 que apresentam uma complexidade de 1.91 Å. Para atingir 1 Å seria necessário uma complexidade em torno de 8 e 84 = 4096 fragmentos (futuro, com o crescimento na determinação das estruturas das proteínas).

Proposta de Trabalho Construir e analisar diferentes tipos de bibliotecas de fragmentos Objetivo principal: Determinar parâmetros ideais para aproximação de estruturas de proteínas Variações serem testadas Métrica de similaridade Técnicas de clustering Comprimento dos resíduos Tamanho das bibliotecas

Conclusões Técnicas computacionais x Distância entre seqüências e estruturas 3-D Uso de bibliotecas de fragmentos técnica mais rápida e tão precisa quanto a modelagem comparativa Proposta Necessidade de aprofundamento e estabelecimento de parâmetros ideais na aplicação da nova técnica

Referências HOLMES, J. Bradley and TSAI, Jerry. Protein Science. 2004, 13, P KOLODNY, Rachel; KOEHL, Patrice; GUIBAS, Leonidas and LEVITT, Michael. Journal of Molecular Biology. 2002, 323, P

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas
Tiago Edmundo Ribeiro Brito

Voltar

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas

Apresentações semelhantes

Apresentação em tema: "Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas

Apresentações semelhantes

Apresentação em tema: "Bibliotecas de Fragmentos para Inferência de Estruturas de Proteínas"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback