Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouMirella Raso Alterado mais de 9 anos atrás
1
Inferência de redes gênicas por métodos de seleção de características
David Correa Martins Jr Centro de Matemática, Computação e Cognição Universidade Federal do ABC (UFABC)
2
Sumário Processos celulares (systems biology) redes de regulação gênica (GRN) Motivação para pesquisas em inferência de GRNs Conceitos básicos de GRN Inferência de GRN por seleção de características Pesquisas em andamento
3
Célula Proteínas Vias metabólicas Núcleo DNA mRNA Tradução Transporte
Transcrição
4
Arrays de expressão gênica (1995)
Sequenciamento em larga escala (high throughput sequencing) Arrays de expressão gênica (1995) Microarray
5
Motivação Controle celular: resultado de atividade multivariada entre genes Modelagem de interação multivariada para propósitos terapêuticos e criação de novas drogas Inferência de parâmetros de uma rede regulatória a partir de dados experimentais é um dos grandes desafios da bioinformática
6
Motivação Conhecer leis gerais sobre essas redes
Identificar grupos de genes associados a determinadas características bioquímicas Investigar a possibilidade de controlar suas dinâmicas e qual a melhor maneira (mais prática, menos custosa, etc) de fazer isso
7
Motivação – Systems Biology
Área interdisciplinar que estuda a rede complexa de interações que ocorrem em sistemas biológicos Desenvolvimento de modelos e abordagens para desvendar propriedades emergentes de células, tecidos e órgãos, que funcionam como um sistema integrado Tipicamente envolve estudos de regulação gênica, metabólica e de redes de sinalização celular integração e análise de massivos conjuntos de dados complexos e heterogêneos Big Data diversas plataformas (“ômicas”) genômica, transcriptômica, proteômica, metabolômica, epigenômica, interferômica, glicômica, lipdômica, interatômica, fluxômica, biômica, semiômica, etceterômica...
8
Redes de regulação gênica
Redes de regulação gênica (Gene Regulatory Networks – GRN) Podem ser vistos como redes de interação gênica nas quais o nível de expressão de um gene é controlado pelos níveis de expressão de outros genes Sinal de expressão gênica: quantidade de mRNA transcrito Principais tecnologias de medição de expressão gênica: microarrays, SAGE, RNASeq
9
Motivação Desafios: Poucas observações (dezenas) para muitas variáveis (milhares) Situação desejável: Muitas observações (milhares) para poucas variáveis (dezenas) Natureza dos dados Tecnologias de extração de mRNAs consistem de um pipeline envolvendo diversas etapas introdução de ruidos ao longo do processo
10
Microarray: formato dos dados
Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . GeneN . M <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< N
11
Motivação Desafios: Como lidar com esses problemas?
Poucas observações (dezenas) para muitas variáveis (milhares) Situação desejável: Muitas observações (milhares) para poucas variáveis (dezenas) Natureza dos dados Tecnologias de extração de mRNAs consistem de um pipeline envolvendo diversas etapas introdução de ruidos ao longo do processo Como lidar com esses problemas?
12
GRN: conceitos básicos
GRNs podem ser visualizados como um grafo vértices: genes arestas: dependências entre os genes definem a relação topológica da rede [Hecker et al, 2009]
13
GRN: conceitos básicos
Principais modelagens de sistemas biológicos podem ser classificadas em 4 categorias principais estáticos (sem informação temporal) X dinâmicos (com informação temporal) contínuos (genes assumem valores reais) X discretos (genes assumem valores inteiros finitos) lineares X não-lineares estocásticos X determinísticos
14
GRN: conceitos básicos
Estado da rede Vetor contendo os valores de expressão dos genes Ex: [ ] X1 = 0.75, X2 = 1.78, X3 = 2.42, X4 = 0.94, X5 = 0.51 Experimento de microarray corresponde a um estado do sistema
15
Microarray: formato dos dados
Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . GeneN . 1 estado Sabemos que o sistema esteve nesses M estados
16
GRN: conceitos básicos
Número de estados possíveis Infinitos, se levarmos em conta que genes possuem valores reais Pode-se tornar finito o número de estados possíveis tornando os valores de expressão finitos (quantização ou discretização) Ex: [ ] => [ ] subexpresso (Xi < 1 => Xi = 0) superexpresso (Xi > 1 => Xi = 1) (Número de valores possíveis)N Caso binário: 2N Caso ternário: 3N
17
Microarray: formato dos dados
Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . GeneN . 1 estado Dados binarizados
18
GRN: conceitos básicos
Número de estados possíveis O genoma humano tem em torno de N = 30000 230000
19
GRN: conceitos básicos
Número de estados possíveis O genoma humano tem em torno de N = 30000 230000 Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3) 23 = 8 (OK!)
20
GRN: conceitos básicos
Número de estados possíveis O genoma humano tem em torno de N = 30000 230000 Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3) 23 = 8 (OK!) Inferência de dependências é possível! Mas o que significa “um gene depender de outros”?
21
Inferência de GRNs Dependência entre genes Redes estáticas
Depende.... São redes estáticas ou dinâmicas? Redes estáticas Não há informação da dinâmica (temporal) Dependências estáticas (co-regulação) Redes dinâmicas Informação temporal Dependências no tempo (predição / causa e efeito) Função de transição de estados
22
Inferência de GRNs Como medir o grau de dependência de um gene em relação aos outros? Seleção de características Dado um gene alvo, define-se um algoritmo de seleção de características (algoritmo de busca) que tenta obter o subconjunto de genes mais relevantes para descrever o seu comportamento Critério de relevância Exemplos de funções critérios: informação mútua (baseada em entropia) e coeficiente de determinação (baseado no erro Bayesiano)
23
Inferência de GRNs Processo de seleção de características
Entrada: matriz de expressões gênicas, índice do gene alvo e critério de relevância Para cada subconjunto de genes considerado: preenche-se uma tabela de probabilidades conjuntas um valor de relevância é atribuído pelo critério com base nessa tabela a esse subconjunto Saída: subconjuntos de genes candidatos ordenados pelo critério de relevância
24
-1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target
25
-1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 0 1 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target
26
-1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 0 1 0 1 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target
27
-1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 0 1 0 1 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target
28
-1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target
29
-1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target
30
Características do par (g1,g2) Características do par (g3,g5)
g alvo -1 0 1 g alvo -1 0 1 g1 g2 g3 g5 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 2 2 2 3 2 2 0 3 1 2 4 3 1 1 2 1 0 1 2 3 1 1 1 0 4 2 2 Características do par (g1,g2) Informação mútua / CoD altos Predição quase perfeita Forte candidata a ser classificada entre os melhores pares (g1 e g2 poderão ser conectados ao gene alvo) Características do par (g3,g5) Informação mútua / CoD baixos Predição muito ruim Descartado
31
Inferência de GRNs Uma vez que temos o melhor subconjunto de genes preditores (ou co-reguladores) para cada gene, temos toda a informação topológica da rede Porém, topologia não é tudo Também precisamos saber como são essas relações Tal informação está presente nas tabelas de probabilidades conjuntas
32
Inferência de GRNs Exemplo: considere as variáveis binárias X1, X2, X3, sendo que X3 depende de X1 e X2 Várias possibilidades de regras lógicas: X3 = X1 AND X2 X3 = X1 OR X2 X3 = X1 NAND X2 X1 X2 X3 Existem 24 = 16 lógicas possíveis para o caso com 2 preditores binários
33
Inferência de GRNs g alvo g1 g2
Como obter as lógicas (ou regras de regulação) a partir das tabelas de probabilidades conjuntas? g alvo 0 1 g1 g2 0 0 0 1 1 0 1 1 6 0 4 3 5 1 2 8 1 AND Resposta: obtendo o valor do alvo cuja probabilidade é máxima para cada linha (argmax)
34
Inferência de GRNs Obtendo a topologia e as regras das dependências, temos tudo! Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa X[t+1] = f(X[t]) Podemos determinar suas trajetórias, bacias de atração, atratores...
35
Bacias de atração, atratores e estados transientes
001 111 011 010 100 110 101 000 Estados transientes Exemplo para um sistema de 3 genes Atratores Estados atratores
36
(1786 estados de um total de 2048)
Principal bacia de atração de um sistema regulatório de 11 genes responsáveis pelo controle do ciclo celular da Levedura (Saccharomyces cerevisiae) (1786 estados de um total de 2048) F. Li, T. Long, Y. Lu, Q. Ouyang and C. Tang The yeast cell cycle is robustly designed. PNAS 101(14):4781-6, 2004
37
Inferência de GRNs Obtendo a topologia e as regras das dependências, temos tudo! Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa X[t+1] = f(X[t]) Podemos determinar suas trajetórias, bacias de atração, atratores... Mas com poucas amostras, há erros de estimação
38
Inferência de GRNs g alvo g1 g2 -1 0 1 -1 -1 -1 0 -1 1 0 -1 0 0 0 1
-1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 (g1,g2) = (1,0) não foi observado! E agora? Essa instância não aparece porque de fato o sistema é assim ou por causa do número pequeno de observações?
39
Pesquisas em andamento
Como inferir “hubs” a partir de poucas amostras? (e como decidir o grau de entrada dele?) Hub: gene com alto grau de entrada Em sistemas binários, um gene com grau 8 terá uma tabela com 28 = 256 linhas Se tivermos 30 amostras, pelo menos 226 dessas linhas não serão observadas (princípio da casa dos pombos) grau 8
40
Pesquisas em andamento
Em particular, inferência de hubs é importante para inferência de redes “livres de escala” (scale-free) Poucos nós com alto grau de entrada Muitos nós com baixo grau de entrada
41
Pesquisas em andamento
Exemplo de uma rede metabólica livre de escala vértices = metabólitos, arestas = reações químicas
42
Pesquisas em andamento
Inferência de redes “mundo pequeno” (small-world) Probabilidade alta de haver transitividade Se o vértice X1 está ligado a X2, e X2 está ligado a X3, então X1 está ligado a X3 Alto número de triângulos Tendência de formar agrupamentos ou módulos (clusters) X2 X1 X3 alta probabilidade
43
Pesquisas em andamento
Exemplo de rede “mundo pequeno”
44
Pesquisas em andamento
Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado) Dados temporais permitem tanto análise de predição como de co-regulação Porém, dados estáticos só permitem análise de co-regulação a princípio
45
Pesquisas em andamento
Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado) Inferir um sistema dinâmico a partir das probabilidades de cada estado é um problema mal-posto Existem infinitas possibilidades de sistemas que convergem para tais probabilidades Como descobrir o sistema verdadeiro? Poderíamos restringir o espaço das soluções com base em conhecimento a priori sobre o comportamento de sistemas biológicos?
46
Pesquisas em andamento
Inferir a dinâmica do sistema a partir de dados dinâmicos (temporais) Infelizmente não é tão simples quanto parece Número de amostras geralmente muito pequeno (erros de estimação) Qual é a resolução temporal apropriada? Hora em hora? Minuto a minuto? 15 em 15 minutos? Os dados podem representar apenas uma possível trajetória do sistema dentre as inúmeras possíveis
47
Pesquisas em andamento
Qual seria o papel dos genes de predição intrinsecamente multivariada em redes de regulação gênica?
48
Pesquisas em andamento
Genes de predição intrinsecamente multivariada X1 Cada preditor é ruim individualmente X2 Y X3
49
Pesquisas em andamento
Genes de predição intrinsecamente multivariada X1 X2 X1 Todos os pares de preditores são ruins Y X3 X2 X3
50
Pesquisas em andamento
Genes de predição intrinsecamente multivariada Y é predito de forma intrinsecamente multivariada por X1, X2, X3 (X1, X2, X3, Y formam um conjunto IMP) X1 A tripla é um excelente preditor do alvo X2 Y X3
51
Pesquisas em andamento
Genes de predição intrinsecamente multivariada Existem indícios de que genes com predição intrinsecamente multivariada podem atuar como mestres reguladores que atuam no controle de diversas vias metabólicas A predição intrinsecamente multivariada está relacionada com o fato do problema de seleção de características ser NP-completo Apenas busca exaustiva garante otimalidade Maldição da dimensionalidade: tanto em termos de complexidade computacional, como de estimação estatística
52
Pesquisas em andamento
Validação dos resultados de inferência de GRN “Wet lab” (bancada) Custoso tanto em termos financeiros como de demanda de tempo “In silico” Através de simulações a partir de um modelo específico pré-determinado Bancos de dados biológicos (aproveitando o esforço de “wet lab” de pesquisadores ao redor do mundo): Gene Ontology, KEGG, NCBI, etc... Como integrar dados de diversas naturezas para aumentar o poder de estimação dos métodos de inferência?
53
Referências BARRERA, Junior ; CESAR JR, Roberto Marcondes ; MARTINS JR, David Corrêa ; VÊNCIO, Ricardo Z. N. ; MERINO, E. F. ; YAMAMOTO, Marcelo M. ; LEONARDI, Florência G. ; PEREIRA, Carlos Alberto de Bragança ; PORTILLO, Hernando A. . Constructing probabilistic genetic networks of Plasmodium falciparum from dynamical expression signals of the intraerythrocytic development cycle. Methods of Microarray Data Analysis V. : Springer US, p , 2007. Lopes, Fabricio M. ; Martins Jr, David C. ; Cesar, Roberto M. . Feature selection environment for genomic applications. BMC Bioinformatics , v. 9, p. 451, 2008. Martins Jr, David C. ; Braga-Neto, Ulisses M.; HASHIMOTO, Ronaldo F. ; Bittner, Michael L. ; Dougherty, Edward R. . Intrinsically Multivariate Predictive Genes. IEEE Journal of Selected Topics in Signal Processing , v. 2, p , 2008. [Hecker, 2009] Hecker, M.; Lambeck, S.; Toepfer, S.; van-Someren, E.; Guthke, R. Gene regulatory network inference: data integration in dynamic models-a review. Biosystems, 96(1):86-103, 2009.
54
Referências F. F. Borelli ; R. Y. Camargo ; Martins-Jr, David C. ; L. C. S. Rozante . Gene regulatory networks inference using a multi-GPU exhaustive search algorithm. BMC Bioinformatics , v. 14, p. S5, 2013. Martins Jr, David C. ; DE OLIVEIRA, EVALDO A. ; Braga-Neto, Ulisses M. ; HASHIMOTO, Ronaldo F. ; Cesar, Roberto M. . Signal propagation in Bayesian networks and its relationship with intrinsically multivariate predictive variables. Information Sciences , v. 225, p , 2013. LOPES, Fabrício Martins ; MARTINS-JR, DAVID CORREA ; BARRERA, Junior ; CESAR JR, Roberto Marcondes . A feature selection technique for inference of graphs from their known topological properties: revealing scale-free gene regulatory networks. Information Sciences , v. online, p. online, 2014.
55
Conclusão Redes de regulação gênica: um montão
de problemas e desafios interessantes
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.