A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Inferência de redes gênicas por métodos de seleção de características

Apresentações semelhantes


Apresentação em tema: "Inferência de redes gênicas por métodos de seleção de características"— Transcrição da apresentação:

1 Inferência de redes gênicas por métodos de seleção de características
David Correa Martins Jr Centro de Matemática, Computação e Cognição Universidade Federal do ABC (UFABC)

2 Sumário Processos celulares (systems biology)  redes de regulação gênica (GRN) Motivação para pesquisas em inferência de GRNs Conceitos básicos de GRN Inferência de GRN por seleção de características Pesquisas em andamento

3 Célula Proteínas Vias metabólicas Núcleo DNA mRNA Tradução Transporte
Transcrição

4 Arrays de expressão gênica (1995)
Sequenciamento em larga escala (high throughput sequencing) Arrays de expressão gênica (1995) Microarray

5 Motivação Controle celular: resultado de atividade multivariada entre genes Modelagem de interação multivariada para propósitos terapêuticos e criação de novas drogas Inferência de parâmetros de uma rede regulatória a partir de dados experimentais é um dos grandes desafios da bioinformática

6 Motivação Conhecer leis gerais sobre essas redes
Identificar grupos de genes associados a determinadas características bioquímicas Investigar a possibilidade de controlar suas dinâmicas e qual a melhor maneira (mais prática, menos custosa, etc) de fazer isso

7 Motivação – Systems Biology
Área interdisciplinar que estuda a rede complexa de interações que ocorrem em sistemas biológicos Desenvolvimento de modelos e abordagens para desvendar propriedades emergentes de células, tecidos e órgãos, que funcionam como um sistema integrado Tipicamente envolve estudos de regulação gênica, metabólica e de redes de sinalização celular integração e análise de massivos conjuntos de dados complexos e heterogêneos Big Data diversas plataformas (“ômicas”) genômica, transcriptômica, proteômica, metabolômica, epigenômica, interferômica, glicômica, lipdômica, interatômica, fluxômica, biômica, semiômica, etceterômica...

8 Redes de regulação gênica
Redes de regulação gênica (Gene Regulatory Networks – GRN) Podem ser vistos como redes de interação gênica nas quais o nível de expressão de um gene é controlado pelos níveis de expressão de outros genes Sinal de expressão gênica: quantidade de mRNA transcrito Principais tecnologias de medição de expressão gênica: microarrays, SAGE, RNASeq

9 Motivação Desafios: Poucas observações (dezenas) para muitas variáveis (milhares) Situação desejável: Muitas observações (milhares) para poucas variáveis (dezenas) Natureza dos dados Tecnologias de extração de mRNAs consistem de um pipeline envolvendo diversas etapas introdução de ruidos ao longo do processo

10 Microarray: formato dos dados
Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . GeneN . M <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< N

11 Motivação Desafios: Como lidar com esses problemas?
Poucas observações (dezenas) para muitas variáveis (milhares) Situação desejável: Muitas observações (milhares) para poucas variáveis (dezenas) Natureza dos dados Tecnologias de extração de mRNAs consistem de um pipeline envolvendo diversas etapas introdução de ruidos ao longo do processo Como lidar com esses problemas?

12 GRN: conceitos básicos
GRNs podem ser visualizados como um grafo vértices: genes arestas: dependências entre os genes definem a relação topológica da rede [Hecker et al, 2009]

13 GRN: conceitos básicos
Principais modelagens de sistemas biológicos podem ser classificadas em 4 categorias principais estáticos (sem informação temporal) X dinâmicos (com informação temporal) contínuos (genes assumem valores reais) X discretos (genes assumem valores inteiros finitos) lineares X não-lineares estocásticos X determinísticos

14 GRN: conceitos básicos
Estado da rede Vetor contendo os valores de expressão dos genes Ex: [ ] X1 = 0.75, X2 = 1.78, X3 = 2.42, X4 = 0.94, X5 = 0.51 Experimento de microarray corresponde a um estado do sistema

15 Microarray: formato dos dados
Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . GeneN . 1 estado Sabemos que o sistema esteve nesses M estados

16 GRN: conceitos básicos
Número de estados possíveis Infinitos, se levarmos em conta que genes possuem valores reais Pode-se tornar finito o número de estados possíveis tornando os valores de expressão finitos (quantização ou discretização) Ex: [ ] => [ ] subexpresso (Xi < 1 => Xi = 0) superexpresso (Xi > 1 => Xi = 1) (Número de valores possíveis)N Caso binário: 2N Caso ternário: 3N

17 Microarray: formato dos dados
Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . GeneN . 1 estado Dados binarizados

18 GRN: conceitos básicos
Número de estados possíveis O genoma humano tem em torno de N = 30000 230000

19 GRN: conceitos básicos
Número de estados possíveis O genoma humano tem em torno de N = 30000 230000 Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3) 23 = 8 (OK!)

20 GRN: conceitos básicos
Número de estados possíveis O genoma humano tem em torno de N = 30000 230000 Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3) 23 = 8 (OK!) Inferência de dependências é possível! Mas o que significa “um gene depender de outros”?

21 Inferência de GRNs Dependência entre genes Redes estáticas
Depende.... São redes estáticas ou dinâmicas? Redes estáticas Não há informação da dinâmica (temporal) Dependências estáticas (co-regulação) Redes dinâmicas Informação temporal Dependências no tempo (predição / causa e efeito) Função de transição de estados

22 Inferência de GRNs Como medir o grau de dependência de um gene em relação aos outros? Seleção de características Dado um gene alvo, define-se um algoritmo de seleção de características (algoritmo de busca) que tenta obter o subconjunto de genes mais relevantes para descrever o seu comportamento Critério de relevância Exemplos de funções critérios: informação mútua (baseada em entropia) e coeficiente de determinação (baseado no erro Bayesiano)

23 Inferência de GRNs Processo de seleção de características
Entrada: matriz de expressões gênicas, índice do gene alvo e critério de relevância Para cada subconjunto de genes considerado: preenche-se uma tabela de probabilidades conjuntas um valor de relevância é atribuído pelo critério com base nessa tabela a esse subconjunto Saída: subconjuntos de genes candidatos ordenados pelo critério de relevância

24 -1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

25 -1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 0 1 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

26 -1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 0 1 0 1 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

27 -1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 1 0 0 0 0 1 0 1 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

28 -1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 0 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

29 -1 1 1 2 3 4 5 M-1 M . . . g1 g target -1 0 1 g1 g2 . . . g2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

30 Características do par (g1,g2) Características do par (g3,g5)
g alvo -1 0 1 g alvo -1 0 1 g1 g2 g3 g5 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 2 2 2 3 2 2 0 3 1 2 4 3 1 1 2 1 0 1 2 3 1 1 1 0 4 2 2 Características do par (g1,g2) Informação mútua / CoD altos Predição quase perfeita Forte candidata a ser classificada entre os melhores pares (g1 e g2 poderão ser conectados ao gene alvo) Características do par (g3,g5) Informação mútua / CoD baixos Predição muito ruim Descartado

31 Inferência de GRNs Uma vez que temos o melhor subconjunto de genes preditores (ou co-reguladores) para cada gene, temos toda a informação topológica da rede Porém, topologia não é tudo Também precisamos saber como são essas relações Tal informação está presente nas tabelas de probabilidades conjuntas

32 Inferência de GRNs Exemplo: considere as variáveis binárias X1, X2, X3, sendo que X3 depende de X1 e X2 Várias possibilidades de regras lógicas: X3 = X1 AND X2 X3 = X1 OR X2 X3 = X1 NAND X2 X1 X2 X3 Existem 24 = 16 lógicas possíveis para o caso com 2 preditores binários

33 Inferência de GRNs g alvo g1 g2
Como obter as lógicas (ou regras de regulação) a partir das tabelas de probabilidades conjuntas? g alvo 0 1 g1 g2 0 0 0 1 1 0 1 1 6 0 4 3 5 1 2 8 1 AND Resposta: obtendo o valor do alvo cuja probabilidade é máxima para cada linha (argmax)

34 Inferência de GRNs Obtendo a topologia e as regras das dependências, temos tudo! Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa X[t+1] = f(X[t]) Podemos determinar suas trajetórias, bacias de atração, atratores...

35 Bacias de atração, atratores e estados transientes
001 111 011 010 100 110 101 000 Estados transientes Exemplo para um sistema de 3 genes Atratores Estados atratores

36 (1786 estados de um total de 2048)
Principal bacia de atração de um sistema regulatório de 11 genes responsáveis pelo controle do ciclo celular da Levedura (Saccharomyces cerevisiae) (1786 estados de um total de 2048) F. Li, T. Long, Y. Lu, Q. Ouyang and C. Tang The yeast cell cycle is robustly designed. PNAS 101(14):4781-6, 2004

37 Inferência de GRNs Obtendo a topologia e as regras das dependências, temos tudo! Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa X[t+1] = f(X[t]) Podemos determinar suas trajetórias, bacias de atração, atratores... Mas com poucas amostras, há erros de estimação

38 Inferência de GRNs g alvo g1 g2 -1 0 1 -1 -1 -1 0 -1 1 0 -1 0 0 0 1
-1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 (g1,g2) = (1,0) não foi observado! E agora? Essa instância não aparece porque de fato o sistema é assim ou por causa do número pequeno de observações?

39 Pesquisas em andamento
Como inferir “hubs” a partir de poucas amostras? (e como decidir o grau de entrada dele?) Hub: gene com alto grau de entrada Em sistemas binários, um gene com grau 8 terá uma tabela com 28 = 256 linhas Se tivermos 30 amostras, pelo menos 226 dessas linhas não serão observadas (princípio da casa dos pombos) grau 8

40 Pesquisas em andamento
Em particular, inferência de hubs é importante para inferência de redes “livres de escala” (scale-free) Poucos nós com alto grau de entrada Muitos nós com baixo grau de entrada

41 Pesquisas em andamento
Exemplo de uma rede metabólica livre de escala vértices = metabólitos, arestas = reações químicas

42 Pesquisas em andamento
Inferência de redes “mundo pequeno” (small-world) Probabilidade alta de haver transitividade Se o vértice X1 está ligado a X2, e X2 está ligado a X3, então X1 está ligado a X3 Alto número de triângulos Tendência de formar agrupamentos ou módulos (clusters) X2 X1 X3 alta probabilidade

43 Pesquisas em andamento
Exemplo de rede “mundo pequeno”

44 Pesquisas em andamento
Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado) Dados temporais permitem tanto análise de predição como de co-regulação Porém, dados estáticos só permitem análise de co-regulação a princípio

45 Pesquisas em andamento
Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado) Inferir um sistema dinâmico a partir das probabilidades de cada estado é um problema mal-posto Existem infinitas possibilidades de sistemas que convergem para tais probabilidades Como descobrir o sistema verdadeiro? Poderíamos restringir o espaço das soluções com base em conhecimento a priori sobre o comportamento de sistemas biológicos?

46 Pesquisas em andamento
Inferir a dinâmica do sistema a partir de dados dinâmicos (temporais) Infelizmente não é tão simples quanto parece Número de amostras geralmente muito pequeno (erros de estimação) Qual é a resolução temporal apropriada? Hora em hora? Minuto a minuto? 15 em 15 minutos? Os dados podem representar apenas uma possível trajetória do sistema dentre as inúmeras possíveis

47 Pesquisas em andamento
Qual seria o papel dos genes de predição intrinsecamente multivariada em redes de regulação gênica?

48 Pesquisas em andamento
Genes de predição intrinsecamente multivariada X1 Cada preditor é ruim individualmente X2 Y X3

49 Pesquisas em andamento
Genes de predição intrinsecamente multivariada X1 X2 X1 Todos os pares de preditores são ruins Y X3 X2 X3

50 Pesquisas em andamento
Genes de predição intrinsecamente multivariada Y é predito de forma intrinsecamente multivariada por X1, X2, X3 (X1, X2, X3, Y formam um conjunto IMP) X1 A tripla é um excelente preditor do alvo X2 Y X3

51 Pesquisas em andamento
Genes de predição intrinsecamente multivariada Existem indícios de que genes com predição intrinsecamente multivariada podem atuar como mestres reguladores que atuam no controle de diversas vias metabólicas A predição intrinsecamente multivariada está relacionada com o fato do problema de seleção de características ser NP-completo Apenas busca exaustiva garante otimalidade Maldição da dimensionalidade: tanto em termos de complexidade computacional, como de estimação estatística

52 Pesquisas em andamento
Validação dos resultados de inferência de GRN “Wet lab” (bancada) Custoso tanto em termos financeiros como de demanda de tempo “In silico” Através de simulações a partir de um modelo específico pré-determinado Bancos de dados biológicos (aproveitando o esforço de “wet lab” de pesquisadores ao redor do mundo): Gene Ontology, KEGG, NCBI, etc... Como integrar dados de diversas naturezas para aumentar o poder de estimação dos métodos de inferência?

53 Referências BARRERA, Junior ; CESAR JR, Roberto Marcondes ; MARTINS JR, David Corrêa ; VÊNCIO, Ricardo Z. N. ; MERINO, E. F. ; YAMAMOTO, Marcelo M. ; LEONARDI, Florência G. ; PEREIRA, Carlos Alberto de Bragança ; PORTILLO, Hernando A. . Constructing probabilistic genetic networks of Plasmodium falciparum from dynamical expression signals of the intraerythrocytic development cycle. Methods of Microarray Data Analysis V. : Springer US, p , 2007. Lopes, Fabricio M. ; Martins Jr, David C. ; Cesar, Roberto M. . Feature selection environment for genomic applications. BMC Bioinformatics , v. 9, p. 451, 2008. Martins Jr, David C. ; Braga-Neto, Ulisses M.; HASHIMOTO, Ronaldo F. ; Bittner, Michael L. ; Dougherty, Edward R. . Intrinsically Multivariate Predictive Genes. IEEE Journal of Selected Topics in Signal Processing , v. 2, p , 2008. [Hecker, 2009] Hecker, M.; Lambeck, S.; Toepfer, S.; van-Someren, E.; Guthke, R. Gene regulatory network inference: data integration in dynamic models-a review. Biosystems, 96(1):86-103, 2009.

54 Referências F. F. Borelli ; R. Y. Camargo ; Martins-Jr, David C. ; L. C. S. Rozante . Gene regulatory networks inference using a multi-GPU exhaustive search algorithm. BMC Bioinformatics , v. 14, p. S5, 2013. Martins Jr, David C. ; DE OLIVEIRA, EVALDO A. ; Braga-Neto, Ulisses M. ; HASHIMOTO, Ronaldo F. ; Cesar, Roberto M. . Signal propagation in Bayesian networks and its relationship with intrinsically multivariate predictive variables. Information Sciences , v. 225, p , 2013. LOPES, Fabrício Martins ; MARTINS-JR, DAVID CORREA ; BARRERA, Junior ; CESAR JR, Roberto Marcondes . A feature selection technique for inference of graphs from their known topological properties: revealing scale-free gene regulatory networks. Information Sciences , v. online, p. online, 2014.

55 Conclusão Redes de regulação gênica: um montão
de problemas e desafios interessantes

56


Carregar ppt "Inferência de redes gênicas por métodos de seleção de características"

Apresentações semelhantes


Anúncios Google