A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica Marcílio C. P. de Souto DIMAp/UFRN.

Apresentações semelhantes


Apresentação em tema: "Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica Marcílio C. P. de Souto DIMAp/UFRN."— Transcrição da apresentação:

1 Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica Marcílio C. P. de Souto DIMAp/UFRN

2 Dados de Expressão Gênica

3 AM e Dados de Expressão Gênica (1/2) Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados) Algoritmos de agrupamento hierárquico k-médias Mapas auto-organizáveis Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes) Redes neurais artificiais Mapas de vetores suporte

4 AM e Dados de Expressão Gênica (2/2) Desafios para os algoritmos de AM Centenas de Amostras (exemplos) x Milhares de genes (características) Overfitting (super-ajustamento aos dados) Poucas Replicações & Alto Grau de Ruído Alta variância Valores faltosos Exemplos de treinamento rotulados incorretamente Bases de dados não balaceadas

5 Agrupamento de Dados de Expressão Gênica Agrupamento de genes Identificação de genes co-expressos/co-regulados Identificação de padrões temporais de expressão Redução de redundância Agrupamento de amostras Identificação de novas classes de amostras biológicas Novas classes de tumores Novos tipos de células Detecção de artefatos nos experimentos

6 Agrupamento de Genes Agrupamento de genes baseado nas suas expressões Dado: um conjunto de genes de um organismo, em que cada gene é um padrão Faça: Agrupe os genes baseado na similaridade de seus valores de expressão

7 Genes: Agrupamento Hierárquico (1/2) Eisen et al. (1998) Trabalho pioneiro Dados 6621 genes da levedura submetidos a quatro situações distintas Divisão celular e respostas a diferentes estresses ambientais Quatro séries temporais com 79 instantes de tempo Para o agrupamento foram usados apenas 2467 genes Dados coletados por meio de microarrays de cDNA Técnica utilizada Agrupamento hierárquico

8 Genes: Agrupamento Hierárquico (2/2) Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson Consegue detectar relacionamento inversos Leva em consideração o deslocamento entre as curvas Técnica antiga, também chamada UPGMA em análise filogenética

9 Matriz de Expressão genes experimentos A B C D Eisen et al. (1998)

10 Correlação de Pearson Eisen et al. (1998)

11 Matriz de Correlação experimentos genes A B C D Eisen et al. (1998)

12 Encontrar a Correlação Máxima genes genes experimentos A B C D Eisen et al. (1998)

13 Combine e Calcule as Correlações genes experimentos A B CD A B C D Como um efeito colateral, o algoritmo produz um dendograma Eisen et al. (1998)

14 Análise Posterior Seleção de aglomerados Seleção de um ordenamento dos genes para visualização Determinação dos rótulos do aglomerados Determinação da significância dos aglomerados Eisen et al. (1998)

15 Resultados Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95: (F) mitochondrial ribosome (G) ATP synthesis (H) chromatin structure (I) ribosome and translation (J) DNA replication Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma

16 Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al. A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura Genes: SOMs (1/2) Tamayo et al. (1999) SOMs aplicados a dados sobre a diferenciação de células sanguíneas Entradas: Para validar o programa (GENECLUSTER) Dados sobre o ciclo celular da levedura Mesmos dados que Cho et al. (1998) Dados coletados por meio de microarrays de oligonucleotídeos 828 genes usados após filtro Padrões normalizados SOM: uma grade 5 x 6, i.e., 30 aglomerados Distância euclidiana Tamayo et al. (1999)

17 Genes: SOMs (1/2) Entradas: Dados sobre a diferenciação de células sanguíneas 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat, NB4) Dados coletados por meio de microarrays de oligonucleotídeos 1036 genes usados após filtro Padrões normalizados SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados Distância euclidiana Tamayo et al. (1999) Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas

18 Genes: k-médias Tavazoie et al. (1999) Entradas: Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos Dados coletados por meio de microarrays de oligonucleotídeos Utilzados apenas os 3000 genes que apresentaram maior variância Foi utilizado o k-médias com a distância euclidiana para encontrar 10, 30 e 60 aglomerados Para a análise foi escolhido o resultado do k-médias com k=30 Tavazoie et al. (1999) Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados

19 Agrupamento de Amostras Descoberta de novas classes de doenças Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões. Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.

20 Amostras: SOMs (1/2) Golub et al. (1999) Trabalho pioneiro Dados 38 amostras de medula óssea 11 - Leucemia Mielóide Aguda (AML) 27 - Leucemia Aguda Limfoblástica (ALL) 6817 genes humanos Dados coletados com arrays de oligonucleotídeos Técnica utilizada Mapas Auto-Organizáveis (SOMs)

21 Amostras: SOMs (2/2) Golub et al. (1999) Inicialmente usam um SOM 2x1, i.e., 2 aglomerados Depois usam um SOM 4x1, i.e., 4 aglomerados Diferentemente do trabalho de Tamayo et al. (1999), os mapas são uni-dimensionais Similaridade entre genes é medida usando a distância euclidiana Os dados são padronizados

22 Descoberta: Dados AML-ALL com 2 Aglomerados Classe A1: maioria ALL (24/25 amostras) Classe A2: maioria AML (10/13 amostras) Golub et al. (1999) A2 Resultados mostram que a distinção AML- ALL poderia ter sido descoberta sem um conhecimento biológico a priori!

23 Descoberta: Dados AML-ALL com 4 Aglomerados Classe B1: AML Classe B2: ALL Linhagem-T Classe B3: ALL Linhagem-B Classe B4: ALL Linhagem-B Resultados mostram que não só a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori, como também entre as células ALL dos tipos B e T! Golub et al. (1999) B1 B2 B3 B4

24 Amostras: Agrupamento Hierárquico Alizadeh et al. (2000) Entrada Dados de 96 experimentos com 4026 genes humanos Os 96 experimentos foram realizados com biopsias de pacientes com linfoma difuso de grandes células B (DLBCL) Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998). Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Sub- tipos correspondem aos prognósticos: GC (Geminal-Center B-like) -> 76% sobrevivência dos pacientes Activated B-like -> 16% sobrevivência dos pacientes

25 Outros Trabalhos Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado. Agrupamento dinâmico Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene expression data. Journal Immunol. Methods, 250(1/2): Self-Organizing Tree Algorithm Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp Análise de componentes principais Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp

26 Previsão de Classes Predição de classes de doenças Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais Diagnóstico de tecidos cancerosos e normais Classificação de tipos diferentes de cânceres Vários tumores diferentes têm a mesma aparência em exames histológicos Diagnóstico é fundamental para o sucesso do tratamento Predição da função biológica de um gene

27 Previsão de Classes de Doenças Predição de classes de doenças existentes Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões. Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.

28 Previsão de Classes de Funções: Redes Neurais Khan et al. (2001) Problema SRBCTs Neuroblastoma (NB) Rhabdomyosarcoma (RMS) Non Hodgkin lymphoma (NHL) The Ewing family of tumors (EWS) Todos têm aparência similar em exames histológico Diagnóstico acurante é essencial Abordagem Redes Neurais Artificiais (RNs)

29 Previsão de Classes de Funções: Redes Neurais Microarray de cDNA com 6567 genes 63 exemplos de treinamento Material da biopsia de tumores Linhagens celulares Filtro para um n ú mero m í nimo de expressão 2308 genes Redu ç ão da dimensionalidade com PCA 10 componentes dominantes do PCA foram usadas (63% da variância) Três-fold cross-validation 3750 redes neurais foram constru í das (vote m é dio) Khan et al. (2001)

30 Visão Esquem á tica do Processo Khan et al. (2001)

31 An á lise dos Dados Arquitetura e parâmetros Perceptron Linear (PL) 10 entradas representando componentes do PCA 4 nodos de sa í da – um para cada classe de tumor (EWS, BL, NB e RMS) 44 parâmetros livres, incluindo quatro unidades de threshold Treinamento realizado com o JETNET =0.7; momentum=0.3 Taxa de aprendizado decrementada a cada itera ç ão (0.99) Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F) Pesos atualizados a cada 10 é pocas No m á ximo 100 é pocas Khan et al. (2001)

32 Observa ç ões Técnicas de diagnóstico de tumores são em geral baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas) Alternativa: Redes Neurais artificiais com dados de expressão gênica Um dos primeiros trabalho a testar rigorosamente uma técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero Dados Tumores e linhagem celulares Linhagens celulares para trinar RNs Khan et al. (2001)

33 Previsão de Classes de Funções Predição da função biológica de um gene Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições. Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.

34 Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs) Conhecimento a priori sobre a função do gene Exp 1 Exp 2 Exp 3 Exp i Exp E G 1 G 2 G N-1 G N +

35 SVMs (1/2) Conhecimento a priori da função do gene Genes que codificam proteínas ribomosais Grupo A Não Grupo A Padrões de Treino {gene 1, 1}, {gene 2, 1}, …, {gene N-1, 1}, {gene N, 1} {gene a, -1}, {gene b, -1}, …

36 SVMs (2/2) SVM treino SVM teste e1, e2, …, eN-1, eN ea, eb, … Perfil de expressão de um gene desconhecido exex ? Baseado nos dados de expressão Grupo ANão Grupo A Padrões de Treino {gene 1, 1}, {gene 2, 1}, …, {gene N-1, 1}, {gene N, 1} {gene a, -1}, {gene b, -1}, …

37 SVMs: Treinamento Não separável c/ um hiperplano no espaço de entradas Separável com um hiperplano no espaço de características Membros Não membros

38 Previsão de Classes de Funções: SVMs 2467 genes da levedura 79 experimentos 6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos, proteasomos, histonas and protéinas hélice-volta-hélice Dados de Microarray Exemplos de Treino Brown et al. (2000)

39 Resultados mostraram baixo número de falsos- positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão. Previsão de Classes de Funções: SVMs Brown et al. (2000)

40 Outros Trabalhos Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp Votação ponderada Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1): k vizinhos mais próximos

41 Análise de Dados de Expressão Gênica:Observação Algoritmos de agrupamentos diferentes geram resultados diferentes Each clustering criterion imposes a certain structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered. (P. Dhaeseleer) Em geral, não se pode afirmar que há uma técnica melhor do que a outra Combinar resultados de diferentes técnicas

42 Análise de Dados de Expressão Gênica: Novas Direções Combinar resultados de diferentes técnicas Combinar dados de expressão com outras fontes de informação Artigos publicados Banco de dados de DNA & proteína Perfis filogenéticos Funções metabólicas Anotações funcionais de estudos experimentais

43 Referências Expressão Gênica: Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição

44 Referências Redes Neurais Artificiais: Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall

45 Referências Máquinas de Vetores Suporte: Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28 Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag

46 Referências Algoritmos de Agrupamento: Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall. Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31): Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman. Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag. Quackenbush, J. (2001). Computational analysis of cDNA microarray data. Nature Reviews, 6(2): Slonim, D. (2002). From patterns to pathways: gene expression data analysis comes of age. Nature Genetics, 32:

47 Referências Descoberta de Padrões: Eisen, M. B. et al. (1998). Cluster analysis and display of genome- wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96: Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22: Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):

48 Referências Descoberta de Padrões: Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286): Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:

49 Referências Descoberta de Classes: Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7: Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp


Carregar ppt "Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica Marcílio C. P. de Souto DIMAp/UFRN."

Apresentações semelhantes


Anúncios Google