A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica

Apresentações semelhantes


Apresentação em tema: "Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica"— Transcrição da apresentação:

1 Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica
Marcílio C. P. de Souto DIMAp/UFRN

2 Dados de Expressão Gênica

3 AM e Dados de Expressão Gênica (1/2)
Algoritmos não supervisionados – descoberta de classes (e.g., grupos de genes co-regulados) Algoritmos de agrupamento hierárquico k-médias Mapas auto-organizáveis Algoritmos supervisionados – previsão de classes (e.g., classificação de funções dos genes) Redes neurais artificiais Mapas de vetores suporte

4 AM e Dados de Expressão Gênica (2/2)
Desafios para os algoritmos de AM Centenas de Amostras (exemplos) x Milhares de genes (características) Overfitting (super-ajustamento aos dados) Poucas Replicações & Alto Grau de Ruído Alta variância Valores faltosos Exemplos de treinamento rotulados incorretamente Bases de dados não balaceadas

5 Agrupamento de Dados de Expressão Gênica
Agrupamento de genes Identificação de genes co-expressos/co-regulados Identificação de padrões temporais de expressão Redução de redundância Agrupamento de amostras Identificação de novas classes de amostras biológicas Novas classes de tumores Novos tipos de células Detecção de artefatos nos experimentos

6 Agrupamento de genes baseado nas suas expressões
Dado: um conjunto de genes de um organismo, em que cada gene é um padrão Faça: Agrupe os genes baseado na similaridade de seus valores de expressão

7 Genes: Agrupamento Hierárquico (1/2)
Eisen et al. (1998) Trabalho pioneiro Dados 6621 genes da levedura submetidos a quatro situações distintas Divisão celular e respostas a diferentes estresses ambientais Quatro séries temporais com 79 instantes de tempo Para o agrupamento foram usados apenas 2467 genes Dados coletados por meio de microarrays de cDNA Técnica utilizada Agrupamento hierárquico

8 Genes: Agrupamento Hierárquico (2/2)
Eisen et al. (1998) usam o agrupamento hierárquico com a ligação média Similaridade entre genes é medida usando uma modificação do coeficiente de Pearson Consegue detectar relacionamento inversos Leva em consideração o deslocamento entre as curvas Técnica antiga, também chamada UPGMA em análise filogenética

9 Matriz de Expressão Eisen et al. (1998) experimentos A B C D genes

10 Correlação de Pearson Eisen et al. (1998)

11 Matriz de Correlação Eisen et al. (1998) genes experimentos A genes B

12 Encontrar a Correlação Máxima
Eisen et al. (1998) genes genes 0.756 experimentos A B C D

13 Combine e Calcule as Correlações
Eisen et al. (1998) genes genes experimentos A B CD Como um efeito colateral, o algoritmo produz um dendograma A B C D

14 Análise Posterior Seleção de aglomerados
Eisen et al. (1998) Seleção de aglomerados Seleção de um ordenamento dos genes para visualização Determinação dos rótulos do aglomerados Determinação da significância dos aglomerados

15 Resultados (F) mitochondrial ribosome (G) ATP synthesis
(H) chromatin structure (I) ribosome and translation (J) DNA replication Verificada a tendência de genes com seqüências similares ou com um mesmo papel em processos se encontrarem em regiões próximas no dendograma Microarray data from Figure 2 of Eisen et al. (1998). Cluster Analysis and display of genome-wide expression patterns, Proc. Natl. Acad. Sci. 95:

16 Genes: SOMs (1/2) Tamayo et al. (1999) Tamayo et al. (1999) Entradas:
SOMs aplicados a dados sobre a diferenciação de células sanguíneas Entradas: Para validar o programa (GENECLUSTER) Dados sobre o ciclo celular da levedura Mesmos dados que Cho et al. (1998) Dados coletados por meio de microarrays de oligonucleotídeos 828 genes usados após filtro Padrões normalizados SOM: uma grade 5 x 6, i.e., 30 aglomerados Distância euclidiana Observou-se, por inspeção visual, que os aglomerados encontrados eram similares aqueles encontrado por Cho et al. A periodicidade do ciclo celular foi automaticamente recuperada como um dos padrões mais proeminentes durante o crescimento da levedura

17 Genes: SOMs (1/2) Tamayo et al. (1999) Entradas:
Dados sobre a diferenciação de células sanguíneas 4 linhagens de células hematopoéticas (HL-60, U937, Jurkat, NB4) Dados coletados por meio de microarrays de oligonucleotídeos 1036 genes usados após filtro Padrões normalizados SOM: uma grade 6 × 4 SOM, i.e., 24 aglomerados Distância euclidiana As células tronco se caracterizam por possuírem auto renovação ilimitada, baixa taxa de replicação e capacidade de gerar todos os diferentes tipos celulares do organismo (células tronco totipotentes). Na medula óssea estão as células tronco hematopoéticas que formam o sangue e o sistema imune. As células tronco hematopoéticas são, assim, responsáveis pela produção contínua de todas as células sangüíneas circulantes em resposta a modulações do estado fisiológico ou a agentes patogênicos do meio externo. 1, 2, 3 Foram identificados genes e vias já conhecidas no processo de diferenciação dos tipos de células estudadas

18 Genes: k-médias Tavazoie et al. (1999) Tavazoie et al. (1999)
Entradas: Expressão relativa de 6220 genes da levedura em dois ciclos célulares - 15 experimentos Dados coletados por meio de microarrays de oligonucleotídeos Utilzados apenas os 3000 genes que apresentaram maior variância Foi utilizado o k-médias com a distância euclidiana para encontrar 10, 30 e 60 aglomerados Para a análise foi escolhido o resultado do k-médias com k=30 Observou-se que a metade dos aglomerados encontrados eram formados por genes funcionalmente relacionados

19 Agrupamento de Amostras
Descoberta de novas classes de doenças Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões. Faça: Agrupe as amostras para encontrar células que não se ajustam bem as classes atuais. Assumir que essas pertencem a novas classificações de doenças.

20 Amostras: SOMs (1/2) Golub et al. (1999) Trabalho pioneiro Dados
38 amostras de medula óssea 11 - Leucemia Mielóide Aguda (AML) 27 - Leucemia Aguda Limfoblástica (ALL) 6817 genes humanos Dados coletados com arrays de oligonucleotídeos Técnica utilizada Mapas Auto-Organizáveis (SOMs)

21 Amostras: SOMs (2/2) Golub et al. (1999)
Inicialmente usam um SOM 2x1, i.e., 2 aglomerados Depois usam um SOM 4x1, i.e., 4 aglomerados Diferentemente do trabalho de Tamayo et al. (1999), os mapas são uni-dimensionais Similaridade entre genes é medida usando a distância euclidiana Os dados são padronizados

22 Descoberta: Dados AML-ALL com 2 Aglomerados
Golub et al. (1999) Classe A1: maioria ALL (24/25 amostras) Classe A2: maioria AML (10/13 amostras) A2 A2 Resultados mostram que a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori!

23 Descoberta: Dados AML-ALL com 4 Aglomerados
Golub et al. (1999) Classe B1: AML Classe B2: ALL Linhagem-T Classe B3: ALL Linhagem-B Classe B4: ALL Linhagem-B B1 B2 Resultados mostram que não só a distinção AML-ALL poderia ter sido descoberta sem um conhecimento biológico a priori, como também entre as células ALL dos tipos B e T! B3 B4

24 Amostras: Agrupamento Hierárquico
Alizadeh et al. (2000) Entrada Dados de 96 experimentos com 4026 genes humanos Os 96 experimentos foram realizados com biopsias de pacientes com linfoma difuso de grandes células B (DLBCL) Foi usado a técnica de agrupamento hierárquico UPGMA, com a mesma versão do coeficiente de Pearson em (Eisen et al., 1998). Dois sub-tipos de DLBCL, antes desconhecidos, identificados. Sub-tipos correspondem aos prognósticos: “GC (Geminal-Center B-like)” -> 76% sobrevivência dos pacientes “Activated B-like” -> 16% sobrevivência dos pacientes

25 Outros Trabalhos Costa, I. G., de Carvalho, F. A. T., e de Souto, M. C.P. (2003). Comparative study on proximity indices for cluster analysis of gene expression time series. Journal of Inteligent and Fuzzy Systems, A ser publicado. Agrupamento dinâmico Dopazo, J. et al. (2001). Methods and approaches in the analysis of gene expression data. Journal Immunol. Methods, 250(1/2): Self-Organizing Tree Algorithm Raychaudhuri, S., Stuart, J. M., e Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: Application to sporulation time series. In Proc. of Pacific Symposium on Biocomputing}, pp Análise de componentes principais Sharan, R. e Shamir, R. (2002). CLICK: Clustering algorithm with applications to gene expression analysis. In Proc. of Intelligent Systems for Molecular Biology}, pp

26 Previsão de Classes Predição de classes de doenças
Muitas doenças não podem ser distinguidas de forma confiável por meio de técnicas tradicionais Diagnóstico de tecidos cancerosos e normais Classificação de tipos diferentes de cânceres Vários tumores diferentes têm a mesma aparência em exames histológicos Diagnóstico é fundamental para o sucesso do tratamento Predição da função biológica de um gene

27 Previsão de Classes de Doenças
Predição de classes de doenças existentes Dado: um conjunto de experimentos de microarray, cada um realizado com células de pacientes diferentes, com um determinado grupo de doenças. Os níveis de expressão de cada paciente representam as características e as amostras os padrões. Faça: aprenda um modelo que possa classificar de maneira precisa uma nova célula na categoria da doença apropriada.

28 Previsão de Classes de Funções: Redes Neurais
Khan et al. (2001) Problema SRBCTs Neuroblastoma (NB) Rhabdomyosarcoma (RMS) Non Hodgkin lymphoma (NHL) The Ewing family of tumors (EWS) Todos têm aparência similar em exames histológico Diagnóstico acurante é essencial Abordagem Redes Neurais Artificiais (RNs) The puprose of this paper was to develop a method of classifying cancers to specific diagnostic categories based on their gene expression signatures using Artificial Neural Networks (ANNs). The NNs was trained using the small, round blue-cell tumors (SRBCTs) of childhood as a model. These cancers belong to four distinct diagnostic categories: neuroblastoma (NB), rhabdomyosarcoma (RMS), non-Hodgkin lymphoma (NHL), Ewing family of tumors (EWS), and often present diagnostic dillemas in clinical practice. However, accurate diagnosis is essential, because the treatment options are vary, widely depending on the diagnosis. A single test is not enough precisely distinguish these cancers. In clinical practice, there are several techniques used for establish the diagnosis. Example: immunohistochemistry: allows the detection of protein expression, but it can only examine one protein at a time (see the reference from the paper); molecular techniques: such as Reverse Transcription (RT), used for diagnostic confirmation following the discovery of tumor-specific translocations, for instance: EWS-FLI EWS or PAX3-FKHR alveolar rhabdomyosarcoma (ARMS). But this method do not always provide a definitive diagnosis, or ocassionally is failure to detect the tumor specific translocations due to technical difficulties or the presence of variant translocat. On the other hand, Gene expression profiling using cDNA microarrays permits an analysis of multiple markers simoultanously and has been used to categorize cancers

29 Previsão de Classes de Funções: Redes Neurais
Khan et al. (2001) Microarray de cDNA com 6567 genes 63 exemplos de treinamento Material da biopsia de tumores Linhagens celulares Filtro para um número mínimo de expressão 2308 genes Redução da dimensionalidade com PCA 10 componentes dominantes do PCA foram usadas (63% da variância) Três-fold cross-validation 3750 redes neurais foram construídas (vote médio)

30 Visão Esquemática do Processo
Khan et al. (2001) The entire data-set of all 88 experiments was first filtered. The initial input genes are filtered by requiring that a gene should have red intensity greater than 20, across all experiments the number of genes that passed this filter is 2308. Each slide was normalized across all experiments, the normalized red intensity (RRI) for each gene was obtained and the ln(RRI) was used as a measure of the expression levels. Then the dimensionality was reduced by PCA algorithm (Principal Component Analysis) to 10 PCA projections from the original 6567 expression values. The training samples are classified in 4 categories using a three-fold cross validation procedure: the 63 training samples were randomized and splitted into 3 equally sized groups. For train the ANN use 2 of the groups and the third group is reserved for testing predictions (validation). This procedure was repeated 3 times, each time with a different group used for validation. The randomize of every groups were made 1250 times in total 3750 ANN models were calibrated. For each diagnosis (EWS, RMS, NB, BL) each model gave an output between 0 (not this category) and 1 (this category). The outputs for each validation group sample were categorize as follows: the average of all predicted outputs was calculated, and then a sample is classified as a particular cancer if it receives the highest value for that cancer.

31 Análise dos Dados Khan et al. (2001) Arquitetura e parâmetros
Perceptron Linear (PL) 10 entradas representando componentes do PCA 4 nodos de saída – um para cada classe de tumor (EWS, BL, NB e RMS) 44 parâmetros livres, incluindo quatro unidades de threshold Treinamento realizado com o JETNET =0.7; momentum=0.3 Taxa de aprendizado decrementada a cada iteração (0.99) Pesos iniciais escolhidos aleatoriamente em [-r,r] (r=0.1/F) Pesos atualizados a cada 10 épocas No máximo 100 épocas

32 Observações Khan et al. (2001)
Técnicas de diagnóstico de tumores são em geral baseadas em histologia (morfologia) e imuno-histoquímica (expressão de proteínas) Alternativa: Redes Neurais artificiais com dados de expressão gênica Um dos primeiros trabalho a testar rigorosamente uma técnica de classificação, com dados de expressão gênica, para o diagnósticos de mais de duas categorias Não houve overfitting e o erro de classificação no conjunto de treinamento foi igual a zero Dados Tumores e linhagem celulares Linhagens celulares para trinar RNs

33 Previsão de Classes de Funções
Predição da função biológica de um gene Dado: um conjunto de genes cuja classificação funcional é conhecida, junto com a expressão desses genes em diferentes condições. Faça: aprenda a predizer a categoria funcional de genes adicionais (não vistos durante o treinamento) baseado em um vetor de níveis de expressão formado de acordo com o conjunto de condições experimentais especificadas.

34 Previsão de Classes de Funções: Máquinas de Vetores Suporte (SVMs)
Conhecimento a priori sobre a função do gene + Exp 1 Exp 2 Exp 3 Exp i Exp E G1 G GN-1GN Unlike hierarchical clustering or k-means clustering, SVM uses prior knowledge on biological role of genes. It uses training set to specify in advance which data should cluster together.

35 SVMs (1/2) Padrões de Treino Grupo A Grupo A {gene 1, 1}, {gene 2, 1},
Conhecimento a priori da função do gene Genes que codificam proteínas ribomosais Grupo A Grupo A Não Grupo A Padrões de Treino {gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1} {gene a, -1}, {gene b, -1}, … An SVM would begin with a set of genes that have a common function, for example, genes coding for ribosomal proteins. In addition, a separate set of genes that are known not to be members of the functional class is specified. These two sets of genes are combined to form a set of training examples in which the genes are labeled positively if they are in the functional class and are labeled negatively if they are known not to be in the functional class. A set of training examples can easily be assembled from literature and database sources.

36 SVMs (2/2) SVM treino SVM teste ? Baseado nos dados de expressão
Padrões de Treino Grupo A Não Grupo A {gene 1, 1}, {gene 2, 1}, … , {gene N-1, 1}, {gene N, 1} {gene a, -1}, {gene b, -1}, … e1, e2, … , eN-1, eN ea, eb, … Perfil de expressão de um gene desconhecido ex ? Baseado nos dados de expressão SVM treino Using this training set, an SVM would learn to discriminate between the members and non-members of a given functional class based on expression data. Having learned the expression features of the class, the SVM could recognize new genes as members or as non-members of the class based on their expression data. Thus, an SVM would use the biological information in the investigator’s training set to determine what expression features are characteristic to a given functional group and use this information to decide whether any given gene is likely to be a member of the group. SVM teste

37 Separável com um hiperplano no espaço de características
SVMs: Treinamento Membros Não membros Não separável c/ um hiperplano no espaço de entradas Separável com um hiperplano no espaço de características The learning techniue for SVM is as follows. Let’s assume that we use microarray data with m experiments so each gene expression can be though of as a point in the m-dimensional space. Usually, in the expression space, ie, in m-dimensional space, the members and non-member genes are separated by a hyperplane. To make them separated with the hyperplane, each point in expresison space is mapped to higher dimensional space in which they are separable using hyperplane. So, with the training set what SVM learns is the mapping rule and the equation for hyperplane. I won’t cover the detilas about the algorithm because I think I will run of of time. Please read the material which will be handed out after the class. SVM map a given set of binary labeled training data to a high-dimensional feature space and separate the two classes of data with a maximum margin hyperplane

38 Previsão de Classes de Funções: SVMs
Brown et al. (2000) 2467 genes da levedura Dados de Microarray Exemplos de Treino 79 experimentos The MYGD class definitions come from biochemical and genetic studies of gene function whereas the microarray expression data measures mRNA levels of genes 6 classes funcionais do MYGD: ciclo TCA, respiração, ribossomos citoplasmáticos, proteasomos, histonas and protéinas hélice-volta-hélice

39 Previsão de Classes de Funções: SVMs
Brown et al. (2000) Resultados mostraram baixo número de falsos-positivos e falsos-negativos quando comparado com outras técnicas de aprendizado supervisionado, tais como janelas de Parzen, discriminate linear de Fisher e árvores de decisão. The MYGD class definitions come from biochemical and genetic studies of gene function whereas the microarray expression data measures mRNA levels of genes

40 Outros Trabalhos Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp Votação ponderada Shipp, M. A. et al. (2002). Diffuse large {B}-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine}, 8(1): k vizinhos mais próximos

41 Análise de Dados de Expressão Gênica:Observação
Algoritmos de agrupamentos diferentes geram resultados diferentes “Each clustering criterion imposes a certain structure on the data, and if the data happens to conform to the requirements of a particular criterion, the true clusters are recovered.” (P. D’haeseleer) Em geral, não se pode afirmar que há uma técnica melhor do que a outra Combinar resultados de diferentes técnicas

42 Análise de Dados de Expressão Gênica: Novas Direções
Combinar resultados de diferentes técnicas Combinar dados de expressão com outras fontes de informação Artigos publicados Banco de dados de DNA & proteína Perfis filogenéticos Funções metabólicas Anotações funcionais de estudos experimentais

43 Referências Expressão Gênica:
Alberts, B. et al. (1997). Biologia Molecular da Célula. Editora Artes Médicas, terceira edição Casley, D. (1992). Primer on Molecular Biology. Technical Report, U. S. Department of Energy, Office of Health and Environmental Research Lewis, R. (2001). Human Genetics - Concepts and Applications. Mc Graw Hill, quarta edição

44 Referências Redes Neurais Artificiais:
Haykin, S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall

45 Referências Máquinas de Vetores Suporte:
Cristianini, N. e Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4):18–28 Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag

46 Referências Algoritmos de Agrupamento:
Jain, A. K. e Dubes, R. C. (1988). Algorithms for clustering data. Prentice Hall. Jain, A. K., Murty, M. N., e Flynn, P. (1999). Data clustering: a review. ACM Computing Surveys, 3(31): Sneath, P. H. A. e Sokal, R. R. (1973). Numerical Taxonomy. W. H. Freeman. Kohonen, T. (1997). Self-Organizing Maps. Springer-Verlag. Quackenbush, J. (2001). Computational analysis of cDNA microarray data. Nature Reviews, 6(2): Slonim, D. (2002). From patterns to pathways: gene expression data analysis comes of age. Nature Genetics, 32:

47 Referências Descoberta de Padrões:
Eisen, M. B. et al. (1998). Cluster analysis and display of genome-wide expression pattern. In Proc. of National Academy of Sciences USA, volume 95, pp Tamayo, P. et al. (1999). Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. In Proc. Natl. Acad. Sci. USA, 96: Tavazoie, S. et al. (1999). Systematic determination of genetic network architecture. Nature Genetics, 22: Brazma, A. e Vilo, J. (2000). Gene expression data analysis. FEBS Letters, 480(1):

48 Referências Descoberta de Padrões:
Golub, T. et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 5439(286): Alizadeh, A. A. et al. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, 403:

49 Referências Descoberta de Classes:
Khan, J. et al. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7: Brown, M. P. et al. (2000). Knowledge-based analysis of microarray gene expression data by using support vector machines. In Proc. of National Academy of Sciences {USA}}, volume 97, pp


Carregar ppt "Técnicas de Aprendizado de Máquina e Dados de Expressão Gênica"

Apresentações semelhantes


Anúncios Google