Centro de Estatística e Aplicações da Universidade de Lisboa

Centro de Estatística e Aplicações da Universidade de Lisboa
Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Sílvia Pedro Rebouças 20/02/2010 Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL)

Sumário 1. Introdução 2. Objectivos 3. Estado da arte 4. Aplicação 5. Referências bibliográficas CEAUL Sílvia Pedro Rebouças 20/02/2010

Aprendizagem Automática
1. Introdução Monitorização do nível de expressão de milhares de genes em simultâneo, através de microarrays. Biologia Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n). Estatística Aprendizagem Automática CEAUL Sílvia Pedro Rebouças 20/02/2010

Classificação Supervisionada Não supervisionada
Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003): Quais os genes com expressão diferencial num conjunto de dados relativamente a outro? Quais as relações presentes entre os genes ou entre os indivíduos em estudo? Como classificar indivíduos tendo por base as suas medidas de expressão genética? Classificação Supervisionada Não supervisionada CEAUL Sílvia Pedro Rebouças 20/02/2010

Classificação Supervisionada:
X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos. xij representa o nível de expressão do j-ésimo gene (variável) para o i-ésimo indivíduo (observação). yi identifica o grupo a que pertence o indivíduo. Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi. Pretende-se treinar classificadores numa amostra de modelação (learning set) L = {(x1, y1), …, (xnL, ynL)} e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set) T = {x1, …, xnT} CEAUL Sílvia Pedro Rebouças 20/02/2010

2. Objectivos Objectivo geral:
Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays. Objectivos específicos: Implementar, testar e comparar técnicas de: Pré-processamento Normalização Imputação de valores omissos Redução de dimensionalidade Classificação supervisionada 2 grupos ou mais Séries temporais Avaliação da qualidade do ajustamento e da capacidade preditiva CEAUL Sílvia Pedro Rebouças 20/02/2010

Desenvolver aplicações em R: A Language and Environment for Statistical Computing ( capazes de implementar os métodos propostos; Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays; Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área. CEAUL Sílvia Pedro Rebouças 20/02/2010

3. Estado da arte Métodos de classificação supervisionada aplicados a dados de microarrays: Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005); Regressão logística penalizada (Liao & Chin, 2007); Árvores de classificação (Boulesteix & Tutz, 2006); Modelos Bayesianos (Roth & Lange, 2004); Vizinhos mais próximos (Boulesteix & Tutz, 2006); Médias difusas (Asyali et al., 2005); Modelos factoriais de misturas (Martella, 2006); Redes neuronais artificiais (O’Neill & Song, 2003); Máquinas de suporte vectorial (Pirooznia & Deng, 2006). CEAUL Sílvia Pedro Rebouças 20/02/2010

Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005)
Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007) Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix & Tutz (2006) e Kim et al. (2006) A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade. Métodos de selecção de genes: Selecção de genes com expressão diferencial teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis; False Discovery Rate (Benjamini & Hochberg, 1995); Métodos bayesianos (Antunes & Sousa, 2008). Algoritmos moleculares (Ooi & Tan, 2003) Métodos de redução de dimensionalidade: Análise de componentes principais; Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004); Padrões de interacção (Boulesteix & Tutz, 2006). CEAUL Sílvia Pedro Rebouças 20/02/2010

Pré-processamento de dados temporais de microarrays:
A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes. Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005) Pré-processamento de dados temporais de microarrays: Liang et al. (2005) Esta é uma área pouco estudada e um desafio do ponto de vista estatístico! CEAUL Sílvia Pedro Rebouças 20/02/2010

4. Aplicação Aplicação realizada no Curso de Formação Avançada:
Bases de dados: Leucemia (Golub et al., 1999) Cancro do cólon (Alon et al., 1999) Métodos de classificação aplicados (biblioteca do R): Regressão logística penalizada (GeneLogit) Àrvores de classificação (tree) Redes neuronais (nnet) Classificador dos vizinhos mais próximos (class) Pré-processamento: Método 1: thresholding, filtragem e transformação logarítmica de base 10 (Dudoit et al., 2002) Método 2: Selecção dos genes com expressão diferencial (teste t) CEAUL Sílvia Pedro Rebouças 20/02/2010

Resultados: Leucemia (modelação: 38 ind., validação: 34 ind. )
Método de classificação Pré-processamento Número de genes Proporção de erros na amostra de modelação Proporção de erros na amostra de validação Regressão logística penalizada Mét. 1 3571 (q = 20) 0,0000 0,0294 Méts. 1 e 2 471 (q = 20) 0,0526 0,0588 Árvore de classificação 3571 0,0882 471 0,2647 Rede neuronal (Perceptrão simples) Mét. 1 e 2 0,2059 1 2 0,1053 Rede neuronal (5un) Classificador vizinhos mais próximos k = 1 k = 4 k = 3 CEAUL Sílvia Pedro Rebouças 20/02/2010

Cancro do cólon (modelação: 31 ind., validação: 31 ind. )
Método de classificação Pré-processamento Número de genes Proporção de erros na amostra de modelação Proporção de erros na amostra de validação Regressão logística penalizada Nenhum 2000 (q = 2) 0,0645 0,1935 Mét. 1 1224 (q = 2) 0,3226 0,3871 Mét. 2 60 (q = 2) 0,2581 Méts. 1 e 2 43 (q = 2) Árvore de classificação 2000 0,0526 1224 60 43 Rede neuronal (Perceptrão simples) 2 0,0968 0,1613 0,0000 Rede neuronal com 5 unidades na camada escondida 0,2903 0,1290 0,0323 0,3548 Classificador vizinhos mais Próximos k = 1 0,1481 0,2258 Mét. 1 e 2 CEAUL Sílvia Pedro Rebouças 20/02/2010

Cancro do cólon (modelação: 40 ind., validação: 22 ind. )
Método de classificação Pré-processamento Número de genes Proporção de erros na amostra de modelação Proporção de erros na amostra de validação Regressão logística penalizada Nenhum 2000 (q = 2) 0,1000 0,3636 Mét. 1 1224 (q = 2) 0,0750 0,6818 Mét. 2 86 (q = 2) 0,1250 0,1364 Méts. 1 e 2 64 (q = 2) 0,3750 Árvore de classificação 2000 0,4091 1224 86 64 Rede neuronal (Perceptrão simples) 3 0,0000 0,5909 0,0250 Rede neuronal com 5 unidades na camada escondida 0,0500 Classificador vizinhos mais Próximos k = 1 0,2273 0,1818 0,2727 Mét. 1 e 2 CEAUL Sílvia Pedro Rebouças 20/02/2010

Conclusões: A regressão logística penalizada é suportada por uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso. As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação. As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet. CEAUL Sílvia Pedro Rebouças 20/02/2010

O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho. Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados. Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta. Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema. CEAUL Sílvia Pedro Rebouças 20/02/2010

Principais linhas de investigação futura
Metodologias de redução de dimensionalidade Análise de Componentes Principais Robustas (Branco & Pires, 2009) Análise comparativa de métodos de classificação supervisionada Classificação supervisionada de dados temporais de microarrays CEAUL Sílvia Pedro Rebouças 20/02/2010

5. Referências bibliográficas
Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96, Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5), Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21, Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, Series B, 57, Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6, CEAUL Sílvia Pedro Rebouças 20/02/2010

Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50, Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido. Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457), Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99, Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286, Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51, CEAUL Sílvia Pedro Rebouças 20/02/2010

Laegreid, A. ; Hvidsten, T. ; Midelfart, H. et al
Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13, Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48, Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15, Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20. Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4), Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23, Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2, CEAUL Sílvia Pedro Rebouças 20/02/2010

Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46, O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13. Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1), Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25. Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5, Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press. Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646, CEAUL Sílvia Pedro Rebouças 20/02/2010

Centro de Estatística e Aplicações da Universidade de Lisboa

Apresentações semelhantes

Apresentação em tema: "Centro de Estatística e Aplicações da Universidade de Lisboa"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Centro de Estatística e Aplicações da Universidade de Lisboa

Apresentações semelhantes

Apresentação em tema: "Centro de Estatística e Aplicações da Universidade de Lisboa"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback