A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

Apresentações semelhantes


Apresentação em tema: "Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:"— Transcrição da apresentação:

1 Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL) 20/02/2010 Centro de Estatística e Aplicações da Universidade de Lisboa Sílvia Pedro Rebouças

2 1. Introdução 2. Objectivos 3. Estado da arte 4. Aplicação 5. Referências bibliográficas CEAUL Sílvia Pedro Rebouças Sumário 20/02/2010 2

3  Monitorização do nível de expressão de milhares de genes em simultâneo, através de microarrays. CEAUL Sílvia Pedro Rebouças 1. Introdução 20/02/ Biologia Estatística Aprendizagem Automática  Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n).

4  Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003): ◦ Quais os genes com expressão diferencial num conjunto de dados relativamente a outro? ◦ Quais as relações presentes entre os genes ou entre os indivíduos em estudo? ◦ Como classificar indivíduos tendo por base as suas medidas de expressão genética? CEAUL Sílvia Pedro Rebouças 20/02/ Classificação SupervisionadaNão supervisionada

5  Classificação Supervisionada: ◦ X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos. ◦ x ij representa o nível de expressão do j-ésimo gene (variável) para o i-ésimo indivíduo (observação). ◦ y i identifica o grupo a que pertence o indivíduo. ◦ Para cada indivíduo têm-se x i = (x i1,..., x ip ) e y i. ◦ Pretende-se treinar classificadores numa amostra de modelação (learning set) L = {(x 1, y 1 ), …, (x nL, y nL )} e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set) T = {x 1, …, x nT } CEAUL Sílvia Pedro Rebouças 20/02/2010 5

6 CEAUL Sílvia Pedro Rebouças 2. Objectivos 20/02/  Objectivo geral: Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays.  Objectivos específicos: ◦ Implementar, testar e comparar técnicas de:  Pré-processamento  Normalização  Imputação de valores omissos  Redução de dimensionalidade  Classificação supervisionada  2 grupos ou mais  Séries temporais  Avaliação da qualidade do ajustamento e da capacidade preditiva

7 CEAUL Sílvia Pedro Rebouças 20/02/20107 ◦ Desenvolver aplicações em R: A Language and Environment for Statistical Computing (http://www.R-project.org) capazes de implementar os métodos propostos;http://www.R-project.org ◦ Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays; ◦ Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área.

8  Métodos de classificação supervisionada aplicados a dados de microarrays: ◦ Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005); ◦ Regressão logística penalizada (Liao & Chin, 2007); ◦ Árvores de classificação (Boulesteix & Tutz, 2006); ◦ Modelos Bayesianos (Roth & Lange, 2004); ◦ Vizinhos mais próximos (Boulesteix & Tutz, 2006); ◦ Médias difusas (Asyali et al., 2005); ◦ Modelos factoriais de misturas (Martella, 2006); ◦ Redes neuronais artificiais (O’Neill & Song, 2003); ◦ Máquinas de suporte vectorial (Pirooznia & Deng, 2006). CEAUL Sílvia Pedro Rebouças 3. Estado da arte 20/02/2010 8

9  Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005)  Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007)  Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix & Tutz (2006) e Kim et al. (2006)  A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade.  Métodos de selecção de genes: ◦ Selecção de genes com expressão diferencial  teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis;  False Discovery Rate (Benjamini & Hochberg, 1995);  Métodos bayesianos (Antunes & Sousa, 2008). ◦ Algoritmos moleculares (Ooi & Tan, 2003)  Métodos de redução de dimensionalidade: ◦ Análise de componentes principais; ◦ Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004); ◦ Padrões de interacção (Boulesteix & Tutz, 2006). CEAUL Sílvia Pedro Rebouças 20/02/2010 9

10  A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes.  Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005)  Pré-processamento de dados temporais de microarrays: Liang et al. (2005)  Esta é uma área pouco estudada e um desafio do ponto de vista estatístico! CEAUL Sílvia Pedro Rebouças 20/02/

11 CEAUL Sílvia Pedro Rebouças 4. Aplicação 20/02/  Aplicação realizada no Curso de Formação Avançada: ◦ Bases de dados:  Leucemia (Golub et al., 1999)  Cancro do cólon (Alon et al., 1999) ◦ Métodos de classificação aplicados (biblioteca do R):  Regressão logística penalizada (GeneLogit)  Àrvores de classificação (tree)  Redes neuronais (nnet)  Classificador dos vizinhos mais próximos (class) ◦ Pré-processamento:  Método 1: thresholding, filtragem e transformação logarítmica de base 10 (Dudoit et al., 2002)  Método 2: Selecção dos genes com expressão diferencial (teste t)

12 CEAUL Sílvia Pedro Rebouças 20/02/ ◦ Resultados:  Leucemia (modelação: 38 ind., validação: 34 ind. ) Método de classificação Pré-proces- samento Número de genes Proporção de erros na amostra de modelação Proporção de erros na amostra de validação Regressão logística penalizada Mét (q = 20)0,00000,0294 Méts. 1 e 2471 (q = 20)0,05260,0588 Árvore de classificação Mét ,00000,0882 Méts. 1 e 24710,05260,2647 Rede neuronal (Perceptrão simples) Mét. 1 e 24710,00000,2059 Mét. 110,00000,0882 Mét. 120,10530,0882 Rede neuronal (5un)Mét. 120,00000,2059 Classificador vizinhos mais próximos k = 1Mét. 1 e 24710,00000,0882 k = 4Mét. 1 e 24710,05260,0000 k = 3Mét ,00000,0294

13 CEAUL Sílvia Pedro Rebouças 20/02/  Cancro do cólon (modelação: 31 ind., validação: 31 ind. ) Método de classificação Pré-proces- samento Número de genes Proporção de erros na amostra de modelação Proporção de erros na amostra de validação Regressão logística penalizada Nenhum2000 (q = 2)0,06450,1935 Mét (q = 2)0,32260,3871 Mét. 260 (q = 2)0,06450,2581 Méts. 1 e 243 (q = 2)0,32260,3871 Árvore de classificação Nenhum20000,05260,3226 Mét ,06450,3226 Mét. 2600,06450,3226 Méts. 1 e 2430,06450,3226 Rede neuronal (Perceptrão simples) Mét. 120,09680,1613 Mét. 2600,19350,3226 Méts. 1 e 2430,00000,3871 Rede neuronal com 5 unidades na camada escondida Mét. 120,00000,2903 Mét. 2600,12900,3871 Méts. 1 e 2430,03230,3548 Classificador vizinhos mais Próximos k = 1Nenhum20000,00000,1481 k = 1Mét ,00000,1935 k = 1Mét. 2600,00000,2258 k = 1Mét. 1 e 2430,00000,2258

14 CEAUL Sílvia Pedro Rebouças 20/02/  Cancro do cólon (modelação: 40 ind., validação: 22 ind. ) Método de classificação Pré-proces- samento Número de genes Proporção de erros na amostra de modelação Proporção de erros na amostra de validação Regressão logística penalizada Nenhum2000 (q = 2) 0,10000,3636 Mét (q = 2) 0,07500,6818 Mét. 286 (q = 2) 0,12500,1364 Méts. 1 e 264 (q = 2) 0,37500,6818 Árvore de classificação Nenhum2000 0,07500,4091 Mét ,07500,4091 Mét ,07500,4091 Méts. 1 e 264 0,07500,4091 Rede neuronal (Perceptrão simples) Mét. 13 0,07500,4091 Mét. 2860,0000 0,5909 Méts. 1 e 264 0,02500,3636 Rede neuronal com 5 unidades na camada escondida Mét. 13 0,05000,3636 Mét ,02500,3636 Méts. 1 e 264 0,05000,3636 Classificador vizinhos mais Próximos k = 1Nenhum2000 0,00000,2273 k = 1Mét ,00000,1818 k = 1Mét ,00000,2727 k = 1Mét. 1 e 2640,0000 0,1818

15 CEAUL Sílvia Pedro Rebouças 20/02/ ◦ Conclusões:  A regressão logística penalizada é suportada por uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso.  As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação.  As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet.

16 CEAUL Sílvia Pedro Rebouças 20/02/  O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho.  Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados.  Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta.  Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema.

17 CEAUL Sílvia Pedro Rebouças 20/02/  Principais linhas de investigação futura ◦ Metodologias de redução de dimensionalidade  Análise de Componentes Principais Robustas (Branco & Pires, 2009) ◦ Análise comparativa de métodos de classificação supervisionada ◦ Classificação supervisionada de dados temporais de microarrays

18 CEAUL Sílvia Pedro Rebouças 5. Referências bibliográficas 20/02/  Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96,  Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5),  Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21,  Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, Series B, 57,  Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6,

19 20/02/2010 CEAUL Sílvia Pedro Rebouças 19  Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50,  Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido.  Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457),  Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99,  Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286,  Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51,

20 20/02/2010 CEAUL Sílvia Pedro Rebouças 20  Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13,  Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48,  Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15,  Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20.  Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4),  Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23,  Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2,

21 20/02/2010 CEAUL Sílvia Pedro Rebouças 21  Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46,  O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13.  Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1),  Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25.  Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5,  Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press.  Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646,


Carregar ppt "Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:"

Apresentações semelhantes


Anúncios Google