APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS Acadêmico: Lucas Dähne de Oliveira Orientadora: Profª MSc. Helyane B. Borges
Agenda Introdução Processo de Descoberta do Conhecimento - KDD Técnica de Microarranjo Algoritmo k-means Experimentos Resultados Conclusão
Introdução Processo de descoberta de conhecimento em base de dados - KDD. Bases de dados de Expressão Gênica obtidas pela técnica de microarranjo. Tarefa de Agrupamento. Algoritmo k-means.
KDD Agrupamento Faz parte do processamento 3 tarefas Processamento: Puxa uma bolinha com a tarefa de agrupamento Agrupamento
Tarefa de Agrupamento Reunião de registros de uma base de dados que possuam similaridades. O conceito de similaridade está normalmente associado à distância entre os objetos.
Técnica de Microarranjo Análise da expressão dos genes. Representados no formato de uma matriz. Característica: Possui muitos atributos e poucas amostras.
Base de Dados colunas / genes atributo Linhas Registros ou amostras
Experimentos Estudo: Execução Análise dos resultados Técnica de microarranjo Agrupamento Algoritmo de agrupamento k-means Execução Análise dos resultados
Experimentos - Algoritmo k-means
Experimentos – Base de Dados DLBCLTumor (SHIPP et al., 2000) Formada por 2 tipos de Linfoma: o Linfoma Difuso de Grandes Células B (LDGCB) e Linfoma Folicular (LF) 7129 atributos 77 registros
Resultados K = 3 (3 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Iterações Euclidiana/Aritmética 42 31 4 7 Euclidiana/Geométrica 40 30 Euclidiana/Harmônica 59 17 1 3 Euclidiana/Quadrática Manhattan/Aritmética 9 56 12 10 Manhattan/Geométrica 39 Manhattan/Harmônica 61 15 6 Manhattan/Quadrática 70 5
Resultados K = 5 (5 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Grupo 4 Iterações Euclidiana/Aritmética 33 30 4 9 1 5 Euclidiana/Geométrica 24 19 26 21 Euclidiana/Harmônica 28 42 20 Euclidiana/Quadrática 36 7 Manhattan/Aritmética 13 35 18 12 Manhattan/Geométrica 40 8 Manhattan/Harmônica 25 3 6 Manhattan/Quadrática 48 11
Resultados OBS: Base de dados tem conhecimento a priori Taxa de Acerto Medida de Distância Média Acerto Geral (%) Iterações Euclidiana Aritmética 69,6% 4 Geométrica 65,1% 7 Quadrática 54,1% Harmônica 58,5% 6 Manhattan 67,1% 3 31,6% 55,2% 9 61,9% 5
Conclusão Importância da mineração de dados. Tarefa de agrupamento Aplicação do algoritmo k-means. Distância Euclidiana Distância Manhattan. Experimentos com novas bases de dados
Referências Borges, H. B. Redução de Dimensionalidade em Bases de Dados de Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f. 2006. PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR. FAYYAD, USAMA M. et al. KDD for science data analysis: issues and examples. Second International Conference on Knowledge Discovery and Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press. GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier, 2005 - 4° Reimpressão. MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997. SHIPP et al. Diffuse large B-cell lymphoma outcome prediction by gene expression profiling and supervised machine learning. Nature Medicine, v. 8, n. 1, p. 68-74, Jan 2002. SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e Biológica em Agrupamento de Dados de Expressão Gênica. Dissertação de Mestrado, PPGIa PUCPR, 249pp, 2006. WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine learning tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San Francisco.
Agradecimentos FUNTEF Campus Ponta Grossa: pelo apoio financeiro COINF: laboratórios de informática DEPOG Atualmente o projeto está sendo financiado pela FUNTEF
Obrigado pela atenção