Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouJónatas de Carvalho Osório Alterado mais de 6 anos atrás
1
APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS
Acadêmico: Lucas Dähne de Oliveira Orientadora: Profª MSc. Helyane B. Borges
2
Agenda Introdução Processo de Descoberta do Conhecimento - KDD
Técnica de Microarranjo Algoritmo k-means Experimentos Resultados Conclusão
3
Introdução Processo de descoberta de conhecimento em base de dados - KDD. Bases de dados de Expressão Gênica obtidas pela técnica de microarranjo. Tarefa de Agrupamento. Algoritmo k-means.
4
KDD Agrupamento Faz parte do processamento 3 tarefas Processamento:
Puxa uma bolinha com a tarefa de agrupamento Agrupamento
5
Tarefa de Agrupamento Reunião de registros de uma base de dados que possuam similaridades. O conceito de similaridade está normalmente associado à distância entre os objetos.
6
Técnica de Microarranjo
Análise da expressão dos genes. Representados no formato de uma matriz. Característica: Possui muitos atributos e poucas amostras.
7
Base de Dados colunas / genes atributo Linhas Registros ou amostras
8
Experimentos Estudo: Execução Análise dos resultados
Técnica de microarranjo Agrupamento Algoritmo de agrupamento k-means Execução Análise dos resultados
9
Experimentos - Algoritmo k-means
10
Experimentos – Base de Dados
DLBCLTumor (SHIPP et al., 2000) Formada por 2 tipos de Linfoma: o Linfoma Difuso de Grandes Células B (LDGCB) e Linfoma Folicular (LF) 7129 atributos 77 registros
11
Resultados K = 3 (3 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Iterações
Euclidiana/Aritmética 42 31 4 7 Euclidiana/Geométrica 40 30 Euclidiana/Harmônica 59 17 1 3 Euclidiana/Quadrática Manhattan/Aritmética 9 56 12 10 Manhattan/Geométrica 39 Manhattan/Harmônica 61 15 6 Manhattan/Quadrática 70 5
12
Resultados K = 5 (5 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Grupo 4
Iterações Euclidiana/Aritmética 33 30 4 9 1 5 Euclidiana/Geométrica 24 19 26 21 Euclidiana/Harmônica 28 42 20 Euclidiana/Quadrática 36 7 Manhattan/Aritmética 13 35 18 12 Manhattan/Geométrica 40 8 Manhattan/Harmônica 25 3 6 Manhattan/Quadrática 48 11
13
Resultados OBS: Base de dados tem conhecimento a priori Taxa de Acerto
Medida de Distância Média Acerto Geral (%) Iterações Euclidiana Aritmética 69,6% 4 Geométrica 65,1% 7 Quadrática 54,1% Harmônica 58,5% 6 Manhattan 67,1% 3 31,6% 55,2% 9 61,9% 5
14
Conclusão Importância da mineração de dados. Tarefa de agrupamento
Aplicação do algoritmo k-means. Distância Euclidiana Distância Manhattan. Experimentos com novas bases de dados
15
Referências Borges, H. B. Redução de Dimensionalidade em Bases de Dados de Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR. FAYYAD, USAMA M. et al. KDD for science data analysis: issues and examples. Second International Conference on Knowledge Discovery and Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press. GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier, ° Reimpressão. MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997. SHIPP et al. Diffuse large B-cell lymphoma outcome prediction by gene expression profiling and supervised machine learning. Nature Medicine, v. 8, n. 1, p , Jan 2002. SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e Biológica em Agrupamento de Dados de Expressão Gênica. Dissertação de Mestrado, PPGIa PUCPR, 249pp, 2006. WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine learning tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San Francisco.
16
Agradecimentos FUNTEF Campus Ponta Grossa: pelo apoio financeiro
COINF: laboratórios de informática DEPOG Atualmente o projeto está sendo financiado pela FUNTEF
17
Obrigado pela atenção
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.