APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS

Slides:



Advertisements
Apresentações semelhantes
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Advertisements

Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
As escalas de Proficiência do PISA Material do Curso: Avaliação educacional em larga escala: O PISA no Brasil Autor: Lenice Medeiros Pesquisador-Tecnologista.
PÓS-GRADUAÇÃO EM DOCÊNCIA UNIVERSITÁRIA
IX ELAVIO FABIANA SIMÕES E SILVA ORIENTADORA: VITÓRIA PUREZA
EAE 325 – Econometria II Segundo Semestre 2017.
Redes Neurais Artificiais
Montes Claros, 12 a 15 de Outubro 2016
Sala 1004 – Prédio da Expansão 9h às 15h 28/09/2017
UNIVERSIDADE REGIONAL DO NOROESTE DO ESTADO DO RIO GRANDE DO SUL
Título do trabalho Acadêmico Prof. Orientador (Prof. Orientador) 2012
Nome do Aluno Orientador: Prof. Me. (Nome do Orientador)
Etapas Para Elaboração de Curvas de Dose Resposta
FACULDADE SANTA RITA - FaSaR CURSO – ADMINISTRAÇÃO DE EMPRESAS
Resultados e Discussão
RESULTADOS E DISCUSSÃO
Introdução e objetivos
PIT – PROGRAMA INTERNO DE TREINAMENTO 2015
Métodos Quantitativos Avançados
ATRIBUIÇÃO AUTOMÁTICA DE AUTORIA EM ARTIGOS
Extensão para visualização temporal de dados no TerraView
RESULTADOS E DISCUSSÃO
Estudo do perfil fractal de fratura de cerâmica vermelha.
Perfis de grupos de pesquisa interdisciplinar sobre Educação a Distância Ronaldo Linhares, Flávio Tonnetti, Wesley César.
1. Problema e Justificativa
Cursos para Microsoft Office
Referência Bibliográfica Resultados e Discussão
Primeira Lei de Mendel.
Universidade Tecnológica Federal do Paraná
III SIMPÓSIO DE INOVAÇÕES TECNOLOGICAS
Tópicos Especiais Mineração de Dados
Universidade Federal do Paraná
Matemática para Negócios
I Mostra de Estágio das Licenciaturas
Profa. Dra. Fernanda Sayuri Yoshino Watanabe
Ademir Fontana Fabiano de Carvalho Balieiro Fernando Vieira Cesário
DISCIPLINA: Análise Matemática I Apresentação da Disciplina
Objetivos: Apresentar aos alunos os fundamentos termodinâmicos para interpretação e determinação das propriedades.
Acadêmicos Orientador Sessão Temática
Enfoque sistêmico na agricultura Fundamentos Estatísticos
RESULTADOS E DISCUSSÕES
Integração de Informações, Gerência de Armazenamento e Otimizações em Aplicações Não Convencionais Projeto de Pesquisa DIA/UNIRIO Fernanda Baião
Proposta de Dissertação Tatiana Ghedine
RESULTADOS E DISCUSSÕES
NOME DA INSTITUIÇÃO A QUAL REPRESENTA RESULTADOS E DISCUSSÕES
Grupo de pesquisa: ex: Grupo de Ciências Sociais Aplicadas (Direito)
INTRODUÇÃO CONCLUSÃO OBJETIVO REFERÊNCIAS APOIO
APRESENTADOR TÍTULO INSTITUIÇÃO Maceió – AL 2017.
INSTRUÇÕES PARA PREPARAÇÃO DE
Previsão de Taxas de Juros – O Modelo Diebold & Li
O BLOG DO POLO EAD DE NOVA FRIBURGO: RESULTADOS E DESAFIOS
Nome SOBRENOME Acadêmico do curso de xxxxxxxxxxxx Faculdade Campo Real
Análise a partir do Diretório dos Grupos de Pesquisa do CNPq
UNIVERSIDADE ABERTA À COMUNIDADE ESCOLAR: a arte e beleza das células na construção das Ciências Morfológicas e sua interação com a sociedade Autor: Alisson.
RESULTADOS E DISCUSSÕES
DIRETRIZES CURRICULARES NACIONAIS PARA OS CURSOS DE FORMAÇÃO DE PROFESSORES: A APROPRIAÇÃO DA CONCEPÇÃO DE DOCÊNCIA PELOS CURSOS DE PEDAGOGIA DAS INSTITUIÇÕES.
Tatiana de Araujo1, Fátima Kzam D. de Lacerda2
Alef Mafioletti Natan do Rosário
Prof. Paulo Cesar Spigolon (Paulinho)
Nome SOBRENOME Acadêmico do curso de xxxxxxxxxxxx Faculdade Campo Real
Título Subtítulo (*Apresentação 15 min + 5 min perguntas)
Inserir logo da instituição
Título do trabalho científico idêntico ao do resumo submetido
Nome SOBRENOME Acadêmico do curso de xxxxxxxxxxxx Faculdade Campo Real
Passos para as análises
INSERIR O NOME DO ENCONTRO CIENTÍFICO
RESULTADOS E DISCUSSÕES
Nome Sobrenome, Nome Sobrenome, Nome Sobrenome
Logo da Unidade Acadêmica
Introdução à Estatística I
Transcrição da apresentação:

APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS Acadêmico: Lucas Dähne de Oliveira Orientadora: Profª MSc. Helyane B. Borges

Agenda Introdução Processo de Descoberta do Conhecimento - KDD Técnica de Microarranjo Algoritmo k-means Experimentos Resultados Conclusão

Introdução Processo de descoberta de conhecimento em base de dados - KDD. Bases de dados de Expressão Gênica obtidas pela técnica de microarranjo. Tarefa de Agrupamento. Algoritmo k-means.

KDD Agrupamento Faz parte do processamento 3 tarefas Processamento: Puxa uma bolinha com a tarefa de agrupamento Agrupamento

Tarefa de Agrupamento Reunião de registros de uma base de dados que possuam similaridades. O conceito de similaridade está normalmente associado à distância entre os objetos.

Técnica de Microarranjo Análise da expressão dos genes. Representados no formato de uma matriz. Característica: Possui muitos atributos e poucas amostras.

Base de Dados colunas / genes atributo Linhas Registros ou amostras

Experimentos Estudo: Execução Análise dos resultados Técnica de microarranjo Agrupamento Algoritmo de agrupamento k-means Execução Análise dos resultados

Experimentos - Algoritmo k-means

Experimentos – Base de Dados DLBCLTumor (SHIPP et al., 2000) Formada por 2 tipos de Linfoma: o Linfoma Difuso de Grandes Células B (LDGCB) e Linfoma Folicular (LF) 7129 atributos 77 registros

Resultados K = 3 (3 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Iterações Euclidiana/Aritmética 42 31 4 7 Euclidiana/Geométrica 40 30 Euclidiana/Harmônica 59 17 1 3 Euclidiana/Quadrática Manhattan/Aritmética 9 56 12 10 Manhattan/Geométrica 39 Manhattan/Harmônica 61 15 6 Manhattan/Quadrática 70 5

Resultados K = 5 (5 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Grupo 4 Iterações Euclidiana/Aritmética 33 30 4 9 1 5 Euclidiana/Geométrica 24 19 26 21 Euclidiana/Harmônica 28 42 20 Euclidiana/Quadrática 36 7 Manhattan/Aritmética 13 35 18 12 Manhattan/Geométrica 40 8 Manhattan/Harmônica 25 3 6 Manhattan/Quadrática 48 11

Resultados OBS: Base de dados tem conhecimento a priori Taxa de Acerto Medida de Distância Média Acerto Geral (%) Iterações Euclidiana Aritmética 69,6% 4 Geométrica 65,1% 7 Quadrática 54,1% Harmônica 58,5% 6 Manhattan 67,1% 3 31,6% 55,2% 9 61,9% 5

Conclusão Importância da mineração de dados. Tarefa de agrupamento Aplicação do algoritmo k-means. Distância Euclidiana Distância Manhattan. Experimentos com novas bases de dados

Referências Borges, H. B. Redução de Dimensionalidade em Bases de Dados de Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f. 2006. PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR. FAYYAD, USAMA M. et al. KDD for science data analysis: issues and examples. Second International Conference on Knowledge Discovery and Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press. GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier, 2005 - 4° Reimpressão. MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997. SHIPP et al. Diffuse large B-cell lymphoma outcome prediction by gene expression profiling and supervised machine learning. Nature Medicine, v. 8, n. 1, p. 68-74, Jan 2002. SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e Biológica em Agrupamento de Dados de Expressão Gênica. Dissertação de Mestrado, PPGIa PUCPR, 249pp, 2006. WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine learning tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San Francisco.

Agradecimentos FUNTEF Campus Ponta Grossa: pelo apoio financeiro COINF: laboratórios de informática DEPOG Atualmente o projeto está sendo financiado pela FUNTEF

Obrigado pela atenção