APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS

Slides:

Advertisements

Apresentações semelhantes

2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.

Advertisements

Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.

As escalas de Proficiência do PISA Material do Curso: Avaliação educacional em larga escala: O PISA no Brasil Autor: Lenice Medeiros Pesquisador-Tecnologista.

PÓS-GRADUAÇÃO EM DOCÊNCIA UNIVERSITÁRIA

IX ELAVIO FABIANA SIMÕES E SILVA ORIENTADORA: VITÓRIA PUREZA

EAE 325 – Econometria II Segundo Semestre 2017.

Redes Neurais Artificiais

Montes Claros, 12 a 15 de Outubro 2016

Sala 1004 – Prédio da Expansão 9h às 15h 28/09/2017

UNIVERSIDADE REGIONAL DO NOROESTE DO ESTADO DO RIO GRANDE DO SUL

Título do trabalho Acadêmico Prof. Orientador (Prof. Orientador) 2012

Nome do Aluno Orientador: Prof. Me. (Nome do Orientador)

Etapas Para Elaboração de Curvas de Dose Resposta

FACULDADE SANTA RITA - FaSaR CURSO – ADMINISTRAÇÃO DE EMPRESAS

Resultados e Discussão

RESULTADOS E DISCUSSÃO

Introdução e objetivos

PIT – PROGRAMA INTERNO DE TREINAMENTO 2015

Métodos Quantitativos Avançados

ATRIBUIÇÃO AUTOMÁTICA DE AUTORIA EM ARTIGOS

Extensão para visualização temporal de dados no TerraView

RESULTADOS E DISCUSSÃO

Estudo do perfil fractal de fratura de cerâmica vermelha.

Perfis de grupos de pesquisa interdisciplinar sobre Educação a Distância Ronaldo Linhares, Flávio Tonnetti, Wesley César.

1. Problema e Justificativa

Cursos para Microsoft Office

Referência Bibliográfica Resultados e Discussão

Primeira Lei de Mendel.

Universidade Tecnológica Federal do Paraná

III SIMPÓSIO DE INOVAÇÕES TECNOLOGICAS

Tópicos Especiais Mineração de Dados

Universidade Federal do Paraná

Matemática para Negócios

I Mostra de Estágio das Licenciaturas

Profa. Dra. Fernanda Sayuri Yoshino Watanabe

Ademir Fontana Fabiano de Carvalho Balieiro Fernando Vieira Cesário

DISCIPLINA: Análise Matemática I Apresentação da Disciplina

Objetivos: Apresentar aos alunos os fundamentos termodinâmicos para interpretação e determinação das propriedades.

Acadêmicos Orientador Sessão Temática

Enfoque sistêmico na agricultura Fundamentos Estatísticos

RESULTADOS E DISCUSSÕES

Integração de Informações, Gerência de Armazenamento e Otimizações em Aplicações Não Convencionais Projeto de Pesquisa DIA/UNIRIO Fernanda Baião

Proposta de Dissertação Tatiana Ghedine

RESULTADOS E DISCUSSÕES

NOME DA INSTITUIÇÃO A QUAL REPRESENTA RESULTADOS E DISCUSSÕES

Grupo de pesquisa: ex: Grupo de Ciências Sociais Aplicadas (Direito)

INTRODUÇÃO CONCLUSÃO OBJETIVO REFERÊNCIAS APOIO

APRESENTADOR TÍTULO INSTITUIÇÃO Maceió – AL 2017.

INSTRUÇÕES PARA PREPARAÇÃO DE

Previsão de Taxas de Juros – O Modelo Diebold & Li

O BLOG DO POLO EAD DE NOVA FRIBURGO: RESULTADOS E DESAFIOS

Nome SOBRENOME Acadêmico do curso de xxxxxxxxxxxx Faculdade Campo Real

Análise a partir do Diretório dos Grupos de Pesquisa do CNPq

UNIVERSIDADE ABERTA À COMUNIDADE ESCOLAR: a arte e beleza das células na construção das Ciências Morfológicas e sua interação com a sociedade Autor: Alisson.

RESULTADOS E DISCUSSÕES

DIRETRIZES CURRICULARES NACIONAIS PARA OS CURSOS DE FORMAÇÃO DE PROFESSORES: A APROPRIAÇÃO DA CONCEPÇÃO DE DOCÊNCIA PELOS CURSOS DE PEDAGOGIA DAS INSTITUIÇÕES.

Tatiana de Araujo1, Fátima Kzam D. de Lacerda2

Alef Mafioletti Natan do Rosário

Prof. Paulo Cesar Spigolon (Paulinho)

Nome SOBRENOME Acadêmico do curso de xxxxxxxxxxxx Faculdade Campo Real

Título Subtítulo (*Apresentação 15 min + 5 min perguntas)

Inserir logo da instituição

Título do trabalho científico idêntico ao do resumo submetido

Nome SOBRENOME Acadêmico do curso de xxxxxxxxxxxx Faculdade Campo Real

Passos para as análises

INSERIR O NOME DO ENCONTRO CIENTÍFICO

RESULTADOS E DISCUSSÕES

Nome Sobrenome, Nome Sobrenome, Nome Sobrenome

Logo da Unidade Acadêmica

Introdução à Estatística I

Transcrição da apresentação:

APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS Acadêmico: Lucas Dähne de Oliveira Orientadora: Profª MSc. Helyane B. Borges

Agenda Introdução Processo de Descoberta do Conhecimento - KDD Técnica de Microarranjo Algoritmo k-means Experimentos Resultados Conclusão

Introdução Processo de descoberta de conhecimento em base de dados - KDD. Bases de dados de Expressão Gênica obtidas pela técnica de microarranjo. Tarefa de Agrupamento. Algoritmo k-means.

KDD Agrupamento Faz parte do processamento 3 tarefas Processamento: Puxa uma bolinha com a tarefa de agrupamento Agrupamento

Tarefa de Agrupamento Reunião de registros de uma base de dados que possuam similaridades. O conceito de similaridade está normalmente associado à distância entre os objetos.

Técnica de Microarranjo Análise da expressão dos genes. Representados no formato de uma matriz. Característica: Possui muitos atributos e poucas amostras.

Base de Dados colunas / genes atributo Linhas Registros ou amostras

Experimentos Estudo: Execução Análise dos resultados Técnica de microarranjo Agrupamento Algoritmo de agrupamento k-means Execução Análise dos resultados

Experimentos - Algoritmo k-means

Experimentos – Base de Dados DLBCLTumor (SHIPP et al., 2000) Formada por 2 tipos de Linfoma: o Linfoma Difuso de Grandes Células B (LDGCB) e Linfoma Folicular (LF) 7129 atributos 77 registros

Resultados K = 3 (3 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Iterações Euclidiana/Aritmética 42 31 4 7 Euclidiana/Geométrica 40 30 Euclidiana/Harmônica 59 17 1 3 Euclidiana/Quadrática Manhattan/Aritmética 9 56 12 10 Manhattan/Geométrica 39 Manhattan/Harmônica 61 15 6 Manhattan/Quadrática 70 5

Resultados K = 5 (5 grupos) Medidas Grupo 1 Grupo 2 Grupo 3 Grupo 4 Iterações Euclidiana/Aritmética 33 30 4 9 1 5 Euclidiana/Geométrica 24 19 26 21 Euclidiana/Harmônica 28 42 20 Euclidiana/Quadrática 36 7 Manhattan/Aritmética 13 35 18 12 Manhattan/Geométrica 40 8 Manhattan/Harmônica 25 3 6 Manhattan/Quadrática 48 11

Resultados OBS: Base de dados tem conhecimento a priori Taxa de Acerto Medida de Distância Média Acerto Geral (%) Iterações Euclidiana Aritmética 69,6% 4 Geométrica 65,1% 7 Quadrática 54,1% Harmônica 58,5% 6 Manhattan 67,1% 3 31,6% 55,2% 9 61,9% 5

Conclusão Importância da mineração de dados. Tarefa de agrupamento Aplicação do algoritmo k-means. Distância Euclidiana Distância Manhattan. Experimentos com novas bases de dados

Referências Borges, H. B. Redução de Dimensionalidade em Bases de Dados de Expressão Gênica. Dissertação (Mestrado em Informática Aplicada). 123f. 2006. PPGIA - Pontifícia Universidade Católica do Paraná – PUCPR. FAYYAD, USAMA M. et al. KDD for science data analysis: issues and examples. Second International Conference on Knowledge Discovery and Data Mining, 1996 Portland, Oregon, Ago.1996, AAAI Press. GOLDSHIMIDT, R.; PASSOS. E. Data Mining. Rio de Janeiro: Elsevier, 2005 - 4° Reimpressão. MITCHELL, T. Machine Learning. New York, USA: McGraw-Hill, 1997. SHIPP et al. Diffuse large B-cell lymphoma outcome prediction by gene expression profiling and supervised machine learning. Nature Medicine, v. 8, n. 1, p. 68-74, Jan 2002. SUNAGA, D.Y. Aplicação de Técnicas de Validação Estatística e Biológica em Agrupamento de Dados de Expressão Gênica. Dissertação de Mestrado, PPGIa PUCPR, 249pp, 2006. WITTEN I. H.; IAN H.; FRANK, E. Data Mining: Practical machine learning tools and techniques, 2nd Edition, 2005, Morgan Kaufmann, San Francisco.

Agradecimentos FUNTEF Campus Ponta Grossa: pelo apoio financeiro COINF: laboratórios de informática DEPOG Atualmente o projeto está sendo financiado pela FUNTEF

Obrigado pela atenção