DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.

Slides:

Advertisements

Apresentações semelhantes

«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»

Advertisements

UNICAMP Universidade Estadual de Campinas Centro Superior de Educação Tecnológica Divisão de Telecomunicações Propagação de Ondas e Antenas Prof.Dr. Leonardo.

INFORMAÇÕES COMPLEMENTARES

Palestras, oficinas e outras atividades

A busca das mulheres para alcançar seu espaço dentro das organizações

Material pedagógico Multiplicar x 5 Clica!

Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.

Capa Disciplina: Ajustamento de Observações

Investor Relations4Q07 | 1. Investor Relations4Q07 | 2 2.

Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.

Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.

Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.

1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.

Sumário Bem ou serviço compósito = dinheiro Exercícios 2 Exercícios 3.

Curso de ADMINISTRAÇÃO

PUCRS - PROGRAMA DE PÓS-GRADUAÇÃO EM PEDIATRIA E SAÚDE DA CRIANÇA Início do Mestrado: 1995 Início do Doutorado: 2004 Formou 63 Mestres e 3 doutores Conceito.

Método de Acesso Dinâmico - B-Tree AULA 14 Profa. Sandra de Amo Programa de Pós-Graduação em CC - UFU Sistemas de Banco de Dados

Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ

EXPRESSÕES ARITMÉTICAS

EXPRESSÕES ARITMÉTICAS

Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.

FUNÇÃO MODULAR.

Aula 4 Nomes, Vinculações, Tipos e Escopos

O que é 5(S)? ? 5(S) É a prática de hábitos que permitem mudanças nas relações... É a base de qualquer programa de qualidade. 1.

EXEMPLOS DE ESTRUTURAS PROTENDIDAS

Questionário de Avaliação Institucional

Nossa Velha - Nova Cruz Alta Parte 31.

Provas de Concursos Anteriores

Instituto de Geociências Universidade Federal de Minas Gerais

Renda até 2 SM.

Hamburgo, Alemanha Definir o caminho que irá permitir a Lions Clubs International alcançar o seu potencial pleno como organização.

Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539

PESQUISA SOBRE PRAZO MÉDIO DA ASSISTÊNCIA NA SAÚDE SUPLEMENTAR

(CESPE/ Técnico Judiciário do TRT 17ª Região/ES) O Superior Tribunal de Justiça entende que o candidato aprovado em concurso público dentro do limite.

MECÂNICA - DINÂMICA Exercícios Cap. 13, 14 e 17. TC027 - Mecânica Geral III - Dinâmica © 2013 Curotto, C.L. - UFPR 2 Problema

Bolha Posição de máx. W2 Ponto de Estagnação

1 CENTRO DE DESENVOLVIMENTO E PLANEJAMENTO REGIONAL – 2006 P Ó S-GRADUA Ç ÃO EM ECONOMIA Microeconomia I Prof.: Edson Domingues Cap í tulo II: Escolha.

Secretaria de Estado da Educação de Minas Gerais.

1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.

CATÁLOGO GÉIA PÁG. 1 GÉIA PÁG. 2 HESTIA PÁG. 3.

PROCESSOS PRINCIPAIS Alunos - Grau de Satisfação 4971 avaliações * Questões que entraram em vigor em 2011 ** N.A. = Não Aplicável Versão: 07/02/2012 INDICADORES.

LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Conservação - Frota ANO IV – Nº 06.

LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Conservação - Frota ANO IV – Nº 11.

Veículos e Sustentabilidade Ambiental

Lemas (Sudkamp) .

Trabalho sobre Cor Thiago Marques Toledo.

FISCALIZAÇÃO DIRECIONADA CONDUTA - AUXILIAR ANO III – Nº 05.

Medidas de posição Estudando as distribuições de frequência, percebe-se que existe uma posição de concentração dos valores, que podem estar mais concentrados no início, no meio ou no

Coordenação Geral de Ensino da Faculdade

Plataforma Brasil – Submissão de pesquisa

TABELA OFICIAL.

Tributação da Exportação nas Empresas optantes pelo Simples Nacional

Estudo dos Gases Prof. Fabio Costa.

Projeto Marcas que Eu Gosto 1 PROJETO MARCAS QUE EU GOSTO Estudos Quantitativo de Consumidores Janeiro / 2005.

Modelagem Estatística

1/40 COMANDO DA 11ª REGIÃO MILITAR PALESTRA AOS MILITARES DA RESERVA, REFORMADOS E PENSIONISTAS - Mar 06 -

Projeto Medindo minha escola.

C ORROPIOS, C ARDINCHAS E C ÃES G RANDES O LIVRO de José Paixão em imagens – com pistas de leitura propostas por por www.joraga.net.

Nossa Velha - Nova Cruz Alta Parte 21.

1 2 Observa ilustração. Cria um texto. Observa ilustração.

Estatística Aula 9 – 28/02/2011.

1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.

CONCEITOS FUNDAMENTAIS

Olhe fixamente para a Bruxa Nariguda

Máquina de Turing Universal

3ª PESQUISA DE REMUNERAÇÃO

Equipe Bárbara Régis Lissa Lourenço Lucas Hakim Ricardo Spada Coordenador: Gabriel Pascutti.

AM020C A interface entre Meio Ambiente, Sociedade e Economia Indicadores de produtividade e empregabilidade da agricultura do Brasil. Aluna Andressa Santos.

Transcrição da apresentação:

DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características através de Nearest Shrunken Centroids

2 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

3 Introdução Descoberta de Conhecimento em Bases de Dados

Descoberta de Conhecimento em Bases de Dados Crescente fluxo de dados  Dados coletados e acumulados rapidamente Transformação de informação em conhecimento útil 4

Descoberta de Conhecimento em Bases de Dados Pré-processamento: dados preparados para mineração Mineração de dados: extração de conhecimento através de métodos inteligentes Avaliação Apresentação: representação e visualização do conhecimento para o usuário 5

6 Introdução Mineração de Dados

Mineração de Dados Análise de grandes base de dados Extração de padrões de interesse do modelo de dados  Conjunto de dados  Domínio de conhecimento  Métodos de mineração  Avaliação de padrões 7

Mineração de Dados 8

9 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

10 Classificação de Dados Processo de Classificação

Processo de classificação Treinamento  Aprendizado de conhecimento a partir de amostras com classes conhecidas 11

Processo de classificação Teste  Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas 12

13 Classificação de Dados Avaliação dos Métodos de Classificação

Avaliação dos Métodos de Classificação Acurácia: índice de exatidão de classificação de amostras desconhecidas Desempenho: velocidade e custo computacional referente a utilização do classificador 14

Avaliação dos Métodos de Classificação Robustez: capacidade de realizar predições corretas a partir de conjuntos de dados com amostras incompletas ou com ruído Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados 15

16 Classificação de Dados Método Nearest Centroid

Método Nearest Centroid Centróide  Centro de distribuição de um conjunto de amostras  Amostras de treinamento: centróide geral  Amostras de determinada classe: centróide de classe 17

Método Nearest Centroid Matematicamente  Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2,..., p presentes num conjunto de dados composto de n amostras j = 1, 2,..., n  x ij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, C k = (1, 2,...,K)  A cada classe k, estão associadas n k amostras que compõem o modelo de dados. 18

Método Nearest Centroid Matematicamente  O i-ésimo componente dos centróides  Geral  De classe 19

Método Nearest Centroid Função de distância Sendo Classificação 20

21 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

Seleção de Características Teoria  Maior quantidade de atributos: maior poder de discernimento Prática  Informações irrelevantes confundem e retardam os sistemas de aprendizado 22

Seleção de Características Motivação  Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados 23

Seleção de Características Eliminação de atributos irrelevantes/redundantes do modelo de dados Busca da melhoria do processo de descoberta de conhecimento 24

25 Seleção de Características Método Nearest Shrunken Centroid

Método Nearest Shrunken Centroid Distância estatística Sendo 26

Método Nearest Shrunken Centroid Função de limiarização suave 27

Método Nearest Shrunken Centroid Dessa forma Se dado atributo i, ∃∆ tal que ∀k tem-se d’ ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação 28

Shrunken Centroids 29

30 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

Sistema Inteligente 31

Sistema Inteligente File: arquivo físico da base de dados  *.arff  *.dat Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe 32

Sistema Inteligente DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples) Centroid: centróide de um conjunto de amostras 33

Sistema Inteligente NearestCentroidClassifier: classificador NSC  Conjunto de treinamento: trainingSet  Conjunto de teste: testSet  Centróides de classe: classCentroids  Centróide geral: overallCentroids  Classificação de amostra: classify(sample) 34

Sistema Inteligente Shrinker  Seleção de características  Realiza a redução dos centróides  shrinkCentroids()  NearestCentroidClassifier  searchDelta()  crossValidation() de kfolds 35

36 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

37 Testes Comparativos Metodologia

Metodologia Sub-divisão das bases de dados  Testes de classificação  75% conjunto de treinamento  25% conjunto de teste  Seleção de características  Dados originais  Dados reduzidos 38

Metodologia Validação Cruzada 39

Metodologia Validação Cruzada  Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação 40

Metodologia Bases de dados utilizadas  Breast  Colon  Glasses  Iris  Leukemia  Lymphoma  Prostate 41

Metodologia Classificadores utilizados  NSC  Weka: suíte de mineração de dados  Naive-Bayes  SMO  Multilayer Perceptron  J48  Random Forest 42

43 Testes Comparativos Por Base de Dados

Breast 44

Colon 45

Glasses 46

Iris 47

Leukemia 48

Lymphoma 49

Prostate 50

51 Testes Comparativos Por Classificador

NSC 52

Naive-Bayes 53

SMO 54

Multilayer Perceptron 55

J48 56

Random Forest 57

58 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

Resultados 59 Média por Base de Dados Média por Classificador

Resultados Numero de Atributos x Desempenho  Grande redução do número de atributos  Ganho considerável de desempenho Maiores índices  Bases de dados de alto nível dimensional 60

Resultados Acurácia  Perda pouco significativa de acurácia  Melhores índices  Base de dados: Leukemia (+2,22%)  Classificador: Multilayer Perceptron (+0,96%)  Piores índices  Base de dados: Breast (-8%)  Classificador: Random Forest (-3,43%) 61

Resultados Desempenho x Acurácia  Ganho de desempenho e de acurácia  Bases de dados de alto nível dimensional 62

63 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

Considerações Finais Ganho considerável de desempenho Queda pouco significativa de acurácia Melhores resultados em bases de dados de alto nível dimensional 64

Considerações Finais Trabalhos Futuros  Estudos comparativos  Outros métodos de seleção de características  Variação da proporção entre número de amostras de treinamento e teste 65