Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouBeatriz Branco Alterado mais de 9 anos atrás
1
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características através de Nearest Shrunken Centroids
2
2 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais
3
3 Introdução Descoberta de Conhecimento em Bases de Dados
4
Descoberta de Conhecimento em Bases de Dados Crescente fluxo de dados Dados coletados e acumulados rapidamente Transformação de informação em conhecimento útil 4
5
Descoberta de Conhecimento em Bases de Dados Pré-processamento: dados preparados para mineração Mineração de dados: extração de conhecimento através de métodos inteligentes Avaliação Apresentação: representação e visualização do conhecimento para o usuário 5
6
6 Introdução Mineração de Dados
7
Mineração de Dados Análise de grandes base de dados Extração de padrões de interesse do modelo de dados Conjunto de dados Domínio de conhecimento Métodos de mineração Avaliação de padrões 7
8
Mineração de Dados 8
9
9 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais
10
10 Classificação de Dados Processo de Classificação
11
Processo de classificação Treinamento Aprendizado de conhecimento a partir de amostras com classes conhecidas 11
12
Processo de classificação Teste Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas 12
13
13 Classificação de Dados Avaliação dos Métodos de Classificação
14
Avaliação dos Métodos de Classificação Acurácia: índice de exatidão de classificação de amostras desconhecidas Desempenho: velocidade e custo computacional referente a utilização do classificador 14
15
Avaliação dos Métodos de Classificação Robustez: capacidade de realizar predições corretas a partir de conjuntos de dados com amostras incompletas ou com ruído Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados 15
16
16 Classificação de Dados Método Nearest Centroid
17
Método Nearest Centroid Centróide Centro de distribuição de um conjunto de amostras Amostras de treinamento: centróide geral Amostras de determinada classe: centróide de classe 17
18
Método Nearest Centroid Matematicamente Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2,..., p presentes num conjunto de dados composto de n amostras j = 1, 2,..., n x ij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, C k = (1, 2,...,K) A cada classe k, estão associadas n k amostras que compõem o modelo de dados. 18
19
Método Nearest Centroid Matematicamente O i-ésimo componente dos centróides Geral De classe 19
20
Método Nearest Centroid Função de distância Sendo Classificação 20
21
21 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais
22
Seleção de Características Teoria Maior quantidade de atributos: maior poder de discernimento Prática Informações irrelevantes confundem e retardam os sistemas de aprendizado 22
23
Seleção de Características Motivação Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados 23
24
Seleção de Características Eliminação de atributos irrelevantes/redundantes do modelo de dados Busca da melhoria do processo de descoberta de conhecimento 24
25
25 Seleção de Características Método Nearest Shrunken Centroid
26
Método Nearest Shrunken Centroid Distância estatística Sendo 26
27
Método Nearest Shrunken Centroid Função de limiarização suave 27
28
Método Nearest Shrunken Centroid Dessa forma Se dado atributo i, ∃∆ tal que ∀k tem-se d’ ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação 28
29
Shrunken Centroids 29
30
30 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais
31
Sistema Inteligente 31
32
Sistema Inteligente File: arquivo físico da base de dados *.arff *.dat Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe 32
33
Sistema Inteligente DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples) Centroid: centróide de um conjunto de amostras 33
34
Sistema Inteligente NearestCentroidClassifier: classificador NSC Conjunto de treinamento: trainingSet Conjunto de teste: testSet Centróides de classe: classCentroids Centróide geral: overallCentroids Classificação de amostra: classify(sample) 34
35
Sistema Inteligente Shrinker Seleção de características Realiza a redução dos centróides shrinkCentroids() NearestCentroidClassifier searchDelta() crossValidation() de kfolds 35
36
36 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais
37
37 Testes Comparativos Metodologia
38
Metodologia Sub-divisão das bases de dados Testes de classificação 75% conjunto de treinamento 25% conjunto de teste Seleção de características Dados originais Dados reduzidos 38
39
Metodologia Validação Cruzada 39
40
Metodologia Validação Cruzada Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação 40
41
Metodologia Bases de dados utilizadas Breast Colon Glasses Iris Leukemia Lymphoma Prostate 41
42
Metodologia Classificadores utilizados NSC Weka: suíte de mineração de dados Naive-Bayes SMO Multilayer Perceptron J48 Random Forest 42
43
43 Testes Comparativos Por Base de Dados
44
Breast 44
45
Colon 45
46
Glasses 46
47
Iris 47
48
Leukemia 48
49
Lymphoma 49
50
Prostate 50
51
51 Testes Comparativos Por Classificador
52
NSC 52
53
Naive-Bayes 53
54
SMO 54
55
Multilayer Perceptron 55
56
J48 56
57
Random Forest 57
58
58 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais
59
Resultados 59 Média por Base de Dados Média por Classificador
60
Resultados Numero de Atributos x Desempenho Grande redução do número de atributos Ganho considerável de desempenho Maiores índices Bases de dados de alto nível dimensional 60
61
Resultados Acurácia Perda pouco significativa de acurácia Melhores índices Base de dados: Leukemia (+2,22%) Classificador: Multilayer Perceptron (+0,96%) Piores índices Base de dados: Breast (-8%) Classificador: Random Forest (-3,43%) 61
62
Resultados Desempenho x Acurácia Ganho de desempenho e de acurácia Bases de dados de alto nível dimensional 62
63
63 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais
64
Considerações Finais Ganho considerável de desempenho Queda pouco significativa de acurácia Melhores resultados em bases de dados de alto nível dimensional 64
65
Considerações Finais Trabalhos Futuros Estudos comparativos Outros métodos de seleção de características Variação da proporção entre número de amostras de treinamento e teste 65
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.