A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.

Apresentações semelhantes


Apresentação em tema: "DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características."— Transcrição da apresentação:

1 DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características através de Nearest Shrunken Centroids

2 2 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

3 3 Introdução Descoberta de Conhecimento em Bases de Dados

4 Descoberta de Conhecimento em Bases de Dados Crescente fluxo de dados  Dados coletados e acumulados rapidamente Transformação de informação em conhecimento útil 4

5 Descoberta de Conhecimento em Bases de Dados Pré-processamento: dados preparados para mineração Mineração de dados: extração de conhecimento através de métodos inteligentes Avaliação Apresentação: representação e visualização do conhecimento para o usuário 5

6 6 Introdução Mineração de Dados

7 Mineração de Dados Análise de grandes base de dados Extração de padrões de interesse do modelo de dados  Conjunto de dados  Domínio de conhecimento  Métodos de mineração  Avaliação de padrões 7

8 Mineração de Dados 8

9 9 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

10 10 Classificação de Dados Processo de Classificação

11 Processo de classificação Treinamento  Aprendizado de conhecimento a partir de amostras com classes conhecidas 11

12 Processo de classificação Teste  Avaliação do conhecimento descoberto pelo treinamento através da predição de classe de amostras desconhecidas 12

13 13 Classificação de Dados Avaliação dos Métodos de Classificação

14 Avaliação dos Métodos de Classificação Acurácia: índice de exatidão de classificação de amostras desconhecidas Desempenho: velocidade e custo computacional referente a utilização do classificador 14

15 Avaliação dos Métodos de Classificação Robustez: capacidade de realizar predições corretas a partir de conjuntos de dados com amostras incompletas ou com ruído Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados 15

16 16 Classificação de Dados Método Nearest Centroid

17 Método Nearest Centroid Centróide  Centro de distribuição de um conjunto de amostras  Amostras de treinamento: centróide geral  Amostras de determinada classe: centróide de classe 17

18 Método Nearest Centroid Matematicamente  Seja um espaço p-dimensional, sendo p o numero de atributos i = 1, 2,..., p presentes num conjunto de dados composto de n amostras j = 1, 2,..., n  x ij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, C k = (1, 2,...,K)  A cada classe k, estão associadas n k amostras que compõem o modelo de dados. 18

19 Método Nearest Centroid Matematicamente  O i-ésimo componente dos centróides  Geral  De classe 19

20 Método Nearest Centroid Função de distância Sendo Classificação 20

21 21 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

22 Seleção de Características Teoria  Maior quantidade de atributos: maior poder de discernimento Prática  Informações irrelevantes confundem e retardam os sistemas de aprendizado 22

23 Seleção de Características Motivação  Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados 23

24 Seleção de Características Eliminação de atributos irrelevantes/redundantes do modelo de dados Busca da melhoria do processo de descoberta de conhecimento 24

25 25 Seleção de Características Método Nearest Shrunken Centroid

26 Método Nearest Shrunken Centroid Distância estatística Sendo 26

27 Método Nearest Shrunken Centroid Função de limiarização suave 27

28 Método Nearest Shrunken Centroid Dessa forma Se dado atributo i, ∃∆ tal que ∀k tem-se d’ ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação 28

29 Shrunken Centroids 29

30 30 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

31 Sistema Inteligente 31

32 Sistema Inteligente File: arquivo físico da base de dados  *.arff  *.dat Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe 32

33 Sistema Inteligente DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples) Centroid: centróide de um conjunto de amostras 33

34 Sistema Inteligente NearestCentroidClassifier: classificador NSC  Conjunto de treinamento: trainingSet  Conjunto de teste: testSet  Centróides de classe: classCentroids  Centróide geral: overallCentroids  Classificação de amostra: classify(sample) 34

35 Sistema Inteligente Shrinker  Seleção de características  Realiza a redução dos centróides  shrinkCentroids()  NearestCentroidClassifier  searchDelta()  crossValidation() de kfolds 35

36 36 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

37 37 Testes Comparativos Metodologia

38 Metodologia Sub-divisão das bases de dados  Testes de classificação  75% conjunto de treinamento  25% conjunto de teste  Seleção de características  Dados originais  Dados reduzidos 38

39 Metodologia Validação Cruzada 39

40 Metodologia Validação Cruzada  Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação 40

41 Metodologia Bases de dados utilizadas  Breast  Colon  Glasses  Iris  Leukemia  Lymphoma  Prostate 41

42 Metodologia Classificadores utilizados  NSC  Weka: suíte de mineração de dados  Naive-Bayes  SMO  Multilayer Perceptron  J48  Random Forest 42

43 43 Testes Comparativos Por Base de Dados

44 Breast 44

45 Colon 45

46 Glasses 46

47 Iris 47

48 Leukemia 48

49 Lymphoma 49

50 Prostate 50

51 51 Testes Comparativos Por Classificador

52 NSC 52

53 Naive-Bayes 53

54 SMO 54

55 Multilayer Perceptron 55

56 J48 56

57 Random Forest 57

58 58 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

59 Resultados 59 Média por Base de Dados Média por Classificador

60 Resultados Numero de Atributos x Desempenho  Grande redução do número de atributos  Ganho considerável de desempenho Maiores índices  Bases de dados de alto nível dimensional 60

61 Resultados Acurácia  Perda pouco significativa de acurácia  Melhores índices  Base de dados: Leukemia (+2,22%)  Classificador: Multilayer Perceptron (+0,96%)  Piores índices  Base de dados: Breast (-8%)  Classificador: Random Forest (-3,43%) 61

62 Resultados Desempenho x Acurácia  Ganho de desempenho e de acurácia  Bases de dados de alto nível dimensional 62

63 63 Introdução Classificação de Dados Seleção de Características Sistema Inteligente Testes Comparativos Resultados Considerações Finais

64 Considerações Finais Ganho considerável de desempenho Queda pouco significativa de acurácia Melhores resultados em bases de dados de alto nível dimensional 64

65 Considerações Finais Trabalhos Futuros  Estudos comparativos  Outros métodos de seleção de características  Variação da proporção entre número de amostras de treinamento e teste 65


Carregar ppt "DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características."

Apresentações semelhantes


Anúncios Google