A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Novos Métodos de Classificação Nebulosa e de Validação de Categorias e suas Aplicações a Problemas de Reconhecimento de Padrões Cláudia Rita de Franco.

Apresentações semelhantes


Apresentação em tema: "Novos Métodos de Classificação Nebulosa e de Validação de Categorias e suas Aplicações a Problemas de Reconhecimento de Padrões Cláudia Rita de Franco."— Transcrição da apresentação:

1 Novos Métodos de Classificação Nebulosa e de Validação de Categorias e suas Aplicações a Problemas de Reconhecimento de Padrões Cláudia Rita de Franco Orientador: Adriano Joaquim de Oliveira Cruz Março/2002

2 Problemas Abordados Validação de Categorias  Descobrir o número e a disposição das categorias que melhor representam o problema Reconhecimento de Padrões  Identificar e classificar padrões recorrentes nos dados

3 Índice Estudo Realizado  Categorização  Classificação  Validação de Categorias Propostas  EFLD  ICC  Sistema ICC-KNN

4 Estudo Realizado  Categorização  Classificação  Validação de Categorias

5 Categorização Processo de particionar um conjunto de amostras em subconjuntos (categorias) Dados similares entre si por suas características  Disposição Espacial  Categoria definida pela proximidade das amostras – Distância Partições Rígidas e Nebulosas

6 Classificação Técnica que associa amostras a classes previamente conhecidas Rígida e Nebulosa Supervisionados  MLP  treinamento Não supervisionados  K-NN e K-NN nebuloso  sem treinamento

7 Reconhecimento de Padrões Reconhecimento de Padrões + Categorização  Sistema Estatístico Não paramétrico de Reconhecimento de Padrões Estatístico  avalia a similaridade dos dados através de medidas matemáticas Não-Paramétrico  sem conhecimento prévio da distribuição das amostras

8 Denominação de Características Extração de Características Identificação de Características Categorização Validação de Categorias Classificador Dados de Treinamento Dados de Teste Taxa de erro Sistema Estatístico Não-Paramétrico de Reconhecimento de Padrões

9 Métodos de Categorização Não-Hierárquicos  Dados distribuídos pelo número de categorias pré-definido  Critério é otimizado Minimização da variação interna das categorias

10 Métodos de Categorização Hierárquico  1ª Abordagem  Cada ponto é um centro de categoria  Cada 2 pontos mais próximos são fundidos em uma categoria  Número de categorias desejado é atingido Hierárquico  2ª Abordagem  Uma categoria contém todas as amostras  Critério é utilizado para dividí-la no número de categorias desejado

11 Métodos de Categorização Rígidos  Cada amostra pertence a uma única categoria Nebulosos  Cada amostra pertence a todos os agrupamentos com diferentes graus de afinidade Grau de inclusão

12 Métodos de Categorização  k-Means  K-NN e K-NN nebuloso  FCM  FKCN  GG  GK

13 Métodos de Categorização K-Means e FCM  Distância Euclidiana  Hiperesferas Gustafson-Kessel  Distância de Mahalanobis  Hiperelipsóides Gath-Geva  Distância de Gauss  superfícies convexas de formato indeterminado

14 Rede Kohonen de Categorização Nebulosa FKCN Método de Categorização Nebuloso não supervisionado Distância Euclidiana Categorias hiperesféricas Converge mais rápido que FCM Forte tendência a convergir para mínimos locais  Categorias pouco representam as classes

15 K-NN e K-NN nebuloso Métodos de Classificação Classes identificadas por padrões Classifica pelos k vizinhos mais próximos Conhecimento a priori das classes do problema Não se restringe à uma distribuição específica das amostras

16 K-NN Rígido w1w1 w2w2 w3w3 w4w4 w 13 w 10 w9w9 w 14 w5w5 w8w8 w 12 w 11 w6w6 w7w7  Classe 1 Classe 2 Classe 3 Classe 4Classe 5

17 K-NN Nebuloso w1w1 w2w2 w3w3 w4w4 w 13 w 10 w9w9 w 14 w5w5 w8w8 w 12 w 11 w6w6 w7w7  Classe 1 Classe 2 Classe 3 Classe 4Classe 5

18 Medidas de Validação

19 Usadas para encontrar o número ideal de categorias que melhor representa o espaço amostral  Número de classes desconhecido  Número de classes  Número de categorias

20 Medidas de Validação Aplicadas a partições geradas por um método de categorização Estima qualidade das categorias geradas Rígidas ou Nebulosas

21 Coeficiente de Partição – F Medida de Validação Nebulosa Maximizar – 1/c  F  1 Diretamente influenciada pelo  Número de categorias e Sobreposição das classes

22 Compacidade e Separação – CS Medida de Validação Nebulosa Minimizar – 0  CS   Avalia diferentes funções objetivo

23 Compacidade e Separação – CS Mede:  O grau de separação entre as categorias  A compacidade das categorias  Não sofre influência da sobreposição das categorias Maior taxa de acertos dentre as medidas de validação estudadas

24 Discriminante Linear de Fisher - FLD Medida de Validação Rígida Mede a compacidade e a separação entre as categorias  Matriz de Espalhamento entre Classes – S B  Matriz de Espalhamento Interno – S W

25 Discriminante Linear de Fisher - FLD Critério J – Maximizado 

26 Indicadores de Validade Calculam o grau de separação entre as categorias Menor a sobreposição das categorias  melhor a categorização obtida MinRF, MaxRF e MinNMMcard

27 Propostas  EFLD  ICC  Sistema ICC-KNN

28 EFLD

29 Extended Fisher Linear Discriminant Extensão do Discriminante Linear de Fisher Capacidade de validar categorias rígidas e nebulosas

30 EFLD Matriz Estendida de Espalhamento entre Classes m ie é o centróide da categoria i  e

31 EFLD Matriz Estendida de Espalhamento Interno Matriz Estendida de Espalhamento Total  

32 EFLD Conclusão  Espalhamento total do sistema é independente da natureza das partições se o somatório dos graus de inclusão dos pontos em cada categoria é igual a 1  Constante

33 EFLD Critério de Fisher Estendido Determinante – limite em relação ao número de pontos de cada categoria Traço – mais rápido de calcular  Sem limitações de número de pontos

34 EFLD – Otimização Matrizes de Espalhamento – geradas pelo produto de um vetor coluna por seu transposto  Traço – quadrado do módulo do vetor gerador

35 EFLD – Otimização Soma dos traços das matrizes S Be e S We é constante  s Te é calculado uma única vez  s Be é mais rápido de calcular que s We

36 EFLD – Otimização O critério de Fisher J pode ser reescrito como Vantagem – cálculo mais rápido Melhor número de categorias - Maximizar 

37 EFLD – Aplicação Três classes com 500 pontos cada X1 – (1,1), (6,1), (3,5, 7) com Std 0,3 X2 – (1,5, 2,5), (4,5, 2,5), (3,5, 4,5) com Std 0,7 Aplicar FCM para m = 2 e c = 2...6

38 EFLD – Aplicação EFLD Número de Categorias 23456 Amostras X14,68154,91360,29430,25590,3157 Amostras X20,32710,85890,87570,96081,0674 Para classes sobrepostas, J e, como J, erra alta sobreposição  baixa confiabilidade Comportamento análogo ao FLD

39 EFLD – Aplicação Alocação errônea dos centros Mínimo local = Ponto médio do conjunto de pontos J e extremamente pequeno = 9,8010 x 10 -5

40 ICC

41 ICC – Inter Class Contrast EFLD  Cresce conforme o número de partições cresce  Cresce com a sobreposição das classes  Atinge um valor máximo para um falso número ideal de categorias

42 ICC Avalia um espaço particionado rígido ou nebuloso Analisa:  Compacidade das categorias  Separação das categorias Maximizar

43 ICC s Be – estima a qualidade da alocação dos centros das categorias 1/n – fator de escala  Compensa a influência do número de pontos no termo s Be

44 ICC D min – distância Euclidiana mínima entre os centros das categorias  Neutraliza o comportamento crescente de s Be evitando o máximo valor de ICC para uma número de categorias superior ao ideal  2 ou mais categorias representam uma classe – D min decresce abruptamente

45 ICC – Raiz do número de categorias Evita o máximo valor de ICC para uma número de categorias inferior ao ideal  1 categoria representa 2 ou mais classes  D min aumenta

46 ICC – Aplicação Nebulosa Cinco classes com 500 pontos cada Sem sobreposição de classes X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 Aplicar FCM para m = 2 e c = 2...10

47 Medidas Número de Categorias 2345 ICCM 7,59641,9951,9296,70 ICCTraM 7,59641,9951,9296,70 ICCDetM IND154685259791673637 EFLDM0.1850.9861.87713.65 EFLDTraM 0,1850,9861,87713,65 EFLDDet M IND0,9553,960182,70 CSm 0,3500,0960,0700,011 FM 0,7050,7130,7950,943 MinHTM 0,6470,5722,1241,994 MeanHTM 0,5190,4961,3271,887 MinRF0 0,1000,31600

48 Tempos Número de Categorias 2345 ICC0,00610,00690,00820,0091 4 ICCTra0,00780,00600,00880,0110 ICCDet0,01100,00880,01100,0132 EFLD 0.00530.00710.00630.0080 EFLDTra0,76781,08701,47801,8982 EFLDDet0,78001,13921,55102,0160 CS0,02260,02610,03820,0476 NFI0,00610,00560,00580,0060 3 F0,00440,00450,00490,0049 1 FPI0,00610,00450,00490,0053 2

49 ICC – Aplicação Nebulosa Cinco classes com 500 pontos cada Alta sobreposição de classes X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 Aplicar FCM para m = 2 e c = 2...10

50 Medidas234510 ICCM 5,0654,9386,1917,8295,69 ICCTraM 5,0654,9386,1917,8295,69 ICCDetM IND715,19357270486024 EFLDM0.4500.5850.8391.0951.344 EFLDTraM 0,4500,5850,8391,0951,344 EFLDDet M IND0,0490,3150,7431,200 CSm 0,1640,2250,1910,1220,223 FM 0,7540,6210,5910,5860,439 MeanHTM 0,6320,4850,5500,5970,429 MinRF0 0,1700,2940,1940,2100,402 MPEm 0,5680,6010,5610,5250,565

51 Tempos Número de Categorias 2345 ICC0,00600,00640,00770,0088 1 ICCTra0,00660,00600,00980,0110 ICCDet0,01100,00780,01100,0120 EFLD 0.00630.00880.00960.0110 EFLDTra0,79302,10381,75982,2584 EFLDDet0,97201,25801,60901,8450 CS0,02200,02830,03620,0590 3 F0,01120,01210,00610,0164 MPE0,01670,02710,03190,0397 2

52 ICC – Aplicação Rígida Medidas45678 ICCM81,8485105,446315,098714,889113,4127 DLFM5,902167,26272,35477,41379,549 CSm0,11950,01210,65930,741316,1588 Tempos45678 ICC0,00740,0080 1 0,00850,00930,0102 DLF1,32161,67842,03242,30022,6140 CS0,03080,0377 2 0,04370,05020,0569

53 ICC – Aplicação Rígida Medidas45678 ICCM15,582318,194013,446113,391314,9289 DLFM2,91764,82585,42576,07816,8428 CSm0,24880,18980,39280,43380,3717 Tempos45678 ICC0,00740,0099 1 0,01020,01150,0135 DLF1,32581,65341,98502,32882,6166 CS0,03210,0382 2 0,04540,05160,0582

54 ICC – Conclusões Rápida e Eficiente Analisa partições Nebulosas e Rígidas Eficiente com alta sobreposição das classes Alta taxa de acertos

55 ICC-KNN

56 Sistema ICC-KNN Sistema Estatístico Não-Paramétrico de Reconhecimento de Padrões Associa FCM, KNN nebuloso e ICC Avaliar dados dispostos em diversos formatos de classes

57 Sistema ICC-KNN Módulo de Classificação  Estabelecer estruturas nos dados Primeira Fase de Treinamento  Avalia a melhor distribuição de padrões para o K-NN nebuloso FCM – Aplicado para cada classe ICC – Encontra o melhor número de categorias que representa cada classe

58 Sistema ICC-KNN Segunda Fase de Treinamento Avalia a melhor constante nebulosa e o melhor número de vizinhos para o K-NN – maior performance  Varia-se m e k  Escolhe-se m e k para a maior taxa de Acertos Rígidos

59 Sistema ICC-KNN Módulo de Reconhecimento de Padrões  Atribuir os dados às classes definidas Utiliza os padrões, m e k para classificar os dados

60 Sistema ICC-KNN Classe 1 Classe s FCM ICC K-NN nebuloso m k W, U w W U w w1w1 wsws U 1cmin U 1cmáx U Scmin U Scmáx K-NN nebuloso Módulo de Classificação Módulo de Reconhecimento de Padrões Dados não classificados

61 Sistema ICC-KNN - Algoritmo Módulo de Classificação Primeira fase do Treinamento Passo 1. Fixar m Passo 2. Fixar cmin e cmáx Passo 3. Para cada classe s conhecida Gerar o conjunto Rs com os pontos de R pertencentes à classe s Para cada categoria c no intervalo [cmin, cmáx] Executar FCM para c e o conjunto Rs gerando Usc e Vsc Calcular a ICC para Rs e Usc Fim Definir os padrões ws da classe s como a matriz Vsc que maximiza a ICC Passo 4. Gerar o conjunto W = {w1,..., ws}

62 Sistema ICC-KNN - Algoritmo Segunda fase do Treinamento Passo 5. Fixar mmin e mmáx Passo 6. Fixar kmin e kmáx Para cada m do intervalo [mmin, mmáx] Para cada k do intervalo [kmin, kmáx] Executar o K-NN nebuloso para os padrões do conjunto W, gerando Umk Calcular os acertos rígidos para Umk Passo 7. Escolher o m e k que obtêm a maior taxa de acertos rígidos Passo 8. Se houver empate Se os k são diferentes Escolher o menor k Senão Escolher o menor m

63 Sistema ICC-KNN - Algoritmo Módulo de Reconhecimento de Padrões Passo 9. Aplicar o K-NN nebuloso com os padrões do conjunto W e os parâmetros m e k escolhidos aos dados a serem classificados

64 Sistema ICC-KNN - Avaliação 2000 amostras, 4 classes, 500 amostras em cada classe Classe 1 e 4 – classes côncavas Classes 2 e 3 – classes convexas com formato elíptico

65 Sistema ICC-KNN - Avaliação Primeira Fase de Treinamento FCM aplicado a cada classe  Dados de treinamento 80%  400 amostras  c = 3..7 e m = 1,25 ICC aplicada aos resultados  Classes 1 e 4  4 categorias  Classes 2 e 3  3 categorias

66 Sistema ICC-KNN - Avaliação Segunda Fase de Treinamento Execução do K-NN Nebuloso  Padrões da PFT  Padrões Aleatórios  k = 3 a 7 vizinhos  m = {1,1; 1,25; 1,5; 2}

67 Sistema ICC-KNN - Avaliação Conclusão: K-NN é mais estável em relação ao valor de m para os padrões da PFT

68 Sistema ICC-KNN - Avaliação Dados de Treinamento Classes Padrões da PFTPadrões Aleatórios 12341234 13881002213660121 214379071938001 300376243032473 40123974461349 Dados de Treinamento Linhas  classes Colunas  classificação m = 1,5 e k = 3  96,25% m = 1,1 e k = 3  79,13% (padrões aleatórios)

69 Sistema ICC-KNN - Avaliação Dados de Teste Módulo de Reconhecimento de padrões Execução do K-NN nebuloso nos dados de teste Pad. PFT – 94,75% Pad. Aleat – 79% Dados de Testes Classes Padrões da PFTPadrões Aleatórios 12341234 1972015327020 24930349600 3009010008218 400199015085

70 Sistema ICC-KNN - Avaliação Tempos de Execução Padrões da PFT  36,5 s  PFT  FCM + ICC= 15,5 s  SFT  21,04 s  Total  36,5 s Aleatório  23,11s

71 Sistema ICC-KNN - Avaliação Acerto Nebuloso  grau de inclusão > 1/k

72 ICC-KNN x Mét. de Categorização FCM, FKCN, GG e GK Fase de Treinamento (FTr)  Dados de treinamento  c = 4 e m = {1,1; 1,25; 1,5; 2}  Associar as categorias às classes Critério do somatório dos graus de inclusão  Cálculo do somatório dos graus de inclusão dos pontos de cada classe em cada categoria  Uma classe pode ser representada por mais de uma categoria

73 ICC-KNN x Mét. de Categorização Fase de Teste  Dados de Teste  Inicialização dos métodos com os centros da FTr  Calcula o grau de inclusão dos pontos em cada categoria Classe representada por mais de 1 categoria  Grau de inclusão = soma dos graus de inclusão dos pontos nas categorias que representam a classe

74 GK para m = 2  84% FCM e FKCN  66% para m = 1,1 e m = 1,25 GG-FCM  69% para m = 1,1 e 1,25 GG Aleatório  57,75% para m = 1,1 e 25% para m = 1,5 ICC-KNN KNN A. FCMFKCNGGGK R 94,75% 79% 66% 69%84% N 95,75% 83% 70,75% 69%89,5% T 36,5s 23,11s 2,91s2,59s22,66s18,14s ICC-KNN x Mét. de Categorização

75 FCM GG-FCM GK

76 Reconhecimento de Dígitos Manuscritos

77 Problema Dígitos manuscritos extraídos de formulários Escaneados  imagens do tipo Tiff Algoritmo de Afinamento  Esqueleto da imagem Extração de características  Método do Polígono  122 características 4077 dígitos  3266 e 811 amostras

78 Aplicação do ICC-KNN PFT  FCM m = 1,25 e c = 2..30 0123456789 22291225152625231030 SFT  K-NN neb.  Padrões da PFT e Aleatórios  k = 3..7 e m ={1,1; 1,25; 1,5; 2}

79 Acertos e Tempos MétodosICC-KNNK-NN Neb. Alea. Acertos Ríg.87,8%72,4% Acertos Neb.94,53%85,63% Tempos7166 s1224,3 s Dados de Teste m = 1,25 e k = 7  87,8% 21,3% superior

80 ICC-KNN x Mét. De Categorização Comparação com os Mét. De Categorização  FCM, FKCN, GG, GK 122  19 características  PCA – Principal Components Analysis  Variância preservada  82,6%  p(p-1)/2

81 Acertos e Tempos ICC-KNNK-NN A. FCMFKCNGGGK 86,7%75,22% 57%55%51%49% 93,8%85,66% 60%54%39,5%39,8% 1784 s260 s 30,38 s32,79 s108,15 s711,77 s Dados de Teste ICC-KNN  86,7% param = 1,25 e k = 6 FCM  57% para m = 1,25 52% de ganho do ICC-KNN sobre o FCM

82 Acertos Rígidos Pouco estável em relação à m

83 Conclusões EFLD  Estendeu eficientemente as funcionalidades do FLD  partições rígidas e nebulosas  Maior velocidade ICC  Eficiente e rápida  Suporta alta sobreposição das classes  Avalia a compacidade e a separação das classes  Alto grau de acertos

84 Conclusões Sistema ICC-KNN  Maior eficiência sobre sistemas que usam métodos de categorização  Melhor classificação dos dados  Facilidade de implementação  Não oferece restrições ao conjunto de amostras  Taxas superiores no problema de reconhecimento de dígitos manuscritos

85 Trabalhos Futuros ICC-KNN com outros métodos de categorização Variar a constante nebulosa na PFT Empregar redes MLP para avaliar os graus de inclusão gerados pelo ICC-KNN  Avaliar as amostras em um espaço dimensional menor


Carregar ppt "Novos Métodos de Classificação Nebulosa e de Validação de Categorias e suas Aplicações a Problemas de Reconhecimento de Padrões Cláudia Rita de Franco."

Apresentações semelhantes


Anúncios Google