A Validity Measure for Hard and Fuzzy Clustering Derived from Fishers Linear Discriminant Cláudia R. de Franco Leonardo da S. Vidal Adriano J. de O. Cruz.

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Introdução ao processamento de dados e à estatística - parte 02
A busca das mulheres para alcançar seu espaço dentro das organizações
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
Ludwig Krippahl, 2009 Programação para as Ciências Experimentais 2008/9 Teórica 11.
Ludwig Krippahl, 2008 Programação para as Ciências Experimentais 2007/8 Teórica 10.
Araken de Medeiros Santos Anne Magály de Paula Canuto
Agrupamento (clustering)
Curso de ADMINISTRAÇÃO
PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Classificadores em Dados não Balanceados
Avaliação de Clusteres
Analise e Seleção de Variáveis
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
Estatística 13 – Comparação entre várias populações
Estatística Básica Utilizando o Excel
ANÁLISE DE AGRUPAMENTO
Análise Discriminante
Reconhecimento de Padrões Tipos de Aprendizagem
Reconhecimento de Padrões Tipos de Aprendizagem David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa.
Iana Alexandra Alves Rufino
Quantização de cores em Imagens: o caso do K-means
Lista de Exercícios de Redes Neurais - Sistemas Inteligentes -
Agrupamento de padrões Métodos hierárquicos
INF 1771 – Inteligência Artificial
Modelagem de tráfego auto-similar
Renda até 2 SM.
Aprendizado de Máquina
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
PESQUISA SOBRE PRAZO MÉDIO DA ASSISTÊNCIA NA SAÚDE SUPLEMENTAR
Aproximação da binomial pela normal
Alexandre Xavier Falcão & David Menotti
ME623 Planejamento e Pesquisa
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Márcia Zanutto Barbosa
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Caracterização de consumos
CATÁLOGO GÉIA PÁG. 1 GÉIA PÁG. 2 HESTIA PÁG. 3.
K-Means / Clustering.
PROCESSOS PRINCIPAIS Alunos - Grau de Satisfação 4971 avaliações * Questões que entraram em vigor em 2011 ** N.A. = Não Aplicável Versão: 07/02/2012 INDICADORES.
Indicadores do Mercado de Meios Eletrônicos de Pagamento Setembro de 2006.
Indicadores do Mercado
Avaliação Constituição dos grupos de trabalho:
Funcionários - Grau de Satisfação 2096 avaliações
Tributação da Exportação nas Empresas optantes pelo Simples Nacional
Análise Discriminante
Núcleo de Mídia – Comercial Ranking Nacional de Circulação - Domingos Evolução Mês* 3,38% 2,20% 1,39% 1,13% -4,84% 0,49% -6,16% -0,07% -0,71% 0,27% 0,43%
Avaliação de Clusteres Parte II
Projeto Medindo minha escola.
Monitoração de Qualidade de água com o uso de Dados simbólicos Afonso Gustavo Ataide Ferreira.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Redes Neuronais/Neurais/ Conexionistas Introdução
CONCEITOS FUNDAMENTAIS
Olhe fixamente para a Bruxa Nariguda
3ª PESQUISA DE REMUNERAÇÃO
Equipe Bárbara Régis Lissa Lourenço Lucas Hakim Ricardo Spada Coordenador: Gabriel Pascutti.
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
AVALIAÇÕES FÍSICAS EVOLUÇÃO PILAR FÍSICO. QUADRO FERJ 85% 79%78% 82% 91% EM MAIO DE 2007 ERAM 56% DE APROVADOS 93% 92% 95%
Aprendizado não-supervisionado
Recuperação Inteligente de Informação
Validação de Agrupamentos
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
Novos Métodos de Classificação Nebulosa e de Validação de Categorias e suas Aplicações a Problemas de Reconhecimento de Padrões Cláudia Rita de Franco.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida.
Laboratório de Classificação Supervisionada Laboratório de Geoprocessamento do Departamento de Engenharia de Transportes da EPUSP setembro de 2011.
Transcrição da apresentação:

A Validity Measure for Hard and Fuzzy Clustering Derived from Fishers Linear Discriminant Cláudia R. de Franco Leonardo da S. Vidal Adriano J. de O. Cruz May 2002

Topics Validity Measures Finding the number and the distribution of clusters Pattern Recognition Identify and classify patterns

Índice Estudo Realizado Categorização Classificação Validação de Categorias Propostas EFLD ICC Sistema ICC-KNN

Estudo Realizado Categorização Classificação Validação de Categorias

Categorização Processo de particionar um conjunto de amostras em subconjuntos (categorias) Dados similares entre si por suas características Disposição Espacial Categoria definida pela proximidade das amostras – Distância Partições Rígidas e Nebulosas

Classificação Técnica que associa amostras a classes previamente conhecidas Rígida e Nebulosa Supervisionados MLP treinamento Não supervisionados K-NN e K-NN nebuloso sem treinamento

Reconhecimento de Padrões Reconhecimento de Padrões + Categorização Sistema Estatístico Não paramétrico de Reconhecimento de Padrões Estatístico avalia a similaridade dos dados através de medidas matemáticas Não-Paramétrico sem conhecimento prévio da distribuição das amostras

Denominação de Características Extração de Características Identificação de Características Categorização Validação de Categorias Classificador Dados de Treinamento Dados de Teste Taxa de erro Sistema Estatístico Não-Paramétrico de Reconhecimento de Padrões

Métodos de Categorização Não-Hierárquicos Dados distribuídos pelo número de categorias pré-definido Critério é otimizado Minimização da variação interna das categorias

Métodos de Categorização Hierárquico 1ª Abordagem Cada ponto é um centro de categoria Cada 2 pontos mais próximos são fundidos em uma categoria Número de categorias desejado é atingido Hierárquico 2ª Abordagem Uma categoria contém todas as amostras Critério é utilizado para dividí-la no número de categorias desejado

Métodos de Categorização Rígidos Cada amostra pertence a uma única categoria Nebulosos Cada amostra pertence a todos os agrupamentos com diferentes graus de afinidade Grau de inclusão

Métodos de Categorização k-Means K-NN e K-NN nebuloso FCM FKCN GG GK

Métodos de Categorização K-Means e FCM Distância Euclidiana Hiperesferas Gustafson-Kessel Distância de Mahalanobis Hiperelipsóides Gath-Geva Distância de Gauss superfícies convexas de formato indeterminado

Rede Kohonen de Categorização Nebulosa FKCN Método de Categorização Nebuloso não supervisionado Distância Euclidiana Categorias hiperesféricas Converge mais rápido que FCM Forte tendência a convergir para mínimos locais Categorias pouco representam as classes

K-NN e K-NN nebuloso Métodos de Classificação Classes identificadas por padrões Classifica pelos k vizinhos mais próximos Conhecimento a priori das classes do problema Não se restringe à uma distribuição específica das amostras

K-NN Rígido w1w1 w2w2 w3w3 w4w4 w 13 w 10 w9w9 w 14 w5w5 w8w8 w 12 w 11 w6w6 w7w7 Classe 1 Classe 2 Classe 3 Classe 4Classe 5

K-NN Nebuloso w1w1 w2w2 w3w3 w4w4 w 13 w 10 w9w9 w 14 w5w5 w8w8 w 12 w 11 w6w6 w7w7 Classe 1 Classe 2 Classe 3 Classe 4Classe 5

Medidas de Validação

Validity Measures Used to find the ideal number of clusters that represent the sample space. Number of classes unknown Number of classes Number of clusters

Validity Measures Applied to the partitions generated by the clustering algorithm Measure the quality of the partitions Crisp or Fuzzy

Coeficiente de Partição – F Medida de Validação Nebulosa Maximizar – 1/c F 1 Diretamente influenciada pelo Número de categorias e Sobreposição das classes

Compacidade e Separação – CS Medida de Validação Nebulosa Minimizar – 0 CS Avalia diferentes funções objetivo

Compacidade e Separação – CS Mede: O grau de separação entre as categorias A compacidade das categorias Não sofre influência da sobreposição das categorias Maior taxa de acertos dentre as medidas de validação estudadas

Discriminante Linear de Fisher - FLD Crisp Validity Measure Measures the compactness and separation of the partitions produced by crisp clustering techniques Between-Class Scatter Matrix – S B Within-Class Scatter Matrix Scatter – S W

Discriminante Linear de Fisher - FLD Critério J – Maximizado

Indicadores de Validade Calculam o grau de separação entre as categorias Menor a sobreposição das categorias melhor a categorização obtida MinRF, MaxRF e MinNMMcard

Propostas EFLD ICC Sistema ICC-KNN

EFLD

Extended Fisher Linear Discriminant Capable of validate crisp and fuzzy clusters

EFLD Extended between-classes scatter matrix m ei is the centroid of cluster i and

EFLD Extended within-class scatter matrix Extended total scatter matrix

EFLD It can be proved that if the sum of all membership values of any element is equal to one then the total scattering is independent of the partition

EFLD Extended Fisher Linear Discriminant Determinants impose limits on the minimum number of points of each cluster Trace - faster No limitations due to the number of points

EFLD – Otimização Matrix traces are the product of a column vector by its transpose Trace is equal to the square of the module of this vector

EFLD – Improving Sum of both traces ( S Be and S we ) is constant s T is evaluated only once Calculating s Be is faster than s We

EFLD – Improving So EFLD can be rewritten as Faster to evaluate Find the maximum value of J e

EFLD – testing Three classes, 500 point each X1 – (1,1), (6,1), (3,5, 7) with Std 0,3 X2 – (1,5, 2,5), (4,5, 2,5), (3,5, 4,5) with Std 0,7 Apply FCM to m = 2 and c = 2...6

EFLD – Aplication EFLD Number of Clusters X14,68154,91360,29430,25590,3157 X20,32710,85890,87570,96081,0674 For superposed classes, J e, like J (FLD), is not a good measure Behaviour similar to FLD

EFLD – Aplication Alocação errônea dos centros Mínimo local = Ponto médio do conjunto de pontos J e extremamente pequeno = 9,8010 x 10 -5

ICC

ICC – Inter Class Contrast EFLD Increases as the number of clusters rises. Increases when classes have high degree of overlapping. Reaches maximum for a wrong number of clusters.

ICC Evaluates a crisp and fuzzy clustering algorithms Measures: Partition Compactness Partition Separation ICC must be Maximized

ICC s Be – estimates the quality of the placement of the centres. 1/n – scale factor Compensates the influence of the number of points in s Be

ICC D min – minimum Euclidian distance between all pairs of centres Neutralizes the tendency of s Be to grow, avoiding the maximum being reached for a number of clusters greater than the ideal value. When 2 or more clusters represent a class – D min decreases abruptly

ICC – square root of the number of clusters Avoids the maximum being reached for a number of clusters below the ideal. When 1 cluster represents two or more classes - D min increases

ICC – Fuzzy Application Five classes with 500 points each No class overlapping X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 Apply FCM for m = 2 and c =

Measures Number of clusters 2345 ICCM 7,59641,9951,9296,70 ICCTraM 7,59641,9951,9296,70 ICCDetM IND EFLDM EFLDTraM 0,1850,9861,87713,65 EFLDDet M IND0,9553,960182,70 CSm 0,3500,0960,0700,011 FM 0,7050,7130,7950,943 MinHTM 0,6470,5722,1241,994 MeanHTM 0,5190,4961,3271,887 MinRF0 0,1000,31600

Time Number of Categories 2345 ICC0,00610,00690,00820, ICCTra0,00780,00600,00880,0110 ICCDet0,01100,00880,01100,0132 EFLD EFLDTra0,76781,08701,47801,8982 EFLDDet0,78001,13921,55102,0160 CS0,02260,02610,03820,0476 NFI0,00610,00560,00580, F0,00440,00450,00490, FPI0,00610,00450,00490,0053 2

ICC – Fuzzy Application Five classes with 500 points each High cluster overlapping X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 Apply FCM for m = 2 and c =

Measures ICCM 5,0654,9386,1917,8295,69 ICCTraM 5,0654,9386,1917,8295,69 ICCDetM IND715, EFLDM EFLDTraM 0,4500,5850,8391,0951,344 EFLDDet M IND0,0490,3150,7431,200 CSm 0,1640,2250,1910,1220,223 FM 0,7540,6210,5910,5860,439 MeanHTM 0,6320,4850,5500,5970,429 MinRF0 0,1700,2940,1940,2100,402 MPEm 0,5680,6010,5610,5250,565

Time Number of Clusters 2345 ICC0,00600,00640,00770, ICCTra0,00660,00600,00980,0110 ICCDet0,01100,00780,01100,0120 EFLD EFLDTra0,79302,10381,75982,2584 EFLDDet0,97201,25801,60901,8450 CS0,02200,02830,03620, F0,01120,01210,00610,0164 MPE0,01670,02710,03190,0397 2

Medidas45678 ICCM81, ,446315,098714,889113,4127 DLFM5,902167,26272,35477,41379,549 CSm0,11950,01210,65930,741316,1588 Tempos45678 ICC0,00740, ,00850,00930,0102 DLF1,32161,67842,03242,30022,6140 CS0,03080, ,04370,05020,0569

ICC – Aplicação Rígida Medidas45678 ICCM15,582318,194013,446113,391314,9289 DLFM2,91764,82585,42576,07816,8428 CSm0,24880,18980,39280,43380,3717 Tempos45678 ICC0,00740, ,01020,01150,0135 DLF1,32581,65341,98502,32882,6166 CS0,03210, ,04540,05160,0582

ICC – Conclusões Rápida e Eficiente Analisa partições Nebulosas e Rígidas Eficiente com alta sobreposição das classes Alta taxa de acertos

ICC-KNN

Sistema ICC-KNN Sistema Estatístico Não-Paramétrico de Reconhecimento de Padrões Associa FCM, KNN nebuloso e ICC Avaliar dados dispostos em diversos formatos de classes

Sistema ICC-KNN Módulo de Classificação Estabelecer estruturas nos dados Primeira Fase de Treinamento Avalia a melhor distribuição de padrões para o K-NN nebuloso FCM – Aplicado para cada classe ICC – Encontra o melhor número de categorias que representa cada classe

Sistema ICC-KNN Segunda Fase de Treinamento Avalia a melhor constante nebulosa e o melhor número de vizinhos para o K-NN – maior performance Varia-se m e k Escolhe-se m e k para a maior taxa de Acertos Rígidos

Sistema ICC-KNN Módulo de Reconhecimento de Padrões Atribuir os dados às classes definidas Utiliza os padrões, m e k para classificar os dados

Sistema ICC-KNN Classe 1 Classe s FCM ICC K-NN nebuloso m k W, U w W U w w1w1 wsws U 1cmin U 1cmáx U Scmin U Scmáx K-NN nebuloso Módulo de Classificação Módulo de Reconhecimento de Padrões Dados não classificados

Sistema ICC-KNN - Algoritmo Módulo de Classificação Primeira fase do Treinamento Passo 1. Fixar m Passo 2. Fixar cmin e cmáx Passo 3. Para cada classe s conhecida Gerar o conjunto Rs com os pontos de R pertencentes à classe s Para cada categoria c no intervalo [cmin, cmáx] Executar FCM para c e o conjunto Rs gerando Usc e Vsc Calcular a ICC para Rs e Usc Fim Definir os padrões ws da classe s como a matriz Vsc que maximiza a ICC Passo 4. Gerar o conjunto W = {w1,..., ws}

Sistema ICC-KNN - Algoritmo Segunda fase do Treinamento Passo 5. Fixar mmin e mmáx Passo 6. Fixar kmin e kmáx Para cada m do intervalo [mmin, mmáx] Para cada k do intervalo [kmin, kmáx] Executar o K-NN nebuloso para os padrões do conjunto W, gerando Umk Calcular os acertos rígidos para Umk Passo 7. Escolher o m e k que obtêm a maior taxa de acertos rígidos Passo 8. Se houver empate Se os k são diferentes Escolher o menor k Senão Escolher o menor m

Sistema ICC-KNN - Algoritmo Módulo de Reconhecimento de Padrões Passo 9. Aplicar o K-NN nebuloso com os padrões do conjunto W e os parâmetros m e k escolhidos aos dados a serem classificados

Sistema ICC-KNN - Avaliação 2000 amostras, 4 classes, 500 amostras em cada classe Classe 1 e 4 – classes côncavas Classes 2 e 3 – classes convexas com formato elíptico

Sistema ICC-KNN - Avaliação Primeira Fase de Treinamento FCM aplicado a cada classe Dados de treinamento 80% 400 amostras c = 3..7 e m = 1,25 ICC aplicada aos resultados Classes 1 e 4 4 categorias Classes 2 e 3 3 categorias

Sistema ICC-KNN - Avaliação Segunda Fase de Treinamento Execução do K-NN Nebuloso Padrões da PFT Padrões Aleatórios k = 3 a 7 vizinhos m = {1,1; 1,25; 1,5; 2}

Sistema ICC-KNN - Avaliação Conclusão: K-NN é mais estável em relação ao valor de m para os padrões da PFT

Sistema ICC-KNN - Avaliação Dados de Treinamento Classes Padrões da PFTPadrões Aleatórios Dados de Treinamento Linhas classes Colunas classificação m = 1,5 e k = 3 96,25% m = 1,1 e k = 3 79,13% (padrões aleatórios)

Sistema ICC-KNN - Avaliação Dados de Teste Módulo de Reconhecimento de padrões Execução do K-NN nebuloso nos dados de teste Pad. PFT – 94,75% Pad. Aleat – 79% Dados de Testes Classes Padrões da PFTPadrões Aleatórios

Sistema ICC-KNN - Avaliação Tempos de Execução Padrões da PFT 36,5 s PFT FCM + ICC= 15,5 s SFT 21,04 s Total 36,5 s Aleatório 23,11s

Sistema ICC-KNN - Avaliação Acerto Nebuloso grau de inclusão > 1/k

ICC-KNN x Mét. de Categorização FCM, FKCN, GG e GK Fase de Treinamento (FTr) Dados de treinamento c = 4 e m = {1,1; 1,25; 1,5; 2} Associar as categorias às classes Critério do somatório dos graus de inclusão Cálculo do somatório dos graus de inclusão dos pontos de cada classe em cada categoria Uma classe pode ser representada por mais de uma categoria

ICC-KNN x Mét. de Categorização Fase de Teste Dados de Teste Inicialização dos métodos com os centros da FTr Calcula o grau de inclusão dos pontos em cada categoria Classe representada por mais de 1 categoria Grau de inclusão = soma dos graus de inclusão dos pontos nas categorias que representam a classe

GK para m = 2 84% FCM e FKCN 66% para m = 1,1 e m = 1,25 GG-FCM 69% para m = 1,1 e 1,25 GG Aleatório 57,75% para m = 1,1 e 25% para m = 1,5 ICC-KNN KNN A. FCMFKCNGGGK R 94,75% 79% 66% 69%84% N 95,75% 83% 70,75% 69%89,5% T 36,5s 23,11s 2,91s2,59s22,66s18,14s ICC-KNN x Mét. de Categorização

FCM GG-FCM GK

Reconhecimento de Dígitos Manuscritos

Problema Dígitos manuscritos extraídos de formulários Escaneados imagens do tipo Tiff Algoritmo de Afinamento Esqueleto da imagem Extração de características Método do Polígono 122 características 4077 dígitos 3266 e 811 amostras

Aplicação do ICC-KNN PFT FCM m = 1,25 e c = SFT K-NN neb. Padrões da PFT e Aleatórios k = 3..7 e m ={1,1; 1,25; 1,5; 2}

Acertos e Tempos MétodosICC-KNNK-NN Neb. Alea. Acertos Ríg.87,8%72,4% Acertos Neb.94,53%85,63% Tempos7166 s1224,3 s Dados de Teste m = 1,25 e k = 7 87,8% 21,3% superior

ICC-KNN x Mét. De Categorização Comparação com os Mét. De Categorização FCM, FKCN, GG, GK características PCA – Principal Components Analysis Variância preservada 82,6% p(p-1)/2

Acertos e Tempos ICC-KNNK-NN A. FCMFKCNGGGK 86,7%75,22% 57%55%51%49% 93,8%85,66% 60%54%39,5%39,8% 1784 s260 s 30,38 s32,79 s108,15 s711,77 s Dados de Teste ICC-KNN 86,7% param = 1,25 e k = 6 FCM 57% para m = 1,25 52% de ganho do ICC-KNN sobre o FCM

Acertos Rígidos Pouco estável em relação à m

Conclusões EFLD Estendeu eficientemente as funcionalidades do FLD partições rígidas e nebulosas Maior velocidade ICC Eficiente e rápida Suporta alta sobreposição das classes Avalia a compacidade e a separação das classes Alto grau de acertos

Conclusões Sistema ICC-KNN Maior eficiência sobre sistemas que usam métodos de categorização Melhor classificação dos dados Facilidade de implementação Não oferece restrições ao conjunto de amostras Taxas superiores no problema de reconhecimento de dígitos manuscritos

Trabalhos Futuros ICC-KNN com outros métodos de categorização Variar a constante nebulosa na PFT Empregar redes MLP para avaliar os graus de inclusão gerados pelo ICC-KNN Avaliar as amostras em um espaço dimensional menor