A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho

Apresentações semelhantes


Apresentação em tema: "Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho"— Transcrição da apresentação:

1 Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho

2 Agrupamento (Clustering) Conjunto de Métodos usados para a construção de grupos de objetos com base nas semelhanças e diferenças entre os mesmos de tal maneira que os grupos obtidos são os mais homogêneos e bem separados possíveis. Agrupar para que? * Simplificação dos dados * Procura de agrupamentos naturais * Geração de Hipóteses * Predição com base nos grupos formados O que é um grupo? Não existe uma única definição satisfatória * Coesão interna * Isolamento externo

3 a) Grupos coesos e isolados b) Grupos isolados mas não coesos c) Grupos coesos com vários pontos intermediários d) Não existência de grupos naturais (a)(b)(c)(d)

4 a) Seleção dos indivíduos, objetos, casos, itens, OTUs b) Seleção das variáveis, descritores, características c) Construção da Tabela de Dados d) Escolha de um Índice de Proximidade e) Construção da Matriz de Proximidades f) Seleção de um Algoritmo de Formação de Grupos em função do tipo de agrupamento desejado g) Análise e Interpretação dos Resultados Principais Etapas da Formação de Agrupamentos

5 Indivíduos : conjunto dos indivíduos (população, amostra) Variáveis A Cada característica (escolhida pelo usuário ou por um especialista), pode-se associar uma ou mais variáveis: D i : Domínio da variável y i

6 As variáveis podem ser quantitativas contínuas (ex, Peso, Altura) discretas (ex, numero de antenas, número de filhos) qualitativas (ex, sexo, grau de instrução) binárias (ex, presença de asas) com escala nominal (ex, sexo (masculino, feminino)), ordinal (ex, Grau de instrução{primário, segundário, superior}) intervalar (ex, grau celsius) proporcional (ex, grau kelvin, idade)

7 Representação do Conhecimento (lista de pares atributo- valor) Y = {y 1, …, y p } : Conjunto de variáveis (descritores, atributos, …) D = {D 1, …, D p } : Conjunto dos domínios das variáveis = { 1, …, p } : Conjunto dos indivíduos (casos, objetos, observações)

8 Tabela de Dados X = (x ij ; i = 1, …, p ; j = 1, …, n) onde x ij = y i ( j ) Tipos de Tabelas quantitativas qualitativas binárias heterogêneas Exemplo:

9 Índices de Proximidade Similaridade Dissimilaridade Índice de Similaridade É uma função tal que

10 Índice de Dissimilaridade É uma função tal que

11 Exemplos de Índices de Proximidade a) Tabelas de variáveis quantitativas b) Tabelas de variáveis binárias a 10 b 1 0 xy z w

12 Outros aspectos relativos aos índices de proximidade Escala das Variáveis Correlação entre as Variáveis Descrições heterogêneas (Variáveis de diferentes tipos) Índices de proximidade entre padrões descritos por strings ou árvores Índices de proximidade dependentes do contexto Índices de proximidade conceptual

13 Tipos de espaços de classificação (ie, estrutura a priori do espaço das observações) Tipos de espaços de classificação (ie, estrutura a priori do espaço das observações) Seja um conjunto de indivíduos à agrupar Partição Uma partição de é um conjunto de subconjuntos não vazios P = (P 1,, P k ) de interseção vazia dois a dois e cuja união forma a) l {1,, k}, P l b) l,m {1,, k}, l m, P l P m = c) l P l =

14 Observações * * * * * * * P1P1 P2P2 P3P3 * * * * * * * Partição

15 Cobertura Uma cobertura de é um conjunto de subconjuntos não vazios P = (P 1,, P k ) cuja união forma a) l {1,, k}, P l b) l P l = Cobertura Uma cobertura de é um conjunto de subconjuntos não vazios P = (P 1,, P k ) cuja união forma a) l {1,, k}, P l b) l P l = * * * * * * * P1P1 P2P2 P3P3 * * * * * * *

16 * 7 *5*5 *6*6 * 4 * 2 * 1 * 3 * * * * * * * Hierarquia Seja H um conjunto de subconjuntos não vazios de. H é uma hierarquia se a) H; b), { } H c) h, h H, tem-se: h h = ou h h ou h h

17 Dendrograma

18 Piramide Seja P um conjunto de subconjuntos não vazios de de. P é uma piramide se a) P; b), { } P c) h, h P, tem-se: h h = ou h h P d) Existe uma ordem tal que todo elemento de P seja um intervalo de Piramide Seja P um conjunto de subconjuntos não vazios de de. P é uma piramide se a) P; b), { } P c) h, h P, tem-se: h h = ou h h P d) Existe uma ordem tal que todo elemento de P seja um intervalo de

19 * 2 * 1 * * 7 *5*5 *6*6 * 4

20 Métodos de Agrupamento Em Taxonomia Numerica distingue-se tres grupos de métodos Técnicas de Otimização Objetivo: obter uma partição. Número de grupos sempre fornecido pelo usuário Técnicas hierarquicas Objetivo: obter uma hierarquia (ou uma piramide) Pode-se obter uma partição cortando-se a hierarquia em um determinado nível. Técnicas de Cobertura Objetivo: obter grupos que eventualmente podem partilhar indivíduos.

21 Outros Aspectos Relativos aos Métodos de Agrupamento Métods Aglomerativos versus Métodos Divisivos Métodos Monotéticos versus Métodos Politeticos Agrupamento Hard versus Agrupamento Fuzzy Métodos Incrementais versus Métodos não Incrementais

22 Algoritmo Geral de Agrupamento Hierárquico Aglomerativo Algoritmo Geral de Agrupamento Hierárquico Aglomerativo Passo 1: Iniciar o agrupamento formado por grupos unitários Passo 2: Encontre, no agrupamento corrente, o par de grupos de dissimilaridade mínima Passo 3: Construa um novo grupo pela fusão desse par de grupos de dissimilaridade mínima Passo 4: Atualize a matriz de dissimilaridades: suprima as linhas e as colunas correspondentes aos grupos fusionados e adicione uma linha e uma coluna correspondente as dissimilaridades entre o novo grupo e os grupos antigos Passo 5: Se todos os objetos estão grupados, pare; senão vá para o passo 2

23 Exemplo E01:(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fome=Sim) E02:(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim,Fome=Sim) E03:(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fome=Não) E04:(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fome=Não) Exemplo E01:(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fome=Sim) E02:(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim,Fome=Sim) E03:(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fome=Não) E04:(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fome=Não) Passo 1: C1={E01}, C2={E02}, C3={E03}, C4={E04} Passo 2: dmin = 2 C5= C3 C4 = {E03,E04} Passo 3:

24 Exemplo Exemplo Passo 4: dmin = 3 C6= C1 C2 ={E01,E02} Passo5 Passo 6: dmin = 4 C7 = C5 C6 ={E01,E02,E03,E04} E04E03E02E01 C5 C6 C07

25 Técnicas Hierárquicas Aglomerativas ) ) Técnicas Hierárquicas Aglomerativas Single Link Complete Link Group Average Link (UPGMA) Wighted Average Link (WPGMA) Unweighted Centroid (UPGMC) Weighted Centroid (WPGMC) ou Mediana WARD

26 Algoritmo dos Centros Móveis (MétodosdePartição ) Algoritmo dos Centros Móveis (Métodos de Partição ) Passo 1: Fixe o número de grupos e escolha uma partição inicial Passo 2: Para cada grupo q encontre o centro de gravidade (vetor de médias) Passo 3: Atribua cada objeto i à classe q cujo centro de gravidade é o mais próximo Passo 4: Retornar ao passo 1 enquanto existirem modificações na composição dos grupos

27 Exemplo Exemplo y y Passo 1: k = 2 e G 1 ={1,2,3} e G 2 ={4,5,6,7} Passo2: g 1 = (1.83, 2.33) e g 2 = (4.13, 5.38) Passo3: d(w i,g 1 ) d(w i,g 2 ) GrupoG 1 G 1 G 2 G 2 G 2 G 2 G 2 Passo 4: G 1 ={1,2} e G 2 = {3,4,5,6,7} Houve modificação dos grupos? Sim. Vá para o passo 2 Etc.

28 Critérios para a obtenção de uma Partição Critérios para a obtenção de uma Partição Alguns dos principais critérios para a obtenção de uma partição baseiam-se na equação da MANOVA: T = W + B T sendo fixo, quando menor W maior será B (maior homogeneidade e maior separação entre os grupos) Minimização do traço(W) dependente da escala favorece grupos esféricos favorece a formação de grupos de mesmo cardinal Minimização do determinante de W não depende da escala não favorece grupos esféricos impõe a mesma forma aos grupos favorece a formação de grupos de mesmo cardinal

29 Agrupamento Conceptual Agrupamento Conceptual Um grupo pode ser descrito em: extensão (enumeração dos seus membros) ou em compreensão (conjunto de propriedades que definem a pertinência de um elemento à um grupo) Agrupamento não conceptual fornece: apenas descrição em extensão de cada grupo. a obtenção dos grupos leva em conta apenas as descrições dos individuos. Agrupamento conceptual fornece: também a descrição em compreensão (intencional) de cada grupo. formação dos grupos levam em consideração também a qualidade da descrição em compreensão de cada grupo

30 Agrupamento Conceitual funciona em 2 fases: Agrupamento Conceitual funciona em 2 fases: agregação: encontrar grupos de um conjunto de indivíduos segundo uma estrutura considerada e um ou mais critérios fixados caracterização: determinar uma descrição (conceito) de cada um dos grupos obtidos na fase de agregação Em aprendizagem de máquina caracterização = aprendizagem à partir de exemplos As 2 fases podem ser: simultâneas seqüenciais (na maioria dos casos)

31 Geração de k Agrupamentos em competição Iniciar com (Conjunto de Individuos) Agrupamento 1 Agrupamento k {C 11, …, C 1m1 } {C k1, …, C kmk } Iniciar com um Agrupamento Geração de descrições conceituais em competição par o Agrupamento {D1(C1),... D1(C1m1)... {Dn(C1),... Dn(C1m1)

32 Tipos de abordagens em Agrupamento Conceitual: 3 dimensões Tipos de abordagens em Agrupamento Conceitual: 3 dimensões Estrutura do espaço de observação: partição, hierarquia, cobertura Algoritmo: incremental (Formação de Conceitos) ou batch (Descoberta de Conceitos) Linguagem de descrição (representação do conhecimento): Logica de Atributos (ordem 0) Logica de Predicados de 1a Ordem Logica de predicados de 2a Ordem

33 Caracterização (descrição) dos grupos em lógica 0 Seja um conjunto de observações descritas por p atributos (variáveis) y 1, …, y p cujos dominios são D 1, …, D p. Um objeto simbólico a = [y 1 A 1 ] … [y 1 A p ], onde A i D i, i {1, …, p}, expressa a condição atributo y 1 toma seus valores em A 1 e … e atributo y p toma os seus valores em A p Pode-se associar à a uma função f: {1, 0} tal que f a ( ) = 1 y i ( ) A i, i {1, …, p}, A extensão de a é definida como ext (a) = { / f a ( )=1}

34 Exemplo variaveisDominios Cor Tamanh o Forma {azul, verm, verde} {grande, medio, pequeno} {esfera, bloco, triangulo} Considere o seguinte objeto simbólico a = [Cor {az,vm}] [Tam {g}] [Forma {e,b}] a é uma generalização de qualquer conjunto de objetos cuja cor é azul ou vermelho, cujo tamanho é grande e cuja forma é esfera ou bloco

35 Da mesma forma, esta na extensão de a (é membro de a) se f a ( )=1 isto é, se sua cor é azul ou vermelha, seu tamanho é grande e sua forma é esfera ou bloco Dizemos que um objeto simbólico a é uma generalização de um conjunto de indivíduos se, f a ( )=1 Sejam dois objetos simbólicos a = i [y i A i ] e b = i [y i B i ]. Diz-se que b < a se B i A i i. Nesse caso diz-se que a é mais geral do que b e b é menos geral do que a Diz-se que um objeto simbólico a é maximamente especifico de um conjunto de indivíduos se: a é uma generalização de e não existe um outro objeto simbólico b generalização de tal que b < a

36 Sejam os individuos 1 = [Cor {az}] [Tam {g}] [Forma {e}] 2 = [Cor {az}] [Tam {m}] [Forma {e}] 3 = [Cor {az}] [Tam {p}] [Forma {b}] Três possíveis generalizações desses conjuntos por um objeto simbólico a = [Cor {az}] [Tam {g,m,p}] [Forma {e,b}] b = [Cor {az}] [Tam {g,m,p}] [Forma {e,b,t}] c = [Cor {az,vm,vd}] [Tam {g,m,p}] [Forma {e,b,t}] c é mais geral do que b que é mais geral do que a a é maximamente especifico do conjunto de indivíduos acima.

37 Um objeto simbólico a é uma descrição discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de individuos se: a é uma generalização de 1 e não existe 2 tal que f a ( )=1 Um objeto simbólico a é uma descrição maximamente discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de indivíduos se: a é uma descrição discriminante de 1 em relação à 2 e não existe um outro objeto b i) que seja uma descrição discriminante de 1 em relação à 2 e ii) que seja mais geral do que a (b > a)

38 Exemplo Grupo 1 (G1) 1 = [Cor {az}] [Tam {l}] [Forma {e}] Grupo 2 (G2) 1 = [Cor {vm}] [Tam {l}] [Forma {b}] 1 = [Cor {vm}] [Tam {l}] [Forma {t}] Descrições maximamente discriminantes de G1 em relação à G2 a = [Cor {az,vd}] [Tam {l,m,p}] [Forma {e,b,t}] b = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {e}] Descrições maximamente discriminantes de G2 em relação à G1 c = [Cor {vm,vd}] [Tam {l,m,p}] [Forma {e,b,t}] d = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {b,t}]

39 Atribuição de descrições maximamente discriminantes aos Grupos 1 e 2 Descrições disjuntas Descrições não disjuntas Grupo1Grupo 2 b = … [Forma {e}]d = … [Forma {b,t}] a = [Cor {az,vd}] … c = [Cor {vm,vd}] … a = [Cor {az,vd}] … d = … [Forma {b,t}] b = … [Forma {e}]c = [Cor {vm,vd}] … Em geral conjuntos disjuntos da mesma variável implicarão em descrições maximamente discriminantes de um grupo em relação à outros grupos

40 Algoritmo CLUSTER/2 * Descoberta de Conceitos (em batch) * Dois módulos Partição Hieraráquico Exemplo

41 Módulo partição * Formando Agrupamentos inicias Semente 1 Semente 2Semente k D 11 D12D12 D 1n1 D21D21 D21D21 D 2n2 …… Encontrar descrições maximamente discriminantes Atribuir os objetos à cada descrição D ij obtendo as classes C ij C 11 C 12 … C 1n1 C 21 … C 2n2

42 seleção de k(2) sementes aleatoriamente encontrar descrições maximamente discriminantes de cada um dos k (2) grupos à partir das sementes a 1 =[Cobertura do Corpo={pelos, penas, pele úmida}] a 2 = [Cavidades do Coração = {3, 4}] a 3 = [Temperatura do Corpo= {regulada}] b 1 =[Cobertura do Corpo={penas, pele seca, pele úmida}] b 2 = [Cavidades do Coração = {3, 4 imperfeitas}] b 3 = [Temperatura do Corpo= {não regulada}] Semente 1Semente 2

43 Atribuição dos objetos à cada descrição D ij obtendo as classes C ij a 2 = [Cavidades do Coração = {3, 4}] b 2 = [Cavidades do Coração = {3, 4 imperfeitas}] Semente 1Semente 2 G 1 =Ext(a 2 )={Mamífero, Pássaro, Anfíbio-1, Anfíbio-2} G 2 =Ext(a 2 )={Réptil, Anfíbio-1, Anfíbio-2} Obtendo descrições dos grupos Tornando os grupos disjuntos G1G1 G2G2 G 1 ={Mamífero, Pássaro}G 2 ={Réptil} Lista de exceções {Anfíbio-1, Anfíbio-2}

44 Obtendo descrições maximamente específicas de cada grupo a 2 = [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}] G 1 = {Mamífero, Pássaro}G 2 = {Réptil} b 2 = [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

45 a 1 = [Cobertura do Corpo = {pelos, penas,pele úmida}] [Cavidades do Coração = {3,4}] [Temperatura do Corpo = {regulada,não regulada}] [Fertilização = {interna}] Agrupamento A (G 1 + Anfíbio-1) C1C1 C2C2 Agrupamento B (G 2 + Anfíbio-1) b 1 = [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}] a 2 = [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}] b 2 = [Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}] Inserindo o primeiro objetos da lista de exceções nos grupos e obtendo descrições maximamente específicas de cada grupo

46 Avaliação dos Agrupamentos obtidos em função da qualidade das descrições Critério: a) para cada par de descrições de agrupamentos diferentes calcula-se o número de variáveis cuja interseção é vazia; b) faz-se a soma para cada par; o agrupamento escolhido é aquele cuja soma é máxima o Agrupamento B é selecionado O segundo objeto da lista de exceções é inserido no agrupamento B um processo semelhante ao descrito para a incorporação de anfíbio-1 é relizado O processo descrito deve ser realizado para todas as 9 combinações de descrições maximamente discriminantes Das 9 possibilidades, escolhe-se a melhor partição em dois grupos Em seguida, novas sementes são selecionadas e o processo continua

47 * O módulo hierárquico construi uma árvore de classificação * Nessa árvore os arcos representam as descrições e nós a extensão de cada grupo Módulo Hierarquico [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}] [Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna, externa}] {mamífero, pássaro, réptil, anfíbio-1, anfíbio-2} {mamífero, pássaro} {réptil,anfíbio-1,anfíbio-2}

48 * Classificação politética * Construção de árvore de cima para baixo * O módulo hierárquico usa o módulo partição como uma subrotina * o módulo partição fornece partições de vários tamanhos (2, 3 e 4) e seleciona a melhor * O módulo hierárquico construi um nível da árvore de cada vez * A construção da árvore finaliza quando a qualidade da partição obtida no nível seguinte não é melhorada

49 IFCS BCS SFC GfKl JCS Congressos Bianuais da IFCS Congressos anuais das Associações Nacionais CSNA

50 Referências * Fisher, D.H. and Langley, P. W., Methods of Conceptual Clustering and their relation to Numerical Taxonomy, Technical Report 85-26, University of California, Irvine, 1985 * Fisher, D. H., Knowledg Acquisition via Incremental Conceptual Clustering, Machine Leaning, Vol2, No. 2, pp , 1987 * Guenoche, ª, Generalization and Conceptual Classification: Indices and Algorithms, Proceedings of the Conference on Data Analysis, Learning symbolic and Numeric Knowledg, pp , INRIA, Antibes, 1989 * Kodratoff, Y. and Ganascia, J., Improving the Generalization Step in Learning, Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp , 1983.

51 * Lebowitz, M., Experiments with Incremental Concept Formulation: * UNIMEN, Machine Learning, Vol. 2, No. 2, pp , * Michalski, R. S., Stepp, R., and Diday, E., "A Recent Advance in Data Analysis: Clustering Objects into Classes Characterized by Conjunctive Concepts," Chapter in the book Progress in Pattern Recognition, Vol. 1, L. Kanal and A. Rosenfeld (Editors), North-Holland, pp , 1981 * Michalski, R. S. and Stepp, R., "Learning from Observation: Conceptual Clustering," Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp , * Michalski, R.S. and Kaufman, K.A., "Data Mining and Knowledge Discovery: A Review of Issues and a Multistrategy Approach," Reports of the Machine Learning and Inference Laboratory, MLI 97-2, George Mason University, Fairfax, VA, 1997.

52 Formação de Conceitos Formação de Conceitos Dado: um conjunto de instâncias e as suas descrições respectivas (apresentados seqüencialmente ou não) Encontrar: agrupamentos que organizem essas instâncias em grupos Encontrar: uma definição intencional de cada grupo Encontrar: uma organização hierárquica desses grupos Com que objetivo: para uma melhor compreensão do mundo e para prever o comportamento do mesmo no futuro

53 Características dos Métodos para Formação de Conceitos Características dos Métodos para Formação de Conceitos Representação do conhecimento em uma hierarquia conceptual cada nó representa um conceito os nós são ordenados parcialmente segundo a generalidade cada nó dispõe de uma descrição intencional do conceito Classificação Top-dow das instâncias Natureza não supervisionada das tarefas de aprendizagem Integração da aprendizagem e da performance a componente performance (classificar uma instância) dirige a aprendizagem (modificação da hierarquia de conceitos) Aprendizagem como uma escalada incremental de colinas


Carregar ppt "Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho"

Apresentações semelhantes


Anúncios Google