Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual)

Slides:



Advertisements
Apresentações semelhantes
ANÁLISE MULTIVARIADA DE DADOS
Advertisements

Algoritmos de Caminho Mínimo em Grafos
Algoritmos em Grafos.
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Fluxo em Redes Prof. Ricardo R. Santos.
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
Intervalos de Confiança
ESTATÍSTICA PARA QUALIDADE
INTELIGÊNGIA COMPUTACIONAL
ANÁLISE DISCRIMINANTE
Lógica Fuzzy Aplicada a Sistemas de Diagnóstico
A Teoria da Medida Profª. Ms. Juliany Gonçalves Guimarães
A Preparação dos Dados Mineração de Dados.
ANÁLISE DE AGRUPAMENTO
Dárlinton B. Feres Carvalho
Reconhecimento de Padrões Segmentação
. Capítulo 1 Introdução à Estatística Capítulo 1 Introdução à Estatística Prof. Paulo Renato de Morais ESTATÍSTICA APLICADA.
Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual)
Introdução à Classificação Conceitual Prof. Francisco de A. T. de Carvalho
O Processo de Preparação de Dados
Métodos Quantitativos
INF 1771 – Inteligência Artificial
Estatística e Probabilidade
Estatística Descritiva
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
K-Means / Clustering.
Avaliação da Viabilidade Econômico-Financeira em Projetos
1ª. AULA PRÁTICA.
ESTATÍSTICA DESCRITIVA
DISTRIBUIÇÕES AMOSTRAIS
O problema do emparelhamento máximo
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Introdução à Estatística
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Análise de padrões de uso em grades computacionais oportunistas
Aula 8. Classificação Não Supervisonada por Regiões
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Estatística Geral (Elementos de Probabilidade)
Recuperação Inteligente de Informação
Análise de Dados Ciências Contábeis.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Regressão e Previsão Numérica.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
Algoritmos em Grafos Celso C. Ribeiro Caroline T. Rocha.
Luana Bezerra Batista Redes Neurais Luana Bezerra Batista
Definição de Estatística
Professor: WALDEMAR SANTA CRUZ OLIVEIRA JR CONCEITOS BÁSICOS UNIVERSIDADE FEDERAL DE PERNABUCO - UFPE Curso: TURISMO Disciplina: ESTATÍSTICA BÁSICA ET-229.
Projeto de Banco de Dados
UNIDADE 2 – ZEROS DAS FUNÇÕES REAIS
III - Amostragem Prof. Herondino.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
EXCEL Aula 5. Noções de variáveis Variável Quantitativa: é aquela de natureza numérica, ou seja, apresenta como possíveis realizações (valores) números.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Análise de Componentes Principais
INTRODUÇÃO à ESTATÍSTICA Sérgio Mélega.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 12 Aprendizado não Supervisionado Mapas auto-organizáveis Max Pereira.
Transcrição da apresentação:

Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Agrupamento (Clustering) Métodos usados para a construção de grupos de objetos com base nas semelhanças e diferenças entre os mesmos de tal maneira que os grupos obtidos são os mais homogêneos e bem separados possíveis. Duas grandes classes de problemas em classificação: classificação supervisionada  classificação supervisionada A classificação não supervisionada se propõe a encontrar classes homogêneas a partir de um conjunto de indivíduos Objetivo: os indivíduos semelhantes devem pertencer a mesma classe É um objetivo intuitivo mas não é uma definição precisa da noção de classe

Agrupamento (Clustering) Agrupar para que? Existe classes “naturais” e o desafio é encontra-las Deseja-se construir as classes segundo estruturas classificatórias (impostas) Encontrar classes úteis para o usuário Simplificação dos dados Geração de Hipóteses Predição com base nos grupos formados O que é um grupo? Não existe uma única definição satisfatória Coesão interna Isolamento externo

(a) (b) (c) (d) a) Grupos coesos e isolados b) Grupos isolados mas não coesos c) Grupos coesos com vários pontos intermediários d) Não existência de grupos “naturais”

Principais Etapas da Formação de Agrupamentos a) aquisição dos dados 1) Seleção das observações (indivíduos, objetos, casos, itens) 2) Seleção das variáveis (caracteres, descritores) e das correspondentes escalas 3) Construção da Tabela de Dados b) Pré-processamento dos dados 1) Mudança de escala 2) Normalização 3) Extração de caracteres c) Construção da Tabela de Dados d) Cálculo da Proximidade 1) Escolha de um Índice de Proximidade 2) Construção da Matriz de Proximidades e) Seleção de um Algoritmo de Formação de Grupos em função do tipo de agrupamento desejado f) Análise e Interpretação dos Resultados

Indivíduo Variáveis : conjunto das indivíduos (população, amostra)   : indivíduo (especimen) ou grupo de indivíduos (espécie) Variáveis A cada característica (escolhida pelo usuário ou por um especialista), pode-se associar uma ou mais variáveis: Di: Domínio da variável yi

As variáveis podem ser quantitativas contínuas (ex, Peso, Altura) discretas (ex, numero de antenas, número de filhos) qualitativas (ex, sexo, grau de instrução) binárias (ex, presença de asas) com escala nominal (ex, sexo (masculino, feminino)), ordinal (ex, Grau de instrução{primário, segundário, superior}) intervalar (ex, grau celsius) proporcional (ex, grau kelvin, idade)

Representação do Conhecimento (lista de pares atributo-valor) Y = {Y1, …, Yp} : Conjunto de variáveis (descritores, atributos, …) D = {D1, …, Dp} : Conjunto dos domínios das variáveis  = {1, …, p} : Conjunto das OTUs (indivíduos, casos, objetos, observações)

Espaço de descrição elemento de  Yj Y Yp Y1 W D + valor em D + + + +

Tabela de Dados N objetos ou individuos ={1,…, i ,…, N } p descritores Y={Y1,…, Yj,…, Yp} Y1 … Yj Yp w1 wi wN A cada objeto i de  é associado um vetor de descrição representando as p medidas A cada variável ou parametro Yj é associado um vetor Que representa o conjunto de valores observados de  sobre Yj

Tipos de Tabelas quantitativas qualitativas binárias heterogêneas Exemplo:

Índices de Proximidade Similaridade Dissimilaridade Índice de Similaridade É uma função tal que Quanto mais próximo dois indivíduos mais elevado é o valor da medida de similaridade entre eles

Índice de Dissimilaridade É uma função tal que Quanto mais próximos dois indivíduos menor é o valor da medida de dissimilaridade entre eles

a 1 b x y z w Exemplos de Índices de Proximidade a) Tabelas de variáveis quantitativas b) Tabelas de variáveis binárias a 1 b x y z w

Outros aspectos relativos aos índices de proximidade Escala das Variáveis Correlação entre as Variáveis Descrições heterogêneas (Variáveis de diferentes tipos) Índices de proximidade entre padrões descritos por strings ou árvores Índices de proximidade dependentes do contexto Índices de proximidade conceptual

Estruturas classificatórias Cobertura Partição

Estruturas Classificatórias Hierarquia Piramide

Métodos de Agrupamento Em Taxinomia Numérica distingue-se três grupos de métodos Técnicas de Otimização Objetivo: obter uma partição. Número de grupos fornecido pelo usuário Técnicas hierárquicas Objetivo: obter uma hierarquia (ou uma pirâmide) Pode-se obter uma partição “cortando-se” a hierarquia em um determinado nível. Técnicas de Cobertura Objetivo: obter grupos que eventualmente podem partilhar indivíduos.

Outros Aspectos Relativos aos Métodos de Agrupamento Métodos Aglomerativos versus Métodos Divisivos Métodos Monotéticos versus Métodos Politeticos Agrupamento Hard versus Agrupamento Fuzzy Métodos Incrementais versus Métodos não Incrementais Métodos Paramétricos versus Métodos não Paramétricos Métodos Geométricos versus Métodos não Geométricos

Classificação Hierarquica Diagrama de Venn sobre os dados bi-dimensionais Dendograma

Métodos Hierárquicos Parte-se de uma tabela de dados e calcula-se uma distância entre os individuos de  Os métodos ascendentes hierárquicos tem por objetivo a construção de uma sequencia de partições encaixadas chamada hierarquia. A representação gráfica dessas hierarquias é realisada por uma arvore hierarquica ou dendrograma.

Hierarquia com índice Hierarquia com indice (H,f) Hierarquia H

Índices de agregação entre as classes ligação minima ligação maxima Aumentação da inercia ou indice de WARD gA é o centro de gravidade da classe A m corresponde a ponderação das classes

Relação entre f e D f é um indice sobre a hierarquia H, D é um indice de agregação entre classes Para os indices D usuais (H,f) é uma hierarquia com indice (não há inversão) Senão, pode-se utilisar Nesse caso (H,f) é sempre uma hierarquia com indice

Técnicas de Hierárquicas Algoritmo Geral de Agrupamento Hierárquico Aglomerativo Passo 1: Iniciar o agrupamento formado por grupos unitários Passo 2: Encontre, no agrupamento corrente, o par de grupos de dissimilaridade mínima Passo 3: Construa um novo grupo pela fusão desse par de grupos de dissimilaridade mínima Passo 4: Atualize a matriz de dissimilaridades: suprima as linhas e as colunas correspondentes aos grupos fusionados e adicione uma linha e uma coluna correspondente as dissimilaridades entre o novo grupo e os grupos antigos Passo 5: Se todos os objetos estão grupados, pare; senão vá para o passo 2

Exemplo E01:(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fome=Sim) E02:(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim,Fome=Sim) E03:(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fome=Não) E04:(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fome=Não) Passo 1: C1={E01}, C2={E02}, C3={E03}, C4={E04} Passo 2: dmin = 2  C5= C3  C4 = {E03,E04} Passo 3:

Exemplo (CONT.) Passo 4: dmin = 3  C6= C1  C2 ={E01,E02} Passo5 Passo 6: dmin = 4  C7 = C5  C6 ={E01,E02,E03,E04} C07 C6 C5 E01 E02 E03 E04

Métodos de Partição A estrutura classificatória deseja é a partição. Definindo-se uma função de homogeneidade ou um critério de qualidade sobre uma partição, o problema de classificação torna-se um problema perfeitamente definido em otimização discreta. Encontrar, entre o conjunto de todas as partições possíveis, uma partição que otimize um critério definido à priori.  é finito e, portanto, existe um conjunto finito de partições. Esse problema é sempre soluvel por enumeração completa. Na pratica isso é irrealisável pois temos, com um conjunto de N objetos em K classes, aproximadamente soluções possiveis.

Problema de Otimização Seja um critério U, definido de , onde é o conjunto de todas as partições em K classes não vazias . O problema de otimização se exprime sob a forma:

Otimização iterativa Parte-se de uma solução realizável Escolha Na etapa t+1, tem-se uma solução realizável procura-se uma solução realizável Escolha que verifica O algoritmo para assim que

Algoritmo de vizinhança Uma das estattégias mais utilisadas para contruir a função g é: associar a toda solução real’zável Q um conjunto finito de soluções realisáveis V(Q), chamada vizinhança de Q, Depois selecionar a solução ótima segundo esse critério U nessa vizinhança (solução localmente ótima). Por exemplo pode-se tomar como vizinhança de Q todas as partições obtidas a partir da partição Q mudando um só indivíduo de classe Dois exemplos bem conhecidos desse tipo de algoritmo são o algoritmo das transferências e o algoritmo k-means

Algoritmo das transferências O critério U associado à partição Q é a soma das inércias de cada uma das classes, isto é, a inércia intra-classes: d é a distância euclidiana, nj representa o numero de elementos e wj é o centro de gravidade da classe Qj. Se o indivíduo ei é afetado em uma classe Ql, diferente da sua classe de afetação atual tem-se:

Algoritmo (a) Initialisação No início, tem-se uma partição Q. O número de elementos nj e o centro de gravidade wj são calculados para cada uma das classes. (b) Etapa Iterativa test0 Para todo i de 1 à N faça a classe de i é s determinar l tal que test1 (c) Se test  0 então vá para (b)

Algoritmo k-means Com um algoritmo de vizinhança, não é necessário, para obter a diminuição do critério, de tomar sistematicamente a melhor solução, basta tomar nessa vizinhança uma solução melhor do que a solução em curso. No algoritmo k-means a etapa (b) torna-se: A diminuição do criterio U da inércia intra-classe está assegurada graças ao teorema de Huygens É impossivel demonstrar que uma das estratégias fornece sistematicamente uma melhor solução.

Afetação de um novo indivíduo Uma função de afetação f de D em C={1,..,K}define uma partição do espaço de representação com Na convergência desses algoritmos, a função f é construida da seguinte maneira :

Algoritmos que possuem duas etapas de optimisação A primeira etapa é a etapa de représentation, ela consiste em definir um representante ou prototipo para cada uma das classes. A segunda etapa é a etapa de afetação, ela modifica a classe de fetação de cada um dos indivíduos. Obsevações: A atualisação será realizada após a apresentação de todos os indivíduos de . A ordem de apresentação dos indivíduos não tem mais nenhuma influência sobre os resultados.

Algoritmo dos centros móveis (a) initialisação No início tem-se uma partição Q ou um subconjunto de K elementos de . (b) Etapa de afetação test0 Para todo i de 1 a N faça determinar l tal que test1 (c) Etapa de representação Para todo j de 1 a K faça calcular o centro de gravidade e o efetivo da nova classe Qj (d) se test  0 vá para (b)

Exemplo y1 1.0 1.5 3.0 5.0 3.5 4.5 3.5 y2 1.0 2.0 4.0 7.0 5.0 5.0 4.5 Passo 1: k = 2 e G1={1,2,3} e G2={4,5,6,7} Passo2: g1 = (1.83, 2.33) e g2 = (4.13, 5.38) Passo3: d(wi,g1) 1.57 0.47 2.04 5.64 3.15 3.78 2.74 d(wi,g2) 5.38 4.28 1.78 1.83 0.74 0.53 1.08 Grupo G1 G1 G2 G2 G2 G2 G2 Passo 4: G1={1,2} e G2 = {3,4,5,6,7} Houve modificação dos grupos? Sim. Vá para o passo 2 Etc.

Métodos Paramétricos Abordagem probabilista Os dados D são uma mistura de k distribuições normais uni-variadas de mesma variância 2 Cada observação é descrita pelo vetor (xi, zi1, …, zik), onde a) xi é o valor da i-ésima observação; b) zij = 1 se a observação é proveniente do j-ésimo grupo e zij = 0, senão Diz-se também que xi é a variável observada e zi1, …, zik são as variáveis ocultas Trata-se de estimar (aprender) as médias de cada uma das k distribuições normais: a) encontrar a hipótese h = < 1,…, k > que maximiza a verossimilhança dessa médias, isto é, encontrar a hipótese h = < 1… k > que maximiza p(D/h)

Métodos Paramétricos O Algoritmo EM (Expectation, Maximisation) Inicialização: h = < 1,…, k >, onde 1,…, k são valores iniciais arbitrários Etapa 1: Calcular o valor esperado E[zij] de cada variável oculta zij, supondo verdadeira a hipótese atual h = < 1,…, k > E[zij] é a probabilidade de que a observação xi tenha sido gerada pela j-ésima distribuição normal

O Algoritmo EM (Expectation, Maximisation) Etapa 2: Calcular a nova hipótese h’ = < ’1,…, ’k > de máxima verossimilhança, supondo que os valores de cada variável oculta zij é o seu valor esperado E[zij] calculado no Passo 1. Substituir a hipótese h = < 1,…, k > pela hipótese h’ = < ’1,…, ’k > e recomeçar. Nesse caso, a hipótese de máxima verossimilhança é dada por: Esse algoritmo converge para uma hipótese h que representa um máximo de verossimilhança local

Agrupamento Conceptual Um grupo pode ser descrito em: Agrupamento Conceptual Um grupo pode ser descrito em: extensão (enumeração dos seus membros) ou em compreensão (conjunto de propriedades que definem a pertinência de um elemento à um grupo) Agrupamento não conceptual fornece: apenas descrição em extensão de cada grupo. a obtenção dos grupos leva em conta apenas as descrições dos indivíduos. Agrupamento conceptual fornece: também a descrição em compreensão (intencional) de cada grupo. formação dos grupos levam em consideração também a qualidade da descrição em compreensão de cada grupo

Agrupamento Conceitual funciona em 2 fases: agregação: encontrar grupos de um conjunto de indivíduos segundo uma estrutura considerada e um ou mais critérios fixados caracterização: determinar uma descrição (conceito) de cada um dos grupos obtidos na fase de agregação Em aprendizagem de máquina caracterização = aprendizagem à partir de exemplos As 2 fases podem ser: simultâneas seqüenciais (na maioria dos casos)

Geração de k Agrupamentos em competição Iniciar com  (Conjunto de Individuos) Geração de k Agrupamentos em competição Agrupamento 1 ••• Agrupamento k {C11, …, C1m1} {Ck1, …, Ckmk} Iniciar com um Agrupamento Geração de descrições conceituais em competição par o Agrupamento ••• {D1(C1), ... D1(C1m1) ... {Dn(C1), ... Dn(C1m1)

Tipos de abordagens em Agrupamento Conceitual: 3 dimensões Estrutura do espaço de observação: partição, hierarquia, cobertura Algoritmo: incremental (Formação de Conceitos) ou batch (Descoberta de Conceitos) Linguagem de descrição (representação do conhecimento): Lógica de Atributos (ordem 0) Lógica de Predicados de 1a Ordem Lógica de predicados de 2a Ordem

Caracterização (descrição) dos grupos em lógica 0 Seja  um conjunto de observações descritas por p atributos (variáveis) y1, …, yp cujos domínios são D1, …, Dp. Um objeto simbólico a = [y1  A1]  …  [y1  Ap], onde Ai  Di, i  {1, …, p}, expressa a condição “atributo y1 toma seus valores em A1 e … e atributo yp toma os seus valores em Ap” Pode-se associar a a uma função fa: {1, 0} tal que fa() = 1  yi () Ai, i  {1, …, p},   A extensão de a é definida como ext (a) = {  / fa()=1}

Exemplo variáveis Domínios {azul, vermelho, verde} Cor Tamanho {grande, médio, pequeno} Forma {esfera, bloco, triângulo} Considere o seguinte objeto simbólico a = [Cor  {az,vm}] [Tam {g}] [Forma {e,b}] a é uma generalização de qualquer conjunto de objetos cuja cor é azul ou vermelho, cujo tamanho é grande e cuja forma é esfera ou bloco

  esta na extensão de a (é membro de a)se fa()=1 isto é, se sua cor é azul ou vermelha, seu tamanho é grande e sua forma é esfera ou bloco Dizemos que um objeto simbólico a é uma generalização de um conjunto de indivíduos  se  , fa()=1 Sejam dois objetos simbólicos a = i [yi  Ai] e b = i [yi  Bi]. Diz-se que b < a se Bi  Ai i. Nesse caso diz-se que a é mais geral do que b e b é menos geral do que a Diz-se que um objeto simbólico a é maximamente especifico de um conjunto de indivíduos  se: a é uma generalização de  e não existe um outro objeto simbólico b generalização de  tal que b < a

Sejam os individuos 1 = [Cor  {az}] [Tam {g}] [Forma {e}] 2 = [Cor  {az}] [Tam {m}] [Forma {e}] 3 = [Cor  {az}] [Tam {p}] [Forma {b}] Três possíveis generalizações desses conjuntos por um objeto simbólico a = [Cor  {az}] [Tam {g,m,p}] [Forma {e,b}] b = [Cor  {az}] [Tam {g,m,p}] [Forma {e,b,t}] c = [Cor  {az,vm,vd}] [Tam {g,m,p}] [Forma {e,b,t}] c é mais geral do que b que é mais geral do que a a é maximamente especifico do conjunto de indivíduos acima.

Um objeto simbólico a é uma descrição discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de indivíduos se: a é uma generalização de 1 e não existe  2 tal que fa()=1 Um objeto simbólico a é uma descrição maximamente discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de indivíduos se: a é uma descrição discriminante de 1 em relação à 2 e não existe um outro objeto b i) que seja uma descrição discriminante de 1 em relação à 2 e ii) que seja mais geral do que a (b > a)

Exemplo Grupo 1 (G1) 1 = [Cor  {az}] [Tam {l}] [Forma {e}] Grupo 2 (G2) 1 = [Cor  {vm}] [Tam {l}] [Forma {b}] 1 = [Cor  {vm}] [Tam {l}] [Forma {t}] Descrições maximamente discriminantes de G1 em relação à G2 a = [Cor  {az,vd}] [Tam  {l,m,p}] [Forma  {e,b,t}] b = [Cor  {az,vm,vd}] [Tam {l,m,p}] [Forma  {e}] Descrições maximamente discriminantes de G2 em relação à G1 c = [Cor  {vm,vd}] [Tam  {l,m,p}] [Forma  {e,b,t}] d = [Cor  {az,vm,vd}] [Tam  {l,m,p}] [Forma  {b,t}]

Atribuição de descrições maximamente discriminantes aos Grupos 1 e 2 disjuntas b = …[Forma {e}] d = …[Forma {b,t}] Descrições não disjuntas a = [Cor  {az,vd}] … c = [Cor  {vm,vd}] … a = [Cor  {az,vd}] … d = …[Forma {b,t}] b = …[Forma {e}] c = [Cor  {vm,vd}] … Em geral conjuntos disjuntos da mesma variável implicarão em descrições maximamente discriminantes de um grupo em relação à outros grupos

Algoritmo CLUSTER/2 Descoberta de Conceitos (em batch) Dois módulos Partição Hieraráquico Exemplo

Módulo partição Formando Agrupamentos inicias Semente 1  Semente 2 Semente k Encontrar descrições maximamente discriminantes  D11 D12 D21 … D1n1 D21 … D2n2  Atribuir os objetos à cada descrição Dij obtendo as classes Cij … C12 C1n1 C21 … C11 C21 C2n2

seleção de k(2) sementes aleatoriamente encontrar descrições maximamente discriminantes de cada um dos k (2) grupos à partir das sementes Semente 1 Semente 2 a1=[Cobertura do Corpo={pelos, penas, pele úmida}] b1=[Cobertura do Corpo={penas, pele seca, pele úmida}] a2= [Cavidades do Coração = {3, 4}] b2= [Cavidades do Coração = {3, 4 imperfeitas}] b3= [Temperatura do Corpo= {não regulada}] a3= [Temperatura do Corpo= {regulada}]

Atribuição dos objetos à cada descrição Dij obtendo as classes Cij Semente 1 Semente 2 a2= [Cavidades do Coração = {3, 4}] b2= [Cavidades do Coração = {3, 4 imperfeitas}] G1=Ext(a2)={Mamífero, Pássaro, Anfíbio-1, Anfíbio-2} G2=Ext(a2)={Réptil, Anfíbio-1, Anfíbio-2} Obtendo descrições dos grupos Tornando os grupos disjuntos G2 G1 Lista de exceções {Anfíbio-1, Anfíbio-2} G1={Mamífero, Pássaro} G2={Réptil}

Obtendo descrições maximamente específicas de cada grupo G1 = {Mamífero, Pássaro} G2 = {Réptil} a2= [Cobertura do Corpo = {pelos, penas}]  [Cavidades do Coração = {4}]  [Temperatura do Corpo = {regulada}]  [Fertilização = {interna}] b2= [Cobertura do Corpo = {pele seca}]  [Cavidades do Coração = {4 imperfeitas}]  [Temperatura do Corpo = {não regulada}]  [Fertilização = {interna}]

Inserindo o primeiro objetos da lista de exceções nos grupos e obtendo descrições maximamente específicas de cada grupo a1= [Cobertura do Corpo = {pelos, penas,pele úmida}]  [Cavidades do Coração = {3,4}]  [Temperatura do Corpo = {regulada,não regulada}]  [Fertilização = {interna}] Agrupamento A (G1 + Anfíbio-1) C1 C2 Agrupamento B (G2 + Anfíbio-1) b1= [Cobertura do Corpo = {pele seca}]  [Cavidades do Coração = {4 imperfeitas}]  [Temperatura do Corpo = {não regulada}]  [Fertilização = {interna}] a2= [Cobertura do Corpo = {pelos, penas}]  [Cavidades do Coração = {4}]  [Temperatura do Corpo = {regulada}]  [Fertilização = {interna}] b2= [Cobertura do Corpo = {pele úmida, pele seca}]  [Cavidades do Coração = {3,4 imperfeitas}]  [Temperatura do Corpo = {não regulada}]  [Fertilização = {interna}]

Avaliação dos Agrupamentos obtidos em função da qualidade das descrições Critério: a) para cada par de descrições de agrupamentos diferentes calcula-se o número de variáveis cuja interseção é vazia; b) faz-se a soma para cada par; o agrupamento escolhido é aquele cuja soma é máxima  o Agrupamento B é selecionado O segundo objeto da lista de exceções é inserido no agrupamento B um processo semelhante ao descrito para a incorporação de anfíbio-1 é realizado O processo descrito deve ser realizado para todas as 9 combinações de descrições maximamente discriminantes Das 9 possibilidades, escolhe-se a melhor partição em dois grupos Em seguida, novas sementes são selecionadas e o processo continua

Módulo Hierarquico O módulo hierárquico construi uma árvore de classificação Nessa árvore os arcos representam as descrições e nós a extensão de cada grupo {mamífero, pássaro, réptil, anfíbio-1, anfíbio-2} [Cobertura do Corpo = {pelos, penas}]  [Cavidades do Coração = {4}]  [Temperatura do Corpo = {regulada}]  [Fertilização = {interna}] [Cobertura do Corpo = {pele úmida, pele seca}]  [Cavidades do Coração = {3,4 imperfeitas}]  [Temperatura do Corpo = {não regulada}]  [Fertilização = {interna, externa}] {mamífero, pássaro} {réptil,anfíbio-1,anfíbio-2}

Classificação politética Construção de árvore de cima para baixo O módulo hierárquico usa o módulo partição como uma subrotina o módulo partição fornece partições de vários tamanhos (2, 3 e 4) e seleciona a melhor O módulo hierárquico construí um nível da árvore de cada vez A construção da árvore finaliza quando a qualidade da partição obtida no nível seguinte não é melhorada

IFCS ••• BCS GfKl CSNA JCS SFC Congressos Bianuais da IFCS Congressos anuais das Associações Nacionais http://edfu.lis.uiuc.edu/~class/ifcs

Referências Fisher, D.H. and Langley, P. W., “ Methods of Conceptual Clustering and their relation to Numerical Taxonomy”, Technical Report 85-26, University of California, Irvine, 1985 Fisher, D. H., “ Knowledg Acquisition via Incremental Conceptual Clustering”, Machine Leaning, Vol2, No. 2, pp. 139-172, 1987 Guenoche, ª , “Generalization and Conceptual Classification: Indices and Algorithms”, Proceedings of the Conference on Data Analysis, Learning symbolic and Numeric Knowledg, pp. 503-510, INRIA, Antibes, 1989 Kodratoff, Y. and Ganascia, J., “Improving the Generalization Step in Learning,” Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp. 215-244, 1983.

Lebowitz, M., “Experiments with Incremental Concept Formulation: UNIMEN”, Machine Learning, Vol. 2, No. 2, pp. 103-138, 1987. Michalski, R. S., Stepp, R., and Diday, E., "A Recent Advance in Data Analysis: Clustering Objects into Classes Characterized by Conjunctive Concepts," Chapter in the book Progress in Pattern Recognition, Vol. 1, L. Kanal and A. Rosenfeld (Editors), North-Holland, pp. 33-55, 1981 Michalski, R. S. and Stepp, R., "Learning from Observation: Conceptual Clustering," Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp. 331-363, 1983. Michalski, R.S. and Kaufman, K.A., "Data Mining and Knowledge Discovery: A Review of Issues and a Multistrategy Approach," Reports of the Machine Learning and Inference Laboratory, MLI 97-2, George Mason University, Fairfax, VA, 1997.