Introdução à Classificação Conceitual Prof. Francisco de A. T. de Carvalho

Slides:



Advertisements
Apresentações semelhantes
Lógica de Predicados e Representação de Conhecimento
Advertisements

Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
ESTATÍSTICA PARA QUALIDADE
Lógica Fuzzy Aplicada a Sistemas de Diagnóstico
Modelos de Mineração de Dados
NOÇÕES DE PROBABILIDADE
Estatística Descritiva Aula 02
Aprendizado de Máquina
Introdução à Programação Lógica
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
Busca em Profundidade Para encontrar um caminho de solução Sol, de um dado nó para algum nó objetivo Se N é um nó objetivo, então Sol=[N] Se há um nó N1.
A Preparação dos Dados Mineração de Dados.
. Capítulo 1 Introdução à Estatística Capítulo 1 Introdução à Estatística Prof. Paulo Renato de Morais ESTATÍSTICA APLICADA.
COVARIÁVEIS Revisão de Variáveis Prof. Ivan Balducci FOSJC / Unesp.
Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual)
O Processo de Preparação de Dados
Métodos Quantitativos
Knowledge Acquisition Via Incrementa Conceptual Clustering DOUGLAS H. FISHER Machine Learning 2: , 1987 Apresentação: Mário Machado e Otavio Acosta.
ESTATÍSTICA BÁSICA.
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
INF 1771 – Inteligência Artificial
Estatística Descritiva
Estatística e Probabilidade
Estatística Descritiva
Algoritmos em Grafos Conceitos principais Prof. André Renato
Inteligência Artificial
Estatística Descritiva (I)
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1ª. AULA PRÁTICA.
A Hybrid Method for Robust Car Plate Character Recognition.
O problema do emparelhamento máximo
E NHANCED S ELF -O RGANIZING I NCREMENTAL N EURAL N ETWORK FOR O NLINE U NSUPERVISED L EARNING Cesar Lima José Francisco Maíra Nascimento.
Aprendizado de Máquina - Introdução
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Probabilidade Experimento Aleatório Espaço Amostral
Comitês (Ensembles) de Agrupamentos Marcílio C. P. de Souto DIMAp/UFRN.
Seleção de Atributos Ricardo Prudêncio.
Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual)
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Estatística Geral (Probabilidade Exercícios)
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
INTRODUÇÃO À BIOESTATÍSTICA
Jacques Robin CIn-UFPE Tipologia do conhecimento de saída da mineração de dados.
Recuperação Inteligente de Informação
Análise de Dados Ciências Contábeis.
Mineração de Dados: Introdução
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
Estatística Descritiva. 2 oO que é a estatística ? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são.
Descoberta em múltiplos níveis conceituais
Definição de Estatística
Professor: WALDEMAR SANTA CRUZ OLIVEIRA JR CONCEITOS BÁSICOS UNIVERSIDADE FEDERAL DE PERNABUCO - UFPE Curso: TURISMO Disciplina: ESTATÍSTICA BÁSICA ET-229.
Representação Qualitativa e Representação Ordinal
ESTATÍSTICA - Princípios
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
Projeto de Banco de Dados
Probabilidade Experimento Aleatório Espaço Amostral
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
ESTASTÍSTICA APLICADA
EXCEL Aula 5. Noções de variáveis Variável Quantitativa: é aquela de natureza numérica, ou seja, apresenta como possíveis realizações (valores) números.
Estatística Básica usando o
Mineração de Dados (Data Mining)
INTRODUÇÃO à ESTATÍSTICA Sérgio Mélega.
Transcrição da apresentação:

Introdução à Classificação Conceitual Prof. Francisco de A. T. de Carvalho

Agrupamento (Clustering) Forma de aprendizagem de máquina não supervisionada Dado: * Um conjunto de objetos * alguns critérios de agrupamento Objetivo: * Formar (encontrar) grupos (clusters) C 1, C 2, …, C k, * tal que o agrupamento obtido (ie, conjunto de grupos) * é considerado de alta qualidade (talvez não otimo) * em relação à qualidade dos critérios

Os metodos usuais de agrupamento são conhecidas como Taxinomia Numérica Em Taxonomia Numerica, um objeto (individuo, observação) é descrito por p variáveis y 1, y c,, y p = (y 1 ( ), y 2 ( ),, y p ( )) Uma variável y (ou descritor) é uma função y: D é o conjunto de observações y( ) D é o domínio da variável y

As variáveis podem ser quantitativas contínuas (ex, Peso, Altura) discretas (ex, numero de antenas, número de filhos) qualitativas (ex, sexo, grau de instrução) binárias (ex, presença de asas) com escala nominal (ex, sexo (masculino, feminino)), ordinal (ex, Grau de instrução{primário, segundário, superior}) intervalar (ex, grau celsius) proporcional (ex, grau kelvin, idade)

Tabelas individuos variáveis

Taxonomia Numerica: formar (encontrar) grupos (clusters) C 1, C 2, …, C k, tal que dissimilaridade entre os objetos: de um mesmo grupo tende a ser minimizada de grupos diferentes tende à ser maximizada Um índice de dissimilaridade d é uma função d: R + (, ) d(, ) que satisfaz as seguintes propriedades a), d (, ) = 0 b) (, ), d(, ) = d(, )(simetria)

Exemplos de índices de dissimilaridade a) Tabelas de variáveis quantitativas b) Tabelas de variáveis binárias a 10 b 1 0 xy z w

Tipos de espaços de classificação (ie, estrutura a priori do espaço das observações) Seja um conjunto de indivíduos à agrupar Partição Uma partição de é um conjunto de subconjuntos não vazios P = (P 1,, P k ) de interseção vazia dois a dois e cuja união forma a) l {1,, k}, P l b) l,m {1,, k}, l m, P l P m = c) l P l = Tipos de espaços de classificação (ie, estrutura a priori do espaço das observações) Seja um conjunto de indivíduos à agrupar Partição Uma partição de é um conjunto de subconjuntos não vazios P = (P 1,, P k ) de interseção vazia dois a dois e cuja união forma a) l {1,, k}, P l b) l,m {1,, k}, l m, P l P m = c) l P l =

Observações * * * * * * * P1P1 P2P2 P3P3 * * * * * * * Partição

Cobertura Uma cobertura de é um conjunto de subconjuntos não vazios P = (P 1,, P k ) cuja união forma a) l {1,, k}, P l b) l P l = Cobertura Uma cobertura de é um conjunto de subconjuntos não vazios P = (P 1,, P k ) cuja união forma a) l {1,, k}, P l b) l P l = * * * * * * * P1P1 P2P2 P3P3 * * * * * * *

Hierarquia Seja H um conjunto de subconjuntos não vazios de. H é uma hierarquia se a) H; b), { } H c) h, h H, tem-se: h h = ou h h ou h h

* 7 * 5 * 6 * 4 * 2 * 1 * 3 * * * * * * *

Piramide Seja P um conjunto de subconjuntos não vazios de de. P é uma piramide se a) P; b), { } P c) h, h P, tem-se: h h = ou h h P d) Existe uma ordem tal que todo elemento de P seja um intervalo de Piramide Seja P um conjunto de subconjuntos não vazios de de. P é uma piramide se a) P; b), { } P c) h, h P, tem-se: h h = ou h h P d) Existe uma ordem tal que todo elemento de P seja um intervalo de

* 2 * 1 * * 7 * 5 * 6 * 4

Em Taxonomia Numerica distingue-se tres grupos de métodos Técnicas de Otimização Objetivo: obter partição. Número de grupos sempre fornecido pelo usuário Técnicas hierarquicas Objetivo: obter uma hierarquia (ou uma piramide) Pode-se obter uma partição cortando-se a hierarquia em um determinado nível. Técnicas de Cobertura Objetivo: obter grupos que eventualmente podem partilhar indivíduos.

Abordagens para classificação * Agrupamento conceitual (intencional) simbólico híbrido (redes bayesianas) * Nebuloso (lógica fuzzy) * Conexionista (redes neurais) * Evolucionista (algoritmos genéticos) * Estatística

IFCS BCS SFC GfKl JCS Congressos Bianuais da IFCS Congressos anuais das Associações Nacionais CSNA

Agrupamento Conceitual Um grupo pode ser descrito em: extensão (enumeração dos seus membros) ou em compreensão (conjunto de propriedades que definem a pertinência de um elemento à um grupo) Agrupamento não conceitual fornece: apenas descrição em extensão de cada grupo. obtenção dos grupos leva em conta apenas as descrições dos individuos. Agrupamento conceitual fornece: também a descrição em compreensão (intencional) de cada grupo. formação dos grupos levam em consideração também a qualidade da descrição em compreensão de cada grupo

Agrupamento Conceitual funciona em 2 fases: agregação: encontrar grupos de um conjunto de individuos segundo uma estrutura considerada e um ou mais critérios fixados caracterização: determinar uma descrição (conceito) de cada um dos grupos obtidos na fase de agregação Em aprendizagem caracterização = aprendizagem à partir de exemplos As 2 fases podem ser: simultaneas sequênciadas (na maioria dos casos)

Geração de k Agrupamentos em competição Iniciar com (Conjunto de Individuos) Agrupamento 1 Agrupamento k {C 11, …, C 1m1 } {C k1, …, C kmk } Iniciar com um Agrupamento Geração de descrições conceituais em competição par o Agrupamento {D1(C1),... D1(C1m1)... {Dn(C1),... Dn(C1m1)

Tipos de abordagens em Agrupamento Conceitual: 3 dimensões Estrutura do espaço de observação: partição, hierarquia, cobertura Algoritmo: incremental (Formação de Conceitos) ou batch (Descoberta de Conceitos) Linguagem de descrição (representação do conhecimento): Logica de Atributos (ordem 0) Logica de Predicados de 1a Ordem Logica de predicados de 2a Ordem

Caracterização (descrição) dos grupos em lógica 0 Seja um conjunto de observações descritas por p atributos (variáveis) y 1, …, y p cujos dominios são D 1, …, D p. Um objeto simbólico a = [y 1 A 1 ] … [y 1 A p ], onde A i D i, i {1, …, p}, expressa a condição atributo y 1 toma seus valores em A 1 e … e atributo y p toma os seus valores em A p Pode-se associar à a uma função f: {1, 0} tal que f a ( ) = 1 y i ( ) A i, i {1, …, p}, A extensão de a é definida como ext (a) = { / f a ( )=1}

Exemplo variaveisDominios Cor Tamanho Forma {azul, verm, verde} {grande, medio, pequeno} {esfera, bloco, triangulo} Considere o seguinte objeto simbólico a = [Cor {az,vm}] [Tam {g}] [Forma {e,b}] a é uma generalização de qualquer conjunto de objetos cuja cor é azul ou vermelho, cujo tamanho é grande e cuja forma é esfera ou bloco

Da mesma forma, esta na extensão de a (é membro de a) se f a ( )=1, isto é, se sua cor é azul ou vermelha, seu tamanho é grande e sua forma é esfera ou bloco Dizemos que um objeto simbolico a é uma generalização de um conjunto de individuos se, f a ( )=1 Sejam dois objetos simbólicos a = i [y i A i ] e b = i [y i B i ]. Diz-se que b < a se B i A i i. Nesse caso diz-se que a é mais geral do que b e b é menos geral do que a Diz-se que um objeto simbólico a é maximamente especifico de um conjunto de indivíduos se a é uma generalização de e não existe um outro objeto simbólico b generalização de tal que b < a

Sejam os individuos 1 = [Cor {az}] [Tam {g}] [Forma {e}] 2 = [Cor {az}] [Tam {m}] [Forma {e}] 3 = [Cor {az}] [Tam {p}] [Forma {b}] Tres possíveis generalizações desses conjuntos pour um objeto simbolico a = [Cor {az}] [Tam {g,m,p}] [Forma {e,b}] b = [Cor {az}] [Tam {g,m,p}] [Forma {e,b,t}] c = [Cor {az,vm,vd}] [Tam {g,m,p}] [Forma {e,b,t}] c é mais geral do que b que é mais geral do que a a é maximamente especifico do conjunto de indivíduos acima.

Um objeto simbolico a é uma descrição discriminante de um conjunto 1 de individuos em relação à um outro conjunto 2 de individuos se a é uma generalização de 1 e não existe 2 tal que f a ( )=1 Um objeto simbólico a é uma descrição maximalmente discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de indivíduos se a é uma descrição discriminante de 1 em relação à 2 e não existe um outro objeto b a) que seja uma descrição discriminante de 1 em relação à 2 ; b) que seja mais geral do que a (b > a)

Exemplo Grupo 1(G1) 1 = [Cor {az}] [Tam {l}] [Forma {e}] Grupo 2 (G2) 1 = [Cor {vm}] [Tam {l}] [Forma {b}] 1 = [Cor {vm}] [Tam {l}] [Forma {t}] Descrições maximalmente discriminantes de G1 em relação à G2 a = [Cor {az,vd}] [Tam {l,m,p}] [Forma {e,b,t}] b = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {e}] Descrições maximalmente discriminantes de G2 em relação à G1 c = [Cor {vm,vd}] [Tam {l,m,p}] [Forma {e,b,t}] d = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {b,t}]

Atribuição de descrições maximamente discriminantes aos Grupos 1 e 2 Descrições disjuntas Descrições não disjuntas Grupo1Grupo 2 b = … [Forma {e}]d = … [Forma {b,t}] a = [Cor {az,vd}] …c = [Cor {vm,vd}] … a = [Cor {az,vd}] …d = … [Forma {b,t}] b = … [Forma {e}]c = [Cor {vm,vd}] … Em geral conjuntos disjuntos da mesma variável implicarão em descrições maximamente discriminantes de um grupo em relação à outros grupos

Algoritmo CLUSTER/2 * Descoberta de Conceitos (em batch) * Dois módulos Partição Hieraráquico Exemplo

Módulo partição * Formando Agrupamentos inicias Semente 1 Semente 2Semente k D 11 D12D12 D 1n1 D21D21 D21D21 D 2n2 …… Encontrar descrições maximamente discriminantes Atribuir os objetos à cada descrição D ij obtendo as classes C ij C 11 C 12 … C 1n1 C 21 … C 2n2

seleção de k(2) sementes aleatoriamente encontrar descrições maximamente discriminantes de cada um dos k (2) grupos à partir das sementes a 1 =[Cobertura do Corpo={pelos, penas, pele úmida}] a 2 = [Cavidades do Coração = {3, 4}] a 3 = [Temperatura do Corpo= {regulada}] b 1 =[Cobertura do Corpo={penas, pele seca, pele úmida}] b 2 = [Cavidades do Coração = {3, 4 imperfeitas}] b 3 = [Temperatura do Corpo= {não regulada}] Semente 1Semente 2

Atribuição dos objetos à cada descrição D ij obtendo as classes C ij a 2 = [Cavidades do Coração = {3, 4}] b 2 = [Cavidades do Coração = {3, 4 imperfeitas}] Semente 1Semente 2 G 1 =Ext(a 2 )={Mamífero, Pássaro, Anfíbio-1, Anfíbio-2} G 2 =Ext(a 2 )={Réptil, Anfíbio-1, Anfíbio-2} Obtendo descrições dos grupos Tornando os grupos disjuntos G1G1 G2G2 G 1 ={Mamífero, Pássaro}G 2 ={Réptil} Lista de exceções {Anfíbio-1, Anfíbio-2}

Obtendo descrições maximamente específicas de cada grupo a 2 = [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}] G 1 = {Mamífero, Pássaro}G 2 = {Réptil} b 2 = [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

a 1 = [Cobertura do Corpo = {pelos, penas,pele úmida}] [Cavidades do Coração = {3,4}] [Temperatura do Corpo = {regulada,não regulada}] [Fertilização = {interna}] Agrupamento A (G 1 + Anfíbio-1) C1C1 C2C2 Agrupamento B (G 2 + Anfíbio-1) b 1 = [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}] a 2 = [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}] b 2 = [Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}] Inserindo o primeiro objetos da lista de exceções nos grupos e obtendo descrições maximamente específicas de cada grupo

Avaliação dos Agrupamentos obtidos em função da qualidade das descrições Critério: a) para cada par de descrições de agrupamentos diferentes calcula-se o número de variáveis cuja interseção é vazia; b) faz-se a soma para cada par; o agrupamento escolhido é aquele cuja soma é máxima o Agrupamento B é selecionado O segundo objeto da lista de exceções é inserido no agrupamento B um processo semelhante ao descrito para a incorporação de anfíbio-1 é relizado O processo descrito deve ser realizado para todas as 9 combinações de descrições maximamente discriminantes Das 9 possibilidades, escolhe-se a melhor partição em dois grupos Em seguida, novas sementes são selecionadas e o processo continua

* O módulo hierárquico construi uma árvore de classificação * Nessa árvore os arcos representam as descrições e nós a extensão de cada grupo Módulo Hierarquico [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}] [Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna, externa}] {mamífero, pássaro, réptil, anfíbio-1, anfíbio-2} {mamífero, pássaro} {réptil,anfíbio-1,anfíbio-2}

* Classificação politética * Construção de árvore de cima para baixo * O módulo hierárquico usa o módulo partição como uma subrotina * o módulo partição fornece partições de vários tamanhos (2, 3 e 4) e seleciona a melhor * O módulo hierárquico construi um nível da árvore de cada vez * A construção da árvore finaliza quando a qualidade da partição obtida no nível seguinte não é melhorada

Referências * Fisher, D.H. and Langley, P. W., Methods of Conceptual Clustering and their relation to Numerical Taxonomy, Technical Report 85-26, University of California, Irvine, 1985 * Fisher, D. H., Knowledg Acquisition via Incremental Conceptual Clustering, Machine Leaning, Vol2, No. 2, pp , 1987 * Guenoche, ª, Generalization and Conceptual Classification: Indices and Algorithms, Proceedings of the Conference on Data Analysis, Learning symbolic and Numeric Knowledg, pp , INRIA, Antibes, 1989 * Kodratoff, Y. and Ganascia, J., Improving the Generalization Step in Learning, Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp , 1983.

* Lebowitz, M., Experiments with Incremental Concept Formulation: * UNIMEN, Machine Learning, Vol. 2, No. 2, pp , * Michalski, R. S., Stepp, R., and Diday, E., "A Recent Advance in Data Analysis: Clustering Objects into Classes Characterized by Conjunctive Concepts," Chapter in the book Progress in Pattern Recognition, Vol. 1, L. Kanal and A. Rosenfeld (Editors), North-Holland, pp , 1981 * Michalski, R. S. and Stepp, R., "Learning from Observation: Conceptual Clustering," Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp , * Michalski, R.S. and Kaufman, K.A., "Data Mining and Knowledge Discovery: A Review of Issues and a Multistrategy Approach," Reports of the Machine Learning and Inference Laboratory, MLI 97-2, George Mason University, Fairfax, VA, 1997.