Knowledge Acquisition Via Incrementa Conceptual Clustering DOUGLAS H. FISHER Machine Learning 2: 139-172, 1987 Apresentação: Mário Machado e Otavio Acosta.

Slides:



Advertisements
Apresentações semelhantes
IFTO ESTRUTURA DE DADOS AULA 05 Prof. Manoel Campos da Silva Filho
Advertisements

Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Programação em Java Prof. Maurício Braga
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
AULA 8 Profa. Sandra de Amo GBC053 – BCC
14/10/09 Uma animação possui: Início; Passo; Fim; 1.
1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 2.
Metodologia Científica e Tecnológica
ES723 - Dispositivos Eletromecânicos
Método de Acesso Dinâmico - B-Tree AULA 14 Profa. Sandra de Amo Programa de Pós-Graduação em CC - UFU Sistemas de Banco de Dados
Resolução.
Análise de Requisitos Use Case Renata Araujo Ricardo Storino
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Árvores.
1 MergeSort Seja uma lista A de n elementos. O algoritmo consiste das seguintes fases Dividir A em 2 sub-listas de tamanho n/2 Conquistar: ordenar cada.
Arquivos Seqüenciais Inhaúma Neves Ferraz
Coleta de resíduos. Sumário Resíduos Coleta de resíduos Contador de referências Marcação e varredura Parada e cópia Marcação e compactação Gerenciamento.
Rodrigo Geraldo Ribeiro Denis Pinto Pinheiro Camila Leles Rezende
Classificação e Pesquisa de Dados
Projeto e Análise de Algoritmos
Estudo de Caso 1: UNIX e LINUX
Caro Professor, Este material de apoio é gratuito e para uso exclusivo em sala de aula. Não pode ser comercializado. Ele não contém vírus ou qualquer instrumento.
FUNÇÃO MODULAR.
Experiments with Strassen’s Algorithm: from sequential to parallel
Mecânica dos Sólidos não Linear
Listas Encadeadas.
Classes e objetos P. O. O. Prof. Grace.
Técnica de Contagem.
Provas de Concursos Anteriores
INF 1771 – Inteligência Artificial
Monitoria GDI Aula Prática
ESTATÍSTICA.
Como aplicar leis da lógica
Semana 03: Comandos de desvio de fluxo. Expressões lógicas.
MECÂNICA - ESTÁTICA Cabos Cap. 7.
Criação de objetos da AD 1Luis Rodrigues e Claudia Luz.
MECÂNICA - DINÂMICA Cinemática de uma Partícula Cap. 12.
Inteligência Artificial
Resultantes de Sistemas de Forças Cap. 4
Cinemática Plana de um Corpo Rígido Cap. 16
Object Oriented Software Construction (MEYER, Bertrand)
Árvores binárias de pesquisa com balanceamento
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Oferta e Demanda A Curva de Oferta
Algoritmos Culturais.
1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.
Conhecimento Científico Noutros conhecimentos...
Coordenação Geral de Ensino da Faculdade
Principais operações em Listas TPA Listas Simples Inserção no Final 1.void insereNofinalDaLista(Lista *l, Elemento e){ 2.Lista paux,p; 3. p.
DESENVOLVIMENTO INTEGRADO DE PRODUTOS
Modelagem Estatística
Semana 03 Comandos de desvio de fluxo. Expressões lógicas.
EXERCÍCIOS PARA GUARDA-REDES
Introdução e Busca Cega
1 2 Observa ilustração. Cria um texto. Observa ilustração.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Agenda - Aula 2 Introdução (Computador Digital) Processadores
SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo de Probabilidades. Regra de Laplace. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.
SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo Combinatório. Problemas de Contagem. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.
BPM BUSINESS PROCESS MANAGEMENT Projecto em Informática e Gestão de Empresas Lisboa, 20 de Junho de 2006.
MATRICIAL CONSULTORIA LTDA. PREFEITURA MUNICIPAL DE GARIBALDI 23/10/ : ATENÇÃO Os locais descritos nas planilhas anexas não correspondem ao total.
Redes Neuronais/Neurais/ Conexionistas Introdução
Tópicos Avançados em Inteligência Artificial
Ceça Moraes – Introdução à Programação SI1
Curso: Cerimonial, Protocolo e Eventos
Máquina de Turing Universal
Dinâmica do Movimento Plano de um Corpo Rígido: Força e Aceleração
Introdução a Algoritmos
Transcrição da apresentação:

Knowledge Acquisition Via Incrementa Conceptual Clustering DOUGLAS H. FISHER Machine Learning 2: , 1987 Apresentação: Mário Machado e Otavio Acosta

2 Sumário Background Cobweb Utilidade de Categoria Operadores Inclusão de objeto em cluster existente; Criação de novo cluster Intercalação Divisão Avaliação do Cobweb

3 Background Clusterização Conceitual Paradigma para aprendizagem de máquina que se distingue das demais pela geração de uma descrição de conceito para cada classe gerada. A maioria destes métodos (incluindo o COBWEB) são capazes de gerar estruturas de categorias hierarquicas. Fisher caracteriza o processo de aprendizagem como um processo de busca, no qual o espaço de possíveis modelos de representação é percorrido em busca daquele que se ajuste melhor aos dados de entrada.

4 Background De maneira geral, os métodos de busca podem ser caracterizados pelo mecanismo de controle da busca (exaustivo ou heurístico) e pela direção da busca (generalização ou especialização). Quanto ao uso das entradas, os sistemas podem ser não-incrementais (empregando todas as entradas desde o princípio), ou incrementais (assimilando um fluxo de objetos, um por vez).

5 COBWEB COBWEB é um sistema de clusterização hierárquica conceitual. Ele executa um processo de subida de encosta através de um espaço de esquemas de classificação hierárquica usando operadores que permitem deslocamento bidirecional neste espaço. COBWEB incorpora objetos em uma árvore de classificação de forma incremental, onde cada nó é um conceito probabilístico que representa uma classe (ou agregado) de objetos.

6 COBWEB – Utilidade de Categoria Para que possa aplicar a subida de encosta, o COBWEB emprega uma heurística chamada utilidade de categoria. Esta heurística foi criada como um meio de predizer o nível básico em hierarquias de classificação humanas. De acordo com Fisher, utilidade de categoria é um tradeoff entre a similaridade intra- classe e a dissimilaridade inter-classe dos objetos.

7 COBWEB – Utilidade de Categoria Objetos são definidos por pares atributo-valor (restrito a valores nominais). Similaridade intra-classe é refletida por probabilidades condicionais na forma P(A i =V ij |C k ), onde A i =V ij é um par atributo-valor e C k uma classe. Quanto maior esta probabilidade, maior a proporção de membros da classe compartilhando este valor de atributo, e mais previsível ele é para os membros desta classe.

8 COBWEB – Utilidade de Categoria Dissimilaridade inter-classe é uma função de P(C k |A i =V ij ). Quanto maior esta probabilidade, menor o número de objetos em classes contrastantes que compartilham este mesmo valor para o atributo, e mais preditivo este valor é para esta classe. Estas probabilidades são disposições de valores individuais, mas elas podem ser combinadas para dar uma medida aproximada da qualidade da partição, onde uma partição é um conjunto de classes de objetos mutuamente exclusivos (C 1, C 2,... C n )

9 COBWEB – Utilidade de Categoria A probabilidade P(A i =V ij ) pondera a importância dos valores individuais, fazendo com que valores mais freqüentes tenham mais importância. De acordo com Fisher, Gluck e Corter definem utilidade de categoria como o incremento no número esperado de valores de atributo que podem ser adivinhados corretamente, dada uma partição, sobre o numero esperado de palpites sem tal conhecimento. Formalmente, temos:

10 COBWEB – Utilidade de Categoria Utilidade de Categoria

11 COBWEB – Representação de Conceitos O mecanismo de representação de conceitos pelo COBWEB é baseado no armazenamento dos valores de atributos e suas respectivas probabilidades (tal forma de representação é denominada conceito probabilístico). As probabilidades de valor de atributo são computadas a partir do número de objetos que apresentam aquele valor para o atributo, dividido pelo número total de objetos.

12 COBWEB – Representação de Conceitos No COBWEB, um conceito probabilístico etiqueta cada nó na árvore de classifcação e sumariza os objetos classificados sob o nó. Árvores de conceitos probabilísticos são, diferentemente de redes discriminatórias ou árvores de decisão no sentido em que descritores probabilísticos (e não lógicos) etiquetam nós (e não arcos) da árvore. Classificação usando uma árvore de conceitos probabilística é feita usando uma função de matching parcial para descer a árvore pelo caminho dos nós com "melhor casamento".

13 COBWEB – Exemplo

14 COBWEB – Operadores Para a incorporação de um novo objeto na árvore de classificação gerada, cada novo objeto passa por um processo no qual percorre um dado caminho na árvore, atualizando contagens no meio do caminho e executando UM dos possíveis operadores a seguir em cada nível.

15 COBWEB – Operadores Os operadores utilizados pelo COBWEB são: Classificação de um objeto com relação a uma dada classe; Criação de uma nova classe; Combinação de duas classes em uma só; Divisão de uma classe em k classes. A estratégia de busca emergente da aplicação destes operadores é uma subida de encosta no espaço de árvores de classificação.

16 COBWEB – Colocação do Objeto em uma Dada Classe Esta é a maneira mais fácil de atualizar uma árvore de classificação. A partição que resulta da adição do objeto a uma dada classe é avaliada usando utilidade de categoria. O nó que resultar na melhor partição é identificado como o melhor hospedeiro existente para o novo objeto.

17 COBWEB - Criação de uma Nova Classe Ainda, é avaliado o que gera a melhor partição, se é a introdução do novo objeto em um nó existente ou a criação de um novo nó. Assim, a qualidade da partição resultante da colocação de um objeto no melhor hospedeiro é comparada com a partição resultante da criação de um novo conjunto unitário contendo o objeto. Dependendo de qual partição é melhor com respeito a utilidade de categoria, o objeto é colocado na melhor classe existente ou uma nova classe é criada.

18 COBWEB - Merging & Splitting Os dois operadores vistos anteriormente têm o defeito de ser sensíveis ao ordenamento dos dados. Para evitar que isto ocorra, COBWEB disponibiliza outros dois operadores, para combinação e divisão de nós. A combinação consiste na criação de um novo nó, e na tomada de 2 (de n) nós de um nível, com a soma as contagens de atributo-valor dos nós sendo combinados. A seguir, os nós originais são adicionados como filhos do novo nó.

19 COBWEB - Merging & Splitting Embora possa ser aplicada todos os pares de nós possíveis, isto seria desnecessário e excessivamente custoso. Desta forma, quando um objeto é incorporado, apenas os dois melhores hospedeiros (indicados pela utilidade de categoria) são considerados para merging.

20 COBWEB - Merging & Splitting No splitting, o melhoramento na qualidade da partição é obtido a partir da remoção de um nó e promoção de seus nós filhos. Dada uma partição (com n nós), a remoção de um de seus filhos resultará em uma partição com n+m- 1 nós (considerando como m o número de filhos do nó removido. Merging e splitting são aproximadamente inversos um do outro, permitindo ao COBWEB um movimento bidirecional no espaço de possíveis hierarquias.

21 COBWEB - Merging & Splitting Geralmente, o merging é acionado para desfazer os efeitos de um splitting anterior, caso necessário, e vice-versa. Fisher cita ainda um quinto operador, de promoção, empregado para promover um nó sem a remoção do nó-mãe deste.

22 COBWEB - Algoritmo FUNCTION COBWEB (Object, Root { of a classification tree }) 1) Update counts of the Root 2) IF Root is a leaf THEN Return the expanded leaf to accommodate the new object ELSE Find that child of Root that best hosts Object and perform one of the following a) Consider creating a new class and do so if appropriate b) Consider node merging and do so if appropriate and call COBWEB (Object, Merged node) c) Consider node splitting and do so if appropriate and call COBWEB (Object, Root) d) IF none of the above (a, b, or c) were performed THEN call COBWEB (Object, Best child of Root)

COBWEB - Avaliação A avaliação do COBWEB é baseada em um modelo de aprendizagem (Dietterich). 23

COBWEB - Avaliação Árvore Classificação Base de Conhecimento Utilidade de adquirir conhecimento para inferências Tarefa de Desempenho Eficácia na aprendizagem incremental Ambiente 24

COBWEB – Árvore de Classificação A partir de uma seqüência de objetos, COBWEB cria uma árvore de classificação que resume e organiza os objetos. Ex.: dada a descrição de animais, o sistema forma uma árvore com conceitos probabilísticos para cada nodo. 25

Exemplo: U.S. Senate 14 atributos para voto 2 possibilidades para cada atributo (sim/não) afiliação de partidos descartada 26 COBWEB – Árvore de Classificação [P(predictable), P(predictive)]

27 COBWEB – Árvore de Classificação COBWEB faz uma abordagem diferente para a identificação de valores normativos, observando o tradeoff entre valores de predição e previsibilidade. Um valor só é considerado normativo com a condição de ser independente de outros valores atributo.

28 COBWEB – Árvore de Classificação Exemplo: pragas em soja 47 históricos de casos de pragas cada caso é descrito por 35 atributos 4 classificadas de pragas são classificadas pelos dados, porém não incluídas no experimento

Após a execução do experimento às 4 classes são redescobertas 29 COBWEB – Árvore de Classificação

Valores necessários e valores suficientes Ex.: P(valor|Charcoal Rot = 1.0) valor necessário P(Charcoal Rot|valor = 1.0) valor suficiente Classes com valores necessários e suficientes 30 COBWEB – Árvore de Classificação

COBWEB – Classificação por Inferência Uma característica do COBWEB é a criação de inferências. Para isso o sistema dá preferência para categorias que podem ser preditivas. 31

Para avaliação foi utilizado o domínio das Pragas da Soja A doença diagnosticada, por determinado caso, foi inserido como o 36 o atributo. Porém na construção da árvore de classificação ele não foi utilizado para classificar os objetos (apenas no treinamento). 32 COBWEB – Classificação por Inferência

33 COBWEB – Classificação por Inferência Após algumas instâncias, os casos restantes que ainda não tinham sido analisados foram classificados corretamente, de acordo com o diagnóstico. O objetivo do experimento era provar se a inserção do diagnóstico prévio no conjunto de treinamento iria aprimorar a inferência do conjunto de teste para a classificação.

34 COBWEB – Classificação por Inferência

COBWEB – Sistema Incremental COBWEB não adota um sistema somente aglomerativo ou divisivo durante sua clusterização. (Splitting e Merging) Avaliação de sistemas incrementais: Custo de incorporar uma instância Qualidade da árvore de classificação Número de objetos para estabilidade 35

Custo de incorporar uma nova instância é definido por: cost = O (B 2 log B n x AV) B ramificação média n número de objetos já classificados A número de atributos V média do número de valores por atributo 36 COBWEB – Sistema Incremental

COBWEB – Considerações Finais COBWEB consiste em um sistema de clusterização incremental, econômico e robusto. As classificações produzidas pelo COBWEB são instrumentos eficazes para a inferência. 37

COBWEB – Considerações Finais Mesmo utilizando uma função de avaliação consistente, dando preferência a categorização humana, não deve ser considerado como um modelo cognitivo, mas como um método de agrupamento. 38

Valores numéricos Valores estruturados Estratégia Hill-Climbing 39 COBWEB – Trabalhos Futuros

COBWEB WEKA 40

COBWEB Dúvidas? - FIM - 41