A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Geber Ramalho & Márcio Dahia 1 Aprendizado baseado em instâncias (Aprendizagem Preguiçosa) Vizinhos mais Próximos (kNN) Raciocínio Baseado em Casos (CBR)

Apresentações semelhantes


Apresentação em tema: "Geber Ramalho & Márcio Dahia 1 Aprendizado baseado em instâncias (Aprendizagem Preguiçosa) Vizinhos mais Próximos (kNN) Raciocínio Baseado em Casos (CBR)"— Transcrição da apresentação:

1

2 Geber Ramalho & Márcio Dahia 1 Aprendizado baseado em instâncias (Aprendizagem Preguiçosa) Vizinhos mais Próximos (kNN) Raciocínio Baseado em Casos (CBR)

3 Geber Ramalho & Márcio Dahia 2 nSistemas Especialistas convencionais nAprendizagem gulosa: ID3, Version Space,... nAprendizagem preguiçosa: kNN, CBR,... Experiência: o que o especialista tem de mais valioso Experiência (exemplos) S O L U Ç Ã O Regras Engenheiro de conhecimento Novo Problema Dedução Regras Indução Dedução Mede semelhança

4 Geber Ramalho & Márcio Dahia 3 Aprendizagem Baseada em Instância nAprendizagem Gulosa (convencional) construção explícita da função f que generaliza os exemplos de treinamento. Estima f de uma vez por todas para todo o espaço de exemplos métodos: ID3, Version Space, MLP Neural Nets,... nAprendizagem Baseada em Instância (IBL) ou aprendizagem preguiçosa: simplesmente armazena os exemplos de treinamento deixa a generalização de f só para quando uma nova instância precisa ser classificada a cada nova instância, uma f nova e local é estimada métodos: vizinhos mais próximos, regressão localmente ponderada, raciocínio baseado em casos, etc.

5 Aprendizagem Baseada em Instância Objetos (dados) clustering (ap. não-supervisionada) Redes neurais, agrupamento conceitual, estatítica, Preguiçosa Knn, LWR, CBR, novo algoritmo classe 1,2 ou 3 K em extensão Identificação outro objeto classificador classe 1,2 ou 3 Gulosa ap. supervisionada (árvore de decisão, conjunto de regras, redes neurais c/ pesos ajustados,...) ID3, version space, RN-MLP naive bayes,... K em intenção

6 Geber Ramalho & Márcio Dahia 5 Aprendizagem Baseada em Instância nComo? Armazena as instâncias de treinamento Calcula a distância entre as instâncias de treinamento e a instância desconhecida Avalia o valor da função de classificação a partir dos valores das instâncias mais próximas nDiferentes métodos possuem diferentes formas de: Representar as instâncias de treinamento Calcular a distância entre instâncias Avaliar o valor da função de classificação

7 Geber Ramalho & Márcio Dahia 6 k vizinhos mais próximos

8 Geber Ramalho & Márcio Dahia 7 k vizinhos mais próximos nMétodo mais antigo (1967) e difundido nInstâncias são representadas por pontos num espaço n dimensional n instância x = Onde a r (x) representa o valor do r-ésimo atributo nA distância entre as instâncias pode ser calculada pela distância euclidiana ou outras

9 Geber Ramalho & Márcio Dahia 8 nx =, onde adimplente pode ser sim, não] nExemplo de treinamento = (x,f(x)), onde f(x) é a função de classificação a ser aprendida joão = (, ???) a ser classificado josé = (, sim) maria = (, sim) anastácia = (, não) nDistância d(joão,josé) = [(36-30) 2 + ( ) 2 + (76-72) 2 ] 1/2 = ( ) 1/2 = 7,21 d(joão,maria) = ( ) 1/2 = 19,41 k vizinhos mais próximos: exemplo As distâncias entre os pontos podem ser eventualmente normalizadas

10 Geber Ramalho & Márcio Dahia 9 k vizinhos mais próximos nA função de classificação Caso seja discreta, seu resultado é aquele que aparecer mais vezes entre os k vizinhos mais próximos (V = conjunto de valores possíveis da função) Caso seja contínua, seu resultado é a média dos resultados dos k vizinhos mais próximos

11 Geber Ramalho & Márcio Dahia 10 k vizinhos mais próximos: Algoritmo para estimar f //Treinamento Adicione cada instância de treinamento na lista instancias_treinamento //Classificação Para cada instância x q a ser classificada Chame de x 1,x 2,...x k as k instâncias mais próximas de x q na lista instancias_treinamento Caso discreto retorna Caso contínuo retorna

12 Geber Ramalho & Márcio Dahia 11 nCaso discreto Percebe-se que o k é determinante na classificação xqxq k = 1 classifica x q como + k = 5 classifica x q como - k vizinhos mais próximos: exemplo

13 Geber Ramalho & Márcio Dahia 12 nCaso contínuo exemplo = filme = classificação f = recomendação r Z, r = [1...5] r(x 1 ) = 4, r(x 2 ) = 3, r(x 3 ) = 5, r(x 4 ) = 2 para k = 3 e supondo que x 1, x 2 e x 3 são os mais próximos de x q, temos f(x q ) = (4+3+5)/3 = 4 k vizinhos mais próximos: exemplo

14 Geber Ramalho & Márcio Dahia 13 httphttp://www.cs.cornell.edu/Info/People/chew/Delaunay.htmlcs.cornell.edu.html k vizinhos mais próximos nVisualização da superfície de decisão, para k = 1 Diagrama de Voronoi => poliedro convexo para cada instância de treinamento. As instâncias dentro do poliedro são completamente classificados pela instância associada

15 Geber Ramalho & Márcio Dahia 14 nRefinamento I: distância para o vizinho melhora robustez ponderar a contribuição de cada um dos k vizinhos de acordo com sua distância ao ponto de consulta x q –Caso discreto –Caso contínuo onde k vizinhos mais próximos

16 Geber Ramalho & Márcio Dahia 15 k vizinhos mais próximos nProblema da dimensionalidade Para calcular a distância entre os pontos, o método utiliza todos os atributos da instância nConseqüências pode custar caro atributos irrelevantes podem deturpar a classificação nRefinamentos Atribuir pesos j aos atributos de maneira que minimize a taxa de erro de classificação (Importância do atributo) Usar a técnica de validação cruzada para automaticamente escolher os pesos Eliminar atributos do espaço de instâncias

17 Geber Ramalho & Márcio Dahia 16 Regressão Localmente Ponderada (LWR) nHá como generalizar K vizinhos mais próximos Constrói uma aproximação explicita de uma função f(x q ) em uma região próxima de x q levando em conta a distância entre estas e x q A aproximação é então usada para calcular o valor ponto x q. A descrição de f(x) é apagada, pois a função de aproximação será construída para cada instância a ser consultada

18 Geber Ramalho & Márcio Dahia 17 Regressão localmente ponderada nFunção de aproximação mais comum nEscolher i que minimiza a soma dos quadrados dos erros em relação ao conjunto de treinamento D nMas existem diferentes propostas para minimizar o erro... Erro quadrático sobre os k-vizinhos mais próximos Erro quadrático ponderado em D,...

19 Geber Ramalho & Márcio Dahia 18 Raciocínio Baseado em Casos (CBR) Mais que um método de aprendizagem preguiçosa: é um método de resolução de problemas!!!!!!

20 Geber Ramalho & Márcio Dahia 19 Compreensão de histórias (Sistema IPP) nIRA guerrilas ambushed a military patrol in west Belfast yesterday killing one british soldier and badly wounding another Army quarters na suspected IRA gunman killed a 50-year old unarmed security guard in east Belfast early today the police said nA gunman shot and killed a part-time policeman at a soccer match Saturday and escaped through the crowd... situação-explicação ou problema solução Nova explicação/solução Nova situação/problema

21 Geber Ramalho & Márcio Dahia 20 Experiência vivida nClassificação: Os problemas de ouvido deste paciente são casos típicos de otite média nSoluções compiladas: Os sintomas de coração do paciente X podem ser explicados da mesma maneira que aquele paciente Y nAvaliando medidas: Minha casa é como aquela que foi vendida mais em baixo nesta rua por R$25.000,00 mas ela tem uma vista melhor nConcepção (design): para projetar este hospital, vou me basear naquele que já fiz com um número de leitos parecido, embora tenha de adaptá-lo pois este é de esquina nAvaliando opções: se nós atacássemos as instalações dos mísseis cubanos/russos, seria como no caso de Pearl Harbor

22 Geber Ramalho & Márcio Dahia 21 Experiência: o que o especialista tem de mais valioso nCase-based reasoning system Um método de resolução de problemas onde novos problemas são resolvidos adaptando-se soluções de antigos problemas similares Raciocínio analógico intra-domínio aprendizado incremental on-line nEm termos de IBL Representação mais complexa das instâncias Cálculo diversificado da distância entre instâncias Não só classifica, mas adapta!!! É um método de resolução de problemas

23 Geber Ramalho & Márcio Dahia 22 Raciocínio baseado em casos nHistoricamente: Wittgenstein (conceituação em extensão) Edel Tulving (memória episódica) Gentner (analogia),.... Roger Schank (scripts) Janet Kolodner (memória dinâmica) nUm caso é um episódio vivido contém a descrição de : problema + solução exemplos: um paciente, um projeto arquitetônico, uma situação, uma causa jurídica, uma melodia, etc.

24 Geber Ramalho & Márcio Dahia 23 Exemplo nUsos - classificação (casa dos meus sonhos?) - estimação de preços

25 novo caso (alvo) problema base Reutilizar Recuperar Reter Revisar novo caso (alvo) solução sugerida solução final caso solução caso testado e corrigido caso aprendido Indexar Funcionamento do CBR: ciclo dos 4 RE´s caso recupe- rado (fonte)

26 Geber Ramalho & Márcio Dahia 25 Desenvolvimento de um sistema CBR nQual a natureza e conteúdo dos casos? nComo representá-los? nComo indexá-los de maneira a poder encontrá-los adequadamente e rapidamente mais tarde? nQual são os critérios para a escolha do melhor caso e como recuperá-lo? nComo estruturar (organizar) os casos da base? nComo adaptar o caso recuperado?

27 Geber Ramalho & Márcio Dahia 26 Natureza e conteúdo dos casos nPergunta chave O que é um caso no domínio abordado? nConteúdo Mínima: descrição do problema e da solução Extensões: avaliação da solução (falhas, sucesso, etc.), contexto (justificação, links com outros casos, etc.), nOutros Tamanho e composição (casos compostos) nQuantidade de casos distribuir bem no espaço de problema n-dimensional (n atributos)

28 Geber Ramalho & Márcio Dahia 27 Representação dos casos n Várias linguagens de vetores de características Atributo-valor (frames, redes semânticas, objetos,...) lógica de primeira ordem nDepende da natureza do que se quer representar Velho problema da expressividade x eficiência ex. –situaçãoDeMediação(c1, disputa) protagonistas (c1, criança11, criança20, criança32) objetoDisputado (c1, chocolate)... ex. –objeto: disputa; –atributos: protagonistas, objetoDisputado

29 Geber Ramalho & Márcio Dahia 28 Indexação nObjetivo: dar ao sistema conhecimento sobre como estocar e comparar (match) casos nVocabulário de indexação índice = atributo, característica, predicado,... Pode ser feita manual ou automaticamente –Checklist, difference-based, inductive learning,... nConselhos levar em conta a utilização que se quer fazer (propósito) –ex. para um mecânico e para um cliente de locadora, a descrição de um automóvel é bem diferente

30 Geber Ramalho & Márcio Dahia 29 Indexação (cont.) nInterpretação de situação os índices realmente relevantes para um problema/situação em particular ex. em uma disputa entre crianças a profissão não conta, enquanto na disputa entre adultos, ela conta preço ano modelo marca opcionais kilometragem motor cor....

31 Geber Ramalho & Márcio Dahia 30 nA recuperação é baseada na similaridade entre caso alvo e casos fontes Dois tipos de cálculo de similaridade: explícito ou indireto nMedida explícita (mais usado!) independente da estratégia de recuperação ou da organização da memória k vizinhos mais próximos (knn) nMedida indireta dependente da estratégia de recuperação e/ou da organização da memória memória dinâmica (hierárquica) Critério para escolha dos casos

32 Geber Ramalho & Márcio Dahia 31 wi - peso da característica i a xi e a yi - valores da característica f nos casos C e S sim i - função primitiva para a característica i k vizinhos mais próximos (k = 1) nObservações similaridade global [0-1], sem ordem de testes mais fácil introduzir conhecimento do domínio: pesos os pesos podem ser definidos manualmente ou por métodos automáticos

33 Geber Ramalho & Márcio Dahia 32 ano= 1997 modelo= Gol marca= VW cor= vermelho Preço= 1000 Carro 1 ano= 1996 modelo= Golf marca= VW cor= azul Preço= 1500 Carro 2 ano= 1995 modelo= Tempra marca= Fiat cor= azul Preço= 1300 Carro 3 Exemplo nPesos ano = 2, modelo = 3, marca = 2, cor = 1, preco =1 nFunções primitivas ano: (diferença 2) => 1; (2 0,5; (dif > 4) => 0 modelo: igual => 1; diferente => 0 marca: igual => 1; diferente => 0 cor: igual => 1; parecida => 0,5; diferente => 0 preço: (dif 250) => 1; (250 0,5); (dif > 1000) => 0

34 Geber Ramalho & Márcio Dahia 33 Organização da memória nMemória plana Implementação: lista simples (1 nível de indexação) Métodos de recuperação –Busca serial (custa caro) –Busca paralela Medida de similaridade –explícita (knn) nMemória hierárquica Implementação: –características compartilhadas –redes de discriminação Métodos de recuperação & Medida de similaridade –implícita (basta percorrer!) nAbordagem mista: filtra com a árvore de indexação e calcula explicitamente a similaridade com os casos pré-selecionados

35 Características compartilhadas situaçãoDeMediação = disputa Tipo: disputa física (Korea) Tipo: disputa política (Panama) Protagonistas: países tipoDeObjetoDisputado: terras Protagonistas: crianças tipoDeObjetoDisputado: comida Desejo: objeto inteiro (Laranja1) Desejo: diferentes partes do objeto (Laranja2) objDisputado: laranja relaçãoFamiliar: irmãs idades: adolescentes objDisputado: Candy (Candy) Serve como árvore de indexação

36 Geber Ramalho & Márcio Dahia 35 Organização da memória nTrade-offs: eficiência x completude –eficiência na inserção x eficiência na consulta –ordem fixa dos testes pode levar a a recuperação do caso que não é o mais similar plausibilidade x facilidade de introduzir conhecimento nOrganizações alternativas de memória template trees, z-trees,...

37 Geber Ramalho & Márcio Dahia 36 Similaridade e recuperação nO casamento é parcial !!!! =>Mais robustez nEtapas da recuperação Matching: encontrar os N casos mais similares ao caso alvo Ranking: Escolher o melhor caso em relação o alvo nQuestão: a similaridade basta? nas tarefas de design (projeto), não basta! É preciso: adaptation-based retrieval

38 Geber Ramalho & Márcio Dahia 37 Reutilização nObjetivo: compensar as diferenças entre o problema-alvo e problema-fonte escolhido nAdaptação: 3 tipos Cópia: usada normalmente em classificação Adap. Estrutural: a partir da própria solução recuperada Adap. Derivacional: a partir da maneira com que a solução recuperada foi gerada nPara as duas últimas as operações são: ajuste de parâmetros, abstração e especialização, substituição,... nProblema: depende do domínio,coordenação do conjunto de operadores de transformação

39 Geber Ramalho & Márcio Dahia 38 Reutilização nExemplo JULIA precisa criar uma refeição italiana (e que não contenha carne) composta de entrada, massas, refeição principal e sobremesa; Baseando-se em casos anteriores, JULIA escolhe lasanha como prato principal. Porém: –a refeição original inclui um prato de massas. Para simplificar, JULIA elimina o prato de massas; –lasanha inclui carne. Devido à restrição do problema, uma lasanha vegetariana é proposta;

40 Geber Ramalho & Márcio Dahia 39 Exemplo de reutilização: reinstanciação nMétodo Determine os papéis dos envolvidos no caso retido; Faça a correspondência dos papéis no problema proposto; Reinstancie os atributos e relações do caso retido de acordo com as respectivas correspondências; nEx.: MEDIATOR resolução de conflitos: como dividir uma laranja entre duas crianças interessadas? caso anterior: método utilizado por pescadores; reinstanciação: identificação dos papéis de cada entidade envolvida (pescador criança, peixe laranja, objetivo divisão)

41 Geber Ramalho & Márcio Dahia 40 Outros Métodos nAjuste de parâmetros ex.: cálculo de novo valor de um imóvel; nSubstituição baseado em casos encontrar outro caso que sugira uma alternativa; por que não utilizar logo este caso?

42 Geber Ramalho & Márcio Dahia 41 Revisão e retenção nRevisão 1) Avaliar a solução (automaticamente ou não) 2) Consertar o caso nRetenção 1) Extração da informação a reter 2) indexação 3) inserção do caso na base

43 Geber Ramalho & Márcio Dahia 42 Aplicações: estado da arte nTodas as classes de problemas dos SEs baseados em regras diagnóstico, planejamento, scheduling, interpretação, cozinha, design, seleção, ensino,.... nExistem ferramentas (shells) ReMind, CAsePOint,CASUEL, ART*, ReCall, CBR-Express,... nExemplos Machine Tool Fault Diagnosis Computer Network Diagnosis Credit Analysis Geological Deposit Prediction Battle Planning

44 Mais aplicações... Bank Telex Classification Natural Language Understanding Network Management Legal Reasoning Claims Settlement Medical Diagnosis Weather Prediction Fraud Detection Industrial Planning and Scheduling Residential Domain Aircraft Maintenance Domain Helpdesk Systems for PC Network Diagnostics

45 Geber Ramalho & Márcio Dahia 44 Algumas aplicações na WEB nFindMe agents sugere filmes e carros em locadoras raciocino através de exemplos busca não hierárquica nCorrespondent agents usa técnicas de recuperação de casos para encontrar textos: FAQ-finder nAnalog Devices help desk: o sistema responde às dúvidas mais simples, restringindo a necessidade em contatar seus engenheiros

46 Geber Ramalho & Márcio Dahia 45 Problemas nAquisição & descrição dos casos nem sempre é trivial além de demandar conhecimento do domínio! nO controle da medida de similaridade é fraco pois o matching é parcial o acúmulo de semelhanças irrelevantes faz com que certos casos sejam escolhidos em detrimento dos outros como ter certeza que as propriedades A e B serão determinantes na recuperação de um caso que contém 20 atributos? nA explicação pode ser prejudicada quando a recuperação é baseada em uma medida de similaridade numérica

47 Geber Ramalho & Márcio Dahia 46 Balanço e conclusões nApesar das limitações, é bem mais fácil e rápido desenvolver e manter um sistema CBR. E ele é mais robusto! CLAVIER na Lockheed (fornos) - de 60% para 10%, taxa de erro General dynamics (barcos) - 5 homens-ano x 2 homens-ano. CANASTA da DEC: 8 vezes mais rápido

48 Geber Ramalho & Márcio Dahia 47 Quando usar CBR? nExiste uma grande volume de dados históricos nOs especialistas falam sobre seus domínio dando exemplos nA experiência vale tanto quanto o conhecimento dos livros texto nOs problemas não são completamente formalizáveis fraca compreensão do problema, dificuldade de verbalização nExistem conhecimento para adaptação de casos adequado para tarefas de projeto (design) nExistem muitas exceções às regras nÉ preciso aprender on-line

49 Geber Ramalho & Márcio Dahia 48 Balanço entre aprendizado guloso e preguiçoso nGuloso Generaliza função de classificação Aproximação global Treinamento lento Classificação rápida nPreguiçoso Não generaliza a função de classificação Aproximação local Treinamento inexistente Classificação lenta

50 Geber Ramalho & Márcio Dahia 49 Referências básicas nAamodt, A; Plaza, E. (1994). Case-Based Reasoning: Foundational Issues, Methodological Variantions, and System Approaches. Em AI Communications, Vol. 7, nr. 1; nKolodner, J. (1993) Case Based Reasoning. Morgan Kaufmann. nWeb AI-CBR Home Page: CBR archive: CBR in the Web: kl.de/~lsa/CBR/CBR-Homepage.html CBR Bibliography: CBR/biblio/search.html


Carregar ppt "Geber Ramalho & Márcio Dahia 1 Aprendizado baseado em instâncias (Aprendizagem Preguiçosa) Vizinhos mais Próximos (kNN) Raciocínio Baseado em Casos (CBR)"

Apresentações semelhantes


Anúncios Google