Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE.

Slides:



Advertisements
Apresentações semelhantes
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Advertisements

Agenda Introdução Justificativa Objetivo Detecção de Spam
Inteligência Artificial
INTELIGÊNGIA COMPUTACIONAL
Mineração de Dados Avaliação de Classificadores
Engenharia de Software
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendizado de Máquina
Redes Neurais Artificiais
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
Aprendizado de Máquinas
Aprendizagem Viviane Torres da Silva
Mineração de Dados ou Descoberta de conhecimento em BDs
Reconhecimento de Padrões Segmentação
Busca Online Alexandra Barros Geber Ramalho. Busca Offine x Busca Online Busca Offline (ou planejamento clássico) –Computa a solução (do estado inicial.
Aprendizagem Simbólica
Redes Neurais (Conceitos Fundamentais)
Tipologia dos dados de entrada da mineração de dados
Aprendizagem de máquina: visão geral
FACENS – Engenharia da Computação Inteligência Artificial
Aprendizagem a partir de observações
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizado de Máquina
Aprendizado de Máquina Aula 13
Aprendizado de Máquina Aula 8
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Redes Neurais Prof. Alex F. V. Machado.
Indução de Árvore de Decisão
Aprendizado de Máquina - Introdução
Sistemas Especialistas
Sistemas Inteligentes
Marcílio C. P. de Souto DIMAp/UFRN
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Extração de Regras de RNA Wilian Soares Lacerda Fevereiro de 2003.
Sistemas Baseados em Aprendizado (Aprendizado de Máquina)
O que é? É o processo de investigação técnica com intuito de identificar a qualidade, a segurança e a exatidão do software desenvolvido. A validação do.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
PUCC 1 Tópicos em Sistemas Inteligentes. PUCC 2 Agenda - Aula 03 Buscas Agentes que Planejam.
Programação em Lógica Indutiva Jacques Robin DI-UFPE.
1 Introdução aos Agentes Inteligentes Inventando Funções Heurísticas Flávia Barros.
Jacques Robin CIn-UFPE Tipologia do conhecimento de saída da mineração de dados.
Mineração de Dados: Classificação e Predição
Aprendizagem por Reforço Alexandre Luiz G. Damasceno.
Geber Ramalho 1 Objetivo da aprendizagem Conhecimento em extensão (exemplos percepção-ação, características-conceitos, etc.) Conhecimento em intenção.
REVISÃO Prof. Mário Dantas
Prof. Alexandre Monteiro Recife
Márcio Leal de Melo Dahia1 Aprendizado baseado em instâncias.
Indução de Árvores e Regras Proposicionais de Decisão
Sumário 1 SQL Embutida 2 Processamento de Consultas
Inteligência Artificial I
Inteligência Artificial I
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Paradigmas de Mineração de Dados
Descoberta em múltiplos níveis conceituais
Aprendizado de Máquinas
Aprendizado da rede O aprendizado, na maioria das vezes, constitui no ajuste do conjunto de pesos de modo que a rede consiga executar uma tarefa específica.
Classificação de Textos
Inteligência Artificial
Projeto de Banco de Dados
Aprendizado por Indução
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
Aprendizagem Simbólica
Sylvia Campos da Luz e Silva Universidade Federal de Pernambuco Centro de Informática Pós-Graduação em Ciência da Computação.
Busca Heurística Prof. Valmir Macário Filho. 2 Busca com informação e exploração Capítulo 4 – Russell & Norvig Seção 4.1 Estratégias de Busca Exaustiva.
Transcrição da apresentação:

Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE

Modelo do Agente Aprendiz (on-line) sensores efetuadores Agente Gerador de problemas crítico elemento de aprendizagem avaliação objetivos de aprendizagem elemento ator trocas conhecimento a m b i e n t e Experiências informativas Depende da KRL Padrões de aceitação t t + 1

Aprendizagem para construção do agente (off-line) Agente Base de conhecimento elemento de aprendizagem exemplos Engenheiro de conhecimento Escolhe e descreve parametriza elemento ator critica

Exemplo de árvore de decisão * A partir de um conjunto de propriedades, decide sim ou não * Exemplo Soparia predicado-objetivo: vaiASoparia Atributos considerados: t Sono: Estou com sono? t Transporte: Tenho como ir de carro? Carona? etc. t CONIC: Devo estar amanhã cedo no CONIC? t Álcool: Estou precisando de álcool? t Sair: Quero sair de casa? t Fome: Estou com fome?

Árvore de Decisão “pensada” Sono? CONIC? Carro Não. Outros CONIC? Carona Sim Sim. Não Não. Não Quer sair? Sim Não. Sim. Não Meio de transporte? Pouco Sim Não. Sim. Não Precisa de álcool? Sim Sim. Não Não. atributo valores

ID3: exemplos da soparia * Atributos: (Sono, Transporte, CONIC, Álcool, Sair, Fome)-> propriedade-objetivo E01: (Pouco,Carro,Sim,Sim,Não,Sim) -> Sim! E02: (Pouco,Carona,Não,Não,Sim,Sim) -> Sim! E03: (Sim,Carro,Não,Sim,Sim,Sim) -> Não. E04: (Pouco,Carona,Não,Não,Sim,Não) -> Sim! E05: (Sim,Outros,Sim,Sim,Sim,Não) -> Não. E06: (Pouco,Outros,Não,Sim,Não,Sim) -> Não. E07: (Pouco,Carro,Sim,Não,Sim,Sim) -> Sim! E08: (Pouco,Carona,Não,Não,Não,Sim) -> Não. E09: (Sim,Carro,Não,Sim,Sim,Não) -> Não. E10: (Não,Outros,Sim,Sim,Sim,Sim) -> Sim! E11: (Não,Carro,Não,Sim,Sim,Não) -> Sim! E12: (Não,Carona,Não,Sim,Sim,Sim) -> Sim!

ID3: conceitos * Classificação aplicação do predicado objetivo p a um exemplo * Exemplo positivo (ep) e exemplo negativo (en) p(ep) = verdadeiro, p(en) = falso * Conjunto de treinamento positivos + negativos * Objetivo da aprendizagem gerar a descrição d de p segundo os atributos dados d deve ser consistente (cobre todos positivos e exclui todos negativos) e preditiva/geral (vai além da memorização) d deve ser a mais simples possível (navalha de Ockahm)

ID3: construção da árvore * Escolha do melhor atributo O que discrimina o maior número de exemplos Maior ganho de informação (entropia) * Candidatos: Transporte: Não classifica imediatamente nenhum dos exemplos Sono: Classifica de imediato 6 dos 12 exemplos...

Exemplo: atributo transporte Transporte? carrooutros +:E01,E02,E04,E07,E10,E11,E12 - :E03,E05,E06,E08,E09 carona +: E10 -: E05,E06 +: E01,E07,E11 -: E03,E09 +: E02,E04,E12 -: E08

Exemplo: atributo sono Sono? sim pouco não +:E01,E02,E04,E07,E10,E11,E12 - :E03,E05,E06,E08,E09 +: E1,E2,E4, E7 -: E6,E8 +: : E3, E5, E9 +: E10,E11,E12 -: - - -

Cálculo do ganho de informação Onde A = atributo p = positivo n = negativo Ganho(A) = I -  v i=1 (p i +n i )/(p i +n i ) I I = -p/(p+n) (log 2 p/(p+n)) - n/(n+p) (log 2 n/(p+n)) p/p+n, n/p+np i /p i +n i, n i /p i +n i p/p+n, n/p+n

function APRENDIZAGEM_DA_ID3(exemplos,atributos,default) : árvore de decisão if (exemplos é vazio) then return default; else if (todos os exemplos têm a mesma classificação) then return (a classificação); elseif (atributos é vazio) then return maioria(exexmplos); else melhor <- ESCOLHA_MELHOR_ATRIBUTO(atributos,exemplos); árvore <- nova árvore com raiz “melhor”; para cada valor v i de melhor faça exemplos i <- exemplos onde melhor = v i ; subárvore <- APRENDIZAGEM_DA_ID3(exemplos i, atributos-{melhor}, maioria(exemplos)); adicione subárvore como um ramo à árvore com rótulo v i ; return arvore; ID3: Algoritmo de aprendizagem

+: E1,E2,E4, E7 -: E6,E8 Árvore de Decisão “Induzida” +: E1,E2,E4,E7,E10,E11,E12 -: E3, E5, E6, E8, E9 Sono? Não Pouco Sim +: : E3, E5, E9 +: E10,E11,E12 -: Sim.Não. Outros Carro Carona Meio de transporte? +: : E6 +: E1,E7 -: : E2,E4 -: E8 Sim.Não. Quer sair? SimNão +: E2,E4 -: : : E8 Sim.Não.

Regras * É possível mostrar o resultado como regras lógicas toma-se as folhas com conclusão positiva e sobe-se até a raiz * Exemplos:  t Sono(Não,t)  VaiASoparia(t)  t Sono(Pouco,t)  Transporte(Carro,t)  VaiASoparia(t)  t Sono(Pouco,t)  Transporte(Carona,t)  QuerSair(Sim,t)  VaiASoparia(t)

Problemas c/ ID3: Expressividade * Só pode tratar de um único objeto  t Sono(Não,t)  VaiASoparia(t)  t Sono(Pouco,t)  Transporte(Carro,t)  VaiASoparia(t) * Mais de um... não dá com eficiência Ex: “se posso ficar mais indisposto mais tarde, eu vou logo à soparia”  t 1  t 2 MesmoDia(t 1,t 2 )  Disposição(t 1,d 1 )  Disposição(t 2,d 2 )  Maior (d 1,d 2 )  VaiASoparia(t) alternativa: atributo possoFicarMaisIndisposto(t)

Problemas c/ ID3: Expressividade * Exemplo: Goal predicate = BomPesquisador (x) * Como tratar atributos multi-valorados? Filiação(José, {USP, Unesp}) * Como tratar atributos numéricos? Tem entre 45 e 52 anos * Como tratar listas ordenadas? Formação = {graduação, mestrado, doutorado, pós} * Como inserir conhecimento a priori? Hierarquias conceituais PE PB ALCE NE BR Norte

Problemas gerais: ambigüidade * Ambigüidade: Dois ou mais exemplos com a mesma descrição (em termos de atributos) mas classificações diferentes * Causas: Ruído Atributos insuficientes * Soluções: tratamento estatístico indução construtiva etc.

Problemas gerais: overfitting * Overfitting (hiper-especialização): Evitar encontrar uma “regularidade” muito restrita nos dados * Soluções: Validação cruzada Pré-Poda: parar a construção da árvore cedo t não dividir um nó se isso resultar em um critério abaixo de um limiar t difícil escolher o limiar apropriado Pós-Poda: remover ramos de uma árvore completa t conjunto de dados e critério de qualidade da árvore diferentes t para a fase inicial de constução da árvore e t para a fase final de poda da árvore

Pós-poda de arvore de decisão:

TreinamentoTeste Validação Cruzada * Serve para evitar overfitting e para averiguar robustez dos resultados * Algoritmo 1) Divide o conjunto de exemplos em dois sub-conjuntos: conjuntos de treinamento (TR) e de teste (TE) 2) Usa indução para gerar hipótese H sobre TR 3) Mede percentagem de erro de H aplicada à TE 4) Repete passos 1-3 com diferentes tamanhos de TE e TR, e tendo elemento escolhidos aleatoriamente

Curva de aprendizagem

Dimensões para classificar tarefas e técnicas de aprendizagem de máquina * Tarefas de aprendizagem: componente e aspeto do elemento de performance a melhorar * Complexidade do ambiente do agente aprendiz * Retorno no processo de treinamento do agente * Controle dos mecanismos de aprendizagem e de ação * Formalismo de representação do conhecimento * Aproveitamento de conhecimento prévio * Visões unificadoras: aprendizagem = adquirir uma representação, geralmente aproximativa, de uma função matemática aprendizagem = busca de uma região em um espaço de hipótese explicando os dados (exemplos)  Relação com otimização, analise numérica, estatística * Propriedades matemática e viés a priori sobre a função a aproximar ou do espaço de hipótese a buscar

Tarefas de aprendizagem * Aprendizagem descritiva: Apenas descreve de forma concisa os dados disponíveis A descrição aprendida pode: t diretamente fornecer insight para analista humano, ou t servir de passo preliminar para aprendizagem preditiva * Aprendizagem preditiva: Prevê dados não disponíveis a partir do dos dados disponíveis A previsão pode: t diretamente indicar uma descoberta ou decisão a tomar t servir de passo intermediário para tomada de uma descoberta ou decisão complexa estruturada por camadas

Tarefas de aprendizagem * Otimização: aprender nova representação de conhecimento prévio para melhorar desempenho do agente e não sua versatilidade embora não envolve aprender nada de fundamentalmente novo as vezes a diferença entre 2 representações do mesmo problema, é a diferença entre uma solução puramente teórica e uma solução operacional na prática * Meta-aprendizagem aprender valores ótimas de parâmetros ou de representações de viés para aprendizagem de conhecimento do domínio da aplicação * Aprendizagem multi-camada: muitas vezes, controle requer previsão, que requer classificação e o conhecimento assim obtido precisa ser otimizado para execução em tempo real ex, futebol de robôs

Tarefas de aprendizagem descritiva * Aprender: Medida de similaridade ou dissimilaridade entre instâncias t ex, cliente fulano parecido com sicrano e bem diferente de beltrano Grupos de instâncias alta similaridade intra-grupos e alta dissimilaridade inter-grupos (clustering) t ex, {fulano, sicrano,...}, {beltrano, john,...}, {doe},... Excepções (outliers), i.e., instâncias com valor altamente dissimilar com a maioria das outras instâncias, para um ou vários atributos Valores de atributos para grupos de instâncias agregados ao longo de dimensões analíticas, t ex, media de venda de bebidas no Nordeste em dezembro é R$ Atributos relevantes para caracterizar instâncias de uma classe t ex, {sexo, colégio, pais, idade, notaMédia} para alunos Atributos relevantes para discriminar entre instâncias de 2 classes t ex, {sexo, colégio, notaMédia} entre alunos de engenharia e artes cênicos Associações entre valores dos atributos descritivos das instâncias t age(X,[20,29]}  income(X,[3000, 10000])  ownd(X,CD,[50,100])  owns(X,PC). [suport = 5%, confidence = 80%]

Tarefas de aprendizagem preditiva * Classificação: inferir a classe de um novo indivíduo em função dos seus atributos descritivo dados = instâncias  conceitos aprende novo conhecimento da forma: t C I : Estado(Ambiente,t) x Percepções(t)  Estado(Ambiente,t+1) * Análise de evolução ou previsão stricto-sensus: inferir o valor de um atributo de um indivíduo em um instante t em função dos seus atributos descritivos nos instantes anteriores dados(t)  conceitos  dados(t+1) aprende novo conhecimento da forma: t C P1 : Estado(Ambiente,t)  Estado(Ambiente,t+1) t C P2 : Estado(Ambiente,t) x Ações(t)  Estado(Ambiente,t+1) classificação destacando atributo tempo generaliza-se na identificação de serias temporais

Tarefas de aprendizagem preditiva * Controle: inferir a melhor ação a executar por um agente inteligente dado seus objetivos e o estado do ambiente no qual ele opera dados  política de comportamento aprende novo conhecimento da forma: t R: Percepções  Ações, ou t Cu1: Estado(Ambiente,t) x Objetivos(t)  Utilidade, ou t Cu2: Estado(Ambiente,t) x Ações(t) x Objetivos(t)  Utilidade * Regressão: inferir o valor do atributo A (geralmente numérico) desconhecido de um indivíduo em função de: t seus atributos conhecidos e, t dos valores conhecidos de A para os outros indivíduos * Classificação e regressão podem servir de passo intermediário para análise de evolução * Os três podem servir de passos intermediários para controle

Complexidade do ambiente * Acessível? * Episódico? * Discreto? * Determinista? Ruidoso? * Dinâmico? * Relacional? trate-se de instâncias de apenas uma classe de entidades ou de instâncias de várias classes diferentes de entidades e de relações entre elas? * Diverso? o numero de classes de entidade (e relações) diferentes é grande? * Grande? o numero de instâncias dessas classes (e relações) é grande?

Retorno no processo de treinamento * Aprendizagem supervisionada certo(ação) ou errado(ação) Dado conjunto de exemplos pré-classificados, Aprender descrição que abstraí a informação contida nesses exemplos e que pode ser usada para prever casos futuros ex., concessão de crédito * Aprendizagem não-supervisionada se vire! Dada uma coleção de dados não classificados, Agrupá-los por regularidades ex., caixa de supermercado empacotando

Retorno no processo de treinamento * Aprendizagem por reforço: recompensa/punição certo(ação1(t0)/.../ação(tn) ou errado(ação1(t0)/.../ação(tn)) dado sucesso ou insucesso global de um seqüência de ação, determinar qual ação e’ a mais desejável em cada situação ex., DeepBlue jogando contra ele próprio: é por a propagar para trás recompensas e punições a partir do estado final

Controle da aprendizagem * Aprende depois age ou aprende agindo (treinos x jogos) * Agir sempre otimamente x aprender novas habilidades * Busca de hipótese: incremental (exemplos apresentado ao poucos) ou não (todos de uma vez) iterativa (exemplos re-apresentados em várias épocas) ou não (uma apresentação de cada exemplo basta) top-down (refina hipótese geral para cobrir exemplos) ou bottom-up (generaliza exemplos para abstrair hipótese) ou bi-direcional gulosa (generaliza exemplos assim que encontrados) ou preguiçosa (não generaliza exemplos com antecedência, apenas os indexa para os adaptar ao receber novas consultas parecidas) global (aproxima função completa) ou local (aproxima-la por partes)

Representação do conhecimento * Função matemática: domínio e escopo: {0,1}, Z, R monotonia, continuidade polinomial, exponencial, logarítmica * Lógica: proposicional (ordem 0), de atributos (ordem 0+) de Horn ou dos predicados (ordem 1) exóticas (ordem superior, temporal, modal, etc) * Distribuição de probabilidades * Outros, ex.: Pesos em redes conexionistas, Representações orientada a objetos, Árvores de decisão, etc... se reduzem as 3 primeirasse reduzem as 3 primeiras

Representação de conceito x de instância * Conceito: representação em intenção via conjunto de restrições de valor sobre alguns atributos descritivos armazenados no BD * Instancia: indivíduo cujos dados satisfazem essas restrições * Aprendizagem guloso: cria representação em intenção (conceito) e classifica um novo indivíduo se seus atributos casam com essa representação * Aprendizagem preguiçoso: classifica novo indivíduo como sendo da classe do indivíduo mais próximo dele em termos de valores de atributos ou do centroide dos N indivíduos mais próximos não representa conceitos em intenção classe representada apenas pela extensão das suas instâncias

Representação atributivas x relacionais * Representar propriedades de um único indivíduo Logicamente quantificação universal limitada a uma única variável Equivalente a lógica proposicional (ordem 0), já que essa variável pode ficar implícita ex,  P, quality(P,fair)  price(P,low)  buy(P)  fairQuality  cheap  buy * Representar relações entre vários indivíduos Logicamente requer quantificação universal simultânea de várias variáveis Requer sub-conjunto da lógica da 1 a ordem ex,  P, C parent(P,C)  female(P)  mother(P,C).

Conhecimento prévio * Aprendizagem sem conhecimento prévio: dados (exemplos)  conhecimento * Aprendizagem com conhecimento prévio: dados x conhecimento prévio  conhecimento aprendido * Métodos de aprendizagem que permitem usar conhecimento prévio em entrada: re-aproveitam de conhecimento: t adquirido com especialistas humanos t aprendido durante passos anteriores de KDD para aprendem a partir de muito menos dados Homogeneidade: Exemplos, conhecimento prévio e conhecimento aprendido pode ser representados no mesmo formalismo?

Viés * Conhecimento prévio: conhecimento do domínio da aplicação inteligente ex, futebol de robôs, bolsa de valor, meteorologia, etc. no mesmo formalismo do que o conhecimento a aprender * Viés: meta-conhecimento prévio sobre a forma do conhecimento a aprender a partir dos dados, ex., t classe de função a aproximar (linear, polinomial,...) t classe de função medindo o erro da aproximação (médio quadrado, …) t dimensionalidade do espaço de hipótese t distribuição probabilista dos pontos nesse espaço (normal, poisson,..) t restrições lexicais e sintática da linguagem de representação do conhecimento a aprender (ex, número de premissa ou conclusões de regras, numero de grupos classificando exemplos, …) sem viés não temgeneralização * Aprendizagem sem viés não tem poder de generalização !

Tipologia das técnicas de aprendizagem Paradigma simbólico: * Aprendizagem de conceitos por busca no espaço de soluções (version-space) * Indução de árvores de decisão e regras proposicionais * Programação em lógica indutiva * Aprendizagem por explicações * Raciocínio baseado em casos * Aprendizagem Q * Agrupamento de conceitos proposicionais Paradigma probabilista: * K Vizinhos mais próximo * Regressão estatística * Funções de bases radiais * Aprendiz bayesiano ingênuo Paradigma conexionista: * Perceptron multicamada * Memórias associativas Paradima evolucionista: * Algoritmos genéticos Abordagens híbridos: * Rede bayesianas

Tipologia das estruturas de conhecimento a aprender * Paradigma simbólico: Árvore de decisão Árvore de regressão Regras de associação atributivas Regras de classificação atributivas Regras relacionais Grupos atributivos de instâncias * Paradigma matemático: Função de distância numérica Função de regressão * Paradigma probabilista: Densidade de probabilidade * Paradigma conexionista: Perceptrão multi-camada Memória associativa * Paradigma evolucionário: população de representações simbólicas simples (bit string, árvore) * Multi-paradigma: Árvores de modelo (simbólico e matemático) Redes bayesianas (conexionista, simbólico e probabilista)

Árvore de decisão

Indução de árvore de decisão: características * Tarefas: classificação, previsão e controle * Ambiente: inacessível: + não episódico: + contínuo: + ou - ruidoso: + dinâmico: + relacional: - diverso: - grande: + * Supervisionado * Controle da aprendizagem: Treino antes da ação Não incremental Não iterativo Top-down Guloso Global * Representação do conhecimento: lógica propocisional * Não pode aproveitar de conhecimento prévio * Propriedades da função aproximada: escada N dimensional

Função de regressão numérica PRP = MYCT MMIN MMAX CACH CHMIN CHMAX

Árvore de regressão

Árvore de modelo LM1: PRP = MMAX CHMIN LM2: PRP = MMIN – 3.99 CHMIN CHMAX LM3: PRP = MMIN LM4: PRP = MMAX CACH CHMAX LM5: PRP = 285 – 1.46 MYCT CACH – 9.39 CHMIN LM6: PRP = MMIN – 2.94 CHMIN CHMAX

Regras atributivas de classificação * Mineração preditiva * Implicações lógica com: Apenas uma variável quantificada Premissas relacionada apenas por uma conjunção Cada premissas apenas testa valor de um atributo de um indivíduo Conclusão única e positiva indica classe das instâncias verificando a conjunção de premissas *  X, atr1(X,val1) ...   atrn(X,valn)  class(X,c) *  X, atr1Val1(X) ...   atrnValn(X)  C(X) * atr1 = val1 ...  atrn  valn  C * IF atr1 = val1 AND... AND atrn  valn THEN C * ex, IF tempo = sol AND dia = Dom THEN racha

Regras de Classificação vs. Árvores * Regras de classificação podem ser convertidas em árvores de decisão e vice-versa * Porém: a conversão é em geral não trivial dependendo da estrutura do espaço de instâncias, regras ou árvores são mais concisas ou eficientes * Regras são compactas * Regras são em geral altamente modulares (mas raramente são completamente modulares)

Vantagens de Árvores de Decisão Exemplo de conversão árvore -> regras Sem mecanismo de interpretação preciso regras podem ser ambíguas Instâncias podem “passar através” de conjunto de regras não sistematicamente “fechado” X > 1.2 Y > 2.6 b ab sim não simnão IF x >1.2 AND y > 2.6 THEN class = a If x < 1.2 then class = b If x > 1.2 and y < 2.6 then class = b

Vantagens de Regras de Classificação Árvores são redundantes e não incrementais Árvores não são ambíguas e não falham em classificar x y z w a ?? b?? If x=1 and y=1 then class = a If z=1 and w=1 then class = b Exemplo de conversão regra/árvore

Regras atributivas de associação * Mineração descritiva * Implicações lógica com: Apenas uma variável quantificada Premissas e conclusões relacionadas apenas por uma conjunção Cada premissa e cada conclusão apenas testa valor de um atributo de um indivíduo *  X, atr1(X,val1) ...   atri(X,vali)  atrj(X,valj) ...   atrn(X,valn) * IF atr1 = val1 AND... AND atri  vali THEN atrj = valj AND... AND atrn  valn * ex, IF tempo = sol AND dia = domingo THEN praia = cheia AND avenida = engarrafada

Grupos de instâncias (clusters) * Dimensões descritivas da tipologia dos grupos disjuntos x overlapping chatos ou hierárquicos deterministas x probabilistas x nebulosos baseados em distâncias x baseados em densidade propriedades matemáticas da superfície a b c d e f g h …

Rede bayesiana

Regras relacionais * Mineração descritiva ou preditiva (classificação ou controle) * Implicações lógica com: Várias variáveis quantificadas Premissas relacionadas apenas por uma conjunção Cada premissa testa valor de um atributo de um indivíduo ou teste relação entre indivíduos Conclusão única positiva cujo predicado pode aparecer nas premissas (regras recursivas) Cláusulas de Horn *  X,Y,Z,... atr1(X,val1) ...  reli(X,Y)  atrj(Z,valj) *  X,Y,Z,... atr1(Y,val1) ...  reli(X,Y)  relj(X,Y,valj) *  X,Y,Z,... atr1(Z,val1) ...  reli(X,Y,Z)  reli(X,Y,Z) * reli(X,Y,Z) :- atr1(Z,val1),..., reli(X,Y,Z)