Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.

Slides:



Advertisements
Apresentações semelhantes
Aprendizado Baseado em Instâncias (IBL)
Advertisements

Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Métodos Iterativos.
Indução de Árvores de Decisão
ANÁLISE DISCRIMINANTE
Sistemas de Localização baseados em
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Formato dos Dados % 1. Title: Database for fitting contact lenses
Adaptive Resonance Theory Carpenter & Grossberg
Aprendizado de Descrições Lógicas
Capítulo 2 Data Preparation for Data Mining
Medida do Tempo de Execução de um Programa
Reconhecimento de Padrões Aprendizagem Supervisionada (KNN)
Jacques Robin, Francisco Carvalho, Flávia Barros
APRENDIZAGEM COM CONHECIMENTO A PRIORI
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
FACENS – Engenharia da Computação Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Sistemas Inteligentes
Buscas em Grafos Prof. André Renato 1º Semestre/2012
Aprendizado de Máquina
Aprendizado de Máquina
Aprendizado de Máquina Aula 8
Introdução O que é computação?.
Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.
Alexandre Xavier Falcão & David Menotti
Aula Prática Classificação
Aprendizado de Árvores de Decisão
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Mineração da Dados.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
K-Means / Clustering.
Introdução ao Aprendizado de Máquina
K-NN Prof. Dr. Rogério Vargas.
INF 1771 – Inteligência Artificial
Sistemas Inteligentes
Aprendizado de Máquina - Introdução
Redes Bayesianas - Aplicação em Risco Operacional
Introdução ao Aprendizado de Máquina
Seleção de Atributos Ricardo Prudêncio.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
1 Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN.
1 Árvores de Decisão Marcílio Souto DIMAp/UFRN. 2 Árvores de Decisão – ADs (1/4) zForma mais simples: yLista de perguntas  respostas “sim” ou “não” yHierarquicamente.
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Recuperação Inteligente de Informação
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Classificação de Texto
Prof. Alexandre Monteiro Recife
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Márcio Leal de Melo Dahia1 Aprendizado baseado em instâncias.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
Software Weka Waikato 2004, Witten & Frank 2000.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Aprendizado de Conceitos (aprendizado de regras).
Classificação de Textos
Projeto de Banco de Dados
Aprendizado por Indução
Aprendizagem Simbólica
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Estrutura de Dados Prof. André Cypriano M. Costa
Métodos Probabilísticos
Aprendizado de Máquina
Naïve Bayesian Learning
Introduction to Machine learning
Transcrição da apresentação:

Aprendizado Baseado em Instancias

Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os métodos baseados em instâncias guardam os exemplos de treinamento A generalização é posposta até que uma nova instância deva ser classificada Cada vez que uma nova instância é encontrada, seus relacionamentos com os exemplos previamente guardados é examinado para atribuir um valor de função alvo.

IBL IBL, instance based learning Inclui os métodos de vizinho mais próximo, raciocínio baseado em casos IBL é um método chamado lazy IBL é utilizado em funções alvo com valores discreto ou valores reais.

IBL IBL pode utilizar uma representação simbólica mais complexa para as instâncias -> Raciocínio baseado em Casos. O custo de classificar uma nova instância é alto Indexação eficiente dos exemplos de treinamento

Aprendizado K-Nearest Neighbor O método IBL mas basico é o algoritmo k- nearest neighbor Este algoritmo assume que todas as instâncias correspondem a um ponto no espaço n-dimensional R n O vizinho mais próximo de uma instância é definido em termos da distância euclidiana.

Distância Euclidiana Seja a instância descrita por –(a 1 (x),a 2 (x), a n (x)) A distância entre 2 instâncias Xi e Xj –d(Xi,Xj)=(∑ r=1,n (a r (Xi)-a r (Xj)) 2 ) 1/2 Esta abordagem é apropriada tanto para funções alvo discretas ou reais.

Algoritmo para funções Alvo Discretas Neste caso o valor f(xq) retornado é o f(xq) mais freqüente entre os k vizinhos de f(xq). Algoritmo –Fase de treinamento: para cada exemplo de treinamento (x,f(x)), adicione o exemplo a lista de exemplos.

Classificação Dado uma instância Xq a ser classificada Sejam X 1...X k as instâncias de treinamento mais próximas de Xq Retorne –F(Xq) <- argmax )=(∑ i=1,k α(r,f(Xi)) Onde α(a,b)=1 se a=b Caso contrario α(a,b)=0

Numero de vizinhos 1 vizinho classifica como + 5 vizinhos classificam como -

Regressão Classificação no caso de valores reais f(Xq) =(∑ i=1,k,f(Xi))/k

Algoritmo Nearest Neighbor Distâncias Ponderadas Um refinamento obvio do algoritmo é atribuir pesos a cada k-vizinho de acordo a sua distância a instância a classificar Xq Ex: valores discretos –F(Xq) <- argmax )=(∑ i=1,k w i α(r,f(Xi)) –Voto de acordo com a distância –Wi = 1/ d(Xq,Xi) 2 –Se Xi= Xq -> f(Xq) = f(Xi)

Continuo f(Xq) =(∑ i=1,k,wi f(Xi))/ ∑ i=1,k,wi –Normalizar os pesos –K = todas as instâncias ou constante Obs: A introdução de pesos no algoritmo o faz um método altamente efetivo para vários problemas práticos É robusto a dados com ruído e efetivo com grandes bases de treinamento É sensível ao conjunto de atributos

Regressão Localmente Ponderada Esta abordagem usa exemplos de treinamento ponderado por sua distância para formar uma aproximação a f. Ex: podemos usar uma função linear, quadrática, rede neural ou alguma outra função. Dada uma instância a classificar Xq, a abordagem constrõe uma aproximação f usando os vizinhos de Xq. Esta aproximação é utilizada para calcular f(Xq)

Regressão Linear f(X) = w 0 + w 1 a 1 (x) w n a n (x) E = ½ ∑ i=1,k,( f(X) – f e (x)) 2 ∆W=ŋ ∑ i=1,k,( f(X) – f e (x)) a n (x)

Problemas de Dimensionalidade Imagine instâncias descritas por 20 atributos, mais somente 2 são relevantes Problemas de recuperação, kd-tree, as instâncias são guardadas nas folhas da arvore, com as instâncias vizinhas no no perto dele. Os nos internos da arvore ordenam a nova instância e a classificam testando seus atributos.

Comentarios IHC Baixos requisitos de memoria e processamento Uma hipoteses Sensibilidade a ordem no treinamento, maior quantidade de instâncias de treinamento para converger Menos sensitivo a ruido

Indução de Conceitos Competitivos

Protótipos Tarefa –dado um conjunto de instâncias pre- classificadas –encontrar uma descrição intencional –um conjunto de protótipos

Indução de Conceitos Competitivos Esquemas competitivos não podem ser representados isoladamente A extensão de um conceito depende de sua descrição e da dos outros O operador típico é o calculo da media das instâncias de treinamento. A descrição especifica a tendência central das instâncias

Aprendizado baseado em Instâncias Guardam instâncias específicas ao invés de uma descrição abstrata Protótipos –conjunção de pares atributos valor

Protótipos A B Peso Altura Peso A D B C

Protótipos Usar protótipos para classificação é um processo de três passos: –Dada uma instância I, –calcula-se sua distância a cada protótipo distância euclidiana, distância de hamming –Usa-se o resultado para classificar a instância, o protótipo mais perto

Método média das Instâncias Realizar a média das instâncias para encontrar o protótipo de cada classe Para determinar o valor p i de um atributo para um protótipo (numérico) – p i = 1/n  x ij (j=1,n)

Método incremental Ao encontrar uma instância de uma classe nova, guarde esta instância como protótipo Quando observar uma instância de uma classe conhecida, recalcule o protótipo –para cada atributo i  p i = (x i -p i )/n+1 –para atributos nominais, escolha o valor mais frequente

Método média das Instâncias Em termos de eficiência e elegância é um dos melhores pouca expressão representacional linhas de fronteiras

Método dos Pesos Um dos problemas do método anterior é tratar todos os atributos de forma equivalente Se os atributos tem escalas diferentes –normalizar Alguns atributos tem maior importância

Relevância dos atributos - Peso Altura Pesos de atributos iguais Altura 0.93 e peso Peso Altura + + -

Métrica de distância   i w i (p i -x i ) 2 w i ? w i = 1 - 1/n(  (k=1,c)  j=1,nk  p ki - x ji  ) n = número total de instâncias de treinamento nk = número de instâncias para a classe c

Modelos Estatisticos Naive Bayes

2 presupostos –todos os atributos são igualmente importantes –independencia estatistica (dado o valor da classe) A independencia nunca é verdadeira Na pratica o esquema trabalha bem.

Probabilidades para a base Weather 5/ 14 5 No 9/ 14 9 Yes Play 3/5 2/5 3 2 No 3/9 6/9 3 6 Yes True False True False Windy 1/5 4/5 1 4 NoYesNoYesNoYes 6/9 3/9 6 3 Normal High Normal High Humidity 1/5 2/ /9 4/9 2/ Cool2/53/9Rainy Mild Hot Cool Mild Hot Temperature 0/54/9Overcast 3/52/9Sunny 23Rainy 04Overcast 32Sunny Outlook NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast YesTrueNormalMildSunny YesFalseNormalMildRainy YesFalseNormalCoolSunny NoFalseHighMildSunny YesTrueNormalCoolOvercast NoTrueNormalCoolRainy YesFalseNormalCoolRainy YesFalseHighMildRainy YesFalseHighHotOvercast NoTrueHighHotSunny NoFalseHighHotSunny PlayWindyHumidityTempOutlook

?TrueHighCoolSunny PlayWindyHumidityTemp.Outlook Um novo dia: Probabilidade de cada classe Para “yes” = 2/9  3/9  3/9  3/9  9/14 = Para “no” = 3/5  1/5  4/5  3/5  5/14 = Normalizando entre 0 e 1:: P(“yes”) = / ( ) = P(“no”) = / ( ) = Probabilidades para a base Weather

Regra de Bayes A Probabilidade de um evento H dada a evidência E: A proobabilidade de H a priori : Pr[H] A probabilidade de um evento antes de ver a evidência A probabilidade a posteriori de H:Pr[H|E] A probabilidade de um evento após conhecer a evidência Thomas Bayes Nascido:1702 em London, England Morto:1761 em Tunbridge Wells, Kent, England

Naive Bayes para Classificação Aprendizado: Qual é a probabilidade de uma classe dada uma instância?? –Evidência E = Instância –Evento H = valor da classe para a instância Os atributos são independentes Pr[H|E]= Pr[E1|H]Pr[E2|H]...Pr[En|H]Pr[E] Pr[E]

Exemplo ?TrueHighCoolSunny PlayWindyHumidityTemp.Outlook Evidência E Probabilidade da classe “yes”

Discusão Naive Bayes trabalha muito bem mesmo quando existe dependência entre atributos. Adicionando muitos atributos redundantes causará problemas