Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouVergílio Philippi Carlos Alterado mais de 8 anos atrás
1
Aprendizado Baseado em Instancias
2
Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os métodos baseados em instâncias guardam os exemplos de treinamento A generalização é posposta até que uma nova instância deva ser classificada Cada vez que uma nova instância é encontrada, seus relacionamentos com os exemplos previamente guardados é examinado para atribuir um valor de função alvo.
3
IBL IBL, instance based learning Inclui os métodos de vizinho mais próximo, raciocínio baseado em casos IBL é um método chamado lazy IBL é utilizado em funções alvo com valores discreto ou valores reais.
4
IBL IBL pode utilizar uma representação simbólica mais complexa para as instâncias -> Raciocínio baseado em Casos. O custo de classificar uma nova instância é alto Indexação eficiente dos exemplos de treinamento
5
Aprendizado K-Nearest Neighbor O método IBL mas basico é o algoritmo k- nearest neighbor Este algoritmo assume que todas as instâncias correspondem a um ponto no espaço n-dimensional R n O vizinho mais próximo de uma instância é definido em termos da distância euclidiana.
6
Distância Euclidiana Seja a instância descrita por –(a 1 (x),a 2 (x),.........a n (x)) A distância entre 2 instâncias Xi e Xj –d(Xi,Xj)=(∑ r=1,n (a r (Xi)-a r (Xj)) 2 ) 1/2 Esta abordagem é apropriada tanto para funções alvo discretas ou reais.
7
Algoritmo para funções Alvo Discretas Neste caso o valor f(xq) retornado é o f(xq) mais freqüente entre os k vizinhos de f(xq). Algoritmo –Fase de treinamento: para cada exemplo de treinamento (x,f(x)), adicione o exemplo a lista de exemplos.
8
Classificação Dado uma instância Xq a ser classificada Sejam X 1...X k as instâncias de treinamento mais próximas de Xq Retorne –F(Xq) <- argmax )=(∑ i=1,k α(r,f(Xi)) Onde α(a,b)=1 se a=b Caso contrario α(a,b)=0
9
Numero de vizinhos 1 vizinho classifica como + 5 vizinhos classificam como -
10
Regressão Classificação no caso de valores reais f(Xq) =(∑ i=1,k,f(Xi))/k
11
Algoritmo Nearest Neighbor Distâncias Ponderadas Um refinamento obvio do algoritmo é atribuir pesos a cada k-vizinho de acordo a sua distância a instância a classificar Xq Ex: valores discretos –F(Xq) <- argmax )=(∑ i=1,k w i α(r,f(Xi)) –Voto de acordo com a distância –Wi = 1/ d(Xq,Xi) 2 –Se Xi= Xq -> f(Xq) = f(Xi)
12
Continuo f(Xq) =(∑ i=1,k,wi f(Xi))/ ∑ i=1,k,wi –Normalizar os pesos –K = todas as instâncias ou constante Obs: A introdução de pesos no algoritmo o faz um método altamente efetivo para vários problemas práticos É robusto a dados com ruído e efetivo com grandes bases de treinamento É sensível ao conjunto de atributos
13
Regressão Localmente Ponderada Esta abordagem usa exemplos de treinamento ponderado por sua distância para formar uma aproximação a f. Ex: podemos usar uma função linear, quadrática, rede neural ou alguma outra função. Dada uma instância a classificar Xq, a abordagem constrõe uma aproximação f usando os vizinhos de Xq. Esta aproximação é utilizada para calcular f(Xq)
14
Regressão Linear f(X) = w 0 + w 1 a 1 (x)+.....+ w n a n (x) E = ½ ∑ i=1,k,( f(X) – f e (x)) 2 ∆W=ŋ ∑ i=1,k,( f(X) – f e (x)) a n (x)
15
Problemas de Dimensionalidade Imagine instâncias descritas por 20 atributos, mais somente 2 são relevantes Problemas de recuperação, kd-tree, as instâncias são guardadas nas folhas da arvore, com as instâncias vizinhas no no perto dele. Os nos internos da arvore ordenam a nova instância e a classificam testando seus atributos.
16
Comentarios IHC Baixos requisitos de memoria e processamento Uma hipoteses Sensibilidade a ordem no treinamento, maior quantidade de instâncias de treinamento para converger Menos sensitivo a ruido
17
Indução de Conceitos Competitivos
18
Protótipos Tarefa –dado um conjunto de instâncias pre- classificadas –encontrar uma descrição intencional –um conjunto de protótipos
19
Indução de Conceitos Competitivos Esquemas competitivos não podem ser representados isoladamente A extensão de um conceito depende de sua descrição e da dos outros O operador típico é o calculo da media das instâncias de treinamento. A descrição especifica a tendência central das instâncias
20
Aprendizado baseado em Instâncias Guardam instâncias específicas ao invés de uma descrição abstrata Protótipos –conjunção de pares atributos valor
21
Protótipos A B Peso Altura Peso A D B C
22
Protótipos Usar protótipos para classificação é um processo de três passos: –Dada uma instância I, –calcula-se sua distância a cada protótipo distância euclidiana, distância de hamming –Usa-se o resultado para classificar a instância, o protótipo mais perto
23
Método média das Instâncias Realizar a média das instâncias para encontrar o protótipo de cada classe Para determinar o valor p i de um atributo para um protótipo (numérico) – p i = 1/n x ij (j=1,n)
24
Método incremental Ao encontrar uma instância de uma classe nova, guarde esta instância como protótipo Quando observar uma instância de uma classe conhecida, recalcule o protótipo –para cada atributo i p i = (x i -p i )/n+1 –para atributos nominais, escolha o valor mais frequente
25
Método média das Instâncias Em termos de eficiência e elegância é um dos melhores pouca expressão representacional linhas de fronteiras
26
Método dos Pesos Um dos problemas do método anterior é tratar todos os atributos de forma equivalente Se os atributos tem escalas diferentes –normalizar Alguns atributos tem maior importância
27
Relevância dos atributos - Peso Altura + + - Pesos de atributos iguais Altura 0.93 e peso 0.68 - Peso Altura + + -
28
Métrica de distância i w i (p i -x i ) 2 w i ? w i = 1 - 1/n( (k=1,c) j=1,nk p ki - x ji ) n = número total de instâncias de treinamento nk = número de instâncias para a classe c
29
Modelos Estatisticos Naive Bayes
30
2 presupostos –todos os atributos são igualmente importantes –independencia estatistica (dado o valor da classe) A independencia nunca é verdadeira Na pratica o esquema trabalha bem.
31
Probabilidades para a base Weather 5/ 14 5 No 9/ 14 9 Yes Play 3/5 2/5 3 2 No 3/9 6/9 3 6 Yes True False True False Windy 1/5 4/5 1 4 NoYesNoYesNoYes 6/9 3/9 6 3 Normal High Normal High Humidity 1/5 2/5 1 2 2 3/9 4/9 2/9 3 4 2 Cool2/53/9Rainy Mild Hot Cool Mild Hot Temperature 0/54/9Overcast 3/52/9Sunny 23Rainy 04Overcast 32Sunny Outlook NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast YesTrueNormalMildSunny YesFalseNormalMildRainy YesFalseNormalCoolSunny NoFalseHighMildSunny YesTrueNormalCoolOvercast NoTrueNormalCoolRainy YesFalseNormalCoolRainy YesFalseHighMildRainy YesFalseHighHotOvercast NoTrueHighHotSunny NoFalseHighHotSunny PlayWindyHumidityTempOutlook
32
?TrueHighCoolSunny PlayWindyHumidityTemp.Outlook Um novo dia: Probabilidade de cada classe Para “yes” = 2/9 3/9 3/9 3/9 9/14 = 0.0053 Para “no” = 3/5 1/5 4/5 3/5 5/14 = 0.0206 Normalizando entre 0 e 1:: P(“yes”) = 0.0053 / (0.0053 + 0.0206) = 0.205 P(“no”) = 0.0206 / (0.0053 + 0.0206) = 0.795 Probabilidades para a base Weather
33
Regra de Bayes A Probabilidade de um evento H dada a evidência E: A proobabilidade de H a priori : Pr[H] A probabilidade de um evento antes de ver a evidência A probabilidade a posteriori de H:Pr[H|E] A probabilidade de um evento após conhecer a evidência Thomas Bayes Nascido:1702 em London, England Morto:1761 em Tunbridge Wells, Kent, England
34
Naive Bayes para Classificação Aprendizado: Qual é a probabilidade de uma classe dada uma instância?? –Evidência E = Instância –Evento H = valor da classe para a instância Os atributos são independentes Pr[H|E]= Pr[E1|H]Pr[E2|H]...Pr[En|H]Pr[E] Pr[E]
35
Exemplo ?TrueHighCoolSunny PlayWindyHumidityTemp.Outlook Evidência E Probabilidade da classe “yes”
36
Discusão Naive Bayes trabalha muito bem mesmo quando existe dependência entre atributos. Adicionando muitos atributos redundantes causará problemas
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.