A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizado Bayesiano Disciplina: Sistemas Inteligentes.

Apresentações semelhantes


Apresentação em tema: "Aprendizado Bayesiano Disciplina: Sistemas Inteligentes."— Transcrição da apresentação:

1 Aprendizado Bayesiano Disciplina: Sistemas Inteligentes

2 Aprendizagem Bayesiana Fornece probabilidades para suas respostas Permite combinar facilmente conhecimento a priori com dados de observação Métodos práticos e bem sucedidos para aprendizagem  Aprendizagem Bayesiana Ingênua  Aprendizagem de Redes Bayesianas

3 Calcula a probabilidade de diferentes hipóteses a medida que novas evidências são observadas. Seja h : hipótese e D: evidência Objetivo: Calcular P(h/D) P(h): probabilidade a priori de h P(D): probabilidade a priori de D P(D/h): probabilidade de observar D dado que h aconteceu P(h /D) = P(D / h)P(h) P(D) Teorema de Bayes

4 Exemplo: Classificar Risco - Seguradora de Veículos Hipóteses: {risco=alto; risco=baixo} Probabilidades a priori: P(risco = alto) = 0.2 P(risco = baixo) = 0.8 Clientes: sexo = masculino, ou sexo = feminino Pergunta: Qual a probabilidade a posteriori? Qual a P(risco = alto | sexo = M) ? Qual a P(risco = alto | sexo = F) ?

5 Evidência ‘sexo = M’: P(risco = alto) = 0.2 P(sexo = M) = 0.6 P(sexo = M / risco = alto) = 0.7 P(risco = alto | sexo = M) = P(sexo = M / risco = alto) * P(risco = alto) = P(sexo = M) = 0.7 * 0.2 / 0.6 = 0.23  P(risco = baixo|sexo=M) = 1 – 0.23 = 0.77 P(h /D) = P(D / h)P(h) P(D) Exemplo: Classificar Risco - Seguradora de Veículos

6 Evidência ‘sexo = F’: P(risco = alto) = 0.2 P(sexo = F) = 0.4 P(sexo = F / risco = alto) = 0.3 P(risco = alto | sexo = F) = P(sexo = F / risco = alto) * P(risco = alto) = P(sexo = F) = 0.3 * 0.2 / 0.4 = 0.1 P(risco = baixo|sexo=F) = 1 – 0.1 = 0.9 P(h /D) = P(D / h)P(h) P(D) Exemplo: Classificar Risco - Seguradora de Veículos

7 Escolha das Hipóteses Geralmente, existe um espaço de hipóteses (H), e deseja- se a hipótese (h  H) mais provável, observados os dados de treinamento (D) Hipótese de máxima a posteriori h MAP Hipótese de máxima verossimilhança h ML (supondo que P(h i )=P(h j ))

8 1.Para cada hipótese h  H, calcule a probabilidade a posteriori 2.Escolha a hipótese h MAP de maior probabilidade à posteriori Aprendizagem pelo Método da Força Bruta

9 Suponha que D é o conjunto de exemplos D = {(x 1, f(x 1 )),  (x m, f(x m ))} Cálculo de P(D/h)  P(D/h) = 1, se h é consistente com D (ou seja f(x i ) = h(x i ),  (x 1, f(x i ))  D)  P(D/h) = 0, caso contrário Aprendizagem pelo Método da Força Bruta

10 Escolha P(h) sob a hipótese de distribuição uniforme  h  H P(D) = onde VS H,D é subconjunto de hipóteses de H consistentes com D |VS H,D | |H| Aprendizagem pelo Método da Força Bruta

11 Cálculo da probabilidade a posteriori:  Se h é inconsistente com D  Se h é consistente com D |VS H,D | |H| 1 |H| 1 |VS H,D | P(h/D) = P(D/h)P(h) = 1 * = P(D) P(h/D) = P(D/h)P(h) = 0 * P(h) = 0 P(D) Aprendizagem pelo Método da Força Bruta

12 Exemplo: Método da Força Bruta Considere H = {h 1, h 2, h 3, h 4 }  h 1 : risco = alto, h 2 : risco = baixo  h 3 : se sexo = M então risco = alto senão risco = baixo  h 4 : se sexo = M então risco = baixo senão risco = alto Considere exemplo: D 1 = {sexo = M, risco = alto}  Então VS H,D1 = {h 1, h 3 }, P(h 1 |D 1 ) = P(h 3 |D 1 ) = 0.5 e P(h 2 |D 1 ) = P(h 4 |D 1 ) = 0 Considere exemplo: D 2 = {sexo = F, risco = baixo}  Então VS H,{D1,D2} = {h 3 }, P(h 3 |{D 1,D 2 }) = 1 e P(h 1 |{D 1,D 2 }) = P(h 2 |{D 1,D 2 }) = P(h 4 |{D 1,D 2 }) = 0

13 Evolução das Probabilidades a Posteriori em (a) todas as hipóteses tem a mesma probabilidade em (b) e (c) a medida que novos exemplos são adquiridos, a probabilidade a posteriori das hipóteses inconsistentes se tornam nulas, enquanto que a probabilidade a posteriori das hipóteses que restaram no espaço de versões aumenta P(h) P(h|D 1 ) P(h|D 1,D 2 ) hipóteses (a) hipóteses (b) hipóteses (c)

14 Método da Força Bruta – Observações Na prática:  só funciona quando o conceito verdadeiro está contido no espaço de hipóteses  funciona com dados sem ruído No cálculo da probabilidade P(h/D) pode se levar em consideração  erro obtido pela hipótese h no conjunto D  o tamanho da hipótese

15 Dada uma nova instância x, qual é a sua classificação mais provável?  h MAP (x) nem sempre é a classificação mais provável Considere três hipóteses:  P(h 1 /D) = 0.4, P(h 2 /D) = 0.3 e P(h 3 /D) = 0.3 Dada uma nova instância x a ser classificada como alto (+) ou baixo (-):  Suponha: h 1 (x) = +, h 2 (x) = - e h 3 (x) = - A classificação mais provável de x? Classificador Bayesiano Ótimo

16 Se a possível classificação do novo exemplo pode ser qualquer v j  V, a probabilidade de que a classificação correta seja v j Classificação Bayesiana ótima Classificador Bayesiano Ótimo

17 Exemplo  P(h 1 /D) = 0.4, P(-/h 1 ) = 0, P(+/h 1 ) = 1  P(h 2 /D) = 0.3, P(-/h 2 ) = 1, P(+/h 2 ) = 0  P(h 3 /D) = 0.3, P(-/h 3 ) = 1, P(+/h 3 ) = 0 Portanto e Classificador Bayesiano Ótimo

18 Classificador Bayesiano Ingênuo Suponha uma função de classificação f: X  V, onde cada instância x é descrita pelos atributos {a 1, , a n } O valor mais provável de f(x) é

19 Calcular P(v j ) a partir dos dados de treinamento é fácil, o problema é calcular a probabilidade P(a 1,..., a n | v j ) Suposição Bayesiana Ingênua: ou seja, as variáves são a 1,..., a n independentes Classificador Bayesiano Ingênuo (NB): )()/,,(maxarg jjn1 Vv MAP vPvaaP v j    Classificador Bayesiano Ingênuo

20 Estimativa das Probabilidades P(v j ) e P(a i /v j ) através das freqüências relativas P’(v j ) e P’(a i /v j ) Para cada v j  P’(v j )  estimativa de P(v j )  Para cada valor a i de cada atributo a P’(a i /v j )  estimativa de P(a i /v j ) Classificador de novas instancias(x) Classificador Bayesiano Ingênuo

21 Dia Tempo Temp. Humid. Vento Jogar Dia Tempo Temp. Humid. Vento Jogar D1 Sol Quente Alta Fraco Não D2 Sol Quente Alta Forte Não D3 Coberto Quente Alta Fraco Sim D4 Chuva Normal Alta Fraco Sim D5 Chuva Frio Normal Fraco Não D6 Chuva Frio Normal Forte Não D7 Coberto Frio Normal Forte Sim D8 Sol Normal Alta Fraco Não D9 Sol Frio Normal Fraco Sim D10 Chuva Normal Normal Fraco Sim D11 Sol Frio Alta Forte ? Classificador Bayesiano Ingênuo: Exemplo P(Sim) = 5/10 = 0.5 P(Não) = 5/10 = 0.5 P(Sol/Sim) = 1/5 = 0.2 P(Sol/Não) = 3/5 = 0.6 P(Frio/Sim) = 2/5 = 0.4 P(Frio/Não) = 2/5 = 0.4 P(Alta/Sim) = 2/5 = 0.4 P(Alta/Não) = 3/5 = 0.6 P(Forte/Sim) = 1/5 = 0.2 P(Forte/Não) = 2/5 = 0.4 P(Sim)P(Sol/Sim) P(Frio/Sim) P(Alta/Sim) P(Forte/Sim) = = P(Não)P(Sol/Não)P(Frio/Não) P(Alta/Não) P(Forte/Não) = =  Jogar_Tenis (D11) = Não

22 Algoritmo Bayesiano Ingênuo: Dificuldades Suposição de independência condicional quase sempre violada, mas funciona surpreendentemente bem O que acontece se nenhuma das instancias classificadas como v j tiver o valor a i ?

23 Solução típica  n é o número de exemplos para os quais v = v j  n c número de exemplos para os quais v = v j e a = a i  p é a estimativa à priori para P’(a i /v j )  m é o peso dado à priori (número de exemplos “virtuais”) Algoritmo Bayesiano Ingênuo: Dificuldades

24 Exemplo: Classificação de Documentos Classificar documentos em duas classes v j = {‘interesse’, ‘não- interesse} Variáveis a 1,..., a n são palavras de um vocabulário e P’(a i /v j ) é a freqüência com que a palavra a i aparece entre os documentos da classe v j P’(v j ) = número de documentos da classe v j número total de documentos

25 P’(a i /v j ) = n ij + 1 n j + |Vocabulário| onde n j é o número total de palavras nos documentos da classe v j e n ij é o número de ocorrências da palavra a i nos documentos da classe v j. Usa-se m = |Vocabulário| e p = 1/ |Vocabulário| (assumindo que cada palavra tem a mesmo probabilidade de ocorrência) Exemplo: Classificação de Documentos

26 Classificação Final: Observação: nem sempre a ocorrência de uma palavra independe das outras palavras. Exemplo: ‘Inteligência’ e ‘Artificial’. Exemplo: Classificação de Documentos

27 Redes Bayesianas Uma Rede Bayesiana é um grafo acíclico e dirigido onde: Cada nó da rede representa uma variável aleatória Um conjunto de ligações ou arcos dirigidos conectam pares de nós  cada nó recebe arcos dos nós que tem influência direta sobre ele (nós pais). Cada nó possui uma tabela de probabilidade condicional associada que quantifica os efeitos que os pais têm sobre ele

28 Exemplo Tempestade Ônibus de Turismo Fogo no Acampamento Trovão Fogo na floresta Raio T,O T,  O  T, O  T,  O FA  FA Fogo no Acampamento Distribuição de Probabilidade: P(FA/T,O)

29 Aprendizagem de Redes Bayesianas Variantes da tarefa de aprendizagem  A estrutura da rede pode ser conhecida ou desconhecida  O conjunto de treinamento pode fornecer valores para todas as variáveis da rede ou para somente algumas Se a estrutura é conhecida e todas as variáveis observadas  Então é tão fácil como treinar um classificador Bayesiano ingênuo

30 Suponha a estrutura conhecida e variáveis parcialmente observáveis  Exemplo, observa-se fogo na Floresta, Tempestade, Ônibus de turismo, mas não Raio, Fogo no Acampamento  Aprende-se a tabela de probabilidades condicionais de cada nó usando o algoritmo do gradiente ascendente  O sistema converge para a rede h que maximiza localmente ln (P(D/h)) Aprendizagem de Redes Bayesianas

31 Exemplo Tempestade Ônibus de Turismo Fogo no Acampamento Trovão Fogo na floresta Raio T,O T,  O  T, O  T,  O FA ? ? ? ?  FA ? ? ? ? Fogo no Acampamento Distribuição de Probabilidade: P(FA/T,O)

32 Gradiente Ascendente para Redes Bayesianas Seja w ijk uma entrada na tabela de probabilidade condicional para a variável Y i na rede  w ijk = P(Y i = y ij /Predecessores(Y i ) = lista u ik de valores)  Exemplo, se Y i = Fogo no Acampamento, então u ik pode ser {Tempestade = T, Ônibus de Turismo =  O } Aplicar o gradiente ascendente repetidamente  Atualizar todos os w ijk usando os dados de treinamento D  Normalizar os w ijk para assegurar e

33 Aprendizagem da Estrutura de Redes Bayesianas Métodos baseados em Busca e Pontuação Busca no espaço de estruturas Cálculo das tabelas de probabilidade para cada estrutura Definição da medida de avaliação (Pontuação)  Ex.: Minimum Descrition Length (MDL) Operadores de busca (adição, remoção ou reversão de arcos da rede) Processo de busca prossegue enquanto a pontuação de uma rede for significativamente melhor que a anterior Ex: K2(Cooper e Herskovits, 1992)

34 Aprendizagem da Estrutura de Redes Bayesianas Métodos baseados em análise de dependência Arcos são adicionados ou removidos dependendo de um teste de independência condicional entre os nós Teste de independência pode ser feito entre pares de nós ou com um conjuntos maior de variáveis condicionais Ex: CDL(Chen, Bell e Liu 1997)

35 Aprendizagem da Estrutura de Redes Bayesianas Métodos baseados em Busca e Pontuação Vantagem: Menor complexidade no tempo Desvantagem: Não garante encontrar melhor solução Métodos baseados em análise de dependência Vantagem: Sob certas condições, encontra a melhor solução Desvantagem: Teste de independência com uma quantidade muito grande de variáveis pode se tornar inviável

36 Conclusões Aprendizado Bayesiano pode ser usado para determinar as hipóteses mais prováveis dado um conjunto de exemplos Fornece algoritmos que podem ser usados na prática Classificador Bayesiano Ingênuo Redes Bayesianas

37 Bibliografia Russel, S, & Norvig, P. (1995). Artificial Intelligence: a Modern Approach (AIMA) Prentice- Hall. Pages , Mitchell, T. & (1997): Machine Learning, McGraw- Hill. Cap.6 Fayyad et al. (1996): Advances in knowledge discovery and data mining, AAAI Press/MIT Press. Cap.11 Pearl, J. (1988) Probabilistic Reasoning in Inteligent Systems


Carregar ppt "Aprendizado Bayesiano Disciplina: Sistemas Inteligentes."

Apresentações semelhantes


Anúncios Google