A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Redes Bayesianas Paulo Adeodato George Cavalcanti CIn-UFPE.

Apresentações semelhantes


Apresentação em tema: "Redes Bayesianas Paulo Adeodato George Cavalcanti CIn-UFPE."— Transcrição da apresentação:

1 Redes Bayesianas Paulo Adeodato George Cavalcanti CIn-UFPE

2 Roteiro * Probabilidade (Teorema de Bayes). * O que são Redes Bayesianas? * Construindo uma Rede Bayesiana. * Inferência em Redes Bayesianas. * Aprendizagem em Redes Bayseanas. * Redes Bayesianas x Redes Neurais

3 Probabilidade Condicional: Definição e Propriedades 1- P(B|A), para A fixo, satisfaz os axiomas de Kolmogorov 2- Se A =, então P(B|A) = P(B) 3- A probabilidade condicional define-se em função da probabilidade não condicional, logo o cálculo da primeira decorre do conhecimento da segunda 4-

4 Teorema da Multiplicação de Probabilidades * Esse resultado permite calcular a probabilidade de ocorrência simultânea de vários eventos a partir das probabilidades condicionais.

5 Probabilidade de um Evento Considere os eventos B 1,...,B k formando uma partição de, isto é, * Intuitivamente, qualquer que seja o resultado de um experimento, um e somente um desses eventos B i acontecerá.Graficamente,

6 A Sempre vale a decomposição

7 mas os eventos são mutuamente excludentes. Assim, podemos calcular a probabilidade de A de forma aditiva onde cada uma dessas interseções é dada por: E dessa maneira temos o seguinte

8 Teorema da Probabilidade Total * A utilidade desse resultado reside em que, muitas vezes, é difícil calcular a probabilidade do evento A em forma direta, mas pode-se conhecer a probabilidade dele acontecer dado que ocorreram outros eventos B i que formam uma partição do espaço amostral.

9 Teorema de Bayes * Permite calcular a probabilidade da causa B i ter acontecido, dado que a conseqüência A tenha sido observada.

10 Exemplo Um sistema automático de apoio à decisão médica é utilizado para auxílio na diagnose do tipo de hepatite dos pacientes num ambulatório. Erros são inerentes ao processo decisório e o desempenho desse sistema, medido pela sua matriz de confusão abaixo, indica qual a probabilidade de um tipo de hepatite ser reconhecido como qualquer deles. Considerando que as incidências dos casos de hepatite na região são de 10% do tipo A, 60% do tipo B e 30% do tipo C, qual a probabilidade de um paciente que teve diagnosticada hepatite B pelo sistema tenha, na realidade, esse tipo de hepatite ?

11 Exemplo (Continuação) Cada elemento da matriz de confusão representa a probabilidade condicionada P(tipo diagnosticado | tipo real) de hepatite. DIAGNOSTICADA RABCRABC EA0,850,100,05 AB0,100,700,20 LC0,200,150,65

12 Exercício * Em teste de múltipla escolha, a probabilidade de o aluno saber a resposta é p. Havendo m escolhas, se ele sabe a resposta responde corretamente com probabilidade 1; se ele não sabe a resposta, responde corretamente com probabilidade 1/m. Qual é a probabilidade de que ele sabia a resposta dado que a pergunta foi respondida corretamente ?

13 Variaveis Aleatorias Bidimensionais * Há 3 tipos de VAs bidimensionais caracterizados pelos tipos das VAs que compõem o vetor aleatório: Discreta-discreta ( X,Y ) (estado civil, n o de dependentes) Discreta-contínua ( X,Y ) (renda, estado civil) Contínua -contínua ( X,Y ) (renda, tempo de emprego)

14 VAs Bidimensionais Discretas * Uma variável aleatória bidimensional é discreta se o seu contradomínio XY for discreto: XY = X x Y (produto cartesiano) * A sua distribuição é dada por: onde: * p(x i,y j ) representa a Probabilidade Conjunta:

15 VAs Bidimensionais Discretas(cont.) * Assim: e

16 Exemplo * Duas fábricas (F1 e F2) fornecem um tipo de peça a 3 empresas distintas (E1, E2 e E3), `a excecao da fábrica F2 que não fornece `a empresa F2. Suponha que o lançamento de pedidos é equiprovável de cada empresa para cada fábrica. Que modelo descreve a VA bidimensional dos pares (fábrica, empresa)?

17 Distribuições Marginais * Dada p(x i,y j ), é possível obter, tanto a distribuição de X quanto a distribuição de Y: e

18 Distribuições Marginais (cont.) * P(X=x i ) e P(Y=y j ) são chamadas probabilidades marginais ou distribuições marginais porque costumam ser colocadas nas margens das tabelas de distribuicoes discretas bidimensionais. * Quais são as probabilidades marginais do exemplo anterior? 2/5 1/5 2/5 3/5

19 Independência * Seja (X,Y) uma variável aleatória bidimensional discreta. A variáveis aleatórias X e Y são ditas independentes se p(x i,y j ) = p(x i ) p(y j ) para todo (x i,y j ) pertencente a X x Y

20 Distribuição de Probabilidade Conjunta * O que é? É uma tabela n-dimensional na qual os valores das células dão a probabilidade de um dado evento ocorrer. * Poder expressivo Ela pode responder qualquer questão sobre o domínio. * Problema: complexidade de cálculo matemático e tamanho que cresce exponencialmente com a dimensão do espaço Exemplo de uma distribuição de probabilidade conjunta

21 Redes Bayesianas: representação do conhecimento para raciocínio com incerteza * Representa 3 tipos de conhecimento do domínio: relações de independência entre variáveis aleatórias (graficamente); probabilidades a priori de algumas variáveis; probabilidades condicionais entre variáveis dependentes. * Conhecimento representado: pode ser aprendido a partir de exemplos reutilizando parte dos mecanismos de raciocínio * Permite calcular eficientemente: probabilidades a posteriori de qualquer variável aleatória(inferência); usando para isso uma definição recursiva do teorema de Bayes.

22 Estrutura de uma rede bayesiana * Cada variável aleatória (VA) é representada por um nó da rede * Cada nó (VA) recebe conexões dos nós que têm influência direta (seus pais) sobre ele. (Tarefa fácil para o especialista) * Cada nó possui uma tabela de Probabilidades Condicionais que quantifica a influência dos seus pais sobre ele. (Difícil para o especialista) * O grafo é acíclico (veremos a razao matematica para tal)

23 Construção (manual) de uma rede bayesiana * Escolher variáveis relevantes que descrevam o domínio; * Escolher uma ordem para as variáveis; * Enquanto tiver variáveis sobrando: pegar uma variável e adicionar um nó na rede para ela; criar links dos nós anteriormente inseridos que satisfaçam a independência condicional; definir a tabela de probabilidade condicional para a variável.

24 Exemplo simples de rede bayesiana (cont.) RouboTerremoto Alarme JohnCalls MaryCalls

25 Decomposição da Probabilidade Conjunta X1X1 X2X2 X3X3 XnXn

26 * Essa decomposicao deixa clara a necessidade de a rede bayesiana ser um grafo aciclico * A cada fator acrescentado na decomposicao acrescentamos 2 j-1 condicoes da tabela de probabilidades condicionadas da j-esima VA ao total de condicoes * Assim, teremos um total ( 2 j-1 ) de condicoes nas tabelas das probabilidades condicionadas das Vas. Esse representa o pior caso possivel para uma rede bayesiana.

27 Aprendizagem em redes bayesianas * 4 Situacoes possiveis: Estrutura conhecida, completamente observável t as tabelas de probabilidade condicionada podem ser estimadas usando o conjunto de exemplos com classificador ingênuo? de Bayes Estrutura desconhecida, completamente observável t o problema é construir a topologia da rede. Busca no espaço de estruturas. Estrutura conhecida, variáveis escondidas t caso parecido com aprendizado em redes neurais Estrutura desconhecida, variáveis escondidas t não se conhece algoritmos para este tipo de problema

28 Tipos de conhecimento * Causal Refletem a direção conhecida de causalidade no mundo: para algumas propriedades do mundo percepções são geradas. ex, P(DorDeDente|Cárie), P(MaryCalls|Alarme) * Diagnóstico Infere a presença de propriedades escondidas diretamente da percepção. Produzem conclusões fracas. ex, P(Cárie|DorDeDente), P(Alarme|MaryCalls)

29 Ordenar nós de uma rede bayesiana * Algoritmo de construção apresentado especifica a ordem * Raízes sempre causais, folhas sem influência causal sobre nenhuma outra variável * Caracteristicas: compactacao da rede menor complexidade computacional (pior caso volta a distribuição de probabilidade conjunta) menores tempo de resposta e necessidade de memoria

30 Exemplo de rede bayesiana não puramente causal * Vamos usar o exemplo do alarme com a seguinte ordem de inserção dos nós: MaryCalls, JohnCalls, Alarme, Roubo e Terremoto. RouboTerremoto Alarme JohnCalls MaryCalls

31 Exemplo de rede bayesiana não puramente causal (cont.) * Problemas: A figura possui duas conexões a mais; julgamento não natural e difícil das probabilidades; * Tendo uma rede puramente causal, teríamos um número menor de conexões * Podemos piorar ainda mais a nossa configuração da rede, seguindo a seguinte ordem de criação: MaryCalls, JohnCalls, Terremoto, Roubo e Alarme. Resulta num total de condicoes nas tabelas das probabilidades condicionadas das VAs (pior caso = probabilidade conjunta original)

32 Exemplo de rede bayesiana não puramente causal (cont.) Roubo Terremoto Alarme JohnCalls MaryCalls

33 Preencher tabelas de probabilidades condicionais com conhecimento do domínio * Problema: preencher as tabelas de probabilidade condicionada. * Distribuições canônicas (ex, normal, binomial) Relações entre nós (pais e filhos) se ajustam a algum padrão. Nesses casos, toda a tabela pode ser especificada determinando o padrão e talvez suprimindo alguns parâmetros. (conseguido apenas para a Normal com intervalos discretizados) * Relações determinísticas Os nós possuem seus valores especificados pelos valores dos seus pais, sem incerteza. * Lógica ruidosa (noisy-OR) A probabilidade de o nó de saída ser falso é o produto do parâmetro ruidoso de todos os nós de entrada que são verdadeiros.

34 Preencher tabelas de probabilidades condicionais com conhecimento do domínio

35 Versatilidade das redes bayesianas * Redes Bayesianas oferecem 4 tipos de inferência: Causal (da causa para o efeito) t P(JohnCalls/Roubo) = 0,86 RouboAlarmeJohnCalls EvidênciaQuery Diagnóstico (do efeito para a causa) t P(Roubo/JohnCalls) = 0,016 JohnCallsAlarmeRoubo EvidênciaQuery

36 Versatilidade das redes bayesianas Intercausal (entre causas com um efeito comum) t P(Roubo/Alarme) = 0,376 t P(Roubo/Alarme Terremoto) = 0,373 Mista (combinando duas ou mais das de cima) t P(Alarme/JohnCalls Terremoto) = 0,03 t Este é um uso simultâneo de inferência causal e diagnóstico. RouboAlarmeTerremoto Query Evidência JohnCalls AlarmeTerremoto Evidência Query

37 Exemplo da tarefa de aprendizagem RouboTerremoto Alarme JohnCalls MaryCalls

38 Outros Usos * Além de calcular consultas a partir de variáveis como evidência uma rede bayesiana também pode ser usada para realizar as seguintes tarefas: tomada de decisão decidir qual variável adicional deve ser observada Análise sensitiva t nos dá resposta as questões: ¤Qual evidência é a favor, contra e/ou irrelevante para uma dada hipótese? ¤Qual evidência distingue uma hipótese h i da hipótese h j ? explicar os resultados para o usuário

39 Aula Encerrada Neste Ponto

40 Calcular probabilidades a posteriori usando uma rede bayesiana * Caso simples: polytree (redes com conexões simples) t algoritmo recursivo usando teorema de bayes a cada passo * Caso complexo: rede multiplamente conectados t redução para polytree ¤agrupamento (grandes tabelas) ¤separação condicional (muitas redes) t simulação estocástica (muitas iterações)

41 Aprender probabilidades com estrutura fixa * Humanos acham fácil dizer o que causa o que, mas acham difícil colocar números nos links. * Tarefa de aprendizagem Dados: t relações de independência entre variáveis aleatórias (estrutura) t probabilidades a priori das variáveis de entrada t probabilidades a posteriori de variáveis de saída Calcular: t probabilidades condicionais das variáveis dependentes * 2 algoritmos principais: gradiente ascendente de P(D|Hi) - muito parecido com aprendizagem de pesos em redes neurais algoritmo EM (Estimação Média) ambos iterativos e sujeito a encontrar mínimo local

42 Exemplo da tarefa de aprendizagem RouboTerremoto Alarme JohnCalls MaryCalls

43 Exemplo da tarefa de aprendizagem * Dados de treinamento P(J|R), p(J|T), p(M|R), P(M|T) * Exemplos: True, False, False, False (...) False, False, True, False * explicar que usando bayes iterativamente pode calcular ? a partir dos dados

44 Gradiente ascendente de P(D|H) * exemplo passo a passo * formula de Mitchell que mostra similaridade com RN

45 Algoritmo EM

46 Redes Bayesianas x Redes Neurais: similaridades * processo iterativo em N épocas * ajuste das probabilidades condicionais no lugar de pesos * use gradiente ascendente de P(D|Hi)

47 Redes Bayesianas x Redes Neurais diferenças * Redes Bayesianas representações locais as variáveis possuem dois níveis de ativação pode tratar qualquer sub- conjunto das variáveis como entrada Inserção fácil de conhecimento a priori nao implementavel em hardware * Redes Neurais representacao global distribuida variaveis discretas ou continuas execucao em tempo linear entradas e saidas fixas dificil insercao de conhecimento a priori implementavel em hardware

48 Bibliografia * Russel, S, & Norvig, P. (1995). Artificial Intelligence: a Modern Approach (AIMA) Prentice-Hall. Pages , * An Introduction to Baysean Networks * Mitchell, T. & (1997): Machine Learning, McGraw-Hill. Cap.6 * Fayyad et al. (1996): Advances in knowledge discovery and data mining, AAAI Press/MIT Press. Cap.11 * Pearl, J. (1988) Probabilistic Reasoning in Inteligent Systems


Carregar ppt "Redes Bayesianas Paulo Adeodato George Cavalcanti CIn-UFPE."

Apresentações semelhantes


Anúncios Google