A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Paulo Adeodato George Cavalcanti CIn-UFPE

Apresentações semelhantes


Apresentação em tema: "Paulo Adeodato George Cavalcanti CIn-UFPE"— Transcrição da apresentação:

1 Paulo Adeodato George Cavalcanti CIn-UFPE
Redes Bayesianas Paulo Adeodato George Cavalcanti CIn-UFPE

2 Roteiro Probabilidade (Teorema de Bayes). O que são Redes Bayesianas?
Construindo uma Rede Bayesiana. Inferência em Redes Bayesianas. Aprendizagem em Redes Bayseanas. Redes Bayesianas x Redes Neurais

3 Probabilidade Condicional: Definição e Propriedades
1- P(B|A), para A fixo, satisfaz os axiomas de Kolmogorov 2- Se A = , então P(B|A) = P(B) 3- A probabilidade condicional define-se em função da probabilidade não condicional, logo o cálculo da primeira decorre do conhecimento da segunda 4-

4 Teorema da Multiplicação de Probabilidades
Esse resultado permite calcular a probabilidade de ocorrência simultânea de vários eventos a partir das probabilidades condicionais.

5 Probabilidade de um Evento
Considere os eventos B1,...,Bk formando uma partição de W, isto é, * Intuitivamente, qualquer que seja o resultado de um experimento, um e somente um desses eventos Bi acontecerá.Graficamente,

6 A Sempre vale a decomposição

7 mas os eventos são mutuamente excludentes. Assim, podemos calcular a probabilidade de A de forma aditiva onde cada uma dessas interseções é dada por: E dessa maneira temos o seguinte

8 Teorema da Probabilidade Total
A utilidade desse resultado reside em que, muitas vezes, é difícil calcular a probabilidade do evento A em forma direta, mas pode-se conhecer a probabilidade dele acontecer dado que ocorreram outros eventos Bi que formam uma partição do espaço amostral.

9 Teorema de Bayes Permite calcular a probabilidade da “causa” Bi ter acontecido, dado que a “conseqüência A tenha sido observada.

10 Exemplo Um sistema automático de apoio à decisão médica é utilizado para auxílio na diagnose do tipo de hepatite dos pacientes num ambulatório. Erros são inerentes ao processo decisório e o desempenho desse sistema, medido pela sua matriz de confusão abaixo, indica qual a probabilidade de um tipo de hepatite ser reconhecido como qualquer deles. Considerando que as incidências dos casos de hepatite na região são de 10% do tipo A, 60% do tipo B e 30% do tipo C, qual a probabilidade de um paciente que teve diagnosticada hepatite B pelo sistema tenha, na realidade, esse tipo de hepatite ?

11 Exemplo (Continuação)
Cada elemento da matriz de confusão representa a probabilidade condicionada P(tipo diagnosticado | tipo real) de hepatite. DIAGNOSTICADA R A B C E A 0,85 0,10 0,05 A B 0,10 0,70 0,20 L C 0,20 0,15 0,65

12 Exercício Em teste de múltipla escolha, a probabilidade de o aluno saber a resposta é p. Havendo m escolhas, se ele sabe a resposta responde corretamente com probabilidade 1; se ele não sabe a resposta, responde corretamente com probabilidade 1/m. Qual é a probabilidade de que ele sabia a resposta dado que a pergunta foi respondida corretamente ?

13 Variaveis Aleatorias Bidimensionais
Há 3 tipos de VAs bidimensionais caracterizados pelos tipos das VAs que compõem o vetor aleatório: Discreta-discreta (X,Y)  (estado civil, no de dependentes) Discreta-contínua (X,Y)  (renda, estado civil) Contínua -contínua (X,Y)  (renda, tempo de emprego)

14 VAs Bidimensionais Discretas
Uma variável aleatória bidimensional é discreta se o seu contradomínio XY for discreto: XY = X x Y (produto cartesiano) A sua distribuição é dada por: onde: p(xi,yj) representa a Probabilidade Conjunta:

15 VAs Bidimensionais Discretas (cont.)
Assim: e

16 Exemplo Duas fábricas (F1 e F2) fornecem um tipo de peça a 3 empresas distintas (E1, E2 e E3), `a excecao da fábrica F2 que não fornece `a empresa F2. Suponha que o lançamento de pedidos é equiprovável de cada empresa para cada fábrica. Que modelo descreve a VA bidimensional dos pares (fábrica, empresa)?

17 Distribuições Marginais
Dada p(xi,yj), é possível obter, tanto a distribuição de X quanto a distribuição de Y: e

18 Distribuições Marginais (cont.)
P(X=xi) e P(Y=yj) são chamadas probabilidades marginais ou distribuições marginais porque costumam ser colocadas nas margens das tabelas de distribuicoes discretas bidimensionais. Quais são as probabilidades marginais do exemplo anterior? 2/5 3/5 2/5 1/5

19 Independência Seja (X,Y) uma variável aleatória bidimensional discreta. A variáveis aleatórias X e Y são ditas independentes se p(xi,yj) = p(xi) p(yj) para todo (xi,yj) pertencente a X x Y

20 Distribuição de Probabilidade Conjunta
O que é? É uma tabela n-dimensional na qual os valores das células dão a probabilidade de um dado evento ocorrer. Poder expressivo Ela pode responder qualquer questão sobre o domínio. Problema: complexidade de cálculo matemático e tamanho que cresce exponencialmente com a dimensão do espaço Exemplo de uma distribuição de probabilidade conjunta

21 Redes Bayesianas: representação do conhecimento para raciocínio com incerteza
Representa 3 tipos de conhecimento do domínio: relações de independência entre variáveis aleatórias (graficamente); probabilidades a priori de algumas variáveis; probabilidades condicionais entre variáveis dependentes. Permite calcular eficientemente: probabilidades a posteriori de qualquer variável aleatória(inferência); usando para isso uma definição recursiva do teorema de Bayes. Conhecimento representado: pode ser aprendido a partir de exemplos reutilizando parte dos mecanismos de raciocínio

22 Estrutura de uma rede bayesiana
Cada variável aleatória (VA) é representada por um nó da rede Cada nó (VA) recebe conexões dos nós que têm influência direta (seus pais) sobre ele. (Tarefa fácil para o especialista) Cada nó possui uma tabela de Probabilidades Condicionais que quantifica a influência dos seus pais sobre ele. (Difícil para o especialista) O grafo é acíclico (veremos a razao matematica para tal)

23 Construção (manual) de uma rede bayesiana
Escolher variáveis relevantes que descrevam o domínio; Escolher uma ordem para as variáveis; Enquanto tiver variáveis sobrando: pegar uma variável e adicionar um nó na rede para ela; criar links dos nós anteriormente inseridos que satisfaçam a independência condicional; definir a tabela de probabilidade condicional para a variável.

24 Exemplo simples de rede bayesiana (cont.)
Roubo Terremoto Alarme JohnCalls MaryCalls

25 Decomposição da Probabilidade Conjunta
X1 Xn X3 X2

26 Decomposição da Probabilidade Conjunta
Essa decomposicao deixa clara a necessidade de a rede bayesiana ser um grafo aciclico A cada fator acrescentado na decomposicao acrescentamos 2j-1 condicoes da tabela de probabilidades condicionadas da j-esima VA ao total de condicoes Assim, teremos um total (2j-1) de 25-1 condicoes nas tabelas das probabilidades condicionadas das Vas. Esse representa o pior caso possivel para uma rede bayesiana.

27 Aprendizagem em redes bayesianas
4 Situacoes possiveis: Estrutura conhecida, completamente observável as tabelas de probabilidade condicionada podem ser estimadas usando o conjunto de exemplos com classificador ingênuo? de Bayes Estrutura desconhecida, completamente observável o problema é construir a topologia da rede. Busca no espaço de estruturas. Estrutura conhecida, variáveis escondidas caso parecido com aprendizado em redes neurais Estrutura desconhecida, variáveis escondidas não se conhece algoritmos para este tipo de problema

28 Tipos de conhecimento Causal Diagnóstico
Refletem a direção conhecida de causalidade no mundo: para algumas propriedades do mundo percepções são geradas. ex, P(DorDeDente|Cárie), P(MaryCalls|Alarme) Diagnóstico Infere a presença de propriedades escondidas diretamente da percepção. Produzem conclusões fracas. ex, P(Cárie|DorDeDente), P(Alarme|MaryCalls)

29 Ordenar nós de uma rede bayesiana
Algoritmo de construção apresentado especifica a ordem Raízes sempre causais, folhas sem influência causal sobre nenhuma outra variável Caracteristicas: compactacao da rede menor complexidade computacional (pior caso volta a distribuição de probabilidade conjunta) menores tempo de resposta e necessidade de memoria

30 Exemplo de rede bayesiana não puramente causal
Vamos usar o exemplo do alarme com a seguinte ordem de inserção dos nós: MaryCalls, JohnCalls, Alarme, Roubo e Terremoto. MaryCalls JohnCalls Alarme Roubo Terremoto

31 Exemplo de rede bayesiana não puramente causal (cont.)
Problemas: A figura possui duas conexões a mais; julgamento não natural e difícil das probabilidades; Tendo uma rede puramente causal, teríamos um número menor de conexões Podemos piorar ainda mais a nossa configuração da rede, seguindo a seguinte ordem de criação: MaryCalls, JohnCalls, Terremoto, Roubo e Alarme. Resulta num total de 25-1 condicoes nas tabelas das probabilidades condicionadas das VAs (pior caso = probabilidade conjunta original)

32 Exemplo de rede bayesiana não puramente causal (cont.)
Roubo Terremoto Alarme JohnCalls MaryCalls

33 Preencher tabelas de probabilidades condicionais com conhecimento do domínio
Problema: preencher as tabelas de probabilidade condicionada. Distribuições canônicas (ex, normal, binomial) Relações entre nós (pais e filhos) se ajustam a algum padrão. Nesses casos, toda a tabela pode ser especificada determinando o padrão e talvez suprimindo alguns parâmetros. (conseguido apenas para a Normal com intervalos discretizados) Relações determinísticas Os nós possuem seus valores especificados pelos valores dos seus pais, sem incerteza. Lógica ruidosa (noisy-OR) A probabilidade de o nó de saída ser falso é o produto do parâmetro ruidoso de todos os nós de entrada que são verdadeiros.

34 Preencher tabelas de probabilidades condicionais com conhecimento do domínio

35 Versatilidade das redes bayesianas
Redes Bayesianas oferecem 4 tipos de inferência: Causal (da causa para o efeito) P(JohnCalls/Roubo) = 0,86 Roubo Alarme JohnCalls Evidência Query Diagnóstico (do efeito para a causa) P(Roubo/JohnCalls) = 0,016 JohnCalls Alarme Roubo Evidência Query

36 Versatilidade das redes bayesianas
Intercausal (entre causas com um efeito comum) P(Roubo/Alarme) = 0,376 P(Roubo/Alarme Terremoto) = 0,373 Roubo Alarme Terremoto Query Evidência Mista (combinando duas ou mais das de cima) P(Alarme/JohnCalls Terremoto) = 0,03 Este é um uso simultâneo de inferência causal e diagnóstico. JohnCalls Alarme Terremoto Evidência Query

37 Exemplo da tarefa de aprendizagem
Roubo Terremoto Alarme JohnCalls MaryCalls

38 Outros Usos Além de calcular consultas a partir de variáveis como evidência uma rede bayesiana também pode ser usada para realizar as seguintes tarefas: tomada de decisão decidir qual variável adicional deve ser observada Análise sensitiva nos dá resposta as questões: Qual evidência é a favor, contra e/ou irrelevante para uma dada hipótese? Qual evidência distingue uma hipótese hi da hipótese hj? explicar os resultados para o usuário

39 Aula Encerrada Neste Ponto

40 Calcular probabilidades a posteriori usando uma rede bayesiana
Caso simples: polytree (redes com conexões simples) algoritmo recursivo usando teorema de bayes a cada passo Caso complexo: rede multiplamente conectados redução para polytree agrupamento (grandes tabelas) separação condicional (muitas redes) simulação estocástica (muitas iterações)

41 Aprender probabilidades com estrutura fixa
Humanos acham fácil dizer o que causa o que, mas acham difícil colocar números nos links. Tarefa de aprendizagem Dados: relações de independência entre variáveis aleatórias (estrutura) probabilidades a priori das variáveis “de entrada” probabilidades a posteriori de variáveis “de saída” Calcular: probabilidades condicionais das variáveis dependentes 2 algoritmos principais: gradiente ascendente de P(D|Hi) - muito parecido com aprendizagem de pesos em redes neurais algoritmo EM (Estimação Média) ambos iterativos e sujeito a encontrar mínimo local

42 Exemplo da tarefa de aprendizagem
Roubo Terremoto Alarme JohnCalls MaryCalls

43 Exemplo da tarefa de aprendizagem
Dados de treinamento P(J|R), p(J|T), p(M|R), P(M|T) Exemplos: True, False, False, False (...) False, False, True, False explicar que usando bayes iterativamente pode calcular ? a partir dos dados

44 Gradiente ascendente de P(D|H)
exemplo passo a passo formula de Mitchell que mostra similaridade com RN

45 Algoritmo EM

46 Redes Bayesianas x Redes Neurais: similaridades
processo iterativo em N épocas ajuste das probabilidades condicionais no lugar de pesos use gradiente ascendente de P(D|Hi)

47 Redes Bayesianas x Redes Neurais diferenças
representações locais as variáveis possuem dois níveis de ativação pode tratar qualquer sub-conjunto das variáveis como entrada Inserção fácil de conhecimento a priori nao implementavel em hardware Redes Neurais representacao global distribuida variaveis discretas ou continuas execucao em tempo linear entradas e saidas fixas dificil insercao de conhecimento a priori implementavel em hardware

48 Bibliografia Russel, S, & Norvig, P. (1995). Artificial Intelligence: a Modern Approach (AIMA) Prentice-Hall. Pages , An Introduction to Baysean Networks Mitchell, T. & (1997): Machine Learning, McGraw-Hill. Cap.6 Fayyad et al. (1996): Advances in knowledge discovery and data mining, AAAI Press/MIT Press. Cap.11 Pearl, J. (1988) Probabilistic Reasoning in Inteligent Systems


Carregar ppt "Paulo Adeodato George Cavalcanti CIn-UFPE"

Apresentações semelhantes


Anúncios Google