A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Redes Bayesianas Cap 14 Seções 1 – 3 FEI - Mestrado - IA.

Apresentações semelhantes


Apresentação em tema: "Redes Bayesianas Cap 14 Seções 1 – 3 FEI - Mestrado - IA."— Transcrição da apresentação:

1 Redes Bayesianas Cap 14 Seções 1 – 3 FEI - Mestrado - IA

2 Outline Sintaxe Semântica Distribuições parametrizadas

3 Redes Bayesianas Estrutura de dados para representar as dependências entre variáveis e fornecer uma especificação concisa de qualquer distribuição de probabilidade conjunta total. Sintaxe: –um conjunto de nós, um para cada variável aleatória –grafo direcionado e acíclico (seta = influência direta") –cada nó tem uma distribuição condicional P(X i | Pais (X i )) que quantifica o efeito dos pais sobre o nó No caso mais simples, a distribuição condicional é representada como uma tabela de probabilidade condicional (TPC) dada uma distribuição sobre X i para cada combinação de valores dos pais.

4 Exemplo A topologia de uma rede representa relações de independência condicional : Clima é independente de outras variáveis Toothache e Catch são condicionalmente independentes dado Cavity

5 Exemplo I'm at work, neighbor John calls to say my alarm is ringing, but neighbor Mary doesn't call. Sometimes it's set off by minor earthquakes. Is there a burglar? Variáveis: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls A topologia da rede reflete conhecimento "causal": –Um roubo (burglar) pode ligar o alarme –Um terremoto (earthquake) pode ligar o alarme –O alarme faz Mary telefonar –O alarme faz John telefonar

6 Exemplo

7 Da topologia da rede Roubos e terremotos afetam diretamente a probabilidade to alarme tocar; Mas o fato de Joao e Maria telefonarem só depende do alarme; Desse modo, a rede representa nossas suposições de que eles não percebem quaisquer roubos diretamente, não notam os terremotos e não verificam antes de ligar!

8 As probabilidades resumem um conjunto potencialmente infinito de circunstâncias (Maria ouve música alta, João liga qdo toca o telefone; umidade, falta de energia, etc podem interferir no alarme; Joao e maria não estão em casa, etc. Preguiça e ignorância

9 Tabelas de probabilidade condicional (TPC) Cada linha em uma TPC contém a probabilidade condicional de cada valor de nó para um caso de condicionamento; –um caso de condicionamento é apenas uma combinação possível de valores para os nós superiores Para cada nó X i da rede, cada linha da TPC requer um número p para X i = true (prob. para X i = false é 1-p) Um nó sem pais tem apenas uma linha: probabilidade a priori Em geral, uma tabela para uma var. booleana com k pais booleanos possui 2 k probabilidades Se cada var. não possuir mais do que k pais, uma consulta à rede completa será O(n · 2 k ), para n = número de nós. –I.e., cresce linearmente em n, vs. O(2 n ) da distribuição total

10 Semântica das RB Duas maneiras equivalentes: – Semântica global (ou numérica): entender as redes como uma representação da distribuição de probabilidade conjunta; indica como construir uma rede – Semântica local (ou topológica): visualizá- las como uma codificação de uma coleção de declarações de independência condicional. Indica como fazer inferências com uma rede.

11 Semântica Global A semântica global (ou numérica) define a distribuição de probabilidade total como o produto das distribuições condicionais locais: P (X 1, …,X n ) = i = 1 P (X i | Parents(X i ))

12 Semântica Global Se uma rede bayesiana for uma representação da distribuição conjunta, então ela poderá ser utilizada para responder qqr consulta efetuando-se o somatório de todas as entradas conjuntas relevantes

13 Semântica Global A semântica global (ou numérica) define a distribuição de probabilidade total como o produto das distribuições condicionais locais: P (X 1, …,X n ) = i = 1 P (X i | Parents(X i )) e.g., P(j m a b e) = P (j | a) P (m | a) P (a | b, e) P ( b) P ( e) = 0.9 x 0.7 x x x =

14 Semântica local Semântica local (topológica): cada nó é condicionalmente independente de seus não- descendentes, dados seus pais. Ex. J é independente de B e E dado A

15 Semântica local Um nó X é condicionalmente independente de seus não descendentes (ex. Z ij ) dados seus pais (U i )

16 Semântica local Um nó X é condicinalmente independente de todos os outros dada a sua cobertura de Markov

17 17 A partir das condições de independência dada pela semântica local –P (X 1, …,X n ) = i = 1 P (X i | Parents(X i )) [14.2] A distrib. Conjunta total pode ser obtida (lembrando da regra da cadeia): –P (X 1, …,X n ) = i = 1 P (X i | X i-1, X i-2,..., X 1 ) De [14.2] e a regra da cadeia: a rede bayesiana é uma representação correta do domínio somente se cada nó for condicionalmente independente de seus predecessores na ordenação dos nós, dados seus pais. –precisamos escolher pais para cada nó de forma que essa propriedade se mantenha –I.e. os pais de Xi devem conter todos os nós X i-1, X i-2,..., X 1 que o influenciam diretamente. 17

18 Construindo uma rede Bayesiana 1. Escolher uma ordem para as variáveis aleatórias X 1, …,X n 2. Para i = 1 à n –adicione X i à rede –selecione pais para X 1, …,X i-1 tais que P (X i | Pais(X i )) = P (X i | X 1,... X i-1 ) Esta escolha de pais garante a semântica global: P (X 1, …,X n ) = i =1 P (X i | X 1, …, X i-1 ) (regra da cadeia) = i =1 P (X i | Pais(X i )) (por construção) Portanto, um nó é condicionalmente independente dos demais, dados seus pais n n

19 Ordem para as variáveis A ordem correta em que os nós devem ser adicionados consiste em adicionar primeiro as causas de raiz, depois as variáveis que elas influenciam e assim por diante, até chegarmos às folhas, que não tem nenhuma influência causal direta sobre as outras variáveis. E se escolhermos a ordem errada??

20 Assumindo a ordem: M, J, A, B, E P(J | M) = P(J)? Exemplo

21 Assumindo a ordem: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? Exemplo

22 Assumindo a ordem: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? P(B | A, J, M) = P(B)? Exemplo

23 P(J | M) = P(J)?No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Yes P(B | A, J, M) = P(B)? No P(E | B, A,J, M) = P(E | A)? P(E | B, A, J, M) = P(E | A, B)? Exemplo

24 P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Yes P(B | A, J, M) = P(B)? No P(E | B, A,J, M) = P(E | A)? No P(E | B, A, J, M) = P(E | A, B)? Yes Exemplo

25 A rede resultante terá dois vínculos a mais que a rede original e exigirá outras probabilidades para serem especificadas Alguns dos vínculos apresentam relacionamentos tênues que exigem julgamentos de probabilidade difíceis e antinaturais (prob de Terremoto, dados Roubo e Alarme) (Em geral) é melhor pensar de causas para efeitos (modelo causal) e não do contrário (modelo de diagnóstico)

26 Exemplo Uma ordenação de nós ruim: MarryCalls, JohnCalls, Earthquake, Burglary e Alarm Entretanto, todas as três redes devem representar a mesma distribuição conjunta. As duas últimas só não expressam todas as independências condicionais

27 Representação eficiente de distribuições condicionais Ainda que o número de pais k seja reduzido, o preenchimento da TPC para um nó exige até O(2 k ) e muita experiência para decidir os casos condicionais. –Esse é o pior caso, em que os relacionamentos de pais e filhos é arbitrário Em muitos casos podemos utilizar um padrão (distribuição canônica) para obter a tabela.

28 Representação eficiente de distribuições condicionais Distribuição canônica: –ajustar a distribuição de probabilidades em cada nó a alguma forma padrão; –nestes casos a tabela completa pode ser especificada nomeando-se o padrão e fornecendo-se alguns parâmetros. –Exemplos: nós determinísticos relacionamentos lógicos ruidosos: ou-ruidoso

29 Representação eficiente: Distribuição canônica Nós determinísticos: tem seus valores especificados pelos valores de seus pais, sem qualquer incerteza: –X = f(Pais(X)) para alguma função f; –funções booleanas: Norte Americano Canadense US Mexicano –relação numérica entre funções contínuas: pais afluentes/escoadouros filhos: Δnível da água –Δnível da água = afluentes - escoadouros Valor mínimo de alguma funçao

30 Distribuição canônica Em lógica: fever iff ( cold or flu or malaria) Ou-ruidoso (em contraste com o ou proposicional) –Permite a incerteza sobre a habilidade de cada pai para fazer o filho ser verdadeiro - o relacionamento entre pai e filho pode ser inibido. –Todas as causas listadas – inibições independentes –Assim febre é falsa sse todos os seus pais verdadeiros são inibidos, e a probabilidade de isso ocorrer é o produto das probabilidades de inibição de cada pai. P( fever| cold, flu, malaria) = 0.6 P( fever| cold, flu, malaria) = 0.2 P( fever| cold, flu, malaria) = 0.1

31 Representação eficiente: Distribuição canônica Ou-ruidoso –P( fever| cold, flu, malaria) = 0.6 –P( fever| cold, flu, malaria) = 0.2 –P( fever| cold, flu, malaria) = 0.1

32 Redes de Bayes Híbridas Discretas: Subsidy? e Buys? Dois novos tipos de distr. condicionais: –variável contínua, com pais contínuos e discretos (Cost) –Variável discreta com pais contínuos (Buys?)

33 Redes de Bayes Hibridas Manipular variáveis contínuas: –Discretização: repartir os valores possíveis em um conjunto fixo de intervalos –Definir funções de probabilidade padrão especificadas por um número finito de parâmetros

34 variável contínua, com pais contínuos e discretos (Cost) Para custo: P(Custo|Colheita, Subsídio) –O pai discreto (Subsídio) é manipulado por enumeração explícita : P(Custo|Colheita, subsídio) e P(Custo|Colheita, subsídio) Para Colheita especificamos como a distribuição sobre o custo c depende do valor contínuo h de colheita. –I.e., os parâmetros da distribuição de custo como função de h –em geral: distribuição Gaussiana linear

35 distribuição gaussiana linear: o filho (Cost) tem uma distribuição gaussiana cuja média varia linearmente com o valor do pai (Harvest), e cujo desvio padrão é fixo: variável contínua, com pais contínuos e discretos (Cost)

36 distribuição gaussiana linear: o filho (Cost) tem uma distribuição gaussiana cuja média varia linearmente com o valor do pai (Harvest), e cujo desvio padrão é fixo:

37

38 A inclinação é negativa, pq o preço diminui à medida que a quantidade oferecida aumenta

39 variáveis discretas com pais contínuos Ex. Compras: –Podemos supor que o cliente comprará se o preço for baixo e não comprará se for alto e que: –A probabilidade de compra varia suavemente em alguma região intermediária A distribuição condicional é semelhante a uma função de limiar suave (soft threshold) Distribuição probit é uma possibilidade...

40 v.discretas, pais contínuos Probabilidade de Compra (buys) dado Custo (Cost): limiar suave Distribuição Probit: –integral da Gaussiana –o processo de decisao tem um limiardifícil, mas a sua posição precisa está sugeita a ruído gaussiano aleatório

41 v.discretas, pais contínuos Probabilidade de Compra (buys) dado Custo (Cost): limiar suave –O limiar do custo ocorre em torno da média da gaussiana, a largura do limiar é o desvio padrão. A prob. de compra diminui à medida que o custo aumenta.

42 Por que Probit? Possui mais ou menos o formato desejado Pode ser visto como um degrau em que a posição é ruidosa

43 Resumo Redes Bayesianas são representações explícitas de independência condicional Topologia + TPCs = representações compactas de distribuições conjuntas totais Ferramentas poderosas para construir uma representação de um domínio que envolva incerteza.

44 Em sua estação de energia nuclear local, existe um alarme que detecta quando um indicador de temperatura excede um dado limiar. O indicador mede a temperatura do núcleo. Considere as variáveis booleanas A (o alarme soa), FA (alarme defeituoso) e FG (medidor defeituoso) e os nós de valores G (leitura do medidor) e T (temperatura do núcleo). –a. trace uma rede bayesiana para esse domínio, considerando que o medidor tem maior probabilidade de falhar quando a temperatura do núcleo fica muito alta. –b. sua rede é uma poliárvore? –c. Suponha que existam apenas duas medidas de temperatura possíveis, normal e alta; a probabilidade de que o medidor forneça a temperatura correta é x quando ele está funcionando, mas é y quando ele apresenta defeito. Forneça a tabela de probabilidade condicional associada a G. –d. suponha que o alarme funcione corretamente, a menos que esteja defeituoso, e nesse caso ele nunca funcionará. Forneça a tabela de probabilidade condicional associada a A. –e. Suponha que o alarme e o medidor estejam funcionando e que o alarme toque. Calcule uma expressão para a probabilidade de que a temperatura do núcleo esteja muito alta, em termos das várias probabilidades condicionais na rede. 44

45 45 5)[Bayes Net] (2.0) Um comitê de admissão de uma universidade quer determinar a probabilidade que um candidato admitido seja realmente qualificado. Com as probabilidades relevantes dadas pela rede Bayesiana abaixo calcule P(D|A). –A = o candidato é qualificado –B = o candidato possui bom histórico escolar –C = o candidato possui cartas de recomendação excelentes –D = o candidato é admitido 45


Carregar ppt "Redes Bayesianas Cap 14 Seções 1 – 3 FEI - Mestrado - IA."

Apresentações semelhantes


Anúncios Google