Redes Bayesianas Cap 14 Seções 1 – 3 FEI - Mestrado - IA.

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
DISTRIBUIÇÕES AMOSTRAIS
Inteligência Artificial I
Inteligência Artificial
Analise de Regressão Parte 2.
ESTIMAÇÃO.
REDES NEURONAIS ARTIFICIAIS (RNAs) Universidade do Minho.
1 Domínios Finitos A eficiência das programas em domínios finitos (incluindo booleanos) podem ainda ser melhoradas pelo uso de Algoritmos de Propagação.
PERCEPTRON (CONTINUAÇÃO)
AULA 03 PERCEPTRON SIMPLES.
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Reconhecimento de Padrões Teoria da Decisão Bayesiana
BCC 101– Matemática Discreta
Paulo Adeodato George Cavalcanti CIn-UFPE
Métodos Quantitativos
Carolina Fonseca Neumar Ribeiro
SISTEMAS LINEARES I Prof. Marlon.
EQUAÇÕES POLINOMIAIS Prof. Marlon.
SISTEMAS LINEARES II Prof. Marlon.
Métodos estatísticos em aprendizagem
Incerteza Capítulo 13 IA - Mestrado FEI.
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
3 - Equações Lineares de Segunda Ordem
CAPÍTULO I- TEORIA DAS PROBABILIDADE
Grafos Árvores Geradoras.
Módulo 5 – Introdução à Teoria Estatística da Medição
Linguagem de Programação II Parte IV
Treinamento do Microsoft® Access® 2010
VALORES ESPERADOS.
Função de uma Variável Aleatória
DISTRIBUIÇÕES AMOSTRAIS
Redes Bayesianas - Aplicação em Risco Operacional
MBA em Gestão de Empreendimentos Turísticos
1 - Equações Diferenciais Ordinárias
Teste de Hipótese.
Clique para editar o estilo do título mestre Clique para editar o estilo do subtítulo mestre 1 Seminário: Disciplina: Probabilidade e Inferência Professor:
ANÁLISE ESTATÍSTICA II
Bayesian networks Chapter14.1–3 1. Bayesian networks Uma notação grafica para afirmações de independência condicional E uma especificação compacta para.
3. Distribuições de probabilidade
Professor Antonio Carlos Coelho
Faculdade Pernambucana - FAPE Setembro/2007
Probabilidade e Estatística para Avaliação de Desempenho
Prof. André Luis Roland Tancredo Engenheiro da Computação e Pesquisador em Desenvolvimento Tecnológico para Semicondutores pelo CNPq Especialista em Microeletrônica.
Fundamentos de linguagens de programação
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.

DISTRIBUIÇÕES DE PROBABILIDADE
INFERÊNCIA ESTATÍSTICA PROPORÇÃO POPULACIONAL p
Metodologia da Pesquisa em Ensino de Ciências I
Experimento Aleatório Experimento aleatório é um procedimento cujo resultado é incertoExperimento aleatório é um procedimento cujo resultado é incerto.
Testes de Hipóteses.
Estudo das Funções ESTUDO DAS FUNÇÕES 9º ano - Matemática.
DISTRIBUIÇÃO DE POISSON
2. VARIÁVEIS ALEATÓRIAS 2015.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Regressão Linear Simples
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
1 Lógica de Predicados BCC101 Matemática Discreta I.
Aula 4 Bioestatística Probabilidade para variáveis aleatórias.
DETEÇÃO E ESTIMAÇÃO Aula 18: Simulação de Monte Carlo – Parte 2.
Autor : Lênin Charqueiro. Pelotas,8 de março de
DETEÇÃO E ESTIMAÇÃO Aula X+1: Simulação de Monte Carlo.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Distribuições de Probabilidade Camilo Daleles Rennó
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Teste de Hipótese Camilo Daleles Rennó
Transcrição da apresentação:

Redes Bayesianas Cap 14 Seções 1 – 3 FEI - Mestrado - IA

Outline Sintaxe Semântica Distribuições parametrizadas

Redes Bayesianas Estrutura de dados para representar as dependências entre variáveis e fornecer uma especificação concisa de qualquer distribuição de probabilidade conjunta total. Sintaxe: um conjunto de nós, um para cada variável aleatória grafo direcionado e acíclico (seta = ”influência direta") cada nó tem uma distribuição condicional P(Xi | Pais (Xi)) que quantifica o efeito dos pais sobre o nó No caso mais simples, a distribuição condicional é representada como uma tabela de probabilidade condicional (TPC) dada uma distribuição sobre Xi para cada combinação de valores dos pais.

Exemplo A topologia de uma rede representa relações de independência condicional : Clima é independente de outras variáveis Toothache e Catch são condicionalmente independentes dado Cavity

Exemplo “ I'm at work, neighbor John calls to say my alarm is ringing, but neighbor Mary doesn't call. Sometimes it's set off by minor earthquakes. Is there a burglar? ” Variáveis: Burglary, Earthquake, Alarm, JohnCalls, MaryCalls A topologia da rede reflete conhecimento "causal": Um roubo (burglar) pode ligar o alarme Um terremoto (earthquake) pode ligar o alarme O alarme faz Mary telefonar O alarme faz John telefonar

Exemplo

Da topologia da rede Roubos e terremotos afetam diretamente a probabilidade to alarme tocar; Mas o fato de Joao e Maria telefonarem só depende do alarme; Desse modo, a rede representa nossas suposições de que eles não percebem quaisquer roubos diretamente, não notam os terremotos e não verificam antes de ligar!

As probabilidades... ... resumem um conjunto potencialmente infinito de circunstâncias (Maria ouve música alta, João liga qdo toca o telefone; umidade, falta de energia, etc podem interferir no alarme; Joao e maria não estão em casa, etc. Preguiça e ignorância

Tabelas de probabilidade condicional (TPC) Cada linha em uma TPC contém a probabilidade condicional de cada valor de nó para um caso de condicionamento; um caso de condicionamento é apenas uma combinação possível de valores para os nós superiores Para cada nó Xi da rede, cada linha da TPC requer um número p para Xi = true (prob. para Xi = false é 1-p) Um nó sem pais tem apenas uma linha: probabilidade a priori Em geral, uma tabela para uma var. booleana com k pais booleanos possui 2k probabilidades Se cada var. não possuir mais do que k pais, uma consulta à rede completa será O(n · 2k), para n = número de nós. I.e., cresce linearmente em n, vs. O(2n) da distribuição total

Semântica das RB Duas maneiras equivalentes: Semântica global (ou numérica): entender as redes como uma representação da distribuição de probabilidade conjunta; indica como construir uma rede Semântica local (ou topológica): visualizá- las como uma codificação de uma coleção de declarações de independência condicional. Indica como fazer inferências com uma rede.

Semântica Global A semântica global (ou numérica) define a distribuição de probabilidade total como o produto das distribuições condicionais locais: P (X1, … ,Xn) = ∏i = 1 P (Xi | Parents(Xi))

Semântica Global Se uma rede bayesiana for uma representação da distribuição conjunta, então ela poderá ser utilizada para responder qqr consulta efetuando-se o somatório de todas as entradas conjuntas relevantes

Semântica Global A semântica global (ou numérica) define a distribuição de probabilidade total como o produto das distribuições condicionais locais: P (X1, … ,Xn) = ∏i = 1 P (Xi | Parents(Xi)) e.g., P(j ∧ m ∧ a ∧ b ∧ e) = P (j | a) P (m | a) P (a | b, e) P (b) P (e) = 0.9 x 0.7 x 0.001 x 0.999 x 0.998 = 0.00063

Semântica local Semântica local (topológica): cada nó é condicionalmente independente de seus não- descendentes, dados seus pais. Ex. J é independente de B e E dado A

Semântica local Um nó X é condicionalmente independente de seus não descendentes (ex. Zij) dados seus pais (Ui)

Um nó X é condicinalmente independente de todos os outros dada a sua Semântica local Um nó X é condicinalmente independente de todos os outros dada a sua cobertura de Markov

A partir das condições de independência dada pela semântica local P (X1, … ,Xn) = ∏i = 1 P (Xi | Parents(Xi)) [14.2] A distrib. Conjunta total pode ser obtida (lembrando da regra da cadeia): P (X1, … ,Xn) = ∏i = 1 P (Xi | Xi-1, Xi-2, ... , X1 ) De [14.2] e a regra da cadeia: a rede bayesiana é uma representação correta do domínio somente se cada nó for condicionalmente independente de seus predecessores na ordenação dos nós , dados seus pais. precisamos escolher pais para cada nó de forma que essa propriedade se mantenha I.e. os pais de Xi devem conter todos os nós Xi-1, Xi-2, ... , X1 que o influenciam diretamente. 17

Construindo uma rede Bayesiana 1. Escolher uma ordem para as variáveis aleatórias X1, … ,Xn 2. Para i = 1 à n adicione Xi à rede selecione pais para X1, … ,Xi-1 tais que P (Xi | Pais(Xi)) = P (Xi | X1, ... Xi-1) Esta escolha de pais garante a semântica global: P (X1, … ,Xn) = ∏ i =1 P (Xi | X1, … , Xi-1) (regra da cadeia) = ∏ i =1P (Xi | Pais(Xi)) (por construção) Portanto, um nó é condicionalmente independente dos demais, dados seus pais n n

Ordem para as variáveis A ordem correta em que os nós devem ser adicionados consiste em adicionar primeiro as “causas de raiz”, depois as variáveis que elas influenciam e assim por diante, até chegarmos às folhas, que não tem nenhuma influência causal direta sobre as outras variáveis. E se escolhermos a ordem “errada”??

Exemplo Assumindo a ordem: M, J, A, B, E P(J | M) = P(J)?

Exemplo Assumindo a ordem: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)?

Exemplo Assumindo a ordem: M, J, A, B, E P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? P(B | A, J, M) = P(B)?

Exemplo P(J | M) = P(J)?No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Yes P(B | A, J, M) = P(B)? No P(E | B, A ,J, M) = P(E | A)? P(E | B, A, J, M) = P(E | A, B)?

Exemplo P(J | M) = P(J)? No P(A | J, M) = P(A | J)? P(A | J, M) = P(A)? No P(B | A, J, M) = P(B | A)? Yes P(B | A, J, M) = P(B)? No P(E | B, A ,J, M) = P(E | A)? No P(E | B, A, J, M) = P(E | A, B)? Yes

Exemplo A rede resultante terá dois vínculos a mais que a rede original e exigirá outras probabilidades para serem especificadas Alguns dos vínculos apresentam relacionamentos tênues que exigem julgamentos de probabilidade difíceis e antinaturais (prob de Terremoto, dados Roubo e Alarme) (Em geral) é melhor pensar de causas para efeitos (modelo causal) e não do contrário (modelo de diagnóstico)

Exemplo Uma ordenação de nós ruim: MarryCalls, JohnCalls, Earthquake, Burglary e Alarm Entretanto, todas as três redes devem representar a mesma distribuição conjunta. As duas últimas só não expressam todas as independências condicionais

Representação eficiente de distribuições condicionais Ainda que o número de pais k seja reduzido, o preenchimento da TPC para um nó exige até O(2k) e muita experiência para decidir os casos condicionais. Esse é o pior caso, em que os relacionamentos de pais e filhos é arbitrário Em muitos casos podemos utilizar um padrão (distribuição canônica) para obter a tabela.

Representação eficiente de distribuições condicionais Distribuição canônica: ajustar a distribuição de probabilidades em cada nó a alguma forma padrão; nestes casos a tabela completa pode ser especificada nomeando-se o padrão e fornecendo-se alguns parâmetros. Exemplos: nós determinísticos relacionamentos lógicos ruidosos: ou-ruidoso

Representação eficiente: Distribuição canônica Nós determinísticos: tem seus valores especificados pelos valores de seus pais, sem qualquer incerteza: X = f(Pais(X)) para alguma função f; funções booleanas: Norte Americano ⇔ Canadense ∨US ∨ Mexicano relação numérica entre funções contínuas: pais afluentes/escoadouros filhos: Δnível da água Δnível da água = afluentes - escoadouros Valor mínimo de alguma funçao

Distribuição canônica Em lógica: fever iff ( cold or  flu or  malaria) Ou-ruidoso (em contraste com o ou proposicional) Permite a incerteza sobre a habilidade de cada pai para fazer o filho ser verdadeiro - o relacionamento entre pai e filho pode ser inibido. Todas as causas listadas inibições independentes Assim “febre é falsa sse todos os seus pais verdadeiros são inibidos, e a probabilidade de isso ocorrer é o produto das probabilidades de inibição de cada pai. P(fever| cold,  flu,  malaria) = 0.6 P(fever|  cold, flu,  malaria) = 0.2 P(fever|  cold,  flu, malaria) = 0.1

Representação eficiente: Distribuição canônica Ou-ruidoso P(fever| cold,  flu,  malaria) = 0.6 P(fever|  cold, flu,  malaria) = 0.2 P(fever| cold,  flu, malaria) = 0.1

Redes de Bayes Híbridas Discretas: Subsidy? e Buys? Dois novos tipos de distr. condicionais: variável contínua, com pais contínuos e discretos (Cost) Variável discreta com pais contínuos (Buys?)

Redes de Bayes Hibridas Manipular variáveis contínuas: Discretização: repartir os valores possíveis em um conjunto fixo de intervalos Definir funções de probabilidade padrão especificadas por um número finito de parâmetros

variável contínua, com pais contínuos e discretos (Cost) Para custo: P(Custo|Colheita, Subsídio) O pai discreto (Subsídio) é manipulado por enumeração explícita: P(Custo|Colheita, subsídio) e P(Custo|Colheita, subsídio) Para Colheita especificamos como a distribuição sobre o custo c depende do valor contínuo h de colheita. I.e., os parâmetros da distribuição de custo como função de h em geral: distribuição Gaussiana linear

variável contínua, com pais contínuos e discretos (Cost) distribuição gaussiana linear: o filho (Cost) tem uma distribuição gaussiana cuja média varia linearmente com o valor do pai (Harvest), e cujo desvio padrão é fixo:

distribuição gaussiana linear: o filho (Cost) tem uma distribuição gaussiana cuja média varia linearmente com o valor do pai (Harvest), e cujo desvio padrão é fixo:

distribuição gaussiana linear: o filho (Cost) tem uma distribuição gaussiana cuja média varia linearmente com o valor do pai (Harvest), e cujo desvio padrão é fixo:

A inclinação é negativa, pq o preço diminui à medida que a quantidade oferecida aumenta

variáveis discretas com pais contínuos Ex. Compras: Podemos supor que o cliente comprará se o preço for baixo e não comprará se for alto e que: A probabilidade de compra varia suavemente em alguma região intermediária A distribuição condicional é semelhante a uma função de limiar “suave” (soft threshold) Distribuição probit é uma possibilidade...

v.discretas, pais contínuos Probabilidade de Compra (buys) dado Custo (Cost): limiar suave Distribuição Probit: integral da Gaussiana o processo de decisao tem um limiar “difícil”, mas a sua posição precisa está sugeita a ruído gaussiano aleatório

v.discretas, pais contínuos Probabilidade de Compra (buys) dado Custo (Cost): limiar suave O limiar do custo ocorre em torno da média da gaussiana, a largura do limiar é o desvio padrão. A prob. de compra diminui à medida que o custo aumenta.

Por que Probit? Possui mais ou menos o formato desejado Pode ser visto como um degrau em que a posição é ruidosa

Resumo Redes Bayesianas são representações explícitas de independência condicional Topologia + TPCs = representações compactas de distribuições conjuntas totais Ferramentas poderosas para construir uma representação de um domínio que envolva incerteza.

b. sua rede é uma poliárvore? 14.2 Em sua estação de energia nuclear local, existe um alarme que detecta quando um indicador de temperatura excede um dado limiar. O indicador mede a temperatura do núcleo. Considere as variáveis booleanas A (o alarme soa), FA (alarme defeituoso) e FG (medidor defeituoso) e os nós de valores G (leitura do medidor) e T (temperatura do núcleo). a. trace uma rede bayesiana para esse domínio, considerando que o medidor tem maior probabilidade de falhar quando a temperatura do núcleo fica muito alta. b. sua rede é uma poliárvore? c. Suponha que existam apenas duas medidas de temperatura possíveis, normal e alta; a probabilidade de que o medidor forneça a temperatura correta é x quando ele está funcionando, mas é y quando ele apresenta defeito. Forneça a tabela de probabilidade condicional associada a G. d. suponha que o alarme funcione corretamente, a menos que esteja defeituoso, e nesse caso ele nunca funcionará. Forneça a tabela de probabilidade condicional associada a A. e. Suponha que o alarme e o medidor estejam funcionando e que o alarme toque. Calcule uma expressão para a probabilidade de que a temperatura do núcleo esteja muito alta, em termos das várias probabilidades condicionais na rede. 44

A = o candidato é qualificado 5) [Bayes Net] (2.0) Um comitê de admissão de uma universidade quer determinar a probabilidade que um candidato admitido seja realmente qualificado. Com as probabilidades relevantes dadas pela rede Bayesiana abaixo calcule P(D|A). A = o candidato é qualificado B = o candidato possui bom histórico escolar C = o candidato possui cartas de recomendação excelentes D = o candidato é admitido 45