Renato Fernandes Corrêa

Renato Fernandes Corrêa
Redes Bayesianas Renato Fernandes Corrêa

Conhecimento incerto A conexão entre antecedente e consequente não é uma implicação lógica em nenhuma direção Exemplo: sistema de diagnóstico odontológico Regra de diagnóstico " p sintoma (p,dor de dente) Þ doença (p,cárie) A doença (causa do sintoma) pode ser outra. Regra causal " p doença (p,cárie) Þ sintoma (p,dor de dente) Há circunstâncias em que a doença não provoca o sintoma.

Conhecimento incerto A lógica de primeira ordem falha no domínio de diagnóstico médico devido a: “preguiça”: existem causas ou conseqüências demais a considerar ignorância teórica e prática: não existe uma teoria completa para o domínio, nem podemos fazer todos os testes necessários para o diagnóstico perfeito. Nestes casos, o conhecimento do agente pode apenas prover um grau de crença nas sentenças relevantes.

Teoria da Probabilidade
Fornece um meio de descrever e manipular conhecimento incerto ou incompleto Associa às sentenças um grau de crença numérico entre 0 e 1 Contudo, cada sentença ou é verdadeira ou é falsa Grau de crença(probabilidade): a priori(incondicional): calculado antes do agente receber percepções Ex. P(cárie= true) = P(cárie) = 0.5 condicional: calculado de acordo com as evidências disponíveis evidências: percepções que o agente recebeu até agora Ex: P(cárie|dor de dente)= 0.8

Probabilidade condicional
Probabilidade condicional (a posteriori) de A dado que B ocorreu é definida por: P(A|B) = P(AÙB) , quando P(B) > P(B) Teorema de Bayes: P(A|B) = P(B|A) P(A) P(B) Probabilidade condicional: possibilita inferência sobre uma proposição desconhecida A dada a evidência B

Probabilidade condicional e independência
P(A|B) = P(A) Exemplo: A = dor de dente e B=úlcera Úlcera não causa dor de dente Eventos mutuamente excludentes P(A Ù B) = 0 Experimento: Lançamento de um dado A = a face do dado é ímpar e B = a face do dado é par Independência condicional Seja X e Y independentes dado Z => P(X|Y,Z) = P(X|Z) Independência condicional é crucial para o funcionamento eficaz de sistemas probabilísticos.

Redes Bayesianas (Redes de Crença)
Estrutura de dados usada para representar 3 tipos de conhecimento do domínio: relações de dependência entre variáveis aleatórias (graficamente); probabilidades a priori de algumas variáveis; probabilidades condicionais entre variáveis Permitem calcular eficientemente a probabilidades a posteriori de qualquer variável aleatória (inferência) por meio de uma definição recursiva do teorema de Bayes. Conhecimento representado pode ser aprendido a partir de exemplos

Estrutura das Redes Bayesianas
Uma Redes Bayesiana é um grafo acíclico e dirigido onde: Cada nó da rede representa uma variável aleatória Um conjunto de ligações ou arcos dirigidos conectam pares de nós cada nó recebe arcos dos nós que tem influência direta sobre ele (nós pais). Cada nó possui uma tabela de probabilidade condicional associada que quantifica os efeitos que os pais têm sobre ele

Rede Bayesiana com as probabilidades condicionais
Roubo Terremoto Alarme Maria ligar João ligar P(A|R,T) =P(alarme-disparou|roubo, terremoto)

Redes Bayesianas Fornecem uma descrição completa do domínio
A probabilidade de ocorrencia de qualquer estado do domínio pode ser calculada probabilidade de uma conjunção de assinalamentos a cada variável, tal que P(X1=x1 Ù ... Ù Xn=xn), pode ser abreviado como P(x1, ..., xn) Ex: Calcular a probabilidade de o alarme tocar sem ter havido assalto nem terremoto e João e Maria telefonarem P(A Ù ØR Ù Ø T Ù J Ù M)= = P(J|A) P(M|A) P(A| Ø R Ù Ø T )P(Ø R)P(Ø T)= = 0.9 x 0.7 x x x = ou %

Inferência em Redes Bayesianas
Causal (das causas para os efeitos) P (João Ligar|Roubo) = 0.86 Roubo Alarme JoãoLigar Evidência Query Diagnóstico (dos efeitos para as causas) P (Roubo|João Ligar) = 0.016 Roubo Alarme JoãoLigar Evidência Query

Intercausal (entre causas com um efeito comum) P(Roubo/Alarme) = 0,376 P(Roubo/Alarme ÙTerremoto) = 0,003 Roubo Alarme Terremoto Query Evidência Mista (combinando duas ou mais das de cima) P(Alarme/JoãoLigar ÙØTerremoto) = 0,03 Este é um uso simultâneo de inferência causal e diagnóstico. Terremoto Alarme JoãoLigar Evidência Query

Caso simples: polytree (redes com conexões simples) algoritmo recursivo usando teorema de bayes a cada passo Caso complexo: rede multiplamente conectados (classes de algoritmos) redução para polytree agrupamento (grandes tabelas) separação condicional (muitas redes) árvore de junção ou árvore de cliques (mais usada) simulação estocástica (muitas iterações) Software para inferêcia: Nética da NORSYS.

Engenharia do conhecimento para Redes Bayesianas
1. Escolher um conjunto de variáveis relevantes que descrevam o domínio 2. Ordem de inclusão dos nós na rede 1. causas “raízes” 2. variáveis que elas influenciam 3. folhas, que não influenciam diretamente nenhuma outra variável. 3. Enquanto houver variáveis a representar: a) escolher uma variável Xi e adicionar um nó para ela na rede b) estabelecer Pais(Xi) dentre os nós que já estão na rede, satisfazendo a propriedade de dependência condicional c) definir a tabela de probabilidade condicional para Xi

Engenharia do conhecimento para Redes Bayesianas
São necessários n2k números para especificar a rede completa(variáveis aleatórias booleanas), onde: K= n° de pais de cada variável e n = n° de nós É desejável que: cada variável seja diretamente influenciada por poucas variáveis a topologia da rede reflita essas influências com um conjunto apropriado de Pais algumas dependências poderão ser relaxadas Ex: P(Joãoligar|Terremoto) e P(Marialigar|Terremoto) se o alarme tocar e houver terremoto, eles vão assumir que esta foi a causa do alarme ter disparado, e não vão ligar.

Aprendizagem das probabilidades com estrutura fixa
Humanos acham fácil dizer o que causa o que, mas acham difícil colocar probabilidades nos links. Tarefa de aprendizagem Dados: relações de independência entre variáveis aleatórias (estrutura) probabilidades a priori das variáveis “de entrada” probabilidades a posteriori de variáveis “de saída” Calcular: probabilidades condicionais das variáveis dependentes 2 algoritmos principais: gradiente ascendente de P(D|Hi) algoritmo EM (Estimação Média) ambos iterativos e sujeito a encontrar mínimo local

Aprendizagem da estrutura
A duas classes de métodos de aprendizagem da estrutura de uma rede bayesiana: Métodos baseados em Busca e Pontuação - pesquisa no espaço de possíveis estruturas Determinar a melhor estrutura que se encaixa aos dados, iniciando com uma rede sem arcos e adicionando-os aos poucos e avaliando(pontuando) a estrutura obtida Existem vários métodos de pontuação ex: K2(Cooper e Herskovits, 1992) Métodos baseados em análise de dependência entre variáveis Iniciar com uma estrutura totalmente conectada com arcos sem direção, eliminar arcos baseando-se em testes de independência condicional, associar direções aos arcos ex: CDL(Chen, Bell e Liu 1997)

Software que aprende a estrutura e probabilidades
Belief Network Power Constructor (Cheng, Bell e Liu) Ordem dos atributos (total ou parcial) Causas e efeitos diretos Estrutura Inicial Arcos proibidos Raízes e folhas Conjunto de Dados X1 X2 X3 X4 Conhecimento do Domínio BNPC Estrutura e Parâmetros Opcional

Aplicação em Diagnóstico Médico
Visita à Asia Fumante Informação do Paciente Tuberculose Câncer (Pulmão) Bronquite Dificuldades Médicas Tuberculose ou Câncer Raio-X Dispnéia Exames diagnósticos Cooper, 1984

Tuber Presente Ausente Câncer Tub ou Can True False Visita à Asia Fumante Tuberculose Câncer (Pulmão) Bronchitis Medical Difficulties Tub ou Can True False Bronquite Presente Ausente 0.90 0.70 0.80 0.10 0.l0 0.30 0.20 Dispnéia Tuberculose ou Câncer Raio-X Dispnéia As relações são tabelas de probabilidades condicionais

PATHFINDER é um sistema de diagnóstico de doenças que atacam os nodos linfáticos. Foi construido por membros do programa Stanford Medical Computer Science, durante os anos 80. O sistema lida com 60 doenças e 100 evidências(sintomas e resultados de exames). A metodologia utilizada para a criação da base de conhecimento foi a especificada anteriormente. Uma comparação recente demonstrou que o Pathfinder está superando os especialistas consultados durante sua criação (patologistas reconhecidos mundialmente).

Aplicação em Recuperação de Informação
O objetivo: desenvolver uma arquitetura de IR probabilística que: auxilie os usuários que tem necessidade de informações estáveis em ordenar um grande volume de material sensitivo ao tempo; permita a utilização de uma linguagem intuitiva na especificação das necessidades de informação a serem supridas; integre relevance feedback e dados de treinamento com o julgamento feito pelo usuário para incrementalmente melhorar sua performance de recuperação

Tendo sido especificado: um ou mais tópicos de interesse, e características do documento que devem ser usadas como evidência de cada tópico de interesse. A tarefa de recuperação de informação pode ser divida em 3 passos: 1. Construir a rede representando a pergunta (query) 2. Pontue cada documento; 2.1. Extrair as características de cada documento; 2.2. Instanciar as características na rede de recuperação; 2.3. Calcular a probabilidade a posteriori da relevância do documento. 3. Ranquear os documentos de acordo com as pontuações.

Requer dois conjuntos de probabilidades a serem especificadas: A probabilidade a priori de um documento ser relevante a um dado tópico ti; A probabilidade condicional da uma característica fik estar presente em um documento, dado que o documento é relevante para um tópico ti. A tarefa de recuperação de informação envolve computar a probabilidade: P(ti|f1,...,fm) = P(ti) P (f1,...,fm|ti) P(f1,...,fm)

Aplicação em Recuperação de Informação em artigos de jornal
Política contraditória do governo dos EUA Corrupção de oficiais Conflito no Oriente-Médio empréstimo Intervenção Forças armadas corrupção mortos

A relação ente tópicos: pode ser derivado examinando uma coleção de documentos de treinamento, onde o julgamento de relevância do documento para cada tópico é fornecido. Diagramas de co-ocorrência. Aproximação das probabilidades: P(fk|ti) = # documentos relevantes para ti que contém fk #documentos relevantes para o tópico ti P(ti) = # documentos relevantes para ti # total de documentos

Aplicações de Redes Bayesianas
Modelo do estudante para o ANDES, tutor inteligente para Física, do Learning R&D Center da Universidade de Pittsburgh. Produto para e-commerce modelado com agentes virtuais distribuídos baseados em RB que supervisionam as linhas de usuários em sites Web, da Manna Network Technologies. SymText usa um modelo de contexto baseado em RB para extrair informação de textos médicos escritos em linguagem natural (Universidade de Utah - Spencer Koehler, CRL).

Aplicações de Redes Bayesianas
Agentes em que as suas qualidades (mentais ou emocionais) são descritas por redes bayesianas: passa-se de um determinado estado emocional para um outro, com uma certa probabilidade. PAINULIM é um sistema para apoio ao diagnóstico de doenças neuro-musculares, desenvolvido por Yang Xiang, com base em uma rede bayesiana múltiplamente seccionada nos domínios clínico, EMG (eletromiografia) e condução nervosa. Diversos outros sistemas são citados por Russ Greiner na página

Outros Usos de Redes Bayesianas
Além de calcular consultas a partir de variáveis como evidência uma rede bayesiana também pode ser usada para realizar as seguintes tarefas: tomada de decisão decidir qual variável adicional deve ser observada Análise sensitiva nos dá resposta as questões: Qual evidência é a favor, contra e/ou irrelevante para uma dada hipótese? Qual evidência distingue uma hipótese hi da hipótese hj? explicar os resultados para o usuário

Conclusões A maior vantagem do raciocínio probabilistico em relação ao raciocínio lógico é permitir ao agente chegar a decisões racionais mesmo quando não há informação suficiente para provar que qualquer das ações dadas irá funcionar. Raciocínio probabilístico trata o grau de incerteza associado à maioria dos domínios. Estimativas grosseiras podem implicar em respostas imprecisas,mesmo utilizando sofisticados método estatísticos. Redes Bayesianas são usadas em muitas aplicações do mundo real.

Referências Bibliográficas
Stuart, J. Russel and Norvig, P. (1995) - Artificial Intelligence: A Modern Approach. Prentice Hall. Pages , Mitchell, T. & (1997): Machine Learning, McGraw-Hill. Cap.6. Carneiro, A. Lenin. Aprendizado automático em redes bayesianas. Dissertação de Mestrado. Brasília: UnB, Ciência da Computação, 1999. Fung, R., Del Favero, B. Applying Bayesian Networks to Information Retrieval. Proceedings of Communications of the ACM, march 1995/Vol.38, No. 3. BNPC: Nética:

Renato Fernandes Corrêa

Apresentações semelhantes

Apresentação em tema: "Renato Fernandes Corrêa"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Renato Fernandes Corrêa

Apresentações semelhantes

Apresentação em tema: "Renato Fernandes Corrêa"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback