Naïve Bayesian Learning

Slides:



Advertisements
Apresentações semelhantes
Indução de Árvores de Decisão
Advertisements

Formato dos Dados % 1. Title: Database for fitting contact lenses
Weka Universidade de Waikato - Nova Zelândia
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
Aprendizado de Árvores de Decisão
Mineração da Dados.
WEKA. Roteiro Introdução Conceitos Exemplos práticos Chamada ao aplicativo.
Sistemas Inteligentes
Marcelo Ladeira, Ph.D Departamento de Ciência da Computação
1 Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN.
1 Árvores de Decisão Marcílio Souto DIMAp/UFRN. 2 Árvores de Decisão – ADs (1/4) zForma mais simples: yLista de perguntas  respostas “sim” ou “não” yHierarquicamente.
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
Prof. Alexandre Monteiro Recife
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Software Weka Waikato 2004, Witten & Frank 2000.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Métodos Probabilísticos
Teoria de Filas – Aula 3 Aula de Hoje Variáveis aleatórias discretas Bernoulli Binominal Uniform Poisson Geométrica Aula Anterior Independência Condicionamento.
Teoria de Filas – Aula 4 Aula de Hoje Variáveis aleatórias contínuas Valor esperado de uma variável aleatória Aula Passada Variáveis aleatórias discretas.
PRINCIPAIS MODELOS CONTÍNUOS Modelo uniforme Uma v.a. contínua X tem distribuição uniforme com parâmetros  e  (  <  ) se sua função densidade.
Probabilidade e Estatística Aplicadas à Contabilidade I Prof. Dr. Marcelo Botelho da Costa Moraes 1.
Distribuições e Teorema do Limite Central Distribuições: Binomial, Poisson e Normal Mimi, você é a única normal nessa sala?! Normal em que sentido?
Comparação de proporções
Teoria dos Grafos Geração de Valores aleatórios
NOÇÕES DE PROBABILIDADE
TESTES DE HIPÓTESES.
Medidas de Dispersão para uma amostra
“ASSOCIAÇÃO EDUCACIONAL FANUEL” GUARDA MIRIM DE TELÊMACO BORBA
Distribuição Binomial
Prof. Dr. Adolpho Walter Pimazoni Canton
Teoria dos conjuntos Conjunto – coleção, classe , grupo ou lista de elementos Designados por letras maiúsculas e um conjunto vazio é designado por  Um.
Métodos Probabilísticos
Abraham Yu Natália & Vivi EAD-FEA
Experiências aleatórias
ESTATÍSTICA Aula 5.
ESTATÍSTICA AULA 06 ANÁLISE EXPLORATÓRIA DE DADOS II – Unidade 4
TMEC011 – ESTATÍSTICA APLICADA
Ferramentas de Diagnóstico de Máquinas IMFDM
Propriedades assintóticas dos estimadores MQO
Bioestatística Professora Livre Docente Suely Godoy Agostinho Gimeno
Exercícios do Livro – Capítulo 8
Modelos de variáveis qualitativas dependentes
PROBALIDADE & VARIÁVEIS ALEATÓRIAS
4 Distribuição da média amostral para maior tamanho de amostra tem menor desvio-padrão.
Ajustamento de Observações
Tópicos em Econometria I
Redes Bayesianas: Amostragens
TESTES DE HIPÓTESES.
PROBABILIDADE E ESTATÍSTICA
Distribuicoes de Probabilidade
Cap 3. Modelo de regressão de duas variáveis: o problema da estimação Prof. MSc. Saulo Jardim Modelagem Estatística.
Econometria Propriedades assintóticas dos estimadores MQO
Ms.Rosebel Trindade Cunha Prates
9. Testes de Hipóteses Paramétricos
Processamento Digital de Imagens
Unidade 1: Analise Combinatória 1.1 Conjunto e operações sobre conjunto 1.2 Factorial 1.3 Princípio fundamental da contagem ( princípio multiplicativo)
Modelos Matemáticos e Probabilistas em Engenharia Geotécnica
Classificação: outros algoritmos
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2018 Estimação Pontual Camilo Daleles Rennó
Estatística amintas paiva afonso.
Exercício Zeros de Funções
Aprendizado de Máquina
DSI – Desenvolvimento de Sistemas Inteligentes
INF 1771 – Inteligência Artificial
9. Introdução à Teoria das Probabilidades
Aprendizado de Máquina
Aprendizagem Bayesiana
Marcílio Souto DIMAp/UFRN
Transcrição da apresentação:

Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN Lecture 1

Teorema de Bayes P(h): probabilidade a priori da hipótese h P(D): probabilidade a priori do evento D P(h/D): probabilidade de h dado D (probabilidade à posteriori ou condicional) P(D/h): probabilidade de D dado h

Aplicação do Teorema de Bayes: Diagnóstico Médico Seja M=doença meningite S= dor no pescoço Um Médico sabe: P(S/M)=0.5 P(M)=1/50000 P(S)=1/20 P(M/S)=P(S/M)P(M) P(S) =0,5*(1/50000)=0,002 1/20 A probabilidade de uma pessoa ter meningite dado que ela está com dor no pescoço é 0,02% ou ainda 1 em 5000.

Por que Naïve? Suponha que todos os atributos são independentes, dada a classe O que isso significa? play outlook temp humidity windy Pr(outlook=sunny | windy=true, play=yes)= Pr(outlook=sunny|play=yes)

Weather data set Outlook Windy Play overcast FALSE yes rainy TRUE sunny

A suposição é satisfeita? Outlook Windy Play overcast FALSE yes rainy TRUE sunny #yes=9 #sunny=2 #windy, yes=3 #sunny|windy, yes=1 Pr(outlook=sunny|windy=true, play=yes)=1/3 Pr(outlook=sunny|play=yes)=2/9 Pr(windy|outlook=sunny,play=yes)=1/2 Pr(windy|play=yes)=3/9 Assim, a suposição NÃO é satisfeita.

Probabilidades para o conjunto de dados do Tempo Outlook Temperature Humidity Windy Play Yes No Sunny 2 3 Hot High 4 False 6 9 5 Overcast Mild Normal 1 True Rainy Cool 2/9 3/5 2/5 3/9 4/5 6/9 9/14 5/14 4/9 0/5 1/5 Um dia novo: Likelihood of the two classes For “yes” = 2/9  3/9  3/9  3/9  9/14 = 0.0053 For “no” = 3/5  1/5  4/5  3/5  5/14 = 0.0206 Conversion into a probability by normalization: P(“yes”) = 0.0053 / (0.0053 + 0.0206) = 0.205 P(“no”) = 0.0206 / (0.0053 + 0.0206) = 0.795 Outlook Temp. Humidity Windy Play Sunny Cool High True ?

Regra de Bayes revisitada Probabilidade de um evento H dada evidência E: Probabilidade a priori de H: Probabilidade do evento antes da evidência ser vista Probabilidade a posteriori H: Probabilidade do evento ápos a evidência é vista

Naïve Bayes para classificação Aprendizado: qual a probabilidade da class dada uma instância? Evidência E = uma instância Evento H = valor da class para a instância (Play=yes, Play=no) Suposição Naïve Bayes: evidência pode ser dividida em partes indepentes (i.e. atributos das instâncias são independentes)

O exemplo para o conjunto de dados de Tempo Outlook Temp. Humidity Windy Play Sunny Cool High True ? Evidência E Probabilidade para classe “yes”

O problema de “freqüência-zero” E se um valor de atributo não ocorre para cada valor de class (e.g. “Humidity = high” para classe “yes”)? Probabilidade será zero! Probabilidade a posteriori probability também será zero! (Não importante os valore dos outros atributos!) Remédio: adicione 1 ao contador de cada valor de atributo para cada combinação de classe (Laplace estimator) Resultado: probabilidades nunca serão zero

Estimativas modificadas de probabilidade Em alguns casos a adição de uma constante diferente de zero pode ser apropriada Exemplo: atributo outlook para a classe yes Sunny Overcast Rainy

Valores faltosos Treinamento: instância não é incluida na freqüência do contador Classificação: atributo será omitio do c´lculo Exemplo: Outlook Temp. Humidity Windy Play ? Cool High True Likelihood of “yes” = 3/9  3/9  3/9  9/14 = 0.0238 Likelihood of “no” = 1/5  4/5  3/5  5/14 = 0.0343 P(“yes”) = 0.0238 / (0.0238 + 0.0343) = 41% P(“no”) = 0.0343 / (0.0238 + 0.0343) = 59%

Atributos numéricos? Suposição usual: atributos têm uma distribuição normal ou Gaussiana (dada a classe) A função de densidade probabilidade para a distribuição normal é definida por dois parâmetros: Média da amostra : Desvio padrão : Função de densidade f(x):

Estatísticas para a base Tempo Outlook Temperature Humidity Windy Play Yes No Sunny 2 3 83 85 86 False 6 9 5 Overcast 4 70 80 96 90 True Rainy 68 65 … 2/9 3/5 mean 73 74.6 79.1 86.2 6/9 2/5 9/14 5/14 4/9 0/5 std dev 6.2 7.9 10.2 9.7 3/9 Exemplo:

Classificando um novo dia Valores faltosos durante treinamento: não são incluidos no cálculo da média e do desvio padrão Outlook Temp. Humidity Windy Play Sunny 66 90 true ? Likelihood of “yes” = 2/9  0.0340  0.0221  3/9  9/14 = 0.000036 Likelihood of “no” = 3/5  0.0291  0.0380  3/5  5/14 = 0.000136 P(“yes”) = 0.000036 / (0.000036 + 0. 000136) = 20.9% P(“no”) = 0. 000136 / (0.000036 + 0. 000136) = 79.1%

Observações Junto com árvores de decisão, redes neurais, vizinhos mais-próximos, é um dos métodos de aprendizagem mais práticos Quando usa-lo Quando se tem disponível um conjunto de treinamento médio ou grande Os atributos que descrevem as instâncias forem condicionalmente independentes dada uma classificação Note também que nem todos os atributos numéricos vão obedecer uma distribuição normal Aplicações: Diagnóstico Classificação de documentos (texto)