Naïve Bayesian Learning

Slides:

Advertisements

Apresentações semelhantes

Indução de Árvores de Decisão

Advertisements

Formato dos Dados % 1. Title: Database for fitting contact lenses

Weka Universidade de Waikato - Nova Zelândia

Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.

Aprendizado de Árvores de Decisão

Mineração da Dados.

WEKA. Roteiro Introdução Conceitos Exemplos práticos Chamada ao aplicativo.

Sistemas Inteligentes

Marcelo Ladeira, Ph.D Departamento de Ciência da Computação

1 Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN.

1 Árvores de Decisão Marcílio Souto DIMAp/UFRN. 2 Árvores de Decisão – ADs (1/4) zForma mais simples: yLista de perguntas  respostas “sim” ou “não” yHierarquicamente.

WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.

Prof. Alexandre Monteiro Recife

Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.

Software Weka Waikato 2004, Witten & Frank 2000.

Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.

Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.

Métodos Probabilísticos

Teoria de Filas – Aula 3 Aula de Hoje Variáveis aleatórias discretas Bernoulli Binominal Uniform Poisson Geométrica Aula Anterior Independência Condicionamento.

Teoria de Filas – Aula 4 Aula de Hoje Variáveis aleatórias contínuas Valor esperado de uma variável aleatória Aula Passada Variáveis aleatórias discretas.

PRINCIPAIS MODELOS CONTÍNUOS Modelo uniforme Uma v.a. contínua X tem distribuição uniforme com parâmetros  e  (  <  ) se sua função densidade.

Probabilidade e Estatística Aplicadas à Contabilidade I Prof. Dr. Marcelo Botelho da Costa Moraes 1.

Distribuições e Teorema do Limite Central Distribuições: Binomial, Poisson e Normal Mimi, você é a única normal nessa sala?! Normal em que sentido?

Comparação de proporções

Teoria dos Grafos Geração de Valores aleatórios

NOÇÕES DE PROBABILIDADE

TESTES DE HIPÓTESES.

Medidas de Dispersão para uma amostra

“ASSOCIAÇÃO EDUCACIONAL FANUEL” GUARDA MIRIM DE TELÊMACO BORBA

Distribuição Binomial

Prof. Dr. Adolpho Walter Pimazoni Canton

Teoria dos conjuntos Conjunto – coleção, classe , grupo ou lista de elementos Designados por letras maiúsculas e um conjunto vazio é designado por  Um.

Métodos Probabilísticos

Abraham Yu Natália & Vivi EAD-FEA

Experiências aleatórias

ESTATÍSTICA Aula 5.

ESTATÍSTICA AULA 06 ANÁLISE EXPLORATÓRIA DE DADOS II – Unidade 4

TMEC011 – ESTATÍSTICA APLICADA

Ferramentas de Diagnóstico de Máquinas IMFDM

Propriedades assintóticas dos estimadores MQO

Bioestatística Professora Livre Docente Suely Godoy Agostinho Gimeno

Exercícios do Livro – Capítulo 8

Modelos de variáveis qualitativas dependentes

PROBALIDADE & VARIÁVEIS ALEATÓRIAS

4 Distribuição da média amostral para maior tamanho de amostra tem menor desvio-padrão.

Ajustamento de Observações

Tópicos em Econometria I

Redes Bayesianas: Amostragens

TESTES DE HIPÓTESES.

PROBABILIDADE E ESTATÍSTICA

Distribuicoes de Probabilidade

Cap 3. Modelo de regressão de duas variáveis: o problema da estimação Prof. MSc. Saulo Jardim Modelagem Estatística.

Econometria Propriedades assintóticas dos estimadores MQO

Ms.Rosebel Trindade Cunha Prates

9. Testes de Hipóteses Paramétricos

Processamento Digital de Imagens

Unidade 1: Analise Combinatória 1.1 Conjunto e operações sobre conjunto 1.2 Factorial 1.3 Princípio fundamental da contagem ( princípio multiplicativo)

Modelos Matemáticos e Probabilistas em Engenharia Geotécnica

Classificação: outros algoritmos

Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2018 Estimação Pontual Camilo Daleles Rennó

Estatística amintas paiva afonso.

Exercício Zeros de Funções

Aprendizado de Máquina

DSI – Desenvolvimento de Sistemas Inteligentes

INF 1771 – Inteligência Artificial

9. Introdução à Teoria das Probabilidades

Aprendizado de Máquina

Aprendizagem Bayesiana

Marcílio Souto DIMAp/UFRN

Transcrição da apresentação:

Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN Lecture 1

Teorema de Bayes P(h): probabilidade a priori da hipótese h P(D): probabilidade a priori do evento D P(h/D): probabilidade de h dado D (probabilidade à posteriori ou condicional) P(D/h): probabilidade de D dado h

Aplicação do Teorema de Bayes: Diagnóstico Médico Seja M=doença meningite S= dor no pescoço Um Médico sabe: P(S/M)=0.5 P(M)=1/50000 P(S)=1/20 P(M/S)=P(S/M)P(M) P(S) =0,5*(1/50000)=0,002 1/20 A probabilidade de uma pessoa ter meningite dado que ela está com dor no pescoço é 0,02% ou ainda 1 em 5000.

Por que Naïve? Suponha que todos os atributos são independentes, dada a classe O que isso significa? play outlook temp humidity windy Pr(outlook=sunny | windy=true, play=yes)= Pr(outlook=sunny|play=yes)

Weather data set Outlook Windy Play overcast FALSE yes rainy TRUE sunny

A suposição é satisfeita? Outlook Windy Play overcast FALSE yes rainy TRUE sunny #yes=9 #sunny=2 #windy, yes=3 #sunny|windy, yes=1 Pr(outlook=sunny|windy=true, play=yes)=1/3 Pr(outlook=sunny|play=yes)=2/9 Pr(windy|outlook=sunny,play=yes)=1/2 Pr(windy|play=yes)=3/9 Assim, a suposição NÃO é satisfeita.

Probabilidades para o conjunto de dados do Tempo Outlook Temperature Humidity Windy Play Yes No Sunny 2 3 Hot High 4 False 6 9 5 Overcast Mild Normal 1 True Rainy Cool 2/9 3/5 2/5 3/9 4/5 6/9 9/14 5/14 4/9 0/5 1/5 Um dia novo: Likelihood of the two classes For “yes” = 2/9  3/9  3/9  3/9  9/14 = 0.0053 For “no” = 3/5  1/5  4/5  3/5  5/14 = 0.0206 Conversion into a probability by normalization: P(“yes”) = 0.0053 / (0.0053 + 0.0206) = 0.205 P(“no”) = 0.0206 / (0.0053 + 0.0206) = 0.795 Outlook Temp. Humidity Windy Play Sunny Cool High True ?

Regra de Bayes revisitada Probabilidade de um evento H dada evidência E: Probabilidade a priori de H: Probabilidade do evento antes da evidência ser vista Probabilidade a posteriori H: Probabilidade do evento ápos a evidência é vista

Naïve Bayes para classificação Aprendizado: qual a probabilidade da class dada uma instância? Evidência E = uma instância Evento H = valor da class para a instância (Play=yes, Play=no) Suposição Naïve Bayes: evidência pode ser dividida em partes indepentes (i.e. atributos das instâncias são independentes)

O exemplo para o conjunto de dados de Tempo Outlook Temp. Humidity Windy Play Sunny Cool High True ? Evidência E Probabilidade para classe “yes”

O problema de “freqüência-zero” E se um valor de atributo não ocorre para cada valor de class (e.g. “Humidity = high” para classe “yes”)? Probabilidade será zero! Probabilidade a posteriori probability também será zero! (Não importante os valore dos outros atributos!) Remédio: adicione 1 ao contador de cada valor de atributo para cada combinação de classe (Laplace estimator) Resultado: probabilidades nunca serão zero

Estimativas modificadas de probabilidade Em alguns casos a adição de uma constante diferente de zero pode ser apropriada Exemplo: atributo outlook para a classe yes Sunny Overcast Rainy

Valores faltosos Treinamento: instância não é incluida na freqüência do contador Classificação: atributo será omitio do c´lculo Exemplo: Outlook Temp. Humidity Windy Play ? Cool High True Likelihood of “yes” = 3/9  3/9  3/9  9/14 = 0.0238 Likelihood of “no” = 1/5  4/5  3/5  5/14 = 0.0343 P(“yes”) = 0.0238 / (0.0238 + 0.0343) = 41% P(“no”) = 0.0343 / (0.0238 + 0.0343) = 59%

Atributos numéricos? Suposição usual: atributos têm uma distribuição normal ou Gaussiana (dada a classe) A função de densidade probabilidade para a distribuição normal é definida por dois parâmetros: Média da amostra : Desvio padrão : Função de densidade f(x):

Estatísticas para a base Tempo Outlook Temperature Humidity Windy Play Yes No Sunny 2 3 83 85 86 False 6 9 5 Overcast 4 70 80 96 90 True Rainy 68 65 … 2/9 3/5 mean 73 74.6 79.1 86.2 6/9 2/5 9/14 5/14 4/9 0/5 std dev 6.2 7.9 10.2 9.7 3/9 Exemplo:

Classificando um novo dia Valores faltosos durante treinamento: não são incluidos no cálculo da média e do desvio padrão Outlook Temp. Humidity Windy Play Sunny 66 90 true ? Likelihood of “yes” = 2/9  0.0340  0.0221  3/9  9/14 = 0.000036 Likelihood of “no” = 3/5  0.0291  0.0380  3/5  5/14 = 0.000136 P(“yes”) = 0.000036 / (0.000036 + 0. 000136) = 20.9% P(“no”) = 0. 000136 / (0.000036 + 0. 000136) = 79.1%

Observações Junto com árvores de decisão, redes neurais, vizinhos mais-próximos, é um dos métodos de aprendizagem mais práticos Quando usa-lo Quando se tem disponível um conjunto de treinamento médio ou grande Os atributos que descrevem as instâncias forem condicionalmente independentes dada uma classificação Note também que nem todos os atributos numéricos vão obedecer uma distribuição normal Aplicações: Diagnóstico Classificação de documentos (texto)