A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Classificadores Bayesianos Introduction to Data Mining (Cap. 5.3) Tan, Steinbach, Kumar Irineu Júnior Pinheiro dos Santos Mirela Ferreira César Roberto.

Apresentações semelhantes


Apresentação em tema: "Classificadores Bayesianos Introduction to Data Mining (Cap. 5.3) Tan, Steinbach, Kumar Irineu Júnior Pinheiro dos Santos Mirela Ferreira César Roberto."— Transcrição da apresentação:

1 Classificadores Bayesianos Introduction to Data Mining (Cap. 5.3) Tan, Steinbach, Kumar Irineu Júnior Pinheiro dos Santos Mirela Ferreira César Roberto Ribeiro Castro Menezes

2 2 Sumário Introdução Teorema de Bayes Teorema de Bayes na Classificação Classificador Naive Bayes M-Estimate das Probabilidades Condicionais

3 3 Introdução - Conceitos Classificadores Bayesianos são classificadores estatísticos que tem a função de classificar um objeto numa determinada classe, baseando-se na probabilidade deste objeto pertencer a esta classe. Em muitas aplicações, a relação entre o conjunto de atributos e a variável classe são não- determinísticos.

4 4 Introdução - Exemplo Predizer quando uma pessoa tem doença no coração considerando os fatores alimentação saudável e freqüência que pratica exercícios.

5 5 Introdução - Exemplo Outros Fatores podem ocasionar a doença: fumo, colesterol elevado e hereditariedade. Doença no coração? Alimentação Saudável e Exercícios Relação não determinística

6 6 Teorema de Bayes Fornece o cálculo das probabilidades de que uma determinada amostra de dados pertença a cada uma das classes possíveis, predizendo para a amostra, a classe mais provável. Considerando X e Y variáveis aleatórias, uma probabilidade condicional P(Y|X) refere-se a probabilidade de Y assumir um valor determinado, observando-se o valor assumido por X.

7 7 Teorema de Bayes na Classificação Exemplo: IDIdadeRendaEstudanteCréditoCompra_computador 1<= 30AltaNãoBom Não 2<= 30AltaNãoBom Não AltaNãoBom Sim 4> 40MédiaNãoBom Sim 5> 40BaixaSimBom Sim 6> 40BaixaSimExcelente Não BaixaSimExcelente Sim 8<= 30MédiaNãoBom Não 9<= 30BaixaSimBom Sim 10> 40MédiaSimBom Sim 11<= 30MédiaSimExcelente Sim MédiaNãoExcelente Sim AltaSimBom Sim 14> 40MédiaNãoExcelente Não Classificar os seguintes valores: X = (Idade <= 30, Renda = Media, Estudante = sim, Crédito = bom) Y = Compra_Computador?

8 8 Teorema de Bayes na Classificação Exemplo: IDIdadeRendaEstudanteCréditoCompra_computador 1<= 30AltaNãoBom Não 2<= 30AltaNãoBom Não AltaNãoBom Sim 4> 40MédiaNãoBom Sim 5> 40BaixaSimBom Sim 6> 40BaixaSimExcelente Não BaixaSimExcelente Sim 8<= 30MédiaNãoBom Não 9<= 30BaixaSimBom Sim 10> 40MédiaSimBom Sim 11<= 30MédiaSimExcelente Sim MédiaNãoExcelente Sim AltaSimBom Sim 14> 40MédiaNãoExcelente Não P(Y=sim) e P(Y=não) P(Y=sim) = 9/14 = 0,643 P(Y=não) = 5/14 = 0,357 = 1-P(Y=sim)

9 9 Teorema de Bayes na Classificação X = (Idade <= 30, Renda = Media, Estudante = sim, Crédito = bom) IDIdadeRendaEstudanteCréditoCompra_computador 1<= 30AltaNãoBom Não 2<= 30AltaNãoBom Não AltaNãoBom Sim 4> 40MédiaNãoBom Sim 5> 40BaixaSimBom Sim 6> 40BaixaSimExcelente Não BaixaSimExcelente Sim 8<= 30MédiaNãoBom Não 9<= 30BaixaSimBom Sim 10> 40MédiaSimBom Sim 11<= 30MédiaSimExcelente Sim MédiaNãoExcelente Sim AltaSimBom Sim 14> 40MédiaNãoExcelente Não Probabilidades: P[Idade <= 30 | Y = sim] = 2/9 = 0,222 P[Idade <= 30 | Y = não] = 3/5 = 0,6

10 10 Teorema de Bayes na Classificação X = (Idade <= 30, Renda = Media, Estudante = sim, Crédito = bom) IDIdadeRendaEstudanteCréditoCompra_computador 1<= 30AltaNãoBom Não 2<= 30AltaNãoBom Não AltaNãoBom Sim 4> 40MédiaNãoBom Sim 5> 40BaixaSimBom Sim 6> 40BaixaSimExcelente Não BaixaSimExcelente Sim 8<= 30MédiaNãoBom Não 9<= 30BaixaSimBom Sim 10> 40MédiaSimBom Sim 11<= 30MédiaSimExcelente Sim MédiaNãoExcelente Sim AltaSimBom Sim 14> 40MédiaNãoExcelente Não Probabilidades: P[Renda = Media | Y = sim] = 4/9 = 0,444 P[Renda = Media | Y = não] = 2/5 = 0,4

11 11 Teorema de Bayes na Classificação X = (Idade <= 30, Renda = Media, Estudante = sim, Crédito = bom) IDIdadeRendaEstudanteCréditoCompra_computador 1<= 30AltaNãoBom Não 2<= 30AltaNãoBom Não AltaNãoBom Sim 4> 40MédiaNãoBom Sim 5> 40BaixaSimBom Sim 6> 40BaixaSimExcelente Não BaixaSimExcelente Sim 8<= 30MédiaNãoBom Não 9<= 30BaixaSimBom Sim 10> 40MédiaSimBom Sim 11<= 30MédiaSimExcelente Sim MédiaNãoExcelente Sim AltaSimBom Sim 14> 40MédiaNãoExcelente Não Probabilidades: P[Estudante = sim | Y = sim] = 6/9 = 0,667 P[Estudante = sim | Y = não] =1/5 = 0,2

12 12 Teorema de Bayes na Classificação X = (Idade <= 30, Renda = Media, Estudante = sim, Crédito = bom) IDIdadeRendaEstudanteCréditoCompra_computador 1<= 30AltaNãoBom Não 2<= 30AltaNãoBom Não AltaNãoBom Sim 4> 40MédiaNãoBom Sim 5> 40BaixaSimBom Sim 6> 40BaixaSimExcelente Não BaixaSimExcelente Sim 8<= 30MédiaNãoBom Não 9<= 30BaixaSimBom Sim 10> 40MédiaSimBom Sim 11<= 30MédiaSimExcelente Sim MédiaNãoExcelente Sim AltaSimBom Sim 14> 40MédiaNãoExcelente Não Probabilidades: P[Credito = bom | Y = sim] = 6/9 = 0,667 P[Credito = bom | Y = não] = 2/5 = 0,4

13 13 Teorema de Bayes na Classificação Calculamos isoladamente o valor da probabilidade condicional de cada atributo, mas para que eles sejam calculado de forma interseccionada, temos: P[x 1, x 2,... x d | C] = P(x 1 | C) * P(x 2 | C) * … * P(x d | C) Com isso, é possível chegar a uma forma mais geral do Teorema de Bayes:

14 14 Teorema de Bayes na Classificação Temos: P(X|Y=sim) = 0,222 * 0,444 * 0,667 * 0,667 = 0,044 P(X|Y=não) = 0,6 * 0,4 * 0,2 * 0,4 = 0,019 Pela lei da probabilidade total: P(X) = P(X|Y=sim)*P(Y=sim) + P(X|Y=não)*P(Y=não) P(X) = 0,044*0, ,019*0,357 = 0, ,007 = 0,035 P(X|Y=sim) * P(Y=sim) / P(X) = 0,044 * 0,643 = 0,028 / 0,035 = 0,8 P(X|Y=não) * P(Y=não) / P(X) = 0,019 * 0,357 = 0,007 / 0,035 = 0,2 Ou seja, P(X|Y=sim) > P(X|Y=não) O classificador Bayesiano prediz que a tupla X é classificada na classe Compra-Computador = sim

15 15 Classificador Naive Bayes Um classificador Naive Bayes estima a probabilidade de classe condicional P(X|Y). Pré-considerações: Assume-se que os atributos são condicionalmente independentes (Naive Bayes ingênuo ou simples); As probabilidades condicionais são estimadas para os atributos de acordo com a sua classificação: Categórico; Contínuo.

16 16 Atributos Condicionalmente Independentes São atributos que apresentam independência estatística entre si: Dois eventos são estatisticamente independentes se a probabilidade da ocorrência de um evento não é afetada pela ocorrência do outro evento. Exemplo: Tamanho do braço x Habilidades de Leitura Considerando a Idade, a dependência não ocorre.

17 17 Atributos Categóricos É aquele atributo para o qual é possível estabelecer um conjunto de valores finito. Exemplo : Sexo: {Masculino, Feminino} Cor da Pele: {Branca, Marrom, Amarela, Preta}

18 18 Atributos Categóricos Para uso no algoritmo Naive Bayes: Estima-se a fração das instâncias de treinamento de acordo com cada valor da classe. Exemplo: Casa PrópriaEstado CivilInadimplente SimCasadoSim SolteiroNão CasadoNão SimDivorciadoNão P(Casa Própria=Sim|Não)

19 19 Atributos Categóricos Exemplo: Casa PrópriaEstado CivilInadimplente SimCasadoSim SolteiroNão CasadoNão SimDivorciadoNão P(Casa Própria=Sim|Não) = 2/3

20 20 Atributos Contínuos São considerados contínuos os atributos que possuem muitos ou infinitos valores possíveis Exemplo: Idade: Peso:

21 21 Atributos Contínuos Existem duas formas de estimar a probabilidade de classe condicional para atributos contínuos: Discretização dos atributos; Distribuição Gaussiana.

22 22 Atributos Contínuos Discretização de atributos contínuos: Os atributos contínuos são divididos em intervalos discretos, que substituem os valores desses atributos. Esta abordagem transforma os atributos contínuos em atributos ordinais. A transformação dos atributos contínuos em atributos discretos permite que sejam tratados como atributos categóricos.

23 23 Atributos Contínuos Distribuição Gaussiana: Assume uma certa forma de distribuição de probabilidade para variáveis contínuas, e estima os parâmetros da distribuição usando os dados de treinamento. Caracterizada por dois parâmetros: Média (µ) Variância (σ 2 ) da amostra

24 24 Atributos Contínuos Para cada valor de classe y, a probabilidade da classe condicional para o atributo X é:

25 25 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim Atributos CategóricosAtributos ContínuosClasse Exemplo: Dado o seguinte conjunto de treinamento:

26 26 Classificador Naive Bayes Cálculo dos atributos categóricos: RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim P(Casa Própria=Sim|Não) = 3/7

27 27 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim P(Casa Própria=Sim|Não) = 3/7 P(Casa Própria=Não|Não) = 4/7 Cálculo dos atributos categóricos:

28 28 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim P(Casa Própria=Sim|Não) = 3/7 P(Casa Própria=Não|Não) = 4/7 P(Casa Própria=Sim|Sim) = 0 Cálculo dos atributos categóricos:

29 29 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim P(Casa Própria=Sim|Não) = 3/7 P(Casa Própria=Não|Não) = 4/7 P(Casa Própria=Sim|Sim) = 0 P(Casa Própria=Não|Sim) = 1 Cálculo dos atributos categóricos:

30 30 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim P(Casa Própria=Sim|Não) = 3/7 P(Casa Própria=Não|Não) = 4/7 P(Casa Própria=Sim|Sim) = 0 P(Casa Própria=Não|Sim) = 1 P(Estado Civil=Solteiro|Não) = 2/7 P(Estado Civil=Divorciado|Não) = 1/7 P(Estado Civil=Casado|Não) = 4/7 P(Estado Civil=Solteiro|Sim) = 2/3 P(Estado Civil=Divorciado|Sim) = 1/3 P(Estado Civil=Casado|Sim) = 0 Cálculo dos atributos categóricos:

31 31 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim Média: µ = ( ) / 7 = 110 Variância: σ 2 = ( ) 2 + ( ) 2 + (70-110) 2 + ( ) 2 + (60-110) 2 + ( ) 2 + (75-110) 2 / 6 = 2975 Cálculo dos atributos contínuos: Para a classe Não

32 32 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim Cálculo dos atributos contínuos: Para a classe Sim Média: µ = ( ) / 3 = 90 Variância: σ 2 = (95-90) 2 + (85-90) 2 + (90-90) 2 / 2 = 25

33 33 Classificador Naive Bayes RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim P(Casa Própria=Sim|Não) = 3/7 P(Casa Própria=Não|Não) = 4/7 P(Casa Própria=Sim|Sim) = 0 P(Casa Própria=Não|Sim) = 1 P(Estado Civil=Solteiro|Não) = 2/7 P(Estado Civil=Divorciado|Não) = 1/7 P(Estado Civil=Casado|Não) = 4/7 P(Estado Civil=Solteiro|Sim) = 2/3 P(Estado Civil=Divorciado|Sim) = 1/3 P(Estado Civil=Casado|Sim) = 0 Para o cálculo da Renda Anual: Classe Não: Média: 110Variância: 2975 Classe Sim: Média: 90Variância: 25 Resultado dos cálculos básicos:

34 34 Classificador Naive Bayes Dado o conjunto de treinamento anterior, qual a classe do seguinte registro de teste: X = (Casa Própria=Não, Estado Civil=Casado, Renda Anual=120K) Avaliar qual a maior probabilidade entre as probabilidades posteriores: P(Inadimplente=Não|X) e P(Inadimplente=Sim|X)

35 35 Classificador Naive Bayes Para calcular as probabilidades posteriores P(Não|X) e P(Sim|X) necessitamos: Calcular as classes condicionais P(X|No) e P(X|Yes) P(X|Não) P(Casa Própria=Não|Não) * P(Estado Civil=Casado|Não) * P(Renda Anual=120K|Não) 4/7 * 4/7 * 0,0072 0,0024 P(X|Sim) P(Casa Própria=Não|Sim) * P(Estado Civil=Casado|Sim) * P(Renda Anual=120K|Sim) 1 * 0 * 1,2x Distribuição Gaussiana

36 36 Classificador Naive Bayes Juntando os termos: P(Não|X) α * P(Não) * P(X|Não) α * 7/10 * 0,0024 0,0016α Onde α = 1/P(X) Termo constante! Como a probabilidade condicional de P(X|Sim) é zero: P(Sim|X) = 0 Logo, P(Não|X) > P(Sim|X) O registro X é classificado como Não

37 37 M-Estimate das Probabilidades Condicionais Problema: se a probabilidade da classe condicional de um dos atributos é zero, a probabilidade posterior para a classe inteira, quando avaliado esse atributo, também será. Pois Lembre-se: P[x 1, x 2,...,x k | C] = P(x 1 | C) * P(x 2 | C) * … * P(x k | C) Quando essa condição existe para atributos das duas classes, o algoritmo não é capaz de classificar o registro.

38 38 M-Estimate das Probabilidades Condicionais Exemplo, imagine que o conjunto de treinamento fosse assim: E agora queremos saber P(X | C) sendo X = (Casa Própria = Sim, Estado Civil = Divorciado, Renda = 120k) RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim

39 39 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = 0.666

40 40 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = P(Sim) = 3/9 = 0.333

41 41 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = P(Sim) = 3/9 = P(Casa Própria = Sim | Não) = 2/6 = 0.33

42 42 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = P(Sim) = 3/9 = P(Casa Própria = Sim | Não) = 2/6 = 0.33 P(Estado Civil = Divorciado | Não) = 0

43 43 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = P(Sim) = 3/9 = P(Casa Própria = Sim | Não) = 2/6 = 0.33 P(Estado Civil = Divorciado | Não) = 0 P(Renda Anual = 120k | Não) = 0,0072 Média (µ) = 91,66k Variância (σ 2 ) = 732,76

44 44 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = P(Sim) = 3/9 = P(Casa Própria = Sim | Não) = 2/6 = 0.33 P(Estado Civil = Divorciado | Não) = 0 P(Renda Anual = 120 | Não) = 0,0072 P(Casa Própria = Sim | Yes) = 0/3 = 0

45 45 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = P(Sim) = 3/9 = P(Casa Própria = Sim | Não) = 2/6 = 0.33 P(Estado Civil = Divorciado | Não) = 0 P(Renda Anual = 120 | Não) = 0,0072 P(Casa Própria = Sim | Sim) = 0/3 = 0 P(Estado Civil = Divorciado | Sim) = 0.333

46 46 RegistroCasa PrópriaEstado CivilRenda AnualInadimplente 1SimSolteiro125KNão 2 Casado100KNão 3 Solteiro70KNão 4SimCasado120KNão 5 Divorciado95KSim 6NãoCasado60KNão 7SimDivorciado220KNão 8 Solteiro85KSim 9NãoCasado75KNão 10NãoSolteiro90KSim M-Estimate das Probabilidades Condicionais P(Não) = 6/9 = P(Sim) = 3/9 = P(Casa Própria = Sim | Não) = 2/6 = 0.33 P(Estado Civil = Divorciado | Não) = 0 P(Renda Anual = 120 | Não) = 0,0072 P(Casa Própria = Sim | Sim) = 0/3 = 0 P(Estado Civil = Divorciado | Sim) = P(Renda Anual = 120 | Sim) = 1,2 * 10 -9

47 47 M-Estimate das Probabilidades Condicionais Aplicando a fórmula de Bayes: P(C = Não | X) = α * * (0.333 * 0 * 0,0072) P(C = Sim | X) = α * * ( 0 * * 1,2 * ) P(C = Não | X) = 0 P(C = Sim | X) = 0 Ou seja, o algoritmo não foi capaz de predizer a probabilidade neste caso

48 48 M-Estimate das Probabilidades Condicionais É possível contornar o problema utilizando a abordagem M- Estimate para o cálculo das probabilidades condicionais

49 49 M-Estimate das Probabilidades Condicionais Onde: n é o número total de instâncias da classe y n c é o número de exemplos de treinamento da classe y com o valor x m é um parâmetro conhecido como o tamanho de amostra equivalente m é dito valor de compensação p é um parâmetro especificado pelo usuário + ou – a proporção da classe no treinamento Utilizando m = 3 e p = 2/3 (para a classe Não), é possível calcular a probabilidade condicional que anteriormente era zero: P(Estado Civil=Divorciado|Não) = (0 + 3*2/3)/(6+3) = 2/9

50 50 M-Estimate das Probabilidades Condicionais Assumindo p=1/3 para classe Sim e p=2/3 para a classe Não, as classes condicionais dos demais atributos são calculadas: P(Casa própria=Sim|Não) = (2 + 3*2/3)/(6 + 3) = 4/9 = P(Estado Civil = Divorciado | Não) = 2/9 = (calculado na lâmina anterior) P(Renda Anual = 120k | Não) = 0,0072 P(C = Não | X) = α * * (0.444 * * 0,0072) = 0,004α P(Casa própria=Sim|Sim) = (0 + 3*1/3)/(3 + 3) = 1/6 = 0,166 P(Estado Civil = Divorciado | Sim) = (1 + 3 * 1/3) / (3 + 3) = 2/6 = 0,333 P(Renda Anual = 120k | Sim) = 1,2 * P(C = Sim | X) = α * * ( 0,166 * * 1,2 * ) = 0,022 * α Portanto, o algoritmo de Naive Bayes prediz que para o conjunto de atributos X utilizado, a classe deverá ser NÃO

51 51 Caracteristicas Naive Bayes Vantagens: São robustos para isolar pontos de ruído, pois tais pontos são calculados pela média quando estima-se a probabilidades condicionais dos dados. Atributos irrelevantes não tem impacto na computação da probabilidade posterior. Desvantagens: Atributos correlacionados degradam a performance de classificadores bayesianos, pois a independência condicional não é mais assegurada.

52 Perguntas?


Carregar ppt "Classificadores Bayesianos Introduction to Data Mining (Cap. 5.3) Tan, Steinbach, Kumar Irineu Júnior Pinheiro dos Santos Mirela Ferreira César Roberto."

Apresentações semelhantes


Anúncios Google