A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Métodos estatísticos em aprendizagem

Apresentações semelhantes


Apresentação em tema: "Métodos estatísticos em aprendizagem"— Transcrição da apresentação:

1 Métodos estatísticos em aprendizagem
Mestrado FEI Paulo Santos

2 Aprendizagem: raciocínio com incerteza a partir de observações
aprender teorias probabilísticas sobre o mundo a partir da experiência; soluções gerais para os problemas de ruído, memorização e previsão ótima

3 Aprendizagem estatística
Conceitos fundamentais: Dados: evidências, i.e. instanciações de algumas ou de todas as variáveis aleatórias que descrevem o domínio; Hipóteses: teorias probabilísticas de como o domínio funciona incluindo teorias lógicas como casos particulares.

4 Exemplo: doce surpresa
Doces de cereja e lima em embalagens idênticas. Cinco tipos de sacos de doces: h1: 100% cereja h2: 75% cereja + 25% lima h3: 50% cereja + 50% lima h4: 25% cereja + 75% lima h5: 100% lima Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ?

5 Exemplo: doce surpresa
Dado um novo saco de doce, a variável aleatória H (hipótese) denota o tipo do saco (h1, ..., h5) H não é diretamente observável; A medida que os doces são abertos e inspecionados, são revelados os dados - D1, D2, ... Dn, onde cada Di é uma variável aleatória com valores possíveis cereja e lima. Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ?

6 Aprendizagem Bayesiana
Calcula a probabilidade de cada hipótese, considerando-se os dados, e faz previsões de acordo com ela; as previsões são feitas com o uso de todas as hipóteses, ponderadas com suas probabilidades A aprendizagem é reduzida à inferência probabilística

7 Aprendizagem Bayesiana
Seja D a repres. de todos os dados, com valor observado d; então a probabilidade de cada hipótese é obtida pela regra de Bayes: P(hi|d) = cP(d| hi)P(hi) A previsão de uma quantidade desconhecida X: Onde cada hipótese determina uma distribuição sobre X

8 Aprendizagem Bayesiana
A previsão de uma quantidade desconhecida X: Onde cada hipótese determina uma distribuição sobre X I.e., as previsões são médias ponderadas sobre as previsões das hipóteses individuais as hipóteses são intermediários entre os dados brutos e as previsões.

9 de volta aos doces Suponha que a distribuição a priori sobre h1,..., h5 seja dada por <0.1, 0.2, 0.4, 0.2, 0.1> A probabilidade dos dados é calculada sob a suposição de que as observações são independentementes e identicamente distribuídas: P(d|hi) = ∏j P(dj|hi) i.e, uma observação não depende das anteriores, dado as hipóteses

10 de volta aos doces Suponha que a sacola seja realmente uma sacola só com doces de lima (h5) e que os primeiros 10 doces sejam todos de lima; então P(d|h3) = ∏j P(dj|h3) = 0.510 (metade dos doces em h3 é de lima) Como as probabilidades mudam com novas observações ?

11 Probabilidade Posterior de Hipóteses
Prob a priori

12 Probabilidades prevista de que o próximo doce seja de lima

13 Probabilidades prevista de que o próximo doce seja de lima

14 Aprendizagem Bayesiana
Dada a distribuição a priori de todas as hipóteses A hipótese verdadeira eventualmente domina a previsão Bayesiana A previsão é ótima quer o conjunto de dados seja pequeno ou grande para problemas reais de aprendizagem o espaço de hipóteses é em geral muito grande ou infinito

15 Aprendizagem Bayesiana aproximada : MAP
Fazer previsões com uma única hipótese: a mais provável: hi que maximize P(hi|d) hipótese de máximo a posteriori: MAP previsões aproximadamente Bayesianas: P(X|d) ≈ P(X|hMAP) após 3 doces de lima seguidos hMAP= h5 o 4o doce será previsto de lima com 100% de certeza

16 MAP maximizar P(hi|d) P(hi|d) = cP(d| hi)P(hi)
logo hMAP para maximizar P(d| hi)P(hi) é equivalente a minimizar: - log2 P(d|hi) - log2 P(hi)

17 MAP Outra possibilidade é tomar o logaritmo de:
P(hi|d) = cP(d| hi)P(hi) logo hMAP para maximizar P(d| hi)P(hi) e equivalente a minimizar: - log2 P(d|hi) - log2 P(hi) número de bits necessários para especificar hi número adicional de bits para especificar os dados

18 MAP - log2 P(d|hi) - log2 P(hi) número de bits em hi
para especificar (explicar) os dados número adicional de bits para especificar os dados (considere que nenhum bit é necessário se a hipótese prevê os dados exatamente: log 1 = 0

19 - log2 P(d|hi) - log2 P(hi)
MAP - log2 P(d|hi) - log2 P(hi) Minimizar isso significa, portanto, encontrar a hipótese que encontre a compactação máxima dos dados

20 MAP encontrar a hipótese que encontre a compactação máxima dos dados
Principal idéia por traz dá aprendizagem por comprimento mínimo de descrição (CMD) [minimum description length (MDL) learning]: minimizar o tamanho da hipótese e das codificações dos dados

21 Aprendizagem de parâmetros com dados completos
descoberta dos parâmetros numéricos para um modelo de probabilidade cuja estrutura é fixa Dados são completos quando cada ponto de dados contém valores para toda variável no modelo de probabilidade que está sendo aprendido. simplificam o processo de aprendizagem

22 Exemplo saco de doces de um novo fabricante cujas proporções de cereja e lima são completamente desconhecidas (entre 0 e 1) quantidade contínua de hipóteses O parâmetro (θ) é a proporção de doces de cereja (1 - θ é a prop de lima) A hipótese é hθ

23 Exemplo supondo que todas as proporções são igualmente prováveis a priori: máxima probabilidade é razoável Modelando como uma rede Bayesiana:

24 Aprendizagem de parâmetros em redes Bayesianas
Desembrulhando N doces (“c” de cereja e “N - c” lima) A hipótese de máxima probabilidade é dada pelo valor de θ que maximiza essa expressão, também obtido maximizando-se:

25 Aprendizagem de parâmetros em redes Bayesianas
O valor de máxima probabilidade de θ é obtido por:

26 Aprendizagem de parâmetros de máxima probabilidade
Escrever uma expressão para a probabilidade dos dados como uma função dos parâmetros Escrever a derivada da probabilidade logarítmica com relação a cada parâmetro Encontrar os valores de parâmetros tais que as derivadas sejam iguais a zero

27 Aprendizagem de parâmetros de máxima probabilidade
Principal problema (small sample size problem): para conjuntos de dados pequenos, alguns eventos recebem probabilidade zero divisão não definida

28 Outro exemplo: Embalagens de doces coloridas de vermelho e verde
a embalagem de cada doce é selecionada probabilisticamente, segundo alguma distribuição condicional desconhecida, dependendo do sabor

29 Múltiplos parâmetros três parâmetros θ, θ1, θ2.
A probabilidade de ver um doce de cereja em uma embalagem verde (segundo a semântica de redes Bayesianas) é:

30 Multiplos parâmetros Desembrulhamos N doces: c (cer.) e l (lima)
rc de cereja tem embalagens vermelhas gc de cereja tem embalagens verdes rl e gl analogamente

31 Múltiplos parâmetros A probabilidade dos dados é, portanto:

32 Múltiplos parâmetros

33 Múltiplos parâmetros esses resultados podem ser estendidos a qqr rede Bayesiana cujas probabilidades condicionais são dadas como tabelas com dados completos, o problema de aprendizagem de parâmetros por máxima probabilidade se decompõe em problemas de aprendizagem separados: um para cada parâmetro. os valores de parâmetros para uma variável, dados seus pais, são as frequências observadas dos valores de variáveis para cada configuração dos valores dos pais

34 Aprendizagem de parâmetros de máxima probabilidade: modelo Gaussiano Linear
modelos de probabilidade contínuos os princípios são idênticos aos do caso discreto Ex. aprendizagem de parâmetros de uma função de densidade gaussiana sob uma única variável:

35 parâmetros desse modelo:
μ: média e σ: desvio padrão Sejam os valores observados x1, ..., xN. Então a probabilidade logarítmica é:

36 Definindo as derivadas como zero:
i.e. o valor de máxima probabilidade da média é a média das amostras e o valor de máxima probabilidade do desvio-padrão é a raiz quadrada da variância das amostras

37 Considere um modelo gaussiano linear com um pai contínuo X e um filho contínuo Y.
Para aprender a distribuição condicional P(Y|X) podemos maximizar a probabilidade condicional: para os parâmetros: θ1, θ2 e σ

38 (yj - (θ1xj + θ2 ))2 é o erro para (xj,yj)
‘E’ é a soma de erros quadráticos quantidade minimizada por regressão linear

39 a minimização da soma dos erros quadráticos fornece o modelo de linha reta de máxima probabilidade, desde que os dados sejam gerados com ruído gaussiano de variância fixa.

40 Aprendizagem de estruturas de redes Bayesianas
Até agora supomos que a estrutura da rede bayesiana é dada: somente aprende-se os parâmetros Em alguns casos o modelo causal está indisponível ou em disputa

41 Aprendizagem de estruturas
Abordagem óbvia: buscar um modelo: iniciar com um modelo que não contenha nenhum vínculo e começar a adicionar pais correspondentes a cada nó, ajustando os parâmetros e medindo a exatidão do modelo resultante. começar com um palpite inicial sobre a estrutura e utilizar busca por subida de encosta para fazer modificações, retornando os parâmetros após cada mudança de estrutura. modificações: inversão, adição ou eliminação de arcos. busca sobre ordenações possíveis

42 Aprendizagem de estruturas
Uma boa estrutura foi encontrada? testar se as asserções de independência condicional implícitas na estrutura são realmente satisfeitas nos dados. P(Sex/Sab, Bar|VaiEsperar) = P(Sex/Sab|VaiEsperar)P(Bar|VaiEsperar) Verificar nos dados se esta equação é válida. ainda que a estrutura descreva a verdadeira natureza causal do domínio, flutuações estatísticas no conjunto de dados significam que a equação nunca será satisfeita exatamente, e então precisamos utilizar um teste estatístico apropriado para verificar se existe evidência estatística suficiente de que a hipótese de independência foi violada quanto mais rígido for este teste, mais vínculos serão adicionados e maior o risco de superadaptação.

43 Aprendizagem de variáveis ocultas
Variáveis ocultas (ou latentes) ex. registros médicos contêm sintomas observáveis e o tratamento, mas raramente uma observação da doença! Por que não construir um modelo sem esta variável?

44 Aprendizagem de variáveis ocultas

45 Aprendizagem de variáveis ocultas
Variáveis latentes podem reduzir drasticamente o número de parâmetros exigidos para especificar uma rede Bayesiana.

46 Aprendizagem de variáveis ocultas: o algoritmo EM
EM: Expectation Maximization (Esperança Maximização) Formação de agrupamentos não supervisionados Distinguir várias categorias em uma coleção de objetos não supervisionado: os rótulos não são dados

47 Aprendizagem de variáveis ocultas: o algoritmo EM
Formação de agrupamentos não supervisionados Começamos dos dados ajustar alguma distribuição de probabilidades que pudesse ter gerado os dados Pressupõe que os dados são gerados a partir de uma distribuição de mistura P uma distribuição tem k componentes, cada um dos quais é uma distribuição: P(x) = ∑ki=1 P(C = i) P(x|C = i)

48 Aprendizagem de variáveis ocultas: o algoritmo EM
Formação de agrupamentos não supervisionados No caso de dados contínuos: gaussiana multivariada: fornece uma família de distribuições chamada mistura de distribuições gaussianas wi = P(C=i) --- peso de cada componente μi media de cada componente Σi --- co-variância de cada componente

49 Aprendizagem de variáveis ocultas: o algoritmo EM

50 o algoritmo EM O problema de formação de agrupamentos não- supervisionados consiste em recuperar um modelo de mistura como o da Fig. 20.8(b) a partir de dados brutos como os da Fig (a). Idéia básica: fingir que conhecemos os parâmetros do modelo e depois deduzir a probabilidade de cada ponto de dados pertencer a cada componente depois disso, readaptamos os componentes aos dados, onde cada componente é ajustado ao conjunto de dados inteiro, cada ponto ponderado com a possibilidade de pertencer a esse componente

51 o algoritmo EM Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos: Etapa E: calcular as probabilidades pij=P(C=i|xj) a probabilidade de que o dado xj tenha sido gerado pelo componente i. pela regra de Bayes: pij= aP(xj|C = i)P(C=i) P(xj|C = i): probabilidade em xj do i-esimo gaussiano P(C = i): peso para o iesimo gaussiano definir: pi = Σj pij Etapa M:

52 o algoritmo EM Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos: Etapa E: calcular as probabilidades pij=P(C=i|xj) a probabilidade de que o dado xj tenha sido gerado pelo componente i. pela regra de Bayes: pij= aP(xj|C = i)P(C=i) P(xj|C = i): probabilidade em xj do i-esimo gaussiano P(C = i): peso para o iesimo gaussiano definir: pi = Σj pij (somar sobre todas probabilidades de todos os pontos j terem sido gerados pela gaussiana i) Etapa M:

53 o algoritmo EM Etapa M: calcular a nova média, co-variância e os pesos dos componentes: μi ← Σj pijxj/pi Σi ← Σj pijxjxjT/pi wi ← pi

54 o algoritmo EM Etapa E (esperança): Etapa M (maximização):
cálculo dos valores esperados pij das variáveis indicadoras Zij ocultas Etapa M (maximização): encontra os novos valores dos parâmetros que maximizam a probabilidade logaritmica dos dados, dados os valores esperados das variáveis indicadoras ocultas.

55 Aprendizagem de redes Bayesianas com variáveis ocultas
Execício: leia e entenda esta seção. Uma questão sobre este assunto cairá na prova. (dica: para entender esta seção você terá antes que entender -- quase -- todo o capítulo!)


Carregar ppt "Métodos estatísticos em aprendizagem"

Apresentações semelhantes


Anúncios Google