Métodos estatísticos em aprendizagem

Slides:

Advertisements

Apresentações semelhantes

DISTRIBUIÇÕES AMOSTRAIS

Advertisements

Estatística: Aplicação ao Sensoriamento Remoto ANO 2010

Inteligência Artificial

AJUSTE DE CURVAS 6.1 Introdução 6.2 Método dos quadrados mínimos

CAPÍTULO 7 TESTE DE HIPÓTESE

Intervalos de Confiança

ANÁLISE DISCRIMINANTE LIG, 18 de novembro de 2008.

ANÁLISE DISCRIMINANTE

Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.

Cássio Luís Fernandes de Oliveira

CAPÍTULO 7 TESTE DE HIPÓTESE

Mineração de Dados Avaliação de Classificadores

Sinais e Sistemas – Capítulo 4

Inteligência Artificial

Inteligência Artificial

Capítulo 6 Estimativas e Tamanho de Amostras

Rejane Sobrino Pinheiro Tania Guillén de Torres

Testes de Hipóteses Forma mais clássica de inferência estatística

Distribuição de probabilidade

Distribuição de probabilidade

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

3 - Equações Lineares de Segunda Ordem

Objetivo Definições Cálculo do teste Exemplo Comentários Bibliografia

Site: Estatística Prof. Edson Nemer Site:

CAPÍTULO I- TEORIA DAS PROBABILIDADE

Alexandre Xavier Falcão & David Menotti

Laís Araújo Lopes de Souza

Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2014 Inferência Estatística Camilo Daleles Rennó

VALORES ESPERADOS.

ANOVA: Análise de Variância APLICAÇÃO.

DISTRIBUIÇÕES AMOSTRAIS

Desafios gerenciais Aula 4.

Modelos de distribuição de erros

Prof. Msc. Mauro Enrique Carozzo Todaro

Amostragem Pontos mais importantes:

Sistema de equações lineares

Distribuição Normal Prof. Herondino.

Aula 6 - Método não-experimental ou de seleção não-aleatória

André Luiz da Costa Carvalho

Teste de Hipótese.

Matemática e suas Tecnologias - Matemática PROBABILIDADE CONDICIONAL

ANÁLISE ESTATÍSTICA II

Interpolação e Ajuste de Curvas

INE Fundamentos de Matemática Discreta para a Computação

Regressão e Previsão Numérica.

Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.

Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Inferência Estatística Camilo Daleles Rennó

ERROS E TRATAMENTO DE DADOS ANALÍTICOS

ESTATÍSTICA PROBABILIDADE

PROCESSO DE POISSON [ Parte II ] 1 - INTRODUÇÃO 2 - PROCESSO DE POISSON 3 - TEMPOS DE CHEGADA 4 - TEMPOS ENTRE CHEGADAS 5 - PROCESSOS DE RENOVAÇÃO 6 -

Metodologia da Pesquisa em Ensino de Ciências I

Usando Excel Prof. Rosemberg Trindade. Parte 1 Representação tabular de distribuição com variáveis discretas e contínuas.

Testes de Hipóteses.

FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.

Métodos Estatísticos Aplicados às Ciências Biológicas - 7ª aula -

INTERVALOS DE CONFIANÇA

PPGTI AULA 3 Prof. Dr. Márcio A. Fiori –

Regressão Linear Simples

GESTÃO E GARANTIA DA QUALIDADE

CEPZ1 – 2015 – AULA 09 PROFESSORA: BRUNA CAVALLINI E RODRIGUES

NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Estimação e Intervalo de Confiança. Estimação Frequentemente necessitamos, por meio das amostras, conhecer informações gerais da população. A estimação.

Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.

Distribuição de freqüências

Autor : Lênin Charqueiro. Pelotas,8 de março de

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Campus Londrina LAB FÍSICA 1 ALGARISMOS SIGNIFICATIVOS e INCERTEZAS NAS MEDIDAS LAB FÍSICA 1 ALGARISMOS SIGNIFICATIVOS.

Métodos Probabilísticos

Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Distribuições de Probabilidade Camilo Daleles Rennó

Transcrição da apresentação:

Métodos estatísticos em aprendizagem Mestrado FEI Paulo Santos

Aprendizagem: raciocínio com incerteza a partir de observações aprender teorias probabilísticas sobre o mundo a partir da experiência; soluções gerais para os problemas de ruído, memorização e previsão ótima

Aprendizagem estatística Conceitos fundamentais: Dados: evidências, i.e. instanciações de algumas ou de todas as variáveis aleatórias que descrevem o domínio; Hipóteses: teorias probabilísticas de como o domínio funciona incluindo teorias lógicas como casos particulares.

Exemplo: doce surpresa Doces de cereja e lima em embalagens idênticas. Cinco tipos de sacos de doces: h1: 100% cereja h2: 75% cereja + 25% lima h3: 50% cereja + 50% lima h4: 25% cereja + 75% lima h5: 100% lima Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ?

Exemplo: doce surpresa Dado um novo saco de doce, a variável aleatória H (hipótese) denota o tipo do saco (h1, ..., h5) H não é diretamente observável; A medida que os doces são abertos e inspecionados, são revelados os dados - D1, D2, ... Dn, onde cada Di é uma variável aleatória com valores possíveis cereja e lima. Observamos doces de uma sacola: Qual é o tipo da sacola? Qual será o próximo doce ?

Aprendizagem Bayesiana Calcula a probabilidade de cada hipótese, considerando-se os dados, e faz previsões de acordo com ela; as previsões são feitas com o uso de todas as hipóteses, ponderadas com suas probabilidades A aprendizagem é reduzida à inferência probabilística

Aprendizagem Bayesiana Seja D a repres. de todos os dados, com valor observado d; então a probabilidade de cada hipótese é obtida pela regra de Bayes: P(hi|d) = cP(d| hi)P(hi) A previsão de uma quantidade desconhecida X: Onde cada hipótese determina uma distribuição sobre X

Aprendizagem Bayesiana A previsão de uma quantidade desconhecida X: Onde cada hipótese determina uma distribuição sobre X I.e., as previsões são médias ponderadas sobre as previsões das hipóteses individuais as hipóteses são intermediários entre os dados brutos e as previsões.

de volta aos doces Suponha que a distribuição a priori sobre h1,..., h5 seja dada por <0.1, 0.2, 0.4, 0.2, 0.1> A probabilidade dos dados é calculada sob a suposição de que as observações são independentementes e identicamente distribuídas: P(d|hi) = ∏j P(dj|hi) i.e, uma observação não depende das anteriores, dado as hipóteses

de volta aos doces Suponha que a sacola seja realmente uma sacola só com doces de lima (h5) e que os primeiros 10 doces sejam todos de lima; então P(d|h3) = ∏j P(dj|h3) = 0.510 (metade dos doces em h3 é de lima) Como as probabilidades mudam com novas observações ?

Probabilidade Posterior de Hipóteses Prob a priori

Probabilidades prevista de que o próximo doce seja de lima

Probabilidades prevista de que o próximo doce seja de lima

Aprendizagem Bayesiana Dada a distribuição a priori de todas as hipóteses A hipótese verdadeira eventualmente domina a previsão Bayesiana A previsão é ótima quer o conjunto de dados seja pequeno ou grande para problemas reais de aprendizagem o espaço de hipóteses é em geral muito grande ou infinito

Aprendizagem Bayesiana aproximada : MAP Fazer previsões com uma única hipótese: a mais provável: hi que maximize P(hi|d) hipótese de máximo a posteriori: MAP previsões aproximadamente Bayesianas: P(X|d) ≈ P(X|hMAP) após 3 doces de lima seguidos hMAP= h5 o 4o doce será previsto de lima com 100% de certeza

MAP maximizar P(hi|d) P(hi|d) = cP(d| hi)P(hi) logo hMAP para maximizar P(d| hi)P(hi) é equivalente a minimizar: - log2 P(d|hi) - log2 P(hi)

MAP Outra possibilidade é tomar o logaritmo de: P(hi|d) = cP(d| hi)P(hi) logo hMAP para maximizar P(d| hi)P(hi) e equivalente a minimizar: - log2 P(d|hi) - log2 P(hi) número de bits necessários para especificar hi número adicional de bits para especificar os dados

MAP - log2 P(d|hi) - log2 P(hi) número de bits em hi para especificar (explicar) os dados número adicional de bits para especificar os dados (considere que nenhum bit é necessário se a hipótese prevê os dados exatamente: log 1 = 0

- log2 P(d|hi) - log2 P(hi) MAP - log2 P(d|hi) - log2 P(hi) Minimizar isso significa, portanto, encontrar a hipótese que encontre a compactação máxima dos dados

MAP encontrar a hipótese que encontre a compactação máxima dos dados Principal idéia por traz dá aprendizagem por comprimento mínimo de descrição (CMD) [minimum description length (MDL) learning]: minimizar o tamanho da hipótese e das codificações dos dados

Aprendizagem de parâmetros com dados completos descoberta dos parâmetros numéricos para um modelo de probabilidade cuja estrutura é fixa Dados são completos quando cada ponto de dados contém valores para toda variável no modelo de probabilidade que está sendo aprendido. simplificam o processo de aprendizagem

Exemplo saco de doces de um novo fabricante cujas proporções de cereja e lima são completamente desconhecidas (entre 0 e 1) quantidade contínua de hipóteses O parâmetro (θ) é a proporção de doces de cereja (1 - θ é a prop de lima) A hipótese é hθ

Exemplo supondo que todas as proporções são igualmente prováveis a priori: máxima probabilidade é razoável Modelando como uma rede Bayesiana:

Aprendizagem de parâmetros em redes Bayesianas Desembrulhando N doces (“c” de cereja e “N - c” lima) A hipótese de máxima probabilidade é dada pelo valor de θ que maximiza essa expressão, também obtido maximizando-se:

Aprendizagem de parâmetros em redes Bayesianas O valor de máxima probabilidade de θ é obtido por:

Aprendizagem de parâmetros de máxima probabilidade Escrever uma expressão para a probabilidade dos dados como uma função dos parâmetros Escrever a derivada da probabilidade logarítmica com relação a cada parâmetro Encontrar os valores de parâmetros tais que as derivadas sejam iguais a zero

Aprendizagem de parâmetros de máxima probabilidade Principal problema (small sample size problem): para conjuntos de dados pequenos, alguns eventos recebem probabilidade zero divisão não definida

Outro exemplo: Embalagens de doces coloridas de vermelho e verde a embalagem de cada doce é selecionada probabilisticamente, segundo alguma distribuição condicional desconhecida, dependendo do sabor

Múltiplos parâmetros três parâmetros θ, θ1, θ2. A probabilidade de ver um doce de cereja em uma embalagem verde (segundo a semântica de redes Bayesianas) é:

Multiplos parâmetros Desembrulhamos N doces: c (cer.) e l (lima) rc de cereja tem embalagens vermelhas gc de cereja tem embalagens verdes rl e gl analogamente

Múltiplos parâmetros A probabilidade dos dados é, portanto:

Múltiplos parâmetros

Múltiplos parâmetros esses resultados podem ser estendidos a qqr rede Bayesiana cujas probabilidades condicionais são dadas como tabelas com dados completos, o problema de aprendizagem de parâmetros por máxima probabilidade se decompõe em problemas de aprendizagem separados: um para cada parâmetro. os valores de parâmetros para uma variável, dados seus pais, são as frequências observadas dos valores de variáveis para cada configuração dos valores dos pais

Aprendizagem de parâmetros de máxima probabilidade: modelo Gaussiano Linear modelos de probabilidade contínuos os princípios são idênticos aos do caso discreto Ex. aprendizagem de parâmetros de uma função de densidade gaussiana sob uma única variável:

parâmetros desse modelo: μ: média e σ: desvio padrão Sejam os valores observados x1, ..., xN. Então a probabilidade logarítmica é:

Definindo as derivadas como zero: i.e. o valor de máxima probabilidade da média é a média das amostras e o valor de máxima probabilidade do desvio-padrão é a raiz quadrada da variância das amostras

Considere um modelo gaussiano linear com um pai contínuo X e um filho contínuo Y. Para aprender a distribuição condicional P(Y|X) podemos maximizar a probabilidade condicional: para os parâmetros: θ1, θ2 e σ

(yj - (θ1xj + θ2 ))2 é o erro para (xj,yj) ‘E’ é a soma de erros quadráticos quantidade minimizada por regressão linear

a minimização da soma dos erros quadráticos fornece o modelo de linha reta de máxima probabilidade, desde que os dados sejam gerados com ruído gaussiano de variância fixa.

Aprendizagem de estruturas de redes Bayesianas Até agora supomos que a estrutura da rede bayesiana é dada: somente aprende-se os parâmetros Em alguns casos o modelo causal está indisponível ou em disputa

Aprendizagem de estruturas Abordagem óbvia: buscar um modelo: iniciar com um modelo que não contenha nenhum vínculo e começar a adicionar pais correspondentes a cada nó, ajustando os parâmetros e medindo a exatidão do modelo resultante. começar com um palpite inicial sobre a estrutura e utilizar busca por subida de encosta para fazer modificações, retornando os parâmetros após cada mudança de estrutura. modificações: inversão, adição ou eliminação de arcos. busca sobre ordenações possíveis

Aprendizagem de estruturas Uma boa estrutura foi encontrada? testar se as asserções de independência condicional implícitas na estrutura são realmente satisfeitas nos dados. P(Sex/Sab, Bar|VaiEsperar) = P(Sex/Sab|VaiEsperar)P(Bar|VaiEsperar) Verificar nos dados se esta equação é válida. ainda que a estrutura descreva a verdadeira natureza causal do domínio, flutuações estatísticas no conjunto de dados significam que a equação nunca será satisfeita exatamente, e então precisamos utilizar um teste estatístico apropriado para verificar se existe evidência estatística suficiente de que a hipótese de independência foi violada quanto mais rígido for este teste, mais vínculos serão adicionados e maior o risco de superadaptação.

Aprendizagem de variáveis ocultas Variáveis ocultas (ou latentes) ex. registros médicos contêm sintomas observáveis e o tratamento, mas raramente uma observação da doença! Por que não construir um modelo sem esta variável?

Aprendizagem de variáveis ocultas

Aprendizagem de variáveis ocultas Variáveis latentes podem reduzir drasticamente o número de parâmetros exigidos para especificar uma rede Bayesiana.

Aprendizagem de variáveis ocultas: o algoritmo EM EM: Expectation Maximization (Esperança Maximização) Formação de agrupamentos não supervisionados Distinguir várias categorias em uma coleção de objetos não supervisionado: os rótulos não são dados

Aprendizagem de variáveis ocultas: o algoritmo EM Formação de agrupamentos não supervisionados Começamos dos dados ajustar alguma distribuição de probabilidades que pudesse ter gerado os dados Pressupõe que os dados são gerados a partir de uma distribuição de mistura P uma distribuição tem k componentes, cada um dos quais é uma distribuição: P(x) = ∑ki=1 P(C = i) P(x|C = i)

Aprendizagem de variáveis ocultas: o algoritmo EM Formação de agrupamentos não supervisionados No caso de dados contínuos: gaussiana multivariada: fornece uma família de distribuições chamada mistura de distribuições gaussianas wi = P(C=i) --- peso de cada componente μi ---- media de cada componente Σi --- co-variância de cada componente

Aprendizagem de variáveis ocultas: o algoritmo EM

o algoritmo EM O problema de formação de agrupamentos não- supervisionados consiste em recuperar um modelo de mistura como o da Fig. 20.8(b) a partir de dados brutos como os da Fig. 20.8 (a). Idéia básica: fingir que conhecemos os parâmetros do modelo e depois deduzir a probabilidade de cada ponto de dados pertencer a cada componente depois disso, readaptamos os componentes aos dados, onde cada componente é ajustado ao conjunto de dados inteiro, cada ponto ponderado com a possibilidade de pertencer a esse componente

o algoritmo EM Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos: Etapa E: calcular as probabilidades pij=P(C=i|xj) a probabilidade de que o dado xj tenha sido gerado pelo componente i. pela regra de Bayes: pij= aP(xj|C = i)P(C=i) P(xj|C = i): probabilidade em xj do i-esimo gaussiano P(C = i): peso para o iesimo gaussiano definir: pi = Σj pij Etapa M:

o algoritmo EM Para mistura de distribuições gaussianas, inicalizamos arbitrariamente os parâmetros do modelo de mistura e repetimos: Etapa E: calcular as probabilidades pij=P(C=i|xj) a probabilidade de que o dado xj tenha sido gerado pelo componente i. pela regra de Bayes: pij= aP(xj|C = i)P(C=i) P(xj|C = i): probabilidade em xj do i-esimo gaussiano P(C = i): peso para o iesimo gaussiano definir: pi = Σj pij (somar sobre todas probabilidades de todos os pontos j terem sido gerados pela gaussiana i) Etapa M:

o algoritmo EM Etapa M: calcular a nova média, co-variância e os pesos dos componentes: μi ← Σj pijxj/pi Σi ← Σj pijxjxjT/pi wi ← pi

o algoritmo EM Etapa E (esperança): Etapa M (maximização): cálculo dos valores esperados pij das variáveis indicadoras Zij ocultas Etapa M (maximização): encontra os novos valores dos parâmetros que maximizam a probabilidade logaritmica dos dados, dados os valores esperados das variáveis indicadoras ocultas.

Aprendizagem de redes Bayesianas com variáveis ocultas Execício: leia e entenda esta seção. Uma questão sobre este assunto cairá na prova. (dica: para entender esta seção você terá antes que entender -- quase -- todo o capítulo!)