A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizagem de Máquina Porto Alegre, Junho de 2008. Filipo Studzinski Perotto Luís Otávio Álvares (Machine Learning)

Apresentações semelhantes


Apresentação em tema: "Aprendizagem de Máquina Porto Alegre, Junho de 2008. Filipo Studzinski Perotto Luís Otávio Álvares (Machine Learning)"— Transcrição da apresentação:

1 Aprendizagem de Máquina Porto Alegre, Junho de Filipo Studzinski Perotto Luís Otávio Álvares (Machine Learning)

2 2 Sumário Introdução Aprendizagem Supervisionada Aprendizagem Não-Supervisionada Aprendizagem por Reforço

3 3 Comportamento Inteligente X Aprendizagem Introdução

4 4 Como pré-programar toda a solução para problemas complexos e dinâmicos?

5 5 Aprender a reconhecer palavras faladas Aprender a conduzir um veículo Aprender a classificar estruturas astronômicas Aprender a jogar Aprender a classificar s Descoberta de relações em bases de dados Aplicações Bem-Sucedidas

6 6 Definindo Aprendizagem de Máquina Um sistema apresenta aprendizagem se ele é capaz de transformar-se adaptativamente a partir das próprias experiências Portanto, num problema de aprendizagem bem formulado identificamos 3 fatores: –a classe das tarefas T –a medida de desempenho a ser melhorada P –e a fonte de experiência (treinamento) E.

7 7 Aprendizagem Supervisionada Existe um professor Fonte externa indica certo e errado

8 8Classificação Definição do Problema Dados: –Um conjunto de exemplos de treinamento na forma (entrada-saída) Encontrar: –uma função geral capaz de prever adequadamente as saídas para novos exemplos, por representar, em princípio, a função geradora dos exemplos de treinamento

9 9 Abordagem Conexionista Rede Neural / Máquinas de Núcleo –O conhecimento da rede fica armazenado nos pesos das ligações entre os nós O conhecimento é distribuído: –uma unidade pode participar de diversos padrões –um padrão pode estar ligado à diversas unidades

10 10 Abordagem Estatística Modelo Incremental: –inicia com uma hipótese a priori da distribuição –atualiza a distribuição conforme recebe os exemplos

11 11 Hábito 1Hábito 2Hábito 3 Sintoma 1Sintoma 2Sintoma 3 Rede Bayesiana: Filtro Bayesiano:

12 12 Aprendizagem de Conceitos Dados: –Um Espaço de Características –Um conjunto de exemplos de treinamento Características (f1, f2, f3,..., fn) Rótulo z Encontrar: –Um Modelo de Classificação Entradas Modelo Saídas

13 13 Melhor Hipótese Corrente H Qualquer Hipótese consistente com o 1º Exemplo Para cada Novo Exemplo faça: Se é falso positivo para H então: H Especialização de H (+ condições) Se é falso negativo para H então: H Generalização de H (- condições)

14 14 Mundo dos Blocos + Um Arco é: - 2 blocos azuis em pé paralelos - um bloco azul sobre os outros dois + Um Arco é: - 2 blocos de qualquer cor em pé paralelos - um bloco sobre os outros dois - Um Arco é: - 2 blocos em pé separados e paralelos - um bloco sobre os outros dois

15 15 Espaço de Versões Preserva todas as Hipóteses Válidas Representação: –G (Conjunto de Hipóteses mais Gerais) –S (Conjunto das Hipóteses mais Específicas) –Conjunto Parcialmente Ordenado Atualização do Espaço de Versões: –Especializa G com um falso positivo –Generaliza S com um falso negativo

16 S G1G1 G2G2

17 17 G 1 G 2 G 3 G 4 G 5... G n S 1 S 2 S 3 S 4 S 5... S m... Hipóteses mais Gerais Hipóteses mais Específicas

18 18 Árvores de Decisão F1 F2F3Fn y1ym... Nós Superiores: Testes de Discriminação Folhas: Rótulo da Classe

19 19 PrejuízoSituaçãoExplicaçãoAtitude AltoAnonimatoBoaFicar MédioAnonimatoRuimCorrer MédioEvidênciaRuimFicar AltoEvidênciaRuimCorrer BaixoEvidênciaBoaFicar BaixoAnonimatoRuimFicar...

20 20 Prejuízo médiobaixoalto ExplicaçãoAnonimato nãosimboaruim Correr Ficar Correr Ficar

21 21 Indução de Árvores de Decisão S inicial = o conjunto de todos os exemplos de treinamento; SE todos os elementos em S satisfazem o critério de parada, ENTÃO: Cria um Nó Folha, caracterizando uma classe; SENÃO Seleciona um Atributo A Cria um Nó de Discriminação baseado em A; Particiona S em subconjuntos, conforme A; Aplica o algoritmo recursivamente em cada subconjunto;

22 22 O + + O O O + + Indução: passo 1

23 23 Indução: passo 2 O + O + O + O O + +

24 24 Indução: passo 3... n + O O + O + O

25 25 Construção da Árvore –Critério de Escolha dos Atributos Discriminantes –Critério de Parada do Particionamento –Objetivo: minimizar a árvore Complexidade –Encontrar a árvore mínima é NP-Completo –Saída: Utilização de Heurísticas

26 26 Critério para Seleção de Atributos –Baseado no Ganho de Informação –Um bom candidato separa bem os exemplos entre as classes –Critério de Ganho: Redução Esperada da Entropia Entropia –Quantidade de Informação necessária para fazer a descrição dos elementos do conjunto –Muitas classes misturadas e homogeneamente distribuídas dentro de um grupo representam alta entropia Entropia( 50% / 50%) = 1 Entropia( 100% / 0%) = 0

27 27 Superadaptação –Ramos excessivos que não contribuem significativamente para a classificação Poda –Pode considerar Taxa de Erro Limite Mínimo de Ganho –Pode ser feita Durante a construção (limite como critério de parada) Depois da construção (revisão) –Substitui uma subárvore por uma folha

28 28 Superadaptado? Generalização Adequada?

29 29 Aprendizagem Computacional Provavelmente Correta Aproximadamente Correta Conjunto suficientemente grande de exemplos de treinamento É quase certo que qualquer hipótese que esteja seriamente errada será desmascarada com alta probabilidade após um pequeno número de exemplos. Qualquer hipótese que seja consistente com um conjunto suficientemente grande de exemplos de treinamento terá pouca probabilidade de estar seriamente errada.

30 30 Aprendizagem Não-Supervisionada –Não há exemplos nem classes pré-definidas –Domínios naturalmente divididos em classes –Análise de padrões nos dados de entrada através da distribuição no espaço –Análise de correlações e coincidências –Descoberta de Conhecimento Entradas Modelo

31 31Clusterização Definição do Problema Dados: –Um Espaço de Características –Um Conjunto de Instâncias situadas nesse espaço Encontrar: –Grupos de entidades similares (Clusters) –Regiões com alta densidade relativa de pontos no espaço

32 32 Exemplo:

33 33 Todos os objetos são inicialmente alocados a um único grupo, e esse vai sendo dividido (ou partido) em grupos menores. Método Hierárquico Divisivo Geral Sub1Sub2Sub n... teste de discriminação

34 34

35 35 Pontos representativos de possíveis conceitos são espalhados inicialmente no espaço de entradas. Cada um desses pontos conceituais vai se aproximando da nuvem de pontos de entrada mais próxima. Método de Centróides

36 Atualiza Médias K= Número de Agrupamentos Inicialização Aleatória Atualiza Médias Reassocia

37 37 Problema: Desequilíbrio na distribuição dos centros...

38 38 Aprendizagem por Reforço Agente Percepções Reforço (+/-) Ação Ambiente Metáfora do Agente: Idéia de interação contínua

39 39 Definição do Problema Dados: –Um Agente em um Ambiente –A cada instante de tempo: o agente está em um estado s executa uma ação a vai para um estado s recebe uma recompensa r Encontrar: –uma política de ações que maximize o total de recompensas recebidas pelo agente Política de Ações

40 40 Questão da Autonomia Como um agente aprende a escolher ações apenas interagindo com o ambiente? –Muitas vezes, é impraticável o uso de aprendizagem supervisionada Como obter exemplos do comportamento correto e representativo para qualquer situação? E se o agente for atuar em um ambiente desconhecido?

41 41 A Função de Recompensa Feedback do ambiente sobre o comportamento do agente Indicada por r:(S A) R –r(s,a) indica a recompensa recebida quando se está no estado s e se executa a ação a –Pode ser determinística ou estocástica

42 42 Política de Ações Aprendizagem por Reforço –não há exemplos –existe um feedback do ambiente (recompensa) que avalia o comportamento do agente Aprendizagem Incremental –Desempenho + Exploração

43 43 Estimativa da Recompensa Utilidade Recompensas

44 44 U (s) : (S R) Cálculo da Função de Utilidade do Estado: –Faz uma tabela com a utilidade de cada estado –Utilidade é a estimativa de recompensas futuras –Constrói um Modelo de Transição de Estados Algotitmos: TD, PDA Métodos de Função de Utilidade

45 45 Q (s,a) : (S A) R Cálculo do Valor das Ações: –Faz uma tabela com o valor de cada par (estado- ação) –Avalia cada par (estado-ação) pelas recompensas –Método Livre de Modelo Algoritmos: Q-Learning Métodos de Valor das Ações

46 46 Estimativa da Recompensa A idéia: –R := R t + * R t * R t –R t é a Recompensa da ação atual – é um fator de desconsideração para as recompensas previstas nos passos futuros

47 47 Atualização da Tabela Utilidade do Estado: –V = R + (V[s]) –U[s] U[s] + (V - U[s]) Atualização da Tabela Valor da Ação: –V = R + max a (Q[s, a]) –Q[a,s] Q[a,s] + (V - Q[a,s]) Estimativa da Recompensa

48 48 Exemplo: Labirinto ( =0.9) Função recompensa Função V* Função Q* Uma política de ações ótima

49 49 Sistemas Classificadores –Constrói um conjunto de regras (estado, ação) –Aplica Algoritmos Genéticos neste conjunto –Recompensas avaliam a força das regras Abordagem Evolutiva Descoberta (Algoritmos Genéticos) Desempenho (Sistema Classificador) Atribuição de Crédito (Bucket Brigade) Entrada Recompensa Saída Criar Regras Avaliar Regras Escolher Regras

50 50 Algoritmo Q-Learning Para todo estado s e ação a, inicialize a tabela Q[s][a] = 0; Para sempre, faça: –Observe o estado atual s; –Escolha uma ação a e execute; –Observe o próximo estado s e recompensa r –Atualize a tabela Q: V = R + max a (Q[s, a]) Q[a,s] Q[a,s] + (V - Q[a,s])

51 51 Q-Learning Atualiza-se Q(s t ) após observar o estado s t+1 e recompensa recebida Q(s 1,a right ) = r + max a Q(s 2,a) = max{63,81,100} = 90

52 52 Dilema aproveitamento- exploração Na aprendizagem por reforço ativa o agente enfrenta dilema aproveitamento-exploração: –Quando gulosamente aproveitar da estimação atual da função valor e escolher ação que a maximiza? –Quando curiosamente explorar outra ação que pode levar a melhorar estimação atual da função valor? –Taxa de exploração = proporção de escolhas curiosas –Geralmente se começa com uma taxa de exploração alta que vai decrescendo com tempo

53 53 Exemplos Arm Robot Problem: –http://www.applied-mathematics.net/http://www.applied-mathematics.net/

54 54 Maldição da Dimensionalidade o número de estados possíveis cresce exponencialmente com a quantidade de características representadas Conseqüentemente o tempo de treinamento e número de exemplos necessários também Q-Learning só pode ser aplicado a problemas relativamente pequenos

55 55 Questão: É melhor aprender um modelo e uma função de utilidade ou apenas uma função de ação-valor sem modelo? Qual o limite dessa idéia de aprendizagem?

56 56

57 Aprendizagem de Máquina Porto Alegre, Junho de Filipo Studzinski Perotto Luís Otávio Álvares

58 58

59 59 Hábito 1Hábito 2Hábito 3 Sintoma 1Sintoma 2Sintoma 3 Doença Problema da Estrutura Aprendizagem de Variáveis Ocultas –criar e destruir variáveis –problema: complexidade exponencial

60 60 Indução de Árvores de Decisão

61 61 Máquinas de Núcleo Aumentar a Dimensionalidade do Espaço. Tornar o Problema Linearmente Separável Uso de Vetores de Suporte Uso de Funções de Núcleo

62 62 Percorrer a Árvore –Tomada de Decisão –Expressão através de Regras: Disjunção de Conjunções Estrago médiobaixoalto ExplicaçãoAnonimato nãosimboaruim Fugir Ficar Fugir Ficar Se (Estrago = Alto) e (Explicação = Ruim) Então Fugir

63 63 Algoritmos de Indução de AD ID3 –Representa apenas atributos categóricos –Subdivide o grupo pela cardinalidade do atributo de teste –Não faz tratamento de ruídos –Utiliza critério de ganho de informação no particionamento CART –Permite atributos numéricos –Gera sempre divisões binárias (agrupando valores) –Pode fazer regressão (função numérica) C4.5 –Permite atributos numéricos e valores desconhecidos –Utiliza Poda

64 64 Condições: –Representação –Ruído –Determinismo –... Abordagens: –Simbólica –Conexionista –Analítica –Evolutiva –Estatística

65 65 Maldição da Dimensionalidade Maldição da Dimensionalidade: o número de classificadores que devem ser considerados aumenta exponencialmente com o número de atributos do conjunto de dados, ficando mais difícil para o algoritmo de aprendizagem encontrar um modelo preciso (Bellman, 1961). O número de exemplos necessários para se aprender um certo conceito cresce exponencialmente de acordo com o número de atributos (Valiant, A Theory of The Learnable, 1984).

66 66 Exemplo Não-Determinístico A Ações:,,, Chance da execução correta: 90% A


Carregar ppt "Aprendizagem de Máquina Porto Alegre, Junho de 2008. Filipo Studzinski Perotto Luís Otávio Álvares (Machine Learning)"

Apresentações semelhantes


Anúncios Google