Projeto e Treinamento de MLPs

Slides:



Advertisements
Apresentações semelhantes
Agenda Introdução Justificativa Objetivo Detecção de Spam
Advertisements

Aprendizado de Máquina
Métodos Iterativos.
Prof. André Laurindo Maitelli DCA-UFRN
Aproximação de Funções usando MLPs, RBFs e SVM
AJUSTE DE CURVAS 6.1 Introdução 6.2 Método dos quadrados mínimos
Redes Competitivas e de Kohonen
Amintas engenharia.
REDES AUTO-ORGANIZAVEIS (MAPAS AUTO-ORGANIZÁVEIS)
Redes Neurais Artificiais (RNA): Perceptron
Redes Neurais Artificiais (RNA): Aprendizado
Aspectos de Implementação do Algoritmo Backpropagation
Mineração de Dados Avaliação de Classificadores
REDES NEURONAIS ARTIFICIAIS (RNAs) Universidade do Minho.
2 de Junho de 2005Conclusão1 Pedro Barahona DI/FCT/UNL Junho 2005.
1 Conclusão DI/FCT/UNL 1º Semestre 2004/ Ciclos de Simulação A técnica usada no exemplo da queda livre pode ser utilizada para trajectórias a duas.
Araken de Medeiros Santos Anne Magály de Paula Canuto
Sinais e Sistemas – Capítulo 3
PERCEPTRON (CONTINUAÇÃO)
AULA06-exercícios MLP.
Adaptive Resonance Theory Carpenter & Grossberg
Backpropagation Through Time
AULA 03 PERCEPTRON SIMPLES.
AULA04 PERCEPTRON MULTI-CAMADAS MULTI-LAYER PERCEPTRON (MLP)
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
Prof. Júlio Cesar Nievola PPGIA - PUCPR
Ajuste de Dados através do Uso de Modelos Lineares
Redes Neurais Artificiais
Prof. Júlio Cesar Nievola
Perceptron Simples Algoritmo do Bolso com catraca
Algoritmos Construtivos
Neurocomputação Baseada em Conhecimento
Aprendizagem Hebbiana e PCA
Redes de Hopfield Redes Neurais COPIN
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Métodos Numéricos e Estatísticos
Reconhecimento de Padrões Seleção de Características
Estrutura e movimento a partir de imagens
Inteligência Artificial
Ernesto F. F. Ramírez e Saide J. Calil
INF 1771 – Inteligência Artificial
Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.
Algumas Aplicações das Funções Exponenciais
Meta - heurísticas Prof. Aurora
Aprendizado de Máquina
Aprendizado de Máquina Aula 13
Aprendizado de Máquina Aula 8
Introdução O que é computação?.
Otimização Prof. Benedito C. Silva IRN UNIFEI
TMA 01 As Relações de Maxwell Matemática: Se e somente se,
Cálculo Numérico / Métodos Numéricos
19 May :30 Cálculo Numérico / Métodos Numéricos Determinação numérica de autovalores e autovetores Método das Potências.
Redes Neurais Prof. Alex F. V. Machado.
Redes Neuronais/Neurais/ Conexionistas Introdução
Cálculo Numérico / Métodos Numéricos
Resolução de sistemas de equações lineares
Redes Neurais Artificiais
Professor Antonio Carlos Coelho
Experimentação Algorítmica
Fontes de Erros Aula 1 Introdução; Erros em processos numéricos;
José Reinaldo Lemes Júnior Orientador: Prof. Wilian Soares Lacerda.
Uma Introdução a SVM Support Vector Machines
Prof. Anne Magály de Paula Canuto
Luana Bezerra Batista Redes Neurais Luana Bezerra Batista
Inteligência Artificial
Redes Neurais Artificiais Prof. Júlio Cesar Nievola PPGIA – PUCPR Especialização em Inteligência Computacional.
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Ant Colony Optimization Theory Rio de Janeiro 2011 Disciplina: Inteligência de Enxame Docente: José Manoel Seixas Discente: José Dilermando Costa Junior.
TÉCNICAS DE ESTIMATIVAS
Autor : Lênin Charqueiro. Pelotas,8 de março de
Transcrição da apresentação:

Projeto e Treinamento de MLPs Prof. Júlio Cesar Nievola PPGIA - PUCPR

Controle da Aprendizagem Há procedimentos sistemáticos na busca da superfície de desempenho. Entretanto, a busca deve ser controlada heuristicamente O usuário atua na busca através da seleção dos pesos iniciais das taxas de aprendizagem do algoritmo de busca do critério de parada Exemplo 01 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Pesos e MSE Mínimo Conjuntos finais de pesos diferentes surgem com mesma topologia e mesmo treinamento Muitas simetrias no mapeamento entrada-saída Não há garantias que o problema tenha somente uma solução – topologias redundantes Condições iniciais aleatórias (conjunto de pesos) Aprendizagem é um processo estocástico Deve-se executar cada rede várias vezes com condições iniciais diferentes e usar a melhor Exemplo 02 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Controle do Tamanho do Passo Em redes não-lineares (MLP) a seleção do tamanho do passo é muito importante Escalonamento: Experimentalmente obtém-se 0 e n0. Se 0 é muito grande então há divergência. Se n0 é muito pequeno a aprendizagem “pára”. Se n0 é muito grande a aprendizagem torna-se demorada. Escalonamento ajuda a escapar de mínimos locais em superfícies não-convexas Exemplo 03 Exemplo 04 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Taxas de Aprendizagem e Competição Interna Aprendizagem robusta: todos os parâmetros devem aprender com mesma velocidade Regra Prática: aumentar por um fator 2 a 5 a taxa de aprendizagem de uma camada para outra Não-linearidade do PE: fonte de competição interna => diferentes PEs se especializam em diferentes áreas do espaço de entrada Competição Interna: assinala a grupos de PEs determinados padrões de agrupamento PPGIA - PUCPR Prof. Júlio Cesar Nievola

Inicialização dos Pesos É comum iniciar os pesos aleatoriamente Um PE na região linear aprende mais rapidamente que na região saturada Regra prática para não-linearidade tanh: deve-se ajustar os pesos iniciais com variância onde I é o número de entradas do PE Exemplo 05 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem baseada em Descida do Gradiente Vantagem principal simplicidade não potência Ou método de busca de primeira ordem O algoritmo LMS, a regra delta e o backpropagation usam atualização dos pesos que são implementações deste conceito PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem com Momento Aprendizagem com momento usa uma memória (incremento anterior) para aumentar a velocidade e estabilizar a convergência Equação de correção dos pesos onde  é a constante de momento Normalmente,  é ajustada entre 0,5 e 0,9 Exemplo 06 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Exemplo de Momento PPGIA - PUCPR Prof. Júlio Cesar Nievola

Ajuste Adaptativo do Passo Idéia simples: observar a trilha dos pesos: Se o sinal do erro é consecutivamente o mesmo, então a taxa de aprendizagem está pequena Se o sinal do erro alterna-se consecutivamente, então a taxa de aprendizagem está muito grande Para funcionar deve-se usar um tamanho de passo diferente para cada peso O acréscimo lento e decréscimo rápido do tamanho do passo evita a divergência PPGIA - PUCPR Prof. Júlio Cesar Nievola

Algoritmo Delta-Bar-Delta Cada tamanho do passo é atualizado por onde Sij indica a média dos gradientes anteriores e Dij é o atual gradiente Sij é a média das derivadas anteriores e atual onde  é um número entre 0 e 1 Exemplo 07 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Tamanho de Passo Adaptativo de Almeida (e Silva) Se o sinal do erro é consecutivamente o mesmo, aumentar a taxa de aprendizagem Se o sinal do erro alterna-se consecutivamente, diminuir a taxa de aprendizagem Atualização dos pesos onde kjC(n) é cada componente do gradiente e a cada iteração PPGIA - PUCPR Prof. Júlio Cesar Nievola

Tamanho de Passo Adaptativo de Almeida (e Silva) u e d são constantes positivas ligeiramente abaixo e acima de 1. Autores sugerem d=1/u A atualização dos pesos é geométrica em ambas as direções (aumento e diminuição) O método tem bom resultado quando o gradiente é conhecido com alta precisão, como por exemplo na aprendizagem batch As equações são baseadas em heurísticas que controlam o crescimento do tamanho do passo Exemplo 08 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Método do Gradiente Conjugado O gradiente não é o caminho mais rápido para o mínimo devido à excentricidade da superfície de desempenho (razão dos autovalores), causando um zigue-zague Para melhorar isto, pondera-se a correção onde  é calculado dinamicamente Na aprendizagem por momento a ponderação é fixa e não calculada para o melhor caso PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Critério de Parada Número de iterações MSE: é apenas variável indireta na classificação Não há garantia de que o sistema possa atingir um MSE especificado Taxa de decréscimo do MSE indica quando não há mais extração de informação há parada prematura no caso de regiões planas Exemplo 09 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Critério de Parada Problema da generalização: overtraining Parada com validação cruzada dois conjuntos: treinamento e validação conjunto de validação: 10% do total dos casos com certa freqüência (5 a 10 iterações) verifica-se o desempenho no conjunto de validação quando errovalid aumenta, pára-se o treinamento Dificuldade: menor conjunto de treinamento Método usado para problemas reais Exemplo 10 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Tamanho do conjunto de treinamento Número N aproximado de padrões requerido para classificar exemplos de teste com um erro , em uma rede com W pesos Considera-se dados representativos Solução do problema inverso (número de padrões limitado): conexões esparsas da entrada para escondida pré-processamento para reduzir dimensionalidade Exemplo 11 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Escalabilidade e Treinabilidade Barron[1993]: Para grandes conjuntos de treinamento, o erro no MLP é independente do tamanho do espaço de entrada e escala com o inverso do número de PEs escondidos Tempo de treinamento de MLP com backpropagation aumenta exponencialmente com o tamanho do problema Alternativa: uso de redes com arquiteturas modulares, conexões esparsas ou algoritmos de treinamento avançados Exemplo 12 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Motivos para Desempenho Fraco Rede sem poder discriminante Rede com PEs insuficientes Aprendizagem parada em mínimo local ou em região plana Sobre-treinamento da rede Exemplos de treinamento não adequados Problema intrinsecamente difícil para características utilizadas (usar filtro, novas entradas) PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Critério de Erro PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Normas Lp O critério de erro, ou custo, é calculado sobre a soma dos custos individuais, Jnk obtido pela apresentação de cada padrão de entrada onde k é um índice sobre as saídas do sistema e n é um índice sobre os padrões de entrada Jnk é o custo individual, e é necessário determinar somente o erro instantâneo nk Exemplo 13 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Critério MSE O critério MSE tem as características em redes em avanço lineares ele conduz a um problema de otimização linear que tem uma solução analítica fornece uma interpretação probabilística da saída da máquina de aprendizagem é fácil de implementar, já que é o erro instantâneo que é injetado no sistema dual apresenta problemas com relação a outliers PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Normas Lp De forma geral, o erro instantâneo pode ser onde p é um inteiro, chamado norma de nk Pode-ser ter vários casos em função de p: p=2: critério MSE p=1: métrica de Manhattan, norma robusta p=0: uso somente do sinal dos desvios p=: todos os erros são zero, exceto o maior Exemplo 14 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Medida de Erro baseada na Teoria da Informação Pode-se medir a divergência entre duas funções de probabilidade de massa q(x) e p(x) usando o critério de informação de Kullback-Leibler ou entropia cruzada: Implementação do critério de entropia cruzada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Entropia Cruzada A saída do sistema, usando o critério de custo Kullback-Leibler aproxima-se da resposta desejada em sentido estatístico Para c classes o critério K-L torna-se onde n é o índice sobre os padrões de entrada e k o índice sobre as classes A rede usa PEs de saída que implementam a função softmax e o critério de entropia cruzada pode ser implementado pelo critério MSE Exemplo 15 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Tamanho da Rede e Generalização Redes MLP treinadas com backpropagation não controlam habilidade de generalização Para uma rede determinada o uso da validação cruzada para parar o treinamento permite maximizar a generalização O tamanho da rede (complexidade do modelo) está ligada ao desempenho: Poucos pesos não permitem à rede atingir o objetivo Muitos pesos memorizam (não generalizam bem) PPGIA - PUCPR Prof. Júlio Cesar Nievola

Occam’s Razor e Aprendizagem Estrutural O problema do tamanho da rede pode ser visto de maneira simplificada usando o Occam’s Razor: Qualquer máquina de aprendizagem deve ser grande o suficiente para resolver o problema, porém não maior. Dificuldade: o que é grande o suficiente? A Teoria da Aprendizagem Estrutural (dimensão V-C) fornece respostas teóricas à generalização, mas é difícil de ser aplicada a MLPs PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Eliminação de Pesos Weight Decay: alguns pesos aumentam mas outros se aproximam de zero O método da eliminação de pesos não deve ser aplicada aos bias, somente aos pesos O termo de decaimento deve ser menor para pesos maiores: É fácil de implementar pois os pesos estão sendo atualizados durante a adaptação Exemplo 16 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Comitê de Redes Várias redes de tamanho e características diferentes podem ser usadas em conjunto para melhorar o desempenho do classificador [Perrone,94]: Sob certas condições, o erro de um comitê é C vezes menor que o erro médio de cada uma das C redes do comitê Maior vantagem: redução na variância do erro Cada rede deve ter acerto superior a 50% Pode-se ponderar a contribuição de cada rede para a resposta final Exemplo 17 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Heurísticas para melhorar Tempo de Treinamento e Desempenho Normalizar os dados em relação à faixa de ativação da rede Usar não-linearidade do tipo tanh Usar PE softmax na camada de saída Normalizar o sinal desejado ligeiramente acima/abaixo do limite (p.ex. 0,9 e não  1) Adicionar um valor constante de 0,05 na derivada da não-linearidade Exemplo 18 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Heurísticas para melhorar Tempo de Treinamento e Desempenho Ajustar um tamanho do passo maior nas camadas mais próximas da entrada Em aprendizagem online, alterar a seqüência do conjunto de treinamento periodicamente Inicializar os pesos da rede na região linear da não-linearidade Usar métodos de aprendizagem mais sofisticados (delta-bar-delta, gradiente conjugado etc.) Exemplo 19 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Heurísticas para melhorar Tempo de Treinamento e Desempenho Sempre ter mais padrões de treinamento que pesos. Treinar a rede até que o MSE se torne menor que /2 Usar validação cruzada para parar o treinamento Rodar a rede várias vezes para medir o desempenho Para melhorar a classificação, usar um comitê de redes neurais Exemplo 20 PPGIA - PUCPR Prof. Júlio Cesar Nievola