Aprendizagem Hebbiana e PCA

Slides:

Advertisements

Apresentações semelhantes

Correlação e Regressão

Advertisements

Métodos Iterativos.

Prof. André Laurindo Maitelli DCA-UFRN

Aproximação de Funções usando MLPs, RBFs e SVM

Redes Competitivas e de Kohonen

REDES AUTO-ORGANIZAVEIS (MAPAS AUTO-ORGANIZÁVEIS)

Redes Neurais Artificiais (RNA): Perceptron

Redes Neurais Artificiais (RNA): Aprendizado

Mineração de Dados Avaliação de Classificadores

REDES NEURONAIS ARTIFICIAIS (RNAs) Universidade do Minho.

Sinais e Sistemas – Capítulo 3

Sinais e Sistemas – Capítulo 4

Adaptive Resonance Theory Carpenter & Grossberg

AULA 03 PERCEPTRON SIMPLES.

AULA04 PERCEPTRON MULTI-CAMADAS MULTI-LAYER PERCEPTRON (MLP)

Modelos no Domínio do Tempo de Sistemas LTI Contínuos

Prof. Júlio Cesar Nievola PPGIA - PUCPR

Ajuste de Dados através do Uso de Modelos Lineares

Redes Neurais Artificiais

Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola

Algoritmos Construtivos

Neurocomputação Baseada em Conhecimento

Projeto e Treinamento de MLPs

Introdução à Computação Gráfica Geometria

Aspectos da Implementação de Redes Neurais

Reconhecimento de Padrões Seleção de Características

Universidade Federal de Ouro Preto (UFOP)

Reconhecimento de Padrões PCA David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa de Pós-Graduação em Ciência.

Reconhecimento de Padrões Principal Component Analysis (PCA) Análise dos Componentes Principais David Menotti, Ph.D. Universidade.

Estrutura e movimento a partir de imagens

Inteligência Artificial

Inteligência Artificial

Linguagem Orientada a Matrizes COB 727

Outras Transforações de Imagens

Algoritmos Genéticos – Capítulo 11

Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.

Aprendizado de Máquina

Dependência e Independência Linear e Produto Vetorial

Conceitos fundamentais

Redes Neurais Auto-organizáveis

Cálculo Numérico / Métodos Numéricos

19 May :30 Cálculo Numérico / Métodos Numéricos Determinação numérica de autovalores e autovetores Método das Potências.

Conceitos fundamentais

Redes Neurais Prof. Alex F. V. Machado.

Produto Vetorial SLIDE 06.

Redes neurais artificiais

Sistema de equações lineares

Campus de Caraguatatuba Aula 12: Sistemas de Equações Lineares (2)

TRANSFORMAÇÕES DE TENSÕES

Redes Neuronais/Neurais/ Conexionistas Introdução

Cálculo Numérico / Métodos Numéricos

Resolução de sistemas de equações lineares

Análise por Variáveis de Estado (4a parte). Equação Característica, Autovalor e Auto Vetor Autovalores:definição - são as raízes da equação característica.

Redes Neurais Artificiais

Campus de Caraguatatuba

MÚLTIPLOS GRAUS DE LIBERDADE

(OU) Hardware da Rede Implementacao da rede

Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Componentes Principais Camilo Daleles Rennó

Interpolação e Ajuste de Curvas

Prof. Anne Magály de Paula Canuto

Regressão e Previsão Numérica.

Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.

Aprendizado da rede O aprendizado, na maioria das vezes, constitui no ajuste do conjunto de pesos de modo que a rede consiga executar uma tarefa específica.

Luana Bezerra Batista Redes Neurais Luana Bezerra Batista

Inteligência Artificial

Redes Neurais Artificiais Prof. Júlio Cesar Nievola PPGIA – PUCPR Especialização em Inteligência Computacional.

Análise de Componentes Principais

Objetivo Este projeto destina-se ao estudo e à elaboração de modelos neurais artificiais, com o auxílio do programa Matlab. O objetivo principal deste.

Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 12 Aprendizado não Supervisionado Mapas auto-organizáveis Max Pereira.

Transcrição da apresentação:

Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

Aprendizagem Hebbiana A comunicação entre dois neurônios é facilitada pela excitação repetida A Regra de Hebb diz que se a saída do i-ésimo PE é yi e a ativação do j-ésimo PE é xj, então onde  é o tamanho do passo Para aplicar a regra de Hebb, somente os sinais de entrada precisam fluir através da rede A regra de Hebb é local ao peso PPGIA - PUCPR Prof. Júlio Cesar Nievola

Sistemas biológico e artificial PPGIA - PUCPR Prof. Júlio Cesar Nievola

Efeito da atualização Hebbiana A aprendizagem Hebbiana atualiza os pesos de acordo com onde n é o número da iteração e  o tamanho do passo Para um PE linear, y = wx e, portanto, A aprendizagem Hebbiana é intrinsecamente instável, produzindo pesos muito grandes Exemplo 01 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola PE com várias entradas Em notação vetorial a saída do PE é Assumindo entradas e pesos normalizados, y maior significa que ele está mais “próximo” da direção do vetor peso Durante a aprendizagem os pesos expostos aos dados condensam toda informação em seus valores Os pesos são a memória de longo termo PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem Hebbiana com várias entradas Saída de um PE linear no espaço vetorial PE linear com D entradas Exemplo 02 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Memória O PE Hebbiano é simples e cria uma medida de similaridade (produto interno) no espaço de entrada de acordo com a informação contida nos pesos A saída do PE responde em nível alto ou baixo, de acordo com a similaridade entre entrada atual e o que ele “recorda” do treinamento O PE Hebbiano implementa um tipo de memória chamada memória associativa Exemplo 03 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Regra de Hebb e Aprendizagem por Correlação Na aprendizagem batch a regra de Hebb atualiza os pesos com uma estimativa amostral da função de autocorrelação Com a regra de Hebb, o algoritmo faz a subida do gradiente (busca do máximo) dos dados de entrada A regra de adaptação on-line é simplesmente uma versão estocástica e tem o mesmo comportamento Exemplo 04 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Representação de Dados em Espaços Multidimensionais Os pesos da rede treinada com a regra de aprendizagem de Hebb indicam a direção do gradiente do campo de entrada A saída da rede indica a projeção de maior variância, ou seja, os eixos do sistema principal de coordenadas onde a saída projetada tem a maior variância É uma forma de criar pesos de rede ajustados às estatísticas de segunda ordem dos dados de entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Sistema de coordenadas principais PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Regra de Oja Para criar uma forma útil da aprendizagem de Hebb é necessário normalizar os pesos A forma mais simples foi proposta por Oja Assumindo um tamanho de passo pequeno, Oja aproximou a equação anterior por PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Regra de Oja A regra de Oja pode ser considerada a atualização de Hebb com uma atividade normalizada Ela evita o crescimento ilimitado dos pesos aplicando um “termo de esquecimento” proporcional ao quadrado da saída Se o padrão não estiver presente freqüentemente, ele será esquecido, já que a rede esquece associações antigas Exemplo 05 PPGIA - PUCPR Prof. Júlio Cesar Nievola

A Regra de Oja implementa o Máximo Autofiltro O treinamento de um PE linear com o algoritmo de Oja produz um vetor de pesos que é o autovetor da matriz de autocorrelação de entrada na saída o maior autovalor O vetor de pesos obtido usando o algoritmo de Oja indica a direção onde os dados produzem a maior projeção Uma rede com um único PE treinada com a regra de Oja extrai o máximo possível de informação da entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Projeção de um agrupamento de dados nos componentes principais PPGIA - PUCPR Prof. Júlio Cesar Nievola

Análise da Componente Principal Suponha-se ter uma entrada de dados de uma alta dimensionalidade (D dimensões) Busca-se projetar estes dados em um espaço de dimensionalidade M menor (M < D). Isto é chamado extração de características Deseja-se esta projeção preservando ao máximo a dispersão (variância) sobre os dados de entrada A projeção linear que realiza isto é chamada de PCA (“Principal Component Analysis”) PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola PCA PCA é o melhor extrator linear de características para reconstrução de sinais. Com o uso de M características, o erro e na aproximação será de Representando o sinal em subespaços cada vez maiores cujos eixos são determinados a partir dos dados é chamada decomposição subespacial É usada para encontrar o melhor subespaço com uma dada dimensão que preserva ao máximo a informação dos dados PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Rede PCA Pode-se construir uma RNA que implementa PCA online com regras de aprendizagem local Calcula-se o maior autovetor usando a regra de Oja Projeta-se os dados sobre um espaço perpendicular ao maior autovetor Aplica-se novamente o algoritmo para encontrar o segundo maior componente principal Repete-se o procedimento até obter ordem M  D Método da deflação: a projeção sobre o espaço ortogonal é obtida subtraindo a saída de todos os componentes de saída anteriores (após convergência) da entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Rede PCA PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Regra de Sanger Assume-se que a rede tem D entradas e M saídas (M  D), cada uma dada por Os pesos são atualizados através da fórmula Isto implementa a deflação após a convergência do sistema. A atualização não é local Exemplo 06 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola PCA em aplicações Pode-se modelar compressão de dados como uma operação de projeção onde o objetivo é encontrar um conjunto de bases que produz uma grande concentração do sinal em poucos componentes Embora a princípio imagine-se que pelo sistema PCA poder ser capaz de preservar o sinal em um subespaço, ele também é um projetor ótimo para classificação, tal idéia não corresponde à realidade Exemplo 07 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Relação entre autodireções e classificação PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem Anti-Hebbiana A regra anti-Hebbiana inclui um sinal de menos: A adaptação busca o mínimo da superfície de desempenho e a variância de saída é minimizada Os pesos buscam buscam direções no espaço de entrada onde os grupos de dados tem projeção pontual, chamada espaço nulo (ou ortogonal) dos dados A saída da rede sempre produzirá saída zero Exemplo 08 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem Anti-Hebbiana Se os dados preenchem o espaço de entrada a única maneira de minimizar a saída da rede é tornar os pesos iguais a zero Se os dados existem em um subespaço os pesos encontram as direções onde os dados são projetados em um ponto O comportamento de aprendizagem anti-Hebbiana decorrelaciona a saída de sua entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Convergência da Regra Anti-Hebbiana A convergência da regra anti-Hebbiana pode ser controlada pelo tamanho do passo, pois será estável se  < 2 / , onde  é o autovalor da função de autocorrelação da entrada. Para um sistema com várias entradas o requisito deve ser onde max é o maior autovalor da função de autocorrelação de entrada Exemplo 09 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Estimando a Correlação Cruzada em Redes Hebbianas Suponha-se ter dois conjuntos de dados formados por N exemplos de dados de dimensão D: x1,...,xD e d1,...,dD e deseja-se estimar a correlação cruzada entre eles A correlação cruzada é uma medida de similaridade entre dois conjuntos de dados que estende a idéia do coeficiente de correlação Para calcular a correlação cruzada, usa-se uma rede linear com D entradas x e com D saídas y. Substitui-se a saída y na regra Hebbiana pelo conjunto de dados d PPGIA - PUCPR Prof. Júlio Cesar Nievola

Rede Hebbiana com várias entradas e várias saídas PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem Hebbiana Forçada Para calcular a correlação cruzada usa-se a aprendizagem Hebbiana forçada, dada por Se wij(0)=0, após N iterações tem-se Se =1/N e as condições iniciais são nulas os elementos da matriz de correlação cruzada são exatamente os pesos da rede linear Uma rede linear treinada com a aprendizagem Hebbiana forçada é chamada correlacionador ou heteroassociador Exemplo 10 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Dissimilaridade Tem-se dois conjuntos de dados x e d. Tomando x como entrada, deseja-se obter uma saída y tão dissimilar quanto possível do conjunto de dados d Isto é equivalente a encontrar a rotação de x tal que y é ortogonal a d (ou seja, no espaço nulo de d) Com a regra wij = - xjdi o sistema adiante realiza esta função: Função de um PE de decorrelação Exemplo 11 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Inibição Lateral Outra estratégia útil para decorrelacionar sinais é criar conexões laterais entre PEs adaptados com aprendizagem anti-Hebbiana É um método para construir redes que encontram o espaço da componente principal com uma regra local Conexões laterais de inibição PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Modelo APEX para PCA Diamantaras demonstrou que a rede APEX pode implementar o PCA adaptando os pesos através de Neste caso, a regra de Oja adapta os pesos e a aprendizagem anti-Hebbiana as conexões laterais A regra é local As componentes principais são aprendidas em paralelo e não usando deflação PPGIA - PUCPR Prof. Júlio Cesar Nievola

Topologia APEX para PCA PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Whitening Transform Ela ortogonaliza os dados de entrada e também normaliza os autovalores Transforma quaisquer dados descritos por uma autocorrelação R com uma faixa de autovalores arbitrários em uma matriz ortonormal Isto melhora sensivelmente a velocidade de sistemas de aprendizagem lineares, que usam métodos de primeira ordem PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Whitening Transform A topologia é a APEX, adaptando todos os vetores de uma só vez, levando a uma estrutura adaptativa simétrica. A regra de adaptação é A adaptação dos pesos não é local, mas com a inibição lateral isto pode ser facilmente implementado por uma rede de camada única Ela cria um espaço ortonormal na saída equalizando os autovalores e não rotacionando os eixos PPGIA - PUCPR Prof. Júlio Cesar Nievola

Memória Associativa Linear (LAM) O associador linear, também chamado memória associativa linear (LAM) fornece um paradigma alternativo à memória computacional A topologia do associador linear, treinado com a regra Hebbiana forçada pode ser usado como uma memória associativa Tal dispositivo pode ser treinado para associar uma entrada x a uma resposta d. Então, na ausência de d, x pode produzir uma saída y que é similar a d Exemplo 12 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Crosstalk em LAMs Assume-se ter K pares de vetores entrada-saída xk  dk. A memória associativa é treinada pela apresentação repetida de cada entrada Usando o princípio da superposição a matriz de pesos final é a soma das matrizes individuais: Quando um vetor de entrada xl é apresentado à rede, sua saída é Exemplo 13 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Crosstalk em LAMs O segundo termo é o crosstalk e indica o quanto as outras saídas interfere com a verdadeira. Ele é uma função de quão similar a entrada xl é em relação a outras entradas xk Se todas as entradas são ortogonais, o produto interno de xl e xk é zero (crosstalk zero) Neste caso, o associador linear produz recuperação perfeita PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Crosstalk em LAMs Capacidade de armazenamento é definido como o máximo numero de padrões que pode ser armazenado e recuperado sem degradação Na prática as entradas devem ser ortogonais entre si para que o crosstalk não seja grande. Para isto basta encontrar um conjunto de vetores ortogonais Neste caso, o número de padrões para recuperação perfeita é igual ao tamanho da camada de entrada O padrão mais próximo à entrada é recuperado PPGIA - PUCPR Prof. Júlio Cesar Nievola

LMS como uma combinação de regras Hebbianas A regra LMS é expressa por Portanto, A regra LMS é a combinação de um termo de Hebb entre a resposta desejada e a entrada e um termo anti-Hebbiano entre o PE de saída e sua entrada Portanto, o princípio de correlação de Hebb também surge na aprendizagem supervisionada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Melhorando o desempenho de Memórias Associativas Lineares Aprendizagem supervisionada pode ser aplicada para treinar um associador linear para hetero-associação. P.ex. treinar os pesos com LMS como O segundo termo (anti-Hebbiano) reduz crosstalk em cada iteração. LAM com LMS é ótima (OLAM) Memórias associativas com termo de Hebb forçado trabalham bem somente com padrões esparsos, tal como o cérebro humano que tem muitos neurônios Exemplo 14 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola LAM e Regressão Linear As topologias da LAM e do problema do regressor linear são semelhantes. O que isto implica? Quantidade de padrões x camada de entrada: LAM: mais equações que dados Regressor: mais dados que equações A rede linear pode memorizar (trabalhando como uma LAM) ou generalizar as propriedades estatísticas dos pares entrada-saída (trabalhando como um regressor) Uma função de aproximação com um pequeno número de exemplos (para regressão não-linear ou classificação) torna-se no final uma memória associativa e não generaliza bem!!! PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Auto-associação Em auto-associação o padrão de saída é igual à entrada e o sistema é treinado com aprendizagem Hebbiana forçada ou com o LMS O auto-associador realiza uma autodecomposição da função de autocorrelação, isto é, as saídas serão os autovalores da função de autocorrelação e os pesos serão os autovetores associados Se as entradas não forem ortogonais e o sistema é treinado com LMS o crosstalk decai até zero, o que não acontece com a aprendizagem Hebbiana forçada (crosstalk diferente de zero) PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Reconstrução de sinal PPGIA - PUCPR Prof. Júlio Cesar Nievola

Auto-associador com W2 = W1T Exemplo 15 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola Auto-Associador A rede auto-associadora é normalmente treinada com o backpropagation (com PEs lineares) O quadrado dos sinais zi são realmente os autovalores e seu número seleciona o tamanho do espaço de reconstrução A superfície de desempenho do auto-associador é não-convexa, com pontos de sela mas não tem mínimos locais, ou seja, a convergência para os mínimos locais é assegurada pelo controle das taxas de aprendizagem Exemplo 16 Exemplo 17 Exemplo 18 Exemplo 19 PPGIA - PUCPR Prof. Júlio Cesar Nievola