Aprendizagem Hebbiana e PCA

Aprendizagem Hebbiana e PCA
Prof. Júlio Cesar Nievola PPGIA PUCPR

Aprendizagem Hebbiana
A comunicação entre dois neurônios é facilitada pela excitação repetida A Regra de Hebb diz que se a saída do i-ésimo PE é yi e a ativação do j-ésimo PE é xj, então onde  é o tamanho do passo Para aplicar a regra de Hebb, somente os sinais de entrada precisam fluir através da rede A regra de Hebb é local ao peso PPGIA - PUCPR Prof. Júlio Cesar Nievola

Sistemas biológico e artificial
PPGIA - PUCPR Prof. Júlio Cesar Nievola

Efeito da atualização Hebbiana
A aprendizagem Hebbiana atualiza os pesos de acordo com onde n é o número da iteração e  o tamanho do passo Para um PE linear, y = wx e, portanto, A aprendizagem Hebbiana é intrinsecamente instável, produzindo pesos muito grandes Exemplo 01 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Prof. Júlio Cesar Nievola
PE com várias entradas Em notação vetorial a saída do PE é Assumindo entradas e pesos normalizados, y maior significa que ele está mais “próximo” da direção do vetor peso Durante a aprendizagem os pesos expostos aos dados condensam toda informação em seus valores Os pesos são a memória de longo termo PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem Hebbiana com várias entradas
Saída de um PE linear no espaço vetorial PE linear com D entradas Exemplo 02 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Memória O PE Hebbiano é simples e cria uma medida de similaridade (produto interno) no espaço de entrada de acordo com a informação contida nos pesos A saída do PE responde em nível alto ou baixo, de acordo com a similaridade entre entrada atual e o que ele “recorda” do treinamento O PE Hebbiano implementa um tipo de memória chamada memória associativa Exemplo 03 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Regra de Hebb e Aprendizagem por Correlação
Na aprendizagem batch a regra de Hebb atualiza os pesos com uma estimativa amostral da função de autocorrelação Com a regra de Hebb, o algoritmo faz a subida do gradiente (busca do máximo) dos dados de entrada A regra de adaptação on-line é simplesmente uma versão estocástica e tem o mesmo comportamento Exemplo 04 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Representação de Dados em Espaços Multidimensionais
Os pesos da rede treinada com a regra de aprendizagem de Hebb indicam a direção do gradiente do campo de entrada A saída da rede indica a projeção de maior variância, ou seja, os eixos do sistema principal de coordenadas onde a saída projetada tem a maior variância É uma forma de criar pesos de rede ajustados às estatísticas de segunda ordem dos dados de entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Sistema de coordenadas principais

Regra de Oja Para criar uma forma útil da aprendizagem de Hebb é necessário normalizar os pesos A forma mais simples foi proposta por Oja Assumindo um tamanho de passo pequeno, Oja aproximou a equação anterior por PPGIA - PUCPR Prof. Júlio Cesar Nievola

Regra de Oja A regra de Oja pode ser considerada a atualização de Hebb com uma atividade normalizada Ela evita o crescimento ilimitado dos pesos aplicando um “termo de esquecimento” proporcional ao quadrado da saída Se o padrão não estiver presente freqüentemente, ele será esquecido, já que a rede esquece associações antigas Exemplo 05 PPGIA - PUCPR Prof. Júlio Cesar Nievola

A Regra de Oja implementa o Máximo Autofiltro
O treinamento de um PE linear com o algoritmo de Oja produz um vetor de pesos que é o autovetor da matriz de autocorrelação de entrada na saída o maior autovalor O vetor de pesos obtido usando o algoritmo de Oja indica a direção onde os dados produzem a maior projeção Uma rede com um único PE treinada com a regra de Oja extrai o máximo possível de informação da entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Projeção de um agrupamento de dados nos componentes principais

Análise da Componente Principal
Suponha-se ter uma entrada de dados de uma alta dimensionalidade (D dimensões) Busca-se projetar estes dados em um espaço de dimensionalidade M menor (M < D). Isto é chamado extração de características Deseja-se esta projeção preservando ao máximo a dispersão (variância) sobre os dados de entrada A projeção linear que realiza isto é chamada de PCA (“Principal Component Analysis”) PPGIA - PUCPR Prof. Júlio Cesar Nievola

PCA PCA é o melhor extrator linear de características para reconstrução de sinais. Com o uso de M características, o erro e na aproximação será de Representando o sinal em subespaços cada vez maiores cujos eixos são determinados a partir dos dados é chamada decomposição subespacial É usada para encontrar o melhor subespaço com uma dada dimensão que preserva ao máximo a informação dos dados PPGIA - PUCPR Prof. Júlio Cesar Nievola

Rede PCA Pode-se construir uma RNA que implementa PCA online com regras de aprendizagem local Calcula-se o maior autovetor usando a regra de Oja Projeta-se os dados sobre um espaço perpendicular ao maior autovetor Aplica-se novamente o algoritmo para encontrar o segundo maior componente principal Repete-se o procedimento até obter ordem M  D Método da deflação: a projeção sobre o espaço ortogonal é obtida subtraindo a saída de todos os componentes de saída anteriores (após convergência) da entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Rede PCA PPGIA - PUCPR Prof. Júlio Cesar Nievola

Regra de Sanger Assume-se que a rede tem D entradas e M saídas (M  D), cada uma dada por Os pesos são atualizados através da fórmula Isto implementa a deflação após a convergência do sistema. A atualização não é local Exemplo 06 PPGIA - PUCPR Prof. Júlio Cesar Nievola

PCA em aplicações Pode-se modelar compressão de dados como uma operação de projeção onde o objetivo é encontrar um conjunto de bases que produz uma grande concentração do sinal em poucos componentes Embora a princípio imagine-se que pelo sistema PCA poder ser capaz de preservar o sinal em um subespaço, ele também é um projetor ótimo para classificação, tal idéia não corresponde à realidade Exemplo 07 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Relação entre autodireções e classificação

Aprendizagem Anti-Hebbiana
A regra anti-Hebbiana inclui um sinal de menos: A adaptação busca o mínimo da superfície de desempenho e a variância de saída é minimizada Os pesos buscam buscam direções no espaço de entrada onde os grupos de dados tem projeção pontual, chamada espaço nulo (ou ortogonal) dos dados A saída da rede sempre produzirá saída zero Exemplo 08 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem Anti-Hebbiana
Se os dados preenchem o espaço de entrada a única maneira de minimizar a saída da rede é tornar os pesos iguais a zero Se os dados existem em um subespaço os pesos encontram as direções onde os dados são projetados em um ponto O comportamento de aprendizagem anti-Hebbiana decorrelaciona a saída de sua entrada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Convergência da Regra Anti-Hebbiana
A convergência da regra anti-Hebbiana pode ser controlada pelo tamanho do passo, pois será estável se  < 2 / , onde  é o autovalor da função de autocorrelação da entrada. Para um sistema com várias entradas o requisito deve ser onde max é o maior autovalor da função de autocorrelação de entrada Exemplo 09 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Estimando a Correlação Cruzada em Redes Hebbianas
Suponha-se ter dois conjuntos de dados formados por N exemplos de dados de dimensão D: x1,...,xD e d1,...,dD e deseja-se estimar a correlação cruzada entre eles A correlação cruzada é uma medida de similaridade entre dois conjuntos de dados que estende a idéia do coeficiente de correlação Para calcular a correlação cruzada, usa-se uma rede linear com D entradas x e com D saídas y. Substitui-se a saída y na regra Hebbiana pelo conjunto de dados d PPGIA - PUCPR Prof. Júlio Cesar Nievola

Rede Hebbiana com várias entradas e várias saídas

Aprendizagem Hebbiana Forçada
Para calcular a correlação cruzada usa-se a aprendizagem Hebbiana forçada, dada por Se wij(0)=0, após N iterações tem-se Se =1/N e as condições iniciais são nulas os elementos da matriz de correlação cruzada são exatamente os pesos da rede linear Uma rede linear treinada com a aprendizagem Hebbiana forçada é chamada correlacionador ou heteroassociador Exemplo 10 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Dissimilaridade Tem-se dois conjuntos de dados x e d. Tomando x como entrada, deseja-se obter uma saída y tão dissimilar quanto possível do conjunto de dados d Isto é equivalente a encontrar a rotação de x tal que y é ortogonal a d (ou seja, no espaço nulo de d) Com a regra wij = - xjdi o sistema adiante realiza esta função: Função de um PE de decorrelação Exemplo 11 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Inibição Lateral Outra estratégia útil para decorrelacionar sinais é criar conexões laterais entre PEs adaptados com aprendizagem anti-Hebbiana É um método para construir redes que encontram o espaço da componente principal com uma regra local Conexões laterais de inibição PPGIA - PUCPR Prof. Júlio Cesar Nievola

Modelo APEX para PCA Diamantaras demonstrou que a rede APEX pode implementar o PCA adaptando os pesos através de Neste caso, a regra de Oja adapta os pesos e a aprendizagem anti-Hebbiana as conexões laterais A regra é local As componentes principais são aprendidas em paralelo e não usando deflação PPGIA - PUCPR Prof. Júlio Cesar Nievola

Topologia APEX para PCA

Whitening Transform Ela ortogonaliza os dados de entrada e também normaliza os autovalores Transforma quaisquer dados descritos por uma autocorrelação R com uma faixa de autovalores arbitrários em uma matriz ortonormal Isto melhora sensivelmente a velocidade de sistemas de aprendizagem lineares, que usam métodos de primeira ordem PPGIA - PUCPR Prof. Júlio Cesar Nievola

Whitening Transform A topologia é a APEX, adaptando todos os vetores de uma só vez, levando a uma estrutura adaptativa simétrica. A regra de adaptação é A adaptação dos pesos não é local, mas com a inibição lateral isto pode ser facilmente implementado por uma rede de camada única Ela cria um espaço ortonormal na saída equalizando os autovalores e não rotacionando os eixos PPGIA - PUCPR Prof. Júlio Cesar Nievola

Memória Associativa Linear (LAM)
O associador linear, também chamado memória associativa linear (LAM) fornece um paradigma alternativo à memória computacional A topologia do associador linear, treinado com a regra Hebbiana forçada pode ser usado como uma memória associativa Tal dispositivo pode ser treinado para associar uma entrada x a uma resposta d. Então, na ausência de d, x pode produzir uma saída y que é similar a d Exemplo 12 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Crosstalk em LAMs Assume-se ter K pares de vetores entrada-saída xk  dk. A memória associativa é treinada pela apresentação repetida de cada entrada Usando o princípio da superposição a matriz de pesos final é a soma das matrizes individuais: Quando um vetor de entrada xl é apresentado à rede, sua saída é Exemplo 13 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Crosstalk em LAMs O segundo termo é o crosstalk e indica o quanto as outras saídas interfere com a verdadeira. Ele é uma função de quão similar a entrada xl é em relação a outras entradas xk Se todas as entradas são ortogonais, o produto interno de xl e xk é zero (crosstalk zero) Neste caso, o associador linear produz recuperação perfeita PPGIA - PUCPR Prof. Júlio Cesar Nievola

Crosstalk em LAMs Capacidade de armazenamento é definido como o máximo numero de padrões que pode ser armazenado e recuperado sem degradação Na prática as entradas devem ser ortogonais entre si para que o crosstalk não seja grande. Para isto basta encontrar um conjunto de vetores ortogonais Neste caso, o número de padrões para recuperação perfeita é igual ao tamanho da camada de entrada O padrão mais próximo à entrada é recuperado PPGIA - PUCPR Prof. Júlio Cesar Nievola

LMS como uma combinação de regras Hebbianas
A regra LMS é expressa por Portanto, A regra LMS é a combinação de um termo de Hebb entre a resposta desejada e a entrada e um termo anti-Hebbiano entre o PE de saída e sua entrada Portanto, o princípio de correlação de Hebb também surge na aprendizagem supervisionada PPGIA - PUCPR Prof. Júlio Cesar Nievola

Melhorando o desempenho de Memórias Associativas Lineares
Aprendizagem supervisionada pode ser aplicada para treinar um associador linear para hetero-associação. P.ex. treinar os pesos com LMS como O segundo termo (anti-Hebbiano) reduz crosstalk em cada iteração. LAM com LMS é ótima (OLAM) Memórias associativas com termo de Hebb forçado trabalham bem somente com padrões esparsos, tal como o cérebro humano que tem muitos neurônios Exemplo 14 PPGIA - PUCPR Prof. Júlio Cesar Nievola

LAM e Regressão Linear As topologias da LAM e do problema do regressor linear são semelhantes. O que isto implica? Quantidade de padrões x camada de entrada: LAM: mais equações que dados Regressor: mais dados que equações A rede linear pode memorizar (trabalhando como uma LAM) ou generalizar as propriedades estatísticas dos pares entrada-saída (trabalhando como um regressor) Uma função de aproximação com um pequeno número de exemplos (para regressão não-linear ou classificação) torna-se no final uma memória associativa e não generaliza bem!!! PPGIA - PUCPR Prof. Júlio Cesar Nievola

Auto-associação Em auto-associação o padrão de saída é igual à entrada e o sistema é treinado com aprendizagem Hebbiana forçada ou com o LMS O auto-associador realiza uma autodecomposição da função de autocorrelação, isto é, as saídas serão os autovalores da função de autocorrelação e os pesos serão os autovetores associados Se as entradas não forem ortogonais e o sistema é treinado com LMS o crosstalk decai até zero, o que não acontece com a aprendizagem Hebbiana forçada (crosstalk diferente de zero) PPGIA - PUCPR Prof. Júlio Cesar Nievola

Reconstrução de sinal PPGIA - PUCPR Prof. Júlio Cesar Nievola

Auto-associador com W2 = W1T
Exemplo 15 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Auto-Associador A rede auto-associadora é normalmente treinada com o backpropagation (com PEs lineares) O quadrado dos sinais zi são realmente os autovalores e seu número seleciona o tamanho do espaço de reconstrução A superfície de desempenho do auto-associador é não-convexa, com pontos de sela mas não tem mínimos locais, ou seja, a convergência para os mínimos locais é assegurada pelo controle das taxas de aprendizagem Exemplo 16 Exemplo 17 Exemplo 18 Exemplo 19 PPGIA - PUCPR Prof. Júlio Cesar Nievola

Aprendizagem Hebbiana e PCA

Apresentações semelhantes

Apresentação em tema: "Aprendizagem Hebbiana e PCA"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Aprendizagem Hebbiana e PCA

Apresentações semelhantes

Apresentação em tema: "Aprendizagem Hebbiana e PCA"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback