A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR.

Apresentações semelhantes


Apresentação em tema: "Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR."— Transcrição da apresentação:

1 Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR

2 PPGIA - PUCPR Prof. Júlio Cesar Nievola2 Aprendizagem Hebbiana A comunicação entre dois neurônios é facilitada pela excitação repetida A Regra de Hebb diz que se a saída do i-ésimo PE é y i e a ativação do j-ésimo PE é x j, então onde é o tamanho do passo Para aplicar a regra de Hebb, somente os sinais de entrada precisam fluir através da rede A regra de Hebb é local ao peso

3 PPGIA - PUCPR Prof. Júlio Cesar Nievola3 Sistemas biológico e artificial

4 PPGIA - PUCPR Prof. Júlio Cesar Nievola4 Efeito da atualização Hebbiana A aprendizagem Hebbiana atualiza os pesos de acordo com onde n é o número da iteração e o tamanho do passo Para um PE linear, y = wx e, portanto, A aprendizagem Hebbiana é intrinsecamente instável, produzindo pesos muito grandes Exemplo 01

5 PPGIA - PUCPR Prof. Júlio Cesar Nievola5 PE com várias entradas Em notação vetorial a saída do PE é Assumindo entradas e pesos normalizados, y maior significa que ele está mais próximo da direção do vetor peso Durante a aprendizagem os pesos expostos aos dados condensam toda informação em seus valores Os pesos são a memória de longo termo

6 PPGIA - PUCPR Prof. Júlio Cesar Nievola6 Aprendizagem Hebbiana com várias entradas PE linear com D entradas Saída de um PE linear no espaço vetorial Exemplo 02

7 PPGIA - PUCPR Prof. Júlio Cesar Nievola7 Memória O PE Hebbiano é simples e cria uma medida de similaridade (produto interno) no espaço de entrada de acordo com a informação contida nos pesos A saída do PE responde em nível alto ou baixo, de acordo com a similaridade entre entrada atual e o que ele recorda do treinamento O PE Hebbiano implementa um tipo de memória chamada memória associativa Exemplo 03

8 PPGIA - PUCPR Prof. Júlio Cesar Nievola8 Regra de Hebb e Aprendizagem por Correlação Na aprendizagem batch a regra de Hebb atualiza os pesos com uma estimativa amostral da função de autocorrelação Com a regra de Hebb, o algoritmo faz a subida do gradiente (busca do máximo) dos dados de entrada A regra de adaptação on-line é simplesmente uma versão estocástica e tem o mesmo comportamento Exemplo 04

9 PPGIA - PUCPR Prof. Júlio Cesar Nievola9 Representação de Dados em Espaços Multidimensionais Os pesos da rede treinada com a regra de aprendizagem de Hebb indicam a direção do gradiente do campo de entrada A saída da rede indica a projeção de maior variância, ou seja, os eixos do sistema principal de coordenadas onde a saída projetada tem a maior variância É uma forma de criar pesos de rede ajustados às estatísticas de segunda ordem dos dados de entrada

10 PPGIA - PUCPR Prof. Júlio Cesar Nievola10 Sistema de coordenadas principais

11 PPGIA - PUCPR Prof. Júlio Cesar Nievola11 Regra de Oja Para criar uma forma útil da aprendizagem de Hebb é necessário normalizar os pesos A forma mais simples foi proposta por Oja Assumindo um tamanho de passo pequeno, Oja aproximou a equação anterior por

12 PPGIA - PUCPR Prof. Júlio Cesar Nievola12 Regra de Oja A regra de Oja pode ser considerada a atualização de Hebb com uma atividade normalizada Ela evita o crescimento ilimitado dos pesos aplicando um termo de esquecimento proporcional ao quadrado da saída Se o padrão não estiver presente freqüentemente, ele será esquecido, já que a rede esquece associações antigas Exemplo 05

13 PPGIA - PUCPR Prof. Júlio Cesar Nievola13 A Regra de Oja implementa o Máximo Autofiltro O treinamento de um PE linear com o algoritmo de Oja produz um vetor de pesos que é o autovetor da matriz de autocorrelação de entrada na saída o maior autovalor O vetor de pesos obtido usando o algoritmo de Oja indica a direção onde os dados produzem a maior projeção Uma rede com um único PE treinada com a regra de Oja extrai o máximo possível de informação da entrada

14 PPGIA - PUCPR Prof. Júlio Cesar Nievola14 Projeção de um agrupamento de dados nos componentes principais

15 PPGIA - PUCPR Prof. Júlio Cesar Nievola15 Análise da Componente Principal Suponha-se ter uma entrada de dados de uma alta dimensionalidade (D dimensões) Busca-se projetar estes dados em um espaço de dimensionalidade M menor (M < D). Isto é chamado extração de características Deseja-se esta projeção preservando ao máximo a dispersão (variância) sobre os dados de entrada A projeção linear que realiza isto é chamada de PCA (Principal Component Analysis)

16 PPGIA - PUCPR Prof. Júlio Cesar Nievola16 PCA PCA é o melhor extrator linear de características para reconstrução de sinais. Com o uso de M características, o erro e na aproximação será de Representando o sinal em subespaços cada vez maiores cujos eixos são determinados a partir dos dados é chamada decomposição subespacial É usada para encontrar o melhor subespaço com uma dada dimensão que preserva ao máximo a informação dos dados

17 PPGIA - PUCPR Prof. Júlio Cesar Nievola17 Rede PCA Pode-se construir uma RNA que implementa PCA online com regras de aprendizagem local Calcula-se o maior autovetor usando a regra de Oja Projeta-se os dados sobre um espaço perpendicular ao maior autovetor Aplica-se novamente o algoritmo para encontrar o segundo maior componente principal Repete-se o procedimento até obter ordem M D Método da deflação: a projeção sobre o espaço ortogonal é obtida subtraindo a saída de todos os componentes de saída anteriores (após convergência) da entrada

18 PPGIA - PUCPR Prof. Júlio Cesar Nievola18 Rede PCA

19 PPGIA - PUCPR Prof. Júlio Cesar Nievola19 Regra de Sanger Assume-se que a rede tem D entradas e M saídas (M D), cada uma dada por Os pesos são atualizados através da fórmula Isto implementa a deflação após a convergência do sistema. A atualização não é local Exemplo 06

20 PPGIA - PUCPR Prof. Júlio Cesar Nievola20 PCA em aplicações Pode-se modelar compressão de dados como uma operação de projeção onde o objetivo é encontrar um conjunto de bases que produz uma grande concentração do sinal em poucos componentes Embora a princípio imagine-se que pelo sistema PCA poder ser capaz de preservar o sinal em um subespaço, ele também é um projetor ótimo para classificação, tal idéia não corresponde à realidade Exemplo 07

21 PPGIA - PUCPR Prof. Júlio Cesar Nievola21 Relação entre autodireções e classificação

22 PPGIA - PUCPR Prof. Júlio Cesar Nievola22 Aprendizagem Anti-Hebbiana A regra anti-Hebbiana inclui um sinal de menos: A adaptação busca o mínimo da superfície de desempenho e a variância de saída é minimizada Os pesos buscam buscam direções no espaço de entrada onde os grupos de dados tem projeção pontual, chamada espaço nulo (ou ortogonal) dos dados A saída da rede sempre produzirá saída zero Exemplo 08

23 PPGIA - PUCPR Prof. Júlio Cesar Nievola23 Aprendizagem Anti-Hebbiana Se os dados preenchem o espaço de entrada a única maneira de minimizar a saída da rede é tornar os pesos iguais a zero Se os dados existem em um subespaço os pesos encontram as direções onde os dados são projetados em um ponto O comportamento de aprendizagem anti-Hebbiana decorrelaciona a saída de sua entrada

24 PPGIA - PUCPR Prof. Júlio Cesar Nievola24 Convergência da Regra Anti-Hebbiana A convergência da regra anti-Hebbiana pode ser controlada pelo tamanho do passo, pois será estável se < 2 /, onde é o autovalor da função de autocorrelação da entrada. Para um sistema com várias entradas o requisito deve ser onde max é o maior autovalor da função de autocorrelação de entrada Exemplo 09

25 PPGIA - PUCPR Prof. Júlio Cesar Nievola25 Estimando a Correlação Cruzada em Redes Hebbianas Suponha-se ter dois conjuntos de dados formados por N exemplos de dados de dimensão D: x 1,...,x D e d 1,...,d D e deseja-se estimar a correlação cruzada entre eles A correlação cruzada é uma medida de similaridade entre dois conjuntos de dados que estende a idéia do coeficiente de correlação Para calcular a correlação cruzada, usa-se uma rede linear com D entradas x e com D saídas y. Substitui- se a saída y na regra Hebbiana pelo conjunto de dados d

26 PPGIA - PUCPR Prof. Júlio Cesar Nievola26 Rede Hebbiana com várias entradas e várias saídas

27 PPGIA - PUCPR Prof. Júlio Cesar Nievola27 Aprendizagem Hebbiana Forçada Para calcular a correlação cruzada usa-se a aprendizagem Hebbiana forçada, dada por Se w ij (0)=0, após N iterações tem-se Se =1/N e as condições iniciais são nulas os elementos da matriz de correlação cruzada são exatamente os pesos da rede linear Uma rede linear treinada com a aprendizagem Hebbiana forçada é chamada correlacionador ou heteroassociador Exemplo 10

28 PPGIA - PUCPR Prof. Júlio Cesar Nievola28 Dissimilaridade Tem-se dois conjuntos de dados x e d. Tomando x como entrada, deseja-se obter uma saída y tão dissimilar quanto possível do conjunto de dados d Isto é equivalente a encontrar a rotação de x tal que y é ortogonal a d (ou seja, no espaço nulo de d) Com a regra w ij = - x j d i o sistema adiante realiza esta função: Função de um PE de decorrelação Exemplo 11

29 PPGIA - PUCPR Prof. Júlio Cesar Nievola29 Inibição Lateral Outra estratégia útil para decorrelacionar sinais é criar conexões laterais entre PEs adaptados com aprendizagem anti-Hebbiana É um método para construir redes que encontram o espaço da componente principal com uma regra local Conexões laterais de inibição

30 PPGIA - PUCPR Prof. Júlio Cesar Nievola30 Modelo APEX para PCA Diamantaras demonstrou que a rede APEX pode implementar o PCA adaptando os pesos através de Neste caso, a regra de Oja adapta os pesos e a aprendizagem anti-Hebbiana as conexões laterais A regra é local As componentes principais são aprendidas em paralelo e não usando deflação

31 PPGIA - PUCPR Prof. Júlio Cesar Nievola31 Topologia APEX para PCA

32 PPGIA - PUCPR Prof. Júlio Cesar Nievola32 Whitening Transform Ela ortogonaliza os dados de entrada e também normaliza os autovalores Transforma quaisquer dados descritos por uma autocorrelação R com uma faixa de autovalores arbitrários em uma matriz ortonormal Isto melhora sensivelmente a velocidade de sistemas de aprendizagem lineares, que usam métodos de primeira ordem

33 PPGIA - PUCPR Prof. Júlio Cesar Nievola33 Whitening Transform A topologia é a APEX, adaptando todos os vetores de uma só vez, levando a uma estrutura adaptativa simétrica. A regra de adaptação é A adaptação dos pesos não é local, mas com a inibição lateral isto pode ser facilmente implementado por uma rede de camada única Ela cria um espaço ortonormal na saída equalizando os autovalores e não rotacionando os eixos

34 PPGIA - PUCPR Prof. Júlio Cesar Nievola34 Memória Associativa Linear (LAM) O associador linear, também chamado memória associativa linear (LAM) fornece um paradigma alternativo à memória computacional A topologia do associador linear, treinado com a regra Hebbiana forçada pode ser usado como uma memória associativa Tal dispositivo pode ser treinado para associar uma entrada x a uma resposta d. Então, na ausência de d, x pode produzir uma saída y que é similar a d Exemplo 12

35 PPGIA - PUCPR Prof. Júlio Cesar Nievola35 Crosstalk em LAMs Assume-se ter K pares de vetores entrada-saída x k d k. A memória associativa é treinada pela apresentação repetida de cada entrada Usando o princípio da superposição a matriz de pesos final é a soma das matrizes individuais: Quando um vetor de entrada x l é apresentado à rede, sua saída é Exemplo 13

36 PPGIA - PUCPR Prof. Júlio Cesar Nievola36 Crosstalk em LAMs O segundo termo é o crosstalk e indica o quanto as outras saídas interfere com a verdadeira. Ele é uma função de quão similar a entrada x l é em relação a outras entradas x k Se todas as entradas são ortogonais, o produto interno de x l e x k é zero (crosstalk zero) Neste caso, o associador linear produz recuperação perfeita

37 PPGIA - PUCPR Prof. Júlio Cesar Nievola37 Crosstalk em LAMs Capacidade de armazenamento é definido como o máximo numero de padrões que pode ser armazenado e recuperado sem degradação Na prática as entradas devem ser ortogonais entre si para que o crosstalk não seja grande. Para isto basta encontrar um conjunto de vetores ortogonais Neste caso, o número de padrões para recuperação perfeita é igual ao tamanho da camada de entrada O padrão mais próximo à entrada é recuperado

38 PPGIA - PUCPR Prof. Júlio Cesar Nievola38 LMS como uma combinação de regras Hebbianas A regra LMS é expressa por Portanto, A regra LMS é a combinação de um termo de Hebb entre a resposta desejada e a entrada e um termo anti-Hebbiano entre o PE de saída e sua entrada Portanto, o princípio de correlação de Hebb também surge na aprendizagem supervisionada

39 PPGIA - PUCPR Prof. Júlio Cesar Nievola39 Melhorando o desempenho de Memórias Associativas Lineares Aprendizagem supervisionada pode ser aplicada para treinar um associador linear para hetero- associação. P.ex. treinar os pesos com LMS como O segundo termo (anti-Hebbiano) reduz crosstalk em cada iteração. LAM com LMS é ótima (OLAM) Memórias associativas com termo de Hebb forçado trabalham bem somente com padrões esparsos, tal como o cérebro humano que tem muitos neurônios Exemplo 14

40 PPGIA - PUCPR Prof. Júlio Cesar Nievola40 LAM e Regressão Linear As topologias da LAM e do problema do regressor linear são semelhantes. O que isto implica? Quantidade de padrões x camada de entrada: LAM: mais equações que dados Regressor: mais dados que equações A rede linear pode memorizar (trabalhando como uma LAM) ou generalizar as propriedades estatísticas dos pares entrada-saída (trabalhando como um regressor) Uma função de aproximação com um pequeno número de exemplos (para regressão não-linear ou classificação) torna- se no final uma memória associativa e não generaliza bem!!!

41 PPGIA - PUCPR Prof. Júlio Cesar Nievola41 Auto-associação Em auto-associação o padrão de saída é igual à entrada e o sistema é treinado com aprendizagem Hebbiana forçada ou com o LMS O auto-associador realiza uma autodecomposição da função de autocorrelação, isto é, as saídas serão os autovalores da função de autocorrelação e os pesos serão os autovetores associados Se as entradas não forem ortogonais e o sistema é treinado com LMS o crosstalk decai até zero, o que não acontece com a aprendizagem Hebbiana forçada (crosstalk diferente de zero)

42 PPGIA - PUCPR Prof. Júlio Cesar Nievola42 Reconstrução de sinal

43 PPGIA - PUCPR Prof. Júlio Cesar Nievola43 Auto-associador com W 2 = W 1 T Exemplo 15

44 PPGIA - PUCPR Prof. Júlio Cesar Nievola44 Auto-Associador A rede auto-associadora é normalmente treinada com o backpropagation (com PEs lineares) O quadrado dos sinais z i são realmente os autovalores e seu número seleciona o tamanho do espaço de reconstrução A superfície de desempenho do auto-associador é não-convexa, com pontos de sela mas não tem mínimos locais, ou seja, a convergência para os mínimos locais é assegurada pelo controle das taxas de aprendizagem Exemplo 16 Exemplo 17 Exemplo 19 Exemplo 18


Carregar ppt "Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR."

Apresentações semelhantes


Anúncios Google