AULA 05 Multilayer perceptron

AULA 05 Multilayer perceptron
(continuação)

CLASSES DOS ALGORITMOS DE TREINAMENTO
Os algoritmos de treinamento de perceptrons multicamadas podem ser classificados nos seguintes itens: Primeira classe: algoritmos que não requerem derivação, apenas avaliação da função em diferentes pontos do espaço. São chamados métodos sem diferenciação. Segunda classe: faz uso da derivada primeira a ser minimizada. São chamados métodos de primeira ordem. A terceira classe de algoritmos são os métodos de segunda ordem, e utilizam informações sobre a derivada segunda. Uma outra classe consiste no ajuste de pesos usando método de tentativas e erros, e é denominado método empírico.

BE-Busca Exaustiva GA-Genetic Algorithms SA-Simulated Annealing BP –BackPropagation GRAD- Gradiente LM- Levenberg-Marquardt OSS- One Step Secant QN-Quasi Newton DFP-Davidon-Fletcher-Powell GC-Gradiente Conjugado SCG-Scaled CG FR-Fletcher-Reeves PR-Polak-Ribiére BFGS-Broyden-Fletcher-Goldfarb-Shanno

Algoritmo de primeira ordem: gradiente
Dado o gradiente da soma dos quadrados dos erros por: a direção de maior decrescimento é dada por e o ajuste do peso é dado por:

Algoritmos de segunda ordem
A série de Taylor de uma função f: R R na vizinhança do ponto x = x* é dada por: Exemplo:

A função custo ao redor de um ponto w* é dada por:
onde grad( ) = é o gradiente de , e é a matriz Hessiana de , também denotada por H(w).

Vizinhança de w* (ponto de mínimo erro)
Na vizinhança de w* , se aproxima de uma função quadrática. Os contornos correspondentes a um erro constante são elipses cujos eixos são alinhados com os autovetores u1 e u2 da matriz Hessiana, com comprimentos inversamente proporcionais à raiz quadrada dos autovalores correspondentes.

Uma forma quadrática é chamada positiva se
para qualquer e uma matriz simétrica A é chamada positiva se é uma forma quadrática positiva. O traço (interseção) no plano w1w2 é um ponto (origem) e os traços nos planos paralelos e acima do plano w1w2 são elipses. w2 w1

Cálculo da matriz hessiana
Seja a função custo da rede dada por A primeira derivada é dada por: onde Para a obtenção da derivada segunda aplica-se a regra do produto: (uv)’= u’v + uv’)

Exemplo de cálculo da matriz hessiana

Exemplo de cálculo da hessiana (cont.)

Resultado final A matriz H é simétrica
portanto os valores da parte triangular superior são iguais aos valores da parte triangular inferior.

Método de Newton. O método de Newton usa a equação do gradiente expandido em série de Taylor Se w + Dw é um ponto de mínimo, o gradiente será nulo, e desprezando os termos de ordem superior, resulta em Podendo usar para o cálculo de : OBSERVAÇÃO: na prática usa-se métodos próximos ao de Newton, para evitar o uso da matriz hessiana que necessita de uma quantidade grande de cálculos.

Exemplo: método de Newton

Exemplo Newton (cont.) Seja o ponto inicial w(0)=(1,1)

Exemplo Newton (cont.) Em w(1) =(-1/6,-1/4)

Método do gradiente conjugado (ou direção conjugada)
Seja a forma quadrática onde é um vetor de parâmetros Wx1, A é uma matriz WxW, simétrica, definida positivamente, e b é um vetor Wx1 e c é um escalar. A minimização de é obtida atribuindo a o valor

Método do gradiente conjugado (cont.)
Dada a matriz A, diz-se que um conjunto de vetores não-nulos s(0), s(1), ... s(W-1) é conjugado de A (i.é, não interferem entre si no contexto da matriz A) se a seguinte condição for satisfeita: Exemplo: os dois vetores mostrados na Figura (a) são conjugados pois feita a trans- formação resulta em vetores perpendiculares (Figura (b)). (a) (b)

Método de gradiente conjugado (cont.)
Para um dado conjunto de vetores conjugados de A, s(0), s(1)... s(W-1), o ajuste dos pesos é definido por: onde w(0) é um vetor inicial arbitrário e h(n) é um escalar definido para minimizar a função f(w(n)+h(n)s(n)), e é referido como busca em linha.

Exemplo: gradiente conjugado
Começando do ponto (0,0) ao longo do eixo w1, isto é, na direção (1,0), procuramos a direção conjugada de (1, 0), denotada por (u,v). portanto um vetor que representa o gradiente conjugado é (1, -1).

Exemplo: Gradiente conjugado (cont.)
na direção (1, 0) a função torna-se: e tem um mínimo em (4, 0). Iniciando desse mínimo (4, 0) ao longo da direção dada pelo conjugado (1, -1), ou seja, ao longo da reta a função pode ser escrita para w1 que tem um mínimo em w1 = 13/3 e w2 = -1/3

Resumo do Algoritmo de Gradiente Conjugado
Iniciar os valores de w(0) Para w(0) usar o back-propagation para computar o gradiente g(0). Fazer s(0)=r(0)=-g(0) No passo n, usar a busca em linha para encontrar h(n) que minimiza Testar se a norma euclidiana do residual r(n) caiu num valor abaixo do especificado, ou seja numa pequena fração do valor inicial r(0). Atualizar o vetor peso: Para w(n+1) usar back-propagation para computar o vetor gradiente g(n+1) Fazer r(n+1) = - g(n+1) Usar o método de Polak-Ribiére para calcular Atualizar a direção conjugada Fazer n = n + 1 e ir para o passo 4.

Método de Levenberg-Marquardt (LM)
Neste método considerando a soma dos quadrados na forma: onde n corresponde ao n–ésimo padrão de treinamento. o cálculo de um elemento da matriz Hessiana fica Calculando-se esse elemento sem o segundo termo do somatório, obtem-se o método de Levenberg-Marquardt.

Aplicação de LM no exemplo
Hessiana LM

Métodos disponíveis no NN toobox (MATLAB)
Sigla algoritmo método GD traingd Gradient Descent GDM traingdm Gradient Descent with Momentum GDA traingda Gradient Descent with Adaptive Learning Rate LM trainlm Levenberg-Marquardt BFG trainbfg BFGS Quasi-Newton RP trainrp Resilient Backpropagation SCG trainscg Scaled Conjugate Gradient CGB traincgb Conjugate Gradient with Powell/Beale Restarts CGF traincgf Fletcher-Powell Conjugate Gradient CGP traincgp Polak-Ribiére Conjugate Gradient OSS trainoss One Step Secant GDX traingdx Variable Learning Rate Backprogagation

Como usar o NN toolbox para:
Parâmetros: epochs, show, goal, time, min_grad, max_fail, lr lr – learning rate – se lr for muito grande o algoritmo se torna instável. se o lr for muito pequeno, o algoritmo leva muito tempo para convergir O estado do treinamento é mostrado a cada iteração (show). Se show for NaN, nunca é mostrado. Os outros parâmetros determinam a parada do treinamento. O treinamento pára se o número de iterações exceder epochs, se a função custo cair abaixo do goal, se a magnitude do gradiente for menor que min_grad, ou se o tempo de treinamento é maior que o tempo (time) em segundos. O parâmetro max_fail é associado à técnica de parada antecipada, para melhorar a capacidade de generalização da rede.

Como usar o NN toolbox para:
criar um conjunto de treinamento de entradas p e alvo t (saída desejada) criar uma rede feedforward (a função minmax é usada para determinar o intervalo das entradas a ser usado): alterar alguns parâmetros default de treinamento treinar a rede executar a simulação com os dados de entrada de treinamento

MLP normalmente usa função sigmóide. Essas funções se caracterizam
pelo fato da derivada para argumentos grandes ser muito pequena. Isso causa morosidade na velocidade de convergência quando os argumentos são grandes e ainda a rede estiver longe de valores ótimos. Rprop (resilient backpropagation) elimina esse efeito. Somente o sinal da derivada é usado para determinar a direção da atualização do peso. A quantidade da atualização é determinado de outra forma. O valor da atualização para pesos e bias é incrementado de um fator delt_inc sempre que a derivada for na mesma direção para duas iterações sucessivas. O valor da atualização é decrementado por um fator delt_dec sempre que a derivada muda de sinal em relação a iteração anterior. Sempre que os pesos estiverem oscilando a mudança nos pesos é reduzida. Se a derivada é zero, o valor da atualização permanece o mesmo.

Gradiente conjugado: Todos os algoritmos de gradiente conjugado iniciam a busca na direção descida íngreme (negativo do gradiente) para a primeira iteração. Uma pesquisa nessa direção é então realizada para determinar a distância ótima para mover ao longo da direção atual. Então a próxima direção é determinada tal que ela seja conjugada da direção prévia. O procedimento geral para determinar uma nova direção é combinar a nova direção de descida íngreme com a direção prévia. As várias versões de algoritmos de gradiente conjugado são diferentes na maneira em que bk é computado. Para Fletcher-Reeves é usada a equação: Essa é a razão do quadrado da norma do gradiente atual em relação ao quadrado da norma do gradiente anterior.

Gradiente conjugado: A direção de pesquisa a cada iteração é determinada, como no anterior, por porém a constante bk é computada por que é o produto interno da mudança anterior no gradiente com o gradiente corrente dividido pelo quadrado da norma do grandiente anterior.

Gradiente conjugado: Para todos os algoritmos de gradiente conjugado, a direção de pesquisa é periodicamente reiniciado (reset) para o negativo do gradiente. O ponto de reset padrão ocorre quando o número de iterações é igual ao número de parâmetros (pesos e bias) da rede, mas existem outros métodos que podem melhorar a eficiência do treinamento. Um método proposto por Powell, baseado numa versão anterior proposto por Beale, reinicia a direção se existe muito pouca ortogonalidade entre o gradiente atual e o gradiente prévio. Isso é testado pela seguinte inequação: Se essa condição é satisfeita, a direção de pesquisa é reiniciada para o negativo do gradiente.

Gradiente conjugado: Cada um dos algoritmos anteriores requerem uma pesquisa na direção a cada iteração. Essa pesquisa é computacionalmente onerosa, pois requer que sejam computadas a resposta da rede para todas as entradas de treinamento, várias vezes para cada pesquisa. O algoritmo de gradiente conjugado escalado, desenvolvido por Moller, foi projetado para evitar esse consumo de tempo. Esse algoritmo combina uma abordagem de modelo de região de confiança (model trust) usado no algoritmo de Levenberg-Marquardt, com a técnica do gradiente conjugado.

O método de Newton é uma alternativa para os métodos de gradiente
conjugado para otimização rápida. O passo básico do método é O método quase sempre converge mais rápido que os métodos de gradiente conjugado. Infelizmente, é complexo e oneroso computar a matriz hessiana. Existe uma classe de algoritmos que é baseada no método de Newton, mas não requer o cálculo de derivadas segundas, que são chamados de métodos quasi-Newton ou secante. Eles atualizam uma matriz aproximada da hessiana a cada iteração do algoritmo. A atualização é computada como uma função do gradiente. O método quasi-Newton que tem sido mais bem sucedido em estudos publicados é o de Broyden, Fletcher, Goldfarb, e Shanno (BFGS).

Como o algoritmo BFGS requer mais armazenamento e computação em
cada iteração que os algoritmos de gradiente conjugado, existe uma necessidade de uma aproximação secante com menor armazenamento e computação. O método de secante em um passo (one step secant) é uma tentativa intermediária entre os algoritmos de gradiente conjugado e os algoritmos quasi-Newton. Esse algoritmo não armazena a matriz hessiana completa. Ele assume que a cada iteração, a Hessiana anterior é uma matriz identidade. Existe uma vantagem adicional de que a nova direção de pesquisa seja calculada sem computar a matriz inversa.

Exemplos comparativos

SENO – aproximação de um período da função seno (1-5-1)
Problema de aproximação de função. Rede 1 – 5 – 1, funções tansig para camadas escondidas e linear para camada de saída. Cada entrada na tabela representa 30 tentativas diferentes, com diferentes valores de pesos iniciais. Parada com erro quadrático = O algoritmo mais rápido é o Levenberg-Marquardt, na média 4 vezes mais rápido que o próximo. Esse é o tipo de problema que o algoritmo LM é adequado – problema de aproximação de função, onde a rede tem menos que 100 pesos e a aproximação deve ser com muita precisão.

SENO – aproximação de um período da função seno (1-5-1)
Algoritmo Temp médio (s) Razão Tempo mínimo(s) Tempo máximo(s) Desvio padrão(s) LM 1.14 1.00 0.65 1.83 0.38 BFG 5.22 4.58 3.17 14.38 2.08 RP 5.67 4.97 2.66 17.24 3.72 SCG 6.09 5.34 3.18 23.64 3.81 CGB 6.61 5.80 2.99 23.65 3.67 CGF 7.86 6.89 3.57 31.23 4.76 CGP 8.24 7.23 4.07 32.32 5.03 OSS 9.64 8.46 3.97 59.63 9.79 GDX 27.69 24.29 17.21 258.15 43.65

Mse x tempo de convergência

Tempo em função da meta (mse)

Detecção de paridade de um número de 3 bits (3-10-10-1)
Problema de reconhecimento de padrões – detectar paridade de um número de 3 bits. Se o número de uns é impar a saída deve ser 1, caso contrário, -1. Rede , com tansig em todas as camadas. Cada entrada na tabela representa 30 diferentes tentativas, com diferentes valores iniciais de pesos. Parada a erro quadrático = O algoritmo mais rápido é o Resilient Backpropagation (Rprop). Nota-se que o algoritmo LM não tem bom desempenho neste problema. Em geral LM não desempenha tão bem em reconhecimento de padrões como em problemas de aproximação. O LM é projetado para problemas de mínimos quadrados que são aproximadamente lineares. Como os neurônios de saída em problemas de reconhecimento de padrões são geralmente saturados, não operam na região linear.

Detecção de paridade de um número de 3 bits (3-10-10-1)
Algoritmo Temp médio (s) Razão Tempo mínimo(s) Tempo máximo(s) Desvio padrão(s) RP 3.73 1.00 2.35 6.89 1.26 SCG 4.09 1.10 2.36 7.48 1.56 CGP 5.13 1.38 3.50 8.73 1.05 CGB 5.30 1.42 3.91 11.59 1.35 CGF 6.62 1.77 3.96 28.05 4.32 OSS 8.00 2.14 5.06 14.41 1.92 LM 13.07 6.48 23.78 4.96 BFG 19.68 5.28 14.19 26.64 2.85 GDX 27.07 7.26 25.21 28.52 0.86

Operação de um motor (entrada = velocidade e nível queima de combustível; saída= torque e emissão) (2-30-2) Problema de regressão não-linear. Os dados são obtidos de operação de um motor. As entradas são a velocidade e o consumo de combustível, enquanto que as saídas são o torque e o nível de emissão. A rede usada é de com neurônios tansig na camada escondida e linear na camada de saída. Cada entrada na tabela representa 30 tentativas (10 par RP e GDX por restrições de tempo), com diferentes pesos iniciais. Parada com erro quadrático menor que O mais rápido é o LM, embora o BFGS e os gradientes conjugados (scaled em particular) são quase tanto quanto. Embora esse problema seja de aproximação de função, o LM não é claramente superior como no caso do SENO. Neste caso, o número de pesos e bias na rede é maior (152 x 16), e as vantagens do LM decresce com o Aumento do número de parâmetros.

Operação de um motor (entrada = velocidade e nível queima de combustível; saída= torque e emissão) (2-30-2) Algoritmo Temp médio (s) Razão Tempo mínimo(s) Tempo máximo(s) Desvio padrão(s) LM 18.45 1.00 12.01 30.03 4.27 BFG 27.12 1.47 16.42 47.36 5.95 SCG 36.02 1.95 19.39 52.45 7.78 CGF 37.93 2.06 18.89 50.34 6.12 CGB 39.93 2.16 23.33 56.42 7.50 CGP 44.30 2.40 24.99 71.55 9.89 OSS 48.71 2.64 23.51 80.90 12.33 RP 65.91 3.57 31.83 134.31 34.24 GDX 188.50 10.22 81.59 279.90 66.67

CÂNCER – Classificação de tumor benigno ou maligno baseada nas descrições obtidas através de dados microscópicos. ( ) Reconhecimento de padrões (ou análise de discriminantes não-lineares). Objetivo é classificar um tumor como benigno ou maligno baseado em descrições celulares obtidas de exames microscópicos. Os atributos de entrada incluem espessura da amostra, uniformidade do tamanho da célula e formato, quantidade de adesão marginal, e frequência de núcleos descobertos. Os dados foram obtidos de: University of Wisconsin Hospitals. A rede é de com neurônios tansig em todas as camadas. Cada entrada na tabela representa 30 tentativas, com pesos iniciais distintos. O critério de parada é de erro quadrático menor que Alguns treinamentos falharam na convergência, tal que somente os 75% dos treinamentos de cada algoritmo foram usados para estatística. Os algoritmos de gradiente conjugado e Rprop apresentam convergência rápida e o algoritmo LM é também razoavelmente rápido. Como no caso de PARIDADE, o algoritmo LM não desempenha tão bem em problemas de reconhecimento de padrões, como em problemas de aproximação de funções.

CÂNCER – Classificação de tumor benigno ou maligno baseada nas descrições obtidas através de dados microscópicos. ( ) Algoritmo Temp médio (s) Razão Tempo mínimo(s) Tempo máximo(s) Desvio padrão(s) CGB 80.27 1.00 56.07 102.31 13.17 RP 83.41 1.04 59.51 109.39 13.44 SCG 86.58 1.08 41.21 112.19 18.25 CGP 87.70 1.09 56.35 116.37 18.03 CGF 110.05 1.37 63.33 171.53 30.13 LM 110.33 58.94 201.07 38.20 BFG 209.60 2.61 118.92 318.18 58.44 GDX 313.22 3.90 166.48 446.43 75.44 OSS 463.87 5.78 250.62 599.99 97.35

mse x tempo de convergência

COLESTEROL- predizer o nível de colesterol (LDL,HDL,VLDL)
Aproximação de função (ou regressão não-linear). O objetivo da rede é predizer os níveis de colesterol baseados em medidas de 21 componentes espectrais. Os dados foram obtidos de Oklahoma State University. Rede de neurônios com ativação tansig na camada escondida e linear na camada de saída. Cada entrada na tabela representa 20 tentativas (10 para RP e GDX), onde diferentes pesos iniciais são usados. O critério de parada é de erro quadrático menor que O algoritmo de gradiente conjugado escalado tem o melhor desempenho, embora todos os outros algoritmos de gradiente conjugado desempenham bem. O algoritmo LM não desempenha em como no problema de aproximação de função. Isso porque o número de pesos e bias na rede aumentou (378 versus 152 versus 16). Quando o número de parâmetros aumenta, a computação requerida para o LM aumenta geometricamente.

COLESTEROL- predizer o nível de colesterol (LDL,HDL,VLDL) baseado na medida de 21 componentes espectrais. ( ) Algoritmo Temp médio (s) Razão Tempo mínimo(s) Tempo máximo(s) Desvio padrão(s) SCG 99.73 1.00 83.10 113.40 9.93 CGP 121.54 1.22 101.76 162.49 16.34 CGB 124.06 1.24 107.64 146.90 14.62 CGF 136.04 1.36 106.46 167.28 17.67 LM 261.50 2.62 103.52 398.45 102.06 OSS 268.55 2.69 197.84 372.99 56.79 BFG 550.92 5.52 471.61 676.39 46.59 BP 15.23 581.17 597.34 GDX 31.78 610.52

DIABETES – verificar se um individuo tem diabetes baseado nos dados (idade, número gravidez, pressão sanguínea, índice de massa corpórea, glicemia, etc.) ( ) Problema de reconhecimento de padrões. Decidir se um indivíduo é diabético, baseado nos dados pessoais (idade, número de gravidez) e resultados de exames médicos ( pressão sanguínea, índice de massa corpórea, resultado do teste de tolerância a glicose, etc.). Os dados foram obtidos da University of California, Irvine, machine learning data base. A rede é de com neurônios tansig em todas as camadas. Cada entrada na tabela representa 10 tentativas, com diferentes pesos iniciais. O critério de parada é de erro quadrático menor que 0.05. Os algoritmos de gradiente conjugado e Rprop todos proveem convergência rápida. O algoritmo RProp funciona bem em todos os problemas de reconhecimento de padrões. Isso é razoável, pois ele foi projetado para superar as dificuldades causadas pelo treinamento com funções sigmóides, que tem pequena inclinação quando o argumento é distante do centro. Para problemas de reconhecimento de padrões, são usadas funções sigmóides na camada de saída, e a rede opera nas extremidades das funções.

DIABETES – verificar se um individuo tem diabetes baseado nos dados (idade, número gravidez, pressão sanguínea, índice de massa corpórea, glicemia, etc.) ( ) Algoritmo Temp médio (s) Razão Tempo mínimo(s) Tempo máximo(s) Desvio padrão(s) RP 323.90 1.00 187.43 576.90 111.37 SCG 390.53 1.21 267.99 487.17 75.07 CGB 394.67 1.22 312.25 558.21 85.38 CGP 415.90 1.28 320.62 614.62 94.77 OSS 784.00 2.42 706.89 936.52 76.37 CGF 784.50 629.42 144.63 LM 3.17 802.01 166.31 BFG 5.62 546.36 GDX 23.73

Mse x Tempo de convergência

AULA 05 Multilayer perceptron

Apresentações semelhantes

Apresentação em tema: "AULA 05 Multilayer perceptron"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

AULA 05 Multilayer perceptron

Apresentações semelhantes

Apresentação em tema: "AULA 05 Multilayer perceptron"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback