A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Araken de Medeiros Santos Anne Magály de Paula Canuto

Apresentações semelhantes


Apresentação em tema: "Araken de Medeiros Santos Anne Magály de Paula Canuto"— Transcrição da apresentação:

1 Araken de Medeiros Santos Anne Magály de Paula Canuto
Uma Análise da aplicaçãp do Modelo de Rede Neural RePART em Comitês de Classificadores Araken de Medeiros Santos Anne Magály de Paula Canuto Orientadora

2 ROTEIRO Trabalhos anteriores Motivação Objetivos
Redes Neurais e Comitês Metodologia dos experimentos Análise dos resultados experimentais Considerações Finais Trabalhos Futuros

3 TRABALHOS ANTERIORES Análise comparativa do desempenho do RePART com o FA, AIC e MLP RePART Estrutura menos complexa Desempenho igual ou superior aos demais modelos

4 MOTIVAÇÃO Qual o comportamento do RePART
em Comitês de classificadores?

5 OBJETIVOS Definir o impacto, em termos de acurácia, que a utilização do RePART em comitês utilizando modelos ARTMAP

6 OBJETIVOS Análises adicionais em termos de:
Número de classificadores base Número de tipos de classificadores base Estratégias de aprendizado de comitês Relacionamento entre acurácia e diversidade

7 ART (Adaptive Resonance Theory)
Dilema estabilidade-plasticidade RNA incremental Grau de similaridade Aprendizagem não-supervisionada Surgiu como resultado da tentativa de compreender como sistemas biológicos são capazes de continuar aprendendo, sem comprometer a estabilidade de padrões previamente aprendidos Estabilidade-Plasticidade: como projetar um sistema capaz de sempre se adaptar em resposta a padrões significativos e ao mesmo tempo ser indiferente a padrões irrelevantes Sistema capaz de aprender conhecimentos novos preservando o conhecimento previamente adquirido e evitando que um novo conhecimento se sobreponha a conhecimentos prévios Incremental: capaz de aumentar sua complexidade a medida que novos padrões são apresentados. Não precisa recomeçar seu treinamento do ponto inicial cada vez que novos padrões de entrada aparecem, preservando o conhecimento previamente adquirido Tenta controlar o grau de similaridade entre o padrão apresentado e um padrão padrão previamente aprendido pela rede ultrapassar um determinado patamar. Não supervisionado: quando um novo padrão não se enquadra a qualquer grupo de padrões existentes forma-se um novo grupo

8 ART x Fuzzy ART Mesma estrutura
ART => teoria dos conjuntos clássica Fuzzy ART => teoria dos conjuntos fuzzy Cálculo dos neurônios F2 O Fuzzy ART possui a mesma estrutura do ART A diferença é que ao invés de utilizar a teoria dos conjuntos clássica como no ART, O Fuzzy ART utiliza a teoria dos conjuntos fuzzy. Esta diferença ocorre no processamento dos neurônios de saída, que é utilizado o AND Fuzzy ao invés do AND booleano ART => AND booleano (x*y) Fuzzy ART => AND fuzzy [min(x, y)]

9 ARTMAP/Fuzzy ARTMAP Dois módulos ART/Fuzzy ART Map Field
ARTa => padrão de entrada ARTb => saída desejada Map Field Aprendizagem supervisionada Diferente do modelo ART, usa um processo de aprendizagem supervisionada, uma Vez que tanto a entrada quanto a saída desejadas são conhecidas Composta de dois módulos ART, um para processamento do vetor de entrada e Outro para processamento da saída desejada, assim como um módulo de mapemaneto Usado para formar associações entre os neurônios dos dois módulos ART Processo de aprendizagem baseado na similaridade entre o padrão de entrada e os pesos Do neurônios da camada de saída em ARTa

10 ESTRUTURA DO ARTMAP Wj I = (a, 1-a) a b J = (b, 1-b)
Cada neurônio do módulo ARTa é conectado a todos os neurônios do módulo de mapeamento através de pesos, que são ajustados durante a fase de aprendizagem Durante a fase de reconhecimento, assim que os dois módulos ART produzem suas Saídas, é feita uma associação entre essas saídas. Depois, calculados os valores dos Neurônios do módulo de mapeamento, levando-se em consideração as saídas do Módulo ARTa Depois que o neurônio vencedor do módulod e mapeamento é escolhido, uma associação entre o vencedor do módulo ARTb e o módulo de mapeamento é criada Vantagens desse tipo de aprendizagem: Fácil extração de conhecimento: a representação de associações entre padrões é alcançada Por neurônios individuais, facilitando a extração de regras, permitindo uma melhor Compreensão e interpretação de seu conhecimento Inexistência de esquecimento catastrófico: incrementam dinamicamente o número de Neurônios -Rápida aprendizagem: normalmente requer somente uma iteração através dos dados

11 PROBLEMAS DO ARTMAP Sensibilidade a ruídos Proliferação de categoria
Má classificação (1 vencedor) Proliferação de categorias: conseqüência direta da sensibilidade a ruídos presente nos modelos baseados no ARTMAP durante a fase de aprendizagem. Caso a magnitude do ruído no padrão seja elevado, pode-se gerar muitos neurônios, tornando a rede muito complexa Má classificação: Também conseqüência da sensibilidade a ruídos, só que desta vez durante a fase de reconhecimento. Durante as fase de aprendizagem e reconhecimento, somente o neurônio com a maior saída é escolhido como vencedor. Assim, durante a fase de reconhecimento um padrão de entrada com ruído pode levar a seleção de uma categoria de neurônio errada

12 ARTMAP-IC Mesmo processo de aprendizagem
Melhorias na fase de reconhecimento Suavizar o problema de má classificação Codificação distribuída (grupo de vencedores) Parâmetro contador de instância Uso de um grupo de vencedores para produzir o resultado final da rede, ou seja, no cálculo dos neurônios do módulo de mapeamento são levados em consideração os neurônios do módulo ARTa com as maiores saídas Tem como objetivo evitar o problema de má classificação Distribui predição de acordo com o número de entradas do grupo de treinamento classificadas por cada neurônio da camada de saída do módulo ARTa É a freqüência de ativação de cada neurônio da camada de saída durante a fase de aprendizagem Durante a fase de reconhecimento, o contador de instância é usado para encontrar o Neurônio vencedor da camada de saída

13 RePART Suavizar problemas de proliferação de categoria e má classificação Codificação distribuída (grupo de vencedores + grupo de perdedores) Parâmetro contador de instância Mecanismos Adicionais: Vigilância variável individual (proliferação de jhcategorias) Recompensa/Punição (má classificação) -Versão mais sofisticada do Fuzzy ARTMAP Tenta suavizar os problemas de proliferação de categorias e de má classificação através do uso de codificação distribuída, do parâmetro contador de instância e de outros mecanismos adicionais como: vigilância variável individual e um processo de recompensa e punição. A escolha do parâmetro de vigilância é muito importante para o desenvolvimento das redes baseadas no ARTMAP e é conhecido como o dilema de bias/variancia Quando o parâmetro de vigilância é ajustado para um valor muito baixo, a estrutura da rede tende a ser pequena demais, tornando a rede tendenciosa a certos padrões (generalização excessiva). Se o parâmetro de vigilância é ajustado para um valor muito elevado, a complexidade da rede tende a ser excessivamente elevada, ocasionando uma pobre generalização. No RePART para evitar esse problema, adota-se o uso de uma vigilância variável que ajusta-se dinamicamente durante o processo de aprendizagem para melhor representar os padrões. O mecanismo de recompensa/punição é utilizado como forma de recompensar o grupo de vencedores e punir o grupo de perdedores.

14 Vigilância Variável Dilema bias/variância Individual
Freqüência relativa de ativação (RFA) Inversa da média relativa de ativação (RIAA) A escolha de uma vigilância individual deve-se ao fato de que os neurônios da camada F2 têm diferentes comportamentos, armazenando diferentes números de padrões e, como conseqüência, têm diferentes saídas. Além disso, em algumas classes há mais variações intraclasses que em outras, levando a um diferente número de neurônios da camada F2 associados com cada classe, favorecendo algumas classes na fase de reconhecimento. A freqüência relativa de ativação (RFA) define a relação entre a freqüência do neurônio i e a freqüência de todos os neurônios em sua classe correspondente. Toda vez que o neurônio i é ativado, sua freqüência relativa de ativação é incrementada e as outras freqüências relativas são decrementadas. O uso da inversa da média relativa de ativação (RIAA) tem como meta ajustar a vigilância de um neurônio de acordo com sua média de ativação. Caso um neurônio tenha uma média de ativação baixa, conseqüentemente tende a ter generalização excessiva. Neste caso, sua vigilância é incrementada, deixando o neurônio mais rigoroso na seleção. Por outro lado, se a média de ativação é alta, o neurônio é muito rigoroso e não é ativado muitas vezes. Logo que o padrão de entrada é passado para a camada F1 em ARTa, a vigilância de cada neurônio é calculada de acordo com a média e a freqüência de ativação.

15 RECOMPENSA/PUNIÇÃO Vencedores => recompensa
Perdedores => punição Má classificação O parâmetro de recompensa é usado para os neurônios do grupo de vencedores no cálculo das saídas dos neurônios do módulo de mapeamento. A magnitude da recompensa depende da posição do neurônio no grupo de vencedores, com o primeiro vencedor (que é o neurônio com a maior saída), tendo a maior recompensa Um processo análogo é executado com o grupo de perdedores usando o parâmetro de punição. A intensidade da punição de um neurônio depende da sua posição em um senso inverso, com o primeiro perdedor (com a maior saída) tendo a menor punição

16 APRENDIZAGEM Semelhante ao FA e AIC Diferença básica => cálculo das
vigilâncias de todos os neurônios

17 RECONHECIMENTO Neurônios F2 de ARTa Ranking dos neurônios
Divisão em vencedores e perdedores Neurônios Map Field => duas fases Durante a fase de reconhecimento, logo que os dois módulos ART tenham produzido suas saídas, uma associação entre estas saídas é empregada. Primeiramente, o neurônio vencedor do módulo de mapeamento é calculado, levando em consideração a saída do módulo ARTa Classificação dos neurônios da camada F2 de acordo o com suas saídas, do neurônio com saída com maior saída (com maior grau de similaridade) para o neurônio com saída com menor saída (com menor grau de similaridade); Divisão dos neurônios em dois grupos: Vencedores, grupo composto dos primeiros NumWin neurônios mais similares; e Perdedores: grupo composto dos neurônios remanescentes O cálculo da saída dos neurônios do módulo de mapeamento é dividida em duas partes, a primeira usando o grupo de vencedores e a segunda usando o grupo de perdedores.

18 NEURÔNIOS MAP FIELD

19 Comitês de Classificadores (1/4)
M n Módulo Combinador de Decisão Padrão Desconhecido Decisão Final Combinar classificadores explora a idéia de que diferentes classificadores podem oferecer informações complementares sobre padrões a serem classificados, melhorando a efetividade do processo de reconhecimento como um todo, aumentando a capacidade de generalização e, consequentemente, o desempenho do sistema como um todo Um sistema multi-classificador agrupa um conjunto de classificadores, cada um dos quais sendo uma função de aproximação geral, seguido por um módulo combinador. As decisões dos classificadores individuais são entrada para o módulo combinador, implementando assim um método de combinação de decisão. O módulo combinador gera uma única saída combinada.

20 Comitês de Classificadores(2/4)
Como combinar as saídas dos classificadores? Como criar os classificadores membros do comitê? Que métodos levam a comitês mais efetivos?

21 Comitês de Classificadores (3/4)
Boosting Processo incremental Atribuição de pesos aos padrões de treinamento A cada passo do boosting, a distribuição do conjunto de treinamento é alterado Variações: Aggressive Conservative Inverse As técnicas usadas para definir a estrutura de um sistema multi-neural podem ser classificadas sob três abordagens: ensemble, modular e híbrida

22 Comitês de Classificadores (4/4)
Diversidade Diferença de generalização Não há vantagens em se combinar classificadores idênticos (que generalizem da mesma forma) Medidas de diversidade As técnicas usadas para definir a estrutura de um sistema multi-neural podem ser classificadas sob três abordagens: ensemble, modular e híbrida 22

23 Experimentos (1/5) Bases de dados Breast-Cancer Database
Satimage Database

24 Experimentos (2/5) Métodos de combinação Soma Árvore de decisão MLP
RBF Naive Bayesian KNN SVM 24

25 Experimentos (3/5) Boosting Agressive Boosting Conservative Boosting
Inverse Boosting

26 Experimentos (4/5) Validação cruzada : 10 grupos Teste de Hipótese
T-teste de variância combinada Comitês Homogêneos e Heterogêneos 3, 6, 12, 24 e 48 classificadores base Diferentes tipos de classificadores 0, 33, 66 e 100% RePART

27 Experimentos (3/5) Medidas de diversidade Medida de Entropia
Q-estatístico Medida de Desacordo Medida de Dupla-Falha 27

28 Resultados Experimentais
Classificadores Individuais RePART apresentou uma taxa de erro estatisticamente inferior à do Artmap-IC e Fuzzy Artmap, mesmo com uma complexidade de 30% a menos. O aumento no número de classificadores ocasionou um aumento no erro médio BreastCancer Satimage 28

29 Resultados Experimentais
Individuais vs. Comitês Os comitês com 3, 6, 12, 24 e 48 classificadores base apresentaram uma taxa de erro inferior aos classificadores individuais. Verificou-se significância estatística dos comitês com relação ao Fuzzy Artmap e Artmap-IC Com relação ao RePART verificou-se significância estatística apenas em alguns casos 29

30 Resultados Experimentais
3 Classificadores base Menor Taxa de Erro: Naive Bayesian Influência significante do RePART : Base de Câncer: SVM e Soma Base SatImage: Naïve Bayesian, KNN e RBF Maior Impacto do RePART: Soma (Câncer) e RBF(SatImage) BreastCancer Satimage 30

31 Resultados Experimentais
3 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 31

32 Resultados Experimentais
3 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 3 classificadores base melhorou o desempenho BreastCancer Satimage 32

33 Resultados Experimentais
6 Classificadores base Menor Taxa de Erro: Naive Bayesian e Influência significante do RePART : Base de Câncer: MLP, SVM e Soma Base SatImage: Naive Bayesian , SVM, RBF e Soma Maior Impacto do RePART: Soma (Câncer) e RBF (SatImage) BreastCancer Satimage 33

34 Resultados Experimentais
6 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 34

35 Resultados Experimentais
6 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 6 classificadores base melhorou o desempenho BreastCancer Satimage 35

36 Resultados Experimentais
12 Classificadores base Menor Taxa de Erro: Naive Bayesian Influência significante do RePART : Base de Câncer: MLP e Soma Base SatImage: Naive Bayesian , MLP, e Árvore de decisão Maior Impacto do RePART: Soma (Câncer) e MLP(SatImage) BreastCancer Satimage 36

37 Resultados Experimentais
12 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 37

38 Resultados Experimentais
12 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 12 classificadores base melhorou o desempenho BreastCancer Satimage 38

39 Resultados Experimentais
24 Classificadores base Menor Taxa de Erro: Naive Bayesian(Câncer) e SVM(SatImage) Influência significante do RePART : Base de Câncer: MLP, RBF, SVM e Soma Base SatImage: Árvore de decisão Maior Impacto do RePART: Soma (Câncer) e MLP(SatImage) BreastCancer Satimage 39

40 Resultados Experimentais
24 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 40

41 Resultados Experimentais
24 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 24 classificadores base melhorou o desempenho BreastCancer Satimage 41

42 Resultados Experimentais
48 Classificadores base Menor Taxa de Erro: Naive Bayesian e RBF(Câncer) e SVM(SatImage) Influência significante do RePART : Base de Câncer: MLP, SVM e Soma Base SatImage: Árvore de decisão e MLP Maior Impacto do RePART: Soma (Câncer) e MLP(SatImage) BreastCancer Satimage 42

43 Resultados Experimentais
48 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 43

44 Resultados Experimentais
48 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 48 classificadores base melhorou o desempenho BreastCancer Satimage 44

45 Resultados Experimentais
Homogêneos vs. Heterogêneos Em geral, comitês Heterogêneos apresentam taxa de erro inferior à taxa dos Homogêneos O aumento no número de tipos de classificadores base ocasionou aumento na diversidade BreastCancer Satimage 45

46 Resultados Experimentais
Aggressive, Conservative e Inverse Menor taxa de erro: Câncer: Conservative, Inverse e Aggressive SatImage: Aggressive, Conservative e Inverse Bases com características distintas Houve pouca variação no grau de diversidade apresentado pelas três variações do Boosting BreastCancer Satimage 46

47 Resultados Experimentais
Número de Classificadores base O aumento no número de classificadores base ocasiona diminuição na taxa de erro Ao aumentar demasiadamente as melhorias começão a degenerar Comportamento da diversidade bastante semelhante em ambas as bases de dados BreastCancer Satimage 47

48 Resultados Experimentais
Número de Classificadores base Entropia: aumento no grau de diversidade Dupla-falha: redução no grau de diversidade O aumento no número de classificadores aumenta a probabilidade dos classificadores apresentarem o mesmo resultado BreastCancer Satimage 48

49 Resultados Experimentais
Influência do RePART A inclusão do RePART ocasionou uma diminuição na taxa de erro Aumento no grau de diversidade: Entropia, Q-Estatístico e desacordo Redução no grau de diversidade: Dupla-falha BreastCancer Satimage 49

50 Considerações Finais Combinar classificadores ARTMAP melhorou os resultados em relação aos classificadores Individuais Comitês Heterogêneos em geral apresentam desempenho e grau de diversidade superior aos Comitês Homogêneos O aumento no número de classificadores base causou uma diminuição na taxa de erro e aumento no grau de diversidade Ao aumentar demasiadamente o número de classificadores o desempenho é degenerado

51 Considerações Finais As três variantes do boosting apresentaram resultados bastante semelhantes Comitês com maior grau de diversidade em geral apresentam taxa de erro igual ou inferior aos comitês com menor grau de diversidade O RePART influência positivamente o desempenho de comitês compostos por classificadores ARTMAP

52 Considerações Finais As três variantes do boosting apresentaram resultados bastante semelhantes Comitês com maior grau de diversidade em geral apresentam taxa de erro igual ou inferior aos comitês com menor grau de diversidade O RePART influência positivamente o desempenho de comitês compostos por classificadores ARTMAP

53 Trabalhos Futuros Realizar uma investigação interclasse, ou seja, utilizando comitês que apresentam além dos modelos baseados no ARTMAP, modelos de redes neurais de outras classes, como por exemplo o Fuzzy MLP; Realizar uma investigação mais aprofunda acerca da relação entre a diversidade e a acurácia dos comitês, assim como buscar novos métodos de quantificar e analisar a diversidade sob a ótica da influência na acurácia de comitês Realizar um estudo mais aprofundado para identificar qual das variantes do boosting apresentam melhorias mais significativas no desempenho de comitês

54 FIM


Carregar ppt "Araken de Medeiros Santos Anne Magály de Paula Canuto"

Apresentações semelhantes


Anúncios Google