Araken de Medeiros Santos Anne Magály de Paula Canuto

Slides:



Advertisements
Apresentações semelhantes
Agenda Introdução Justificativa Objetivo Detecção de Spam
Advertisements

Aprendizado de Máquina
Redes Neurais Artificiais (RNA): Aprendizado
RECONHECIMENTO DE CARACTERES MANUSCRITOS APLICANDO REDES NEURAIS
REDES NEURONAIS ARTIFICIAIS (RNAs) Universidade do Minho.
Araken de Medeiros Santos
Adaptive Resonance Theory Carpenter & Grossberg
Backpropagation Through Time
AULA 03 PERCEPTRON SIMPLES.
Aprendizado de Máquina
Redes Neurais Artificiais
Prof. Júlio Cesar Nievola
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Aprendizagem Viviane Torres da Silva
Reconhecimento de Padrões Tipos de Aprendizagem
Iana Alexandra Alves Rufino
Modelagem e simulação de sistemas
Redes Neurais (Conceitos Fundamentais)
Germano C. Vasconcelos Centro de Informática - UFPE
Inteligência Artificial
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Inteligência Artificial Redes Neurias
J. Landeira-Fernandez Ética e Ciência
A Framework for Robots Development and Programming Based on Genetic Algorithms Palmeira P.F.M Silvino J.S. de Melo J.C.D DEE-UFMG DELT-UFMG.
Aprendizado de Máquina
Aprendizado de Máquina Aula 13
Aprendizado de Máquina Aula 8
Redes Neurais Auto-organizáveis
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
K-NN Prof. Dr. Rogério Vargas.
A Hybrid Method for Robust Car Plate Character Recognition.
Pressuposições do Modelo Estatístico e Transformação de Dados
Redes Neurais Prof. Alex F. V. Machado.
Redes Bayesianas - Aplicação em Risco Operacional
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Uma Abordagem Híbrida Fuzzy-Bayesiana para Modelagem de Incertezas
Redes Neuronais/Neurais/ Conexionistas Introdução
Aula 19 – Método Gespública MPOG Prof Júlio Andrade Fonte: MPOG – GesPublica, “Guia de Indicadores”, Brasília – DF, 2010.
Exercício - 1. Criar no SPSS o banco de dados com as informações fornecidas 2. Salvar o banco com o nome atividade física na pasta pos pilates 3.
Aula 5 - Método experimental ou de seleção aleatória
Aula 10 Medidas de dispersão Prof. Diovani Milhorim
Extração de Regras de RNA Wilian Soares Lacerda Fevereiro de 2003.
Aula 11 - Teste de hipóteses, teste de uma proporção
Estatística e Probabilidade
RNA – Radial Basis Function
ANOVA II.
Redes Neurais Artificiais. Introdução RNA são modelos matemáticos que se assemelham às estruturas neurais biológicas Capacidade computacional adquirida.
José Reinaldo Lemes Júnior Orientador: Prof. Wilian Soares Lacerda.
Uma Introdução a SVM Support Vector Machines
Prof. Anne Magály de Paula Canuto
Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting.
Implementação de uma arquitetura de Redes Neurais MLP utilizando FPGA
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Redes Neurais Treinamento de MLP. Treinamento Divisão das entradas Parâmetros de treinamento –350 iterações –Nº de nós da camada interna (26, 46, 92)
Luana Bezerra Batista Redes Neurais Luana Bezerra Batista
Redes Neurais Artificiais
Classificação de Textos
Separatrizes Quartis Decis Percentis TIPOS:
O Que São as Redes Neurais Artificiais
Inteligência Artificial
Testes de Hipóteses.
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Redes Neurais Artificiais (Parte 2)
©2005 Germano C.Vasconcelos Projeto da Disciplina Germano C. Vasconcelos Centro de Informática - UFPE.
1 Projeto Híbrido de Redes Neurais Ricardo Bastos C. Prudêncio Orientação: Teresa B. Ludermir CIn - UFPE Jan
Autor : Lênin Charqueiro. Pelotas,8 de março de
Transcrição da apresentação:

Araken de Medeiros Santos Anne Magály de Paula Canuto Uma Análise da aplicaçãp do Modelo de Rede Neural RePART em Comitês de Classificadores Araken de Medeiros Santos Anne Magály de Paula Canuto Orientadora

ROTEIRO Trabalhos anteriores Motivação Objetivos Redes Neurais e Comitês Metodologia dos experimentos Análise dos resultados experimentais Considerações Finais Trabalhos Futuros

TRABALHOS ANTERIORES Análise comparativa do desempenho do RePART com o FA, AIC e MLP RePART Estrutura menos complexa Desempenho igual ou superior aos demais modelos

MOTIVAÇÃO Qual o comportamento do RePART em Comitês de classificadores?

OBJETIVOS Definir o impacto, em termos de acurácia, que a utilização do RePART em comitês utilizando modelos ARTMAP

OBJETIVOS Análises adicionais em termos de: Número de classificadores base Número de tipos de classificadores base Estratégias de aprendizado de comitês Relacionamento entre acurácia e diversidade

ART (Adaptive Resonance Theory) Dilema estabilidade-plasticidade RNA incremental Grau de similaridade Aprendizagem não-supervisionada Surgiu como resultado da tentativa de compreender como sistemas biológicos são capazes de continuar aprendendo, sem comprometer a estabilidade de padrões previamente aprendidos Estabilidade-Plasticidade: como projetar um sistema capaz de sempre se adaptar em resposta a padrões significativos e ao mesmo tempo ser indiferente a padrões irrelevantes Sistema capaz de aprender conhecimentos novos preservando o conhecimento previamente adquirido e evitando que um novo conhecimento se sobreponha a conhecimentos prévios Incremental: capaz de aumentar sua complexidade a medida que novos padrões são apresentados. Não precisa recomeçar seu treinamento do ponto inicial cada vez que novos padrões de entrada aparecem, preservando o conhecimento previamente adquirido Tenta controlar o grau de similaridade entre o padrão apresentado e um padrão padrão previamente aprendido pela rede ultrapassar um determinado patamar. Não supervisionado: quando um novo padrão não se enquadra a qualquer grupo de padrões existentes forma-se um novo grupo

ART x Fuzzy ART Mesma estrutura ART => teoria dos conjuntos clássica Fuzzy ART => teoria dos conjuntos fuzzy Cálculo dos neurônios F2 O Fuzzy ART possui a mesma estrutura do ART A diferença é que ao invés de utilizar a teoria dos conjuntos clássica como no ART, O Fuzzy ART utiliza a teoria dos conjuntos fuzzy. Esta diferença ocorre no processamento dos neurônios de saída, que é utilizado o AND Fuzzy ao invés do AND booleano ART => AND booleano (x*y) Fuzzy ART => AND fuzzy [min(x, y)]

ARTMAP/Fuzzy ARTMAP Dois módulos ART/Fuzzy ART Map Field ARTa => padrão de entrada ARTb => saída desejada Map Field Aprendizagem supervisionada Diferente do modelo ART, usa um processo de aprendizagem supervisionada, uma Vez que tanto a entrada quanto a saída desejadas são conhecidas Composta de dois módulos ART, um para processamento do vetor de entrada e Outro para processamento da saída desejada, assim como um módulo de mapemaneto Usado para formar associações entre os neurônios dos dois módulos ART Processo de aprendizagem baseado na similaridade entre o padrão de entrada e os pesos Do neurônios da camada de saída em ARTa

ESTRUTURA DO ARTMAP Wj I = (a, 1-a) a b J = (b, 1-b) Cada neurônio do módulo ARTa é conectado a todos os neurônios do módulo de mapeamento através de pesos, que são ajustados durante a fase de aprendizagem Durante a fase de reconhecimento, assim que os dois módulos ART produzem suas Saídas, é feita uma associação entre essas saídas. Depois, calculados os valores dos Neurônios do módulo de mapeamento, levando-se em consideração as saídas do Módulo ARTa Depois que o neurônio vencedor do módulod e mapeamento é escolhido, uma associação entre o vencedor do módulo ARTb e o módulo de mapeamento é criada Vantagens desse tipo de aprendizagem: Fácil extração de conhecimento: a representação de associações entre padrões é alcançada Por neurônios individuais, facilitando a extração de regras, permitindo uma melhor Compreensão e interpretação de seu conhecimento Inexistência de esquecimento catastrófico: incrementam dinamicamente o número de Neurônios -Rápida aprendizagem: normalmente requer somente uma iteração através dos dados

PROBLEMAS DO ARTMAP Sensibilidade a ruídos Proliferação de categoria Má classificação (1 vencedor) Proliferação de categorias: conseqüência direta da sensibilidade a ruídos presente nos modelos baseados no ARTMAP durante a fase de aprendizagem. Caso a magnitude do ruído no padrão seja elevado, pode-se gerar muitos neurônios, tornando a rede muito complexa Má classificação: Também conseqüência da sensibilidade a ruídos, só que desta vez durante a fase de reconhecimento. Durante as fase de aprendizagem e reconhecimento, somente o neurônio com a maior saída é escolhido como vencedor. Assim, durante a fase de reconhecimento um padrão de entrada com ruído pode levar a seleção de uma categoria de neurônio errada

ARTMAP-IC Mesmo processo de aprendizagem Melhorias na fase de reconhecimento Suavizar o problema de má classificação Codificação distribuída (grupo de vencedores) Parâmetro contador de instância Uso de um grupo de vencedores para produzir o resultado final da rede, ou seja, no cálculo dos neurônios do módulo de mapeamento são levados em consideração os neurônios do módulo ARTa com as maiores saídas Tem como objetivo evitar o problema de má classificação Distribui predição de acordo com o número de entradas do grupo de treinamento classificadas por cada neurônio da camada de saída do módulo ARTa É a freqüência de ativação de cada neurônio da camada de saída durante a fase de aprendizagem Durante a fase de reconhecimento, o contador de instância é usado para encontrar o Neurônio vencedor da camada de saída

RePART Suavizar problemas de proliferação de categoria e má classificação Codificação distribuída (grupo de vencedores + grupo de perdedores) Parâmetro contador de instância Mecanismos Adicionais: Vigilância variável individual (proliferação de jhcategorias) Recompensa/Punição (má classificação) -Versão mais sofisticada do Fuzzy ARTMAP Tenta suavizar os problemas de proliferação de categorias e de má classificação através do uso de codificação distribuída, do parâmetro contador de instância e de outros mecanismos adicionais como: vigilância variável individual e um processo de recompensa e punição. A escolha do parâmetro de vigilância é muito importante para o desenvolvimento das redes baseadas no ARTMAP e é conhecido como o dilema de bias/variancia Quando o parâmetro de vigilância é ajustado para um valor muito baixo, a estrutura da rede tende a ser pequena demais, tornando a rede tendenciosa a certos padrões (generalização excessiva). Se o parâmetro de vigilância é ajustado para um valor muito elevado, a complexidade da rede tende a ser excessivamente elevada, ocasionando uma pobre generalização. No RePART para evitar esse problema, adota-se o uso de uma vigilância variável que ajusta-se dinamicamente durante o processo de aprendizagem para melhor representar os padrões. O mecanismo de recompensa/punição é utilizado como forma de recompensar o grupo de vencedores e punir o grupo de perdedores.

Vigilância Variável Dilema bias/variância Individual Freqüência relativa de ativação (RFA) Inversa da média relativa de ativação (RIAA) A escolha de uma vigilância individual deve-se ao fato de que os neurônios da camada F2 têm diferentes comportamentos, armazenando diferentes números de padrões e, como conseqüência, têm diferentes saídas. Além disso, em algumas classes há mais variações intraclasses que em outras, levando a um diferente número de neurônios da camada F2 associados com cada classe, favorecendo algumas classes na fase de reconhecimento. A freqüência relativa de ativação (RFA) define a relação entre a freqüência do neurônio i e a freqüência de todos os neurônios em sua classe correspondente. Toda vez que o neurônio i é ativado, sua freqüência relativa de ativação é incrementada e as outras freqüências relativas são decrementadas. O uso da inversa da média relativa de ativação (RIAA) tem como meta ajustar a vigilância de um neurônio de acordo com sua média de ativação. Caso um neurônio tenha uma média de ativação baixa, conseqüentemente tende a ter generalização excessiva. Neste caso, sua vigilância é incrementada, deixando o neurônio mais rigoroso na seleção. Por outro lado, se a média de ativação é alta, o neurônio é muito rigoroso e não é ativado muitas vezes. Logo que o padrão de entrada é passado para a camada F1 em ARTa, a vigilância de cada neurônio é calculada de acordo com a média e a freqüência de ativação.

RECOMPENSA/PUNIÇÃO Vencedores => recompensa Perdedores => punição Má classificação O parâmetro de recompensa é usado para os neurônios do grupo de vencedores no cálculo das saídas dos neurônios do módulo de mapeamento. A magnitude da recompensa depende da posição do neurônio no grupo de vencedores, com o primeiro vencedor (que é o neurônio com a maior saída), tendo a maior recompensa Um processo análogo é executado com o grupo de perdedores usando o parâmetro de punição. A intensidade da punição de um neurônio depende da sua posição em um senso inverso, com o primeiro perdedor (com a maior saída) tendo a menor punição

APRENDIZAGEM Semelhante ao FA e AIC Diferença básica => cálculo das vigilâncias de todos os neurônios

RECONHECIMENTO Neurônios F2 de ARTa Ranking dos neurônios Divisão em vencedores e perdedores Neurônios Map Field => duas fases Durante a fase de reconhecimento, logo que os dois módulos ART tenham produzido suas saídas, uma associação entre estas saídas é empregada. Primeiramente, o neurônio vencedor do módulo de mapeamento é calculado, levando em consideração a saída do módulo ARTa Classificação dos neurônios da camada F2 de acordo o com suas saídas, do neurônio com saída com maior saída (com maior grau de similaridade) para o neurônio com saída com menor saída (com menor grau de similaridade); Divisão dos neurônios em dois grupos: Vencedores, grupo composto dos primeiros NumWin neurônios mais similares; e Perdedores: grupo composto dos neurônios remanescentes O cálculo da saída dos neurônios do módulo de mapeamento é dividida em duas partes, a primeira usando o grupo de vencedores e a segunda usando o grupo de perdedores.

NEURÔNIOS MAP FIELD

Comitês de Classificadores (1/4) M n Módulo Combinador de Decisão Padrão Desconhecido Decisão Final Combinar classificadores explora a idéia de que diferentes classificadores podem oferecer informações complementares sobre padrões a serem classificados, melhorando a efetividade do processo de reconhecimento como um todo, aumentando a capacidade de generalização e, consequentemente, o desempenho do sistema como um todo Um sistema multi-classificador agrupa um conjunto de classificadores, cada um dos quais sendo uma função de aproximação geral, seguido por um módulo combinador. As decisões dos classificadores individuais são entrada para o módulo combinador, implementando assim um método de combinação de decisão. O módulo combinador gera uma única saída combinada.

Comitês de Classificadores(2/4) Como combinar as saídas dos classificadores? Como criar os classificadores membros do comitê? Que métodos levam a comitês mais efetivos?

Comitês de Classificadores (3/4) Boosting Processo incremental Atribuição de pesos aos padrões de treinamento A cada passo do boosting, a distribuição do conjunto de treinamento é alterado Variações: Aggressive Conservative Inverse As técnicas usadas para definir a estrutura de um sistema multi-neural podem ser classificadas sob três abordagens: ensemble, modular e híbrida

Comitês de Classificadores (4/4) Diversidade Diferença de generalização Não há vantagens em se combinar classificadores idênticos (que generalizem da mesma forma) Medidas de diversidade As técnicas usadas para definir a estrutura de um sistema multi-neural podem ser classificadas sob três abordagens: ensemble, modular e híbrida 22

Experimentos (1/5) Bases de dados Breast-Cancer Database Satimage Database

Experimentos (2/5) Métodos de combinação Soma Árvore de decisão MLP RBF Naive Bayesian KNN SVM 24

Experimentos (3/5) Boosting Agressive Boosting Conservative Boosting Inverse Boosting

Experimentos (4/5) Validação cruzada : 10 grupos Teste de Hipótese T-teste de variância combinada Comitês Homogêneos e Heterogêneos 3, 6, 12, 24 e 48 classificadores base Diferentes tipos de classificadores 0, 33, 66 e 100% RePART

Experimentos (3/5) Medidas de diversidade Medida de Entropia Q-estatístico Medida de Desacordo Medida de Dupla-Falha 27

Resultados Experimentais Classificadores Individuais RePART apresentou uma taxa de erro estatisticamente inferior à do Artmap-IC e Fuzzy Artmap, mesmo com uma complexidade de 30% a menos. O aumento no número de classificadores ocasionou um aumento no erro médio BreastCancer Satimage 28

Resultados Experimentais Individuais vs. Comitês Os comitês com 3, 6, 12, 24 e 48 classificadores base apresentaram uma taxa de erro inferior aos classificadores individuais. Verificou-se significância estatística dos comitês com relação ao Fuzzy Artmap e Artmap-IC Com relação ao RePART verificou-se significância estatística apenas em alguns casos 29

Resultados Experimentais 3 Classificadores base Menor Taxa de Erro: Naive Bayesian Influência significante do RePART : Base de Câncer: SVM e Soma Base SatImage: Naïve Bayesian, KNN e RBF Maior Impacto do RePART: Soma (Câncer) e RBF(SatImage) BreastCancer Satimage 30

Resultados Experimentais 3 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 31

Resultados Experimentais 3 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 3 classificadores base melhorou o desempenho BreastCancer Satimage 32

Resultados Experimentais 6 Classificadores base Menor Taxa de Erro: Naive Bayesian e Influência significante do RePART : Base de Câncer: MLP, SVM e Soma Base SatImage: Naive Bayesian , SVM, RBF e Soma Maior Impacto do RePART: Soma (Câncer) e RBF (SatImage) BreastCancer Satimage 33

Resultados Experimentais 6 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 34

Resultados Experimentais 6 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 6 classificadores base melhorou o desempenho BreastCancer Satimage 35

Resultados Experimentais 12 Classificadores base Menor Taxa de Erro: Naive Bayesian Influência significante do RePART : Base de Câncer: MLP e Soma Base SatImage: Naive Bayesian , MLP, e Árvore de decisão Maior Impacto do RePART: Soma (Câncer) e MLP(SatImage) BreastCancer Satimage 36

Resultados Experimentais 12 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 37

Resultados Experimentais 12 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 12 classificadores base melhorou o desempenho BreastCancer Satimage 38

Resultados Experimentais 24 Classificadores base Menor Taxa de Erro: Naive Bayesian(Câncer) e SVM(SatImage) Influência significante do RePART : Base de Câncer: MLP, RBF, SVM e Soma Base SatImage: Árvore de decisão Maior Impacto do RePART: Soma (Câncer) e MLP(SatImage) BreastCancer Satimage 39

Resultados Experimentais 24 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 40

Resultados Experimentais 24 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 24 classificadores base melhorou o desempenho BreastCancer Satimage 41

Resultados Experimentais 48 Classificadores base Menor Taxa de Erro: Naive Bayesian e RBF(Câncer) e SVM(SatImage) Influência significante do RePART : Base de Câncer: MLP, SVM e Soma Base SatImage: Árvore de decisão e MLP Maior Impacto do RePART: Soma (Câncer) e MLP(SatImage) BreastCancer Satimage 42

Resultados Experimentais 48 Classificadores base Comitê com RePART apresentaram taxa de erro estatisticamente inferior aos que não possuem RePART BreastCancer Satimage 43

Resultados Experimentais 48 Classificadores base A influência do RePART na diminuição do erro médio dos comitês é estatisticamente significante O uso do RePART em comitês com 48 classificadores base melhorou o desempenho BreastCancer Satimage 44

Resultados Experimentais Homogêneos vs. Heterogêneos Em geral, comitês Heterogêneos apresentam taxa de erro inferior à taxa dos Homogêneos O aumento no número de tipos de classificadores base ocasionou aumento na diversidade BreastCancer Satimage 45

Resultados Experimentais Aggressive, Conservative e Inverse Menor taxa de erro: Câncer: Conservative, Inverse e Aggressive SatImage: Aggressive, Conservative e Inverse Bases com características distintas Houve pouca variação no grau de diversidade apresentado pelas três variações do Boosting BreastCancer Satimage 46

Resultados Experimentais Número de Classificadores base O aumento no número de classificadores base ocasiona diminuição na taxa de erro Ao aumentar demasiadamente as melhorias começão a degenerar Comportamento da diversidade bastante semelhante em ambas as bases de dados BreastCancer Satimage 47

Resultados Experimentais Número de Classificadores base Entropia: aumento no grau de diversidade Dupla-falha: redução no grau de diversidade O aumento no número de classificadores aumenta a probabilidade dos classificadores apresentarem o mesmo resultado BreastCancer Satimage 48

Resultados Experimentais Influência do RePART A inclusão do RePART ocasionou uma diminuição na taxa de erro Aumento no grau de diversidade: Entropia, Q-Estatístico e desacordo Redução no grau de diversidade: Dupla-falha BreastCancer Satimage 49

Considerações Finais Combinar classificadores ARTMAP melhorou os resultados em relação aos classificadores Individuais Comitês Heterogêneos em geral apresentam desempenho e grau de diversidade superior aos Comitês Homogêneos O aumento no número de classificadores base causou uma diminuição na taxa de erro e aumento no grau de diversidade Ao aumentar demasiadamente o número de classificadores o desempenho é degenerado

Considerações Finais As três variantes do boosting apresentaram resultados bastante semelhantes Comitês com maior grau de diversidade em geral apresentam taxa de erro igual ou inferior aos comitês com menor grau de diversidade O RePART influência positivamente o desempenho de comitês compostos por classificadores ARTMAP

Considerações Finais As três variantes do boosting apresentaram resultados bastante semelhantes Comitês com maior grau de diversidade em geral apresentam taxa de erro igual ou inferior aos comitês com menor grau de diversidade O RePART influência positivamente o desempenho de comitês compostos por classificadores ARTMAP

Trabalhos Futuros Realizar uma investigação interclasse, ou seja, utilizando comitês que apresentam além dos modelos baseados no ARTMAP, modelos de redes neurais de outras classes, como por exemplo o Fuzzy MLP; Realizar uma investigação mais aprofunda acerca da relação entre a diversidade e a acurácia dos comitês, assim como buscar novos métodos de quantificar e analisar a diversidade sob a ótica da influência na acurácia de comitês Realizar um estudo mais aprofundado para identificar qual das variantes do boosting apresentam melhorias mais significativas no desempenho de comitês

FIM