A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting.

Apresentações semelhantes


Apresentação em tema: "Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting."— Transcrição da apresentação:

1 Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting baseado nos coeficientes de correlação entre os valores observados no conjunto de treinamento e nos valores obtidos por um algoritmo “base” de predição. A metodologia apresentada é uma modificação proposta para algoritmos de Boosting já existentes e aplicada à problemas de regressão. Para este trabalho, árvores de regressão foram utilizadas como algoritmo “base”. Os resultados obtidos foram comparados aos resultados obtidos através de Redes Neurais Artificiais, Árvores de Decisão, Bagging e os algoritmos de Boosting: AdaBoost.R e Adaboost.RT. Autores: Luzia Vidal de Souza – UFPR Aurora T. R. Pozo – UFPR Joel M.C. da Rosa –UFPR Introdução A técnica de Boosting é uma técnica de Aprendizado de Máquina utilizada para melhorar a acurácia dos algoritmos de classificação. A técnica consiste em efetuar repetidas execuções de um algoritmo de aprendizagem básico, modificando a distribuição de pesos no conjunto de treinamento e gerando uma combinação de preditores mais eficiente. Freund e Schapire (1996) propuseram uma nova versão conhecida como Adaboost. Este algoritmo ajusta um modelo logístico aditivo cujo número de funções usadas na representação aditiva é igual ao número de iterações. Várias outras versões desta técnica foram criadas, entre elas destacam-se os algoritmos AdaBoost.M1, AdaBoost.M2 e AdaBoost.R, este último para problemas de regressão. Este trabalho propõe o algoritmo Boosting Improvmet Correlation (BCI) que diferencia-se dos demais ao atualizar a ponderação na combinação de preditores através de uma medida de correlação entre preditos e observados, ao invés de medidas de erro de aproximação. Dado T = {x 1, x 2,..., x m } Inicializar o pesos na iteração 1 :P 1 (i) = 1/m, para todo x i Є T Para t = 1,...,T 1.Execute um algoritmo básico de aprendizado, e determine f t, preditor para a iteração t. 2.Calcule a perda para cada exemplo: onde y(x i ) são os valores observados. 3.Calcule o coeficiente de correlação entre f t (x i ) e y(x i ). 4.Faça a atualização dos pesos: Fim Para Saída Final: obter a combinação final dos preditores, F(x):, i = 1,..., m-1, i = m Figura 1 – Algoritmo BCI Conjuntos de Dados ObservaçõesTreinamentoTeste Número de Preditores Variável Resposta CPU209137726 Performanc e de CPU Housing50633716913 Valor de Moradia Auto-Mpg3982621367 Consumo de Combustivel Friedman #115009905105 Valores Artificiais Conclusões Com exceção da base CPU, o algoritmo BCI alcançou melhores resultados em todas as outras bases quando comparado com Árvores de Decisão, Bagging, Redes Neurais Artificiais e os algortimos AdaBoost.R e AdaBoost.RT. Entretanto a grande diferença entre as performances deve ser analisada cuidadosamente pois não foi utilizada nenhuma forma de regularização para tornar a comparação mais honestas. BasesBCIMT Baggin g ANN AdaBoost. R AdaBoost. RT CPU22,4834,6532,6413,9124,4526,52 Housing1,123,623,243,543,23 Auto-Mpg0,853,012,863,792,842,96 Friedman #10,702,192,061,511,821,72 Materiais e Métodos A abordagem proposta para o algoritmo da Figura 1, utiliza o coeficiente de correlação para atualização do vetor de pesos, o que influencia diretamente na minimização da função perda, pois este coeficiente fornece uma relação entre as variáveis em questão, que neste caso são valores previstos e valores observados no conjunto de treinamento. O mesmo coeficiente é também utilizado na combinação final dos preditores obtidos por um algoritmo básico. Para a avaliação deste novo método foi realizado um experimento de validação cruzada com 4 bases de dados já testadas por várias metodologias de regressão. Foram gerados 10 conjuntos de treinamento e teste em cada uma das bases e após rodar o algoritmo, os resultados foram avaliados fora da amostra através da raiz do erro quadrático médio (RMSE). Quadro 1 – Conjuntos de Dados Quadro 2 – Comparação do RMSE em 10 conjuntos de teste


Carregar ppt "Combinação de Preditores utilizando o Coeficiente de Correlação aplicado aos Problemas de Regressão Resumo Este trabalho apresenta um algoritmo de Boosting."

Apresentações semelhantes


Anúncios Google