A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.

Apresentações semelhantes


Apresentação em tema: "AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA."— Transcrição da apresentação:

1 AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.
Acadêmico: João Paulo Figueira do Nascimento Professor responsável: Reinaldo Viana Alvares INTRODUÇÃO Os Métodos de Avaliação A área de Recuperação de Informação (RI) foi criada para auxiliar no gerenciamento de grande volume de informações que vem sendo gerado nos últimos anos. Uma das principais ferramentas utilizadas para auxiliar nesse processo são os Algoritmos de Stemming. O processo de stemming consiste em reduzir variações de uma palavra para uma forma única, denominada stem, que de forma aproximada representa o conceito atrelado à palavra. O estudo dos desses algoritmos pode tornar mais eficiente o processo de busca e recuperação da informação. Neste traablho, é feita uma avaliação de três algoritmos projetados para a língua portuguesa, usando três métodos de avaliação encontrados na literatura. Foram utilizados os seguintes métodos: Manual, Redução do Vocabulário e o de Paice. A amostra, retirada de ALVARES et all, é composta por palavras . 1 1 Método Manual: um ser humano, define o stem de cada palavra. Após a execução do algoritmo, três medidas são obtidas: número de acertos; número de erros de overstemming e número de erros de understemming. Redução do Vocabulário: consiste em verificar em quanto um algoritmo foi capaz de reduzir o número de palavras da amostra. Método de Paice: a partir de uma amostra organizada em ‘grupos conceituais’, o método obtém quatro medidas: Overstemming Index (OI), Understemming Index (UI), Stemming Weight (SW) e Error Rate Relative to Truncation (ERRT). DESENVOLVIMENTO Resultados Os Algoritmos Removedor de Sufixos da Língua Portuguesa (RSLP): desenvolvido por ORENGO e HUYCK, composto por 8 fases, conforme Figura 01: Figura 01: RSLP (adaptado de FLORES) STEMBR: desenvolvido por Alvares et all composto por 4 fases, conforme Figura 02: Figura 02: STEMBR (adaptado de FLORES) SNOWBALL (SNB): Desenvolvido por Porter em 2001 sua versão para o português é composta por cinco fases, conforme Figura 03: Os resultados dos testes realizados podem ser observados nas Figuras 04, 05 e 06 a seguir: Figura 04: Método Manual. Figura 05: Redução do Vocabulário. Figura 06: Método de Paice. CONCLUSÕES O trabalho em avaliou três stemmers para a língua portuguesa, em uma amostra de 1500 palavras, usando três métodos: manual, redução do vocabulário, e o de Paice: No método manual, o STEMBR ficou praticamente empatado com o RSLP. O STEMBR apresentou mais erros de overstemming. Já o RSLP, maior quantidade de understemming;O SNOWBALL foi obteve o pior resultado nos testes; O SNOWBALL obteve maior redução do vocabulário; Pelo Método de Paice, o SNOWBALL obteve maiores índices de overstemming e understemming. Como trabalho futuro, cita-se aplicação dos algoritmos em uma amostra maior, bem como a realização de validação estatística dos resultados dos stemmers. Figura 03: Fluxograma do Snowball REFERÊNCIAS ALVARES,R.V.;GARCIA, A. C. B.; FERRAZ, I. STEMBR: A Stemming Algorithm for the Brazilian Portuguese Language. 2005, Springer. p CHAVES, M.S.; Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa.(Programa de Pós-Graduação em Ciência da Computação) – PUCRS, Porto Alegre. ORENGO, V. M.; HUYCK, C. R. A Stemming Algorithm for the Portuguese Languague. In: 8th International Symposium on String Processing and Information Retrieval (SPIRE). 2001, Laguna de San Raphael, Chile, p PAICE, C. D. An Evaluation Method for Stemming Algorithms. In: 17th ACM SIGIR Conference on Research and Development in Information Retrieval, W. B. Croft e C. J. Van Rijsbergen, Editors. 1994, ACM: Dublin, Ireland, p PORTER, M. F. Portuguese stemming algorithm Disponível em < Acesso em 30 de maio de 2010.


Carregar ppt "AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA."

Apresentações semelhantes


Anúncios Google