Caminhão, Motorista, Carga Cobra -> Animal, Réptil, Cobra Venenosa Computador -> Processador, CPU, Processamento">

A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

PUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera.

Apresentações semelhantes


Apresentação em tema: "PUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera."— Transcrição da apresentação:

1 PUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima

2 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 2 /28 O que será visto... Introdução aos conceitos de tesauro e relações semânticas; Objetivos deste trabalho; Recursos disponíveis; Estrutura multitesauro desenvolvida; Heurística de expansão de consultas implementada; Avaliação; Trabalhos relacionados; Considerações;

3 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 3 /28 O que é um tesauro? "É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999) Caminhoneiro -> Caminhão, Motorista, Carga Cobra -> Animal, Réptil, Cobra Venenosa Computador -> Processador, CPU, Processamento

4 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 4 /28 Relações semânticas da ISO 2788 Relação entre sinônimos –Entre Termos Preferenciais (TP) e Termos Não-Preferenciais (TNP). USE –TNP USE TP –Motorista de caminhão USE Caminhoneiro UF (Used For) –TP UF TNP –Caminhoneiro UF Motorista de caminhão

5 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 5 /28 Relações semânticas da ISO 2788 Relações entre TP Broader Term - BT –Automóvel BT Veículo Narrower Term - NT –Veículo NT Automóvel Related Term - RT –Automóvel RT Rodovia

6 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 6 /28 Objetivos deste trabalho Criar uma estrutura de tesauros que seja útil à Recuperação de Informação (RI). Demonstrar a possibilidade de utilização de múltiplos tesauros de forma conjunta (multitesauro) através da utilização de uma estrutura padrão.

7 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 7 /28 Recursos disponíveis Tesauros –LDPUCRS Lista de descritores da Biblioteca Ir. José Otão – PUCRS; –VCUSP Vocabulário Controlado da USP – Tesauro em CDROM; –VCBS Vocabulário Controlado Básico do Senado; –LTOCSS Lista de termos obtida por cálculo de similaridade sintática através das técnicas descritas por Gasperin (2001). Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994.

8 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 8 /28 Tesauros LDPUCRS, VCUSP, VCBS podem ser facilmente convertidos para a uma estrutura baseada na ISO 2788 Algumas informações presentes nos tesauros podem ser descartadas – Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática As relações semânticas do tesauro LTOCSS apresentam uma medida de similaridade entre os termos. –Como os significados das relações não são conhecidos, elas são associadas à relação RT da ISO 2788. Desenvolvimento da estrutura multitesauro

9 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 9 /28 LTOCSS ISO 2788 Utilize este termo quando for um aparelho com mídia em fita magnética. Estrutura multitesauro

10 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 10 /28 Estrutura aplicada a RI Desenvolvimento de um heurística de Expansão de Consulta –Objetivos: Utilizar a estrutura em uma aplicação de RI; Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação.

11 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 11 /28 Expansão de consulta? A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original. Documentos Relevantes Termo A Termo B Termo C

12 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 12 /28 O que é o QET? É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão. O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux.

13 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 13 /28 Carro Automóvel UF (0.8) Acidente de Trânsito RT (0.2) RT (0.2) Carro Automóvel UF (0.8) Acidente de Trânsito RT (0.2) Carro Automóvel UF (0.8) Heurística da Expansão Um termo t é adicionado à consulta expandida se o valor δ(t) for maior que um limiar λ proposto. O valor δ(t) é soma de todos valores β(t) > σ. A cada tipo de relação é atribuído um peso entre (0,1] β = 0.8 > σ ( 0.1 ) β = 0.16 > σ ( 0.1 ) β = 0.032 < σ ( 0.1 ) Acidente Acidente de Trânsito NT (0.6) δ = 0.6 + 0.16 > λ ( 0.6 )

14 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 14 /28 Medidas de avaliação Precisão: Recall: F-Measure: Corpus ac b Documentos Relevantes Documentos Recuperados

15 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 15 /28 Definição dos pesos para as relações Peso de RT altos diminuem a precisão Peso de BT elevado aumenta o recall mas reduz a precisão

16 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 16 /28 Avaliação Testes em corpus –Corpus do NILC de artigos diversos da folha de São Paulo do ano de 1994, com 1.323.700 palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente. –Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI. Verificação manual de relevância. Geração semi-automática de estatísticas. –Marcação de relevância para 13 assuntos.

17 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 17 /28 Recall

18 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 18 /28 Precisão

19 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 19 /28 F-Measure

20 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 20 /28 Avaliação Médias das 13 consultas MédiasPrecisãoRecallF-Measure Consulta Normal0,45630,23360,3090 Consulta Expandida0,38670,52470,4452 -15,25%+124,61%+44,08%

21 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 21 /28 Trabalhos Relacionados Sintichakis & Constantopoulus (1997) apresentam um método de efetuar a junção de tesauros monolíngües; Robin & Ramalho (2001) realizam a expansão de consultas com as relações de sinonímia e hiperonímia da WordNet. Tudhope et al. (2001) propõem uma técnica para medir a distância semântica entre termos utilizando diferentes pesos para as diferentes relações semânticas. Mandala et al. (1999) utilizam a WordNet, junto ao tesauro de Roget e outros tesauros gerados automaticamente, na expansão de consultas.

22 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 22 /28 Considerações A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido. O método de expansão apresenta bons resultados (F-Measure) e melhora a RI.

23 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 23 /28 Foco da Dissertação O desenvolvimento da estrutura multitesauro; A heurística utilizada na expansão de consulta implementada na ferramenta QET. Uma avaliação da utilização da estrutura na RI.

24 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 24 /28 Agradecimentos Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS Conselho Nacional de Pesquisa Científica Departamento Técnico do Sistema Integrado de Bibliotecas da USP Subsecretaria de Biblioteca do Senado Federal Biblioteca Central da PUCRS Núcleo Interinstitucional de Lingüistica Computacional

25 WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 25 /28 Referências GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul. 2001. ISO 2788. International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2 nd ed. Geneva: ISO, 1986. MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Complementing wordnet with roget's and corpus-based thesauri for information retrieval. In: 9th Conference Of The European Chapter Of The Association For Computational Linguistics (EACL'99), 1999. Proceedings.... 1999. p.94-101. MANDALA, Rila; TOKUNAGA, Takenobu; TANAKA, Hozumi. Combining multiple evidence from dierent types of thesaurus for query expansion. In: 22nd Annual International ACM SIGIR Conference On Research And Development In Information Retrieval, 1999. Proceedings.... ACM Press, 1999. p.191-197. ROBIN, J.; RAMALHO, F. S. Empirically evaluating WordNet-based query expansion in a web search engine setting. In: IR'2001, 2001,Oulu, Finland. Proceedings …. 2001. RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval. 1999. p75-98. SINTICHAKIS, Marios; CONSTANTOPOULOS, Panos. A method for monolingual thesauri merging. In: 20th International Conference On Research And Development In Information Retrieval, 1997. Proceedings.... 1997. p.129-138. TUDHOPE, Douglas; ALANI, Harith; JONES, Christopher. Augmenting thesaurus relationships: possibilities for retrieval. Journal of Digital Information, v.1, n.8, Fevereiro 2001.

26 PUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima{pizzato,vera}@inf.pucrs.br


Carregar ppt "PUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, 13-14 Novembro 2002 Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera."

Apresentações semelhantes


Anúncios Google