A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CLEI’2003, Montevidéu, Uruguai novembro de 2002

Apresentações semelhantes


Apresentação em tema: "CLEI’2003, Montevidéu, Uruguai novembro de 2002"— Transcrição da apresentação:

1 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima CLEI’2003, Montevidéu, Uruguai novembro de 2002

2 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Introdução Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações Tesauro Estrutura Multitesaural Recuperação de Informações (RI) Resultados obtidos CLEI’2003, Montevidéu, Uruguai novembro de 2002

3 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Tesauro? "É uma compilação ordenada de conceitos, com ênfase na associação entre eles, que serve, no campo da informação e da documentação, para indexação e recuperação em um dado domínio documentário" (Ruge, 1999) Caminhoneiro -> Caminhão, Motorista, Carga Cobra -> Animal, Réptil, Cobra Venenosa Computador -> Processador, CPU, Processamento CLEI’2003, Montevidéu, Uruguai novembro de 2002

4 Relações Semânticas da ISO 2788
Relação de Equivalência Sinonímia, Quase-sinonímia, Equivalentes Lexicais Computação USE Informática Relações Hierárquicas Hiponímia (Narrower Term) Mamífero NT Leão Hiperonímia (Broader Term) Leão BT Mamífero Relações Associativas Termos Relacionados Passageiro RT Automóvel CLEI’2003, Montevidéu, Uruguai novembro de 2002

5 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Multitesauro LDPUCRS Lista de descritores da Biblioteca Ir. José Otão – PUCRS; VCUSP Vocabulário Controlado da USP – Tesauro em CDROM; VCBS Vocabulário Controlado Básico do Senado; LTOCSS Tesauro construído automaticamente através do corpus do NILC da “Folha de São Paulo” do ano de 1994. Relações obtidas por cálculo de similaridade sintática através das técnicas descritas por Grefenstette (1994), adaptadas ao português por Gasperin (2001). CLEI’2003, Montevidéu, Uruguai novembro de 2002

6 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Características Tesauros LDPUCRS, VCUSP e VCBS: São facilmente convertidos para a uma estrutura baseada na ISO 2788; Apresentam informações que podem podem ser descartadas Scope Note (Notas de Escopo) são úteis para bibliotecários, mas não aparentam utilidade na RI automática Tesauro LTOCSS Como os significados das relações não são conhecidos, elas são associadas à relação RT da ISO 2788. As relações semânticas apresentam uma medida de similaridade entre os termos. CLEI’2003, Montevidéu, Uruguai novembro de 2002

7 Estrutura Multitesauro
<THESAURUS> <TERM term=“Eletroeletrônicos”> <TERM term=“Televisão”> <UF term=“TV”/> <RT term=“Audiência”/> <RT term=“Telespectador” value=“0.99”/> </TERM> <NT term=“Videocassete”/> </TERM> <TERM term=“Videocassete”> <SN>Utilize este termo quando for um aparelho com mídia em fita magnética.</SN> <BT term=“Eletroeletrônicos”/> </TERM> <TERM term=“Audiência”/> </THESAURUS> ISO 2788 LTOCSS CLEI’2003, Montevidéu, Uruguai novembro de 2002

8 Recuperação de Informações
Desenvolvimento de uma Heurística de Expansão de Consultas Utilizar a estrutura em uma aplicação de RI; Demonstrar que, através de uma estrutura padrão é possível a utilização conjunta de diferentes tesauros (multitesauro) por uma mesma aplicação. CLEI’2003, Montevidéu, Uruguai novembro de 2002

9 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Expansão de consulta? A adição de termos a uma consulta de forma que o conjunto de documentos relevantes encontrados seja maior que o conjunto da consulta original. Documentos Relevantes Termo C Termo A Termo B CLEI’2003, Montevidéu, Uruguai novembro de 2002

10 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
O que é o QET? É uma ferramenta de expansão de consulta (EC) que utiliza tesauros definidos de acordo com uma estrutura padrão. O nome QET é um acrônimo para Query Expansion Tool e a ferramenta teve seu desenvolvimento em Borland Kylix 2 - Open Edition sobre uma plataforma Linux. CLEI’2003, Montevidéu, Uruguai novembro de 2002

11 Heurística de Expansão de Consultas
Relação Semântica com pesos em [0,1) Acidente de Carro Automóvel UF (0.8) β = 0.8 Acidente de Trânsito RT (0.2) β = 0.16 Direção Perigosa RT (0.2) β = < σ (0.1) XXXXXXXXX CLEI’2003, Montevidéu, Uruguai novembro de 2002

12 Heurística de Expansão de Consultas
Acidente de Carro NT (0.6) Automóvel UF (0.8) Acidente de Trânsito RT (0.2) β = 0.16 β = 0.6 δ = > λ (0.7) CLEI’2003, Montevidéu, Uruguai novembro de 2002

13 Medidas de avaliação a c b Precisão: Recall: F-Measure: Corpus
Documentos Relevantes a c Documentos Recuperados b Precisão: Recall: F-Measure: CLEI’2003, Montevidéu, Uruguai novembro de 2002

14 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Avaliação Testes em corpus Corpus do NILC de artigos diversos da folha de São Paulo do ano de 1994, com palavras em 5093 artigos. Cada artigo corresponde a um arquivo diferente. Indexação e consulta aos arquivos realizada pela ferramenta ASPSeek, através de interface Web/CGI. Verificação manual de relevância. Geração semi-automática de estatísticas. Marcação de relevância para 13 assuntos. CLEI’2003, Montevidéu, Uruguai novembro de 2002

15 Definição dos pesos para as relações
Peso de RT altos diminuem a precisão Peso de BT elevado aumenta o recall mas reduz a precisão CLEI’2003, Montevidéu, Uruguai novembro de 2002

16 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Recall CLEI’2003, Montevidéu, Uruguai novembro de 2002

17 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Precisão CLEI’2003, Montevidéu, Uruguai novembro de 2002

18 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
F-Measure CLEI’2003, Montevidéu, Uruguai novembro de 2002

19 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Avaliação Médias das 13 consultas Médias Precisão Recall F-Measure Consulta Normal 0,4563 0,2336 0,3090 Consulta Expandida 0,3867 0,5247 0,4452 -15,25% +124,61% +44,08% CLEI’2003, Montevidéu, Uruguai novembro de 2002

20 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Considerações A estrutura tesaural desenvolvida possibilita a utilização conjunta de diferentes tipos de tesauros e demonstrou sua utilidade na RI através do método de expansão de consultas desenvolvido. O método de expansão apresenta bons resultados (F-Measure) e melhora a RI. CLEI’2003, Montevidéu, Uruguai novembro de 2002

21 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Trabalhos Futuros Indexação e recuperação de documentos no QET; Utilizar outros tipos de tesauros construídos automaticamente; Descobrir melhores valores para os parâmetros da heurística; CLEI’2003, Montevidéu, Uruguai novembro de 2002

22 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Foco do estudo O desenvolvimento da estrutura multitesauro; A heurística utilizada na expansão de consulta implementada na ferramenta QET. Uma avaliação da utilização da estrutura na RI. CLEI’2003, Montevidéu, Uruguai novembro de 2002

23 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Agradecimentos Artigo/projeto parcialmente suportado pelo convênio DELL/PUCRS Conselho Nacional de Pesquisa Científica Departamento Técnico do Sistema Integrado de Bibliotecas da USP Subsecretaria de Biblioteca do Senado Federal Biblioteca Ir. José Otão da PUCRS Núcleo Interinstitucional de Lingüística Computacional CLEI’2003, Montevidéu, Uruguai novembro de 2002

24 CLEI’2003, Montevidéu, Uruguai - 25-29 novembro de 2002
Referências GASPERIN, Caroline Varaschin. Extração automática de relações semânticas a partir de relações sintáticas. Dissertação de Mestrado. Faculdade de Informática da Pontifícia Universidade Católica do Rio Grande do Sul GREFENSTETTE, Gregory. Explorations in Automatic Thesaurus Discovery. EUA: Kluwer Academic Publishers p. ISO International Organization for Standardization. ISO 2788: Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO, 1986. RUGE, G. Combining Corpus Linguistics and Human Memory Models for Automatic Term Association. In: STRZALKOWSKI, Tomek. Natural Language Information Retrieval p75-98. CLEI’2003, Montevidéu, Uruguai novembro de 2002

25 Desenvolvimento e Avaliação de uma Estrutura Multitesauro para Recuperação de Informações
Luiz Augusto Sangoi Pizzato Vera Lúcia Strube de Lima CLEI’2003, Montevidéu, Uruguai novembro de 2002


Carregar ppt "CLEI’2003, Montevidéu, Uruguai novembro de 2002"

Apresentações semelhantes


Anúncios Google