Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Introdução a Teoria da Classificação
Suzana Dantas Internet e RI - aula 1
2
Sistema de Recuperação da informação (SRI)
Um Sistema de Recuperação da Informação é uma organização para armazenar e tornar disponível informação, explorando-a de modo positivo, com um índice de assunto dos documentos existentes na coleção, permitindo recuperar as referências Internet e RI - aula 1
3
Origem Existência de computadores
– potencial para implementação de “bases de dados” • conjuntos de ficheiros • Software para manter e pesquisar a informação Sistemas desenvolvidos – SGBD • armazenamento e processamento • informação em linguagens muito restritas – Armazenamento e RI - pesquisa de documentos • necessidade sentida nas bibliotecas nos anos 50 • reforço: proliferação de documentos eletrônicos • mais reforço: WWW Internet e RI - aula 1
4
Conceitos Recuperação de Informação Atividades principais
– no sentido da recuperação de documentos ou de textos Atividades principais – indexação ( modo de representar documentos e perguntas) – consulta (modo de analisar itens com vista à resposta a perguntas) Atividades relacionadas - diversificação na forma de pesquisa - ex. browsing - apresentação visual de resultados Entidades primitivas – documentos, termos de indexação Internet e RI - aula 1
5
Nomes Índice: nome genérico para catálogos, bibliografias, índices de artigos, etc… Registro de documento cabeçalho: nome do autor, cabeçalho do assunto descrição: autor, título, edição, editor, paginação localização Internet e RI - aula 1
6
Indexar Indexar significa incluir um documento num repositório de informações Inclui identificar, determinar assuntos e selecionar termos para representar os índices Utiliza uma linguagem de indexação Internet e RI - aula 1
7
Métodos de Indexação Por palavra Por assunto
utiliza as palavras encontradas no título ou no documento KWIC : Keyword in Context Por assunto supõe a análise do conteúdo temático do documento, a decisão sobre os conceitos presentes e a tradução em uma linguagem apropriada (artificial ou controlada) Internet e RI - aula 1
8
Revocação e Precisão As medidas mais comuns para avaliar a qualidade de um sistema de busca e recuperação de informação são conhecidas com revocação e precisão Revocação mede a proporção de documentos relevantes recuperados Precisão mede quantos documentos relevantes foram recuperados Internet e RI - aula 1
9
Revocação e Precisão Normalmente sistemas de BRI possuem uma curva de Recall x Precision Internet e RI - aula 1
10
Revocação e Precisão B C A D Itens recuperados Itens não
Itens não relevantes Itens relevantes Internet e RI - aula 1
11
Revocação e Precisão Revocação Precisão
Relevantes Recuperados/Total de itens relevantes A/(A+D) Precisão Relevantes Recuperados/Total Recuperados A/(A+B) Internet e RI - aula 1
12
Fatores que governam Exaustividade Especificidade
Extensão com que determinado documento é indexado (número de conceitos utilizados) grau de profundidade da indexação Especificidade Exatidão dos descritores depende da linguagem de indexação Internet e RI - aula 1
13
Relação Maior exaustividade aumenta a revocação e diminui a precisão
Maior especifidade diminui a revocação e aumenta a precisão Internet e RI - aula 1
14
Linguagens de Indexação
Vocabulário coleção de termos de indexação descritores: palavras cabeçalhos de assuntos símbolos de classificação Sintaxe artifícios empregados para revelar as relações entre os conceitos e as regras para estabelecer os descritores e a ordem de citação Internet e RI - aula 1
15
Elementos Promotores Revocação: aumentam o número de documentos de uma classe, alargando a definição do descritor e reduzindo o tamanho do vocabulário Precisão: reduzem o tamanho das classes, restringem a definição dos descritores e aumentam o tamanho do vocabulário Internet e RI - aula 1
16
Provendo Revocação Controle de sinônimos Controle de quase-sinônimos
Agrupamento de várias formas de uma palavra (radical comum, singular e plural) Agrupamento de conceitos semelhantes ou relacionados Elos hierárquicos Internet e RI - aula 1
17
Promovendo Precisão Coordenação Distinção de homônimos Ponderação
Elos (links) Papéis ou funções (roles) Internet e RI - aula 1
18
Extensão da Recuperação da Informação
Novos meios em documentos – técnicas usadas em texto são extensíveis – documentos são cada vez mais heterogéneos • Documentos em linguagens diversas – noção de documento esbate-se – pesquisas tendem a requerer técnicas híbridas • Para tarefa específica – necessário identificar os seus requisitos de indexação e pesquisa Internet e RI - aula 1
19
Processo de recuperação
Busca (searching) índice Operações de query Modelo texto indexação ranking Texto operações Interface usuário texto Pergunta (query) usuário Internet e RI - aula 1
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.