A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros

Apresentações semelhantes


Apresentação em tema: "CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros"— Transcrição da apresentação:

1 CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros

2 CIn-UFPE 2 Roteiro Motivação/Introdução Histórico Aplicações Arquitetura básica Principais módulos

3 CIn-UFPE 3 “Morrendo ignorante num mar de informações ” - Dificuldade de localizar documentos relevantes !! Recuperação de Informação Motivação

4 CIn-UFPE 4 Como funciona? Necessidade de Informação Casamento Documentos Indexação Representação da Consulta Representação do documento Formulação Recuperação de Informação Motivação Usuário

5 CIn-UFPE 5 Tarefa típica de Recuperação de Informação (RI) Dados Um corpus de documentos (itens de dados) & Uma consulta do usuário (representada por palavras-chave) Encontrar Um conjunto ordenados de documentos que são relevantes para a consulta

6 CIn-UFPE 6 Sistemas de RI Sistema de RI Consulta Corpus de documentos Documentos ordenados 1. Doc1 2. Doc2 3. Doc3. Usuário

7 CIn-UFPE 7 Recuperação de Informação Definição Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação Objetivo principal facilitar o acesso a documentos (itens de informação) relevantes à necessidade de informação do usuário  Geralmente representada através de consultas baseadas em palavras-chaves

8 CIn-UFPE 8 Recuperação de Informação Definição Ênfase na recuperação de informação (não de dados!) Ex., “encontre documentos contendo informação sobre: (a) cursos de Computação (b) com pós-graduação em Inteligência Artificial” Recuperação de dados: Que documentos contêm um conjunto de palavras-chave? Semântica bem-definida (ex. SQL) Qualquer erro implica em falha na recuperação Recuperação de informação: Informação sobre um assunto ou tópico Semântica mais livre Pequenos erros são tolerados

9 CIn-UFPE 9 Histórico 1ª Fase: decs e 1960 Dec. 1950: Aplicações:  sistemas de recuperação de referências bibliográficas e outros serviços para bibliotecas. Técnicas: indexação manual  documentos indexados por termos de um vocabulário restrito montado manualmente Dec. 1960: Aplicações:  sistemas de recuperação de documentos off-line Técnicas: início da indexação automática  título e abstract Algoritmos de busca na recuperação dos itens

10 CIn-UFPE 10 Histórico 2ª Fase: decs. de 1970 e 1980 Aumento do poder computacional Aplicações: Sistemas de Pergunta-Resposta  Técnicas: RI + Processamento de Linguagem Natural  Evoluíram para interfaces em Linguagem Natural para BDs Sistemas de RI on-line  Técnicas: estatística e probabilidade, Modelo de Espaço Vetorial  Avaliação do desempenho do sistema pelo usuário

11 CIn-UFPE 11 Histórico 3ª Fase: dec até... Aparecimento da Web: Repositório universal de “conhecimento” Gigabytes de dados não estruturados Livre acesso Alguns problemas: Escalabilidade das soluções Velocidade de atualização da Web Velocidade de acesso aos documentos armazenados RI é vista como a chave para encontrar soluções... Técnicas tradicionais de RI foram adaptadas ao caso da Web Explosão de serviços + agentes

12 CIn-UFPE 12 Aplicações, Serviços, Agentes... Engenhos de Busca na Web Google, Yahoo!, etc... Sistemas de Recomendação Recomendam de itens de informação ao usuário de acordo com o seu perfil Sistemas de Extração de Informação Extraem, de documentos relevantes, apenas a informação requerida, que pode ser apresentada ao usuário e/ou armazenada em BDs ou em Bases se Conhecimento

13 CIn-UFPE 13 Aplicações, Serviços, Agentes... Agentes Notificadores Enviam s para o usuário de acordo com seus interesses Agentes de Comércio Eletrônico Capazes de representar o usuário em compras na Web Agentes Chatterbots Capazes de dialogar com os usuários em linguagem natural restrita

14 CIn-UFPE 14 Sistemas de RI Um sistema automático para RI pode ser visto como a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em um BD, e sua posterior recuperação para responder a consulta do usuário. Etapas principais: Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

15 Sistemas de RI: Criação da base de índices Base de documentos Gerenciador do BD Indexação Preparação dos documentos Base de índices Documentos Representação do documento

16 Sistemas de RI: Consulta à Base de índices Busca e recuperação Ordenação Preparação da consulta Interface do usuário Base de índices Indices-docs recuperados consulta Índices-docs ordenados Necessidade do usuário

17 CIn-UFPE 17 Etapa 1: Aquisição (seleção) de Documentos Manual para sistemas gerais de RI E.g., sistemas de bibliotecas Automática para sistemas na Web Uso de crawlers (spiders)  Programas que navegam pela Web e fazem download das páginas para um servidor  Partem de um conjunto inicial de links  Executam busca em largura ou em profundidade Crawler do Google  Executa em várias máquinas em paralelo  Indexou 26 Milhões de páginas em 8 dias

18 CIn-UFPE 18 Etapa 2: Preparação dos Documentos Objetivo Criar uma representação computacional do documento seguindo algum modelo Fases Operações sobre o texto Criação da representação “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Operações de Texto Representação Doc :

19 CIn-UFPE 19 Etapa 3: Indexação dos Documentos Construção da base de índices Objetivo: facilitar busca dos documentos no repositório digital Opção mais simples: Varrer o texto completo  Busca seqüencial on-line  Eficaz para textos pequenos ou muito voláteis Para bases maiores: Indexar os documentos a partir das palavras-chaves  Índices invertidos  Vetores e árvores de sufixos  Arquivos de assinatura

20 CIn-UFPE 20 Etapa 4: Busca e Recuperação Seleção dos links dos documentos da base que satisfazem uma consulta Consultas simples Recuperam links dos documentos onde a palavra ocorre pelo menos uma vez Consultas compostas (booleanas) Recuperam links dos documentos onde cada palavra da consulta ocorre pelo menos uma vez Merge de listas  Combina as listas de documentos recuperados de acordo com o operador booleano da consulta

21 CIn-UFPE 21 Etapa 5: Ordenação Ordena os links dos documentos recuperados de acordo com sua relevância em relação à Consulta Relevância é difícil de medir Mede-se a similaridade entre cada documento e a consulta Modelo “Espaço Vetorial” Similaridade é proporcional ao co-seno do ângulo entre o vetor que representa o documento e o vetor da consulta Tende a retornar documentos pequenos Google Proximidade das palavras da Consulta no documento Tamanho da fonte, texto de links,... PageRank

22 CIn-UFPE 22 Engenhos de Busca Web Consulta Resposta Base de Índices Engenho de Busca Usuário Spider Indexador Representação dos Docs Servidor de Consultas Aquisição Pré-Processador Docs Recuperador Ordenador Motor de Indexação Browser

23 Sistemas de Filtragem de Informação Sistemas que filtram a informação recuperada de acordo com o interesse do usuário Servidor News Artigos Indexados Usuário Perfil do usuário Engenho de Busca Internet

24 CIn-UFPE 24 Extração de Informação Sistemas capazes de extrair de documentos relevantes apenas a informação requerida A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs ou BCs. Sistema de EI BD Nome: End.: Fone: Fax: Preços: Template BC Página de Hotel

25 Mineração na Web Próxima aula Modelos de Recuperação de Documentos Livro texto Modern Information Retrieval. Baeza-Yates & Ribeiro-Neto. Addison-Wesley, 1999 CIn-UFPE 25


Carregar ppt "CIn-UFPE1 Mineração na Web Introdução a Recuperação de Informação Flávia Barros"

Apresentações semelhantes


Anúncios Google