Recuperação de Informações

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Modelo Probabilístico
Operações sobre o Texto
Página de Acesso
Recuperação de Informação
Patrícia Nunes Pereira Professor: Geber Ramalho
Módulo II – Domine a Internet Introdução a Informática DCC - UFMG.
TUTORIAL BASE DE DADOS SCIENCE DIRECT Elaborado por:
TUTORIAL BASES DE DADOS PROQUEST
Especificação de Consultas
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
Arquitetura de Máquinas de Busca
Interfaces Conversacionais
Sistema para Gerenciamento de Redes Baseado em Agentes Móveis
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Estrutura de indexação Modelos de RI
Introdução a Teoria da Classificação
Agentes na Web Márcio David de Magalhães Santos Departamento de Informática UFPE Recife, 1 de junho de 1999.
Recuperação de informação Detalhamento do projeto
Descoberta de Conhecimento:
Divisão de Biblioteca e Documentação FMUSP
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Internet: conceitos básicos
WWW – word wide web A WWW (World Wide Web ou, simplesmente, Web) é a parte multimídia da Internet, portanto possiblita a exibição de páginas de hipertexto,
Arquivos Invertidos André Ferreira da Silva Jimy Marques Madeiro
Curso EFA de técnico de Informática e Sistemas
Inteligência Artificial
Recuperação de Informação usando o Apache Lucene
Introdução ao Desenvolvimento Web
ORKURIOSO Equipe Arthur Gonçalves - agc Fábio Rocha - frp
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Bancos de Dados e Recuperação de Informação
Portal Capeswww.periodicos.capes.gov.br Universidade do Vale do Rio dos Sinos – Unisinos Apresentação do Portal.periodicos.CAPES São Leopoldo (RS), 24.
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
Buscando Informação Médica na Internet
Recuperação de Informação
Recuperação de Informação
Agentes Inteligentes na Web
EBSCOhost Pesquisa avançada.
Classificacao de Texto Projeto Spam Filter
Introdução à Recuperação de informação Detalhamento do projeto
IIS Web Server.
A Internet e Seu Impacto
Recuperação Inteligente de Informação
Buscando Informação Médica na Internet NIB - Núcleo de Informática Biomédica Universidade Estadual de Campinas.
Sumarização Ontologias Paulo Orlando V. Q. Sousa.
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Projeto X-Finder Agents Recuperação e Indexação de páginas especializadas na Web Disciplina: Inteligência Artificial Simbólica Professora: Flávia Barros.
1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.
Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.
Um Sistema de recomendação de consultas baseados em query log Diogo Mendonça.
Classificação de Textos
Agentes de Busca na Internet Fred Freitas CIn - UFPE.
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Engenharia de Sistemas (Lato Sensu) Victor Costa de Alemão Cisneiros Hudson Ramos Aracaju/SE COMPARAÇÃO ENTRE SERVIDORES WEB APACHE HTTP SERVER E NGINX.
Transcrição da apresentação:

Recuperação de Informações Estéfane George M. de Lacerda

Agentes na Web Agentes tem surgido na web de várias maneiras Busca Filtram e recuperam Informações Agentes notificadores Suporte ao Comércio Chat Outros...

Agentes na Web Os mais populares Agentes na Web tem sido usado em sistemas de recuperação de informações na web

A Web Informação não estruturada 400 a 500 milhões de documentos (Jul, 1998, IEEE internet computer). Duplica de tamanho a cada 4 meses Multilíngue Ambígua Caos para se buscar informações

Tipos de sistemas de Busca na Internet Sistemas que usam Diretórios (Yahoo e Magellan) Catalagos organizados hierarquicamente. Sistemas que automatizam a organização das informações na Web. (Altavista, Lycos, WebCrawler, HotBot, Excite). Robôs ou spiders que exploram a web em busca de páginas. A principal tecnologia desses sistemas provém da área de Recuperação de informação.

Introdução a Recuperação de Informação Full text scanning (KMP, Boyer e Moore etc...) Arquivos de assinatura Inversão Indexação Modelo Booleano Modelo do Espaço Vetorial

Inversão Coleção de Documentos Índice invertido ID doc1 Good tutorial on Java good doc1 tutorial doc1,doc2 on doc1 ID doc2 java doc1,doc2.doc3 Java tutorial sun doc3 ID doc3 site doc3 Sun´s Java Site

Preparação do documento p/ Indexação Análise léxica Stop list : palavras que não são úteis para recuperação de informações (e.g. palavras comuns, preposição, artigos, etc..) Stemming: processo de remover prefixos e sufixos das palavras do documento engineering engineered engineer engineer engineer engineer Term Stem

Modelo Booleano A query é uma expressão com AND, OR e NOT O documento é relevante se o resultado da query é verdadeiro. Tem baixo desempenho e não é possivel ranking de documentos relevantes.

Modelo do Espaço Vetorial Documentos e query são representados por um vetor com n dimensões, onde n é o numero de termos diferentes na coleção de documentos. Achar documentos é comparar o vetor de documentos com o vetor query do usuário

Modelo do Espaço Vetorial vetores termos doc1 doc2 doc3 query good w11 tutorial w12 w22 on w13 java w14 w24 w34 w4 sun w35 site w36 0 : Indica ausência do termo wit : Peso que indica a importância do termo

Atribuição de pesos Term Frequency x Inverse Document Frequency (TF x IDF) wij = fd,t log(N/fi) N é o número total de documentos ft é o número de docs que contém o termo t fd,t : número de ocorrências do termo t no doc i Esta função atribui altos pesos para palavras raras, pois são melhores discriminantes.

Ranking de documentos Os documento mais relevantes são retornados ao usuário de acordo com a similaridade entre vetor query e vetor documento Medida de similaridade R é dado pelo produto interno entre vetor query Q com vetor documento D (cosine similarity): R = Q•D

Medidas de desempenho Recall: total de documentos relevantes retornados dividido pelo número total dos relevantes. Precision: documentos relevantes retornados dividido pelo número total de retornados Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados

Medidas de desempenho Note que maximizar apenas uma medida isoladamente é fácil: retornando 1 doc tem-se máximo precision, mas péssimo recall retornando todos docs tem-se máximo recall, mas péssimo precision Portanto, o sistema deve maximizar ambos recall e precision simultaneamente

Relevance Feedback Processo de refinar resultados de uma recuperação de informações. O usuário indica quais dos documentos retornados são os mais relevantes. O sistema busca novos documentos com base naqueles documentos indicados pelo usuário. O processo é repetido conforme desejado.

Outras técnicas Clusterização de documentos Machine learning Redes Neurais Processamento de Linguagem natural

Estudo de caso: o WebCrawler wwwlib agents Search engine Internet Query server database Componentes do software do Webcrawler

Estudo de caso: o WebCrawler Search engine Começa com um conjunto de HTML´s e usa suas URL´s para recuperar novos documentos. Atravessa a web usando busca em largura no grafo formado pelos links entre documentos Indexa no mínimo um documento por servidor

Estudo de caso: o WebCrawler Agents São eles que realmente recuperam as páginas da web quando solicitados pelo sistema. Database Prepara documento (Análise léxica, stop-list, stremming, determina pesos usando TF.IDF, indexação) Os índices são atualizados semanalmente

Estudo de caso: o WebCrawler Query server Suporta operadores AND, OR e NOT e frases Usa o modelo do espaço vetorial Efetua o ranking dos documentos com base na similaridade com o vetor query Apresenta os documentos mais relevantes com um resumo e um score de relevância

Estudo de caso: o WebCrawler

Conclusão A necessidade crescente de organizar informações na WEB. Usuários não sabem elaborar a “query”, acham complicados, com muitas possibilidades e sem nenhuma orientação. Tempo de resposta ainda é lento. Técnicas IA são cada vez mais necessárias na Web.

Bibliografia Willian B. Frakes e Ricardo Baeza-Yates Information Retrieval: Data Structures & Algorithms,, Prentice Hall, 1992. Gudivada, V. N. et al. Information retrieval on the world wide web. IEEE Internet Computing, Oct, 1997. Etzioni, O; Weld, D. S. Intelligent Agents on the Internet: Fact, Fiction, and Forecast, IEEE Expert, Aug., 1995. Pinkerton. B. Finding What people want. Experiences with webcrawler. Proc. Second. Int´L www conf., 1994. (http://www.ncsa.uiuc.edu/SDG/IT94/Proceedings/Searching/pinkerton/WebCrawler.html) Oard D. W. The State of the Art in Text Filtering,, University of Maryland, 1997.

Referências - Links http://almond.srv.cs.cmu.edu/afs/cs/user/katia/www/katia-home.html http://www.cs.umbc.edu/agents/ http://www-kr.org/~chitos/ir_and_robot/indexing.html