Frederico Brito Fernandes - Agentes Inteligentes - Cin UFPE Novembro 2000.

Slides:



Advertisements
Apresentações semelhantes
IFTO ESTRUTURA DE DADOS AULA 05 Prof. Manoel Campos da Silva Filho
Advertisements

Medidas de Avaliação de Sistemas de Recuperação de Informação
Modelo de Redes de Crenças
Modelo Probabilístico
Recuperação de Informação
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Operações envolvendo imagens
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Propriedades de Documentos
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.
Resolução.
Árvores.
DNS Introdução.
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Estrutura de indexação Modelos de RI
Introdução a Teoria da Classificação
April 05 Prof. Ismael H. F. Santos - 1 Módulo II XML Processing: XSLT, SAX e DOM Prof. Ismael H F Santos.
Agentes na Web Márcio David de Magalhães Santos Departamento de Informática UFPE Recife, 1 de junho de 1999.
Recuperação de Informações
Descoberta de Conhecimento:
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Classes e objetos Modelagem
Classes e objetos P. O. O. Prof. Grace.
MetaLib - Visão Geral 1º Encontro de Usuários ALEPH 30 Nov. e 1º Dez. de 2006 Caio Pellegatti.
Administração de Sistemas de Informação Banco de Dados
Semana de Informática 2011 – IFAM Parintins
IDENTIFICAÇÃO, MODELAGEM E ANÁLISE DE PROCESSOS Luís Gonzaga Trabasso
Aprendizado de Máquina
Disciplina: Multimídia Prof a. Leila Jane Brum Lage Sena Guimarães Transparências: Wilson de Pádua Paula Filho.
Inteligência Artificial
Introdução ao Desenvolvimento Web
Apresentação Intermédia José Graciano Almeida Ramos Orientador: Professor Dr. Jaime S. Cardoso Responsável INESC Porto : MSc. Ricardo Sousa 1 FEUP-MIEIC.
Universidade São Marcos Curso: Gestão de Negócios Internacionais
Algoritmos Culturais.
Adicionando Escalabilidade ao Framework de Recomendação Idealize
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Introdução e Busca Cega
IF696 - Integração de Dados e DW
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Mineração da Web Recuperação de Informação
Projeto de Banco de Dados
Computação Gráfica Aula 3 Transformações Geométricas
Recuperação de Informação
Recuperação de Informação
Redes Neuronais/Neurais/ Conexionistas Introdução
Resolução de sistemas de equações lineares
EBSCOhost Pesquisa avançada.
Classificacao de Texto Projeto Spam Filter
A abordagem de banco de dados para gerenciamento de dados
Recuperação Inteligente de Informação
Integração de Ferramentas CASE
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.
Classificação de Textos
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Transcrição da apresentação:

Frederico Brito Fernandes - Agentes Inteligentes - Cin UFPE Novembro 2000

2  Sistemas tradicionais de Recuperação de Informação (RI) usam termos para indexação e recuperação dos dados (há 20 anos !!!)  Termos são palavras ou conjuntos de palavras de um documento  Indexação  armazenamento da informação nas bases de índice  Recuperação BI docs. termo1 - doc1, doc3,... termo2 - doc41, Arquivos Invertidos + BI Informação Armazenada = docs. relevantes Necessidade do Usuário (palavras-chave, profile, etc)

3  Stop List  lista de palavras comuns, irrelevantes  Term Frequency-Inverse Document Frequency (TFIDF):  atribuição de peso aos termos Artigos: a, os,... Pronomes: meu, aquele,... Advérbios: muito, bem, TF(w): freqüência da palavra w no doc. DF(w): freqüência de w em D D = total de documentos CONNECT CONNECTED CONNECTING CONNECTION CONNECTIONS  Stemming e n-grams  redução de termos. Ex:

4  Precisão  Documentos relevantes retornados dividido pelo número total de retornados  Cobertura  Total de documentos relevantes retornados dividido pelo número total dos relevantes Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados by Flávia

5 Outros Conceitos:  Robô (ou spider)  programas que percorrem links na web, geralmente com objetivo de indexá-la  Corpus  conjunto de documentos etiquetados  Filtragem  à partir do profile(gosto) do usuário, documentos interessantes são selecionados  Routing  faz a mesma coisa que filtragem, a medida que os documentos vão sendo adicionados ao Corpus  Arquivo invertido  termos (índices) mapeando os documentos em que aparecem

6  Base de Índice  banco de dados de um sistema de índices  Similaridade  o grau de quanto 2 documentos são semelhantes  Co-Citação (co-citation)  dois documentos são citados por um mesmo documento  Thesaurus  identifica o relacionamento entre termos  Trec (Text Retrieval Conference)  conferência de IR para demonstração de experimentos com grandes banco de dados, banco de dados multimídia, etc

7 Engenhos de Busca Ex: Radix, Altavista BI Índices + URLs Usuário Interface Robôs webweb Documentos + URLs palavras-chave Busca Consulta Casamento de Termos Resultado Stop List indexação recuperação

8  Representação Física de Documentos Textuais Digitais  Texto completo  Difícil de manipular  Centróide - conjunto de termos com pesos associados ou não  Perda de semântica “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade 1 Centróide

9  Motivação: que documentos são relevantes a uma consulta do usuário ? Ou qual o grau de semelhança entre dois documentos ?  Surgiu a necessidade de criar modelos para interpretar e manipular documentos  Representação Lógica (Modelos) de Documentos Textuais Digitais  Framework para manipular e interpretar documentos  Várias abordagens: teoria dos conjuntos, álgebra linear, probabilidade, etc  Ex: Vector Space Mostraremos alguns deles !! doc2 doc1 booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

10  Definição Formal de modelo em IR:  É definido pela quádrupla [ D, Q, ƒ, R(q i,d j ) ] D - visão lógica dos documentos Q - visão lógica da query do usuário ƒ - um framework para modelar essas representações e seus relacionamentos R(q i,d j ) - uma função que associa um número real com uma query q i  Q e um documento d j  D Obs Obs.: Para simplificação, considere Q = D, e R(q i,d j ) = Sim booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Modelos Clássicos de IR:  Booleano  documentos são representados como um conjunto de termos que aparecem no documento  Vector Space  como um vetor em um espaço t-dimensional  Probabilista  baseado na teoria da probabilidade  Derivações:  Booleano  Fuzzy, Booleano Estendido  Vector Space  Vetor Generalizado, Indexação com Semântica Latente, Redes Neurais  Probabilista  Rede de Inferência, Rede de Crença  Alternativo:  Baseado em Links  algoritmos Companion e Cocitation [1] [1] HENZINGER, M. R. & DEAN, J. Finding Related Pages in World Wide Web booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos 11

 D: conjunto de termos do documento, com pesos binários  f: teoria dos conjuntos e álgebra booleana  Sim: apenas retorna 1 (se o termo esta presente no doc.) ou 0  Ex.: sejam os k termos  Vantagem:  Oferece um framework simples e elegante  Desvantagem:  Determinístico: um documento é ou não relevante  Problemas com Precisão e Cobertura: Resultados (muito) grandes ou pequenos e sem uma escala de relevância Booleano k1k2 k3 k1  k2  k3 Documentos relevantes booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos 12

13  D: um vetor  f : espaço vetorial t-dimensional e operações de álgebra linear sobre vetores  As dimensões do espaço vetorial são os termos do documento  Os termos recebem pesos de relevância no documento (negrito, título, etc)  Esses pesos são usados como índices do vetor  Modelo mais utilizado em IR Brasil0.3 Olimpíadas0.5 Sidney0.2 didididi Brasil0.2 Olimpíadas0.4 Sidney0.4 djdjdjdj Vector Space Brasil Olimpíadas Sidney didi djdj d i = 0.3 Brasil Olimpiadas Sidney d j = 0.2 Brasil Olimpiadas Sidney booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Sim: produto interno / produto das normas Sim = = = 0.28  Vantagem:  Oferece um framework simples e elegante  Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança  Em geral, seu desempenho (precisão e cobertura) supera todos os outros modelos d i d j |d i | · |d j | 0.3 · · · 0.4 ( ) ½ · ( ) ½ Vector Space booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos 14

 Baseado no principio probabilístico “ Dada uma query q e um documento d j em uma coleção, este modelo tenta estimar a probabilidade de que o usuário ache o documento d j interessante (i.e., relevante)  Idéia fundamental  Dada uma query, existe um conjunto de documentos relevantes e outro não  Esse conjunto de documentos relevantes tem certas propriedades  Definimos probabilidades associadas a essas propriedades  O usuário interage para definir que documentos foram ou não relevantes  As probabilidades são então melhoradas  Vantagens e Desvantagens:  Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança  Necessidade de separar os documentos relevantes a priori 15 Probabilista booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Combinação do modelo booleano com o vector space  D: um ponto no espaço  f : espaço t-dimensional e distância entre pontos  Sim : distância de d j  D para o ponto 1 (no caso de AND)  Estende o modelo booleano com pesos entre [0,1] w x,j = f x,j · idf x max i idf i 16 Booleano Estendido booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Relaxa álgebra booleana e interpreta operações booleanas em termos de distâncias algébricas (tome w x,j como x) Sim = 1 - (1-x 1 ) p + (x 2 ) p (1-x m ) p m 1/p and = 1 - (1-x 1 ) p + (1-x 2 ) p (1-x m ) p m 1/p or = (x 1 ) p + (x 2 ) p (x m ) p m 1/p Distância para o ponto (1,1,...,1) Distância para o ponto (0,0,...,0) 17 Booleano Estendido booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

18  Busca documentos relevantes através do conceito, e não mais apenas por termos:  D: uma coluna da matriz termo-documento ( abaixo)  f : operações com matrizes (ex. transposta t )  Sim: obtido com algumas transformações querydoc1 termodoc2 Doc1Doc2Doc3...Doc N Termo1 w 11 w 12 w 13...w 1n Termo2 w 21 w 22 w 23...w 2n w Termo t w t1 w t2 w t3...w tn M M : matriz termo-documento, com pesos nas linhas e documentos nas colunas Latent Semantic Indexing booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

19  Decompondo a matriz em três componentes :  Reduzindo o espaço para dimensionalidade s :  O relacionamento entre os documentos é obtido com : Matriz que nos fornece o fator de similaridade entre Doc1 e todos os outros documentos SimDoc1 Doc1 w 11 Doc2 w DocN w N1 M  =, onde = e = KSDtDt KMMtMt DtDt MtMt M M MsMs  = KsKs SsSs DtsDts MtsMts  = ( ) ( ) t MsMs SsSs DsDs SsSs DsDs Latent Semantic Indexing booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

20  D: um nó na rede  f : rede neural com três camadas kaka kbkb kckc kaka kbkb kckc ktkt k1k1 d1d1 djdj D j+1 dNdN Termos de uma query Termos de D D  Sim: w i,q w i,j ( w 2 i,q ) ½ ( w 2 i,j ) ½  i=1 t  t  t  t w i,q w i,j = w i,q ( w 2 i,q ) ½  i=1 t  t w i,j ( w 2 i,j ) ½  i=1 t  t Propagação 1Propagação 2 Igual ao vector space na primeira passagem Rede Neural booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

21  D: como um nó  f : estrutura de links, e operações como pai(d) e filho(d)  Princípio Básico:  Gráfico da Vizinhança: - a partir de um documento d- d bbb bfbf fbfb ff bfbf bfbf fbfb didi djdj “Se existe um link de d i para d j, então o autor recomenda d j e o link oferece um documento relacionado” - Gráfico de links gerado a partir do nó d, com a ferramenta Connectivity Server - Baseado em Links booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

22  Algoritmo Companion  Construção do Gráfico de Vizinhança  Eliminação de Duplicatas  95% de links em comum e mais de 10 links  Atribuição de pesos aos links:  Calculo do Authority e Hub:  Sim = nós com maiores Authority 1/k 1/j ABC Dados os hosts: - A com 2 nós (k=2) - B com 1 nó (j=2) - C com 2 nós A[n] =  H[n] H[n] =  A[n] Baseado em Links booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

23  Algoritmo Cocitation  Dois nós são co-citados se tem o mesmo pai  Grau de Co-Citação  numero de pais em comum  Sim = nós com maiores graus de co-citação (F, G, E, H) ABCD u EFGH 1321 Baseado em Links booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

24  Conclusões  Grande diversidade de modelos  Modelos híbridos (booleano probabilista, booleano estendido)  Vector Space: mais utilizado e divulgado na literatura  Em termos de precisão e cobertura,  Alguns modelos se mostraram mais eficientes que o Vector Space em domínios especializados  Bases grandes e heterogêneas: não se tem registro de nenhum modelo que supere o Vector Space booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

25 Lista de Croft versus Características de Agentes Relevância do Feedback Extração de Informação Recuperação Multimídia Recuperação Efetiva Filtering e Routing Interface e Navegação Expansão de termos Eficiência e Flexibilidade RI Distribuída Soluções Integradas AdaptaçãoCooperaçãoAutonomia - Bruce Croft apresentou na revista D-Lib Magazine em Nov. de 95 [1] a lista dos 10 maiores desafios em RI - [1]

26  Agentes Baseados em Recuperação de Informação (ABRI) All-in-one Fastfind Metacrawler Metasearch Profusion Savvysearch WebCompass NetBot Jango ShopBot CARROT InfoSleuth Retsina SAIRE UMDL ShopBotMetaBusca Interface Simples para Múltiplas Fontes KnowBot URLAgents EachMovie Firefly GroupLens Morse MovieCritic Phoaks RARE/Tunes ReferralWeb SiteSeer Yenta Colaborativo Adaptação para Usuários e Conteúdo Backweb Marimba Pointcast SIFT TopicAGENTs Fishwrap MyYahoo Syskill and Webert RemembranceAgent Push Interface Adaptativa Pró-Ativo Compreensão de Conteúdo ABRI Bases ( grandes) Distribuídas Especialista em Conteúdo

27 KnowBots  Provê uma linguagem de consulta para acessar várias fontes  ShopBot  e-commerce  MetaBusca  engenhos de busca  Ex: Metacrawler : MetaBusca  Única interface  Consulta vários engenhos de busca  Combina os resultados NetBot Jango : ShopBot  Única interface  Consulta vários sites a procura de determinados produtos: CDs, charutos  Mostra uma lista de produto + preço + site

28 Bases (Grandes) Distribuídas  Corpus dinâmico, medido em MB (ou GB)  Documentos heterogêneos: tamanhos, formatos, linguagens  Arquitetura: Agentes }-{ feedback, consultas documentos feedback, consultas documentos Múltiplos Usuários BI consultas documentos consultas documentos Múltiplas Fontes de Informação

29 Bases (Grandes) Distribuídas  Sobre a arquitetura:  Cada usuário é representado (pelo menos) por um agente, que tem (ou obtém) o perfil ou necessidade do usuário. Problema do Profile do Usuário  As consultas podem ser modificadas (ex. expandida) e enviadas para as bases. Problema do Processamento de Consultas  As bases podem ter diferentes modelos de documentos e consultas. Problema da Heterogeneidade  Documentos de diferentes bases precisam ser comparados e ranqueados. Problema da Fusão de Dados

30 Bases (Grandes) Distribuídas Ex: SAIRE  Scalable Agent-based Information Retrieval Engine  Provê acesso aos dados da NASA EOSDIS  Suporte para leigos e experts  Três variedades de agentes: Interface, Coordenador e Especialista em Domínios  Comunicação entre agentes UMDL  University of Michigan Digital Library  Três tipos de agentes:  Interface - consultas e profile  Mediador - planejamento  Buscador - engenhos de busca  O usuário pode navegar através de um applet java, sob uma ontologia de informação desenvolvida por eles

31 Filtragem Colaborativa  Um sistema de filtragem colaborativo faz recomendações a um usuário de acordo com o grupo de usuários similares a ele  Recomenda:  Pessoas - Yenta, ReferralWeb  Produtos - Firefly, Similarities Engine, Tunes (music), EachMovie, Morse, RARE, MovieCritic (movies & videos)  Leituras - Wisewire, Firefly, Fab, Phoaks Baseado em Conteúdo vs. Recomendação Colaborativa Documento recomendado Documento gosta similar a Recomendação Baseada em Conteúdo Recomendação Colaborativa

32 Filtragem Colaborativa Ex: FAB  recomenda sites usando técnicas de RI adaptativa  Agente: coletor, selecionador e enviador  Feedback do usuário: adaptar profile e dar(tirar) crédito aos agentes  Um algoritmo genético é usado para desenvolver a população de agentes coletores Firefly  Aplicado a música, filmes, sites, livros, etc  Usa vários conjuntos de vizinhos para aumentar a precisão  Recomenda usuários que não gostam de um site, ou um site que um dado usuário não gosta  Comprada pela Microsoft, Abril 98

33 Interface Adaptativa Ex: SysKill & Webert  controla o browser adicionando painéis  Facilita ao usuário avaliar um site como bom ou ruim a respeito de uma das várias classes definidas pelos usuários  Pode estimar quais sites o usuário poderia gostar

34 Pró-Ativo Ex: Remembrance Agent  Indexa arquivos pessoais e s  Sugere arquivos relevantes à tarefa que o usuário está executando  Opera continuamente Letizia  Agente que navega semelhante ao usuário  Usuários geralmente navegam em profundidade, enquanto Letizia navega em largura  Usa uma variedade de heurísticas para identificar sites interessantes  Quando um site interessante é encontrado, é mostrado em uma janela diferente

35 Pró-Ativo PUSH Ex: TopicAGENTs  Provê uma visão do agente das tarefas de recuperação de informação para o usuário  Tarefas: filtragem, categorização, routing  Variedade de serviços de envio:  Sites  Entrada no banco de dados   Fax

36 Conclusões  Vantagens de Agentes baseados em Recuperação de Informação:  Manipulam dinamicamente bases heterogêneas e distribuídas  Melhoram a performance via agentes especializados  Podem adaptar-se aos interesses e preferências dos usuários  Tecnologias já disponíveis:  Linguagens e protocolos de comunicação entre agentes. Ex: KQML  Métodos e algoritmos de Machine Learning  etc.  Futuro:  Melhorar o processamento e representação de metadados  Habilidade para manipular mídias: imagens, sons, vídeos, etc  Fusão inteligente de bases heterogêneas

37 CIn-UFPE  Em desenvolvimento no CIn-UFPE  Ajuda o usuário a encontrar documentos semelhantes ao que ele está consultando/editando no momento  Plataformas: IE, Netscape e Microsof Word  Compara o conteúdo de dois documentos  Representa um aumento na precisão dos documentos recuperados  Extremamente útil na Intranet de uma empresa:  Padronização dos documentos  Business da empresa  Facilidade para o funcionário encontrar documentos similares ao que está editando.  Economiza tempo dele mesmo e de outros

38 Netscape Active Search Radix Google }-{ Ontologia Doc Ps Html... Web Servidor de Consulta Intranet Internet Interface Internet Explorer MS Word Centróide Doc.Atual Algoritmo de Similaridade Algoritmo de Similaridade StopList Preparação do Documento Preparação do Documento Atual Centróides Buscados Algoritmo de Busca Algoritmo de Busca query Lista URLs similares Arquitetura

39 Protótipo

40 Próximos Passos...  Estudar e implementar mais modelos de representação de documentos (medidas de similaridade)  Realizar medições da qualidade das respostas para os diferentes modelos  Precisão, cobertura, f-measure, etc  Estudar e implementar técnicas de filtragem e clustering

41  Recuperação de Informação  BAEZA-YATES, Ricado, RIBEIRO-NETO, Berthier. Modern Information Retrieval  JONES, Karen S., WILLET, Peter. Readings in Information Retrieval     Agentes baseados em Recuperação de Informação 