Agentes em Recuperação da Informação

Agentes em Recuperação da Informação

Equipe Daniel Penaforte (dap4) Daniel Julião (dvsj) Davi Pires (dpr)
Ernani Azevedo (ema3) Everton Marques (egm2) Farley Millano (XXXXXXXXXX) Guilherme Carvalho (ggc) Guilherme Moura (gsm) Nitai Bezerra (nbs) Pedro Montenegro (pmr)

Roteiro Introdução a RI Papel dos Agentes em RI Agentes na WEB
Recomendação Filtragem Notificadores E-commerce Chatterbots

Recuperação de Informação Motivação
“Morrendo ignorante num mar de informações” - Dificuldade de localizar documentos relevantes !! Como funciona? Web Pages found. Necessidade de Informação Representação Consulta Documentos Indexação Formulação Usuário Casamento

Tarefa típica de Recuperação de Informação (RI)
Dados Um corpus de documentos (itens de dados) & Uma consulta do usuário (representada por palavras-chave) Encontrar Um conjunto ordenados de documentos que são relevantes para a consulta

Sistemas de RI Corpus de documentos Sistema de RI Consulta Documentos
ordenados 1. Doc1 2. Doc2 3. Doc3 . Usuário

Recuperação de Informação Definição
Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação Objetivo principal facilitar o acesso a documentos (itens de informação) relevantes à necessidade de informação do usuário Geralmente representada através de consultas baseadas em palavras-chaves

Papel dos Agentes em RI (A Internet)
Informações diversificadas Usuários diversificados Desafios informação aos usuários não-técnicos; libertar os usuários das tarefas repetitivas da WEB; envio de informações relevantes aos usuários. Formato, Conteúdo.

Papel dos Agentes em RI (Motivação)
Rápido crescimento do volume de informações disponível na Internet Velocidade em encontrar informação é diferencial competitivo Dificuldade em localizar documentos relevantes Alto consumo de tempo Síndrome da Nau perdida TOO MUCH INFORMATION = NO INFORMATION

Agentes na Web Objetivos:
Obter uma quantidade de informações razoável ao usuário. Trazer as informações que correspondam ao perfil e necessidade do usuário. Fazer com que estas informações sejam de qualidade.

Agentes em Sistemas de Recomendação
Recomendam itens de informação ao usuário de acordo com o seu perfil Exemplos WebMate Letizia InfoAgent Recomendam de itens de informação ao usuário de acordo com o seu perfil

WebMate 1/5 Agente de busca pessoal (assistente digital).
Acompanha o usuário enquanto ele navega na Internet: Recomenda novas URLs; Oferece os documentos web mais relevantes; Responde ao feedback do usuário; Compila um jornal pessoal diário com links para documentos de interesse do usuário. Webmate, um assistente digital pessoal, é uma solução para encontrar a informação útil dentre um mar de textos e outros documentos web. Acompanhando os usuários durante a navegação na Internet, o agente de WebMate: Ø Fornece recomendações de URL baseadas em um perfil de usuário continuamente atualizado; Ø Oferece os documentos web mais relevantes baseados no Trigger Pairs Model” ; Ø Responde ao feedback do usuário selecionando características dos documentos que o usuário acha relevante e incorporando estas características no contexto de pesquisas novas; Ø Compila um jornal pessoal diário com links para documentos de interesse do usuário.

WebMate 2/5 A arquitetura do WebMate consiste em:
um proxy autônomo que monitora as ações do usuário; um controlador applet que interage com o usuário. A arquitetura do Webmate consiste em um proxy standalone que monitora as açoes do usuário para conseguir informações de aprendizado e refinamento das buscas. Todas as transações HTTP passam pelo agente e servem como retro-alimentação para seu aprendizado. O controlador applet é a interface entre o usuário e o proxy, através do qual o usuário expressa preferências de navegação pessoal e provê feedback relevante para o agente.

WebMate 3/5 O componente autônomo é um proxy HTTP que encontra-se entre o web browser de um usuário e a Internet. Todas as transações HTTP passam através do agente WebMate, onde elas podem ser monitoradas e usadas como auxílios na aprendizagem do agente. O controlador de applet é a interface entre o usuário e o proxy autônomo. Com ele, o usuário expressa preferências pessoais de navegação e fornece feedback relevante para o agente WebMate. Figura: Proxy standalone

WebMate 4/5 Modo Browsing

WebMate 5/5 No modo Procura

Letizia 1/3 H.Lieberman-MIT.
Imita o comportamento do usuário, baseado em preferência, não em relevância. Segue o usuário e tenta antecipar o que é de interesse, com heurísticas simples e metas. HP dinâmica e acessível, com sugestões. Aproveita o tempo inútil e é ético. LETIZIA Letizia é um agente de interface de usuário que ajuda um usuário a navegar no World Wide Web. Como o usuário opera um web browser convencional tal como Netscape, o agente segue o comportamento do usuário e tenta antecipar artigos do interesse fazendo uma exploração autônoma e concorrente dos links da posição atual do usuário. Este agente automatiza uma estratégia de navegação que consiste em uma melhor-primeira busca aumentada por inferências heurísticas do interesse do usuário através do comportamento da navegação. “Letizia Avarez de Toledo observou que esta biblioteca vasta é inútil: rigorosamente falando, um único volume seria suficiente, um volume de formato ordinário, impresso no tipo de nove ou dez pontos, contendo um número infinito das folhas infinitamente finas.”

Letizia 2/3 Behavior-BR - justificativas
Interesse: seguir um link ou revisitá-lo, ou acessar muitas páginas sobre um assunto. Desinteresse: desprezar um link ou retornar. Persistência de interesse e “esquecimento”. Achados ao acaso: tenta descobrir interesses não-óbvios. Behavior BR: Behavior Based Research: Letizia faz uma busca (com recursos limitados) dos links tentando antecipar a ação do usuário, baseado em comportamentos passados e interesses. Exemplos de comportamento: Quando o usuário continua em um link (possivelmente lendo seu conteúdo) ou retorna muitas vezes a página, tal endereço tem grandes chances de se tornar um link de interesse do usuário. De forma semelhante, um link que é passado por cima, ou seja, em uma lista de links, ele nao foi escolhido, indica uma falta de interesse do usuário. Persistencia de interesse se baseia no fato que um interesse nunca é esgotado simplesmente quando o usuário acessa um link, ou recebe uma resposta de uma busca. Geralmente o usuário nao tem tempo para ficar procurando informaçoes sobre aquele assunto sempre que um link novo aparece. Por isso o agente recebe o papel de continuamente buscar informaçoes sobre interesses passados e relembrar o usuário. Na busca por persistencia de interesse, acontece muitas vezes que assuntos aparentemente não relacionados são achados por acaso, retornando informaçoes de grande valor ao usuário.

Letizia 3/3

Info Agent 1/4 Info Agent é composto de 3 componentes principais:
Webwatcher SearchEngine UI Bookmark Manager

Info Agent 2/4 Webwatcher Procura por alterações em páginas web
Avisa ao usuário sobre tais alterações Pode ser configurado da maneira desejada. Ele mantem uma lista de WebDocument que são checados periodicamente, procurando por mudanças. Se o WebWatcher detectar alguma mudança, ele faz certos métodos no WebDocument respectivo (e.g. marcar como alterado, mostrar numa janela de Alteraçoes, ou tocar um sinal sonoro...) Os metodos podem ser configurados livremente, no menu de configuracoes na entrada #changeActions. A maioria das ações do WebWatcher podem ser registradas. No BookmarkManager, as ações do WebWatcher podem ser acessadas por um menu "Tracked Documents". Voce pode comecar a verificar páginas na Janela de Alterações com o menu "add to bookmarks“ e colocando na categoria "Tracked Documents"

Info Agent 3/4 SearchEngine UI
SearchEngine Dmoz searchAndBrowse: 'Squeak‘ SearchEngine Dmoz searchAndManage: 'Squeak‘ Varre os resultados da Busca por URLs e insere no Bookmark Manager O SearchEngine mantem uma lista das páginas de buscas, e voce pode utilizar qualquer uma na sua busca O searchAndManage vai retornar um resultado mais detalhado da busca, enquanto o searchAndBrowse vai retornar um resultado mais simples e clássico. A página resultante é scaneada por URLs e as URLs achadas sao colocadas na categoria de 'Search Results‘ no BookmarkManager. Entao, o BookmarkManager é aberto e voce pode trabalhar com os bookmarks gerados automaticamente pela busca.

Info Agent 4/4 Bookmark Manager
Documentos do WebWatcher: “Webwatched Documents” Documentos resultantes de buscas: “Search Results”

Agentes em Sistemas de Filtragem Motivações
Crescimento do volume de informações em ambientes distribuídos Dificuldade em localizar documentos relevantes Consumo de tempo Ferramentas que automatizam a recuperação de informações

Introdução Mail News Filtragem BIndex ... Definição
Agentes que filtram colhem informações de várias fontes e selecionam documentos baseados em determinados critérios Existem vários exemplos de filtragem de informações Foco em Informações na Internet Mail News Filtragem BIndex ...

Técnica de Representação de Textos
Extração de conceitos importantes em documentos Heurística de frequência de palavras EX: Term Frequency-Inverse Document Frequency (TFIDF) Fórmula: TFIDF(W) = TF(W) * log |D|/ DF(W) onde |D| é o número total de documentos do conjunto Maior frequência no documento e rara presença nos outros indica maior relevância Palavras com maiores pesos são selecionadas formando um vetor de representação do documento Determina pesos para as palavras baseado em: 1. Frequência da palavra - TF(W) - número de vezes em que a palavra W aparece no documento 2. Frequência dos documentos relativa a palavra - DF(W) - número de documentos em que W aparece Maior frequência no documento e rara presença nos outros indica maior relevância Palavras com maiores pesos são selecionadas formando um vetor de representação do documento

EXEMPLOS BORGES ( A . F. SMEATON , 1996 )
Usuário especifica palavras ou frases Destaca palavras polisemânticas, mostrando significados alternativos, para que o usuário escolha O sistema expande o perfil do usuário, incluindo termos relacionados

EXEMPLOS WebWatcher (http://cs.cmu.edu/afs/Web/People/webwatcher)
Usuário especifica palavras-chaves Duas páginas estão relacionadas, se alguma terceira página apontar para ambas O algoritmo usa “informação mútua” como uma medida de similaridade para comparar links

EXEMPLOS LAW (D. Bayer, 1995) Monitora ações do usuário (bookmarking, impressão de páginas, etc...) Características dos documentos Modelar o perfil do usuário Um robô autônomo busca páginas relevantes, de acordo com este perfil

EXEMPLOS SAMURAI (H. Leong, S. Kapur, O de Vel, 1997)
É composto de 5 módulos: Sumarização do texto Monitoração e modelagem do usuário Máquina de busca Filtragem de links Compilação dos resultados WEBSOM ( SYSKILL (

EXEMPLOS Bullseye NewsHound Desktop software
Utiliza cerca de 600 search engines NewsHound Busca notícias de diversos jornais a partir do perfil do usuário. Envia estas informações através de ou páginas html. Utiliza critérios de relevância.

EXEMPLOS NewsWeeder (uso experimental Carnegie Mellon University)
Usuário visita cada NewsGroup e avalia artigos com notas de 1 a 5 Perfil do usuário a partir das notas 50 melhores artigos selecionados de acordo com seu perfil A classificação Técnicas de medidas de similaridade

EXEMPLOS Pefna (Universidade de Estocolmo - Kilander)
Categorias em ordem de importância Bom exemplo da categoria é assinalado para seu treinamento Categoria pode conter um ou mais exemplos Comparação Medidas de similaridade com categorias existentes

Notificadores WEB Serviço automático ativado por algum evento ocorrido dentro de um critério; Critérios são geralmente definidos por termos; Agentes enviam mensagens ( , SMS...) para usuários registrados;

Como funcionam? Trabalham em conjunto com outro serviço de informação
Acionado quando o critério é atingido Exemplos: Google Alert ChangeDetect Aqui se vê um exemplo de notificador funcionando em paralelo com um serviço (google)

Google Alert 1/2 Cadastra termos de busca no google Classificação:
News (Artigos) Web (Internet “top20”) News and Web (Artigos e Internet “top20”) Groups (Google Groups) Envia quando o termo combina com novos resultados A 'News' alert is an that lets you know if new articles make it into the top ten results of your Google News search. A 'Web' alert is an that lets you know if new web pages appear in the top twenty results for your Google Web search. A 'News & Web' alert is an that lets you know when new articles related to your search term make it into the top ten results for a Google News search or the top twenty results for a Google Web search. A 'Groups' alert is an that lets you know if new posts make it into the top fifty results of your Google Groups search.

Google Alert 2/2 Forma ‘Google’ de criar e gerenciar as entradas
Simples Intuitivo

ChangeDetect 1/3 Notifica sobre modificações em páginas cadastradas para usuários; Destaca as modificações nas páginas por códigos de cor; Muito “completo”: detecções constantes ou programadas filtragem extra categorias personalizadas várias formas de notificação detecta modificações em vários formatos de arquivo

ChangeDetect 2/3 É extremamente configurável pode ser um problema...
Estudar / /

ChangeDetect 3/3

Agentes em Sistemas de E-Commerce
Automatizar parte do processo -> economia Comparar produtos de diferentes vendedores Quão fácil é expressar suas preferências para a tarefa? Comprar um presente Decisões sub-ótimas -> riscos Comprar um carro, vender e comprar ações

Consumer Buying Behaviour
Identificação da necessidade Busca pelo produto Busca pelo vendedor Negociação Compra e entrega Avaliação Estágios “agent-centric”! CCB é uma áre de pesquisa do marketing, foca principalmente em mercado de varejo, mas muitos dos seus conceitos se aplicam a business-to-business e consumer-to-consumer. É uma ferramenta poderosa para ajudar a entender os papéis de agentes como mediadores de comércio eletrônico. Existem vários modelos CBB (Nicosia, Howard-Sheth, etc) mas todos possuem esses 6 estágios fundamentais para guiar o comportamento do comprador. Identificação de necessidade: caracteriza a ciência do comprador de suas necessidades Busca pelo produto: recuperação de informação pra ajudar determinar O QUE comprar, avaliação de produtos baseada em critérios fornecidos pelo consumidor Busca pelo vendedor: determinar DE QUEM comprar, avaliação de vendedores através de critérios fornecidos pelo consumidor (preço, garantia, disponibilidade, etc) Negociação: COMO determinar os termos da transação, preço ou outros aspectos Compra e entrega: a compra e entrega de um produto podem sinalizar o término do estágio de negociação Avaliação: avaliação da experiência de compra e decisão

Tecnologias Sistemas de recomendação Negociação
Filtragem baseada em conteúdo Filtragem colaborativa Filtragem baseada em restrições Negociação Constraint Satisfaction Problem Teoria da utilidade multi-atributo * Filtragem baseada em conteúdo: Processa informação de várias fontes, extrai informações úteis, técnicas podem variar em complexidade: - busca por palavra-chave: simples - extrair informação semântica dos documentos: rede associativa de palavras-chave numa sentença, grafos direcionados de palavras-chave que formam sentenças * Filtragem colaborativa: Usa ratings e feedback dos consumidores pra filtrar informação irrelevante, não faz análise das características e descrições dos produtos, cria um índice de “likeability” pra cada produto. Esse índice é criado para cada usuário dinamicamente usando o perfil de usuários similares * Filtragem baseada em restrições: Usa características dos itens para determinar sua relevância Conteúdo vs CSP: - Conteúdo – acesso de dado em formato nativo (html, etc) - Constraint – requer que o problema e solução sejam formulados em termos de variáveis, domínios e restrições Qualquer algoritmo de CSP pode ser usado * CSP em negociação Usa restrições (hard -> devem ser cumpridas, soft-> podem não ser cumpridas) de produto e de vendedor (preço, tempo de entrega, garantia, etc). Essas restrições são usadas para filtrar e priorizar produtos e vendedores e também para construir uma função de utilidade que é usada para negociar com os vendedores. * Teoria da utilidade multi-atributo Cada critério de escolha tem uma função de utilidade, deve pesar a utilidade de todos os atributos contra os outros Utilidade para um objeto multi-atributo - Para cada atributo ai, há uma função de utilidade ui() e um peso wi - Utilidade para negociação: U(A) = Somatório de i(wi * U(ai)) Vantagens: permite trade-offs de alguns atributos Desvantagens: difícil na prática, utilidade e pesos são muito subjetivos

Identificação da Necessidade
Fornecer nova informação que possa motivar o usuário a comprar algo. Filtragem Resolução de constraints Filtragem colaborativa Agentes monitores Os agentes que atuam nessa área geralmente usam técnicas de filtragem baseada em constraints ou colaborativa (i.e. Compara perfis de usuários semelhantes e vê o que eles compraram e gostaram) para trazer informação que torne o usuário ciente de algo que antes ele desconhecia. Alguns agentes de recomendação, como firefly, se encaixa nessa área. Porém, há outros tipos mais específicos de agentes que atuam nessa área, os chamados agentes monitores, que vigiam a disponibilidade de recursos (e.g. Papel na impressora, itens nas prateleiras de um supermercado, etc...) e avisam os responsáveis que tais itens estão em baixa, podendo também já requisitar uma nova remessa aos fornecedores.

Escolha do produto Definir "o que" comprar "Serendipity“ Estratégia
Resolução de constraints Filtragem colaborativa Função de utilidade multi-atributo Nesse estágio, o usuário deve encontrar o melhor produto a ser comprado. Isso não é necessariamente feito levando em conta fatores como “confiança” do vendedor. O persona logic funciona binariamente: você especifica restrições sobre features que você quer no produto e ele filtra aqueles que não atendem às restrições. Isso é feito usando um algoritmo CSP genérico. O firefly usa filtragem colaborativa. Uma vez selecionados os usuários que têm perfis semelhantes ao seu, vê-se quais itens eles disseram que são bons. O tete-a-tete (MIT) usa uma função de utilidade multi-atributo. Por exemplo, quando você vai comprar um computador, você diz que quer muita memória, muito processamento, mas que não liga para o tamanho do HD. Após classificar o produto desejado sobre os vários eixos disponíveis, ele vai usar esses valores como pesos a serem passados à função de utilidade,

Escolha do Vendedor Definir "de quem" comprar
Consultar vários sites de vendas on-line Dificuldade: criar "wrappers" para cada site Solução: Web Semântica = XML + RDF + OWL Exemplo BargainFinder Jango Tete-a-tete Em geral, o passo de escolher o vendedor consiste em buscar em vários sites de vendas on-line quais são as condições de compra/venda do produto. Mas isso é muito pouco para que tenhamos os resultados ótimos esperados. Espera-se que a crescente adoção dos padrões criados pela OMG para a definição de ontologias visando tornar a web semântica possa facilitar esse problema de extração de informação das mais variadas fontes. Atualmente, exige-se a criação de wrappers específicos para cada site, o que é lento e custoso. O BargainFinder é extremamente velho, sendo um dos primeiros do tipo a serem implementados. Foi feito mais como uma prova de conceito, o que permitiu a descoberta de fatos bem interessantes. Um exemplo é que, as fontes que competiam com outros fatores além do preço perdiam as concorrências no BargainFinder, que só compara preços. Tinha uma limitação muito forte que, sendo centralizado, alguns sites conseguiam bloquear o seu tráfego. O Jango é semelhante ao BargainFinder, mas superou sua dificuldade fazendo as requisições saírem da máquina do usuário. Essa descentralização impediu que ele fosse bloqueado pelos sites de compras.] O tete-a-tete usa também uma função de utilidade multi-atributo que compara quesitos como confiabilidade, prazos, preços, garantia, etc...

Negociação Tecnologias Exemplos: Constraint Satisfaction Problem
Teoria da utilidade multi-atributo Leilões Exemplos: Kasbah AuctionBot Tete-a-tete Leilões são usados como benchmarks para medir a capacidade de negociação de agentes. Kasbah (MIT) tinha a vantagem de ter seu comportamente facilmente compreensível pelos usuários. É um sistema multi-agente para compra e venda de livros e discos. Você pode escolher a função que controla a velocidade de queda dos preços (rapida, lenta ou “frugal”), o preço mínimo de venda, o preço desejado entre outros parâmetros. AuctionBot: também fornece a possibilidade de se usar leilões parametrizados, e além disso fornece uma API para quem desejar programar o próprio agente. Tem o problema de que não deixa muito claro o comportamento do agente. Pesquisas mostram que isso é uma característica essencial (top1) que os usuários querem ver em sistemas deste tipo. Por isso que ele “perde” para o kasbah. O tete-a-tete usa os parâmetros importados da função de utilidade para calcular até quando vale a pena aumentar o lance por tal produto, e não trocar por outro (ou por outro vendedor). Se assemelha muito ao comportamento humando quando compra na web.

Chatterbots Sistemas capazes de dialogar com os usuários em linguagem natural restrita Agentes inteligentes Simular uma conversa Troca de mensagens de texto Tornar mais familiar a interação entre o homem e a máquina Impressão de que o computador possui uma personalidade

Exemplos de Aplicações
Uma “recepcionista” em um site comercial Responder a FAQs (Frequently Asked Questions) Atuar na área educacional dando suporte ao estudo e pesquisa Entretenimento

Exemplo de Diálogo Vendedor: “Olá! O que você está procurando?”
Usuário: “Um notebook para meu negócio de consultoria.” Vendedor: “Por favor descreva se você tem alguma restrição de preços.” Usuário: “Não é muito importante. Estou interessado em alta performance.” Vendedor: “Você está procurando algum notebook topo-de-linha?” Usuário: “Sim, exatamente!” Vendedor: “Acredito que temos o produto certo para você. Clique aqui para ver o MacBook Pro 2.16Ghz”

Como chatterbots são implementados
Frases são entendidas através dos padrões A resposta do chatterbot depende do padrão que casou a frase

Artificial Inteligence Markup Language (AIML)
Linguagem de marcação utilizada para: Definir os padrões compreendidos pelo chatterbot Definir as réplicas de cada padrão Elementos Category: Unidade básica Pattern: Padrão de entrada Template: Resposta do chatterbot <category> <pattern>Olá</pattern> <template> Olá, usuário </template> </category>

Arquitetura Casamento de padrões Raciocínio baseado em casos
Session Log Padrões de Conversação ChatterBot Usuário

Comportamento dos Bots
Iniciativa através de questionamento Partes da pergunta na resposta Manter o diálogo em um mesmo tópico pelo maior tempo possível Iniciar novo tópico em diálogos repetitivos Comentários humorísticos ou controversos sobre tópico

Perguntas, Dúvidas ou Ressentimentos ????????????

Referências Bibliográficas
Gleaning Information from the Web: Using Syntax to Filter out Irrelevant Information, R. Chandrasekar e B. Srinivas, University of Pennsylvania, Philadelphia, PA 19104; Text Summarisatio for Knowledge Filtering Agents in Distributed Heterogeneous Environments, H. Leong, S. Kapur, O de Vel, James Cook University of North Queensland, Austrália; A Brief Comparison of News Filtering Software, Fredrik Kilander, Stockholm University, Sweden; Learning Rules that Classify , William W. Cohen, AT&T Laboratories;

Agent Sourcebook, Alper K. Caglayan e Colin G. Harrison; Message Classification and Filtering, Fredrik Kilander, Stockholm University, Sweden; A Framework for Comparing Text Categorization Approaches, Isabelle Moulinier, LAFORIA-IBP-CNRS, Université Paris VI, France;

Aula da disciplina mineração na WEB relativa à agentes na WEB e recuperação de informação;

Agentes em Recuperação da Informação

Apresentações semelhantes

Apresentação em tema: "Agentes em Recuperação da Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Agentes em Recuperação da Informação

Apresentações semelhantes

Apresentação em tema: "Agentes em Recuperação da Informação"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback