Frederico Brito Fernandes - Agentes Inteligentes - Cin UFPE Novembro 2000.

Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

2  Sistemas tradicionais de Recuperação de Informação (RI) usam termos para indexação e recuperação dos dados (há 20 anos !!!)  Termos são palavras ou conjuntos de palavras de um documento  Indexação  armazenamento da informação nas bases de índice  Recuperação BI docs. termo1 - doc1, doc3,... termo2 - doc41,...... -... Arquivos Invertidos + BI Informação Armazenada = docs. relevantes Necessidade do Usuário (palavras-chave, profile, etc)

3  Stop List  lista de palavras comuns, irrelevantes  Term Frequency-Inverse Document Frequency (TFIDF):  atribuição de peso aos termos Artigos: a, os,... Pronomes: meu, aquele,... Advérbios: muito, bem,...... TF(w): freqüência da palavra w no doc. DF(w): freqüência de w em D D = total de documentos CONNECT CONNECTED CONNECTING CONNECTION CONNECTIONS  Stemming e n-grams  redução de termos. Ex:

4  Precisão  Documentos relevantes retornados dividido pelo número total de retornados  Cobertura  Total de documentos relevantes retornados dividido pelo número total dos relevantes Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados by Flávia (fab@cin.ufpe.br)

5 Outros Conceitos:  Robô (ou spider)  programas que percorrem links na web, geralmente com objetivo de indexá-la  Corpus  conjunto de documentos etiquetados  Filtragem  à partir do profile(gosto) do usuário, documentos interessantes são selecionados  Routing  faz a mesma coisa que filtragem, a medida que os documentos vão sendo adicionados ao Corpus  Arquivo invertido  termos (índices) mapeando os documentos em que aparecem

6  Base de Índice  banco de dados de um sistema de índices  Similaridade  o grau de quanto 2 documentos são semelhantes  Co-Citação (co-citation)  dois documentos são citados por um mesmo documento  Thesaurus  identifica o relacionamento entre termos  Trec (Text Retrieval Conference)  conferência de IR para demonstração de experimentos com grandes banco de dados, banco de dados multimídia, etc

7 Engenhos de Busca Ex: Radix, Altavista BI Índices + URLs Usuário Interface Robôs webweb Documentos + URLs palavras-chave Busca Consulta Casamento de Termos Resultado Stop List indexação recuperação

8  Representação Física de Documentos Textuais Digitais  Texto completo  Difícil de manipular  Centróide - conjunto de termos com pesos associados ou não  Perda de semântica “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade 1 Centróide

9  Motivação: que documentos são relevantes a uma consulta do usuário ? Ou qual o grau de semelhança entre dois documentos ?  Surgiu a necessidade de criar modelos para interpretar e manipular documentos  Representação Lógica (Modelos) de Documentos Textuais Digitais  Framework para manipular e interpretar documentos  Várias abordagens: teoria dos conjuntos, álgebra linear, probabilidade, etc  Ex: Vector Space Mostraremos alguns deles !! doc2 doc1 booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

10  Definição Formal de modelo em IR:  É definido pela quádrupla [ D, Q, ƒ, R(q i,d j ) ] D - visão lógica dos documentos Q - visão lógica da query do usuário ƒ - um framework para modelar essas representações e seus relacionamentos R(q i,d j ) - uma função que associa um número real com uma query q i  Q e um documento d j  D Obs Obs.: Para simplificação, considere Q = D, e R(q i,d j ) = Sim booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Modelos Clássicos de IR:  Booleano  documentos são representados como um conjunto de termos que aparecem no documento  Vector Space  como um vetor em um espaço t-dimensional  Probabilista  baseado na teoria da probabilidade  Derivações:  Booleano  Fuzzy, Booleano Estendido  Vector Space  Vetor Generalizado, Indexação com Semântica Latente, Redes Neurais  Probabilista  Rede de Inferência, Rede de Crença  Alternativo:  Baseado em Links  algoritmos Companion e Cocitation [1] [1] HENZINGER, M. R. & DEAN, J. Finding Related Pages in World Wide Web booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos 11

 D: conjunto de termos do documento, com pesos binários  f: teoria dos conjuntos e álgebra booleana  Sim: apenas retorna 1 (se o termo esta presente no doc.) ou 0  Ex.: sejam os k termos  Vantagem:  Oferece um framework simples e elegante  Desvantagem:  Determinístico: um documento é ou não relevante  Problemas com Precisão e Cobertura: Resultados (muito) grandes ou pequenos e sem uma escala de relevância Booleano k1k2 k3 k1  k2  k3 Documentos relevantes booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos 12

13  D: um vetor  f : espaço vetorial t-dimensional e operações de álgebra linear sobre vetores  As dimensões do espaço vetorial são os termos do documento  Os termos recebem pesos de relevância no documento (negrito, título, etc)  Esses pesos são usados como índices do vetor  Modelo mais utilizado em IR Brasil0.3 Olimpíadas0.5 Sidney0.2 didididi Brasil0.2 Olimpíadas0.4 Sidney0.4 djdjdjdj Vector Space Brasil Olimpíadas Sidney didi 0.2 0.5 0.3 djdj d i = 0.3 Brasil + 0.5 Olimpiadas + 0.2 Sidney d j = 0.2 Brasil + 0.4 Olimpiadas + 0.4 Sidney booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Sim: produto interno / produto das normas Sim = = = 0.28  Vantagem:  Oferece um framework simples e elegante  Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança  Em geral, seu desempenho (precisão e cobertura) supera todos os outros modelos d i d j |d i | · |d j | 0.3 · 0.2 + 0.5 · 0.4 + 0.2 · 0.4 ( 0.09 + 0.25 + 0.04 ) ½ · ( 0.04 + 0.16 + 0.16 ) ½ Vector Space booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos 14

 Baseado no principio probabilístico “ Dada uma query q e um documento d j em uma coleção, este modelo tenta estimar a probabilidade de que o usuário ache o documento d j interessante (i.e., relevante)  Idéia fundamental  Dada uma query, existe um conjunto de documentos relevantes e outro não  Esse conjunto de documentos relevantes tem certas propriedades  Definimos probabilidades associadas a essas propriedades  O usuário interage para definir que documentos foram ou não relevantes  As probabilidades são então melhoradas  Vantagens e Desvantagens:  Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança  Necessidade de separar os documentos relevantes a priori 15 Probabilista booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Combinação do modelo booleano com o vector space  D: um ponto no espaço  f : espaço t-dimensional e distância entre pontos  Sim : distância de d j  D para o ponto 1 (no caso de AND)  Estende o modelo booleano com pesos entre [0,1] w x,j = f x,j · idf x max i idf i 16 Booleano Estendido booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

 Relaxa álgebra booleana e interpreta operações booleanas em termos de distâncias algébricas (tome w x,j como x) Sim = 1 - (1-x 1 ) p + (x 2 ) p +... + (1-x m ) p m 1/p and = 1 - (1-x 1 ) p + (1-x 2 ) p +... + (1-x m ) p m 1/p or = (x 1 ) p + (x 2 ) p +... + (x m ) p m 1/p Distância para o ponto (1,1,...,1) Distância para o ponto (0,0,...,0) 17 Booleano Estendido booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

18  Busca documentos relevantes através do conceito, e não mais apenas por termos:  D: uma coluna da matriz termo-documento ( abaixo)  f : operações com matrizes (ex. transposta t )  Sim: obtido com algumas transformações querydoc1 termodoc2 Doc1Doc2Doc3...Doc N Termo1 w 11 w 12 w 13...w 1n Termo2 w 21 w 22 w 23...w 2n...............w Termo t w t1 w t2 w t3...w tn M M : matriz termo-documento, com pesos nas linhas e documentos nas colunas Latent Semantic Indexing booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

19  Decompondo a matriz em três componentes :  Reduzindo o espaço para dimensionalidade s :  O relacionamento entre os documentos é obtido com : Matriz que nos fornece o fator de similaridade entre Doc1 e todos os outros documentos SimDoc1 Doc1 w 11 Doc2 w 21... DocN w N1 M  =, onde = e = KSDtDt KMMtMt DtDt MtMt M M MsMs  = KsKs SsSs DtsDts MtsMts  = ( ) ( ) t MsMs SsSs DsDs SsSs DsDs Latent Semantic Indexing booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

20  D: um nó na rede  f : rede neural com três camadas kaka kbkb kckc kaka kbkb kckc ktkt k1k1 d1d1 djdj D j+1 dNdN Termos de uma query Termos de D D  Sim: w i,q w i,j ( w 2 i,q ) ½ ( w 2 i,j ) ½  i=1 t  t  t  t w i,q w i,j = w i,q ( w 2 i,q ) ½  i=1 t  t w i,j ( w 2 i,j ) ½  i=1 t  t Propagação 1Propagação 2 Igual ao vector space na primeira passagem Rede Neural booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

21  D: como um nó  f : estrutura de links, e operações como pai(d) e filho(d)  Princípio Básico:  Gráfico da Vizinhança: - a partir de um documento d- d bbb bfbf fbfb ff bfbf bfbf fbfb didi djdj “Se existe um link de d i para d j, então o autor recomenda d j e o link oferece um documento relacionado” - Gráfico de links gerado a partir do nó d, com a ferramenta Connectivity Server - Baseado em Links booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

22  Algoritmo Companion  Construção do Gráfico de Vizinhança  Eliminação de Duplicatas  95% de links em comum e mais de 10 links  Atribuição de pesos aos links:  Calculo do Authority e Hub:  Sim = nós com maiores Authority 1/k 1/j ABC Dados os hosts: - A com 2 nós (k=2) - B com 1 nó (j=2) - C com 2 nós A[n] =  H[n] H[n] =  A[n] Baseado em Links booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

23  Algoritmo Cocitation  Dois nós são co-citados se tem o mesmo pai  Grau de Co-Citação  numero de pais em comum  Sim = nós com maiores graus de co-citação (F, G, E, H) ABCD u EFGH 1321 Baseado em Links booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

24  Conclusões  Grande diversidade de modelos  Modelos híbridos (booleano probabilista, booleano estendido)  Vector Space: mais utilizado e divulgado na literatura  Em termos de precisão e cobertura,  Alguns modelos se mostraram mais eficientes que o Vector Space em domínios especializados  Bases grandes e heterogêneas: não se tem registro de nenhum modelo que supere o Vector Space booleanovetorprobabilista A estrutura montada em Sidney para receber os 15,5 mil atletas... O Brasil conseguiu 6 medalhas de prata e 6 de bronze em Sid... a g n t v k f Modelos

25 Lista de Croft versus Características de Agentes Relevância do Feedback Extração de Informação Recuperação Multimídia Recuperação Efetiva Filtering e Routing Interface e Navegação Expansão de termos Eficiência e Flexibilidade RI Distribuída Soluções Integradas 10. 9. 8. 7. 6. 5. 4. 3. 2. 1. AdaptaçãoCooperaçãoAutonomia - Bruce Croft apresentou na revista D-Lib Magazine em Nov. de 95 [1] a lista dos 10 maiores desafios em RI - [1] http://www.dlib.org/dlib/november95/11croft.html

26  Agentes Baseados em Recuperação de Informação (ABRI) All-in-one Fastfind Metacrawler Metasearch Profusion Savvysearch WebCompass NetBot Jango ShopBot CARROT InfoSleuth Retsina SAIRE UMDL ShopBotMetaBusca Interface Simples para Múltiplas Fontes KnowBot URLAgents EachMovie Firefly GroupLens Morse MovieCritic Phoaks RARE/Tunes ReferralWeb SiteSeer Yenta Colaborativo Adaptação para Usuários e Conteúdo Backweb Marimba Pointcast SIFT TopicAGENTs Fishwrap MyYahoo Syskill and Webert RemembranceAgent Push Interface Adaptativa Pró-Ativo Compreensão de Conteúdo ABRI Bases ( grandes) Distribuídas Especialista em Conteúdo

27 KnowBots  Provê uma linguagem de consulta para acessar várias fontes  ShopBot  e-commerce  MetaBusca  engenhos de busca  Ex: Metacrawler : MetaBusca  Única interface  Consulta vários engenhos de busca  Combina os resultados NetBot Jango : ShopBot  Única interface  Consulta vários sites a procura de determinados produtos: CDs, charutos  Mostra uma lista de produto + preço + site

28 Bases (Grandes) Distribuídas  Corpus dinâmico, medido em MB (ou GB)  Documentos heterogêneos: tamanhos, formatos, linguagens  Arquitetura: Agentes }-{ feedback, consultas documentos feedback, consultas documentos Múltiplos Usuários BI consultas documentos consultas documentos Múltiplas Fontes de Informação

29 Bases (Grandes) Distribuídas  Sobre a arquitetura:  Cada usuário é representado (pelo menos) por um agente, que tem (ou obtém) o perfil ou necessidade do usuário. Problema do Profile do Usuário  As consultas podem ser modificadas (ex. expandida) e enviadas para as bases. Problema do Processamento de Consultas  As bases podem ter diferentes modelos de documentos e consultas. Problema da Heterogeneidade  Documentos de diferentes bases precisam ser comparados e ranqueados. Problema da Fusão de Dados

30 Bases (Grandes) Distribuídas Ex: SAIRE  Scalable Agent-based Information Retrieval Engine  Provê acesso aos dados da NASA EOSDIS  Suporte para leigos e experts  Três variedades de agentes: Interface, Coordenador e Especialista em Domínios  Comunicação entre agentes http://saire.ivv.nasa.gov/saire.html UMDL  University of Michigan Digital Library  Três tipos de agentes:  Interface - consultas e profile  Mediador - planejamento  Buscador - engenhos de busca  O usuário pode navegar através de um applet java, sob uma ontologia de informação desenvolvida por eles http://www.si.umich.edu/UMDL/

31 Filtragem Colaborativa  Um sistema de filtragem colaborativo faz recomendações a um usuário de acordo com o grupo de usuários similares a ele  Recomenda:  Pessoas - Yenta, ReferralWeb  Produtos - Firefly, Similarities Engine, Tunes (music), EachMovie, Morse, RARE, MovieCritic (movies & videos)  Leituras - Wisewire, Firefly, Fab, Phoaks Baseado em Conteúdo vs. Recomendação Colaborativa Documento recomendado Documento gosta similar a Recomendação Baseada em Conteúdo Recomendação Colaborativa

32 Filtragem Colaborativa Ex: FAB  recomenda sites usando técnicas de RI adaptativa  Agente: coletor, selecionador e enviador  Feedback do usuário: adaptar profile e dar(tirar) crédito aos agentes  Um algoritmo genético é usado para desenvolver a população de agentes coletores Http://fab.stanford.edu Firefly  Aplicado a música, filmes, sites, livros, etc  Usa vários conjuntos de vizinhos para aumentar a precisão  Recomenda usuários que não gostam de um site, ou um site que um dado usuário não gosta  Comprada pela Microsoft, Abril 98

33 Interface Adaptativa Ex: SysKill & Webert  controla o browser adicionando painéis  Facilita ao usuário avaliar um site como bom ou ruim a respeito de uma das várias classes definidas pelos usuários  Pode estimar quais sites o usuário poderia gostar

34 Pró-Ativo Ex: Remembrance Agent  Indexa arquivos pessoais e e-mails  Sugere arquivos relevantes à tarefa que o usuário está executando  Opera continuamente Letizia  Agente que navega semelhante ao usuário  Usuários geralmente navegam em profundidade, enquanto Letizia navega em largura  Usa uma variedade de heurísticas para identificar sites interessantes  Quando um site interessante é encontrado, é mostrado em uma janela diferente

35 Pró-Ativo PUSH Ex: TopicAGENTs  Provê uma visão do agente das tarefas de recuperação de informação para o usuário  Tarefas: filtragem, categorização, routing  Variedade de serviços de envio:  Sites  Entrada no banco de dados  E-mail  Fax

36 Conclusões  Vantagens de Agentes baseados em Recuperação de Informação:  Manipulam dinamicamente bases heterogêneas e distribuídas  Melhoram a performance via agentes especializados  Podem adaptar-se aos interesses e preferências dos usuários  Tecnologias já disponíveis:  Linguagens e protocolos de comunicação entre agentes. Ex: KQML  Métodos e algoritmos de Machine Learning  etc.  Futuro:  Melhorar o processamento e representação de metadados  Habilidade para manipular mídias: imagens, sons, vídeos, etc  Fusão inteligente de bases heterogêneas

37 CIn-UFPE  Em desenvolvimento no CIn-UFPE  Ajuda o usuário a encontrar documentos semelhantes ao que ele está consultando/editando no momento  Plataformas: IE, Netscape e Microsof Word  Compara o conteúdo de dois documentos  Representa um aumento na precisão dos documentos recuperados  Extremamente útil na Intranet de uma empresa:  Padronização dos documentos  Business da empresa  Facilidade para o funcionário encontrar documentos similares ao que está editando.  Economiza tempo dele mesmo e de outros

38 Netscape Active Search Radix Google }-{ Ontologia Doc Ps Html... Web Servidor de Consulta Intranet Internet Interface Internet Explorer MS Word Centróide Doc.Atual -------- --- Algoritmo de Similaridade Algoritmo de Similaridade StopList Preparação do Documento Preparação do Documento Atual Centróides Buscados -------- --- Algoritmo de Busca Algoritmo de Busca query Lista URLs similares Arquitetura

39 Protótipo

40 Próximos Passos...  Estudar e implementar mais modelos de representação de documentos (medidas de similaridade)  Realizar medições da qualidade das respostas para os diferentes modelos  Precisão, cobertura, f-measure, etc  Estudar e implementar técnicas de filtragem e clustering

41  Recuperação de Informação  BAEZA-YATES, Ricado, RIBEIRO-NETO, Berthier. Modern Information Retrieval  JONES, Karen S., WILLET, Peter. Readings in Information Retrieval  http://www.cs.kun.nl/is/edu/ir1/dir.htm  http://www.ils.unc.edu/viles/inls172-s99/172-Syll-S99.html  http://www.pitt.edu/~korfhage/glossary.html  Agentes baseados em Recuperação de Informação  http://www.cs.umbc.edu/abir/

Frederico Brito Fernandes - Agentes Inteligentes - Cin UFPE Novembro 2000.

Apresentações semelhantes

Apresentação em tema: "Frederico Brito Fernandes - Agentes Inteligentes - Cin UFPE Novembro 2000."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Frederico Brito Fernandes - Agentes Inteligentes - Cin UFPE Novembro 2000.

Apresentações semelhantes

Apresentação em tema: "Frederico Brito Fernandes - Agentes Inteligentes - Cin UFPE Novembro 2000."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback