Patrícia Nunes Pereira Professor: Geber Ramalho Agentes na Internet Patrícia Nunes Pereira Professor: Geber Ramalho
Tópicos Motivação Introdução Categorias de Agentes Foco: Filtragem de Informação IR - Recuperação de Informação Categorização de Textos Exemplos Discussão Referências e Links
Motivação Rápido crescimento do volume de informações disponível na Internet Dificuldade em localizar documentos relevantes Alto consumo de tempo Síndrome da Nau perdida TOO MUCH INFORMATION = NO INFORMATION
Introdução Bum da Internet: Agentes inteligentes na Internet: Þ Grande volume de informação, diversificada, não estruturada, multilíngue, ... Agentes inteligentes na Internet: Þ Automatizar a busca e recuperação de informações
Categorias de Agentes Agentes de Busca Agentes que Filtram Informação Agentes de Entrega Off-line Agentes de Notificadores Agentes de Comércio na Web Chatterbots ...
Agentes de Busca Web Search Engine Usuário Busca Servidor de Consultas )--( Base de Índices Robô Browser Consulta Resposta Search Engine Usuário Indexing Engine Busca Web
Agentes de Busca Atributos: Precisão X Recall Características: Esforço consciente para encontrar informação Entrada: palavras chave Descarta links menos relevantes Não há garantia da qualidade da informação Vários exemplos (robot-based): WebCrawler, Lycos, Altavista,...
Agentes que Filtram Informação Servidor News Artigos Indexados Browser Agente de Filtragem Perfil do usuário Indexing Engine Internet
Filtragem de Informação RI + Interesses do usuário = Informação Relevante Perfil do usuário: Estático ou Dinâmico Problemas: Indexação; Linguagem Natural: resolução de fenômenos lingüísticos Sinonímia (R=Gerador de sinônimos) Polisemia (R=Indexação por significado) Objetivo: Evitar a perda de documentos relevantes e a recuperação de documentos irrelevantes!
Filtragem de Informação Tentativa de resolver parcialmente os problemas associados à recuperação de informação dos keyword-based systems. Características: Extração dos conceitos salientes do conjunto de documentos Aprendizado do perfil do usuário
Filtragem de Informação (Extração de Conceitos salientes em Documentos) Abordagem PLN: Sumarização de Documentos Formato particular é Self-Consuming Heurísticas de freqüência das palavras: TFIDF - Associa pesos às palavras TFIDF(w) = TF(w) * (LOG(|D|) - LOG(DF(W))) HT Paradigm Sumarização Hierárquica é Solução para Polisemia
Categorização de Textos Tarefa bastante custosa, se manual Aplicação do domínio de ML Categorias pré-definidas Suporte à IR Rápido crescimento de informações textuais na Web í Necessidade de processamento Abordagem ML para classificação: åUsa indução sobre amostras pré-classificadas
Categorização de Textos Visão unificada: Categ. Textos = ML + IR + Conhec. Adicional Texto inicial Categorização Indução Conhecimento Adicional Representação Inicial Redutor de Dimensão ou Seleção de Características Representação Final
Categorização de Textos Construção indutiva de categorizadores Textos é Exemplos para aprendizagem Aprendizado: Numérico (maioria)- Ex.: Redes Neurais, Classificadores Probabilísticos, Regressão Linear, ... Simbólico - ID3, Espaço de Versões, ... Características a serem consideradas: modularidade, inteligibilidade, resistência a ruídos,...
Categorização de Textos Impacto do conhecimento Três faces: IR e Aprendizagem Numérica: extraído dos dados Conhecimento do Domínio: aplicação específica Raciocínio Indutivo: fonte de conhecimento Conhecimento para: Gerar indexação Agrupar categorias Discriminar candidatas a palavras-chave
Filtragem de Informação Exemplos BORGES (A. F. SMEATON, 1996) Usuário precisa especificar palavras ou frases descrevendo suas necessidades de informação Oferece solução para Polisemia - WordNet Extensão do perfil do usuário com os termos relacionados ao significado sem ambigüidade
Filtragem de informação Exemplos WebWatcher (WebWatcher 1996) Usuário identifica palavras-chave Duas páginas estão relacionadas se há uma terceira página que aponta para elas Medida de similaridade: mutual information
Filtragem de informação Exemplos LAW (Bayer 1995) Monitora ações do usuário para distinguir documentos relevantes Monta o perfil do usuário Robô autônomo busca por documentos relevantes þ Sugere links interativamente
Filtragem de Informação Exemplos - Crítica Focam no aprendizado do perfil do usuário Baseados no modelo espaço-vetorial Não há muitas considerações sobre técnicas de PLN extensivas Virtualmente impossível isolar informações relevantes
Filtragem de Informação Exemplo SAMURAI (H. Leong, S. Kapur, O de Vel, 1997) Módulos: Sumarização de Texto Monitoração e Modelagem do usuário Search Engine = Web Search + Perfil do Usuário Filtragem de links irrelevantes Compilação dos resultados
Discussão O que é um Agente “inteligente”? Qual o futuro dos Agentes no mundo real?
Links http://www.ece.curtin.edu.au/~saounb/bargainbot/ articles.html http://www.firefly.com http://www.sics.pe/ps/abc/survey.html http://www.dsv.su.se/~fk/if_Doc/IntFilter.html http://www.lcs.media.mit.edu/groups/agents/ resources.html http://www.cs.umbc.edu/agents http://www.iit.nrc.ca/bibliographies/ml-applied-to-ir.html
Referências [1] Gleaning Information from the Web: Using Syntax to Filter out Irrelevant Information, R.Chandrasekar e B. Srinivas, University of Pennsylvania, Philadelphia, PA 19104, 1997; [2] Text Summarisation for Knowledge Filtering Agents in Distributed Heterogenous Enviroments, H. Leong, S. Kapur, O de Vel, James Cook, University of North Queensaland, Austrália, 1997; [3]A Framework for Comparing Text categorization Approaches, Isabelle Moulinier, LAFORIA-IBP-CNRS, Université Paris VI, France, 1997
Referências [4]Agent Sourcebook, Alper K., Cagland e colin G. harrison; [5] Internet Agents, Fah-Chun Cheong, MIT Media-Laboratory, Cambridge, MA, 1994; [6]Learning and revision User Profiles: The Identification of Interesting Web Sites, Michael , Pazzani, Daniel Billsus, University of California, Irvine, Irvine, CA 92697, 1997 [7] Learning Information Retrieval Agents: Experiments with Automated web Browsing, Marko balabanovic e Yoav Sholan, Stanford University, 1995