A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Agentes de Busca na Internet Fred Freitas Mêuser Valenca.

Apresentações semelhantes


Apresentação em tema: "Agentes de Busca na Internet Fred Freitas Mêuser Valenca."— Transcrição da apresentação:

1

2 Agentes de Busca na Internet Fred Freitas Mêuser Valenca

3 Sumário 4 Agentes de Busca 4 Estratégia de Busca 4 Histórico de Robôs 4 Robôs não-inteligentes -WebCrawler -Lycos 4 Arquitetura : BRight! 4 Diretrizes ao escrever um robô 4 Prevenindo-se contra robôs 4 Robôs com IA : assistentes 4.Internet Softbot,.Letizia,.Info Agent,.Internet Consultant 4 IA na Web : SHOE

4 Agentes de Busca na Web Necessidade de Agentes na Web 4 O volume de Informações é imenso. 4 O tipo e a qualidade da informação varia largamente. 4 Informações altamente dinâmicas. 4 O usuário atravessa muitos links até encontrar o que deseja. 4 O surfe deixa muitos usuários perdidos.

5 Agentes de Busca na Web 4 Conceito: são sistemas que utilizam Robôs que atravessam o hyperespaço da WWW em nome do usuário. 4 Funcionalidade - Robô empregado. 4 Buscas (indexação) - Booleana e Vetorial. 4 Atributos - precision e recall.

6 Agentes de Busca na Web Arquitetura 4.4. Database Search Engine Query Server Agents Internet Webspace

7 Agentes de Busca na Web Robôs na Web (não inteligentes) 4 Worm - Oliver McBryan (03/94) - Primeiro Spider largamente utilizado - Indexa apenas título e cabeçalho. 4 RBSE( Repository Based Engineering) - (02/94) - Primeiro Spider a indexar por conteúdo - Objetivo de capturar mais informações.

8 Agentes de Busca na Web WebCrawler 4 Projeto - Brian Pinkerton (U.Washington-Seattle) 4 Apresentado - 04/94 c/ base de dados inicial 6000 servidores, respondendo 6000 perguntas/dia sendo atualizado semanalmente. 4 Funções - Indexação de Documentos e Navegação em tempo real.

9 Agentes de Busca na Web WebCrawler-Características 4 Utiliza sistema de indexação detalhado do texto. 4 Não sobrecarrega a rede, a carga ocorre somente no servidor. 4 Usa uma estratégia de busca em largura. 4 Seu Robô cumpre os padrões - Consenso.

10 Agentes de Busca na Web WebCrawler-Algorítmo 1. Inicia com conjunto conhecido de documentos. 2. Descobre novos documentos. 3. Marca os documentos que são retidos (adicionados para a base de dados de índices). 4. Descobre seus links. 5. Indexa o conteúdo do documento(título,cabeçalho, linhas de texto, data de modificação, tamanho do arquivo)

11 Agentes de Busca na Web WebCrawler-Mecanismo de Busca 4 Modo Indexação- Tantos servidores quanto possível. 1.Novo servidor encontrado - lista de visita imediata. 2.Um documento de cada novo servidor é retido e indexado antes de visitar algum outro. 3.Quando não há novos servidores, procura nos que já tem até encontrar 1.

12 Agentes de Busca na Web WebCrawler-Mecanismo de Busca 4 Modo de Busca 1.Consulta índice-similaridade 2.Desta lista os mais relevantes são escolhidos e os links inexplorados são seguidos. 3.Novos documentos recuperados/indexados outra consulta. 4.Resultados são escolhidos por relevância e novos documentos próximos ao topo da lista são candidatos a próxima exploração.( fish search) 5.O processo continua até encontrar suficiente documentos similares para satisfazer o usuário ou até um tempo limite.

13 Agentes de Busca na Web WebCrawlers 4 AGENTES. - Utiliza 15 agentes em paralelo. - Cada novo documento é entregue a um agente que recupera a URL. - Um agente qualquer responde ao mecanismo de busca com um objeto contendo conteúdo ou explanação porque o documento não pode ser recuperado, ficando livre.

14 Agentes de Busca na Web WebCrawlers 4 DATABASE. - Atualizada após algumas 100 de documentos. - Indexa por palavra(relevância)- palavras que aparecem frequentemente no documento e infrequentemente no domínio de referência são atribuídos maior peso. - Cada objeto é armazenado numa árvore binária em separado : documentos, servidores e links.

15 Agentes de Busca na Web WebCrawlers 4 QUERY SERVER - Usuário entra com uma palavra chave. - Os títulos e URLs de documentos contendo algumas ou todas as palavras são recuperadas do índice. - É apresentada ao usuário lista ordenada por relevância. - Relevância - é uma média ponderada do peso da palavra no documento e seu peso na pergunta.

16 Agentes de Busca na Web Lycos 4 Projeto - Dr Michael Mauldin ( Cornegie Mellon-08/94) 4 Lycos(06/95) - características: 5 M URLs, 1,2 M Documentos, 3,9 M URLs a explorar, 1,8 B sumários. 4 Busca em profundidade. 4 Explora os espaços - HTTP, FTP e Gopher 4 Ignora os espaços/ extensões - Wais, Telnet, Usenet etc. - exe, gif, gz, tar, wav etc.

17 Agentes de Busca na Web Lycos - Indexação 4 OBJETIVO - reduzir armazenamento. - Título, cabeçalho e Sub mais importantes palavras(TF*IDF). - Primeiras 20 linhas. - Tamanho em bytes e Número de palavras.

18 Agentes de Busca na Web Lycos - Seleção de palavras 4 TF (frequência) = número de ocorrências de um termo particular na coleção de N documentos. 4 DF (frequência no documento) = é o número de documentos no qual o termo particular ocorre. 4 DF (inverso da frequência no documento) = medir quão bom um termo particular é para discriminar um documento.

19 Agentes de Busca na Web Lycos - Algorítmo 4 Quando 1 URL é recuperada, procura por outros links e coloca numa fila interna 4 A escolha da próxima URL a explorar é aleatória entre - HTTP, FTP e Gopher, colocadas em fila por ordem de preferência. 4 Preferência - Documentos populares (com muitos links) e menores URLs (explorar a raiz)

20 Arquitetura do BRight! Brokers Servidores de Índices Web

21 Escalabilidade Servidores Web Menor carga de trabalho para indexação Robôs Indexadores Escopos mais restritos Canais de Transmissão Menor tráfego redundante Usuário Escolha transparente de servidores de índices

22 Diretrizes ao escrever um robô 4 QUESTIONAR : É necessário ? Posso arcar com essa responsabilidade ? 4 Não descer muitos níveis. 4 IDENTIFICAR seu robô e a si próprio. 4 Anunciá-lo antes de disponibilizá-lo. 4 Avisar aos administradores se ele visitará poucos servidores e também seu provedor. 4 Testar localmente antes, extensivamente.

23 Diretrizes ao escrever um robô 4 NÃO APROPRIAR-SE dos servidores :O robô deve ir devagar e alternando vários servidores. 4 Processar apenas os dados que interessam : tipos de arquivos, data dos arquivos. 4 Não rodá-lo com freqüência, tentando buscar novos links. 4 Rodá-lo em horário oportuno.

24 Diretrizes ao escrever um robô 4 Evitar armadilhas : círculos, formulários e URLs sem trailing. 4 Controlá-lo : Interatividade e um log-BD público com estatísticas de sucesso, hosts acessados recentes e tamanho de arquivos. 4 Ética : respeitar o princípio de exclusão. 4 Avisar aos administradores sobre links com erros.

25 Prevenindo-se contra robôs # /robots.txt # mail webmaster for critics User-agent: webcrawler Disallow: User-agent: lycra Disallow: \ User-agent: * Disallow: \tmp Disallow: \logs

26 Dotando robôs de IA:Assistentes 4 Metáfora: Na estrada da informação, o robô é um táxi-cicerone. 4 Comércio:domínios fechados, acessam BDs conhecidos (informação estruturada). 4 Notificadores, delegados pelo usuário, com um modelo dele(às vezes com aprendizado). 4 Normalmente proativo,tem algo de IA :PLN planejamento, metas, função de avaliação.

27 Assistentes : Internet Softbot 4 Perfil do usuário,proativo(sugestões). 4 Acessa BDs conhecidos. 4 Meta, auto-início (reativo), não-móvel. 4 Interface gráfica expressiva:conjuncões, disjuncões,negacão e quantificadores. 4 Linguagem lógica interna e planejamento. 4 Incipiente refinamento de planejamento. 4 Futuro:PLN,aprendizado e multiagentes.

28 Assistentes : Letizia 4 H.Lieberman-MIT-Macintosh Clisp. 4 Imita o comportamento do usuário, baseado em preferência, não em relevância. 4 Segue o usuário e tenta antecipar o que é de interesse, com heurísticas simples e metas. 4 HP dinâmica e acessível, com sugestões. 4 Aproveita o tempo inútil e é ético.

29 Assistentes : Letizia 4 Behavior-BR - justificativas ! - IR/IF e OO. Interesse:seguir um link ou revisitá-lo, ou acessar muitas páginas sobre um assunto. 4 Desinteresse: desprezar um link ou retornar. 4 Persistência de interesse e esquecimento. 4 Achados ao acaso: tenta descobrir interesses não-óbvios.

30 Assistentes pessoais : Info Agent 4 Genérico,extensível,filos.OO e orientado a usuário. 4 Interface interage c/ usuário,dinamicamente modela- -o e comunica-se com os outros agentes (KQML). 4 Servicos internos:suporte(impressoras,traducão,etc). 4 Agente de busca externa : Harvest E/OU outro. Delegação Servicos Internos Usuário Interface Busca externa

31 Assistentes : Internet Consultant 4 Agente Interface PLN c/ pragmática : interpreta e modela o usuário e extrai metas. 4 Planejador : Gera e executa planos para atingir as metas. 4 Informações:Busca as fontes e recupera as informações desejadas. GeradorLN PAU Analisador Metas BC MU Rec. Domínios Instrument. Gerador de Broker de Planos Recursos Executor

32 Assistentes : Internet Consultant 4 M.Inaba - Honolulu - Macintosh Clisp e MERA-CLOS. MERA : linguagem diagramática,vinda de E-R, com hierarquias semânticas e herança a la Java. 4 Pode atuar como tutor inteligente. 4 Reusa mec.de busca : Lycos, WebCrawler... 4 Modelo do usuário:Iniciante, médio e expert, reconhecido pela terminologia, ferramentas usadas,tarefas,etc.Resposta p/ cada modelo.

33 IC : Classes de Comunicação 4 Humano-agente : conjunto de classes de Pessoas, classes de Agentes e relações (msgs). Comunicação definida pela subclasse da entidade ato locucionário (Q,O,T) e as relações de comunicação (Query, Proposition, Speaker e Listener). 4 Agente-agente:rels. Receptor,Remetente e Obj. 4 Agente-recurso : relações Usa e Consome.

34 Internet Consultant : Conclusões 4 KB:vocábulos ingleses, padrões de questões do usuário, informações sobre servidores e operadores para planejamento do controle dos browsers. 4 Futuro:diálogos,comunicação em HTML, variedade de tarefas, mobilidade, aprendizado do modelo de usuário. 4 Performance ?

35 Dotando a WWW de IA : SHOE 4 Simple HTML Ontology Extensions - Sean Luke - Universidade de Maryland Motivação : Difícil combinar info parcial... HTML/HTTP preocuparam-se com apresentação e navegação, não com busca semântica(só léxica).Robôs c/inferência em ambiente difícil, PLN ainda não resolve. Onde está o relacionamento entre páginas ?

36 Dotando a WWW de IA : SHOE 4 Achar a Home-Page do Sr. ou Sra. Cook que trabalham na mesma empresa, no projeto ARPA Se perguntar por Cook, milhares de respostas... (Culinária :) ) e não consegue-se achar a Home-Page do Sr. Cook desse projeto :( 4 O que fazer ??

37 Dotando a WWW de IA : SHOE 4 Solucão:Não apenas palavras-chave, mas conj. oficial de atributos/relações(ontologia) 4 HTML:REL,REV,CLASS e META. 4 Dobson/Burill-95:E/R,atributos s/semântica. 4 SHOE:é-um,hierarquia de classes (mais importante que relacionamentos) e inferência(estrutura p/reflexividade, fechamento transitivo e outras regras). 4 Novo problema:veracidade das afirmações.

38 Definições em SHOE 4 Ontologias específicas e gerais em HTML. Ex: Person is-a thing. 4 Entidades em docs/subdocs,rels. e atributos. 4 Herança entre ontologias. 4 Instanciamento entidade/ontologia. 4 Robô Exposé (Evett-95) em Macintosh Clisp, C e PARKA - Univ. Maryland.

39 Definindo ontologias em SHOE

40 Instanciando em SHOE ... < RELATION=our.marriedTo TO=http://www.cs.umd.edu/~helena> < RELATION=our.employee FROM=http://www.cs.umd.edu/>

41 Instanciando em SHOE No texto: Meu nome é George Cook e moro... < RELATION=our.marriedTo TO=http://www.cs.umd.edu/~George>

42 SHOE : Consulta ao robô Exposé Com o auxílio da interface gráfica, chegamos a : (query (:and (#!instanceOf ?X #!Person) (#!instanceOf ?Y #!Person) (#!instanceOf ?Z #!Organization) (#lastName ?X Cook) (#lastName ?Y Cook) (#employee ?Z ?X) (#employee ?Z ?Y) (#marriedTo ?X ?Y) (#involvedIn (z,ARPA ) ))

43 Discussão 4 O que é melhor : Um só agente ou muitos (Resolucão Distribuída de Problemas) ? 4 O que é melhor : Dotar agentes-assistentes de IA ou dotar a WWW de IA ?

44 Bibliografia 4 Harrison,C.,Caglayan,A.,Agent Sourcebook,Jonh Wiley,97. 4 Koster,M.,Guidelines for Robot Writers,93. 4 Koster,M.,The Web Robots FAQ..., 4 Koster,M.,Robots in the Web:threat or treat?,NEXOR,95 4 Hermans,B.,Intelligent Software Agents on the Internet. 4 Lieberman,H.,Letizia:Na Agent that assists Web Browsing,MIT,95.

45 Bibliografia 4 Rhodes,B Starner,T.,Remembrance Agent-A continuously running automated information retrieval system,MIT,96 4 Inaba,M.,Internet Consultant: An Integrated Conversational Agent for Internet Exploration,Hawaii,95. 4 Luke,S.et al,Ontology-Based Knowledge Discovery onthe World-Wide Web,UMBC,96.


Carregar ppt "Agentes de Busca na Internet Fred Freitas Mêuser Valenca."

Apresentações semelhantes


Anúncios Google