A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI.

Apresentações semelhantes


Apresentação em tema: "Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI."— Transcrição da apresentação:

1 Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI - Laboratório de Controle e Microinformática Pós-Graduação em Inteligência Artificial Projeto PROBAL Projeto PROBAL UFSC - Universität Karlsruhe (Alemanha)

2 Fred Freitas - LCMI - DAS - UFSC Roteiro n Problemas de Busca na Internet n Técnicas existentes n Princípios da solução proposta n Justificativa para Multiagentes para Extração n Implementação –Técnicas, experimentos, avaliação n Trabalho futuro

3 Fred Freitas - LCMI - DAS - UFSC Problemas de Busca na Internet: Tamanho n Enorme quantidade de páginas –Solução : distribuir –Não apenas um robô de busca, mas vários –Brokering, indexadores e índices distribuídos, como o Bright!

4 Fred Freitas - LCMI - DAS - UFSC Problemas de Busca na Internet: Semântica n A abordagem estatística e necessariamente uma pobre substituta da abordagem baseada em conhecimento [Croft 93] n Não dá para contextualizar toda a Internet (Raciocínio de Senso Comum e PLN) de uma vez n Engenharia de conhecimento –Combinar informações por problema, situação e usuário, complementando IR [van de Velde 95]

5 Fred Freitas - LCMI - DAS - UFSC Busca na Internet Busca na Internet PLNES BD ML SMAReativo SD Ags.cog nitivos nitivos Recuperação de Informações (IR) StemmingWordNetHiperônimosSinônimosParsing Modelagem do Usuário,PDAs (Estatística,Aprendizado e CBR) InteligênciaArtificial Mecanismos de Busca distribuídos Bright! Mediação,Planejamento ComputaçãoTradicional Robôs RobôsDistribuídos TaggingWrapping ? Integrar BDs Estruturar págs Robôs,Java Ontologias CFP Finder

6 Fred Freitas - LCMI - DAS - UFSC Problemas de cada solução Problemas de cada solução PLNES BD ML SMAReativo SD SMAcognitivo Ags.cog nitivos nitivos Recuperação de Informações (IR) Alto custo computacional sem benefício correspondente Ausência de contexto e estrutura ComputaçãoTradicional Aquisição de conhecimento Normalização InteligênciaArtificial

7 Fred Freitas - LCMI - DAS - UFSC Avaliação das abordagens

8 Fred Freitas - LCMI - DAS - UFSC Princípios: Contexto n As palavras dos textos podem ganhar mais semântica, se interpretadas de acordo com o contexto (agregar valor). n Aplicar o máximo de conhecimento a priori e heurísticas. Conhecimento sobre: –Localização –Informações esperadas –Estrutura de tópicos –Estilo de composição das páginas

9 Fred Freitas - LCMI - DAS - UFSC Princípios: Memória e Concorrência n Não desperdiçar esforços na interpretação das páginas. –Ao tratá-las, passar apenas uma vez por página. n Os requisitos de Contexto e Memória levam naturalmente ao uso de abordagens baseadas em conhecimento explícito (agentes cognitivos). n Agentes podem ser dotados de adaptabilidade, apresentando robustez a informações e situações não previstas de antemão. n O requisito de Concorrência leva ao uso de Sistemas Multiagentes Cognitivos.

10 Fred Freitas - LCMI - DAS - UFSC Lição aprendida de IA : Dividindo para conquistar n Todo o conhecimento humano está armazenado numa só coleção ? Deve-se encontrar carros à venda em sites de.edu ? n Porque os testes da área são sempre sobre corpora homogêneos ? –Nenhuma solução é geral –Restringir a domínios

11 Fred Freitas - LCMI - DAS - UFSC Como prover contexto n O usuário está atrás de informação útil e não de páginas! n Buscam-se normalmente as mesmas informações. n Ao invés de Recuperação, Extração de Informações (nova área) Baseada em Conhecimento (nossa novidade). n Construção de BDs de informações úteis a partir de paginas estruturadas. n Consultas semanticamente bem definidas podem combinar informações de vários sites. n Solução atual : –Wrappers : Extratores de textos baseados em gramáticas n Pobres, exigem informação muito estruturada

12 Fred Freitas - LCMI - DAS - UFSC Utilidade de BDs sobre a Web n Dá pra fazer consultas como essa na Web? –Achar carros vermelhos a partir de 93, por menos de 5000 n Select * From Car Where Color=red And Year >= 1993 And Price = 1993 And Price < 5000 n Motivo da impossibilidade [Campbell et al 98]: – Buscas baseadas exclusivamente em palavras chaves e freqüências.

13 Fred Freitas - LCMI - DAS - UFSC Extratores Atuais Descriptor/String/Position(start/end)Year|97|1|3Make|CHEV|5|8Model|Cavalier|10|17Feature|Red|20|22 Feature|5 spd|25|29 Mileage|7,000|37|41KEYWORD(Mileage)|miles|43|47Price|11,995|108|114PhoneNr| |146|153 '97 CHEV Cavalier, Red, 5 spd, only 7,000 miles on her. Previous owner heart broken! Asking only $11,995. #1415. JERRY SEINER MIDVALE, n Wrappers são gerados automaticamente. n Baseados em aprendizado automático ( machine learning), adaptam-se rápido a formatos diferentes. n Mas, usam sintaxe, no reconhecimento, não semântica... n Porisso, não permitem inferência nem cooperação! [Campbell et al 98]

14 Fred Freitas - LCMI - DAS - UFSC As Classes de Páginas n Unidade Básica da Internet: –Texto sem estruturação formal n Mas, há classes de páginas com alguma estrutura –Ex: Calls for papers, pesquisadores, dados da bolsa, etc n As classes possuem ainda Similaridade estrutural – O estilo de composição das páginas de uma mesma categoria do Yahoo (que é manual!) possui fatos relevantes que podem ajudar a diferenciá-las das outras áreas [Cruz et al 97].

15 Fred Freitas - LCMI - DAS - UFSC Cooperando produtivamente n Um só agente resolve? –A Internet é muito grande e diversa. –O domínio de atuação de um agente não pode ser irrestrito. n Clusters - Conjuntos de classes fortemente conectadas entre si, através de links. n Cada agente que trata uma classe de páginas coopera com os outros, identificando links e outras informações, que interessem a estes. n Sistema Multiagente Cognitivo: Um tipo de conhecimento para cada agente diminui a complexidade e aproveita a concorrência. n Resolução Distribuída de Problemas (RDP).

16 Fred Freitas - LCMI - DAS - UFSC Tecnologia disponível baseada em conhecimento explícito n Capacidade de inferência n Protocolo peer-to-peer –Comunicação a nível de conhecimento n Ontologias Reusáveis –Repositórios de conhecimento reaproveitados –Em IR, pouco se aproveita do trabalho alheio, só as estatísticas.

17 Fred Freitas - LCMI - DAS - UFSC Experimentos n CFP Finder: agente para recuperar, armazenar e classificar por área e extrair informações relevantes de páginas de Calls for Papers. –Resultados promissores com poucas regras. –86% no reconhecimento. n Robô aproveita consultas dos engenhos de busca –Altavista, Excite, InfoSeek,...

18 Fred Freitas - LCMI - DAS - UFSC Possível arquitetura de Mecanismos de Busca WEB Robô... Mec. Busca Thesaurus semântico Ex:WordNet Índices Ontologias Ag. Construtor Ontols. Ex: IMPS Links, Links, Conhecimento Conhecimento Links + pags

19 Fred Freitas - LCMI - DAS - UFSC Técnicas empregadas - Básicas n Análise Léxica (tokens),Stop-lists, stemming, ranking n Tagging - PLN –Determina regiões num texto. –EX do FAQ Finder [Burke et al 96] n Wrapping –Gramáticas para reconhecer e capturar informações dentro de um determinado formato. –Ex: Datas QUE :QUE When do I have to change oil ? :QUE:ANS After...

20 Fred Freitas - LCMI - DAS - UFSC Ontologias Página PáginaWWW PáginaGopher PáginaHTMLPáginaPS PáginaCFP (deftemplate Pagina (slot Ano ) (slot Nome) (slot URL) (slot Formato)...) (defrule PagHTML Se a pagina é HTML (formato ?x) (eq ?x html) =>.... )

21 Fred Freitas - LCMI - DAS - UFSC Funcionamento de um agente Regras de validação Pré-process.:stemming, tagging, indexação, etc URLs Atualização nos slots da Ontologia da Página Regras de reconhecimento Categorização baseada em ontologias Extração de infs relevantes dos documentos Base Dados* Onto logias URLs válidas Inválidas Fila de URLs(ALTAPrioridade) URLs(BAIXAPrioridade) Robô KQML Biblio teca * - contém estatísitcas OutrosAgentes

22 Fred Freitas - LCMI - DAS - UFSC Técnicas empregadas - Avançadas n Princípio Huhns-Singh para agentes: – Um agente deve mudar de comportamento quando outro agente entra no ambiente. n Modelo baseado no InfoSleuth [Bayardo et al 96] –Um novo agente se anuncia dizendo que paginas e links quer e recebe dos outros o que eles querem n Java +JDBC, HTML, BDs, JESS, KQML (JATLite). CLIPS ou KIF(ACL).

23 Fred Freitas - LCMI - DAS - UFSC Metodologia de Avaliação n 1. Obter boas performances com cada agente n 2. Testar se a cooperação melhora a performance, já que: –Há um número significativo de links errados vindos dos robôs –O overhead de reconhecimento de informações para outros agentes é baixo n A cooperação facilitará também o monitoramento –Ex: Papers por conferência, autor,... n O processo inicial de troca de mensagens de identificação entre os agentes não será considerado na mensuração da performance.

24 Fred Freitas - LCMI - DAS - UFSC Ontologias comuns a todos os agentes n Classes Página, PáginaWWW e outras. n Talvez devam conter até os centróides : –De palavras-chave (com ordem, para identificar termos) –De tags HTML (para avaliar a estrutura). n Ontologia do domínio: –No nosso caso, o domínio científico n áreas n papers n CFPs n pesquisadores n órgãos n eventos n etc.

25 Fred Freitas - LCMI - DAS - UFSC Ontologias de cada agente n Classes específicas das páginas de que trata n Regras de Reconhecimento n Um subconjunto de regras de reconhecimento e classes para os outros agentes lhe indicarem páginas e links n Regras e classes para indicar páginas e links para os outros agentes n Regras de extração e categorização

26 Fred Freitas - LCMI - DAS - UFSC Passos futuros n Imediatos: –Conhecimento declarativo para a inferência: JESS –Técnicas de IR: stemming, tagging, ranking,... –Heurísticas : título, pesos de palavras, termos... –Nomes próprios e de cidades –Definir as gramáticas e os dicionários –Tratar sites –Concorrência: threads (ver como dividi-las).

27 Fred Freitas - LCMI - DAS - UFSC Passos futuros n Médio Prazo: –Incluir outros agentes (pesquisadores, papers,...) –Troca de mensagens (KQML ?) –Aproveitar informações de organização das URLs –Incluir aprendizado e conseqüente feedback do usuário, para facilitar a aquisição do conhecimento –Definir métricas de avaliação –Buscar no BD com IR [Cohen 95]


Carregar ppt "Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI."

Apresentações semelhantes


Anúncios Google