Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI.

Slides:

Advertisements

Apresentações semelhantes

Lógica Matemática e Computacional 1.1 – Inteligência Artificial

Advertisements

Conceitos Fundamentais

Inteligência Artificial Alex F. V. Machado. Tecnologia de Processamento da Informação que envolve processos de raciocínio, aprendizado e percepção. Winston.

Mitos e Problemas Relacionados ao Software

Faculdade de Ciências Sociais e Aplicadas de Petrolina – FACAPE

Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II

Neide dos Santos Oscar Luiz Monteiro de Farias

GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.

Ontologias para Melhorar Precisão e Cobertura de Buscas na Web

Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros

Agentes Baseados em Conhecimento

Sugestões de projetos.

Introdução a Teoria da Classificação

FACENS – Engenharia da Computação Inteligência Artificial

Internet: conceitos básicos

Aspectos Avançados em Engenharia de Software Aula 3 Fernanda Campos

Search Engine Optimization

Fone: Poderosa solução de Web Filtering. Gerenciamento e proteção dos usuários na internet.

RN Seleção Temas Projetos Formação de equipes e procedimentos Equipes de 1 a 3 componentes Equipe precisa deixar clara a participação/responsabilidades.

Protocolo CMB em simulação distribuída

Prof. Ilaim Costa Jr. Novas Tecnologias Prof. Ilaim Costa Jr.

Agentes inteligentes e sistemas multiagentes

Engenharia de Software para Sistemas de Apoio a Decisão

Inteligência Artificial

Maria Tereza Nagel Junho 2004 Grids de Agentes Processadores para Gerência de Redes de Computadores e Telecomunicações Orientador: Prof. Dr. Carlos Becker.

Aluno: Mário Monteiro Orientador: Sérgio Soares 1.

Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes.

Exame de Defesa de Mestrado

Linguagem de Programação IV

Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.

AutoMan: Gerência Automática no OurGrid

Engenharia de Requisitos

Área de Pesquisa: Redes de Computadores

Tecnologia da informação

Inteligência Artificial

Mineração na Web Introdução a Recuperação de Informação

Sistemas Especialistas

Recuperação de Informação

Marcílio C. P. de Souto DIMAp/UFRN

BD Distribuído Conceitos Iniciais.

Tópicos Avançados de Redes de Computadores Prof. Fabiano Sabha.

A abordagem de banco de dados para gerenciamento de dados

TIPOLOGIA DAS INFRAÇÕES

Disciplina : Tópicos Avançados em Inteligência Artificial Simbólica Professores: Dr. Fred Freitas / Dra. Bernadette Farias Aluno: Clovis Holanda Introdução.

Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.

Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.

Sistemas Especialistas

Dados abertos interligados

ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.

Curso de Pós-Graduação Lato Sensu em GOVERNANÇA DE TECNOLOGIA DA INFORMAÇÃO Prof. Flávio Yamanaka.

REVISÃO Prof. Mário Dantas

Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.

Abr-17 Projetar Processos Projetar distribuição.

Classificação de Texto

Web Semântica Thiago José Marques Moura. Roteiro Problemática; Descrição; Arquitetura Proposta; Conclusão sobre Web Semântica; Linguagens de Anotação.

Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:

Mecanismo de sugestão e processo de caracterização de redes sociais

Sugestões de projetos.

Banco de Dados e Internet

Inteligência Artificial

Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.

Um Sistema de recomendação de consultas baseados em query log Diogo Mendonça.

Classificação de Textos

Propostas de Projetos para Especialização em IC

Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –

OntoPRIME Ontologia para Gerenciamento de Riscos de Projetos Projeto da Disciplina de Agentes Inteligentes –

Interações entre objetos

Projetar Processos. Copyright © 2002 Qualiti. Todos os direitos reservados. Qualiti Software Processes Projetar distribuição | 2 Descrição do Projeto.

INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.

Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.

Transcrição da apresentação:

Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI - Laboratório de Controle e Microinformática Pós-Graduação em Inteligência Artificial Projeto PROBAL Projeto PROBAL UFSC - Universität Karlsruhe (Alemanha)

Fred Freitas - LCMI - DAS - UFSC Roteiro n Problemas de Busca na Internet n Técnicas existentes n Princípios da solução proposta n Justificativa para Multiagentes para Extração n Implementação –Técnicas, experimentos, avaliação n Trabalho futuro

Fred Freitas - LCMI - DAS - UFSC Problemas de Busca na Internet: Tamanho n Enorme quantidade de páginas –Solução : distribuir –Não apenas um robô de busca, mas vários –Brokering, indexadores e índices distribuídos, como o Bright!

Fred Freitas - LCMI - DAS - UFSC Problemas de Busca na Internet: Semântica n A abordagem estatística e necessariamente uma pobre substituta da abordagem baseada em conhecimento [Croft 93] n Não dá para contextualizar toda a Internet (Raciocínio de Senso Comum e PLN) de uma vez n Engenharia de conhecimento –Combinar informações por problema, situação e usuário, complementando IR [van de Velde 95]

Fred Freitas - LCMI - DAS - UFSC Busca na Internet Busca na Internet PLNES BD ML SMAReativo SD Ags.cog nitivos nitivos Recuperação de Informações (IR) StemmingWordNetHiperônimosSinônimosParsing Modelagem do Usuário,PDAs (Estatística,Aprendizado e CBR) InteligênciaArtificial Mecanismos de Busca distribuídos Bright! Mediação,Planejamento ComputaçãoTradicional Robôs RobôsDistribuídos TaggingWrapping ? Integrar BDs Estruturar págs Robôs,Java Ontologias CFP Finder

Fred Freitas - LCMI - DAS - UFSC Problemas de cada solução Problemas de cada solução PLNES BD ML SMAReativo SD SMAcognitivo Ags.cog nitivos nitivos Recuperação de Informações (IR) Alto custo computacional sem benefício correspondente Ausência de contexto e estrutura ComputaçãoTradicional Aquisição de conhecimento Normalização InteligênciaArtificial

Fred Freitas - LCMI - DAS - UFSC Avaliação das abordagens

Fred Freitas - LCMI - DAS - UFSC Princípios: Contexto n As palavras dos textos podem ganhar mais semântica, se interpretadas de acordo com o contexto (agregar valor). n Aplicar o máximo de conhecimento a priori e heurísticas. Conhecimento sobre: –Localização –Informações esperadas –Estrutura de tópicos –Estilo de composição das páginas

Fred Freitas - LCMI - DAS - UFSC Princípios: Memória e Concorrência n Não desperdiçar esforços na interpretação das páginas. –Ao tratá-las, passar apenas uma vez por página. n Os requisitos de Contexto e Memória levam naturalmente ao uso de abordagens baseadas em conhecimento explícito (agentes cognitivos). n Agentes podem ser dotados de adaptabilidade, apresentando robustez a informações e situações não previstas de antemão. n O requisito de Concorrência leva ao uso de Sistemas Multiagentes Cognitivos.

Fred Freitas - LCMI - DAS - UFSC Lição aprendida de IA : Dividindo para conquistar n Todo o conhecimento humano está armazenado numa só coleção ? Deve-se encontrar carros à venda em sites de.edu ? n Porque os testes da área são sempre sobre corpora homogêneos ? –Nenhuma solução é geral –Restringir a domínios

Fred Freitas - LCMI - DAS - UFSC Como prover contexto n O usuário está atrás de informação útil e não de páginas! n Buscam-se normalmente as mesmas informações. n Ao invés de Recuperação, Extração de Informações (nova área) Baseada em Conhecimento (nossa novidade). n Construção de BDs de informações úteis a partir de paginas estruturadas. n Consultas semanticamente bem definidas podem combinar informações de vários sites. n Solução atual : –Wrappers : Extratores de textos baseados em gramáticas n Pobres, exigem informação muito estruturada

Fred Freitas - LCMI - DAS - UFSC Utilidade de BDs sobre a Web n Dá pra fazer consultas como essa na Web? –Achar carros vermelhos a partir de 93, por menos de 5000 n Select * From Car Where Color=red And Year >= 1993 And Price = 1993 And Price < 5000 n Motivo da impossibilidade [Campbell et al 98]: – Buscas baseadas exclusivamente em palavras chaves e freqüências.

Fred Freitas - LCMI - DAS - UFSC Extratores Atuais Descriptor/String/Position(start/end)Year|97|1|3Make|CHEV|5|8Model|Cavalier|10|17Feature|Red|20|22 Feature|5 spd|25|29 Mileage|7,000|37|41KEYWORD(Mileage)|miles|43|47Price|11,995|108|114PhoneNr| |146|153 '97 CHEV Cavalier, Red, 5 spd, only 7,000 miles on her. Previous owner heart broken! Asking only $11,995. #1415. JERRY SEINER MIDVALE, n Wrappers são gerados automaticamente. n Baseados em aprendizado automático ( machine learning), adaptam-se rápido a formatos diferentes. n Mas, usam sintaxe, no reconhecimento, não semântica... n Porisso, não permitem inferência nem cooperação! [Campbell et al 98]

Fred Freitas - LCMI - DAS - UFSC As Classes de Páginas n Unidade Básica da Internet: –Texto sem estruturação formal n Mas, há classes de páginas com alguma estrutura –Ex: Calls for papers, pesquisadores, dados da bolsa, etc n As classes possuem ainda Similaridade estrutural – O estilo de composição das páginas de uma mesma categoria do Yahoo (que é manual!) possui fatos relevantes que podem ajudar a diferenciá-las das outras áreas [Cruz et al 97].

Fred Freitas - LCMI - DAS - UFSC Cooperando produtivamente n Um só agente resolve? –A Internet é muito grande e diversa. –O domínio de atuação de um agente não pode ser irrestrito. n Clusters - Conjuntos de classes fortemente conectadas entre si, através de links. n Cada agente que trata uma classe de páginas coopera com os outros, identificando links e outras informações, que interessem a estes. n Sistema Multiagente Cognitivo: Um tipo de conhecimento para cada agente diminui a complexidade e aproveita a concorrência. n Resolução Distribuída de Problemas (RDP).

Fred Freitas - LCMI - DAS - UFSC Tecnologia disponível baseada em conhecimento explícito n Capacidade de inferência n Protocolo peer-to-peer –Comunicação a nível de conhecimento n Ontologias Reusáveis –Repositórios de conhecimento reaproveitados –Em IR, pouco se aproveita do trabalho alheio, só as estatísticas.

Fred Freitas - LCMI - DAS - UFSC Experimentos n CFP Finder: agente para recuperar, armazenar e classificar por área e extrair informações relevantes de páginas de Calls for Papers. –Resultados promissores com poucas regras. –86% no reconhecimento. n Robô aproveita consultas dos engenhos de busca –Altavista, Excite, InfoSeek,...

Fred Freitas - LCMI - DAS - UFSC Possível arquitetura de Mecanismos de Busca WEB Robô... Mec. Busca Thesaurus semântico Ex:WordNet Índices Ontologias Ag. Construtor Ontols. Ex: IMPS Links, Links, Conhecimento Conhecimento Links + pags

Fred Freitas - LCMI - DAS - UFSC Técnicas empregadas - Básicas n Análise Léxica (tokens),Stop-lists, stemming, ranking n Tagging - PLN –Determina regiões num texto. –EX do FAQ Finder [Burke et al 96] n Wrapping –Gramáticas para reconhecer e capturar informações dentro de um determinado formato. –Ex: Datas QUE :QUE When do I have to change oil ? :QUE:ANS After...

Fred Freitas - LCMI - DAS - UFSC Ontologias Página PáginaWWW PáginaGopher PáginaHTMLPáginaPS PáginaCFP (deftemplate Pagina (slot Ano ) (slot Nome) (slot URL) (slot Formato)...) (defrule PagHTML Se a pagina é HTML (formato ?x) (eq ?x html) =>.... )

Fred Freitas - LCMI - DAS - UFSC Funcionamento de um agente Regras de validação Pré-process.:stemming, tagging, indexação, etc URLs Atualização nos slots da Ontologia da Página Regras de reconhecimento Categorização baseada em ontologias Extração de infs relevantes dos documentos Base Dados* Onto logias URLs válidas Inválidas Fila de URLs(ALTAPrioridade) URLs(BAIXAPrioridade) Robô KQML Biblio teca * - contém estatísitcas OutrosAgentes

Fred Freitas - LCMI - DAS - UFSC Técnicas empregadas - Avançadas n Princípio Huhns-Singh para agentes: – Um agente deve mudar de comportamento quando outro agente entra no ambiente. n Modelo baseado no InfoSleuth [Bayardo et al 96] –Um novo agente se anuncia dizendo que paginas e links quer e recebe dos outros o que eles querem n Java +JDBC, HTML, BDs, JESS, KQML (JATLite). CLIPS ou KIF(ACL).

Fred Freitas - LCMI - DAS - UFSC Metodologia de Avaliação n 1. Obter boas performances com cada agente n 2. Testar se a cooperação melhora a performance, já que: –Há um número significativo de links errados vindos dos robôs –O overhead de reconhecimento de informações para outros agentes é baixo n A cooperação facilitará também o monitoramento –Ex: Papers por conferência, autor,... n O processo inicial de troca de mensagens de identificação entre os agentes não será considerado na mensuração da performance.

Fred Freitas - LCMI - DAS - UFSC Ontologias comuns a todos os agentes n Classes Página, PáginaWWW e outras. n Talvez devam conter até os centróides : –De palavras-chave (com ordem, para identificar termos) –De tags HTML (para avaliar a estrutura). n Ontologia do domínio: –No nosso caso, o domínio científico n áreas n papers n CFPs n pesquisadores n órgãos n eventos n etc.

Fred Freitas - LCMI - DAS - UFSC Ontologias de cada agente n Classes específicas das páginas de que trata n Regras de Reconhecimento n Um subconjunto de regras de reconhecimento e classes para os outros agentes lhe indicarem páginas e links n Regras e classes para indicar páginas e links para os outros agentes n Regras de extração e categorização

Fred Freitas - LCMI - DAS - UFSC Passos futuros n Imediatos: –Conhecimento declarativo para a inferência: JESS –Técnicas de IR: stemming, tagging, ranking,... –Heurísticas : título, pesos de palavras, termos... –Nomes próprios e de cidades –Definir as gramáticas e os dicionários –Tratar sites –Concorrência: threads (ver como dividi-las).

Fred Freitas - LCMI - DAS - UFSC Passos futuros n Médio Prazo: –Incluir outros agentes (pesquisadores, papers,...) –Troca de mensagens (KQML ?) –Aproveitar informações de organização das URLs –Incluir aprendizado e conseqüente feedback do usuário, para facilitar a aquisição do conhecimento –Definir métricas de avaliação –Buscar no BD com IR [Cohen 95]