Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI.

Slides:



Advertisements
Apresentações semelhantes
Lógica Matemática e Computacional 1.1 – Inteligência Artificial
Advertisements

Conceitos Fundamentais
Inteligência Artificial Alex F. V. Machado. Tecnologia de Processamento da Informação que envolve processos de raciocínio, aprendizado e percepção. Winston.
Mitos e Problemas Relacionados ao Software
Faculdade de Ciências Sociais e Aplicadas de Petrolina – FACAPE
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
Neide dos Santos Oscar Luiz Monteiro de Farias
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Agentes Baseados em Conhecimento
Sugestões de projetos.
Introdução a Teoria da Classificação
FACENS – Engenharia da Computação Inteligência Artificial
Internet: conceitos básicos
Aspectos Avançados em Engenharia de Software Aula 3 Fernanda Campos
Search Engine Optimization
Fone: Poderosa solução de Web Filtering. Gerenciamento e proteção dos usuários na internet.
RN Seleção Temas Projetos Formação de equipes e procedimentos Equipes de 1 a 3 componentes Equipe precisa deixar clara a participação/responsabilidades.
Protocolo CMB em simulação distribuída
Prof. Ilaim Costa Jr. Novas Tecnologias Prof. Ilaim Costa Jr.
Agentes inteligentes e sistemas multiagentes
Engenharia de Software para Sistemas de Apoio a Decisão
Inteligência Artificial
Maria Tereza Nagel Junho 2004 Grids de Agentes Processadores para Gerência de Redes de Computadores e Telecomunicações Orientador: Prof. Dr. Carlos Becker.
Aluno: Mário Monteiro Orientador: Sérgio Soares 1.
Tarântula Sistema de Recolha de Documentos na Web por Daniel Coelho Gomes.
Exame de Defesa de Mestrado
Linguagem de Programação IV
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
AutoMan: Gerência Automática no OurGrid
Engenharia de Requisitos
Área de Pesquisa: Redes de Computadores
Tecnologia da informação
Inteligência Artificial
Mineração na Web Introdução a Recuperação de Informação
Sistemas Especialistas
Recuperação de Informação
Marcílio C. P. de Souto DIMAp/UFRN
BD Distribuído Conceitos Iniciais.
Tópicos Avançados de Redes de Computadores Prof. Fabiano Sabha.
A abordagem de banco de dados para gerenciamento de dados
TIPOLOGIA DAS INFRAÇÕES
Disciplina : Tópicos Avançados em Inteligência Artificial Simbólica Professores: Dr. Fred Freitas / Dra. Bernadette Farias Aluno: Clovis Holanda Introdução.
Objetivos do Capítulo Explicar a importância da implementação de processos e tecnologias de gerenciamento de dados numa organização. Explicar as vantagens.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Sistemas Especialistas
Dados abertos interligados
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.
Curso de Pós-Graduação Lato Sensu em GOVERNANÇA DE TECNOLOGIA DA INFORMAÇÃO Prof. Flávio Yamanaka.
REVISÃO Prof. Mário Dantas
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Abr-17 Projetar Processos Projetar distribuição.
Classificação de Texto
Web Semântica Thiago José Marques Moura. Roteiro Problemática; Descrição; Arquitetura Proposta; Conclusão sobre Web Semântica; Linguagens de Anotação.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Mecanismo de sugestão e processo de caracterização de redes sociais
Sugestões de projetos.
Banco de Dados e Internet
Inteligência Artificial
Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.
Um Sistema de recomendação de consultas baseados em query log Diogo Mendonça.
Classificação de Textos
Propostas de Projetos para Especialização em IC
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
OntoPRIME Ontologia para Gerenciamento de Riscos de Projetos Projeto da Disciplina de Agentes Inteligentes –
Interações entre objetos
Projetar Processos. Copyright © 2002 Qualiti. Todos os direitos reservados. Qualiti Software Processes Projetar distribuição | 2 Descrição do Projeto.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.
Transcrição da apresentação:

Fred Freitas - LCMI - DAS - UFSC Sistemas Multiagentes Cognitivos para Extração de Informações Relevantes na Web Fred Freitas LCMI - Laboratório de Controle e Microinformática Pós-Graduação em Inteligência Artificial Projeto PROBAL Projeto PROBAL UFSC - Universität Karlsruhe (Alemanha)

Fred Freitas - LCMI - DAS - UFSC Roteiro n Problemas de Busca na Internet n Técnicas existentes n Princípios da solução proposta n Justificativa para Multiagentes para Extração n Implementação –Técnicas, experimentos, avaliação n Trabalho futuro

Fred Freitas - LCMI - DAS - UFSC Problemas de Busca na Internet: Tamanho n Enorme quantidade de páginas –Solução : distribuir –Não apenas um robô de busca, mas vários –Brokering, indexadores e índices distribuídos, como o Bright!

Fred Freitas - LCMI - DAS - UFSC Problemas de Busca na Internet: Semântica n A abordagem estatística e necessariamente uma pobre substituta da abordagem baseada em conhecimento [Croft 93] n Não dá para contextualizar toda a Internet (Raciocínio de Senso Comum e PLN) de uma vez n Engenharia de conhecimento –Combinar informações por problema, situação e usuário, complementando IR [van de Velde 95]

Fred Freitas - LCMI - DAS - UFSC Busca na Internet Busca na Internet PLNES BD ML SMAReativo SD Ags.cog nitivos nitivos Recuperação de Informações (IR) StemmingWordNetHiperônimosSinônimosParsing Modelagem do Usuário,PDAs (Estatística,Aprendizado e CBR) InteligênciaArtificial Mecanismos de Busca distribuídos Bright! Mediação,Planejamento ComputaçãoTradicional Robôs RobôsDistribuídos TaggingWrapping ? Integrar BDs Estruturar págs Robôs,Java Ontologias CFP Finder

Fred Freitas - LCMI - DAS - UFSC Problemas de cada solução Problemas de cada solução PLNES BD ML SMAReativo SD SMAcognitivo Ags.cog nitivos nitivos Recuperação de Informações (IR) Alto custo computacional sem benefício correspondente Ausência de contexto e estrutura ComputaçãoTradicional Aquisição de conhecimento Normalização InteligênciaArtificial

Fred Freitas - LCMI - DAS - UFSC Avaliação das abordagens

Fred Freitas - LCMI - DAS - UFSC Princípios: Contexto n As palavras dos textos podem ganhar mais semântica, se interpretadas de acordo com o contexto (agregar valor). n Aplicar o máximo de conhecimento a priori e heurísticas. Conhecimento sobre: –Localização –Informações esperadas –Estrutura de tópicos –Estilo de composição das páginas

Fred Freitas - LCMI - DAS - UFSC Princípios: Memória e Concorrência n Não desperdiçar esforços na interpretação das páginas. –Ao tratá-las, passar apenas uma vez por página. n Os requisitos de Contexto e Memória levam naturalmente ao uso de abordagens baseadas em conhecimento explícito (agentes cognitivos). n Agentes podem ser dotados de adaptabilidade, apresentando robustez a informações e situações não previstas de antemão. n O requisito de Concorrência leva ao uso de Sistemas Multiagentes Cognitivos.

Fred Freitas - LCMI - DAS - UFSC Lição aprendida de IA : Dividindo para conquistar n Todo o conhecimento humano está armazenado numa só coleção ? Deve-se encontrar carros à venda em sites de.edu ? n Porque os testes da área são sempre sobre corpora homogêneos ? –Nenhuma solução é geral –Restringir a domínios

Fred Freitas - LCMI - DAS - UFSC Como prover contexto n O usuário está atrás de informação útil e não de páginas! n Buscam-se normalmente as mesmas informações. n Ao invés de Recuperação, Extração de Informações (nova área) Baseada em Conhecimento (nossa novidade). n Construção de BDs de informações úteis a partir de paginas estruturadas. n Consultas semanticamente bem definidas podem combinar informações de vários sites. n Solução atual : –Wrappers : Extratores de textos baseados em gramáticas n Pobres, exigem informação muito estruturada

Fred Freitas - LCMI - DAS - UFSC Utilidade de BDs sobre a Web n Dá pra fazer consultas como essa na Web? –Achar carros vermelhos a partir de 93, por menos de 5000 n Select * From Car Where Color=red And Year >= 1993 And Price = 1993 And Price < 5000 n Motivo da impossibilidade [Campbell et al 98]: – Buscas baseadas exclusivamente em palavras chaves e freqüências.

Fred Freitas - LCMI - DAS - UFSC Extratores Atuais Descriptor/String/Position(start/end)Year|97|1|3Make|CHEV|5|8Model|Cavalier|10|17Feature|Red|20|22 Feature|5 spd|25|29 Mileage|7,000|37|41KEYWORD(Mileage)|miles|43|47Price|11,995|108|114PhoneNr| |146|153 '97 CHEV Cavalier, Red, 5 spd, only 7,000 miles on her. Previous owner heart broken! Asking only $11,995. #1415. JERRY SEINER MIDVALE, n Wrappers são gerados automaticamente. n Baseados em aprendizado automático ( machine learning), adaptam-se rápido a formatos diferentes. n Mas, usam sintaxe, no reconhecimento, não semântica... n Porisso, não permitem inferência nem cooperação! [Campbell et al 98]

Fred Freitas - LCMI - DAS - UFSC As Classes de Páginas n Unidade Básica da Internet: –Texto sem estruturação formal n Mas, há classes de páginas com alguma estrutura –Ex: Calls for papers, pesquisadores, dados da bolsa, etc n As classes possuem ainda Similaridade estrutural – O estilo de composição das páginas de uma mesma categoria do Yahoo (que é manual!) possui fatos relevantes que podem ajudar a diferenciá-las das outras áreas [Cruz et al 97].

Fred Freitas - LCMI - DAS - UFSC Cooperando produtivamente n Um só agente resolve? –A Internet é muito grande e diversa. –O domínio de atuação de um agente não pode ser irrestrito. n Clusters - Conjuntos de classes fortemente conectadas entre si, através de links. n Cada agente que trata uma classe de páginas coopera com os outros, identificando links e outras informações, que interessem a estes. n Sistema Multiagente Cognitivo: Um tipo de conhecimento para cada agente diminui a complexidade e aproveita a concorrência. n Resolução Distribuída de Problemas (RDP).

Fred Freitas - LCMI - DAS - UFSC Tecnologia disponível baseada em conhecimento explícito n Capacidade de inferência n Protocolo peer-to-peer –Comunicação a nível de conhecimento n Ontologias Reusáveis –Repositórios de conhecimento reaproveitados –Em IR, pouco se aproveita do trabalho alheio, só as estatísticas.

Fred Freitas - LCMI - DAS - UFSC Experimentos n CFP Finder: agente para recuperar, armazenar e classificar por área e extrair informações relevantes de páginas de Calls for Papers. –Resultados promissores com poucas regras. –86% no reconhecimento. n Robô aproveita consultas dos engenhos de busca –Altavista, Excite, InfoSeek,...

Fred Freitas - LCMI - DAS - UFSC Possível arquitetura de Mecanismos de Busca WEB Robô... Mec. Busca Thesaurus semântico Ex:WordNet Índices Ontologias Ag. Construtor Ontols. Ex: IMPS Links, Links, Conhecimento Conhecimento Links + pags

Fred Freitas - LCMI - DAS - UFSC Técnicas empregadas - Básicas n Análise Léxica (tokens),Stop-lists, stemming, ranking n Tagging - PLN –Determina regiões num texto. –EX do FAQ Finder [Burke et al 96] n Wrapping –Gramáticas para reconhecer e capturar informações dentro de um determinado formato. –Ex: Datas QUE :QUE When do I have to change oil ? :QUE:ANS After...

Fred Freitas - LCMI - DAS - UFSC Ontologias Página PáginaWWW PáginaGopher PáginaHTMLPáginaPS PáginaCFP (deftemplate Pagina (slot Ano ) (slot Nome) (slot URL) (slot Formato)...) (defrule PagHTML Se a pagina é HTML (formato ?x) (eq ?x html) =>.... )

Fred Freitas - LCMI - DAS - UFSC Funcionamento de um agente Regras de validação Pré-process.:stemming, tagging, indexação, etc URLs Atualização nos slots da Ontologia da Página Regras de reconhecimento Categorização baseada em ontologias Extração de infs relevantes dos documentos Base Dados* Onto logias URLs válidas Inválidas Fila de URLs(ALTAPrioridade) URLs(BAIXAPrioridade) Robô KQML Biblio teca * - contém estatísitcas OutrosAgentes

Fred Freitas - LCMI - DAS - UFSC Técnicas empregadas - Avançadas n Princípio Huhns-Singh para agentes: – Um agente deve mudar de comportamento quando outro agente entra no ambiente. n Modelo baseado no InfoSleuth [Bayardo et al 96] –Um novo agente se anuncia dizendo que paginas e links quer e recebe dos outros o que eles querem n Java +JDBC, HTML, BDs, JESS, KQML (JATLite). CLIPS ou KIF(ACL).

Fred Freitas - LCMI - DAS - UFSC Metodologia de Avaliação n 1. Obter boas performances com cada agente n 2. Testar se a cooperação melhora a performance, já que: –Há um número significativo de links errados vindos dos robôs –O overhead de reconhecimento de informações para outros agentes é baixo n A cooperação facilitará também o monitoramento –Ex: Papers por conferência, autor,... n O processo inicial de troca de mensagens de identificação entre os agentes não será considerado na mensuração da performance.

Fred Freitas - LCMI - DAS - UFSC Ontologias comuns a todos os agentes n Classes Página, PáginaWWW e outras. n Talvez devam conter até os centróides : –De palavras-chave (com ordem, para identificar termos) –De tags HTML (para avaliar a estrutura). n Ontologia do domínio: –No nosso caso, o domínio científico n áreas n papers n CFPs n pesquisadores n órgãos n eventos n etc.

Fred Freitas - LCMI - DAS - UFSC Ontologias de cada agente n Classes específicas das páginas de que trata n Regras de Reconhecimento n Um subconjunto de regras de reconhecimento e classes para os outros agentes lhe indicarem páginas e links n Regras e classes para indicar páginas e links para os outros agentes n Regras de extração e categorização

Fred Freitas - LCMI - DAS - UFSC Passos futuros n Imediatos: –Conhecimento declarativo para a inferência: JESS –Técnicas de IR: stemming, tagging, ranking,... –Heurísticas : título, pesos de palavras, termos... –Nomes próprios e de cidades –Definir as gramáticas e os dicionários –Tratar sites –Concorrência: threads (ver como dividi-las).

Fred Freitas - LCMI - DAS - UFSC Passos futuros n Médio Prazo: –Incluir outros agentes (pesquisadores, papers,...) –Troca de mensagens (KQML ?) –Aproveitar informações de organização das URLs –Incluir aprendizado e conseqüente feedback do usuário, para facilitar a aquisição do conhecimento –Definir métricas de avaliação –Buscar no BD com IR [Cohen 95]