Recuperação de informação Detalhamento do projeto

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Operações sobre o Texto
Página de Acesso
Recuperação de Informação
Patrícia Nunes Pereira Professor: Geber Ramalho
Programação em Java Prof. Maurício Braga
Introdução à Programação
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Software Básico Silvio Fernandes Universidade Federal Rural do Semi-Árido Departamento de Ciências Exatas e Naturais Ciência da Computação Aula.
Software Básico Silvio Fernandes
Interfaces Conversacionais
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
DNS Introdução.
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Agentes Baseados em Conhecimento
Introdução a Computação
Estrutura de indexação Modelos de RI
Sugestões de projetos.
Introdução a Teoria da Classificação
Agentes na Web Márcio David de Magalhães Santos Departamento de Informática UFPE Recife, 1 de junho de 1999.
Jacques Robin, Francisco Carvalho, Flávia Barros
Recuperação de Informação Multimídia
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Recuperação de Informações
Descoberta de Conhecimento:
Divisão de Biblioteca e Documentação FMUSP
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Internet: conceitos básicos
Bruno Augusto Vivas e Pôssas
Estrutura de decisão e repetição em JAVA
Desenvolvimento de Projetos e Aplicações Web
Inteligência Artificial
Adicionando Escalabilidade ao Framework de Recomendação IRF
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Rodrigo Cristiano Silva
TUTORIAL. Acervo de 47 jornais especialmente selecionados pela British Library para melhor representar o século XIX. Inclui jornais nacionais e regionais.
Área de Pesquisa: Redes de Computadores
Introdução e Busca Cega
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Título do projeto Equipe Local Data.
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Projeto de Banco de Dados
Recuperação de Informação
Recuperação de Informação
EBSCOhost Pesquisa avançada.
Classificacao de Texto Projeto Spam Filter
Introdução à Recuperação de informação Detalhamento do projeto
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Classificação de Texto
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Projeto X-Finder Agents Recuperação e Indexação de páginas especializadas na Web Disciplina: Inteligência Artificial Simbólica Professora: Flávia Barros.
PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de.
Classificação de Textos
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
Nº Aluno: Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Transcrição da apresentação:

Recuperação de informação Detalhamento do projeto Projeto X-Finder Agents Recuperação e indexação de páginas especializadas na Web Recuperação de informação Detalhamento do projeto

Motivação: “morrendo ignorante em um mar de informação” Objetivo: Encontrar (de forma eficiente) os melhores documentos que satisfaçam a consulta do usuário

Medidas: Recall e Precisão Cobertura (Recall) total de documentos relevantes retornados dividido pelo número total dos relevantes. Precisão: documentos relevantes retornados dividido pelo número total de retornados Relevantes Retornados Todos os Documentos Documentos Relevantes Documentos Retornados

Recuperação de informação Sistemas de indexação por palavras-chave consulta: palavras-chave e expressões booleanas retorna uma grande quantidade de documentos irrelevantes mas é robusto e abrangente Exemplos: AltaVista, Radix, HotBot, Lycos, ... Sistemas de indexação manual por ontologias consulta: palavras-chave e navegação classificação mais precisa porém estática e menos abrangente Exemplos: Yahoo!, Cadê, ...

Recuperação de informação Solução intermediária: automatização da classificação humana processamento de linguagem natural + conhecimento Inviável, porque a Web é Enorme Não-estruturada Conteúdo variado Ambígua Multilíngue

Estrutura Geral de um Sistema IR Critérios do Usuário Documentos “Interessantes” Filtragem Busca Doc. 1 Base de Dados Estruturada ... Indexar Doc. N Stop-List

Busca e Recuperação de Informação Browser Consulta Resposta Servidor de Consultas Base de Índices Search Engine Usuário Busca Web )--( Robô Indexing Engine Exemplos: Radix, AltaVista, Lycos, Excite, ...

Representação do Documento Dado um documento, identificar os conceitos que descrevem o seu conteúdo e quão bem eles o descrevem. Pesos das Palavras como indicação de relevância: Freqüência relativa da palavra no texto (centroide) Freqüência da palavra em relação a outros documentos (TFIDF) Colocação da palavra na estrutura do documento (título, início, negrito,...) Palavras com maiores pesos são selecionadas formando um vetor de representação.

Técnicas de IR Centróide freqüência das palavras no texto Term Frequency-Inverse Document Frequency (TFIDF): atribui pesos às palavras de um documento. TF(w): freqüência da palavra w (número de vezes que w aparece no documento. DF(w): freqüência de documentos com a palavra w (número de documentos em que a palavra ocorre) D = número total de documentos

Exemplo de Representação Brincadeira O rato roeu a roupa do rei de Roma. brincadeira, t, m, n, i rato, 1 roeu, 1 roupa, 1 rei, 2 roma, 2, m brincadeira, 90 rato, 70 roeu, 70 roupa, 70 rei, 60 roma, 65 brincadeira, 90 rato, 70 roeu, 70 roupa, 70 roma, 65 rei, 60 Representação Vetorial do Documento centróide

Estrutura de Arquivos p/ IR Arquivos Invertidos Arquivos de Assinatura Árvores e arrays PAT WORD: Bem-vindo ID: 543 URLs: 455227,... WORD: UFPE ID: 987 Arquivo Invertido Bem-vindo! UFPE http://www.ufpe.br URL: http://www.ufpe.br ID: 455227 Words: 543, 987 Arquivo Direto

Indexação Análise Léxica Stop-list String searching Converter uma cadeia de caracteres em uma cadeia de palavras/tokens. (/, -, 0-9,...) Stop-list Palavras comuns são retiradas da indexação. String searching String matching exato e aproximado (KMP, Boyer-Moore,...), busca por sinônimos,... Indexação Distribuída, Base compartilhada: Divisão por: Localização Geográfica, Rede, Conteúdo,..

Campeonato Brasileiro Indexação Stemming - n-grams possibilitar variações morfológicas dos termos durante o casamento. Ontologias para aumentar precisão e cobertura. engineering engineered engineer engineer engineer engineer Term Stem Futebol Campeonato Brasileiro Palmeiras CBF

Categorização de Documentos Objetivos: Facilitar a busca automática e browsing dos documentos. Técnicas podem ser divididas em: Booleana Probabilística Vetorial Utilizam: Aprendizado de máquina (processos de inferência) Engenharia de conhecimento (definição de uma BC)

Detalhamento do Projeto

Páginas Especializadas Páginas especializadas: estrutura na Web apesar da aparência caótica, a Web pode ser vista como um aglomerado de classes particulares de páginas estas páginas especializadas tem em comum características sintáticas e semânticas Exemplos chamadas de trabalho (cfp), faq, hotéis, pessoais, lista de artigos, restaurantes, classificados, cinemas, ... Contexto estas páginas podem servir para contextualizar as consultas ex. “amplificador de áudio” .... cfp, faq, loja, artigo, ....

arquitetura: meta busca WEB Mec. Busca palavra-chave html Agente ex. receita ex. excite KB para classificação palavra-chave html Pós-filtragem Índices ex. sobremesa

Objetivo Projeto básico (para todos) Extensões eventuais Implementar um conjunto de agentes capazes de recuperar e indexar páginas especializadas Extensões eventuais (a) prover extração de informação (b) estender a busca com as palavras mais comuns (ex. bolo, carnes, ...) (c) introduzir conectores lógicos e ontologias para consulta a posteriori (d) notificação personalizada

Etapa 1: montar o corpus Fase Preliminar Manual Identificação das palavras-chave a serem usadas nos mecanismos gerais de busca ex. “conference”, “symposium” e “call for papers” para o caso das páginas de chamadas de trabalho ex. “receitas”, “ingredientes” para o caso de receitas culinárias Formação de um corpus etiquetado (à mão) de páginas para teste (mínimo de 200 páginas!) selecionar tanto exemplos positivos quanto negativos guardar as páginas em um BD (ou arquivo tabela): url, classe (sim ou não), arquivo html

Etapa 2: montar a base de regras Identificar possíveis regras de classificação (à mão) Se a palavra “paper” aparece no título e existem n parágrafos com .... Então é um “call for papers” Montar regras com fator de certeza associado (a seguir) Se xx e yy Então zz com n% de chances Implementar as regras de classificação Reutilizar uma classe que manipula arquivos html (www.cin.ufpe.br/~compint/aulas-IAS/programas/PaginaWWW.java) utilizar Jeops, Jess ou Clips

Etapa 2: regras com fator de certeza Se E Então V com P% de chances aqui, V indica que a página pertence à classe alvo é um exemplo positivo (verdade) porém, em tarefas de categorização, teremos várias classes a escolher Como calcular o fator de certeza P (manualmente): P = probabilidade condicional de uma página ser um exemplo positivo (V) dado que a evidência E ocorreu P(V|E) = P(V ^ E) / P(E) P(E) = quantidade de vezes que E ocorreu no corpus inteiro (exemplos positivos e negativos) P(V ^ E) = quantidade de vezes que E ocorreu em exemplos positivos podemos também calcular P(~V|E)

Etapa 2: combinando o fator de certeza É possível combinar (automaticamente) evidências quando regras disparam com a mesma conclusão no nosso caso, V ou ~V Regra básica (inspirada no MYCIN): prob-atual = prob-anterior + prob-nova * (1 - prob-anterior) Ex. Se E1 então V 0,3% P = 0,3% Se E2 então V 0,6% P = 0,3 + 0,6 * (1-0,3) = 0,72 % para o JEOPS, implementar no objeto a evidência acumulada...

Etapa 3: implementação Criar base de índices (BI) BI com as páginas pertencentes à classe desejada (usar stop-list, arquivos invertidos, ...) fazer inicialmente com as páginas do corpus O centróide deve ser extraído automaticamente, usando-se um parser para html Criar interface para consulta por palavra-chave ex. bolo, carnes, ... Efetuar testes com o corpus a fim de medir precisão cobertura F-measure = 2 (cobertura * precisão) / (cobertura + precisão)

Etapa 3: implementação Se der tempo: Automatizar a consulta aos mecanismos de busca Automatizar a extração de links das respostas Reutilizar/programar uma classe manipuladora de arquivos html Identificar a estrutura da página de resposta do mecanismo de busca para extração dos links ex. terceira linha, depois de um <LI>... Automatizar a atualização e a indexação periódica da base de índices

Etapa 4 (opcional) Estender o trabalho nas seguintes direções (a) prover extração de informação (b) testar algoritmos de aprendizagem (c) estender a busca com as palavras mais comuns (ex. bolo, carnes, ...) (d) introduzir conectores lógicos e ontologias para consulta a posteriori (e) notificação personalizada

Referências Internet Categorization and Search: A Self-Organizing Approach, Hsinchun Chen, University of Arizona, 1996. Learning from Hotlists and Coldlists: Towards a WWW information filtering and seeking agent, Michael Pazzani, University of California. The State of the Art in Text Filtering, Douglas W. Oard, University of Maryland, 1997. Ontologies for Enhancing Web Searches' Precision and Recall, Flávia A. Barros, Pedro F. Gonçalves, Thiago Santos http://www.cin.ufpe.br/~fab/publications. BRight: a Distributed System for Web Information Indexing and Searching, Pedro Falcão & Silvio Meira, Universidade Federal de Pernambuco.

Referências An Architecture for Information Agents, Donald P McKay, University of Maryland. Cooperating Agents for Information Retrieval, Craig A. Knoblock, University of Southern California Information Retrieval: Data Structures & Algorithms, Willian B. Frakes e Ricardo Baeza-Yates, Prentice Hall, 1992. !!!!! Filtragem e Recomendação de Documentos na Web. Uma Abordage Usando Java, José Abelardo Sánchez Cardoza, Universidade Federal de Pernambuco, 1998.

Referências - Links Universidade de Maryland http://www.cs.umbc.edu/abir/ http://www.cs.umbc.edu/agents/ Intelligent Software Agents http://www.sics.se/ps/abc/survey.html MIT Media Lab http://lcs.www.media.mit.edu/groups/agents/resources. Sycara’s Page http://almond.srv.cs.cmu.edu/afs/cs/user/katia/www/katia-home.html Sasdwedish Institute of Computer Science http://www.dsv.su.se/~fk/if_Doc/IntFilter.html