A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn- UFPE 1 Projeto X-Finder Agents Recuperação e indexação de páginas especializadas na Web Recuperação de informação Detalhamento do projeto.

Apresentações semelhantes


Apresentação em tema: "CIn- UFPE 1 Projeto X-Finder Agents Recuperação e indexação de páginas especializadas na Web Recuperação de informação Detalhamento do projeto."— Transcrição da apresentação:

1 CIn- UFPE 1 Projeto X-Finder Agents Recuperação e indexação de páginas especializadas na Web Recuperação de informação Detalhamento do projeto

2 CIn- UFPE 2 Motivação: morrendo ignorante em um mar de informação Objetivo: Encontrar (de forma eficiente) os melhores documentos que satisfaçam a consulta do usuário

3 Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados Medidas: Recall e Precisão Cobertura (Recall) total de documentos relevantes retornados dividido pelo número total dos relevantes. Precisão: documentos relevantes retornados dividido pelo número total de retornados

4 CIn- UFPE 4 Recuperação de informação Sistemas de indexação por palavras-chave consulta: palavras-chave e expressões booleanas retorna uma grande quantidade de documentos irrelevantes mas é robusto e abrangente Exemplos: AltaVista, Radix, HotBot, Lycos,... Sistemas de indexação manual por ontologias consulta: palavras-chave e navegação classificação mais precisa porém estática e menos abrangente Exemplos: Yahoo!, Cadê,...

5 CIn- UFPE 5 Recuperação de informação Solução intermediária: automatização da classificação humana processamento de linguagem natural + conhecimento Inviável, porque a Web é Enorme Não-estruturada Conteúdo variado Ambígua Multilíngue

6 Doc. 1 Filtragem... Doc. N Documentos Interessantes Critérios do Usuário Indexar Base de Dados Estruturada Estrutura Geral de um Sistema IR Stop-List Busca

7 CIn- UFPE 7 Browser Consulta Resposta Servidor de Consultas Base de Índices Search Engine Usuário Busca Web )--( Robô Indexing Engine Exemplos: Radix, AltaVista, Lycos, Excite,... Busca e Recuperação de Informação

8 Representação do Documento Dado um documento, identificar os conceitos que descrevem o seu conteúdo e quão bem eles o descrevem. Pesos das Palavras como indicação de relevância: Freqüência relativa da palavra no texto (centroide) Freqüência da palavra em relação a outros documentos (TFIDF) Colocação da palavra na estrutura do documento (título, início, negrito,...) Palavras com maiores pesos são selecionadas formando um vetor de representação.

9 CIn- UFPE 9 Técnicas de IR Centróide freqüência das palavras no texto Term Frequency-Inverse Document Frequency (TFIDF): atribui pesos às palavras de um documento. TF(w): freqüência da palavra w (número de vezes que w aparece no documento. DF(w): freqüência de documentos com a palavra w (número de documentos em que a palavra ocorre) D = número total de documentos

10 Exemplo de Representação Brincadeira O rato roeu a roupa do rei de Roma. brincadeira, t, m, n, i rato, 1 roeu, 1 roupa, 1 rei, 2 roma, 2, m brincadeira, 90 rato, 70 roeu, 70 roupa, 70 rei, 60 roma, 65 brincadeira, 90 rato, 70 roeu, 70 roupa, 70 roma, 65 rei, 60 Representação Vetorial do Documento centróide

11 Bem-vindo! UFPE ID: Words: 543, 987 Arquivo Direto WORD: Bem-vindo ID: 543 URLs: ,... WORD: UFPE ID: 987 URLs: ,... Arquivo Invertido Estrutura de Arquivos p/ IR Arquivos Invertidos Arquivos de Assinatura Árvores e arrays PAT

12 Indexação Análise Léxica Converter uma cadeia de caracteres em uma cadeia de palavras/tokens. (/, -, 0-9,...) Stop-list Palavras comuns são retiradas da indexação. String searching String matching exato e aproximado (KMP, Boyer- Moore,...), busca por sinônimos,... Indexação Distribuída, Base compartilhada: Divisão por: Localização Geográfica, Rede, Conteúdo,..

13 engineering engineered engineer engineer engineer engineer TermStemFutebol Campeonato Brasileiro Palmeiras CBF Indexação Stemming - n-grams possibilitar variações morfológicas dos termos durante o casamento. Ontologias para aumentar precisão e cobertura.

14 Categorização de Documentos Objetivos: Facilitar a busca automática e browsing dos documentos. Técnicas podem ser divididas em: Booleana Probabilística Vetorial Utilizam: Aprendizado de máquina (processos de inferência) Engenharia de conhecimento (definição de uma BC)

15 CIn- UFPE 15 Detalhamento do Projeto

16 CIn- UFPE 16 Páginas Especializadas Páginas especializadas: estrutura na Web apesar da aparência caótica, a Web pode ser vista como um aglomerado de classes particulares de páginas estas páginas especializadas tem em comum características sintáticas e semânticas Exemplos chamadas de trabalho (cfp), faq, hotéis, pessoais, lista de artigos, restaurantes, classificados, cinemas,... Contexto estas páginas podem servir para contextualizar as consultas –ex. amplificador de áudio.... cfp, faq, loja, artigo,....

17 CIn- UFPE 17 arquitetura: meta busca WEB Mec. Busca Mec. Busca palavra-chave html Agente ex. receita ex. excite KB para classificação palavra-chave html Pós-filtragem Índices ex. sobremesa

18 CIn- UFPE 18 Objetivo Projeto básico (para todos) Implementar um conjunto de agentes capazes de recuperar e indexar páginas especializadas Extensões eventuais (a) prover extração de informação (b) estender a busca com as palavras mais comuns (ex. bolo, carnes,...) (c) introduzir conectores lógicos e ontologias para consulta a posteriori (d) notificação personalizada

19 CIn- UFPE 19 Etapa 1: montar o corpus Fase Preliminar Manual Identificação das palavras-chave a serem usadas nos mecanismos gerais de busca –ex. conference, symposium e call for papers para o caso das páginas de chamadas de trabalho –ex. receitas, ingredientes para o caso de receitas culinárias Formação de um corpus etiquetado (à mão) de páginas para teste (mínimo de 200 páginas!) –selecionar tanto exemplos positivos quanto negativos –guardar as páginas em um BD (ou arquivo tabela): –url, classe (sim ou não), arquivo html

20 CIn- UFPE 20 Etapa 2: montar a base de regras Identificar possíveis regras de classificação (à mão) Se a palavra paper aparece no título e existem n parágrafos com.... Então é um call for papers Montar regras com fator de certeza associado (a seguir) Se xx e yy Então zz com n% de chances Implementar as regras de classificação Reutilizar uma classe que manipula arquivos html (www.cin.ufpe.br/~compint/aulas-IAS/programas/PaginaWWW.java) utilizar Jeops, Jess ou Clips

21 CIn- UFPE 21 Etapa 2: regras com fator de certeza Regras com fator de certeza Se E Então V com P% de chances aqui, V indica que a página pertence à classe alvo –é um exemplo positivo (verdade) porém, em tarefas de categorização, teremos várias classes a escolher Como calcular o fator de certeza P (manualmente): P = probabilidade condicional de uma página ser um exemplo positivo (V) dado que a evidência E ocorreu –P(V|E) = P(V ^ E) / P(E) –P(E) = quantidade de vezes que E ocorreu no corpus inteiro (exemplos positivos e negativos) –P(V ^ E) = quantidade de vezes que E ocorreu em exemplos positivos –podemos também calcular P(~V|E)

22 CIn- UFPE 22 Etapa 2: combinando o fator de certeza É possível combinar (automaticamente) evidências quando regras disparam com a mesma conclusão no nosso caso, V ou ~V Regra básica (inspirada no MYCIN): prob-atual = prob-anterior + prob-nova * (1 - prob-anterior) Ex. –Se E1 então V 0,3% –P = 0,3% –Se E2 então V 0,6% –P = 0,3 + 0,6 * (1-0,3) = 0,72 % para o JEOPS, implementar no objeto a evidência acumulada...

23 CIn- UFPE 23 Etapa 3: implementação Criar base de índices (BI) BI com as páginas pertencentes à classe desejada (usar stop-list, arquivos invertidos,...) –fazer inicialmente com as páginas do corpus O centróide deve ser extraído automaticamente, usando-se um parser para html Criar interface para consulta por palavra-chave ex. bolo, carnes,... Efetuar testes com o corpus a fim de medir precisão cobertura F-measure = 2 (cobertura * precisão) / (cobertura + precisão)

24 CIn- UFPE 24 Etapa 3: implementação Se der tempo: Automatizar a consulta aos mecanismos de busca Automatizar a extração de links das respostas –Reutilizar/programar uma classe manipuladora de arquivos html Identificar a estrutura da página de resposta do mecanismo de busca para extração dos links –ex. terceira linha, depois de um... Automatizar a atualização e a indexação periódica da base de índices

25 CIn- UFPE 25 Etapa 4 (opcional) Estender o trabalho nas seguintes direções (a) prover extração de informação (b) testar algoritmos de aprendizagem (c) estender a busca com as palavras mais comuns (ex. bolo, carnes,...) (d) introduzir conectores lógicos e ontologias para consulta a posteriori (e) notificação personalizada

26 Referências Internet Categorization and Search: A Self-Organizing Approach, Hsinchun Chen, University of Arizona, Learning from Hotlists and Coldlists: Towards a WWW information filtering and seeking agent, Michael Pazzani, University of California. The State of the Art in Text Filtering, Douglas W. Oard, University of Maryland, Ontologies for Enhancing Web Searches' Precision and Recall, Flávia A. Barros, Pedro F. Gonçalves, Thiago Santos BRight: a Distributed System for Web Information Indexing and Searching, Pedro Falcão & Silvio Meira, Universidade Federal de Pernambuco.

27 Referências An Architecture for Information Agents, Donald P McKay, University of Maryland. Cooperating Agents for Information Retrieval, Craig A. Knoblock, University of Southern California Information Retrieval: Data Structures & Algorithms, Willian B. Frakes e Ricardo Baeza-Yates, Prentice Hall, !!!!! Filtragem e Recomendação de Documentos na Web. Uma Abordage Usando Java, José Abelardo Sánchez Cardoza, Universidade Federal de Pernambuco, 1998.

28 Universidade de Maryland Intelligent Software Agents MIT Media Lab Sycaras Page home.html Sasdwedish Institute of Computer Science Referências - Links


Carregar ppt "CIn- UFPE 1 Projeto X-Finder Agents Recuperação e indexação de páginas especializadas na Web Recuperação de informação Detalhamento do projeto."

Apresentações semelhantes


Anúncios Google