A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recuperação de Informações Estéfane George M. de Lacerda.

Apresentações semelhantes


Apresentação em tema: "Recuperação de Informações Estéfane George M. de Lacerda."— Transcrição da apresentação:

1 Recuperação de Informações Estéfane George M. de Lacerda

2 Agentes na Web Agentes tem surgido na web de várias maneiras –Busca –Filtram e recuperam Informações –Agentes notificadores –Suporte ao Comércio –Chat –Outros...

3 Agentes na Web Os mais populares Agentes na Web tem sido usado em sistemas de recuperação de informações na web

4 A Web Informação não estruturada 400 a 500 milhões de documentos (Jul, 1998, IEEE internet computer). Duplica de tamanho a cada 4 meses Multilíngue Ambígua Caos para se buscar informações

5 Tipos de sistemas de Busca na Internet Sistemas que usam Diretórios (Yahoo e Magellan) – Catalagos organizados hierarquicamente. Sistemas que automatizam a organização das informações na Web. (Altavista, Lycos, WebCrawler, HotBot, Excite). –Robôs ou spiders que exploram a web em busca de páginas. – A principal tecnologia desses sistemas provém da área de Recuperação de informação.

6 Introdução a Recuperação de Informação Full text scanning (KMP, Boyer e Moore etc...) Arquivos de assinatura Inversão Indexação Modelo Booleano Modelo do Espaço Vetorial

7 ID doc2 Inversão ID doc1 Java tutorial Sun´s Java Site good tutorial on java sun site doc1 doc1,doc2 doc1 doc1,doc2.doc3 doc3 Índice invertido Coleção de Documentos ID doc3 Good tutorial on Java

8 Preparação do documento p/ Indexação Análise léxica Stop list : palavras que não são úteis para recuperação de informações (e.g. palavras comuns, preposição, artigos, etc..) Stemming: processo de remover prefixos e sufixos das palavras do documento engineering engineered engineer engineer engineer engineer TermStem

9 Modelo Booleano A query é uma expressão com AND, OR e NOT O documento é relevante se o resultado da query é verdadeiro. Tem baixo desempenho e não é possivel ranking de documentos relevantes.

10 Modelo do Espaço Vetorial Documentos e query são representados por um vetor com n dimensões, onde n é o numero de termos diferentes na coleção de documentos. Achar documentos é comparar o vetor de documentos com o vetor query do usuário

11 Modelo do Espaço Vetorial good tutorial on java sun site w 11 doc1 w 12 w 13 w doc2 w 22 0 w doc3 0 0 w 34 w 35 w 36 0 query 0 0 w4w : Indica ausência do termo w it : Peso que indica a importância do termo termos vetores

12 Atribuição de pesos Term Frequency x Inverse Document Frequency (TF x IDF) w ij = f d,t log(N/f i ) N é o número total de documentos f t é o número de docs que contém o termo t f d,t : número de ocorrências do termo t no doc i Esta função atribui altos pesos para palavras raras, pois são melhores discriminantes.

13 Ranking de documentos Os documento mais relevantes são retornados ao usuário de acordo com a similaridade entre vetor query e vetor documento Medida de similaridade R é dado pelo produto interno entre vetor query Q com vetor documento D (cosine similarity): R = QD

14 Medidas de desempenho Recall: total de documentos relevantes retornados dividido pelo número total dos relevantes. Precision: documentos relevantes retornados dividido pelo número total de retornados Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados

15 Medidas de desempenho Note que maximizar apenas uma medida isoladamente é fácil: –retornando 1 doc tem-se máximo precision, mas péssimo recall –retornando todos docs tem-se máximo recall, mas péssimo precision Portanto, o sistema deve maximizar ambos recall e precision simultaneamente

16 Relevance Feedback Processo de refinar resultados de uma recuperação de informações. O usuário indica quais dos documentos retornados são os mais relevantes. O sistema busca novos documentos com base naqueles documentos indicados pelo usuário. O processo é repetido conforme desejado.

17 Outras técnicas Clusterização de documentos Machine learning Redes Neurais Processamento de Linguagem natural

18 Estudo de caso: o WebCrawler Internet Query server database Search engine agents wwwlib Componentes do software do Webcrawler

19 Estudo de caso: o WebCrawler Search engine –Começa com um conjunto de HTML´s e usa suas URL´s para recuperar novos documentos. –Atravessa a web usando busca em largura no grafo formado pelos links entre documentos – Indexa no mínimo um documento por servidor

20 Estudo de caso: o WebCrawler Agents –São eles que realmente recuperam as páginas da web quando solicitados pelo sistema. Database –Prepara documento (Análise léxica, stop-list, stremming, determina pesos usando TF.IDF, indexação) –Os índices são atualizados semanalmente

21 Estudo de caso: o WebCrawler Query server –Suporta operadores AND, OR e NOT e frases –Usa o modelo do espaço vetorial –Efetua o ranking dos documentos com base na similaridade com o vetor query –Apresenta os documentos mais relevantes com um resumo e um score de relevância

22 Estudo de caso: o WebCrawler

23 Conclusão A necessidade crescente de organizar informações na WEB. Usuários não sabem elaborar a query, acham complicados, com muitas possibilidades e sem nenhuma orientação. Tempo de resposta ainda é lento. Técnicas IA são cada vez mais necessárias na Web.

24 Bibliografia Willian B. Frakes e Ricardo Baeza-Yates Information Retrieval: Data Structures & Algorithms,, Prentice Hall, Gudivada, V. N. et al. Information retrieval on the world wide web. IEEE Internet Computing, Oct, Etzioni, O; Weld, D. S. Intelligent Agents on the Internet: Fact, Fiction, and Forecast, IEEE Expert, Aug., Pinkerton. B. Finding What people want. Experiences with webcrawler. Proc. Second. Int´L www conf., (http://www.ncsa.uiuc.edu/SDG/IT94/Proceedings/Searchi ng/pinkerton/WebCrawler.html) Oard D. W. The State of the Art in Text Filtering,, University of Maryland, 1997.

25 Referências - Links w/katia-home.html kr.org/~chitos/ir_and_robot/indexing.html


Carregar ppt "Recuperação de Informações Estéfane George M. de Lacerda."

Apresentações semelhantes


Anúncios Google