A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recuperação de Informação Mariana Lara Neves

Apresentações semelhantes


Apresentação em tema: "Recuperação de Informação Mariana Lara Neves"— Transcrição da apresentação:

1 Recuperação de Informação Mariana Lara Neves

2 2 Conteúdo da apresentação TIntrodução TTécnicas de IR TAspectos relevantes em IR TBusca na Web TAgentes + IR TConclusões TReferências

3 3 Introdução Crescimento das coleções de textos digitais (bibliotecas digitais, Internet, Intranets,...) Crescimento exponencial da World Wide Web Novas técnicas de recuperação de informações (IR) +

4 4 Introdução OBJETIVO: Encontrar (de forma eficiente) os melhores documentos que satisfaçam a query do usuário.

5 5 Técnicas de IR TSistema de indexação baseado em palavras- chave: Constróem (ou atualizam) o IndexBase (IB) robôs queries: lista de palavras-chave, expressões booleanas, etc.

6 6 Técnicas de IR TSistema de indexação baseado em palavras- chave: Desvantagens: S retorna uma grande quantidade de documentos irrelevantes; S classificação estática (manual e/ou automática). Exemplos: S Yahoo!, AltaVista, HotBot, Lycos, Infoseek, Cadê.

7 7 Técnicas de IR TSistema baseado em ontologias: Classificação dinâmica de páginas, podendo variar de acordo com as necessidades atuais do usuário. Utilizando-se ontologias, o usuário pode selecionar os conceitos para construir seu contexto em cada query. Objetivo: S aumentar a precisão da busca. Vantagens: S flexibilidade e transparência.

8 8 Técnicas de IR TSistema baseado em ontologias: Aplicação: Spesquisa realizada no DI-UFPE para o sistema Bright! S Sistema de busca para uma intranet de uma empresa de grande porte: ontologias criadas por um especialista para um domínio restrito e conhecido.

9 9 Técnicas de IR Term Frequency-Inverse Document Frequency (TFIDF): atribui pesos às palavras de um documento. S TF(w): frequência da palavra w (número de vezes que w aparece no documento. S DF(w): frequência de documentos com a palavra w (número de documentos em que a palavra ocorre). D = número total de documentos.

10 10 Aspectos Relevantes em IR 1. Integração de Soluções Banco de dados das empresas Sistema de IR Mudanças nas técnicas de indexação e otimização das queries (novas linguagens). Capacidade de multimídia

11 11 Aspectos Relevantes em IR 2. IR Distribuída S Solução: sistema multi-agente. S Exemplo: Miner. search engine search engine search engine ranking de documentos ranking de documentos ranking de documentos Ranking único de documentos

12 12 Aspectos Relevantes em IR 3. Eficiência na Indexação tempo de resposta da query; velocidade de indexação. Pesquisas na área: S novos algoritmos para solucionar estes problemas; S algoritmos de compressão de textos (diminuindo o tempo de armazenamento e de manipulação); S capacidade de lidar com vários tipos de arquivos (SGML, HTML, Acrobat, etc.).

13 13 Aspectos Relevantes em IR 4. Expansão do Vocabulário A informação buscada pode ser expressada por diferentes palavras nos documentos relevantes. S Latent Semantic Indexing (LSI): transforma o documento e a representação da query; S utilizando-se um dicionário de sinônimos..

14 14 Aspectos Relevantes em IR 5. Interface do sistema As interfaces devem tornar o sistema de fácil uso e compreensão. Devem suportar funções tais como: S formulação de queries; S apresentação da informação recuperada; S feedback; S browsing.

15 15 Aspectos Relevantes em IR 6. Filtragem da Informação Processo de identificar documentos relevantes em um conjunto de informações, baseando-se no profile do usuário. usuários + profiles comparação um documento individual verdadeiro documento

16 16 Aspectos Relevantes em IR 6. Filtragem da Informação Deve lidar com um grande volume de documentos (± 10 MB/hora) e muitos usuários (± ). Eficiência Algoritmos que fazem uma podagem, para separar os documentos relevantes dos não-relevantes. Eficácia

17 17 Aspectos Relevantes em IR 7. Eficácia da Recuperação Relação entre o n° de documentos relevantes retornados e o n° total de documentos relevantes. Recall Relação entre o n° de documentos relevantes retornados e n° total de documentos retornados. Precisão

18 18 Aspectos Relevantes em IR 7. Eficácia da Recuperação Todos os documentos Documentos relevantes Documentos retornados Relevantes retornados Recall =Precisão =

19 19 Aspectos Relevantes em IR 8. Recuperação Multimídia Refere-se às técnicas em desenvolvimento para que se possa indexar e acessar imagens, vídeos e sons sem uma descrição para texto. Soluções gerais para a indexação de de multimídia são difíceis (soluções específicas). Reconhecimento de faces Indexação de imagens pela distribuição de cores

20 20 Aspectos Relevantes em IR 9. Extração de Informação Extrai dados relevantes (para um determinado objetivo) a partir de documentos digitais. Etapas: S reconhecimento do trecho de informação; S extração da informação. Exemplo (projeto de mestrado de Carla): BD (CNCT): Autor:.... Ano:.... Título:.... Local:....

21 21 Aspectos Relevantes em IR 9. Extração de Informação

22 22 Aspectos Relevantes em IR 10. Feedback Processo em que o usuário identifica os documentos relevantes retornados em uma lista inicial, para em seguida o sistema criar uma nova query baseada nesta amostra de documentos.

23 23 Busca na Web Opções de busca Resultado das pesquisas Facilidade de uso Fonte: Info Exame (nov/99) Gerais

24 24 Busca na Web Opções de busca Resultado das pesquisas Facilidade de uso Brasileiros

25 25 Busca na Web Sites em que realiza busca Qualidade da pesquisa Facilidade de uso Organização dos resultados Metabusca

26 26 Agentes + IR Agente documentos queries documentos queries feedback

27 27 Agentes + IR TIR se encaixa no modelo de agente; Tnecessidade de acesso a múltiplas fontes de informação; Tnecessidade de distribuição. Por quê?

28 28 Conclusões Fato: Tgrande volume de informação; Tnecessidade de novas técnicas para buscar toda esta informação. O que se pode melhorar? TTempo de resposta da busca; Taumentar a eficiência da busca.

29 29 Referências TBarros, Flávia; Gonçalves, Pedro; Ontologies for Enhacing Web Searches Precision and Recall (1998). TCroft, Bruce; What Do People Want from Information Retrieval? (1995). TLewis, David D., Representation and Learning in Information Retrieval (1992). TRamos, Tagil Oliveira; Irrelevância mata! Ou não? (1999) InfoExame n° 164 ano 14. TRibeiro, Juliana N.; Categorização de Textos usando Redes Neurais (1997).

30 30 Referências - WWW TUniversidade de Maryland TSearching the Web TCenter for Intelligent Information Retrieval TInformation Retrieval


Carregar ppt "Recuperação de Informação Mariana Lara Neves"

Apresentações semelhantes


Anúncios Google