Recuperação de Informação

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Orientação – acesso ambiente virtual
Celso C. Ribeiro Caroline T. Rocha
Laboratório de Informática Introdução à Linguagem HTML
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Propriedades de Documentos
Análise de Casos de Uso.
Interação entre objetos
Interfaces Conversacionais
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
April 05 Prof. Ismael H. F. Santos - 1 Modulo II CheckStyle Professor Ismael H F Santos –
April 05 Prof. Ismael H. F. Santos - 1 Modulo II Findbugs Professor Ismael H F Santos –
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Introdução a Computação
Introdução a Teoria da Classificação
April 05 Prof. Ismael H. F. Santos - 1 Módulo II XML Processing: XSLT, SAX e DOM Prof. Ismael H F Santos.
Agentes na Web Márcio David de Magalhães Santos Departamento de Informática UFPE Recife, 1 de junho de 1999.
Recuperação de informação Detalhamento do projeto
Recuperação de Informação Multimídia
Recuperação de Informações
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Universidade Federal de Minas Gerais Escola de Ciência da Informação Introdução à Informática Prof. David Menoti Sílvia Aparecida Moreira Guilherme Pacheco.
Auditoria de Segurança da Informação
Faculdade de Medicina de Marília Disciplina de Informática em Saúde 1/20 O papel do Bibliotecário Frente às Tendências Tecnológicas e sua Relação com a.
Aula 6 Subprogramas Universidade do Vale do Rio dos Sinos
Listas Encadeadas.
Análise de Casos de Uso Alexandre Motnteiro.
Monitoria GDI Aula Prática
Semana de Informática 2011 – IFAM Parintins
Desenvolvimento de Projetos e Aplicações Web
EBSCOhost Acesso móvel.
Disciplina: Multimídia Prof a. Leila Jane Brum Lage Sena Guimarães Transparências: Wilson de Pádua Paula Filho.
Comunicação Social Criação e Produção de Sites
Inteligência Artificial
Cinemática Plana de um Corpo Rígido Cap. 16
MECÂNICA - DINÂMICA Cinemática de uma Partícula Cap Exercícios.
Object Oriented Software Construction (MEYER, Bertrand)
Engenharia Civil e Ambiente ANÁLISE ESTRUTURAL, 5 de Dezembro / 33 ANÁLISE ESTRUTURAL ENGENHARIA CIVIL E AMBIENTE.
Introdução ao Desenvolvimento Web
Salas de Matemática.
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Bancos de Dados e Recuperação de Informação
EXERCÍCIOS PARA GUARDA-REDES
Cinemática de uma Partícula Cap. 12
Introdução a Informática Aula 02
IF696 - Integração de Dados e DW
Mineração na Web Introdução a Recuperação de Informação
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Recuperação de Informação
Redes Neuronais/Neurais/ Conexionistas Introdução
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Rio Verde - Goiás - Brasil
EBSCOhost Pesquisa avançada.
1 Segunda fase do projeto: Desenvolvimento do “Catálogo Virtual” Foco em Sistemas de Informação Desenvolvimento baseado no diagnóstico e na interação com.
Cinemática Plana de um Corpo Rígido Cap. 16
Nome alunos 1 Título UC. Título – slide 2 Conteúdo Conteúdo 2.
Ceça Moraes – Introdução à Programação SI1
Planilha Eletrônica - Excel
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação
Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília Recuperação 1.
Compras – Planejamento de Estoque
Contagem Sequencial do Estoque
Contagem Sequencial do Estoque
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
1 Projeto X-Finder Agents Recuperação e Indexação de páginas especializadas na Web Disciplina: Inteligência Artificial Simbólica Professora: Flávia Barros.
Classificação de Textos
Agentes de Busca na Internet Fred Freitas CIn - UFPE.
Transcrição da apresentação:

Recuperação de Informação Mariana Lara Neves (mln@di.ufpe.br)

Conteúdo da apresentação Introdução Técnicas de IR Aspectos relevantes em IR Busca na Web Agentes + IR Conclusões Referências

+ Introdução Crescimento das coleções de textos digitais (bibliotecas digitais, Internet, Intranets, ...) + Crescimento exponencial da World Wide Web Novas técnicas de recuperação de informações (IR)

Introdução OBJETIVO: Encontrar (de forma eficiente) os melhores documentos que satisfaçam a query do usuário.

Constróem (ou atualizam) Técnicas de IR Sistema de indexação baseado em palavras-chave: robôs Constróem (ou atualizam) o IndexBase (IB) queries: lista de palavras-chave, expressões booleanas, etc.

Técnicas de IR Sistema de indexação baseado em palavras-chave: Desvantagens: retorna uma grande quantidade de documentos irrelevantes; classificação estática (manual e/ou automática). Exemplos: Yahoo!, AltaVista, HotBot, Lycos, Infoseek, Cadê.

Técnicas de IR Sistema baseado em ontologias: Classificação dinâmica de páginas, podendo variar de acordo com as necessidades atuais do usuário. Utilizando-se ontologias, o usuário pode selecionar os conceitos para construir seu contexto em cada query. Objetivo: aumentar a precisão da busca. Vantagens: flexibilidade e transparência.

pesquisa realizada no DI-UFPE para o sistema Bright! Técnicas de IR Sistema baseado em ontologias: Aplicação: pesquisa realizada no DI-UFPE para o sistema Bright! Sistema de busca para uma intranet de uma empresa de grande porte: ontologias criadas por um especialista para um domínio restrito e conhecido.

Técnicas de IR Term Frequency-Inverse Document Frequency (TFIDF): atribui pesos às palavras de um documento. TF(w): frequência da palavra w (número de vezes que w aparece no documento. DF(w): frequência de documentos com a palavra w (número de documentos em que a palavra ocorre). D = número total de documentos.

Aspectos Relevantes em IR 1. Integração de Soluções Banco de dados das empresas Sistema de IR Mudanças nas técnicas de indexação e otimização das queries (novas linguagens). Capacidade de multimídia

Aspectos Relevantes em IR 2. IR Distribuída Ranking único de documentos search engine ranking de documentos search engine ranking de documentos search engine ranking de documentos Solução: sistema multi-agente. Exemplo: Miner.

Aspectos Relevantes em IR 3. Eficiência na Indexação tempo de resposta da query; velocidade de indexação. Pesquisas na área: novos algoritmos para solucionar estes problemas; algoritmos de compressão de textos (diminuindo o tempo de armazenamento e de manipulação); capacidade de lidar com vários tipos de arquivos (SGML, HTML, Acrobat, etc.).

Aspectos Relevantes em IR 4. Expansão do Vocabulário A informação buscada pode ser expressada por diferentes palavras nos documentos relevantes. Latent Semantic Indexing (LSI): transforma o documento e a representação da query; utilizando-se um dicionário de sinônimos..

Aspectos Relevantes em IR 5. Interface do sistema As interfaces devem tornar o sistema de fácil uso e compreensão. Devem suportar funções tais como: formulação de queries; apresentação da informação recuperada; feedback; browsing.

Aspectos Relevantes em IR 6. Filtragem da Informação Processo de identificar documentos relevantes em um conjunto de informações, baseando-se no profile do usuário. comparação um documento individual usuários + profiles verdadeiro documento

Aspectos Relevantes em IR 6. Filtragem da Informação Eficiência Deve lidar com um grande volume de documentos (± 10 MB/hora) e muitos usuários (± 10.000). Eficácia Algoritmos que fazem uma “podagem”, para separar os documentos relevantes dos não-relevantes.

Aspectos Relevantes em IR 7. Eficácia da Recuperação Recall Relação entre o n° de documentos relevantes retornados e o n° total de documentos relevantes. Precisão Relação entre o n° de documentos relevantes retornados e n° total de documentos retornados.

Aspectos Relevantes em IR 7. Eficácia da Recuperação Todos os documentos Documentos relevantes Documentos retornados Relevantes retornados Recall = Precisão =

Aspectos Relevantes em IR 8. Recuperação Multimídia Refere-se às técnicas em desenvolvimento para que se possa indexar e acessar imagens, vídeos e sons sem uma descrição para texto. Soluções gerais para a indexação de de multimídia são difíceis (soluções específicas). Reconhecimento de faces Indexação de imagens pela distribuição de cores

Aspectos Relevantes em IR 9. Extração de Informação Extrai dados relevantes (para um determinado objetivo) a partir de documentos digitais. Etapas: reconhecimento do trecho de informação; extração da informação. Exemplo (projeto de mestrado de Carla): BD (CNCT): Autor: .... Ano: .... Título: .... Local: ....

Aspectos Relevantes em IR 9. Extração de Informação

Aspectos Relevantes em IR 10. Feedback Processo em que o usuário identifica os documentos relevantes retornados em uma lista inicial, para em seguida o sistema criar uma nova query baseada nesta amostra de documentos.

Fonte: Info Exame (nov/99) Busca na Web Gerais Opções de busca Resultado das pesquisas Facilidade de uso Fonte: Info Exame (nov/99)

Busca na Web Brasileiros Opções de busca Resultado das pesquisas Facilidade de uso

Busca na Web Metabusca Sites em que realiza busca Qualidade da pesquisa Organização dos resultados Facilidade de uso

Agentes + IR Agente queries queries feedback documentos documentos

Agentes + IR Por quê? IR se encaixa no modelo de agente; necessidade de acesso a múltiplas fontes de informação; necessidade de distribuição.

Conclusões Fato: grande volume de informação; necessidade de novas técnicas para buscar toda esta informação. O que se pode melhorar? Tempo de resposta da busca; aumentar a eficiência da busca.

Referências Barros, Flávia; Gonçalves, Pedro; Ontologies for Enhacing Web Searches’ Precision and Recall (1998). Croft, Bruce; What Do People Want from Information Retrieval? (1995). Lewis, David D., Representation and Learning in Information Retrieval (1992). Ramos, Tagil Oliveira; Irrelevância mata! Ou não? (1999) InfoExame n° 164 ano 14. Ribeiro, Juliana N.; Categorização de Textos usando Redes Neurais (1997).

Referências - WWW Universidade de Maryland Searching the Web http://www.cs.umbc.edu/abir Searching the Web http://www.esrl.lib.md.us/refdesk/searching.html Center for Intelligent Information Retrieval http://ciir.cs.umass.edu/ Information Retrieval http://www.dcs.gla.ac.uk/ir/new/pages/IR_Home.html