Propriedades de Documentos

Slides:



Advertisements
Apresentações semelhantes
Medidas de Avaliação de Sistemas de Recuperação de Informação
Advertisements

Modelo de Redes de Crenças
Modelo Probabilístico
Operações sobre o Texto
Tutorial de Pesquisa Básica de Bibliotecas Acadêmicas
Operações sobre as Consultas
Hipermídia Aula 3.
TUTORIAL BASE DE DADOS SCIENCE DIRECT Elaborado por:
EBSCOhost Pesquisa básica para bibliotecas acadêmicas
Indexação Automática de Documentos
Especificação de Consultas
Recuperação de Imagens
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
BIBLIOTECA DIGITAL DA UFRGS
Livros Eletrônicos disponíveis no Portal de Serviços do SIBi/USP.
Livros Eletrônicos disponíveis no Portal de Serviços do SIBi/USP.
Portal de Periódicos CAPES
UNIDADE E PRODUÇÃO CIENTÍFICA.
ARTIGO CIENTÍFICO.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Tutorial de utilização do
Organização de Trabalhos no Word
Prof. Msc. Diego Silvestre de Barros.
RESUMO Laboratório de Produção de Texto
Biblioteca George Alexander Portal de Periódicos da Capes.
Trabalho de Conclusão de Curso – TCC
Metodologia Científica
TUTORIAL. Acervo digital de obras de referência (dicionários e enciclopédias) com acesso ao texto completo e busca textual. Contempla diversas áreas do.
Formatação de parágrafo
Metodologia Científica
Inteligência Artificial
Redação de sínteses Rodney Caetano.
Metodologia de Pesquisa
SciELO. A Scientific Electronic Library Online - SciELO é uma biblioteca eletrônica que abrange uma coleção selecionada de periódicos científicos brasileiros.
RepositóriUM. O objetivo do RepositóriUM é armazenar, preservar, divulgar e dar acesso à produção intelectual da Universidade do Minho (Portugal) em formato.
OAIster. A OAIster disponibiliza textos completos de artigos, dissertações, teses, imagens, vídeos e arquivos de áudio em várias línguas abrangendo todas.
Selecione uma das opções de busca Insira uma palavra do título desejado Existem duas formas de consulta ao LivRe!. A primeira é através da busca de acordo.
IX- ENCONTRO DIDÁTICO CIENTÍFICO DO CURSO DE MEDICINA DA UFOP
Tutorial Scopus.
Navegando através das Fontes e Serviços de Informação da Biblioteca Virtual em Saúde - BVS BIREME/OPAS/OMS.
TRABALHO DE CONCLUSÃO DE CURSO - TCC
Tutorial de pesquisa.
Navegação na WWW (Web):
Recuperação de Informação
Metodologia e Expressão Técnico-Científica
Elaboração de trabalhos em ambientes educacionais Natália Pacheco.
LEITURA E REDAÇÃO CIENTÍFICA: RESUMO, RESENHA E FICHAMENTO
PORTAL DE PERIÓDICOS CAPES
RESUMO Laboratório de Produção de Texto
ESCOLA TÉCNICA FEDERAL DE PALMAS UNED – PARAÍSO DO TOCANTINS
Autoria WEB Prof. Thiago Nogueira Tolentino Barbosa
A Seleção da Leitura Sublinhar e Resumir
Mestrado design de produto pós ergonomia usabilidade pós em comunicação graduação em design gráfico webdesigner nov/2008 a ago 2009 gerente de projeto.
Comunicação e Redação Empresarial
ELABORAÇÃO DE MONOGRAFIA
BIBLIOTECA DIGITAL DA UFRGS: implementação e perspectivas 2da. Jornada sobre la Biblioteca Digital Universitaria JBD2004 Buenos Aires, de junio de.
BASES DE DADOS Acesso e Uso.
PROF. DR. DIVINO IGNÁCIO RIBEIRO JR DEPARTAMENTO DE BIBLIOTECONOMIA E GESTÃO DA INFORMAÇÃO - FAED EndNote X5 – Gerenciador de Referências Bibliográficas.
Texto e Linguagens Multimédia e Propriedades Bibliotecas Digitais Engenharia Biomédica Universidade do Minho Instructor: Joaquim Macedo Baseada em apresentações.
PROJETO TCC 1.
REGRAS E MODELO PARA REALIZAÇÃO DE TRABALHOS ESCOLARES
Bem-vindo à Biblioteca Digital de Teses e Dissertações da UFMG Esse tutorial vai te auxiliar na navegação do site!
Leitura e Documentação
GUIA PARA CONSULTA NO REPOSITÓRIO DA UTFPR2013 INTRODUÇÃO PARTE I - CONSULTA AOS TCCS/TCCES PARTE II - CONSULTA ÀS DISSERTAÇÕES/ TESES/PRODUÇÃO DE SERVIDORES.
Trabalhos escolares Organização: elementos de um texto.
Transcrição da apresentação:

Propriedades de Documentos Eveline Alonso Veloso PUC-MINAS

Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 6.

Introdução Documento: unidade de informação. Pode ser uma unidade lógica completa; um artigo científico; um livro; um manual; um e-mail; uma página Web. Pode ser uma das partes de um texto maior; um capítulo de um livro; um parágrafo; uma passagem no texto; uma entrada em um dicionário.

Introdução Um documento possui: sintaxe e estrutura; semântica; ditadas pela aplicação ou pela pessoa que o criou; semântica; especificada por seu autor; estilo de apresentação; que especifica como ele deve ser exibido. O estilo de apresentação usualmente é dado pela sintaxe e estrutura do documento; e está relacionado com uma aplicação específica.

texto + estrutura + outras mídias Introdução sintaxe documento texto + estrutura + outras mídias estilo de apresentação semântica Um documento também pode ter metadados; que não são apresentados a quem está visualizando-o.

Metadados Muitos documentos e coleções possuem; Metadados: associados a eles; o que é conhecido como metadados. Metadados: “dados sobre os dados”. Tipos: descritivos; semânticos. Podem ser utilizados como uma das evidências para a recuperação do documento.

Metadados Descritivos Metadados que são externos ao significado do documento; estão mais relacionados a seu processo de criação. Exemplos: nome do autor do documento; data de publicação do documento; tamanho; (em número de páginas; palavras ou bytes); tipo do documento; (livro; página Web; etc).

Metadados Semânticos Metadados que caracterizam o assunto; Exemplos: que pode ser encontrado no conteúdo do documento. Exemplos: palavras-chave associadas a páginas Web; relacionadas ao assunto por elas tratado; códigos de assunto associados a livros em uma biblioteca.

Metadados em Páginas Web <html lang="pt-br"> <head> <title>Portal PUC Minas</title> <meta name="description" content="Portal PUC Minas - Site institucional"> <meta name="Author" content="Rodrigo Dias"> <meta name="keywords" content="PUC Minas, Universidade, Escola Superior de Ensino, Graduacao, Pos-Graduacao"> <meta name="language" content="pt-br">

Metadados Metadados também são úteis para descrever textualmente objetos não textuais; como imagens; música; vídeo; etc. Assim, as palavras-chave associadas ao objeto não textual; podem ser utilizadas para que esses objetos sejam recuperados; utilizando-se técnicas clássicas de recuperação de informação textual.

Formato dos Documentos Não existe um único formato para documentos textuais; e um sistema de recuperação de informação deve ser capaz de recuperar documentos de diversos formatos. Sistemas de recuperação de informação utilizam filtros (parsers); para extrair o conteúdo, na forma textual, de documentos de diversos formatos.

Formato dos Documentos É necessário construir um parser; para cada formato de documento tratado pelo sistema de recuperação de informação. A sintaxe de muitas linguagens é proprietária e específica; enquanto a de outras é aberta e pública. É possível construir parsers eficientes para formatos públicos como o HTML.

Exemplo de Documento HTML <div class="boxnoticia"> <font class='chamada'><b>Pós-graduação PUC Minas Virtual</b></font><br> <a href='/noticias/noticia.php?codigo=2567&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Ensino a distância com a qualidade PUC Minas. Inscrições abertas. </a> </div> <font class='chamada'><b>Mestrado e Doutorado</b></font><br> <a href='/concursos' class='link_capa' > Saiba tudo sobre os processos seletivos </a> </div> <font class='chamada'><b>Canto Coral</b></font><br> <a href='/noticias/noticia.php?codigo=2579&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Diretoria de Arte e Cultura oferece oficina de Canto Coral </a> </div>

Formato dos Documentos Pode não ser possível construir bons parsers; se o formato for proprietário e seus detalhes não forem públicos; como documentos Word que são armazenados em um formato binário.

Exemplo de Documento Word æ  â ðUa{#áÇH z  &  ª æ $ [ 0 ‹ ¶ 0 ‡ <  ‡ æ R H H 4 4 4 4  Ù EMBED UnknownPONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS Exercício Curso : Sistemas de Informação Disciplina : Recuperação de Informação Professora: Eveline Alonso Veloso Selecione três sistemas de recuperação de informação que você costuma utilizar e indique as seguintes propriedades de suas bases de documentos textuais:       C L N O c y ” ­ ® Á × ó òéÙòÒÉ¿ÒéÒ·Ò·Ò¿«Ò

Freqüência de Ocorrência das Palavras Texto escrito possui certa semântica; e é uma forma de disseminar informação. Embora seja difícil capturar formalmente quanta informação existe em um dado texto; a freqüência de ocorrência das palavras que aparecem no texto está relacionada a isso. Por exemplo, um texto onde a mesma palavra aparece repetidas vezes; não apresenta muita informação.

Freqüência de Ocorrência das Palavras Palavras muito freqüentes: stopwords; palavras que não apresentam muito significado; artigos; preposições; etc. Geralmente são descartadas durante o processo de recuperação de informação; diminui o espaço de armazenamento necessário; acelera o processamento de consultas. Palavras muito pouco freqüentes: podem ser palavras escritas incorretamente; depende das características do meio de onde os documentos da coleção foram selecionados.

Características da Língua A língua em que o documento foi escrito pode apresentar particularidades; que podem ser exploradas; ou não devem ser desconsideradas durante o processo de recuperação de informação. Exemplo: acentuação de palavras da língua portuguesa.

Tamanho da Coleção de Documentos Vocabulário: conjunto de palavras distintas de uma coleção. É possível estimar, com bastante precisão, o tamanho do vocabulário de uma coleção; a partir do tamanho da própria coleção; o que pode ser utilizado para estimar o tamanho do índice.

Estrutura dos Documentos Documentos podem apresentar alguma estrutura; ainda que básica; que pode ser explorada durante o processo de recuperação de informação.

Título Corpo da página

Título Lista de autores Resumo Corpo do documento

Estrutura dos Documentos

Qualidade dos Documentos As características do meio de onde os documentos da coleção foram selecionados; podem influenciar algumas outras características desses documentos, como: qualidade; documentos podem apresentar, com maior freqüência, erros de digitação e/ou ortografia; autenticidade; veracidade. O processo de recuperação de informação deve utilizar mecanismos para priorizar documentos de maior qualidade.