A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Propriedades de Documentos

Apresentações semelhantes


Apresentação em tema: "Propriedades de Documentos"— Transcrição da apresentação:

1 Propriedades de Documentos
Eveline Alonso Veloso PUC-MINAS

2 Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 6.

3 Introdução Documento: unidade de informação.
Pode ser uma unidade lógica completa; um artigo científico; um livro; um manual; um ; uma página Web. Pode ser uma das partes de um texto maior; um capítulo de um livro; um parágrafo; uma passagem no texto; uma entrada em um dicionário.

4 Introdução Um documento possui: sintaxe e estrutura; semântica;
ditadas pela aplicação ou pela pessoa que o criou; semântica; especificada por seu autor; estilo de apresentação; que especifica como ele deve ser exibido. O estilo de apresentação usualmente é dado pela sintaxe e estrutura do documento; e está relacionado com uma aplicação específica.

5 texto + estrutura + outras mídias
Introdução sintaxe documento texto + estrutura + outras mídias estilo de apresentação semântica Um documento também pode ter metadados; que não são apresentados a quem está visualizando-o.

6 Metadados Muitos documentos e coleções possuem; Metadados:
associados a eles; o que é conhecido como metadados. Metadados: “dados sobre os dados”. Tipos: descritivos; semânticos. Podem ser utilizados como uma das evidências para a recuperação do documento.

7 Metadados Descritivos
Metadados que são externos ao significado do documento; estão mais relacionados a seu processo de criação. Exemplos: nome do autor do documento; data de publicação do documento; tamanho; (em número de páginas; palavras ou bytes); tipo do documento; (livro; página Web; etc).

8 Metadados Semânticos Metadados que caracterizam o assunto; Exemplos:
que pode ser encontrado no conteúdo do documento. Exemplos: palavras-chave associadas a páginas Web; relacionadas ao assunto por elas tratado; códigos de assunto associados a livros em uma biblioteca.

9 Metadados em Páginas Web
<html lang="pt-br"> <head> <title>Portal PUC Minas</title> <meta name="description" content="Portal PUC Minas - Site institucional"> <meta name="Author" content="Rodrigo Dias"> <meta name="keywords" content="PUC Minas, Universidade, Escola Superior de Ensino, Graduacao, Pos-Graduacao"> <meta name="language" content="pt-br">

10 Metadados Metadados também são úteis para descrever textualmente objetos não textuais; como imagens; música; vídeo; etc. Assim, as palavras-chave associadas ao objeto não textual; podem ser utilizadas para que esses objetos sejam recuperados; utilizando-se técnicas clássicas de recuperação de informação textual.

11 Formato dos Documentos
Não existe um único formato para documentos textuais; e um sistema de recuperação de informação deve ser capaz de recuperar documentos de diversos formatos. Sistemas de recuperação de informação utilizam filtros (parsers); para extrair o conteúdo, na forma textual, de documentos de diversos formatos.

12 Formato dos Documentos
É necessário construir um parser; para cada formato de documento tratado pelo sistema de recuperação de informação. A sintaxe de muitas linguagens é proprietária e específica; enquanto a de outras é aberta e pública. É possível construir parsers eficientes para formatos públicos como o HTML.

13 Exemplo de Documento HTML
<div class="boxnoticia"> <font class='chamada'><b>Pós-graduação PUC Minas Virtual</b></font><br> <a href='/noticias/noticia.php?codigo=2567&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Ensino a distância com a qualidade PUC Minas. Inscrições abertas. </a> </div> <font class='chamada'><b>Mestrado e Doutorado</b></font><br> <a href='/concursos' class='link_capa' > Saiba tudo sobre os processos seletivos </a> </div> <font class='chamada'><b>Canto Coral</b></font><br> <a href='/noticias/noticia.php?codigo=2579&lateral=&cabecalho=&menu=&pagina=' class='link_capa' > Diretoria de Arte e Cultura oferece oficina de Canto Coral </a> </div>

14 Formato dos Documentos
Pode não ser possível construir bons parsers; se o formato for proprietário e seus detalhes não forem públicos; como documentos Word que são armazenados em um formato binário.

15 Exemplo de Documento Word
æ  â ðUa{#áÇH z  &  ª æ $ [ 0 ‹ ¶ ‡ <  ‡ æ R H H      Ù EMBED UnknownPONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS Exercício Curso : Sistemas de Informação Disciplina : Recuperação de Informação Professora: Eveline Alonso Veloso Selecione três sistemas de recuperação de informação que você costuma utilizar e indique as seguintes propriedades de suas bases de documentos textuais:       C L N O c y ” ­ ® Á × ó òéÙòÒÉ¿ÒéÒ·Ò·Ò¿«Ò

16 Freqüência de Ocorrência das Palavras
Texto escrito possui certa semântica; e é uma forma de disseminar informação. Embora seja difícil capturar formalmente quanta informação existe em um dado texto; a freqüência de ocorrência das palavras que aparecem no texto está relacionada a isso. Por exemplo, um texto onde a mesma palavra aparece repetidas vezes; não apresenta muita informação.

17 Freqüência de Ocorrência das Palavras
Palavras muito freqüentes: stopwords; palavras que não apresentam muito significado; artigos; preposições; etc. Geralmente são descartadas durante o processo de recuperação de informação; diminui o espaço de armazenamento necessário; acelera o processamento de consultas. Palavras muito pouco freqüentes: podem ser palavras escritas incorretamente; depende das características do meio de onde os documentos da coleção foram selecionados.

18 Características da Língua
A língua em que o documento foi escrito pode apresentar particularidades; que podem ser exploradas; ou não devem ser desconsideradas durante o processo de recuperação de informação. Exemplo: acentuação de palavras da língua portuguesa.

19 Tamanho da Coleção de Documentos
Vocabulário: conjunto de palavras distintas de uma coleção. É possível estimar, com bastante precisão, o tamanho do vocabulário de uma coleção; a partir do tamanho da própria coleção; o que pode ser utilizado para estimar o tamanho do índice.

20 Estrutura dos Documentos
Documentos podem apresentar alguma estrutura; ainda que básica; que pode ser explorada durante o processo de recuperação de informação.

21 Título Corpo da página

22 Título Lista de autores Resumo Corpo do documento

23 Estrutura dos Documentos

24 Qualidade dos Documentos
As características do meio de onde os documentos da coleção foram selecionados; podem influenciar algumas outras características desses documentos, como: qualidade; documentos podem apresentar, com maior freqüência, erros de digitação e/ou ortografia; autenticidade; veracidade. O processo de recuperação de informação deve utilizar mecanismos para priorizar documentos de maior qualidade.


Carregar ppt "Propriedades de Documentos"

Apresentações semelhantes


Anúncios Google