A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.

Apresentações semelhantes


Apresentação em tema: "Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST."— Transcrição da apresentação:

1 Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST

2 2 Informação => Recursos

3 3 Informação? Como informação iremos considerar daqui em diante “objectos” ou, em termos mais gerais, “recursos (de informação)”. Nesta perspectiva o nosso problema da “Gestão e Recuperação de Informação” será agora um problema de “gestão e recuperação de recursos”...

4 4 Como se define um recurso? Definição simples: Um recurso de informação poderá ser tudo aquilo a que se pode atribuir um identificador!!! Exemplos de identificadores: –URL –URI –ISBN –Número de Contribuinte –“Pathname” num sistema de ficheiros –Número de telefone –Endereço de email –Número de aluno do IST –Matrícula de um automóvel –.. A assumpção geral é a de que se é possível atribuir um identificador a algo, então essa coisa terá “identidade”...

5 5 Identificadores e géneros de recursos: Exemplos de identificadores: –URL –URI –ISBN –Número de Contribuinte –“Pathname” num sistema de ficheiros –Número de telefone –Endereço de email –Número de aluno do IST –Matrícula de um automóvel –.. Mais exemplos...???... Géneros de recursos: –Uma página web! –...qualquer coisa... –Um livro! –Uma pessoa ou organização! –Um ficheiro num computador! –Uma pessoa ou organização! –Uma pessoa! –Um automóvel! –.. ???...

6 6 Voltando ao problema genérico da Gestão e Recuperação de Informação O nosso problema pode-se definir agora como sendo o de garantir que, para todos os recursos relevantes para um dado negócio, seja possível criar e gerir: –Espaços de identificadores, para todos os recursos –Atributos que possam ser processados sobre os recursos (eventualmente, os identificadores de um recurso podem ser atributos seus) –Sistemas que recuperam identificadores de recursos como resposta a interrogações aos atributos dos mesmos –Sistemas que façam a gestão do acesso aos recursos em troca dos seus identificadores

7 7 Atributos => Metadados

8 8 Sobre os Atributos –Podemos fazer uma analogia dizendo que no problema “clássico” de RI os atributos correspondem à informação que se extrai do recurso, ou seu representativo, para indexar (lista de palavras, vector,...). No entanto essa informação não é geralmente estruturada (são dados...) –Numa perspectiva mais geral de GRI, os atributos correspondem a informação estruturada, a que se dá o nome de metadados do recurso! –(definição simples) Metadados é assim a designação genérica para qualquer tipo de informação estruturada sobre um recurso.

9 9 Exemplos de atributos/metadados Título = A Morgadinha dos Canaviais Jaime Silva id := 123-xpto-h3d4 Género: Dissertação Type = JPEG2000 Data de Edição - 29 de Fevereiro de 2004 102 ## $aPT 700 #1 $aHalpern$bManuel Júdice$f1932-

10 10 Metadados podem ser criados –Manualmente: o preenchimento de uma ficha por uma pessoa... => Um catalogador numa biblioteca! –Automaticamente: a criação automática de uma estrutura de dados através de um programa de computador implementando algoritmos específicos... => Parsers, heurísticas, inferências,...

11 11 “Information IQ” (imagem de http://www2.sims.berkeley.edu/academics/courses/is243/s06/lectures/figures/iq-2.gif ) Objectos de informação estruturados podem facilitar a extracção de metadados!!!

12 12 Que tipos de metadados podemos ter? –Descritivos título, nome do autor, assunto, data de criação,... –Técnicos formato(s) do(s) ficheiro(s), tamanho (quantidade de bytes),... –Administrativos Password de acesso, responsável pela compra ou licenciamento,... –...aqueles que o negócio precisar...

13 13 Voltando à criação de Metadados Alguns dispositivos ou sistemas podem produzir automaticamente metadados na altura da criação do recurso => máquinas fotográficas, editores de texto, etc...

14 14 Metadados num documento PDF (de http://www.dashboardbuddha.com/images/ooo_license_pdf_metadata.png)

15 15 Metadados manuais e automáticos (de http://blog.extensis.com/wp-content/uploads/2007/01/ms_photo_info_sm.jpg)

16 16 Mais metadados Instituto Superior Técnico _uacct = "UA-182539-2"; urchinTracker();...

17 17 Mais sobre extracção de metadados

18 18 Mais sobre extracção de metadados

19 19 Há mesmo um negócio na extracção de metadados...

20 20 A propósito, uma patente em... ( http://www.wipo.int/pctdb/en/wo.jsp?wo=2007027605)

21 21 Ponto de ordem: Metadados são estruturas de informação sobre recursos que podem servir de suporte à gestão, pesquisa e acesso a esses recursos Metadados podem existir independentes dos recursos ou existir integrados nos mesmos Metadados podem ser criados: –Manualmente –Automaticamente: Durante os processos de criação dos recursos Posteriormente à criação dos recursos, extraídos dos mesmos

22 22 Metadados e Esquemas Se os metadados são estruturas de informação, então devem existir já esquemas definidos para essas estruturas, certo? Certo! Exemplos: –XMP - Extensible Metadata Platform http://xml.coverpages.org/xmp.html –MARC Standards http://www.loc.gov/marc/ –UNIMARC http://www.unimarc.info/bibliographic/2.3/en/summary –Dublin Core Metadata Initiative http://dublincore.org/ –MPEG-7 / MPEG-21 DIDL http://www.chiariglione.org/mpeg/ –etc...

23 23

24 24

25 25

26 26

27 27

28 28 Dos Metadados aos Serviços...

29 29 O que se pode fazer então com os metadados? Em cenários bem definidos, podem ser simplesmente “despejados” para uma base de dados, criando serviços de Precision=Recall=1

30 30 A propósito, um registo UNIMARC (codificado em MarcXchange)

31 31 O que se pode fazer então com os metadados? Em cenários menos bem definidos (mais “Information Retrieval”), podem-se usar os registos de metadados como fontes para serviços na mesma:

32 32 Partilha de Metadados Os primeiros “indexadores” da Web(Yahoo, Sapo, etc.) eram na realidade serviços baseados em metadados criados manualmente, em que pessoas indexavam cada site manualmente, isto é, atribuíam a cada “site” um conjunto de termos relacionados com o conteúdo do mesmo (Cultura – Cinema, Cultura – Pintura, Desporto – Futebol, Desporto – Atletismo, Culinária,...). A partir de certa altura tornou-se complexo demais (senão mesmo impossível) continuar com esses processos, o que abriu as portas a novas alternativas automáticas, como o Altavista e o... Google!!! No entanto o Google indexa apenas a “web superficial”, continuando a não aceder à “web profunda” (o cenário mostrado no slide anterior, do Scholar Google, é já um passo para resolver esse problema...) Para dar mais visibilidade aos seus recursos, os criadores dos mesmos podem criar metadados descritivos e partilhá-los com quem estiver interessado em os recolher e agregá-los com outros para disponibilizar assim serviços de Recuperação de Informação... Os “standards” neste momento mais utilizados para este fim são o Dublin Core (como elementos de metadados) e o OAI-PMH (como protocolo para partilha desses metadados)

33 33 OAI - Open Archives Initiative

34 34 OAI-PMH Protocol for Metadata Harvesting ( http://www.oaforum.org/tutorial/image/structure-model.gif ) Web-Services segundo o modelo REST...

35 35 No entanto também é possível conceber serviços baseados em arquitecturas distribuídas, em que se pode pesquisar em tempo real em servidores remotos, usando por exemplo o protocolo Z39.50... http://pubs.usgs.gov/of/2003/of03-471/graphics/schweitzer/fig1.jpg

36 36

37 37 Servidores Z39.50 em bibliotecas Portuguesas:

38 38 O Z39.50 é um protocolo bastante complexo... SRU é uma solução equivalente mais simples (modelo REST ou WS com WSDL...)

39 39 TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

40 40 Próximas aulas... RSS MPEG... METS SMIL DocBook ATOM Dublin Core... UNIMARC MARC21ONIX XML RDF Document Schemas Metadata Registries... GML

41 41 Perguntas?


Carregar ppt "Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST."

Apresentações semelhantes


Anúncios Google