Repositórios Tecnologias & Interoperabilidade Alícia Lopes Medina (UNED), José Carvalho (Uminho) Curso NECOBELAC – Braga, 16 de Junho 2011
Os principais desafios enfrentados pela humanidade são globais Programa de formación Os principais desafios enfrentados pela humanidade são globais Pesquisa e comunicação científica no mundo digital: Distribuida Global Networked Colaborativa Orientada a la web Partilhar recursos Ilaria Capua, Berlin 5 Open Access http://hdl.handle.net/10760/10882
¿Como pode repositórios permitem que os investigadores usam publicações abertas e os dados para fazer um trabalho útil e interessante? caminho errado
Programa de formación "Pela primeira vez nunca, a Internet nos oferece a oportunidade de construir uma representação global e interactiva do conhecimento humano" Declaración de Berlín 2003
repositórios “abertos” Um mundo que é mais rápido, mais fácil e barato para encontrar medicamentos e curar doenças. Para ser usado: ler, processar, exibir, reuso, compartilhamento, análise, mineração de dados, através das disciplinas em ambientes colaborativos, redes de acesso aberto representação global interativa do conhecimento (operável por máquinas) repositórios “abertos” Conteúdo de livre acesso, sem restrições e de forma permanente através da Internet
repositórios são componentes desta infra-estrutura infra-estrutura: de sistemas homogêneos, localmente controlados a redes heterogêneas, distribuídas e coordenadas repositórios são componentes desta infra-estrutura
Programa de formación Elemento essencial na criação de infra-estrutura: a interoperabilidade a capacidade de uma máquina ou sistema (repositórios são) para intercâmbiar informações e serviços para outras máquinas
Programa de formación Repositório do acesso aberto ‘seu conteúdo é acessível, sem restrição e de forma permanente através da Internet a ser usado” Repositório aberto (interoperáveis) " pode trocar processos, serviços ou dados com outros sistemas para que eles possam trabalhar em conjunto de forma eficaz"
Repositórios abertos: A arquitetura aberta (orientada a serviços) Programa de formación Repositórios abertos: A arquitetura aberta (orientada a serviços) Normas e protocolos abertos Directrizes abrangentes sobre como implementar estas normas e protocolos
Arquitecturas Orientadas a Serviços (SOA) Programa de formación Arquitecturas Orientadas a Serviços (SOA) Caracteristicas dos serviços: Modulares, atómicos Interfaces bem definidas Standards para invocar operações (ex: SOAP/REST, XML) Benefícios Flexibilidade Permite criar serviços de mais alto nivel Permite personalizar aplicações do utilizador final Reutilizar serviços en contextos diferentes Evolução: criar novos serviços com base nas necessidades Orquestrar serviços para complementar un processo
Programa de formación Cenários de interoperabilidade para os repositórios e os seus normas e protocolos
um problema R1 R2 ? R3 R4 Pesquisa e Descoberta
Open Archive Initiative (OAI) y el protocolo OAI-PMH Programa de formación Open Archive Initiative (OAI) y el protocolo OAI-PMH Facilitar a pesquisa eficiente e visibilidade das publicações científicas distribuídas em diferentes repositórios, institucionais e temáticos.
O provedor de dados
Programa de formación
outro problema R1 R2 ? R3 R4 Depósito múltiple
(Simple Web-services Offering Repository Deposit) Programa de formación Você não pode depositar mais de um repositório com um único 'click ‘: atualmente várias artigos científicos Ou são depositados isoladamente em um répositorio financiador, institucional, ou temático Cómo iniciar um processo de depósito de fora de um sistema de repositório: escritorio, laboratório, jornal... Sword (Simple Web-services Offering Repository Deposit) http://www.swordapp.org
Foco os repositórios para os processos do pesquisadores Programa de formación Foco os repositórios para os processos do pesquisadores
RI (Repositório Institucional) Programa de formación CRIS (sistemas de gestão da investigação) Gestión del contexto de la investigación RI (Repositório Institucional) Gestión del contenido de la investigación
Programa de formación http://www.eurocris.org/Index.php?page=workshops&t=1
O novo objeto científico Programa de formación O novo objeto científico
DADOS Programa de formación Como a pesquisa médica se torna mais complexo e que o público espera mais e mais da medicina e da ciência, o artigo deixa de ser o fim da história. Cada vez mais e com razão, considerou que o artigo científico é um instantâneo da investigação, sobreposta pela interpretação da sua análise os autores e que os resultados fundamentais da investigação são os próprios dados em bruto.
Programa de formación
Programa de formación
Programa de formación
Programa de formación É necessário que tornar explícitas para as máquinas as relações (agregações) entre objetos na web, principalmente a relação entre o artigo e os dados Cornell/LANL Pathways Project
Potenciais abordagens alternativas: Programa de formación Potenciais abordagens alternativas: OAI-ORE (Object Reuse and Exchange) Topic Maps Linked Data (RDF)
Programa de formación OAI-ORE: Open Archive Initiative-Open Reuse and Exchange: http://www.openarchives.org/ore/
Exemplos de que poderia ser alcançado (em maneiras interoperável): Programa de formación OAI-ORE Exemplos de que poderia ser alcançado (em maneiras interoperável): Agrupamento de resultados de motor de pesquisa de acordo com os limites do objeto composto em vez de ou além de listar os resultados não agrupada. Agrupamento de todas as citações de um documento, em vez de ter contagens de citações diferentes, por exemplo a contar para a versão PDF, a contar para a versão PS, a contar para a página inicial.Print all components of a Compound Object in one go. Fornecer mapa de navegação de todos os componentes de um objeto composto. Grupo recurso e anotações referentes ao recurso. Envie objeto composto de um repositório (cf. sword).
A web semântica, a oportunidade real para a ciência Programa de formación A web semântica, a oportunidade real para a ciência URI’s Ontologías RDF
Linking Open Drug Data (LODD) Programa de formación Linking Open Drug Data (LODD) http://www.w3.org/wiki/HCLSIG/LODD
http://neurocommons.org/page/Main_Page
Repositórios Tecnologias & Interoperabilidade Alícia Lopes Medina (UNED), José Carvalho (Uminho) Curso NECOBELAC – Braga, 16 de Junho 2011
Pilares da Interoperabilidade Metadados Directrizes Protocolos Validação Interoperabilidade
OAI-PMH no Projecto RCAAP Agrega os conteúdos dos 32 repositórios integrados no Portal RCAAP Simplifica os metadados (Simplified DC) Podem ser usados os sets para apenas expor uma parte do repositório (ex: set driver, ec_fundedresources, theses, etc…)
SWORD no Projecto RCAAP Protocolo para depósito automático em repositórios Usado para enviar documentos (metadados e ficheiros) do Sistema de Currículos Degóis para os repositórios Dspace. Nova versão para breve (v2). Permite o envio remoto de documentos para o repositório institucional
Interoperabilidade dos Dados
Dublin Core Esquema de metadados genérico que pode ser simples ou qualificado. É usado em todos os repositórios agregados no Portal RCAAP É quase sempre usado para interoperabilidade entre diversos esquemas (DDI, ETD-MS, …)
Directrizes Driver Usadas na definição das condições de agregação do Portal RCAAP Possibilitam a interoperabilidade entre os dados do repositório e os serviços Todos os repositórios agregados no Portal RCAAP cumprem com os aspectos obrigatórios das directrizes
Directrizes DRIVER/DRIVER Guidelines Desenvolvidas no âmbito do projecto DRIVER – Digital Repository Infrastructure Vision for European Research Versão actual 2.0 (Novembro de 2008) Traduzidas em espanhol, japonês e português
Porque são necessárias directrizes? Para guiar os administradores de repositórios de forma a garantir a interoperabilidade e compatibilidade com os serviços DRIVER; Para que os programadores de plataformas de repositórios incorporem novas funcionalidades em futuras versões
Directrizes DRIVER Passo 1 – Directrizes Gerais(Parte A) Passo 2 – Directrizes para Metadados (Parte B) Passo 3 – Directrizes para OAI-PMH
Passo 1 – Directrizes Gerais (A) Comparar Parte A com conteúdo do Repositório Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2 Senão, Implementar um Set DRIVER
Passo 1 – Directrizes Gerais (A) Comparar Parte A com conteúdo do Repositório Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2 Senão, Implementar um Set DRIVER
Directrizes Gerais (Parte A) Recomendado Obrigatório Dois níveis possíveis de compatibilidade com as directrizes DRIVER: Nível Obrigatório Nível Recomendado
Directrizes Gerais (A) - Obrigatório O repositório contém recursos digitais textuais recurso textual = artigos científicos, teses de doutoramento, documentos de trabalho, livros electrónicos e resultados similares de actividades de investigação científica Os recursos textuais estão em formatos amplamente utilizados e difundidos (PDF, TXT, RTF, DOC, TeX etc.). Os recursos textuais estão em acesso livre, disponíveis directamente do repositório para qualquer utilizador sem restrições como autorizações ou pagamento. acesso livre = acesso sem qualquer forma de pagamento, licenciamento, controlo de acesso com password, controlo de acesso mediante IP, etc
Directrizes Gerais (A) - Obrigatório Os recursos textuais são descritos por registos de metadados. Os recursos textuais e de metadados estão ligados entre si de tal modo, que um utilizador final possa aceder ao recurso textual através do identificador (normalmente um URL) no registo de metadados. O URL de um recurso inscrito no registo de metadados está permanentemente acessível e nunca se altera ou se atribui a outro recurso. Um identificador único identifica o registo de metadados e o recurso textual (não há apontadores para sistemas externos, como um sistema nacional de bibliotecas ou uma editora).
Directrizes Gerais (A) - Recomendado Verificação transparente da integridade de um recurso textual. Medidas de controlo de qualidade (do conteúdo cientifico) dos recursos textuais expostos para limitá-los a, por exemplo, os recursos textuais incluídos no relatório cientifico anual (ou equivalente). O URL de um recurso inscrito no registo de metadados baseia-se num esquema de identificadores persistentes como: DOIs, URNs...
Passo 1 – Directrizes Gerais (A) Comparar Parte A com conteúdo do Repositório Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2 Senão Senão, Implementar um Set DRIVER
Passo 1 – Directrizes Gerais (A) Comparar Parte A com conteúdo do Repositório Se o conteúdo estiver de acordo com as directrizes, vá para o passo 2 Senão, Implementar um Set DRIVER
Implementar um Set Driver Uma forma de seleccionar e filtrar os registos que são relevantes para o set. Quando se implementa um set DRIVER? Quando o repositório contém documentos que não correspondem à definição de "recurso textual": conteúdos que não são literatura científica conteúdos com acesso restrito, embargado ou controlado conteúdos em formatos pouco comuns
Passo 2 – Directrizes para metadados As directrizes foram produzidas para facilitar a troca de metadados entre os fornecedores de conteúdo e os serviços do DRIVER, de acordo com as definições do protocolo OAI-PMH tal como distribuído pela Dublin Core Metadata Iniatitive (DCMI). Descrevem a conversão de um formato interno para a norma Unqualified Dublin Core para facilitar a recolha (harvesting). As directrizes não devem ser utilizadas como instruções de catalogação.
Passo 2 – Directrizes para metadados Os metadados estruturam-se segundo a norma Unqualified Dublin Core (ISO 15836:2003). É obrigatória a utilização de codificação Unicode. Deve utilizar-se apenas um registo de metadados para as diferentes manifestações de um objecto digital (ex. uma versão postscript e uma versão pdf), a não ser que o conteúdo intelectual das versões seja diferente.
Passo 2 – Directrizes para metadados No DRIVER o uso de elementos pode ser: Obrigatório = o elemento deve estar sempre presente no registo de metadados; obrigatório quando aplicável = quando o elemento pode ser obtido, deve ser adicionado ao registo de metadados (aplica-se mais à introdução de metadados e não tanto à recolha); recomendado = o uso do elemento é recomendado; Opcional = não é muito relevante se elemento é usado ou não ….
Directrizes DRIVER – Uso dos elementos Elemento básico Estatuto Title (Título) obrigatório Creator (Autor) Subject (Assunto) obrigatório quando aplicável Description (Descrição) Publisher (Editora) Contributor (Colaborador) opcional Date (Data) Type (Tipo) Format (Formato) recomendado Identifier (Identificador) Source (Fonte) Language (Idioma) Relation (Relação) Coverage (Cobertura) Rights (Direitos) Audience (Público)
Dc.Types (obrigatórios) · info:eu-repo/semantics/article · info:eu-repo/semantics/bachelorThesis · info:eu-repo/semantics/masterThesis · info:eu-repo/semantics/doctoralThesis · info:eu-repo/semantics/book · info:eu-repo/semantics/bookPart · info:eu-repo/semantics/review · info:eu-repo/semantics/conferenceObject · info:eu-repo/semantics/lecture · info:eu-repo/semantics/workingPaper · info:eu-repo/semantics/preprint · info:eu-repo/semantics/report · info:eu-repo/semantics/annotation · info:eu-repo/semantics/contributionToPeriodical · info:eu-repo/semantics/patent · info:eu-repo/semantics/other
Elemento DC.Type Podem ser usadas 3 instâncias: 1 – Obrigatório: Tipo de Publicação (controlado) 2 – Opcional: Tipo de publicação (livre) 3 – Recomendado: Versão (Controlado)
Directrices DRIVER – Directrices para OAI-PMH Seguir a versão 2.0 del protocolo. Registos eliminados: devem ser declarados. Utilizar a opção “transient” ou “persistent” (conservar temporalmente ou indefinidamente a informação sobre o registo eliminado). RessumptionToken conservado durante pelo menso 24 h. Lotes de agregação entre 100 a 500 registos. Correio electrónico do administrador. Comunicar alterações do URL base, sets, formatos de metadatos Set Driver Só se houver necessidade. Agrupa os registos textuais em acesso aberto. setName: Open Access DRIVERset; setSpec: driver
Directrizes OpenAIRE Orientações para o cumprimento da cláusula 39 dos projectos FP7 nas áreas abrangidas Permite identificar / monitorizar produção científica financiada Todos os repositórios do Serviço de Alojamento permitem implementar estas directrizes Mais info em: http://www.openaire.eu
Perfil de Repositório no Portal RCAAP
Pesquisa Avançada no Portal RCAAP
ETD-MS Aplicação do esquema de metadados próprio para teses e dissertações (Electronic Theses and Dissertation – Metadata Schema) Em fase de implementação nos repositórios SARI Permite desenvolver serviços baseados nas teses
REST (web service) Novo interface no Dspace (1.7) que permite recuperar informação do repositório de forma remota (pesquisas, listas, etc.) Ainda não é actualmente usado no projecto RCAAP Permite crirar “widgets” em websites e criar interfaces alternativos.
SRU 69.3 ? Pesquisa em tempo real num recurso Utilizado na integração entre a B-On e o Portal RCAAP Funciona em tempo real
Processo de Validação Validação integrada Validação diferida Processo indispensável para garantir a interoperabilidade dos dados Validação integrada Aquando da inclusão de registos numa base de dados (ex: http://www.rcaap.pt) Validação diferida A pedido dos intervenientes (ex: http://validador.rcaap.pt)
Pilares da Interoperabilidade Metadados Directrizes Protocolos Validação Interoperabilidade
Obrigado! jcarvalho@sdum.uminho.pt Questões? Obrigado! jcarvalho@sdum.uminho.pt
Recursos Open Archives Initiative - http://www.openarchives.org/ Dublin Core Metadata Inititiative - http://dublincore.org/ DRIVER Guidelines - http://www.driver-support.eu/managers.html#guidelines SWORD - http://www.swordapp.org/ Software de reposítórios - http://repinf.pbworks.com/Repository-software Directórios de repositórios: OpenDOAR - Directory of Open Access Repositories - http://www.opendoar.org/ ROAR - Registry of Open Access Repositories - http://roar.eprints.org/ Openaire – http://www.openaire.eu