Mapeamento de Thesauri

Slides:



Advertisements
Apresentações semelhantes
O Comando DROP INDEX Para eliminar um índice definido sobre uma tabela, utilize: Drop Index on ; Ex: No Access: Drop Index X on.
Advertisements

INFORMAÇÕES COMPLEMENTARES
Pesquisa de Opinião Pública Sobre Audiência de Rádio Cruzamentos
EXERCÍCIOS RESULTADO.
REUNIÃO NACIONAL DE MULHERES DIRETORAS DA FORÇA SINCAL.
A busca das mulheres para alcançar seu espaço dentro das organizações
Alinhamento de esquemas baseado em instâncias
Capa Disciplina: Ajustamento de Observações
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
Sumário Introdução A linguagem SPARQL
Curso de ADMINISTRAÇÃO
Parte III – Engenharia de Software para Autonomic Computing Seminários 2007 – 2º Semestre Maíra Gatti.
SQL – Consultas Básicas
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
Amanda Meincke Melo RA:
Reconhecimento de Padrões Seleção de Características
Programação Cabeças Automáticas 3M
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
Informação em Saúde Suplementar
Projeto e Análise de Algoritmos
Material III-Bimestre Wagner Santos C. de Jesus
Aula 4 Nomes, Vinculações, Tipos e Escopos
EXEMPLOS DE ESTRUTURAS PROTENDIDAS
TCC-Desenvolvimento do Projeto Tema
Caso 01 Paciente feminino, 11 anos de idade realizou exames radiográficos para iniciar tratamento ortodôntico Cisto ósseo traumatico Paciente femenino.
1 EXERCÍCIOS RESULTADO. 2 1º Caso – Agente de Serviços Escolares – 1-III Comprovante ensino fundamental: 3,0x 2= 6,0 Comprovante ensino médio: 4,0x 2=
Instituto de Geociências Universidade Federal de Minas Gerais
1 Actividade Física e Desportiva Dos Alunos da Escola Secundária Manuel de Arriaga Escola Secundária Manuel de Arriaga Ano lectivo 2009/10 Departamento.
Renda até 2 SM.
Roger M. koschier ADS – 1º Semestre Roger M. Koschier - ADS.
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
Aprendizado de Máquina Aula 13
(CESPE/ Técnico Judiciário do TRT 17ª Região/ES) O Superior Tribunal de Justiça entende que o candidato aprovado em concurso público dentro do limite.
Aprendizado de Máquina Aula 8
Inteligência Artificial
SUBPROJETO - CFM Materiais nanoestruturados e transições de fase na cromodinâmica quântica.
Universal Description, Discovery and Integration (UDDI) Rafael Andrade
Aplicando tecnologias semânticas ao Balanced Scorecard
Modos de Configuração do Dispositivo VIRTEX II XC2V1000 Eduardo Wenzel Brião
Autoria de Aplicações Hipermídia Daniel Schwabe Departamento de Informática PUC-Rio [ Parte 6 ]
FISCALIZAÇÃO DIRECIONADA NÍVEL DE SERVIÇO ANO I – Nº 7.
Registro de Oportunidade
EXPERIÊNCIA DA FUNDAÇÃO PRÓ-SANGUE COM O TESTE NAT José Eduardo Levi
Tributação da Exportação nas Empresas optantes pelo Simples Nacional
CLIQUE NO BOTÃO INICIAR e cruze os braços INICIAR.
Núcleo de Mídia – Comercial Ranking Nacional de Circulação - Domingos Evolução Mês* 3,38% 2,20% 1,39% 1,13% -4,84% 0,49% -6,16% -0,07% -0,71% 0,27% 0,43%
1/40 COMANDO DA 11ª REGIÃO MILITAR PALESTRA AOS MILITARES DA RESERVA, REFORMADOS E PENSIONISTAS - Mar 06 -
C ORROPIOS, C ARDINCHAS E C ÃES G RANDES O LIVRO de José Paixão em imagens – com pistas de leitura propostas por por www.joraga.net.
Banco de Dados Avançado
Semântica de Linguagens de Programação
Banco de Dados Avançado
SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo Combinatório. Problemas de Contagem. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.
Estatística Aula 9 – 28/02/2011.
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
CONCEITOS FUNDAMENTAIS
Olhe fixamente para a Bruxa Nariguda
Marca do evento Calendário de reuniões e encontros para o ano de 2011 Calendário 2011.
Rio Verde - Goiás - Brasil
LINHAS MAIS RECLAMADAS Ranking Negativo para Fiscalização Direcionada Nível de Serviço ANO III – Nº 09.
Máquina de Turing Universal
CAVICCHIOLLI E CIA LTDA Ficha t é cnica: Manuten ç ão Cidade não preenchida Regional: SPI Promotor: Karina Lemes Data: 20/09/ :30:10.
1 - Listas com Acesso Aleatório. 2 - Fila, o Acesso Ordenado (FIFO)
DADOS DE REFERÊNCIA ACERCA DO ATEDIMENTO AOS USOS MÚLTIPLOS PELO SISTEMA HIDRÁULICO DA BACIA HIDROGRÁFICA DO RIO PARAÍBA DO SUL Brasília-DF Julho/2014.
QUESTÃO - 01.
POT I Outubro Instrumento EAT Desenvolvida com base nos estudos de:  Warr e Allan (1998)  Holman, Epitropaki e Fernie (2001)  Validado por Pantoja.
Matching de Esquemas: 10 anos depois Nicolle Chaves Cysneiros.
Integração Semântica: uma pesquisa sobre abordagens baseadas em ontologias Túlio Lages
Transcrição da apresentação:

Mapeamento de Thesauri Daniela F. Brauner

Agenda Introdução Abordagens existentes Abordagem proposta Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta

Introdução Milhares de provedores de informação (fontes de dados): Interoperabilidade Milhares de provedores de informação (fontes de dados): Esquemas diferentes Categorias diferentes para classificação dos dados (≠ thesauri) Solução proposta: Dados estruturados Ontologias para descrever a semântica Computadores capazes de “entender” estes dados (mesma proposta da Web Semântica!) ...e os problemas continuam: Natureza descentralizada da Web Cada provedor de informação usando sua própria ontologia

Introdução Busca por “city” no Swoogle Interoperabilidade Busca por “city” no Swoogle 722 resultados i.e. definições diferentes

Find all cities called “Rio de Janeiro” Introdução Mapeamentos Find all cities called “Rio de Janeiro” GEOnet ADL Gazetteer

A Data Integration System Introdução Mapeamentos Find all cities called “Rio de Janeiro” Basic Architecture of A Data Integration System Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

? ? ? ? ? Introdução ? Find all cities called “Rio de Janeiro” GEOnet Mapeamentos ? ? ? ? Find all cities called “Rio de Janeiro” Schema-level mapping Data-level mapping ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 STM -115100 -450900 -11.45 -45.15 76124 São Sebastião do Rio de Janeiro GEOnet ? ? identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru -4.3833 -71.8167 ADL

Abordagens existentes ILA [Etzioni, 2000] SEMINT [Syan et al., 2000] AnchorPrompt [Musen and Noy, 2001] Cupid [Madhavan et al., 2001] LSD [Doan et al., 2001] SimilarityFlooding [Melnik et al., 2002] PROM [Doan et al., 2003] GLUE [Doan et al., 2003] CATO [Felicissimo, 2004] iMAP [Dhamankar et al., 2004] ...

Abordagens existentes Utilizando os nomes dos termos ADL GEOnet Administrative area Populated places Political areas Countries Cities Capitals ... AREA area ADM1 first-order administrative division ADM2 second-order administrative division ADM3 third-order administrative division ADM4 fourth-order administrative division ADMD administrative division ADMF administrative facility PPL populated place PPLA seat of a first-order administrative division PPLC capital of a political entity PPLL populated locality PPLQ abandoned populated place PPLR religious populated place PPLS populated places PPLW destroyed populated place PPLX section of populated place ... FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp

Abordagens existentes Utilizando as estruturas das árvores ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Cities Countries Country City Capitals IndependentCountry CapitalCityOfRegion FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE: http://www.cyc.com/cycdoc/vocab/geography-vocab.html http://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start

Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Cities Countries Country City Capitals IndependentCountry CapitalCityOfRegion Exemplos: Instância ADL OpenCyc Rio Grande, RS – Brazil Populated Places City Smithers, BC – Canada Rio de Janeiro, RJ – Brazil São Paulo, SP – Brazil Cardiff – Wales CapitalCityOfRegion Asmara – Eritrea Capitals Rome – Italy Brussels – Belgium ?

Abordagens existentes Estratégia de tradução do Google Sistema “aprende” através de traduções existentes “My name is Daniela. I am 26 years old.” “Mein name ist Daniela. Ich bin 26 Jahre alt.” http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de “Meu nome é Daniela. Eu tenho 26 anos.” “Mi nombre es Daniela. Yo tengo 26 años.” http://www.inf.puc-rio.br/~dani/br http://www.inf.puc-rio.br/~dani/es

Abordagens existentes 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos hieróglifos egípcio demótico (Copta) grego http://www.thebritishmuseum.ac.uk

Abordagens existentes Utilizando as descrições dos termos dos thesauri Removemos algumas stop-words Mapeamos conceitos com maior ocorrência de palavras em comum ADL Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land GEOnet Bay a coastal indentation between two capes or headlands, larger than a cove but smaller than a gulf ?

Abordagens existentes Utilizando as descrições dos termos dos thesauri ADL Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land GEOnet Peninsula an elongate area of land projecting into a body of water and nearly surrounded by water ≠ GEOnet (4) Peninsula: land, body, water, surrounded (3) Island: land, surrounded, water (2) Pool: body, water

Abordagens existentes Utilizando representação formal Criamos 3 ontologias: ADL, GEO e concepts ADL Waterfall perpendicular or very steep falls of water in the course of a stream. GEOnet Waterfall a perpendicular or very steep descent of the water of a stream

Abordagens existentes Utilizando instâncias Identificar mapeamentos entre os dados (instâncias iguais) Verificar freqüência de “casamentos” entre os termos dos thesauri ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 STM -115100 -450900 -11.45 -45.15 76124 São Sebastião do Rio de Janeiro GEOnet identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru -4.3833 -71.8167 ADL

Abordagens existentes Utilizando instâncias Identificar mapeamentos entre os dados (instâncias iguais) Verificar freqüência de “casamentos” entre os termos dos thesauri Etapas: Levantamento dos dados Definição dos conjuntos de treinamento e teste Treinamento Cruzamento das instâncias de treinamento (definir freqüências) Cálculo das probabilidades de alinhamento Teste e validação

Abordagens existentes Etapas concluídas: Conjunto de exemplos: Instâncias brasileiras: ADL: 17.991 GEOnet: 87.608 Treinamento: Instâncias mapeadas pelos valores de LAT/LON 221 pares identificados (~16%) Ex: Termos dos thesauri: ADL: 210 GEOnet: 642 Combinações possíveis: 134.820 ADL (a) GEOnet (b) nab P(b|a) bays BAY 38 0,61 BCH 1 0,01 COVE 6 0,09 ISL 8 0,12 PPL 4 0,06 PT 3 0,04 STM 2 0,03 P( b | a ) = nab na

Abordagem proposta Mediador “espertinho” (utilizando técnicas de aprendizagem de máquina) Aprende em 2 momentos: A priori (offline) A posteriori (runtime) Aprende a partir de: Consultas dos usuários Análise das respostas das consultas dos usuários

Abordagem proposta GEOnet ADL Gazetteer Aprendendo a partir das consultas dos usuários Select PPL From GEOnet Within “-54, -34 -52.5, -33” Select PPL From GEOnet Within “-54, -34 -52.5, -33” Ahááá!!! PPL ≡ PopulatedPlaces Select populated places From ADL Within “-54, -34 -52.5, -33” Select populated places From ADL Within “-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

Abordagem proposta GEOnet ADL Gazetteer Aprendendo a partir das respostas das consultas dos usuários Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33” ADL GEOnet n P(b|a) bays BAY 38 0,61 BCH 1 0,01 COVE 6 0,09 ISL 8 0,12 PPL 4 0,06 PT 3 0,04 STM 2 0,03 Brainy Mediator Mediator Cache GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

Mapeamento de Thesauri Daniela F. Brauner