Mapeamento de Thesauri Daniela F. Brauner
Agenda Introdução Abordagens existentes Abordagem proposta Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta
Introdução Milhares de provedores de informação (fontes de dados): Interoperabilidade Milhares de provedores de informação (fontes de dados): Esquemas diferentes Categorias diferentes para classificação dos dados (≠ thesauri) Solução proposta: Dados estruturados Ontologias para descrever a semântica Computadores capazes de “entender” estes dados (mesma proposta da Web Semântica!) ...e os problemas continuam: Natureza descentralizada da Web Cada provedor de informação usando sua própria ontologia
Introdução Busca por “city” no Swoogle Interoperabilidade Busca por “city” no Swoogle 722 resultados i.e. definições diferentes
Find all cities called “Rio de Janeiro” Introdução Mapeamentos Find all cities called “Rio de Janeiro” GEOnet ADL Gazetteer
A Data Integration System Introdução Mapeamentos Find all cities called “Rio de Janeiro” Basic Architecture of A Data Integration System Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer
? ? ? ? ? Introdução ? Find all cities called “Rio de Janeiro” GEOnet Mapeamentos ? ? ? ? Find all cities called “Rio de Janeiro” Schema-level mapping Data-level mapping ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 STM -115100 -450900 -11.45 -45.15 76124 São Sebastião do Rio de Janeiro GEOnet ? ? identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru -4.3833 -71.8167 ADL
Abordagens existentes ILA [Etzioni, 2000] SEMINT [Syan et al., 2000] AnchorPrompt [Musen and Noy, 2001] Cupid [Madhavan et al., 2001] LSD [Doan et al., 2001] SimilarityFlooding [Melnik et al., 2002] PROM [Doan et al., 2003] GLUE [Doan et al., 2003] CATO [Felicissimo, 2004] iMAP [Dhamankar et al., 2004] ...
Abordagens existentes Utilizando os nomes dos termos ADL GEOnet Administrative area Populated places Political areas Countries Cities Capitals ... AREA area ADM1 first-order administrative division ADM2 second-order administrative division ADM3 third-order administrative division ADM4 fourth-order administrative division ADMD administrative division ADMF administrative facility PPL populated place PPLA seat of a first-order administrative division PPLC capital of a political entity PPLL populated locality PPLQ abandoned populated place PPLR religious populated place PPLS populated places PPLW destroyed populated place PPLX section of populated place ... FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp
Abordagens existentes Utilizando as estruturas das árvores ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Cities Countries Country City Capitals IndependentCountry CapitalCityOfRegion FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE: http://www.cyc.com/cycdoc/vocab/geography-vocab.html http://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start
Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Cities Countries Country City Capitals IndependentCountry CapitalCityOfRegion Exemplos: Instância ADL OpenCyc Rio Grande, RS – Brazil Populated Places City Smithers, BC – Canada Rio de Janeiro, RJ – Brazil São Paulo, SP – Brazil Cardiff – Wales CapitalCityOfRegion Asmara – Eritrea Capitals Rome – Italy Brussels – Belgium ?
Abordagens existentes Estratégia de tradução do Google Sistema “aprende” através de traduções existentes “My name is Daniela. I am 26 years old.” “Mein name ist Daniela. Ich bin 26 Jahre alt.” http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de “Meu nome é Daniela. Eu tenho 26 anos.” “Mi nombre es Daniela. Yo tengo 26 años.” http://www.inf.puc-rio.br/~dani/br http://www.inf.puc-rio.br/~dani/es
Abordagens existentes 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos hieróglifos egípcio demótico (Copta) grego http://www.thebritishmuseum.ac.uk
Abordagens existentes Utilizando as descrições dos termos dos thesauri Removemos algumas stop-words Mapeamos conceitos com maior ocorrência de palavras em comum ADL Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land GEOnet Bay a coastal indentation between two capes or headlands, larger than a cove but smaller than a gulf ?
Abordagens existentes Utilizando as descrições dos termos dos thesauri ADL Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land GEOnet Peninsula an elongate area of land projecting into a body of water and nearly surrounded by water ≠ GEOnet (4) Peninsula: land, body, water, surrounded (3) Island: land, surrounded, water (2) Pool: body, water
Abordagens existentes Utilizando representação formal Criamos 3 ontologias: ADL, GEO e concepts ADL Waterfall perpendicular or very steep falls of water in the course of a stream. GEOnet Waterfall a perpendicular or very steep descent of the water of a stream
Abordagens existentes Utilizando instâncias Identificar mapeamentos entre os dados (instâncias iguais) Verificar freqüência de “casamentos” entre os termos dos thesauri ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 STM -115100 -450900 -11.45 -45.15 76124 São Sebastião do Rio de Janeiro GEOnet identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru -4.3833 -71.8167 ADL
Abordagens existentes Utilizando instâncias Identificar mapeamentos entre os dados (instâncias iguais) Verificar freqüência de “casamentos” entre os termos dos thesauri Etapas: Levantamento dos dados Definição dos conjuntos de treinamento e teste Treinamento Cruzamento das instâncias de treinamento (definir freqüências) Cálculo das probabilidades de alinhamento Teste e validação
Abordagens existentes Etapas concluídas: Conjunto de exemplos: Instâncias brasileiras: ADL: 17.991 GEOnet: 87.608 Treinamento: Instâncias mapeadas pelos valores de LAT/LON 221 pares identificados (~16%) Ex: Termos dos thesauri: ADL: 210 GEOnet: 642 Combinações possíveis: 134.820 ADL (a) GEOnet (b) nab P(b|a) bays BAY 38 0,61 BCH 1 0,01 COVE 6 0,09 ISL 8 0,12 PPL 4 0,06 PT 3 0,04 STM 2 0,03 P( b | a ) = nab na
Abordagem proposta Mediador “espertinho” (utilizando técnicas de aprendizagem de máquina) Aprende em 2 momentos: A priori (offline) A posteriori (runtime) Aprende a partir de: Consultas dos usuários Análise das respostas das consultas dos usuários
Abordagem proposta GEOnet ADL Gazetteer Aprendendo a partir das consultas dos usuários Select PPL From GEOnet Within “-54, -34 -52.5, -33” Select PPL From GEOnet Within “-54, -34 -52.5, -33” Ahááá!!! PPL ≡ PopulatedPlaces Select populated places From ADL Within “-54, -34 -52.5, -33” Select populated places From ADL Within “-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer
Abordagem proposta GEOnet ADL Gazetteer Aprendendo a partir das respostas das consultas dos usuários Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33” ADL GEOnet n P(b|a) bays BAY 38 0,61 BCH 1 0,01 COVE 6 0,09 ISL 8 0,12 PPL 4 0,06 PT 3 0,04 STM 2 0,03 Brainy Mediator Mediator Cache GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer
Mapeamento de Thesauri Daniela F. Brauner