A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mapeamento de Thesauri

Apresentações semelhantes


Apresentação em tema: "Mapeamento de Thesauri"— Transcrição da apresentação:

1 Mapeamento de Thesauri
Daniela F. Brauner

2 Agenda Introdução Abordagens existentes Abordagem proposta
Interoperabilidade Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta

3 Introdução Milhares de provedores de informação (fontes de dados):
Interoperabilidade Milhares de provedores de informação (fontes de dados): Esquemas diferentes Categorias diferentes para classificação dos dados (≠ thesauri) Solução proposta: Dados estruturados Ontologias para descrever a semântica Computadores capazes de “entender” estes dados (mesma proposta da Web Semântica!) ...e os problemas continuam: Natureza descentralizada da Web Cada provedor de informação usando sua própria ontologia

4 Introdução Busca por “city” no Swoogle
Interoperabilidade Busca por “city” no Swoogle 722 resultados i.e. definições diferentes

5 Find all cities called “Rio de Janeiro”
Introdução Mapeamentos Find all cities called “Rio de Janeiro” GEOnet ADL Gazetteer

6 A Data Integration System
Introdução Mapeamentos Find all cities called “Rio de Janeiro” Basic Architecture of A Data Integration System Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

7 ? ? ? ? ? Introdução ? Find all cities called “Rio de Janeiro” GEOnet
Mapeamentos ? ? ? ? Find all cities called “Rio de Janeiro” Schema-level mapping Data-level mapping ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -22.9 39870 STM -11.45 -45.15 76124 São Sebastião do Rio de Janeiro GEOnet ? ? identifier display-name class gml:y gml:x adlgaz Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz Rio de Janeiro - Brazil populated places -22.9 adlgaz b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz f Rio de Janeiro - Loreto, Departamento de - Peru ADL

8 Abordagens existentes
ILA [Etzioni, 2000] SEMINT [Syan et al., 2000] AnchorPrompt [Musen and Noy, 2001] Cupid [Madhavan et al., 2001] LSD [Doan et al., 2001] SimilarityFlooding [Melnik et al., 2002] PROM [Doan et al., 2003] GLUE [Doan et al., 2003] CATO [Felicissimo, 2004] iMAP [Dhamankar et al., 2004] ...

9 Abordagens existentes
Utilizando os nomes dos termos ADL GEOnet Administrative area Populated places Political areas Countries Cities Capitals ... AREA area ADM1 first-order administrative division ADM2 second-order administrative division ADM3 third-order administrative division ADM4 fourth-order administrative division ADMD administrative division ADMF administrative facility PPL populated place PPLA seat of a first-order administrative division PPLC capital of a political entity PPLL populated locality PPLQ abandoned populated place PPLR religious populated place PPLS populated places PPLW destroyed populated place PPLX section of populated place ... FONTE: FONTE:

10 Abordagens existentes
Utilizando as estruturas das árvores ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Cities Countries Country City Capitals IndependentCountry CapitalCityOfRegion FONTE: FONTE:

11 Abordagens existentes
ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Cities Countries Country City Capitals IndependentCountry CapitalCityOfRegion Exemplos: Instância ADL OpenCyc Rio Grande, RS – Brazil Populated Places City Smithers, BC – Canada Rio de Janeiro, RJ – Brazil São Paulo, SP – Brazil Cardiff – Wales CapitalCityOfRegion Asmara – Eritrea Capitals Rome – Italy Brussels – Belgium ?

12 Abordagens existentes
Estratégia de tradução do Google Sistema “aprende” através de traduções existentes “My name is Daniela. I am 26 years old.” “Mein name ist Daniela. Ich bin 26 Jahre alt.” “Meu nome é Daniela. Eu tenho 26 anos.” “Mi nombre es Daniela. Yo tengo 26 años.”

13 Abordagens existentes
1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos hieróglifos egípcio demótico (Copta) grego

14 Abordagens existentes
Utilizando as descrições dos termos dos thesauri Removemos algumas stop-words Mapeamos conceitos com maior ocorrência de palavras em comum ADL Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land GEOnet Bay a coastal indentation between two capes or headlands, larger than a cove but smaller than a gulf ?

15 Abordagens existentes
Utilizando as descrições dos termos dos thesauri ADL Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land GEOnet Peninsula an elongate area of land projecting into a body of water and nearly surrounded by water GEOnet (4) Peninsula: land, body, water, surrounded (3) Island: land, surrounded, water (2) Pool: body, water

16 Abordagens existentes
Utilizando representação formal Criamos 3 ontologias: ADL, GEO e concepts ADL Waterfall perpendicular or very steep falls of water in the course of a stream. GEOnet Waterfall a perpendicular or very steep descent of the water of a stream

17 Abordagens existentes
Utilizando instâncias Identificar mapeamentos entre os dados (instâncias iguais) Verificar freqüência de “casamentos” entre os termos dos thesauri ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -22.9 39870 STM -11.45 -45.15 76124 São Sebastião do Rio de Janeiro GEOnet identifier display-name class gml:y gml:x adlgaz Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz Rio de Janeiro - Brazil populated places -22.9 adlgaz b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz f Rio de Janeiro - Loreto, Departamento de - Peru ADL

18 Abordagens existentes
Utilizando instâncias Identificar mapeamentos entre os dados (instâncias iguais) Verificar freqüência de “casamentos” entre os termos dos thesauri Etapas: Levantamento dos dados Definição dos conjuntos de treinamento e teste Treinamento Cruzamento das instâncias de treinamento (definir freqüências) Cálculo das probabilidades de alinhamento Teste e validação

19 Abordagens existentes
Etapas concluídas: Conjunto de exemplos: Instâncias brasileiras: ADL: GEOnet: Treinamento: Instâncias mapeadas pelos valores de LAT/LON 221 pares identificados (~16%) Ex: Termos dos thesauri: ADL: 210 GEOnet: 642 Combinações possíveis: ADL (a) GEOnet (b) nab P(b|a) bays BAY 38 0,61 BCH 1 0,01 COVE 6 0,09 ISL 8 0,12 PPL 4 0,06 PT 3 0,04 STM 2 0,03 P( b | a ) = nab na

20 Abordagem proposta Mediador “espertinho”
(utilizando técnicas de aprendizagem de máquina) Aprende em 2 momentos: A priori (offline) A posteriori (runtime) Aprende a partir de: Consultas dos usuários Análise das respostas das consultas dos usuários

21 Abordagem proposta GEOnet ADL Gazetteer
Aprendendo a partir das consultas dos usuários Select PPL From GEOnet Within “-54, , -33” Select PPL From GEOnet Within “-54, , -33” Ahááá!!! PPL ≡ PopulatedPlaces Select populated places From ADL Within “-54, , -33” Select populated places From ADL Within “-54, , -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

22 Abordagem proposta GEOnet ADL Gazetteer
Aprendendo a partir das respostas das consultas dos usuários Select PPL From GEOnet, ADL Within “-54, , -33” ADL GEOnet n P(b|a) bays BAY 38 0,61 BCH 1 0,01 COVE 6 0,09 ISL 8 0,12 PPL 4 0,06 PT 3 0,04 STM 2 0,03 Brainy Mediator Mediator Cache GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

23 Mapeamento de Thesauri
Daniela F. Brauner


Carregar ppt "Mapeamento de Thesauri"

Apresentações semelhantes


Anúncios Google