A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.

Apresentações semelhantes


Apresentação em tema: "Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes."— Transcrição da apresentação:

1 Mapeamento de Thesauri Daniela F. Brauner

2 Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes Abordagem proposta

3 Introdução Milhares de provedores de informação (fontes de dados): –Esquemas diferentes –Categorias diferentes para classificação dos dados ( thesauri) Solução proposta: –Dados estruturados –Ontologias para descrever a semântica –Computadores capazes de entender estes dados –(mesma proposta da Web Semântica!)...e os problemas continuam: –Natureza descentralizada da Web –Cada provedor de informação usando sua própria ontologia Interoperabilidade

4 Introdução Busca por city no Swoogle 722 resultados i.e. definições diferentes Interoperabilidade

5 Introdução ADL GazetteerGEOnet Find all cities called Rio de Janeiro Mapeamentos

6 Introdução ADL GazetteerGEOnet Mediator GEOnet Wrapper ADL Wrapper Basic Architecture of A Data Integration System Find all cities called Rio de Janeiro Mapeamentos

7 Introdução IDFULL_NAME_NDDSGDMS_LATDMS_LONGLATLONG 67203Rio de JaneiroPPLA Rio de JaneiroSTM São Sebastião do Rio de JaneiroPPLA ? ? ? ? GEOnet ADL identifierdisplay-nameclassgml:ygml:x adlgaz Rio de Janeiro, Estado do - Braziladministrative areas adlgaz Rio de Janeiro, Serra do - Brazilmountains adlgaz Rio de Janeiro - Brazilpopulated places adlgaz bJaneiro, Rio de - Brazilstreams adlgaz fRio de Janeiro - Loreto, Departamento de - Perupopulated places ?? Schema-level mapping Mapeamentos Find all cities called Rio de Janeiro Data-level mapping

8 Abordagens existentes ILA [Etzioni, 2000] SEMINT [Syan et al., 2000] AnchorPrompt [Musen and Noy, 2001] Cupid [Madhavan et al., 2001] LSD [Doan et al., 2001] SimilarityFlooding [Melnik et al., 2002] PROM [Doan et al., 2003] GLUE [Doan et al., 2003] CATO [Felicissimo, 2004] iMAP [Dhamankar et al., 2004]...

9 Administrative area Populated places Political areas Countries Cities Capitals... ADL FONTE: AREAarea ADM1first-order administrative division ADM2second-order administrative division ADM3third-order administrative division ADM4fourth-order administrative division ADMDadministrative division ADMFadministrative facility PPLpopulated place PPLAseat of a first-order administrative division PPLCcapital of a political entity PPLLpopulated locality PPLQabandoned populated place PPLRreligious populated place PPLSpopulated places PPLWdestroyed populated place PPLXsection of populated place... GEOnet FONTE: ver070302/index.htm Abordagens existentes Utilizando os nomes dos termos

10 Cities Populated places Capitals Administrative area Political areas Countries ADL FONTE: Country GeopoliticalEntity CapitalCityOfRegion GeographicalAgent City OpenCyc FONTE: ver070302/index.htm Abordagens existentes IndependentCountry Utilizando as estruturas das árvores

11 Cities Populated places Capitals Administrative area Political areas Countries Country GeopoliticalEntity CapitalCityOfRegion GeographicalAgent City Exemplos: InstânciaADLOpenCyc Rio Grande, RS – BrazilPopulated PlacesCity Smithers, BC – CanadaPopulated PlacesCity Rio de Janeiro, RJ – BrazilPopulated PlacesCity São Paulo, SP – BrazilPopulated PlacesCity Cardiff – WalesPopulated PlacesCapitalCityOfRegion Asmara – EritreaCapitalsCapitalCityOfRegion Rome – ItalyCapitalsCapitalCityOfRegion Brussels – BelgiumCapitalsCapitalCityOfRegion ADLOpenCyc Abordagens existentes IndependentCountry ?

12 Abordagens existentes Estratégia de tradução do Google –Sistema aprende através de traduções existentes My name is Daniela. I am 26 years old. Mein name ist Daniela. Ich bin 26 Jahre alt. Meu nome é Daniela. Eu tenho 26 anos. Mi nombre es Daniela. Yo tengo 26 años.

13 Abordagens existentes 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos hieróglifos egípcio demótico (Copta) grego

14 Abordagens existentes Utilizando as descrições dos termos dos thesauri –Removemos algumas stop-words –Mapeamos conceitos com maior ocorrência de palavras em comum Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land Bay a coastal indentation between two capes or headlands, larger than a cove but smaller than a gulf ?

15 Abordagens existentes Utilizando as descrições dos termos dos thesauri Peninsula an elongate area of land projecting into a body of water and nearly surrounded by water GEOnet (4) Peninsula: land, body, water, surrounded (3) Island: land, surrounded, water (2) Pool: body, water Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land

16 Waterfall a perpendicular or very steep descent of the water of a stream Waterfall perpendicular or very steep falls of water in the course of a stream. Abordagens existentes Utilizando representação formal –Criamos 3 ontologias: ADL, GEO e concepts

17 Abordagens existentes Utilizando instâncias –Identificar mapeamentos entre os dados (instâncias iguais) –Verificar freqüência de casamentos entre os termos dos thesauri IDFULL_NAME_NDDSGDMS_LATDMS_LONGLATLONG 67203Rio de JaneiroPPLA Rio de JaneiroSTM São Sebastião do Rio de JaneiroPPLA GEOnet ADL identifierdisplay-nameclassgml:ygml:x adlgaz Rio de Janeiro, Estado do - Braziladministrative areas adlgaz Rio de Janeiro, Serra do - Brazilmountains adlgaz Rio de Janeiro - Brazilpopulated places adlgaz bJaneiro, Rio de - Brazilstreams adlgaz fRio de Janeiro - Loreto, Departamento de - Perupopulated places

18 Abordagens existentes Utilizando instâncias –Identificar mapeamentos entre os dados (instâncias iguais) –Verificar freqüência de casamentos entre os termos dos thesauri Etapas: 1.Levantamento dos dados a.Definição dos conjuntos de treinamento e teste 2.Treinamento a.Cruzamento das instâncias de treinamento (definir freqüências) b.Cálculo das probabilidades de alinhamento 3.Teste e validação

19 Abordagens existentes Etapas concluídas: 1.Conjunto de exemplos: –Instâncias brasileiras: ADL: GEOnet: Treinamento: –Instâncias mapeadas pelos valores de LAT/LON –221 pares identificados (~16%) –Ex: –Termos dos thesauri: ADL: 210 GEOnet: 642 Combinações possíveis: ADL (a)GEOnet (b)n ab P(b|a) baysBAY380,61 baysBCH10,01 baysCOVE60,09 baysISL80,12 baysPPL40,06 baysPT30,04 baysSTM20,03 P( b | a ) = n ab nana

20 Abordagem proposta Mediador espertinho (utilizando técnicas de aprendizagem de máquina) Aprende em 2 momentos: –A priori (offline) –A posteriori (runtime) Aprende a partir de: –Consultas dos usuários –Análise das respostas das consultas dos usuários

21 Abordagem proposta ADL GazetteerGEOnet Aprendendo a partir das consultas dos usuários Brainy Mediator Select PPL From GEOnet Within -54, , -33 Mediator GEOnet Wrapper ADL Wrapper Select populated places From ADL Within -54, , -33 Ahááá!!! PPL PopulatedPlaces Select PPL From GEOnet Within -54, , -33 Select populated places From ADL Within -54, , -33

22 Abordagem proposta ADL GazetteerGEOnet Aprendendo a partir das respostas das consultas dos usuários Brainy Mediator Select PPL From GEOnet, ADL Within -54, , -33 Mediator GEOnet Wrapper ADL Wrapper Cache ADLGEOnetnP(b|a) baysBAY380,61 baysBCH10,01 baysCOVE60,09 baysISL80,12 baysPPL40,06 baysPT30,04 baysSTM20,03

23 Mapeamento de Thesauri Daniela F. Brauner


Carregar ppt "Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes."

Apresentações semelhantes


Anúncios Google