A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon.

Apresentações semelhantes


Apresentação em tema: "O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon."— Transcrição da apresentação:

1 O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon

2 Motivação As referências geográficas e temporais ocorrem com abundância sobre documentos textuais (e.g., páginas Web, RSS feeds, …) A extracção da informação geo-temporal (e.g., nomes de locais e nomes de períodos temporais) presente nos textos pode servir de suporte para serviços de indexação/pesquisa/navegação com base em critérios geo-temporais. Ambiguidade é o maior problema: Diferentes nomes para o mesmo local Locais diferentes com o mesmo nome Mesmo nome para locais e outras entidades Variações ao longo do tempo e do espaço O sistema CaGE aborda o problema do reconhecimento e desambiguação de referências geo-temporais Associar as referências presentes nos textos a entradas num almanaque

3 Resumo da apresentação Motivação Apresentação do sistema CaGE Especificidades das referências geo-temporais Um serviço Web com base no sistema CaGE Participação no HAREM 2 e resultados obtidos Conclusões e trabalho futuro

4 Apresentação do sistema CaGE Reconhecimento de entidades mencionadas com base em dicionários (i.e., almanaques) e regras Extensão para desambiguação de nomes de locais e nomes de períodos temporais, com base em heurísticas e um almanaque específico desenvolvido no projecto DIGMAP Extensão para atribuição de âmbitos geográficos a documentos, com base nos locais reconhecidos no texto Não necessita dados de treino (apenas dicionários específicos), fácil de adaptar a outras línguas e tarefas de reconhecimento.

5 Dicionários usados pelo sistema CaGE Nomes de pessoas, organizações e periodos temporais – Base de dados REPENTINO (REPositório para reconhecimento de ENtidades NOmeadas) – Internet Movie DataBase – Wikipedia (e.g., listas de períodos temporais e de nomes comuns) – ECAI TimePeriod directory (traduções para Português) – Dicionários distribuídos com o sistema de IE/REM Balie Nomes de locais – GeoNET (combinação do GeoNET-PT e ML) – Base de dados disponibilizada pelo www.geonames.org – Nomes no almanaque do projecto DIGMAP – Lista de excepções construída manualmente

6 Funcionamento do CaGE Reconhecimento de entidades mencionadas – Atomização dos textos – Janela deslizante sobre os átomos identificados no texto (até 6 palavras) – EMs começam com maiúsculas e não ocorrem apenas no início de frases. – Mapeamento da EM máxima com entidades presentes nos dicionários – Expressões regulares para algumas entidades temporais (e.g., datas) Ambiguidade entre vários tipos de entidades – Regras desenvolvidas manualmente, utilizando palavras adjacentes – Classificação round-robin entre os vários tipos possíveis Tratamento das entidades geográficas e temporais – Desambiguação e grounding com base em almanaque específico

7 O almanaque usado na desambiguação das referências geo-temporais Base de dados de locais e períodos temporais – Nomes, coordenadas, períodos, relações e outras informações Pode ser acedido por um serviço Web XML (interface ADL) Integra dados de múltiplas fontes (e.g. geonames.org) http://gaz.digmap.eu/ EstatísticaValor Locais7,034,538 Nomes de locais15,026,983 Tipos de locais210 Periodos temporais1,989 Nomes periodos temp.3,782 Locais com coordenadas66,211,38 Tipos de relações5 Locais com relações431,397 Número de relações866,019 Relações entre locais e periodos1,989

8 Específicidades das referências geográficas e temporais Desambiguação e grounding das referências a locais – Pesquisar no almanaque os locais com o mesmo nome e tipo – Ordenar possibilidades com base na heurística um sentido por defeito Locais mais gerais (e.g., países e continentes) têm preferência – Ajustes com base na heurística referências relacionadas Locais no mesmo documento estão semanticamente relacionados (e.g., parte-de) Desambiguação e grouding das referências temporais – Regras para converter as representações textuais das datas – Pesquisar no almanaque os nomes de períodos temporais Atribuição de âmbitos aos documentos – Entrada no almanaque que melhor combina os locais reconhecidos – Intervalo de tempo que cobre os vários intervalos reconhecidos no texto

9 Atribuição de âmbitos geográficos Europa Espanha Portugal Madrid Barcelona Lisboa Porto weight x weight y (weight x *0.75)+(weight y *0.75) (weight x *0.75 2 )+(weight y *0.75 2 ) Algoritmo simples que explora as relações hierárquicas (Amitay et al., 2005) Pesos iniciais correspondentes às ocorrências no texto são propagados através das relações hierárquicas definidas entre as entradas do almanaque Função quadrática para ajustar os pesos de acordo com o nível hierárquico

10 Um serviço Web baseado no CaGE Serviço Web XML online em http://geoparser.digmap.eu – Serviço segue a OGCs Geoparser draft implementation specification – Suporta ainda os formatos HAREM, geoRSS and SpatialML (com XSLTs) Interface para exploração de feeds RSS com TimeLines+Mapas Locais e períodos temporais ligados a entradas no almanaque – Nomes de locais e âmbitos dos documentos associados a coordenadas – Períodos temporais e âmbitos temporais associados a intervalos de tempo

11 Participação no segundo HAREM Quatro runs submetidas ao segundo HAREM 1.Vários dicionários, locais no almanaque específico Apenas os locais presentes no almanaque usado na desambiguação e grounding foram anotados pelo sistema 2.Vários dicionários, excepto lista de excepções 3.Apenas dicionários de locais e períodos temporais Não eram reconhecidos os restantes tipos de entidades 4.Vários dicionários

12 Resultados experimentais Resultados obtidos no primeiro HAREM – Versão anterior do sistema CaGE lidando apenas com reconhecimento de locais – Dicionários baseados apenas no GeoNET Resultados obtidos no HAREM2, cenário 2 – Considera vários tipos de entidades (i.e., locais, tempo, organizações e pessoas) e sub-tipos para as entidades do tipo local Resultados obtidos no HAREM2, cenário 5 – Considera apenas entidades do tipo local, excepto o sub-tipo VIRTUAL Experiências focando na atribuição de âmbitos – Experiências com 511 documentos (i.e., registos bibliográficos do projecto DIGMAP) manualmente atribuídos a âmbitos geográficos e temporais

13 Resultados no primeiro HAREM Participação num cenário limitado à identificação de entidades do tipo local Semelhante ao cenário selectivo 5 do segundo HAREM Resultados modestos obtidos no HAREM e no MiniHAREM, com uma diferença de cerca de 0.1 em termos da medida-F para com o melhor sistema participante

14 Resultados no cenário selectivo 2 ClassificaçãoPosiçãoPrecisãoAbrangênciaMedida-FMaxCDMaxSis 4140.42640.4070.416410489.210310012.6786 1160.42770.40250.414810489.21039871.3095 2170.42260.40590.414110489.210310074.4286 3200.38830.350.368210489.21039455.5744 Melhores resultados0.73470.58930.6325 IdentificaçãoPosiçãoPrecisãoAbrangênciaMedida-FSobre-gerSub-gerTotalEMCDTotalEMSis 4160.46150.45530.45840.53850.54475538.33335463.5 1170.46430.4520.45810.53570.5485538.33335391.5 2180.45760.45470.45620.54240.54535538.33335503.5 3200.42250.39290.40720.57750.60715538.33335151.1667 Melhores resultados0.85610.71270.6813 Diferença de aprox. 0.2 em termos da medida-F para com o melhor resultado

15 Resultados no cenário selectivo 5 IdentificaçãoPosiçãoPrecisãoAbrangênciaMedida-FSobre-gerSub-gerTotalEMCDTotalEMSis 4110.51980.67880.58880.48020.321214181851.5 2120.50910.68020.58230.49090.319814181894.5 1130.50490.67810.57880.49510.321914181904.5 3140.50840.66890.57770.49160.331114181865.5 Melhores resultados0,71860,78560,6572 ClassificaçãoPosiçãoPrecisãoAbrangênciaMedida-FMaxCDMaxSis 4110.52670.58440.5542087.82142316.5774 2120.51960.58510.55042087.82142351.3274 1130.51470.58020.54552087.82142353.747 3140.51780.57540.54512087.82142319.8274 Melhores resultados0,70800,702360,6246 Diferença de aprox. 0.1 na medida-F para o melhor resultado Diferença de aprox. 0.1 na medida-F em relação ao MiniHAREM Resultados ligueiramente melhores que no cenário selectivo 2

16 Resultados na atribuição de âmbitos Documentos na colecção de teste manualmente atribuídos a uma caixa delimitadora Medir a diferença entre os âmbitos geográficos atribuídos manual- e automaticamente A baseline 1 corresponde ao âmbito mais frequente e baseline 2 à área mais abrangente Âmbitos geográficos atribuídos a mais de 75% dos documentos, e em mais de 50% dos casos com um erro inferior a 25Km

17 Conclusões e Trabalho Futuro O sistema CaGE e a participação no segundo HAREM – Reconhecer referências geo-temporais em documentos textuais. – Atribuir âmbitos aos documentos com base nas referências. – Disponível como um serviço Web produzindo anotações XML. – Resultados modestos no segundo HAREM. Trabalho futuro Melhorar precisão e abrangência do sistema – Almanaques já têm uma boa cobertura, o foco deve estar em regras. Melhor avaliação da atribuição de âmbitos a documentos. Melhorar tratamento de referências temporais (TimeML).


Carregar ppt "O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon."

Apresentações semelhantes


Anúncios Google