Adaptação do sistema de REM da Priberam ao HAREM Carlos Amaral, Helena Figueira, Afonso Mendes, Pedro Mendes, Cláudia Pinto, Tiago Veiga {cma, hgf, amm, prm, cp, Priberam Alameda D. Afonso Henriques, º Esq Lisboa, Portugal Tel.: / Fax:
Encontro do Segundo HAREM: Aveiro, SUMÁRIO 1.Importância do REM 2.Descrição do sistema –Adaptação do sistema para o HAREM 3.Análise dos resultados da participação no segundo HAREM –Resultados no HAREM Clássico –Resultados na pista TEMPO 4.Conclusões e trabalho futuro
Encontro do Segundo HAREM: Aveiro, IMPORTÂNCIA DO REM Importância do REM para a Priberam: –Correcção sintáctica (FLiP) Detecção de sequências de palavras como unidades morfossintácticas –Sistemas automáticos de resposta a perguntas Indexação de textos Categorização da pergunta Extracção das respostas –IncogniX (ferramenta para substituição de entidades nos acórdãos do STJ) –Motores de pesquisa (ex.: JN, TSF)
Encontro do Segundo HAREM: Aveiro, EXEMPLO DE USO DO SISTEMA EM MOTORES DE PESQUISA
Encontro do Segundo HAREM: Aveiro, DESCRIÇÃO DO SISTEMA Léxico com classificação morfossintáctica e semântica ex.: árvore s1 [planta lenhosa] N (SING|, FEM|, CART|, DATAN|, VEGETAL|) s2 [estrutura de representação] N(SING|, FEM|, CART|, DATAN|, ABSTR|CONCR) s3 [eixo, veio] N(SING|, FEM|, CART|, DATAN|, CONCR|, Pde|) Regras contextuais, que permitem: –Atribuição de valores morfológicos e semânticos a sequências de tokens ex.: Pal(secretaria) Pal(de) Pal(estado) = N Pal(às) Pal(primeiras) Pal(horas) Pal(de) Cat(N(DIASEMANA)) = ADV Cat(Vg)? Cat(ADV) Cat(Vg)? Cat(CARD) = CARD –Classificação contextual de EM, que ultrapassa a simples herança dos valores dos nomes próprios classificados no léxico
Encontro do Segundo HAREM: Aveiro, DESCRIÇÃO DO SISTEMA Primeira fase de classificação: herança dos valores atribuídos ao léxico Segunda fase de classificação: análise contextual Constantes: usadas na identificação e classificação de EM ex.: Constante Extensaodeagua = Pals(mar, oceano, rio, lago) Extensaodeagua Pal(de) Cat(Nprop) = EM Constante Listadeorganizacoes = Pals(instituto, instituição, organização, associação) Cat(NPROP(PESSOA)) PreposicaoDe Cat(NPROP) = ENT(ORGANIZACAO) If before $$ Is Listadeorganizacoes
Encontro do Segundo HAREM: Aveiro, ADAPTAÇÃO DO SISTEMA AO HAREM Categorias já reconhecidas pelo sistema antes da participação no segundo HAREM: PESSOA, LOCAL, ORGANIZACAO, VALOR, TEMPO Categorias criadas para o HAREM (para EM que já eram identificadas mas não classificadas): ABSTRACCAO, ACONTECIMENTO, COISA, OBRA Tipos criados para o HAREM: LOCAL(AGUACURSO, AGUAMASSA, RELEVO, ILHA), PESSOA(GRUPOMEMBRO)
Encontro do Segundo HAREM: Aveiro, ADAPTAÇÃO DO SISTEMA AO HAREM Filtro em XML para conversão das categorias: <TRACO NOME="TipoEM" ANTROP_IND {1}
Encontro do Segundo HAREM: Aveiro, ANÁLISE DOS RESULTADOS: HAREM CLÁSSICO Resultados absolutos no cenário TOTAL: 72,29% de EM correctamente identificadas 51,45% de EM correctamente classificadas Avaliação entre todos os participantes: 1.ª posição na Medida-F, em classificação e em identificação, no cenário TOTAL 1.ª posição na Medida-F, em classificação e identificação, nos cenários selectivos 3 e 4 1.º posição em 13 dos 28 cenários de avaliação Avaliação por categoria: 1.ª posição nas categorias ABSTRACCAO e COISA 1.º posição, em classificação e abrangência, na categoria PESSOA Resultados mais baixos nas categorias LOCAL, TEMPO e VALOR
Encontro do Segundo HAREM: Aveiro, ANÁLISE DOS RESULTADOS: PISTA TEMPO Avaliação na miniCD: 2.ª posição na classificação de EM 1.ª posição na identificação de EM Avaliação na pista TEMPO : 1.ª posição, em identificação, no cenário TOTAL e nos cenários selectivos 4 e 6 Melhores resultados, tal como no HAREM Clássico, na identificação de EM do que na sua classificação
Encontro do Segundo HAREM: Aveiro, ANÁLISE DOS RESULTADOS: PISTA TEMPO Principais razões para os resultados na pista TEMPO: –Critérios anteriormente estabelecidos para o sistema divergentes em relação aos do HAREM –Exclusão de iniciadores de expressões temporais como as preposições e contracções: Ex.: em 1996 (CD do HAREM) 1996 (Priberam) do século 21 (CD do HAREM) século 21 (Priberam)
Encontro do Segundo HAREM: Aveiro, CONCLUSÕES E TRABALHO FUTURO Melhoramento da classificação de EM (diferenças entre os valores da identificação e da classificação no HAREM) Classificação de EM ainda não reconhecidas pelo sistema ( ABSTRACCAO|IDEIA, ACONTECIMENTO|EVENTO, COISA|CLASSE, COISA|MEMBROCLASSE, COISA|OBJECTO, COISA|SUBSTANCIA, PESSOA|GRUPOCARGO, PESSOA|GRUPOIND, PESSOA|MEMBRO, PESSOA|POVO ) Reconhecimento de nomes próprios ambíguos com nomes comuns em início de frase ou após travessão Ex.: STN – Sistema de Transmissão do Nordeste Tratamento da metonímia: –Restrições de selecção dos verbos –Marcação de regências nominais Ex.: O Palácio de Belém pronunciou-se [sujeito humano/grupo humano] Palácio de Belém satisfeito [qualificador de nome humano] pronunciou- se Uso da ontologia na classificação contextual das EM
Priberam Alameda D. Afonso Henriques, º Esq Lisboa, Portugal Tel.: / Fax: