A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008.

Apresentações semelhantes


Apresentação em tema: "R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008."— Transcrição da apresentação:

1 R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

2 Porquê minimalista? Objectivo inicial Classificação de PESSOA, ORGANIZACAO e LOCAL Resultado final Identificação de tudo excepto TEMPO e VALOR 1 Melhorar um sistema de REM baseado em aprendizagem semi-supervisionada 2 Dados etiquetados mínimos Treinar com poucos dados 3 Melhor é melhor que mais

3 Sistema de Base Ideia inicial a melhorar baseada em Mota & Grishman (2008) Collins & Singer (1999)

4 Sistema R3M O que precisava de ser melhorado ou adaptado? Collins & Singer (1999) NooJ (Silberztein, 2004) → JET (Grishman, ) Sementes EM → Sementes EM + contexto Classificar P O L → Classificar P O L e outro  → Módulo de selecção

5 Sistema R3M Ferramentas do JET – Java Extraction Toolkit Atomizador Segmentador de frases Consultador de dicionário Etiquetador morfo-sintáctico (HMM) Etiquetador de EM Analisador de grupos nominais Analisador sintáctico Analisador sintáctico estatístico Reconhecedor de padrões Resolvedor de referências

6 Sistema R3M Recursos portugueses Dicionários: Cargos (106) e formas de tratamento (59) disponibilizados pela organização do HAREM Palavras de ligação extraídas de um fragmento do CETEMPúblico (8112) dicionário de português integrado no NooJ (Barreiro, 2007) Palavras em maiúsculas da Colecção do Segundo HAREM (10050)

7 Sistema R3M Recursos portugueses Padrões: Conjunto de padrões para delimitação de candidatos a EM Conjunto de padrões para identificação do contexto envolvente da EM Material de treino: Floresta sintáctica (Afonso et al., 2001), para treino de analisador morfo- sintáctico Colecções dourada e HAREM do Primeiro HAREM, para treino do classificador de EM Colecção dourada do Mini-HAREM, para teste do classificador de EM

8 Resultados

9

10

11 Comentários finais Contrariamente à nossa posição no Primeiro HAREM, optámos por seguir as regras do jogo Tirámos partido de ferramentas “genéricas” testadas em inglês, criando ou usando recursos portugueses Usámos recursos mínimos Obtivémos uma pontuação competitiva sem classificação O que teria acontecido se o classificador e o Murphy não se tivessem encontrado?  Anotação da CD do Primeiro HAREM não era 100% compatível com o Segundo HAREM  Teste e validação com programas de avaliação do Primeiro HAREM poderia ser enganador

12 Agradecimentos A Linguateca e o HAREM são financiados através do contrato nº 339/1.3/C/NAC, financiado pelo governo português e pela União Europeia, e executado pela FCCN. 12


Carregar ppt "R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008."

Apresentações semelhantes


Anúncios Google