A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma participação minimalista no Segundo HAREM

Apresentações semelhantes


Apresentação em tema: "Uma participação minimalista no Segundo HAREM"— Transcrição da apresentação:

1 Uma participação minimalista no Segundo HAREM
R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008

2 Porquê minimalista? 1 Objectivo inicial
Classificação de PESSOA, ORGANIZACAO e LOCAL Resultado final Identificação de tudo excepto TEMPO e VALOR Melhorar um sistema de REM baseado em aprendizagem semi-supervisionada 2 Dados etiquetados mínimos Treinar com poucos dados 3 Melhor é melhor que mais Porquê minimalista?

3 Sistema de Base Collins & Singer (1999)
Ideia inicial a melhorar baseada em Mota & Grishman (2008)

4 Sistema R3M NooJ (Silberztein, 2004) → JET (Grishman,1999-2006)
Classificar P O L→ Classificar P O L e outro  → Módulo de selecção Collins & Singer (1999) Sementes EM → Sementes EM + contexto Collins & Singer (1999) Sistema R3M O que precisava de ser melhorado ou adaptado?

5 Sistema R3M Atomizador Segmentador de frases Consultador de dicionário
Etiquetador morfo-sintáctico (HMM) Etiquetador de EM Analisador de grupos nominais Analisador sintáctico Analisador sintáctico estatístico Reconhecedor de padrões Resolvedor de referências Sistema R3M Ferramentas do JET – Java Extraction Toolkit

6 Sistema R3M Dicionários:
Cargos (106) e formas de tratamento (59) disponibilizados pela organização do HAREM Palavras de ligação extraídas de um fragmento do CETEMPúblico (8112) dicionário de português integrado no NooJ (Barreiro, 2007) Palavras em maiúsculas da Colecção do Segundo HAREM (10050) Sistema R3M Recursos portugueses

7 Padrões: Conjunto de padrões para delimitação de candidatos a EM Conjunto de padrões para identificação do contexto envolvente da EM Material de treino: Floresta sintáctica (Afonso et al., 2001), para treino de analisador morfo- sintáctico Colecções dourada e HAREM do Primeiro HAREM, para treino do classificador de EM Colecção dourada do Mini-HAREM, para teste do classificador de EM Sistema R3M Recursos portugueses

8 Resultados

9 Resultados

10 Resultados

11 Contrariamente à nossa posição no Primeiro HAREM, optámos por seguir as regras do jogo
Tirámos partido de ferramentas “genéricas” testadas em inglês , criando ou usando recursos portugueses Usámos recursos mínimos Obtivémos uma pontuação competitiva sem classificação Anotação da CD do Primeiro HAREM não era 100% compatível com o Segundo HAREM Teste e validação com programas de avaliação do Primeiro HAREM poderia ser enganador O que teria acontecido se o classificador e o Murphy não se tivessem encontrado? Comentários finais

12 A Linguateca e o HAREM são financiados através do contrato nº 339/1
A Linguateca e o HAREM são financiados através do contrato nº 339/1.3/C/NAC, financiado pelo governo português e pela União Europeia, e executado pela FCCN. Agradecimentos


Carregar ppt "Uma participação minimalista no Segundo HAREM"

Apresentações semelhantes


Anúncios Google