A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

HAREM 2.0 Proposta Luís Sarmento e Cristina Mota Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação.

Apresentações semelhantes


Apresentação em tema: "HAREM 2.0 Proposta Luís Sarmento e Cristina Mota Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação."— Transcrição da apresentação:

1 HAREM 2.0 Proposta Luís Sarmento e Cristina Mota Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação

2 Objectivos Abrir a discussão à comunidade relativamente ao futuro do REM Estabelecer um roteiro com objectivos em termos de extracção de informação Propor um conjunto de extensões e de alterações que nos parecem realistas e alcançáveis no prazo de um ano (Reconhecemos a importância do HAREM para o desenvolvimento na área em português)

3 Pista Robusta 1 Descrição –Detecção e Classificação de EM em textos sem capitalização Motivações –Permitir REM sobre texto que não possui originalmente informação acerca da grafia ou a grafia é irregular: gerado por um reconhecedor de voz mails, blogs, etc. –Obrigar à definição/caracterização de EM sem recorrer ao uso da capitalização [m|M]inistro dos Negócios Estrangeiros [c|C]onstante de Planck

4 Pista Robusta 1 [Implicações] Levanta imensos problemas na determinação da delimitação das EM, sendo necessário caracterizar com maior precisão a tarefa A identificação terá de ser mais inteligente –análise do contexto muito mais importante –utilização de certos recursos lexicais para identificar inícios / fins… –Poderá diluir a diferença entre Identificar e Classificar

5 Pista Robusta 2 Descrição –Teste dos sistemas em várias colecções datadas de forma diferente mas do mesmo género e domínio Motivação –Verificar de que forma os sistemas se comportam quando expostos a variações na dimensão temporal –Ajudar a testar a importância da actualização (ou não) dos almanaques ou das regras

6 Pista Robusta 2 [Problemas] Será que a definição actual das tarefas é apropriada à realidade de outras épocas? Como isolar o impacto prático das variações no eixo tempo? Como garantir que a colecção permite isolar o factor tempo?

7 Tarefas Identificação Classificação Semântica Classificação Morfológica Papel semântico Extra: Capitalização (Pista Robusta)

8 Tarefa Extra [Capitalização] Descrição –Corrigir/uniformizar a capitalização de entidades mencionadas em textos sem capitalização Motivação –Tarefa essencial de pós-processamento em sistemas de reconhecimento de fala, como por exemplo sistemas de ditado e legendagem

9 Tarefa Alargada Descrição: –Marcação de todas as menções a uma entidade, sejam, nomes próprios, nominais ou pronominais Ergónimos, nacionalidades, categorias: –…, {investigadora portuguesa}… –A {multinacional americana} … –A... porque nesta {instituição}... – afirma... até porque a equipa nao {o} apoiou. Motivações: –Estes elementos são muito importante para: Extracção de Informação (factoides, definições) RAP: a resposta pode não ser uma EM mas algo muito relacionado e fácil de marcar –Preparação para uma futura tarefa [Harem 3.0] que inclua a detecção de co- referência –Aguçar o apetite para tarefas de chunking

10 Mas não é complicado? Em certos casos não, porque pode já estar incluído na regra de classificação da EM: …, {investigadora portuguesa}… Noutros casos é porque as categorias podem ser abertas… mas pode ser muito interessante começar a produzir corpora com toda esta marcação

11 Tarefa 3 em 1 Até agora considerou-se 2 tipos de marcação: –Morfológica –Semântica (2 níveis: classe e tipo) Durante a discussão das regras houve bastante polémica acerca da filosofia da marcação Mas pensamos que toda a gente concordará a vantagem de marcar as entidades como elas são mencionadas –O HAREM foi mais longe que outras avaliações

12 Tarefa 3 em 1 Contudo, houve na nossa opinião uma mistura de dois factores na marcação semântica: –Classificação & Papel Semântico Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros –Como deve ser marcado semanticamente Portugal? –ORG? Segundo as regras do HAREM sim… –Depreende-se que Portugal está a substituir Governo Português que é uma Organização mas este salto ontológico é arriscado Porque…

13 Qual será a pergunta natural?… 1.Quem acusou Bruxelas de ser parcial…? 2.Que país acusou Bruxelas de ser parcial…? Portugal, o país produtor de Vinho do Porto, acusa Bruxelas de ser parcial na atribuição de verbas aos países membros

14 Então… Porque não decompor a classificação semântica em dois eixos: 1.Classificação semântica intrínsica 2.Papel Semântico Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros Portugal: 1.GEOPOL::País (não arrisco dizer LOC ou ORG) 2.Papel: Agente

15 Um esclarecimento Note-se que não há perda da noção de forma de menção: ainda estamos a falar de entidades mencionadas Pode haver vários papéis: –agente –paciente / objecto… Podem ser acrescentados / especializados há medida que se torne interessantes

16 Implicações… Pode levar a ter que repensar a estrutura de classificação do HAREM Pode ser que se resolvam algumas ambiguidades… e que se criem outras? Permite olhar para a marcação de uma forma mais rica. Obriga a uma análise mais profunda, provavelmente implica análise sintáctica e semântica

17 Metodologia de Avaliação Várias Colecções Douradas –pretende-se analisar a consitência do resultado de cada em sistema em diversas colecções cujas propriedades são neste momento complexas de caracterizar e que portanto podem ter idiossincrasia especificias –Será que os sistemas apresentam oscilações significativas em diferentes colecções.


Carregar ppt "HAREM 2.0 Proposta Luís Sarmento e Cristina Mota Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação."

Apresentações semelhantes


Anúncios Google