A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

HAREM 2.0 Proposta Luís Sarmento e Cristina Mota

Apresentações semelhantes


Apresentação em tema: "HAREM 2.0 Proposta Luís Sarmento e Cristina Mota"— Transcrição da apresentação:

1 HAREM 2.0 Proposta Luís Sarmento e Cristina Mota
Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação

2 Objectivos (Reconhecemos a importância do HAREM para o desenvolvimento na área em português) Abrir a discussão à comunidade relativamente ao futuro do REM Estabelecer um roteiro com objectivos em termos de extracção de informação Propor um conjunto de extensões e de alterações que nos parecem realistas e alcançáveis no prazo de um ano

3 Pista Robusta 1 Descrição Motivações
Detecção e Classificação de EM em textos sem capitalização Motivações Permitir REM sobre texto que não possui originalmente informação acerca da grafia ou a grafia é irregular: gerado por um reconhecedor de voz mails, blogs, etc. Obrigar à definição/caracterização de EM sem recorrer ao uso da capitalização [m|M]inistro dos Negócios Estrangeiros [c|C]onstante de Planck

4 Pista Robusta 1 [Implicações]
Levanta imensos problemas na determinação da delimitação das EM, sendo necessário caracterizar com maior precisão a tarefa A identificação terá de ser mais inteligente análise do contexto muito mais importante utilização de certos recursos lexicais para “identificar” inícios / fins… Poderá diluir a diferença entre “Identificar” e “Classificar”

5 Pista Robusta 2 Descrição Motivação
Teste dos sistemas em várias colecções datadas de forma diferente mas do mesmo género e domínio Motivação Verificar de que forma os sistemas se comportam quando expostos a variações na dimensão temporal Ajudar a testar a importância da actualização (ou não) dos almanaques ou das regras

6 Pista Robusta 2 [Problemas]
Será que a definição actual das tarefas é apropriada à realidade de outras épocas? Como isolar o impacto prático das variações no eixo tempo? Como garantir que a colecção permite isolar o factor tempo?

7 Tarefas Identificação Classificação Semântica
Classificação Morfológica Papel semântico Extra: Capitalização (Pista Robusta)

8 Tarefa Extra [Capitalização]
Descrição Corrigir/uniformizar a capitalização de entidades mencionadas em textos sem capitalização Motivação Tarefa essencial de pós-processamento em sistemas de reconhecimento de fala, como por exemplo sistemas de ditado e legendagem

9 Tarefa “Alargada” Descrição: Motivações:
Marcação de todas as menções a uma entidade, sejam, nomes próprios, nominais ou pronominais Ergónimos, nacionalidades, “categorias”: … <Diana Santos>, {investigadora portuguesa}… A {multinacional americana} <Microsoft>… A <Fundação Oriente> ... porque nesta {instituição} ... <Pauleta> afirma ... até porque a equipa nao {o} apoiou. Motivações: Estes elementos são muito importante para: Extracção de Informação (factoides, definições) RAP: a resposta pode não ser uma EM mas algo muito relacionado e “fácil” de marcar Preparação para uma futura tarefa [Harem 3.0] que inclua a detecção de co-referência Aguçar o apetite para tarefas de “chunking”

10 Mas não é complicado? Em certos casos não, porque pode já estar incluído na regra de classificação da EM: … <Diana Santos>, {investigadora portuguesa}… Noutros casos é porque as categorias podem ser abertas… mas pode ser muito interessante começar a produzir corpora com toda esta marcação

11 Tarefa “3 em 1” Até agora considerou-se 2 tipos de marcação:
Morfológica Semântica (2 níveis: classe e tipo) Durante a discussão das regras houve bastante polémica acerca da filosofia da marcação Mas pensamos que toda a gente concordará a vantagem de marcar as entidades como elas são “mencionadas” O HAREM foi mais longe que outras avaliações

12 Tarefa “3 em 1” Contudo, houve na nossa opinião uma mistura de dois factores na marcação semântica: Classificação & Papel Semântico “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” Como deve ser marcado semanticamente “Portugal”? ORG? Segundo as regras do HAREM sim… Depreende-se que “Portugal” está a substituir “Governo Português” que é uma Organização mas este salto ontológico é “arriscado” Porque…

13 Porque… Qual será a pergunta natural?…
“Quem acusou Bruxelas de ser parcial…?” “Que país acusou Bruxelas de ser parcial…?” “Portugal, o país produtor de Vinho do Porto, acusa Bruxelas de ser parcial na atribuição de verbas aos países membros”

14 Então… Porque não decompor a classificação semântica em dois eixos:
Classificação semântica “intrínsica” Papel Semântico “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” Portugal: GEOPOL::País (não arrisco dizer LOC ou ORG) Papel: Agente

15 Um esclarecimento Note-se que não há “perda” da noção de “forma de menção”: ainda estamos a falar de “entidades mencionadas” Pode haver vários papéis: “agente” “paciente” / “objecto”… Podem ser acrescentados / especializados há medida que se torne interessantes

16 Implicações… Pode levar a ter que repensar a estrutura de classificação do HAREM Pode ser que se resolvam algumas “ambiguidades”… e que se criem outras? Permite olhar para a marcação de uma forma mais rica. Obriga a uma análise mais profunda, provavelmente implica análise sintáctica e semântica

17 Metodologia de Avaliação
Várias Colecções Douradas pretende-se analisar a consitência do resultado de cada em sistema em diversas colecções cujas propriedades são neste momento complexas de caracterizar e que portanto podem ter idiossincrasia especificias Será que os sistemas apresentam oscilações significativas em diferentes colecções.


Carregar ppt "HAREM 2.0 Proposta Luís Sarmento e Cristina Mota"

Apresentações semelhantes


Anúncios Google