A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics.

Apresentações semelhantes


Apresentação em tema: "Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics."— Transcrição da apresentação:

1 Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

2 Junho de 2002SINTEF2 O que é avaliação conjunta? Compara os resultados de vários sistemas participantes usando: –Tarefas de controle iguais ou similares; –Mesma coleção de dados; –Mesmas métricas. Todos os itens acima são baseados em concordância prévia entre os participantes.

3 Junho de 2002SINTEF3 Objetivos Encorajar a pesquisa baseada em dados reais; Aumentar a comunicação entre a indústria, a academia e o governo através da criação de um fórum aberto de discussões; Acelerar a transferência de tecnologia entre os laboratórios de pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais; Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais.

4 Junho de 2002SINTEF4 Elementos da avaliação conjunta Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada. Requisitos genéricos para a tarefa de controle: –Pode ser facilmente realizada por um operador humano; –Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN; Requisitos genéricos para as métricas: –Deve existir concordância em um formalismo de referência comum a todos os participantes; –As métricas devem ser diretas e de fácil entendimento.

5 Junho de 2002SINTEF5 Fases da Avaliação Conjunta Participantes: pesquisa, indústria e governo Organização: governo, pesquisa e indústria Tarefas de controle Métricas Coleção de teste Treinamento Ensaio Avaliação Resultados Artigos Conferência

6 Junho de 2002SINTEF6 Evolução Avaliação Conjunta Tarefas Métricas Coleção Discussão sobre metodologia Tarefas Métricas Nova Avaliação Conjunta Coleção - Treinamento - Teste - Respostas certas

7 Junho de 2002SINTEF7 Tipos de avaliação em geral Avaliação de pesquisa básica –Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos. Avaliação de tecnologia –Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido. Avaliação de uso –Medir a usabilidade de uma tecnologia na resolução de um problema real. Avaliação de impacto –Avaliação de consequências sócio-econômicas de uma tecnologia. Avaliação de programa –Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia.

8 Junho de 2002SINTEF8 Avaliações conjuntas realizadas ATIS MUC TREC SUMMAC DUC CLEF ARC GRACE Morpholympics Senseval/Romanseval Parseval NTCIR http://cgi.portugues.mct.pt/aval_conjunta/outras_aval_conj.html

9 Junho de 2002SINTEF9 ATIS - Air Travel Information System Duração: de 1989 a 1995. Tarefa: Responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas). Com a intenção de criar uma medida repetível em um sistema de trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados. A portabilidade dos sistemas de compreensão de línguas não avaliada. –Não estava claro como desenvolver ferramentas robustas que permitiriam a rápida construção destes tipos de sistemas em novos domínios

10 Junho de 2002SINTEF10 MUC - Message Understanding Conference Duração: 1987 a 1998. Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular. –Ex: Atividades terroristas nas Américas. Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas. Avaliação baseada em preenchimento de gabaritos (templates) –Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias. –Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome. – Identificação de coreferência: ligar as várias menções da mesma entidade.

11 Junho de 2002SINTEF11 TREC - Text REtrieval Conference Início: 1992 Tarefas principais: –Routing: Mesmas questões perguntadas a uma base de dados dinâmica. –Ad hoc: Novas questões são perguntadas a uma base de dados estática. Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos: –Contendo entre 500.000 e 1.000.000 de documentos completos –Formado principalmente de textos jornalísticos e de agências de notícias. –Também possui documentos oficiais e resumos de artigos sobre computação.

12 Junho de 2002SINTEF12 Julgamentos de Relevância nas TRECs Método de pooling: –Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. –Reúne-se por tópico todas as respostas enviadas e remove-se as duplicações. –Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão. A lista final do método de pooling será considerada a resposta correta.

13 Junho de 2002SINTEF13 SUMMAC - TIPSTER Text Summarization Evaluation Início: 1997 Tarefas principais: –Ad hoc Criação de sumários indicativos e focados no usuário para um tópico particular. Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico. –Categorização Criação de sumários genéricos Determinar se estes sumários são efetivos na captura de qualquer informação no documento fonte que permita corretamente categorizar este documento. Os dados usados são das TRECs.

14 Junho de 2002SINTEF14 DUC - Document Understanding Conference Início: 2001 Tarefas principais: –Sumário individual: Produzir um resumo de 100 palavras para cada documento; –Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”. Os dados utilizados vieram da TREC-9 (question-answering track).

15 Junho de 2002SINTEF15 Criação de Sumários por Humanos 400 200 100 50 Documentos Sumários individuais Sumários coletivos A B C D E F A : Ler os documentos em papel. B : Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento. C : Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais. D,E,F : Recortar, colar e reformular para reduzir o tamanho do sumário pela metade. Traduzido de http://www-nlpir.nist.gov/projects/duc/duc2001/pauls_slides/sld008.htm

16 Junho de 2002SINTEF16 CLEF - Cross-Language Evaluation Forum Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em 2000. Objetivos: –Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval) –Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês). –Atrair mais participantes europeus para este tipo de tarefa de avaliação A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis) Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente.

17 Junho de 2002SINTEF17 ARC - Actions de Recherche Concertées Início: 1994 Possui 7 tarefas de controle organizadas como segue: –Linguística, Informática e Corpora escritos (ILEC) Recuperação de Informação Alinhamento de corpus bi e multilíngues Construção automática de terminologia e de relações semânticas a partir de corpora Compreensão de textos –Linguística, Informática e Corpora orais (ILOR) Ditado vocal Diálogo oral Síntese de fala Cada tarefa de controle possui a mesma estrutura organizacional –Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes.

18 Junho de 2002SINTEF18 GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation Início: 1995 Objetivos iniciais: –Etiquetadores morfossintáticos para o francês; –Analisadores sintáticos para francês (abandonado) Corpus de treinamento –Tamanho em torno de 10 milhões de palavras; –Distribuido entre trabalhos literários e artigos jornalísticos.

19 Junho de 2002SINTEF19 Senseval/Romanseval Início: 1998 A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. A meta do Romanseval é similar a do Senseval mas voltada para línguas românicas (francês e italiano). Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês. –Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos. –Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. –Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma outra língua.

20 Junho de 2002SINTEF20 Parseval A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação. A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes. A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.

21 Junho de 2002SINTEF21 NTCIR - NII-NACSIS Test Collection for IR Systems Início: 1998 Projetado para fomentar a pesquisa em recuperação de informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas. Fortemente baseada no modelo das TRECs Tarefas: –Recuperação de informação em textos em chinês. –Recuperação de informação em textos em japonês e inglês. –Sumarização de textos: sumarização de artigos japoneses de vários tipos


Carregar ppt "Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics."

Apresentações semelhantes


Anúncios Google