Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics.

Slides:



Advertisements
Apresentações semelhantes
Análise e Projeto de Sistemas I
Advertisements

Modelagem de Software Orientado a Objetos
ISO Processos do Ciclo de Vida do Software
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Modelos de Recuperação de Informação
SISTEMAS DE INFORMAÇÃO
Engenharia de Software
Sérgio Elias Vieira Cury
REVISÃO BIBLIOGRÁFICA
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Como escrever um Artigo científico?
Análise e Projeto de Sistemas
Engenharia de Requisitos Requisito – sistema Caso de uso - usuário
Control Objectives for Information and related Technology
Desenvolvimento de PROJETOS.
RESUMO Laboratório de Produção de Texto
UFRPE – Modelos de Qualidade Teresa Maciel
Como iniciar uma pesquisa
Explicitando informações de ajuda para a construção de sítios de e-GOV
Diagramas de Sequência e Comunicação
Tesauros José Antonio M. Nascimento.
Planejamento e Execução da Auditoria
Avaliação do RUP como processo para desenvolvimento de software
Disciplina: Prática Profissional II
Treinamento do Microsoft® Access® 2010
União Educacional Minas Gerais Curso de Pedagogia: Gestão e Tecnologia Educacional Aluna: Débora Luzia da Silveira Professoras: Gilca Vilarinho Gilca Vilarinho.
Qualidade de Produto de Software
Metolodogia de Desenvolvimento de Data Warehouse
Gerenciamento de Dados
MapReduce Conceitos e Aplicações
Engenharia de Software
Fundamentos de Metodologia
Disciplina: Metodologia da Pesquisa e Tecnologia
O ambiente de Ead selecionado para realização do curso on-line foi o TelEduc. Este é utilizado na Uniminas como ferramenta de auxilio das disciplinas.
Software engineering, the software process and their support M.M. Lehman Apresentadora: Tarciana Dias da Silva.
A abordagem de banco de dados para gerenciamento de dados
Engenharia de Software
PROFESSORA ANGELICA ROCHA DE FREITAS
Informações sobre o Teleduc O TelEduc é um ambiente para a criação, participação e administração de cursos na Web. Ele foi concebido tendo como alvo o.
PROJETO DE PESQUISA.
PROJETO DE PESQUISA.
Trabalho de Engenharia de Software II
Processos de Software.
Técnicas de avaliação de Interfaces Alunos: Joel Levandowski Ranieri R. Tremea Prof ª.:Cristina P. dos Santos URI - Universidade Regional Integrada do.
Análise e Projeto de Sistemas
Modelando Sistemas em UML
Integração de Ferramentas CASE
Desenvolvimento de Software Dirigido a Modelos
Livro 4 Avaliação de Desenvolvimento Sustentável: Princípios na Prática.
PROPAI/PROPCCI-I 2S 2º semestre – 2011 Professores: Geraldo e Padu.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Professora Michelle Luz
Morfoolimpíadas Uma proposta concreta Paulo Alexandre Rocha & Diana Santos (Faro, 27 de Junho de 2002) Evolução.
Documentação direta e indireta e técnica do fichamento
Informática Aplicada a Educação II Profº Gilca Dos Santos Vilarinho Introdução Educação á Distância III Profº Zeila Miranda Didática doa Meios II Profº.
TEXTOS TEÓRICOS, METODOLÓGICOS E TÉCNICOS
Etapas de uma sequência didática
Gerenciamento de Configuração de Software
Aula 02 de Eng. de Requisitos
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
TÉCNICAS DE ESTIMATIVAS
1 Especificação de Sistemas de Software e a UML. 2 Modelagem de sistema A modelagem de sistema auxilia o analista a entender a funcionalidade do sistema.
PREPARAÇÃO DE UM ARTIGO CIENTÍFICO
Edgard Cornachione Silvia Casa Nova Nálbia A. Santos Metodologia do Trabalho Científico # 06 1.
INTELIGÊNCIA EMPRESARIAL Aula 8 - Metadados e Operações OLAP.
Indexação e Resumos: teoria e prática
Os programas da Iniciativa Intel® Para Educação são financiados pela Intel Foundation e Intel Corporation. Copyright © 2007 Intel Corporation. Todos os.
Informação documentária Profa. Giovana Deliberali Maimone.
COMPILAÇÃO E RECUPERAÇÃO DE INFORMAÇÕES TÉCNICO-CIENTÍFICAS E INDUÇÃO AO CONHECIMENTO DE FORMA ÁGIL NA REDE AGROHIDRO MARIA FERNANDA MOURA 1 ;
Transcrição da apresentação:

Avaliações Conjuntas : Visão Geral Alexsandro Santos Soares Projecto Processamento Computacional do Português SINTEF Telecom and Informatics

Junho de 2002SINTEF2 O que é avaliação conjunta? Compara os resultados de vários sistemas participantes usando: –Tarefas de controle iguais ou similares; –Mesma coleção de dados; –Mesmas métricas. Todos os itens acima são baseados em concordância prévia entre os participantes.

Junho de 2002SINTEF3 Objetivos Encorajar a pesquisa baseada em dados reais; Aumentar a comunicação entre a indústria, a academia e o governo através da criação de um fórum aberto de discussões; Acelerar a transferência de tecnologia entre os laboratórios de pesquisa e os produtos comerciais pela comprovação de melhorias substanciais em metodologias aplicadas a problemas reais; Disponibilização de técnicas e recursos de avaliação comuns para uso industrial ou acadêmico, incluindo o desenvolvimento de novas técnicas mais adequadas aos sistemas atuais.

Junho de 2002SINTEF4 Elementos da avaliação conjunta Tarefa de controle é a função que os sistemas participantes realizam durante a avaliação juntamente com as condições sob as quais ela deve ser realizada. Requisitos genéricos para a tarefa de controle: –Pode ser facilmente realizada por um operador humano; –Não precisa ser identificada com a funcionalidade específica de um componente numa arquitetura de PLN; Requisitos genéricos para as métricas: –Deve existir concordância em um formalismo de referência comum a todos os participantes; –As métricas devem ser diretas e de fácil entendimento.

Junho de 2002SINTEF5 Fases da Avaliação Conjunta Participantes: pesquisa, indústria e governo Organização: governo, pesquisa e indústria Tarefas de controle Métricas Coleção de teste Treinamento Ensaio Avaliação Resultados Artigos Conferência

Junho de 2002SINTEF6 Evolução Avaliação Conjunta Tarefas Métricas Coleção Discussão sobre metodologia Tarefas Métricas Nova Avaliação Conjunta Coleção - Treinamento - Teste - Respostas certas

Junho de 2002SINTEF7 Tipos de avaliação em geral Avaliação de pesquisa básica –Validar um nova idéia e medir a quantidade de melhoria que ela traz em relação a outros métodos. Avaliação de tecnologia –Medir a performance e a adequação de uma tecnologia na resolução de um problema bem definido, simplificado e abstraido. Avaliação de uso –Medir a usabilidade de uma tecnologia na resolução de um problema real. Avaliação de impacto –Avaliação de consequências sócio-econômicas de uma tecnologia. Avaliação de programa –Determinar quanto de benefício um programa de financiamento trouxe para uma dada tecnologia.

Junho de 2002SINTEF8 Avaliações conjuntas realizadas ATIS MUC TREC SUMMAC DUC CLEF ARC GRACE Morpholympics Senseval/Romanseval Parseval NTCIR

Junho de 2002SINTEF9 ATIS - Air Travel Information System Duração: de 1989 a Tarefa: Responder a perguntas faladas pelo usuário sobre determinado domínio (Informação sobre linhas aéreas). Com a intenção de criar uma medida repetível em um sistema de trocas de mensagens faladas e, assim, interativo, foi criado um paradigma de avaliação baseado em dados pré-gravados. A portabilidade dos sistemas de compreensão de línguas não avaliada. –Não estava claro como desenvolver ferramentas robustas que permitiriam a rápida construção destes tipos de sistemas em novos domínios

Junho de 2002SINTEF10 MUC - Message Understanding Conference Duração: 1987 a Tarefa: Simulação de um analista do serviço de inteligência procurando informações a respeito de um tópico particular. –Ex: Atividades terroristas nas Américas. Inicialmente utilizou um corpus contendo mensagens da Marinha dos EUA e depois evoluiu para textos jornalísticos e em vários domínios, incluindo em outras línguas. Avaliação baseada em preenchimento de gabaritos (templates) –Identificação de entidades citadas: pessoa, organização, localização, tempo, data, percentuais e expressões monetárias. –Template elements: uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome. – Identificação de coreferência: ligar as várias menções da mesma entidade.

Junho de 2002SINTEF11 TREC - Text REtrieval Conference Início: 1992 Tarefas principais: –Routing: Mesmas questões perguntadas a uma base de dados dinâmica. –Ad hoc: Novas questões são perguntadas a uma base de dados estática. Os dados usados atualmente nesta avaliação consiste de 2 Gb de textos: –Contendo entre e de documentos completos –Formado principalmente de textos jornalísticos e de agências de notícias. –Também possui documentos oficiais e resumos de artigos sobre computação.

Junho de 2002SINTEF12 Julgamentos de Relevância nas TRECs Método de pooling: –Os participantes enviam para cada tópico uma lista contendo os 100 primeiros documentos encontrados, ordenados por relevância. –Reúne-se por tópico todas as respostas enviadas e remove-se as duplicações. –Cada lista resultante por tópico é levada para um analista humano para que este decida sobre a relevância de tais documentos para o tópico em questão. A lista final do método de pooling será considerada a resposta correta.

Junho de 2002SINTEF13 SUMMAC - TIPSTER Text Summarization Evaluation Início: 1997 Tarefas principais: –Ad hoc Criação de sumários indicativos e focados no usuário para um tópico particular. Determinar se estes sumários são efetivos na determinação da relevância de texto fonte completo para um dado tópico. –Categorização Criação de sumários genéricos Determinar se estes sumários são efetivos na captura de qualquer informação no documento fonte que permita corretamente categorizar este documento. Os dados usados são das TRECs.

Junho de 2002SINTEF14 DUC - Document Understanding Conference Início: 2001 Tarefas principais: –Sumário individual: Produzir um resumo de 100 palavras para cada documento; –Sumário de um conjunto de documentos: Produzir quatro sumários com taxas de compressão diferentes (400, 200, 100 e 50 palavras) para conjuntos de 10 documentos (em média) discutindo o mesmo “conceito”. Os dados utilizados vieram da TREC-9 (question-answering track).

Junho de 2002SINTEF15 Criação de Sumários por Humanos Documentos Sumários individuais Sumários coletivos A B C D E F A : Ler os documentos em papel. B : Criar um sumário de 100 palavras para cada documento usando a perspectiva do autor do documento. C : Criar um sumário de 400 palavras a partir de um conjunto de 10 documentos escritos na forma de um relatório para um leitor adulto de jornais. D,E,F : Recortar, colar e reformular para reduzir o tamanho do sumário pela metade. Traduzido de

Junho de 2002SINTEF16 CLEF - Cross-Language Evaluation Forum Iniciada como uma das tarefas secundárias na TREC-6, tornou-se uma iniciativa independente em Objetivos: –Auxiliar a avaliação de sistemas em recuperação translinguística de informação (cross-language retrieval) –Encorajar o desenvolvimento de estratégias e ferramentas para a recuperação monolíngue de informação (não baseada no Inglês). –Atrair mais participantes europeus para este tipo de tarefa de avaliação A coleção de teste consiste em conjuntos de documentos em diferentes línguas européias mas com características similares (mesmo gênero e período de tempo, conteúdos comparáveis) Possui uma organização distribuída com os vários grupos participantes fornecendo o conhecimento para cada língua individualmente.

Junho de 2002SINTEF17 ARC - Actions de Recherche Concertées Início: 1994 Possui 7 tarefas de controle organizadas como segue: –Linguística, Informática e Corpora escritos (ILEC) Recuperação de Informação Alinhamento de corpus bi e multilíngues Construção automática de terminologia e de relações semânticas a partir de corpora Compreensão de textos –Linguística, Informática e Corpora orais (ILOR) Ditado vocal Diálogo oral Síntese de fala Cada tarefa de controle possui a mesma estrutura organizacional –Um avaliador encarregado do gerenciamento, um comitê científico cujos membros são os participantes, um ou mais fornecedores de corpus e os participantes.

Junho de 2002SINTEF18 GRACE - Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation Início: 1995 Objetivos iniciais: –Etiquetadores morfossintáticos para o francês; –Analisadores sintáticos para francês (abandonado) Corpus de treinamento –Tamanho em torno de 10 milhões de palavras; –Distribuido entre trabalhos literários e artigos jornalísticos.

Junho de 2002SINTEF19 Senseval/Romanseval Início: 1998 A meta do Senseval é avaliar sistemas de desambiguação de sentidos com respeito a diferentes palavras, diferentes variantes de uma língua e a diferentes línguas. A meta do Romanseval é similar a do Senseval mas voltada para línguas românicas (francês e italiano). Os sistemas foram avaliados nas tarefas abaixo envolvendo holandês, tcheco, basco, estoniano, italiano, coreano, espanhol, sueco, japonês e inglês. –Todas palavras: avaliação sobre quase todas as palavras de conteúdo em uma amostra de textos. –Amostra lexical: primeiro amostra-se o léxico, em seguida encontram-se instâncias no contexto das palavras amostradas e a avaliação procede somente sobre estas instâncias. –Tradução: Sentidos correspondentes em distintas traduções de uma palavra em uma outra língua.

Junho de 2002SINTEF20 Parseval A disponibilidade de um corpora anotado (Penn Treebank) levou à sua criação. A idéia chave consistiu em fornecer uma representação sintática simples baseada em constituintes porém com neutralidade teórica. A avaliação separada em uma avaliação de "bracketings" para cada sentença e também na etiquetagem consistente de constituintes. A disponibilidade de dados cria um padrão de facto e assim os pesquisadores podem comparar resultados em diversas abordagens e, dentro de certos limites, cruzando diferentes teorias linguísticas.

Junho de 2002SINTEF21 NTCIR - NII-NACSIS Test Collection for IR Systems Início: 1998 Projetado para fomentar a pesquisa em recuperação de informação e outras tecnologias de processamento de texto (sumarização e extração) para o japonês e outras línguas asiáticas. Fortemente baseada no modelo das TRECs Tarefas: –Recuperação de informação em textos em chinês. –Recuperação de informação em textos em japonês e inglês. –Sumarização de textos: sumarização de artigos japoneses de vários tipos