Ana Frankenberg-Garcia Linguateca - Fundação para a Computação Científica Nacional (FCCN) Instituto Superior de Línguas e Administração (ISLA) 9 anos de.

Slides:



Advertisements
Apresentações semelhantes
Recursos da Linguateca Diana Santos Porto, 4 de Outubro de 2005.
Advertisements

27 de Junho de Floresta sintá(c)tica: um recurso para avaliação Diana Santos Susana Afonso
Entrando em linha de conta com os utilizadores O exemplo concreto do COMPARA Ana Frankenberg-Garcia.
Gestão Unificada de Recursos Institucionais – GURI Módulo de Biblioteca.
Traduzindo o GNOME Antonio Fernandes C. Neto Flamarion Jorge Traduzindo o GNOME Antonio Fernandes C. Neto Flamarion Jorge IV ENSL.
Adilson Oliveira Cruz Analista de Tecnologia da Informação Sustentação de Produtos Livres – Célula C DATAPREV Outubro de 2009.
Os recursos da Linguateca ao serviço do desenvolvimento da tecnologia de voz na Microsoft Os recursos da Linguateca ao serviço do desenvolvimento da tecnologia.
ARTIGO PASSO A PASSO Dr.ª ELIZABETH TEIXEIRA (UERJ)
AULA SOBRE O WRITER. O Writer possui todas as características que você pode esperar de editor de textos moderno e completo, incluindo até mesmo recursos.
Governo do Estado do Espírito Santo Instituto de Tecnologia do Governo do Estado Apresentação do Novo Sistema de Correio Eletrônico do Governo do Estado.
Information and Communication Technologies 1 Linguateca 10 anos: festejo ou luto? Diana Santos.
UNIVERSIDADE DO ESTADO DE MINAS GERAIS ACADÊMICAS: Anna Carolina Silva Franklin Azevedo Adriano Campos Tavares Cláudia Maria Fernandes Correa Conceição.
Exemplos internacionais de Carta de Serviços ao Cidadão OUVIDORIA-GERAL CONTROLADORIA-GERAL DO DISTRITO FEDERAL.
(Times New Roman ou Arial, negrito, fonte 14, espaçamento simples)
O USO DA FERRAMENTA WIKI PARA A ELABORAÇÃO TEXTUAL DE TRABALHOS DE CONCLUSÃO DE CURSO EM UMA LICENCIATURA EM QUÍMICA À DISTÂNCIA Ana Lucia de Braga e Silva.
Passado, presente e futuro de uma coleção ...
LER É DIVERTIDO, ESCREVER É MÁGICO!
Sociedade Portuguesa para a Qualidade na Saúde
Visita de trabalho da Exma. Comissão do
Coordenação-Geral de Regulação da Educação Superior a Distância
Credenciamento e Recredenciamento Institucional
Análise Sintática do Código Penal de Portugal e do Brasil
FACULDADE EDUCACIONAL DE MEDIANEIRA FUNDAMENTAÇÃO TEÓRICA
A Educação Matemática como Campo Profissional e Científico
Encena livro.. Encena livro. Escola: Escola de Educação Infantil e fundamental Willy Janz Escola: Escola de Educação Infantil e fundamental Willy Janz.
CMPC - Conselho Municipal de Política Cultural de Chapecó - SC
Vice-presidente do Conselho Distrital de Lisboa da Ordem dos Advogados
Universidade Aberta do SUS
Investigação Colaborativa de Fenómenos Emocionais em Enfermagem
Informações importantes
HIPOTERMIA TERAPÊUTICA NO RECÉM-NASCIDO:
International Fellowships Program = IFP Nova fase da n/vida Palavras-chave: Rigor Realismo Qualidade Espírito positivo Espírito crítico Inovação,
Projecto E-learningUP|
    Universidade de Lisboa Faculdade de Direito Ciência Política Ano Lectivo   Prof. Doutor Kafft Kosta.
Organização Programática 2º Ciclo
Resolução da Carga Horária Docente do IFCE
TECNOPOLO (PORTO ALEGRE – RS)
Título do Trabalho a ser apresentado
CURSO BÁSICO DE WINISIS
Página de Título do Projeto, escola/agrupamento, responsáveis, etc.
Preparação do inquérito
Santander Universidades Idea Puzzle 2016
Grupos isolados que pesquisam EaD
DESCOBERTA DE CONHECIMENTO ATRAVÉS DE MÉTODOS DE APRENDIZAGEM DE MÁQUINA SUPERVISIONADOS APLICADOS AO AMBIENTE VIRTUAL DE APRENDIZAGEM SIGAA/UFPI Aline.
Via Libras: Proposta Inovadora no Ensino de Libras na Modalidade EaD.
FORMAÇÃO PROFISSIONAL TÉCNICA: DESAFIOS E OPORTUNIDADES NA EXECUÇÃO DE UM CURSO HÍBRIDO PARA O MEIO RURAL.
Apresentação de Resultados
Gêneros de Divulgação científica:
A LITERATURA NA EDUCAÇÃO INFANTIL: ASPECTOS E CONTRIBUIÇÕES NO PROCESSO DE ENSINO-APRENDIZAGEM. DAGMAR NEPONUCENO BELO CARDOSO UNIVERSIDADE FEDERAL DO.
HIDRÁULICA E HIDROLOGIA APLICADAS
Editor de textos -Writer
UNIDADE 3: Criação de Apresentações
Solução IBEP Idiomas de aprendizagem de Inglês
1 13.
A utilização do Google Apresentação como ferramenta pedagógica
Moda Reciclável [ CRIAÇÃO DE COLECÇÕES ].
METODOLOGIA DE ENSINO DA DISCIPLINA DE ELETRÔNICA DIGITAL NA MODALIDADE À DISTÂNCIA (EAD) E PRESENCIAL DOS CURSOS DE ENGENHARIA DA COMPUTAÇÃO E ENGENHARIA.
Título do Resumo Autor11, Autor22, Autor33 , Autor44, , Professor5
APRESENTAÇÃO. Teste 1 Teste 2 Teste 3.
Artigo científico Disciplina de Iniciação à Pesquisa Científica
Elaborado por: André Aparecido da Silva
AULA SOBRE O WRITER.
Qualidade de Software Seminário /1 ULBRA
HIPOTERMIA TERAPÊUTICA NO RECÉM-NASCIDO:
Universidade Estadual do Paraná Curso de Matemática
UNIVERSIDADE FEDERAL DE SERGIPE
Edição de literatura indígena
XVI SIMPÓSIO INTERNACIONAL DE CIÊNCIAS INTEGRADAS
XVI SIMPÓSIO INTERNACIONAL DE CIÊNCIAS INTEGRADAS
Apresentação teste 2019.
Transcrição da apresentação:

Ana Frankenberg-Garcia Linguateca - Fundação para a Computação Científica Nacional (FCCN) Instituto Superior de Línguas e Administração (ISLA) 9 anos de desenvolvimento

O que é o COMPARA? Um corpus paralelo bidirecional de português e inglês Um dos diversos recursos criados de raiz no âmbito da Linguateca

Como surgiu o COMPARA? Diana 1996: doutoramento baseado num pequeno corpus paralelo EN-PT e PT-EN Ana 1999: utilização no ensino de tradução de um corpus paralelo EN-PT extraído do PE Diana 1999: Projecto PCP (primórdios da Linguateca) Ana : subsídio da FCT e ano sabático em Oxford para iniciar a construção de um corpus a sério. Ana e Diana 2000: início da parceria COMPARA

Preocupações iniciais Determinar estrutura do corpus Encontrar número suficiente de bitextos PT-EN Conseguir autorizações Criar regras de digitalização e alinhamento Escolher ferramentas de corpora apropriadas Criar interface pública PT e EN para conhecedores e leigos

Características básicas Estrutura bidirecional, só traduções diretas PT-EN e EN-PT e inicialmente só literatura publicada Disponibilização imediata Notas de tradução preservadas e anotação de palavras estrangeiras, títulos, ênfase, etc. Alinhamento direcional por frase do texto original com anotação detalhada Ferramentas IMS CWB Interface pública DISPARA

Lançamento do COMPARA Maio 2000: Primeiros testes em Novembro 2000: Primeira apresentação pública na CULT 2K, Itália

...e anúncio na Corpora

Expansão do corpus

Necessidade de mais mão de obra Estagiários voluntários –Sofia Sommer Ribeiro (ISLA, Lisboa), 2001 a 2002 –Vera Almeida (ISLA, Lisboa), 2001 a 2002 –Rosário Silva (ISLA, Lisboa), 2002 a 2003Rosário Silva –Anne Silveira (Universidade de Melbourne), 2002 a 2003 –Elisabete Ferreira (Universidade do Porto), seis meses em 2003 –Susana Inácio (Universidade de Lisboa), seis meses em 2004Susana Inácio –Rosa Pires (ISLA, Lisboa), 2002 a 2005 –Cláudia Gomes (ISLA, Lisboa), 2004 a 2005 Criados tutoriais de processamento de textos paralelos

Assistentes de investigação vinculados à Linguateca 2003: Rosário Silva 2004: Susana Inácio 2007: Pedro Sousa Formou-se uma equipa estável de 5 pessoas

Além da expansão, outras melhorias Interface em constante desenvolvimento tendo em vista novas funcionalidades e usabilidade (desde sempre) Ações de divulgação em palestras e workshops (desde sempre) Ajuda para pesquisar (desde 2003) Documentação detalhada sobre a construção do corpus disponibilizada (desde 2003) Tutorias de utilização do corpus (desde 2004)

Melhorias continuam... Revisão completa da etiquetagem textual inicial (2005) Prospecção de bitextos não literários (2005) Anotação gramatical PT com o PALAVRAS (2004) Revisão manual da anotação PT (desde 2004) Re-introdução de marcas de parágrafo (2007) Revisão parcial da digitalização dos textos obtidos por download (2007)

E ainda... Anotação semântica para cor (2007) Interface totalmente remodelada (2008) Anotação gramatical EN com o CLAWS (2008) Revisão manual da anotação EN (desde 2008) Contatos para liberar textos protegidos (em curso)

Acessos mensais (picos)

Balanço Nenhum corpus é perfeito, mas o COMPARA é comparativamente um corpus muito cuidado (digitalização, alinhamento, anotação, interface, ajuda, documentação...) Em nove anos avançamos bastante mas tivemos falhas e ainda há muito por fazer... Mas o futuro é incerto

Obrigada Coordenadoras do COMPARA Ana Frankenberg-Garcia & Diana Santos Assistentes de pesquisa Pedro Sousa, Rosário Silva & Susana Inácio Linguateca (Pólos SINTEF e FCCN) Financiamento Governo português e União Europeia (FEDER & FSE) ref. POSC/339/1.3/C/NAC