Corpus analysis for indexing: when corpus-based terminology makes a difference Débora Oliveira Luís Sarmento Belinda Maia Diana Santos Linguateca.

Slides:



Advertisements
Apresentações semelhantes
Presenter’s Notes Some Background on the Barber Paradox
Advertisements

RCAAP Project João Mendes Moreira, FCCN Berlin 7, Paris, 04/12/2009.
Laboratório de Sistemas Distribuídos (LSD) – Universidade Federal de Campina Grande (UFCG)EELA Grid School – December 04, 2006 Enhancing SegHidro/BRAMS.
São Paulo - November 7, 2013 Measuring the Cost of Formalization in Brazil © 2003 The Ronald Coase Institute Adopting RCI methodology to measure start.
Chapter Six Pipelining
Copyright no direito americano: o caso Leslie Kelly v. Arriba Soft Corp. 1.
1 O direito americano A análise das excepções concentra-se no fair use: o direito americano permite a um utilizador exigir o acesso à obra e a sua reprodução.
III REUNIÃO DE COORDENAÇÃO REGIONAL DA BVS Lewis Joel Greene Editor Brazilian Journal of Medical and Biological Research Medical School of Ribeirão Preto.
Seymour Papert Trabalho realizado por:
Ciência Robert Sheaffer: Prepared Talk for the Smithsonian UFO Symposium, Sept. 6, 1980.
ANÁLISE DA PRODUÇÃO EM PERIÓDICOS ( ) SEGUNDO NOVOS ESTRATOS VITÓRIA, ES – OUTUBRO 2008 Kenneth Camargo – IMS/UERJ Cláudia Medina – IESC/UFRJ.
Meeting 17 Chapter & 6-6.
Conversation lesson Unit 14 – Poetry/ Song Teacher: Anderson.
DIRETORIA ACADÊMICA NÚCLEO DE CIÊNCIAS HUMANAS E ENGENHARIAS DISCIPLINA: INGLÊS FUNDAMENTAL - NOITE PROFESSOR: JOSÉ GERMANO DOS SANTOS PERÍODO LETIVO
DIRETORIA ACADÊMICA NÚCLEO DE CIÊNCIAS HUMANAS E ENGENHARIAS DISCIPLINA: INGLÊS FUNDAMENTAL - NOITE PROFESSOR: JOSÉ GERMANO DOS SANTOS PERÍODO LETIVO
DIRETORIA ACADÊMICA NÚCLEO DE CIÊNCIAS HUMANAS E ENGENHARIAS DISCIPLINA: INGLÊS FUNDAMENTAL - NOITE PROFESSOR: JOSÉ GERMANO DOS SANTOS PERÍODO LETIVO.
GT Processo Eletrônico SG Documentos Eletrônicos Segunda reunião – 28/08/2009 Interlegis.
Uniform Resource Identifier (URI). Uniform Resource Identifiers Uniform Resource Identifiers (URI) ou Identificador de Recursos Uniforme provê um meio.
Protocolo HTTP.
FLUP - Elena Zagar Galvão Faculdade de Letras da Universidade do Porto INFORMÁTICA DE TRADUÇÃO FALL SEMESTER 2008 Lesson December 2009 Teacher: Elena.
FLUP - Elena Zagar Galvão Faculdade de Letras da Universidade do Porto Mestrado em Tradução e Serviços Linguísticos COMUNICAÇÃO ESPECIALIZADA INTRODUÇÃO.
SECEX SECRETARIA DE COMÉRCIO EXTERIOR MINISTÉRIO DO DESENVOLVIMENTO, INDUSTRIA E COMÉRCIO EXTERIOR BRAZILIAN EXPORTS STATISTICAL DEPURATION SYSTEM Presentation.
Knowledge-editing using WYSIWYM Richard Power & Donia Scott ITRI University of Brighton.
Acção de Formação A Biblioteca Escolar: Leitura e Literacia no 2º e 3º ciclos do Ensino Básico e Secundário Centro de Formação Júlio Brandão
Indirect Object Pronouns - Pronomes Pessoais Complemento Indirecto
OER LIFE CYCLE Andrew Moore and Tessa Welch.
Compiled Corpus transcribed spoken text scientific and academic text literary text Não foram fornecidas informações sobre o balanço destes confrontos Selva.
Tópicos Especiais em Aprendizagem Reinaldo Bianchi Centro Universitário da FEI 2012.
Fazendo e Brincando: Confecção de Materiais para as Aulas de Inglês
Definição do MoC Subjacente a Aplicação Prof. Dr. César Augusto Missio Marcon Parcialmente extraído de trabalhos de Axel Jantch, Edward Lee e Alberto Sangiovanni-Vincentelli.
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
The Present Perfect Tense
Knowledge Extraction from the Web (ISEWO)
Use to/ Used to There is a little confusion on how to use them. One reason for the confusion is that it is sometimes used as a verb, and sometimes used.
Revisões Sistemáticas da Literatura & Construção de Referenciais Teóricos Carlo Bellini PPGA/UFPB
Lecture 4 Pressure distribution in fluids. Pressure and pressure gradient. Hydrostatic pressure 1.
Lecture 2 Properties of Fluids Units and Dimensions 1.
CEManTIKA Framework Overview Vaninha Vieira Ana Carolina Salgado Patricia Tedesco
Introdução à Criptografia Moderna – 2ª Lista de Exercícios
Metodologia de Desenvolvimento de Software Hermano Moura Alexandre Vasconcelos, André Santos, Augusto Sampaio, Hermano Moura, Paulo.
Aceitacao Acceptance. Aceita a vida que Deus te deu. Accept the life God gave you.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa Ontology Building Process: The Wine Domain João Graça, Márcio.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa Understanding Epidemic Quorum Systems INESC-ID Lisbon/Technical.
Faculdade de Ciências Económicas e Empresariais Universidade Católica Portuguesa 15/09/2014Ricardo F Reis 6 th session: Financial Measures.
Ciências Cognitivas e Tecnologia Educacional Scaffolding of Self-Regulated Learning in Social Networks Scaffolding do Aprendizado Auto-Regulado em Redes.
Pesquisa de informação em corpora Tópicos de análise lexical e sintáctica Aula 2 Recursos disponíveis Seminário de Mestrado, 2011.
Desenvolvimento de Websites. SIMA 2011
IEEE PES General Meeting, Tampa FL June 24-28, 2007 Conferência Brasileira de Qualidade de Energia Santos, São Paulo, Agosto 5-8, Chapter 5: Harmonic.
P ERFECT V ERB T ENSES E NGLISH C LASSES Teacher Andreia Deluca.
Socio-technical approaches for Safety STAMP/STPA
Statement of the Problem The influence of technology in education is one of the priority subjects in Educational Research, in particular, the creation.
Curriculum analysis and design Belinda Maia University of Porto.
RELATÓRIO CEMEC 06 COMPARAÇÕES INTERNACIONAIS Novembro 2013.
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 2: Otimizando a modelagem para documentação Tiago Marçal Ricotta Gerente.
Unit l Verb to be.
VOCÊ JÁ FALA INGLÊS FLUENTEMENTE?
Faculdade de Ciências Económicas e Empresariais Universidade Católica Portuguesa 17/12/2014Ricardo F Reis 2 nd session: Principal –
Motivação A difícil tarefa de encontrar o conteúdo certo que preciso para as diferentes situações de trabalho…
How do you identify passives in Portuguese? Os jogos olímpicos são disputados a cada 4 anos. Mais um carro foi incendiado no Rio. O novo ar condicionado.
O que são os alertas do Google?
Learning english with comics …………….. Aprendendo inglês com quadrinhos.
Visão geral do Aprendizado de máquina
E.E.F. LUIZ BEZERRA DE PAULA – BARRA DO SOTERO – CROATÁ – CE. DISCIPLINA DE INGLÊS – 8° & 9° ANO. ESTUDO DA MÚSICA PERFECT ED SHEERAN PROFESSOR: LUIZ FILHO.
Workshop Pesquisa Acadêmica
Adição e Multiplicação
Introduction to Machine learning
Pesquisadores envolvidos Recomenda-se Arial 20 ou Times New Roman 21.
FORMAS VERBAIS II (TEMPOS PROGRESSIVOS, PERFEITOS)
Data Users Data Owners. Data Users Data Owners.
802.11p Recommendations Date:
Transcrição da apresentação:

Corpus analysis for indexing: when corpus-based terminology makes a difference Débora Oliveira Luís Sarmento Belinda Maia Diana Santos Linguateca

Corpus-based indexing of a specialized Web portal in PT & EN Interdisciplinary work –Information retrieval –Corpus-based terminology Corpógrafo –Web-based environment for terminology work Busca –Linguatecas site search engine

LINGUATECA Linguateca is a distributed language resource centre for Portuguese Aim: contributing to the quality of NLP resources for Portuguese Increasingly large website at since mid –Several on-line resources (corpora, tools, publications, etc) produced by Linguateca –Catalogue of resources produced by other researchers –1300 web documents and 2500 external links

Busca: a simple search engine A search-engine for our site: 1.Person Search (simple database query) 2.Publication Search (simple database query) 3.Simple keyword search (Free-text Search): Processing of rtf, ps and pdf files included Whole system based on CQP: Site as a corpus All words are alike: no TF/IDF, no document clustering, no terminological knowledge Search Systems 1 and 2 are OK but not System 3 (too naive! too simple...)

How could we improve Busca? Our group has an extensive experience in terminology Terminology and IR/search-engines seem a perfect-match –BUT terminology has not been widely accepted in IR Our question: is the knowledge of terminologically relevant units going to help us improve Busca? –At indexing stage –At query processing stage –At result ranking stage –...

Looking at Busca logs January April free-text searches queries: –Excluding own searches –Very few queries for more than 2 years!! Some statistics:

What was being searched in Busca? search string# Variaçoes10 Adjunto9 Cabeça8 Verbos7 Corpus5 corpus da folha de são Paulo5 linguagem natural5 Peniche5 registros doque é Conjuções coordenadas5 Sexo5 Tesouro5 Tradução5 Trail5 About4 Adjetivos4 Admir4 Árvore4 Autor4 Concordância4 Consultoria4 search string (2 or more tokens)# corpus da folha de são paulo5 linguagem natural5 Registros doque é Conjuções coordenadas5 creme de legumes4 ele é nada mais nada menos que um idiota4 há momentos4 lingua portuguesa 7%AA série4 o cortiço4 redação coerência e coesão4 singno linguistico4 Vanguardaeuropeia4 verbos irregulares3 adjunto adniminal3 cetem publico um milhao de palavras3 comparable corpora3 concordancia verbal3 dicionário técnico3 emprego do artigo3 ensino%2C portugues%2C lingua estrangeira3 floresta sintactica3

Search string # queries linguateca832 dicionario ingles portugues on line 812 literatura infantil 625 livrarias602 portugues para estrangeiros 582 priberam463 compara457 avalon451 editoras431 power translator 431 livrarias portugal 424 dicionario portugues ingles on line 392 dicionario portugues aurelio 391 português para estrangeiros 384 dinalivro381 dicionario portugues 360 curriculum vitae 349 dicionario portugues ingles 334 dicionario portugues on line 315 Enciclopedias310 What was being searched in Google to get to Linguatecas site? Word in search string# ocorrences de36151 portugues18102 dicionario14228 dicionário11725 ingles10920 download8757 português8419 on8270 line7966 para7941 em6746 da5612 inglês5349 do5063 e5054 online4953 portuguesa4230 lingua3350 tradução3034 Termos2895

Overview of queries found in logs Informatics in general –E.g.: CAD, Pascal, Java, Autocad 2000 Topics concerning Portuguese language (literature, grammar, use) –E.g.: figuras de estilo, verbos, Tipos de Sujeito Indeterminado e Oração sem Sujeito, verbo inacusativo, expressões idiomáticas. General tools or resources. –E.g.: corpora, dicionário, conjugador de verbos

Overview of queries found in logs Specific fields or knowledge domains. –E.g.: extracção de informação, terminologia, semântica lexical, Portuguese language history. Queries about specific tools or resources. –E.g.: Cetempúblico, Cetenfolha (two corpora from Linguateca), COMPARA, Corpógrafo Queries that seem to be intended for our on- line concordance tools rather than for the search engine. –E.g.: sem nada, "abonad.+", "ansioso para", porém (ocorrências).

Some conclusions All six cases suggest that users have: –different goals in mind –different knowledge about the content of the site Users ARE familiar with terminological units: –especially noun phrases –use them in search expressions naturally even if the TUs are inappropriate in respect to the content of our website Sometimes users type incomplete, ill-defined or misspelled terminological units.

Initial improvements for Busca Each document in the site should be indexed using only the TUs it contains Quite easy if complete list of TUs known: the Corpógrafo may help us in this! Knowing all possible variants and synonyms of a given TU For more problematic search strings (ambiguous, incomplete) > set of TUs suggesting re-formulation to user

Empirical work Subcorpus files in Portuguese Total number of tokens approximately 1M. Corpógrafo > extracted and manually validated 1209 TUs

Frequency and Distribution of the 1209 TUs extracted. The axis are set to logarithmic scale. Region 1 Region 3 Region 2

Explanation of chart Region 1: frequent but not widely distributed TUs. E.g.: modelo coclear, taxa de disparos - usually compound words. Region 2: frequent and widely distributed TUs. E. g.: análise, corpus, modelo, linguística, etc. - usually very generic TUs, and /or single words (they nevertheless have multiple possible modifiers). Region 3: where less frequent and less distributed TUs may be found. E.g.: verbo intransitivo, relação semâtica,vibração macromecânica.

Items to help searches Synonyms Portuguese (53 pair) - E.g.: adjectivo: adjetivo, bibliografia: documento: publicação; Translation equivalents between Portuguese- English (107 pairs)- E.g.: dicionário: dictionary; Synonyms English (23 pair)- E.g.: parsing system: parser; Acronyms in Portuguese and English (81)- E.g.: RI: Recuperação de Informação.

POSoccur.%Examples CN + ADJ50441,6vagueza grammatical, sumarização automática CN22618,7dicionário, gramática CN + PRP + CN17814,7sistema de tradução, sinal de fala PN524,3COMPARA, Corpógrafo CN + PRP + CN + ADJ373,1reconhecimento de dígitos isolados, resolução da ambigüidade lexical CN + PN352,9dicionário Aurélio, sistema Edite CN + PRP + CN + PRP + CN282,3arquitectura do sistema de interrogações, processo de aquisição de vocabulário CN + ADJ + PRP + CN201,7Legendagem automática de notícias, reconhecimento óptico de caracteres CN + PRP + PN191,6modelo de Kanis-Deboer, teorema de Bayes, rede de Elman Acronym/abbreviation141,2bd, cce, IA, lil CN + ADJ + PRP + CN + ADJ90,7processamento automático da linguagem natural, criação semi-automática de recursos lexicais CN + ADJ + PRP + PN30,2modelo auditivo de Seneff, modelo coclear de Goldstein Other POS structures847 The distribution of existing POS structures (ADJ – adjective; CN – common name; PN – Proper Name; PRP - Preposition)

Semantic Classification 1 Language resources. E.g.: corpora, CETEMPúblico, dicionário, Wordnet, COMPARA etc. Tools and systems. E.g.: anotador, analisador morfológico, Corpógrafo, etc. Actions and processes. E.g.: aquisição de vocabulário, extracção de terminologia, anotação de corpora.

Semantic Classification 2 Specific theories and models. E.g.: modelo auditivo de Seneff, algoritmo de Earley, etc. Linguistic concepts and phenomena. E.g.: polissemia, ambiguidade lexical, verbo incusativo, advérbio de tempo, adjectivo, etc. Disciplines or knowledge fields. E.g.: lexicografia, engenharia da linguagem, inteligência artificial, semântica lexical, etc.

Suggestions For: –Improvement of Buscas search capabilities –User satisfaction.

Easier searching Single words –Suggest possible modifiers of word –With names of resources > to resource – e.g. COMPARA Mechanism to cope with different varieties of spelling in Portuguese Lists of synonym lists, acronym lists and translation equivalents Clustering of results

More suggestions Semantic classification of keywords + pragmatic rules of thumb If interested in a particular technology/tool/resource, > systems that apply or implement such a technology or function E.g. - morphology > choice –scientific discipline –applications that deal with morphology (morphological analysers, stemmers, morphological generators, POS taggers) –specific systems that perform any of these tasks (Palavroso, PALMORF, etc.) – evaluation

More suggestions Manually select correct semantic classification of each TU (partially done) Automatic text categorization system Corpógrafo tools for finding semantic relations and building thesaurus/ontologies for helping navigation ETC

Conclusions on Interdisciplinary work Requires –Mutual understanding –Tolerance –Mental gymnastics Exemplified here with –Computer science –Computational linguistics –Terminology

Thank You! Contact: – – Débora Oliveira: Luís Sarmento: Belinda Maia: Diana Santos: