Setting up for Corpus Lexicography Adam Kilgarriff, Jan Pomikalek, Pete Whitelock LCL & OUP.

Slides:



Advertisements
Apresentações semelhantes
Presenter’s Notes Some Background on the Barber Paradox
Advertisements

RCAAP Project João Mendes Moreira, FCCN Berlin 7, Paris, 04/12/2009.
São Paulo - November 7, 2013 Measuring the Cost of Formalization in Brazil © 2003 The Ronald Coase Institute Adopting RCI methodology to measure start.
Euro IT Technology Car Rental Management Software
Chapter Six Pipelining
INPAs insights on LBA (and its role as the coordinating institution): (based on and the message from INPAs General Director, Dr Adalberto Val, and on former.
Circuitos Lógicos e Organização de Computadores Capítulo 6 – Blocos com Circuitos Combinacionais Ricardo Pannain
1/7/ Introducing the Personal Studies for New Christians curriculum Introduzindo o Currículo dos Estudos Pessoais para Novos Cristãos By Por David.
The portuguese public universities José Marques dos Santos Vice-President of the Council of Rectors of Portuguese Universities (CRUP) Rector of University.
III REUNIÃO DE COORDENAÇÃO REGIONAL DA BVS Lewis Joel Greene Editor Brazilian Journal of Medical and Biological Research Medical School of Ribeirão Preto.
Ciência Robert Sheaffer: Prepared Talk for the Smithsonian UFO Symposium, Sept. 6, 1980.
MC542 Organização de Computadores Teoria e Prática
April 05 Prof. Ismael H. F. Santos - 1 Modulo II Findbugs Professor Ismael H F Santos –
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
Auditoria de Segurança da Informação
GT Processo Eletrônico SG Documentos Eletrônicos Segunda reunião – 28/08/2009 Interlegis.
FLUP - Elena Zagar Galvão Faculdade de Letras da Universidade do Porto Mestrado em Tradução e Serviços Linguísticos COMUNICAÇÃO ESPECIALIZADA INTRODUÇÃO.
Knowledge-editing using WYSIWYM Richard Power & Donia Scott ITRI University of Brighton.
Provas de Concursos Anteriores
SENIB. SENIB SENIB AMANDO UNS AOS OUTROS POR QUE AMAR É IMPORTANTE? AMANDO UNS AOS OUTROS POR QUE AMAR É IMPORTANTE?
Indirect Object Pronouns - Pronomes Pessoais Complemento Indirecto
Componente de Variação EXEMPLO de APLICAÇÃO com o Programa Minitab valores de RU obtidos no ensaio de microtração Componente de Variação EXEMPLO de APLICAÇÃO.
Criação de objetos da AD 1Luis Rodrigues e Claudia Luz.
Norman de Paula Arruda Filho / ISAE The New Role of Management Education A Brazilian Experience NORMAN DE PAULA ARRUDA FILHO Buenos Aires, 6 de dezembro.
OER LIFE CYCLE Andrew Moore and Tessa Welch.
Compiled Corpus transcribed spoken text scientific and academic text literary text Não foram fornecidas informações sobre o balanço destes confrontos Selva.
Tópicos Especiais em Aprendizagem Reinaldo Bianchi Centro Universitário da FEI 2012.
Números de 0 a 1,000,000,000 É uma dúvida de muitos estudantes do nível básico como dizer os números em inglês. Segue abaixo a lista de 0 a 1,000,000,000.
1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.
Webots Pedro Pinheiro 12 de Novembro de Webots Pedro Pinheiro 12 de Novembro de 2004 Prepared by: Pedro Pinheiro.
Definição do MoC Subjacente a Aplicação Prof. Dr. César Augusto Missio Marcon Parcialmente extraído de trabalhos de Axel Jantch, Edward Lee e Alberto Sangiovanni-Vincentelli.
Salas de Matemática.
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
Knowledge Extraction from the Web (ISEWO)
Use to/ Used to There is a little confusion on how to use them. One reason for the confusion is that it is sometimes used as a verb, and sometimes used.
Avaliação Constituição dos grupos de trabalho:
Lecture 4 Pressure distribution in fluids. Pressure and pressure gradient. Hydrostatic pressure 1.
Lecture 2 Properties of Fluids Units and Dimensions 1.
Registro de Oportunidade
Análise Sintática – Parte 1
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Probabilidades e Combinatória Distribuição de Probabilidades
2010 New Years Trip to Argentina and Brazil Trip Sponsored by.
Portugal: Convergência Real Para a União Europeia Abel Moreira Mateus Outubro 2000.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa Understanding Epidemic Quorum Systems INESC-ID Lisbon/Technical.
SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo de Probabilidades. Regra de Laplace. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.
SairPróximo Itens de Seleção Probabilidades e Combinatória Cálculo Combinatório. Problemas de Contagem. ITENS DE SELEÇÃO DOS EXAMES NACIONAIS E TESTES.
Intercutural studies. Brazil has many schools prepared to receive students in other coutries coming to the exchange student.
Lei de Cotas: Looking at the Implementation of the Brazilian Employment Quota in São Paulo, Brazil Anna C. O’Kelly.
Ambrósio et al e-POSTER Enhanced Screening for Refractive Candidates based on Corneal Tomography and Biomechanics Renato Ambrósio Jr., MD, PhD Ruiz Alonso,
VOCÊ JÁ FALA INGLÊS FLUENTEMENTE?
IEEE PES General Meeting, Tampa FL June 24-28, 2007 Conferência Brasileira de Qualidade de Energia Santos, São Paulo, Agosto 5-8, Chapter 8: Procedure.
Marca do evento Calendário de reuniões e encontros para o ano de 2011 Calendário 2011.
Rio Verde - Goiás - Brasil
3ª sessão e Sumário Comunicação intercultural: 1. a noção de cultura 2. língua e identidade 3. fatores “verticais” e.
Communicate - Trade - Culture William Barron Mobile/Cell –
MODALIZAÇÕES. MODALIZAÇÃO  Para expressar graus de probabilidade e de frequência em afirmações ou perguntas, temos à disposição inúmeros operadores modais.
Sec 3.6 Determinants. TH2: the invers of 2x2 matrix Recall from section 3.5 :
Pesquisa Operacional aplicada à Gestão de Produção e Logística Prof. Eng. Junior Buzatto Case 3.
Learning english with comics …………….. Aprendendo inglês com quadrinhos.
Internationalization
Top-Down Parsing Teoría de Autómatas y Lenguajes Formales
Developing a Hypothesis
Simple Present Tense. . In English the Simple Present is used to express actions that are made with a certain frequency, like go to school, work, study…
PERS 2002 Satish Nargundkar
Introduction to density estimation Modelação EcoLÓGICA
Pesquisadores envolvidos Recomenda-se Arial 20 ou Times New Roman 21.
shut up! Go on! Multi-word verbs Hold on, please! Look out!
DISCOURSE STUDIES (ESTUDOS DISCURSIVOS)
Friday, March 22, 2019 (1 week from …)
Transcrição da apresentação:

Setting up for Corpus Lexicography Adam Kilgarriff, Jan Pomikalek, Pete Whitelock LCL & OUP

Premise Corpus technology can support lexicography making it more accurate more consistent faster Rundell and Kilgarriff 2011 Automating the creation of dictionaries in Sylviane Granger’s Festschrift This paper – A case study

A new Portuguese dictionary OUP Pt-En and En-Pt 40,000 headwords on each side Pt-En starts from – Dictionary Medium-sized Pt-Dutch – Corpus blank sheet

Agenda 1.Collect corpus 2.Process with best tools 3.From parser output to corpus system input 4.Finding good examples 5.Regional variants

Status 1.Collect corpus 2.Process with best tools 3.From parser output to corpus system input 4.Finding good examples 5.Regional variants

Corpus collection Big and diverse 100m not big enough – 40,000 headwords – 40,000th word in BNC: 27 hits

Where from? Web Quantity – Yeah Quality – As good or better Keller and Lapata 2003, Sharoff 2006, Baroni et al 2009

How? New linguistics-specialist crawler – Was Heritrix, next time: Spiderling Other talk Cleaning including language-identification – jusText Pomikalek thesis Deduplication – Onion Pomikalek thesis

Processing tools Reviewed options – Best: Palavras Bick ongoing development since – Contacted author, negotiated licence – Installed – Applied to 2b words

Vast process Parsing is usually slow - would it take years? Parallelised in 12 processes Many bugs encountered, resolved with developers Crashed on many input files – leave them out Final run: 15 days

Corpus creation stats EuropeanBrazilian HTML data downloaded1.10 TB1.37 TB Unique URLs31.5 million39.1 million Crawling time8 days10 days Final corpus size (words)0.7 billion1.0 billion

From dependency parse to word sketch Palavras: dependency parser Output for each word – Lemma, pos tag – “my governor is word N” – “relation is …” Like CONLL output SKEW-2, Siva Reddy – Word sketches from CONLL format data

To get better word sketches Parser output and lexicographic word sketches – Not quite the same Anomalies in parser output Large project 15

Preposition-article contractions satisfação [satisfação] N F 17 de [de] 19 os [o] DET M #21->23 nossos [nosso] DET M #22->23 clientes [cliente] N M satisfação satisfação N F:S 14,V obj %w_N/%w_V obj 20 dos de PRP 19,NIL/%w_N dep PRP 21 nossos nosso DET M:P 22,NIL/DET spec_of %w_N 22 clientes cliente N M:P 19,N _de_ %w_N/%w_N _de_ N

Verb form reconstruction Deveria- [dever] V COND 3S #1->0 se- [se] PERS M/F 3S/P 1 começar [começar] V 1 1 Dever-se-ia dever V COND:3S:VFIN 1,REFL-SUBJ 2 começar começar V INF 1,V comp %w_V/%w_V comp V

Multi-word unpacking A=Comunidade=de=Direitos=Humanos [A=Comunidade=de=Direitos=Humanos] PROP F #2->0 2 A o DET F:S 3,NIL/DET spec_of %w_N 3 Comunidade comunidade N F:S 4 de de PRP 3,NIL/%w_N dep PRP 5 Direitos direito N M:P 3,N _de_ %w_N/%w_N _de_ N 6 Humanos humano ADJ M:P 5,N mod %w_ADJ/%w_N mod ADJ

Trinary Relations/Coordination um [um] DET M #17->18 simulador [simulador] N M 0 de [de] 18 inclinação [inclinação] N F 19 e [e] #21->20 direção [direção] N F um um DET M:S 18,NIL/DET spec_of %w_N 18 simulador simulador N M:S 19 de de PRP 18,NIL/%w_N dep PRP 20 inclinação inclinação N F:S 18,N _de_ %w_N/%w_N _de_ N 21 e e KC 22 direção direção N F:S 18,N _de_ %w_N/%w_N _de_ N; 20,N e|ou %w_N/%w_N e|ou N

Control relations não [não] #3->4 é [ser] V PR 3S IND #4->0 viável [viável] ADJ F 4 sua [seu] DET F #6->7 aplicação [aplicação] N F 4 3 não não ADV 4,%w_ADV mod_of V/ADV mod_of %w_V 4 é ser V PR:3S:IND:VFIN 7,N subj_of %w_V/%w_N subj_of V 5 viável viável ADJ F:S 4,V dep %w_ADJ/%w_V dep ADJ; 7,N subj_of %w_ADJ/%w_N subj_of ADJ 6 sua seu DET F:S 7,NIL/DET spec_of %w_N 7 aplicação aplicação N F:S

Reanalysis variados [variar] V PCP M #21->22 aspectos [aspecto] N M 17 de [de] 9 a [o] DET F #24->25 tecnologia [tecnologia] N F variados variar V PCP:M:P 21 aspectos aspecto N M:P 35,N subj_of %w_N/%w_N subj_of N 22 da de PRP 21,NIL/%w_N dep PRP 23 tecnologia tecnologia N F:S 21,N _de_ %w_N/%w_N _de_ N

Lemmatization Old spellingNew spelling actoato carbónicocarbônico cabeça-de-burrocabeça de burro concetualconceptual auto-sugestãoautossugestão Female formMale form amigaamigo

GDEX Good dictionary example finder Customise for Portuguese – Follow Slovene lead

Regional variation European vs Brazilian Method – Keyword list of each vs other – If in top 1%: add note to word sketch