Automatic Syntactic Annotation Eckhard Bick. Taggers and parsers for Portuguese ● PALAVRAS: CG-based robust DG & PSG parser

Slides:



Advertisements
Apresentações semelhantes
Chapter Five The Processor: Datapath and Control (Parte B: multiciclo)
Advertisements

Gerenciamento Baseado em Políticas
A.4. Trabalhando com elementos de biblioteca STL – Standard Template Libraby Disponibiliza um conjunto de classes templates, provendo algoritmos eficientes.
FLUP - Elena Zagar Galvão Faculdade de Letras da Universidade do Porto Mestrado em Tradução e Serviços Linguísticos COMUNICAÇÃO ESPECIALIZADA INTRODUÇÃO.
Ecological Economics Lecture 6 Tiago Domingos Assistant Professor Environment and Energy Section Department of Mechanical Engineering Doctoral Program.
Compiled Corpus transcribed spoken text scientific and academic text literary text Não foram fornecidas informações sobre o balanço destes confrontos Selva.
Thresholding, Otsu Trabalho 2 - CG.
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
Avaliação Constituição dos grupos de trabalho:
Lecture 4 Pressure distribution in fluids. Pressure and pressure gradient. Hydrostatic pressure 1.
Lecture 2 Properties of Fluids Units and Dimensions 1.
Setting up for Corpus Lexicography Adam Kilgarriff, Jan Pomikalek, Pete Whitelock LCL & OUP.
WG 47 New frontiers of DGA interpretation Reunião Cigré D1 – 24/01/2012 Representantes do D1.01 Brasil: Adriana de Castro Passos Martins – CEMIG Jayme.
VOCÊ JÁ FALA INGLÊS FLUENTEMENTE?
IEEE PES General Meeting, Tampa FL June 24-28, 2007 Conferência Brasileira de Qualidade de Energia Santos, São Paulo, Agosto 5-8, Chapter 8: Procedure.
JUSTIFICATIVA DO PROGRAMA. NÍVEL A SER ATINGIDO Speakers at the Superior level are able to communicate in the language with accuracy and fluency in order.
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 3: Utilizando Legends Tiago Marçal Ricotta Gerente de Projetos – Brasoftware.
Desenvolvimento Empresarial Aula 6 – Business Process Modeling Notation – Parte 3 Prof.: Guilherme Amorim Data: 28/03/2014.
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 6: Quantitativos de áreas precisos Tiago Marçal Ricotta Gerente de Projetos.
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 5: Trabalhando em colaboração Tiago Marçal Ricotta Gerente de Projetos –
Autodesk Revit para projetos executivos de arquitetura Módulo 4: Representação gráfica de diversas fases Tiago Marçal Ricotta Gerente de Projetos – Brasoftware.
Cigré/Brasil CE B5 – Proteção e Automação Seminário Interno de Preparação para o Colóquio de Madri 2007 Rio de Janeiro, outubro/07.
MAC Engenharia de Software Marco A. GerosaIME / USP Mais sobre análise e Outros Diagramas UML MAC0332 Engenharia de Software Marco Aurélio Gerosa.
Thesaurus Design (from analised corpora) Pablo Gamallo, Alexandre Agustini, G.P. Lopes GLINt (Gupo de Lingua Natural)
Seleção de Gabaritos TBL usando Algoritmos Genéticos
Redes Sociais Online ISCTE – Instituto Universitário de Lisboa MCCTI Mónica Oliveira 13 de Março de 2013.
Communicate - Trade - Culture William Barron Mobile/Cell –
Universidade de Brasília Laboratório de Processamento de Sinais em Arranjos 1 Adaptive & Array Signal Processing AASP Prof. Dr.-Ing. João Paulo C. Lustosa.
Adriano Melo IDE Eclipse + Subclipse Link para download: \\cin01\scratch_astm$\eclipse.zip
SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.
APPLICATIONS OF DIFFERENTIAL EQUATIONS - ANIL. S. NAYAK.
Metade das crianças fazem de tocas, ficam em pé com as pernas afastadas. A outra metade + 1, são os coelhos que correm à volta da toca. Um aluno é.
Abril 2016 Gabriel Mormilho Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Departamento de Administração EAD5853 Análise.
Automatic Syntactic Annotation Eckhard Bick University of Southern Denmark Institute of Language and Communication
Pesquisa Operacional aplicada à Gestão de Produção e Logística Prof. Eng. Junior Buzatto Case 3.
“Eles não aprendem português quanto mais inglês” Moita Lopes, L.P Oficina de Linguística Aplicada Mercado de Letras. pp
Part I Object of Plasma Physics BACK. I. Object of Plasma Physics 1. Characterization of the Plasma State 2. Plasmas in Nature 3. Plasmas in the Laboratory.
WEEK 23 WRITING/PEER EVALUATION PSTDP THURSDAY.
Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem.
Planejamento de Próteses Endoluminais Personalizadas Através da Reconstrução 3D de Aneurismas de Aorta Herculano De Biasi Aldo v. Wangenheim Pierre Galvagni.
Equação de Evolução e método do volume-finito.
Visão geral do Aprendizado de máquina
Continuations Programação Funcional Avançada Vítor De Araújo
Carriage of methicillin-resistant Staphylococcus aureus in children in Brazil  Juliana Lamaro-Cardoso, Mariana Castanheira, Renato Mauricio de Oliveira,
Trainers and Co-Trainers
Split clique graph complexity
The Monkey’s Paw Introducing the Short Story Literary Analysis: Mood
English II Week August 31, nd semester
Escoamentos Turbulentos Reativos/ Turbulent Reactive Flows
Subway Network - São Paulo City
Thiago Souza Support Engineer 25 de Abril, 2017
Naja Slides YoungAt Heart Sinatra Som.
Three analogies to explain reactive power Why an analogy? Reactive power is an essential aspect of the electricity system, but one that is difficult to.
MOBILE LEARNING IN HIGHER EDUCATION:
Fundamentos da Tradução em Língua Inglesa
CEManTIKA Framework Overview
My Way - Frank Sinatra And now, the end is here E agora o fim está próximo, And so I face the final curtain E então eu.
Tópicos Avançados em Engenharia de Software
Top-Down Parsing Teoría de Autómatas y Lenguajes Formales
My Way - Frank Sinatra And now, the end is here E agora o fim está próximo, And so I face the final curtain E então eu.
Introduction to Machine learning
Estratégias de leitura
Rapid Deployment Solution Real Estate Q1 and Q Best Practice Flow Diagrams.
Introduction to density estimation Modelação EcoLÓGICA
Pesquisadores envolvidos Recomenda-se Arial 20 ou Times New Roman 21.
Why Moringa Delight? Perfection in Growing and Processing We produce the highest quality Moringa under perfect growing conditions on the largest Moringa.
DISCOURSE STUDIES (ESTUDOS DISCURSIVOS)
Quality control of marker dataset
Transcrição da apresentação:

Automatic Syntactic Annotation Eckhard Bick

Taggers and parsers for Portuguese ● PALAVRAS: CG-based robust DG & PSG parser (Bick 2000) ● Curupira: Robust syntactic parser, based on ranked and constrained ReGra PSG rewriting rules (Martins, Hasegawa & Nunes 2002) ● QTAG-based PoS-tagger for Brazilian Portuguese, trained on 500M words, Precision =93% (Sardinha & Lima-Lopes) ● FreP - Phonlological analysis at the word level and below ● GojolParser DG & PSG, commercial, calls itself the best (error rate < 1%) ● Hermes - Tokenizer and PoS tagger (FURG, open source) ● jspell - morphological analyzer (Projecto Natura - U.Minho, Linguateca...) ● LX-Suite - lemmatizer and PoS tagger, parser (LX-Gram planned for syntax - (NLX group, University of Lisbon) ● PoSiTagger - symbolic PoS tagger (Aires & Aluísio 2000) ● TreeTagger - a language independent PoS tagger (Schmid & Stein) stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html, trained for Portuguese (Pablo Gamallo) stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html ● Xerox PoS tagger - twol with HMM-disambiguation

Syntactic annotation styles ● Focus on syntactic form – Phrase structure grammar (PSG) -> labelled brackets – Dependency grammar (DG) -> labelled arcs ● Focus on syntactic function – Constraint grammar (CG) -> dependency pointers ● Focus on semantic function – Case roles (Filmore) – Lexical Functional Grammar (LFG)

Syntactic models 1. The flat classical model: word function, no form O meu hipopótamo não come peixe. S A V O ● word-based ● psychologically easy to grasp ● function markers attached to semantically heavy words ● easy to turn into tags: OarticlePRE-N meudeterminerPRE-N hipopótamonounS nãoadverbA comeverbV peixenounO

2. Dependency grammar ● strictly token based – expresses syntactic form as asymmetrical relations (“arcs”) between head tokens and dependent tokens – no zero tokens, no nonterminal nodes ● each dependent is allowed 1 head (exc. secondary arcs) ● directed acyclic graphs ● projective or non-projective (crossing branches / discontinuity) Omeuhipopótamonãocomepeixe.

Dependency grammar annotation O #1->3 último #2->3 diagnóstico#3->9 elaborado #4->3 por #5->4 a #6->7 Comissão=Nacional=do=RMG #7->5 não #8->9 deixa #9->0ROOT dúvidas #10->9 O último diagnóstico elaborado por a Comissão=Nacional=do=RMG não deixa ROOT dúvidas

Dependency grammar as trees deixa diagnósticonãodúvidas Oúltimoelaborado por Comissão Nacional do RMG a

Dependency grammar with brackets “a la PSG”, e.g. TIGER ● Penn-style: [V come [N hipopótamo [ART o][DET meu]] [A não] [N peixe]] ● Vertical: [V come [N hipopótamo [ART o] [DET meu] ] [A não] [N peixe] ]

3. Constituent Grammar ● hierarchical word grouping with non-terminals ● syntactic form, no (or implicit) function ● expressed by rewriting rules, where a nont-terminal node is rewritten as a sequence of non- terminals and terminals (words or word classes) Pure Constituent Grammar:

Classical PSG with phrase labels V | deixa N | diagnóstico ADV | não N | dúvidas ART | O ADJ | último V-PCP | elaborado PRP | por PROP | Comissão Nacional do RMG ART | a NP PCL PP NP S (VP)

PSG annotation ● Penn Treebank bracketing: Labeling opening brackets – [NP A minha irmã] [VP não fala [PP com [NP as amigas]]] ● SUSANNE Treebank bracketing: Labeling all brackets (cf. EAGLES) – [NP A minha irmã NP] [VP não fala [PP com [NP as amigas NP] PP] VP] ● Vertical indented (her with part of speech on one line): – [NP [Art A] [Det minha] [N irmã] NP] [VP [Adv não] [V fala] [PP [Prp com] [NP [Art as] [N amigas] NP] PP] VP]

Adding function: ● Dependency Grammar with function: adding function (“edge labelse”) to dependency arcs deixa diagnósticonão dúvidas Oúltimoelaborado por Comissão Nacional do RMG a DN DP PASS DN S fA Od

● Constituent Grammar with function: – NEGRA, TIGER: cat labels (mother) vs. edge label (daughter

● Constituent Grammar with function: – VISL (function:form labels for each node) STA:cl S:np =DN:artO =H:n governo =DN:prop Cardoso P:v-fin A:pp =H:prpcom =DP:np ==DN:arta ==H:ncrise Vertical Notation: Graphical Notation:

4. Constraint Grammar (CG) ● CG as a descriptive paradigm – function-first approach with token-based function tags – Classic CG: shallow depedency (attachment direction, head type) – depth and constituents only implicitly marked to head type: N) pointer without head type) node)

● CG as a methodological paradigm – reductionist: focus on disambiguation, constraints as to what is not allowed in a given context – progressive level annotation: same method and tag-based annotation for ever higher linguistic levels ● lexicon -> morphology -> PoS disambiguation syntactic potential/mapping -> syntactic disambiguation -> precise attachment, case roles, clause bounderies, semantic classes, valency instantiation.... REMOVE (VFIN) (*-1C CLB-WORD) (*1C VFIN BARRIER CLB OR KC) MAP TARGET N/PROP (*-1 >>> BARRIER NON-PRE-N) (1C VFIN)

Adding full numbered dependency O DET M último ADJ M diagnóstico N M elaborado V PCP2 M 3 por 4 a DET F Comissão=Nacional PROP F 5 não deixa V PR dúvidas N F 9 $.#11->0 ● Integrated formalism: FDG ● Add-on attachment rules: ( ) IF --> (VFIN) IF (R) --> (N,PROP,PERS,INDP,¤NP-HEAD) IF (L) HEADCHILD=( )