Thesaurus Design (from analised corpora) Pablo Gamallo, Alexandre Agustini, G.P. Lopes GLINt (Gupo de Lingua Natural)

Slides:



Advertisements
Apresentações semelhantes
HISTÓRIAS DAS TECNOLOGIAS DA INFORMAÇÃO
Advertisements

Conceitos de Lingüística Aplicada
To be, or not to be? Patrícia Zanin
Estudo sobre normas e emoções (proposta de trabalho)
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Trocadores de Calor Prof. Gerônimo.
Vetor da rede recíproca.
a VERLAG DASHÖFER apresenta:
“Cenários para a economia em 2014”
Conquista do Paraíso Conquest of Paradise Não é necessário clicar.
Much more than a game It´s a visual thing: audio-visual techology in education.
Journal New Research Music – 2012 Citado por 3 artigos Alex Amorim Dutra Jason Weston, Samy Bengio, and Philippe Hamel Google, USA.
Avaliação Constituição dos grupos de trabalho:
Objetivo: Como usar vídeos em suas aulas.
Introdução à Criptografia Moderna – 2ª Lista de Exercícios
Gestão de Operações ( Operations Management ) Especialização em Gestão da Produção Profs. Jorge Muniz e Valério Salomon Col.: Marco Aurélio e Ricardo “Taiúva”
PROJETO COMENIUS: ESPAÇO DE PARTILHA! CURSO Projeto Comenius DATA SET.2013 AUTOR/A Luzia Silva | Professora A comunidade escolar encontra-se a trabalhar.
Amazing Scanning Electron Microscope Photos... Awesome! All these pictures are from the book ' Microcosmos,' created by Brandon Brill from London. This.
ESCOLA SÃO JOÃO DE DEUS LISBON, PORTUGAL. OUR SCHOOL IS IN LISBON, CAPITAL OF PORTUGAL. A NOSSA ESCOLA FICA EM LISBOA. This Is Our Neighborhood… Bairro.
HABITS.
RELATIVE PRONOUNS WHO ( Pessoa + who + verbo)
Organização e Realização: SBPT Apoio: SPPT Porque é importante a avaliação interdisciplinar no contexto dos distúrbios respiratórios do sono? Lia Rita.
Combining Population and Environmental Data A Typology Approach based on Patterns and its Generative Processes Trajectories Building up Trajectories of.
Present Continuous.
AWL WORDS.
Plataforma Java 2 - Micro Edition (J2ME) Prof. Afonso Ferreira Miguel, MSc.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
fábrica de software conceitos, idéias e ilusões
Gabinete de Promoção dos Programa Quadro ID&I Presentation Title Name, Organisation, Type of organisation (SME, research centre, university, industry,
Manuel L. Esquível Departamento de Matemática Faculdade de Ciências e Tecnologia (FCT) Universidade Nova de Lisboa (UNL) & C.M.A.F. - U.L.
Eduardo Beira Coordenação: Eduardo J C Beira Professor, Departamento de Sistemas de Informação, Universidade do Minho HISTÓRIAS DAS TECNOLOGIAS DA INFORMAÇÃO.
Filipe Carvalho.
Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL.
3ª sessão e Sumário Comunicação intercultural: 1. a noção de cultura 2. língua e identidade 3. fatores “verticais” e.
© 2012 Autodesk Utilizando Suites Workflow - Autodesk Revit para o Autodesk 3ds Max Design Módulo 1 – Configurando o Suites Workflow Mauricio Antonini.
© 2012 Autodesk Utilizando Suites Workflow - Autodesk Revit para o Autodesk 3ds Max Design Módulo 2 – Performance na Exportação Mauricio Antonini Especialista.
POSSESSIVE ADJECTIVES
Language skills – a standard level of proficiency Defined according to the Common European Framework of reference for languages.
O Computador Universal. Bibliografia Base Artigo “Turing Machine” por James Moor em Encyclopedia of Computer Science (4a Edição). Bib. FCT/UNL: QA
Randomized Algorithms Eduardo Laber Loana T. Nogueira.
Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material informático.
MAC Engenharia de Software Marco A. GerosaIME / USP Mais sobre análise e Outros Diagramas UML MAC0332 Engenharia de Software Marco Aurélio Gerosa.
Produção escrita dos alunos do 6 º ano A, B, C, D Língua Inglesa / STEP 2 Prof a Cláudia Caramelo e Prof o Flávio Coordenação: Carla Naves.
Seleção de Gabaritos TBL usando Algoritmos Genéticos
Broadcasting in Brazil Octavio Penna Pieranti Director/Secretariat of Electronic Communications Ministry of Communications WIPO Meeting on South-South.
Fábrica de software princípios, conceitos, e ilusões
Grupo de Trabalho: Maria de Fátima Gonçalves Pedro Silva Pierre Maibwe Sociedade Pós-capitalista Drucker, Peter (2003) Lisboa: Actual Editora Curso de.
O Professor de Inglês Aprendendo e Ensinando
Redes Sociais Online ISCTE – Instituto Universitário de Lisboa MCCTI Mónica Oliveira 13 de Março de 2013.
PSTDP Week 20 Thursday Reading/Writing.
“ The Counterculture to Cyberculture : Community Discourse and the Dilemma of Modernity” Sorin Adam Matei Department of Communication Purdue University.
William Hudson Tridente ambíguo My Wife and my Mother in Law - W.E. Hill, 1915.
You´re half a world away Você está meio mundo distante Standing next to me Parado próximo a mim It seems that every day Parece que todos os dias I´m.
© 2007 IBM Corporation Academic Initiative 07/05/07 Aula 2 – Parte 1: Java Basics Autores: Argemiro José de Juliano Marcos
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa technology from seed Using subtitles to deal with.
They try to tell us we´re too young Tentam nos dizer que somos muito jovens Too young to really be in love Jovens demais pra amar They say that love´s.
A RTICLES IN ENGLISH Donesca. THE Artigo definido usado antes de substantivos no plural ou no singular que são específicos ou particulares. Uma coisa.
AULA 2 Estudos de intervenção
Aula 6 – Um Jogo simples de desmatamento Tiago Garcia de Senna Carneiro (UFOP) Gilberto Câmara (INPE)
1 102nd Workshop Reflexão sobre a Ação: O Professor de Inglês Aprendendo e Ensinando PUC -D.
O FADO Diogo Lopes 4º ano 4th grade. O fado é um símbolo mundialmente reconhecido de Portugal e tem um significado de destino e saudade. É esta última.
CARACTERIZAÇÃO DE BAIRROS URBANOS EM IMAGENS DE ALTA RESOLUÇÃO ESPACIAL UTILIZANDO SISTEMA DE CLASSIFICAÇÃO BASEADO EM CONHECIMENTO Carolina Moutinho Duque.
Dinâmicas e Trajectórias de Mudança Social: o papel da Ciência e dos Cientistas Anália Torres CIES/ISCTE Presidente da European Sociological Association.
Neutralidade da Rede Liberdade de Expressão e o Marco Civil Carlos Affonso
Apresentação Catálogo de Consulta Rápidas
Audiência Comissão Parlamentar de Saúde
TAKEAWAYS MY 8 KEY FROM THE SUPER INSIGHTFUL Q&A WITH GARY VEE.
Me and my family Hi there!
Ver Filme: Não Legendado Legendado
DISCOURSE STUDIES (ESTUDOS DISCURSIVOS)
Transcrição da apresentação:

Thesaurus Design (from analised corpora) Pablo Gamallo, Alexandre Agustini, G.P. Lopes GLINt (Gupo de Lingua Natural) FCT, Universidade Nova de Lisboa

fine  sanction president  secretary small  big ministery  minister banc  organisation Thesaurus design Linguistic goals

Thesaurus design Proprieties  Distribucional Hypothesis: Words sharing similar contexts are semantically related  Domain specific corpus  Types of context: simple co-occurrence (bigrams) co-occurrence within a window (n-grams) syntactic structures

Thesaurus design Steps  Extraction of syntactic contexts from the corpus  Similarity measure between words (based on their syntactic contexts)  For each word, identify its most similar words

Extraction of syntactic contexts  Tagging (PoS tags)  Chunking (parsing in basic chunks)  Attachment heuristics  Identification of binary dependencies  Extraction of syntactic contexts

Clinton sent a clear message to the president of Portugal Tagger: Clinton_N sent_V a_ART clear_ADJ message_N to_PREP the_ART authorities_N of_PREP Portugal_N Tagging and chunking Chunking: NP (Clinton) VP (send) NP (message, clear) PP (to, NP(authority)) PP (of, NP(portugal))

Attachment Heuristics and Syntactic Dependencies Attachment of Basic Chunks: Binary Dependencies:

Syntactic Contexts : : :

Binary Jaccard coefficient Similarity Measure Binary Jaccard coefficient The similarity between two words relies on: The ratio between the number of contexts that are common to both words and the total number of their contexts.

Weighted Jaccard coefficient Similarity Measure Weighted Jaccard coefficient

MicroCorpus Pedro is reading a book and Maria is reading a book, Pedro is reading a novel and Maria read a novel yesterday, Pedro is reading a lot of things, but Pedro loves Maria, Maria loves books, in fact Maria loves a lot of things. Maria is eating an apple and Pedro is eating an apple too, Pedro eated eggs yesterday, Pedro eats a lot of things, Maria is eating eggs, Maria loves eggs a lot.

Thesaurical relations between names Pedro  Maria book  novel apple  egg thing  book, egg, apple, novel (book  egg)? (Maria  thing)?? (Pedro  egg)???

Extracting syntactic contexts of names Pedro : (, 3) (, 1) (, 3) Maria : (,2) (, 3) (,2) (,1) novel : (,2) book : (,3) (,1) thing : (,1) (,1) (,1) apple : (,2). egg : (,2) (,1)

Computing the weigth of a context for each word (1): Pedro: (, 3) GW( ) = log (3/3 + 2/4) / log(2) = 0.17 / 0.3 = 0.56 LW(Pedro, ) = log(3) = 0.47 W(Pedro, ) = 1.03 Pedro: (, 1) GW( ) = log (1/3 + 3/4) / log(2) = / 0.3 = 0.11 LW(Pedro, ) = log(1) = 0 W(Pedro, ) = 0.11 Pedro: (, 3) GW( ) = log (3/3 + 2/4) / log(2) = 0.17 / 0.3 = 0.56 LW(Pedro, ) = log(3) = 0.47 W(Pedro, ) = 1.03

Computing the weigth of a context for each word (2): Maria: (, 2) GW( ) = log (3/3 + 2/4) / log(2) = 0.17 / 0.3 = 0.56 LW(Maria, ) = log(2) = 0.3 W(Maria,, ) = 0.86 Maria: (, 3) GW( ) = log (1/3 + 3/4) / log(2) = / 0.3 = 0.11 LW(Maria, ) = log(3) = 0.47 W(Maria, ) = 0.58 Maria: (, 2) GW( ) = log (3/3 + 2/4) / log(2) = 0.17 / 0.3 = 0.56 LW(Maria, ) = log(3) = 0.3 W(Maria, ) = 0.86 Maria: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(Maria, ) = log(1) = 0. W(Maria, ) = 0.31

Computing the weigth of a context for each word (3): novel: (, 2) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(novel, ) = log(2) = 0.3 W(novel, ) = 1.45 book: (, 3) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(book, ) = log(3) = 0.47 W(book, ) = 1.62 book: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(book, ) = log(1) = 0. W(book, ) = 0.31

Computing the weigth of a context for each word (4): thing: (, 1) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(thing, ) = log(1) = 0 W(thing, ) = 1.15 thing: (, 1) GW( ) = log (1/3 + 2/1 + 2/2) / log(3) = 0.52 / 0.47 = 1.1 LW(eat, ) = log(1) = 0 W(book, ) = 1.1 thing: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(thing, ) = log(1) = 0. W(thing, ) = 0.31

Computing the weigth of a context for each word (5): apple: (, 2) GW( ) = log (1/3 + 2/1 + 2/2) / log(3) = 0.52 / 0.47 = 1.1 LW(apple, ) = log(2) = 0.3 W(apple, ) = 1.4 egg: (, 2) GW( ) = log (1/3 + 2/1 + 2/2) / log(3) = 0.52 / 0.47 = 1.1 LW(egg, ) = log(2) = 0.3 W(book, ) = 1.4 egg: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(egg, ) = log(1) = 0. W(egg, ) = 0.31

Similarity between words (1) 0.83 WJ(Pedro, Maria) = 2.17 / 2.61 = 0.83 min( ( ), ( ) ) = 2.17 max( ( ), ( ) ) = WJ(book, novel) = 1.45 / 1.93 = 0.75 min( (1.45), (1.62) ) = 1.45 max((1.45), ( ) ) = WJ(book, thing) = 1.58 / 2.69 = 0.58 min( ( ), ( ) ) = 1.58 max( ( ), ( ) ) = 2.69

Similarity between words (2) WJ(apple, egg) = 1.4 / 1.71 = 0.81 min( (1.4), (1.4) ) = 1.4 max( (1.4), ( ) ) = WJ(apple, thing) = 1.1 / 2.68 = 0.41 min( (1.4), (1.1) ) = 1.1 max((1.4), ( ) ) = WJ(egg, thing) = 1.41 / 2.68 = 0.51 min( ( ), ( ) ) = 1.41 max( ( ), ( ) ) = WJ(novel, thing) = 1.1 / 2.68 = 0.41 min( (1.45), (1.1) ) = 1.1 max((1.45), ( ) ) = 2.68

Similarity between words (3) WJ(Maria, thing) = 0.31 / 2.68 = 0.09 min( (0.31), (0.31) ) = 0.31 max( ( ), ( ) ) = WJ(book, egg) = 0.31 / 1.93= 0.16 min((0.31), (0.31) ) = 0.31 max(( ), ( ) ) = ; WJ(Pedro, thing) = 0 / 2.62 = 0 WJ(novel, egg) = 0 / 1.65 = 0 WJ(book, apple) = 0 / 1.87 = 0; WJ(Maria, egg) = 0.31 / 2.61 = 0.11 min( (0.31), (0.31) ) = 0.31 max( ( ), ( ) ) = 2.61

Similarity between words (Sorting) (0.83) Pedro  Maria (0.81) apple  egg (0.75) book  novel (0.58) thing  book (0.51) thing  egg (0.41) thing  apple, novel (0.16) book  egg (0.11) Maria  egg (0.09) Maria  thing (0.0) Pedro  egg (0.0) novel  egg

n juíz| {dirigente, presidente, subinspector, governador, árbitros} juíz| {dirigente, presidente, subinspector, governador, árbitros} n diploma| {decreto, lei, artigo, convenção, regulamento} diploma| {decreto, lei, artigo, convenção, regulamento} n decreto| {diploma, lei, artigo, nº, código} decreto| {diploma, lei, artigo, nº, código} n regulamento| {estatuto, código, sistema, decreto, norma} regulamento| {estatuto, código, sistema, decreto, norma} n regra| {norma, princípio, regime, legislação, plano} regra| {norma, princípio, regime, legislação, plano} n renda| {caução, indemnização, reintegração, multa, quota} renda| {caução, indemnização, reintegração, multa, quota} n conceito| {noção, estatuto, regime, temática, montante} conceito| {noção, estatuto, regime, temática, montante} Corpus “Procuradoria Geral da República” (P.G.R.) Lists of similar words