Aprendizagem automática de informações lexicais

Slides:



Advertisements
Apresentações semelhantes
V Mostra de Pesquisa da Pós-Graduação Identificação do Constituinte: o ponto de partida para a análise de uma sentença. Ana Márcia Martins.
Advertisements

EXERCÍCIOS RESULTADO.
Informática na Educação
“Direitos humanos são aqueles direitos fundamentais...
Conceitos de Lingüística Aplicada
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
NUTRIÇÃO NOS CICLOS DA VIDA
AVALIAÇÃO DE ALGORITMOS DE STEMMING PARA A LÍNGUA PORTUGUESA.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 5.
Objectivos, Programa, Bibliografia e Avaliação


SEMINÁRIO ESTRATÉGIA NACIONAL DE DEFESA E A INDÚSTRIA DE DEFESA
UNIVERSIDADE FEDERAL DE SANTA MARIA Disciplina:
Larissa Astrogildo de Freitas Patrícia Mylius Pizzinato
Estatística Básica Utilizando o Excel
Programação Cabeças Automáticas 3M
Referências.
Portal de Periódicos CAPES. O que é? A Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) é uma agência de fomento à pesquisa brasileira.
Localização em Redes Wireless Ad Hoc: Infra-estrutura e Algoritmos
Engenharia de Requisitos
Linguagens de Programação
Práticas da Gestão do Conhecimento e Ferramentas Computacionais aplicadas aos Processos da Comunicação Científica Domingos Bernardo Gomes Santos, Josemir.
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
PROTOCOLO E RITUAL LEONÍSTICO.
Resultados Esperados VS Resultados Obtidos Como Analisá-los?
Introdução a Engenharia de Software
UNIDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS DE ANÁPOLIS - UEG
1 Jovens Urbanos 3ª edição Resultados da Avaliação Econômica Jovens Urbanos 3ª edição São Paulo março/2010.
(CESPE/ Técnico Judiciário do TRT 17ª Região/ES) O Superior Tribunal de Justiça entende que o candidato aprovado em concurso público dentro do limite.
Método Estudo de Caso para Pesquisa de Groupware na Educação
Vortal Cadeia Produtiva do Caju Vortal Cadeia Produtiva do Caju
Daniel Sebastian Vargas Cristancho Carlos Julio González Aguilera
PROGRAMA DE PÓS-GRADUAÇÃO EM ESTUDOS LINGUÍSTICOS
Atividades Complementares no âmbito do ENG
Bolsista: Carlos Henrique da Costa Coordenadora: Luciana Rita Guedes.
Olimpíada Brasileira de Informática na UDESC
DI-FCT-UNL Departamento de Informática Faculdade de Ciências e Tecnologia Universidade Nova de Lisboa Engenharia Informática DI-FCT-UNL DI-FCT-UNL:
II Workshop de Dissertação Pós-Graduação em Ciência da Computação Faculdade de Computação – FACOM Universidade Federal de Uberlândia – UFU Dezembro/2008.
Apresentação Eduardo Figueiredo 05 de Março de 2010 INF62: Informática no Ensino de Física 2Aula 01
Cícero Nogueira dos Santos Ruy Luiz Milidiú
Coordenação Geral de Ensino da Faculdade
TIL º Workshop em Tecnologia da Informação e da Linguagem Humana Edição Atual e Histórico do Evento 5 e 6 de Julho Rio de Janeiro-RJ XXVII Congresso.
Curso de Especialização em Educação a Distância
Instituto Superior Técnico 1 INQUÉRITO AOS LICENCIADOS EM ENGENHARIA QUÍMICA Realizado por: Gabinete de Estudos e Planeamento com a colaboração da Secção.
O XBRL NO BRASIL Prof.Edson Luiz Riccio
Introdução teórica A modulação em freqüência consiste na variação da freqüência da portadora proporcionalmente ao sinal de informação. Dado o sinal modulador.
Uso de Sistemas Imunológicos Artificiais para Detecção de Falhas em Plantas da Indústria de Petróleo. Aluno: Alexandre Willig Quintino dos Santos Orientador:
CEPRIL Definindo-se como um Centro de Pesquisas, Recursos, Documentação e Apoio, o CEPRIL foi criado e reconhecido pela PUC-SP na década de 1980 e, desde.
CLIQUE NO BOTÃO INICIAR e cruze os braços INICIAR.
Maio de 2009 Brasil Pesquisa de Opinião Pública 3 Roteiro I.METODOLOGIA II.OPINIÕES SOBRE O BRASIL III.PREFERÊNCIAS PARTIDÁRIAS DO ELEITORADO IV.IMAGEM.
É u m e l e m e n t o f u n d a m e n t a l
Bibliografia e Leituras Complementares
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Top. Esp. em Teoria e Análise do Discurso
Grupo A – Azul Claro, Marrom, Laranja
Verbal, Nominal, Adjetival e Preposicionado
APLICANDO O PROCESSO DIRIGIDO POR RESPONSABILIDADES PARA A CRIAÇÃO DE UM SUBFRAMEWORK PARA VALIDAÇÃO SINTÁTICA DE FÓRMULAS Autores: Rafael Hornung Simone.
A EXPERIÊNCIA DO GARIMPO TEXTUAL COMO ESTRATÉGIA DIDÁTICA:
Sessão 4: Mesa-redonda Os desafios do aperfeiçoamento do atual modelo de avaliação do Ensino Superior Maurício Garcia DeVry Brasil
CALENDÁRIO SEXY Ele & Ela. CALENDÁRIO SEXY Ele & Ela.
Rio Verde - Goiás - Brasil
Avaliação da produtividade em pesquisa pelo CA de Psicologia do CNPq: Uma proposta de discussão com a comunidade científica Terezinha Féres-Carneiro PUC-Rio.
SVMSharp – Uma implementação didática de uma SVM
CONSTRUÇÃO DE UM PORTAL QUE APÓIE A SELEÇÃO E IMPLANTAÇÃO DE SISTEMAS ERP DO TIPO SL/CA, Engenharias. Nome(s) do(s) autor(es), Diogo Domingos Cedório e.
Contagem Sequencial do Estoque
DESAFIO Distinguir os sintagmas preposicionados (PP= Prepositional Phrases) que são complementos de verbos dos que são adjuntos. Ele trabalha em publicidade.
Classificação Probabilística com TBL Cícero Nogueira dos Santos Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática.
Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF.
Transcrição da apresentação:

Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ) Bolsistas: Milena de Uzeda Garrão 01/05/07-30/11/07 (PUC-RJ) Seimou Hamilton Oshiro 01/05/06-30/04/07 (PUC-RJ)

Objetivos propostos no projeto: (a) a elaboração de recursos computacionais (dicionário de compostos nominais, verbais e prepositivos) e de ferramentas de reconhecimento e classificação semântica automática de nomes próprios e de criação de ontologias; (b) a avaliação da eficácia dessas ferramentas estatísticas versus ferramentas semi-automáticas.

Publicações FREITAS, Maria Cláudia de, QUENTAL, V. S. D. B. Subsídios para a elaboração automática de ontologias In: XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana, 2007, Rio de Janeiro. Anais do XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana. Rio de Janeiro: Sociedade Brasileira de Computação, 2007. p.1585 - 15944.  FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. A Machine Learning Approach to the Identification of Appositives In: SBIA/IBERAMIA 2006, Ribeirão Preto.   Lecture Notes on ArtificiaI Inteligence series. Springer-Verlag, 2006. 5.  OLIVEIRA, Cláudia Figueiredo de,FREITAS, Maria Cláudia de, SANTOS, C., QUENTAL, V. S. D. B., LEME, R., Souza, Lucas . A Set of NP-extraction rules for Portuguese: defining and learning In: 7th International Workshop, PROPOR 2006, Itatiaia.Computational Processing of the Portuguese Language- Lecture Notes in Computer Science. Springer-Verlag, 2006. v.3960. FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006 In: Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006, 2006, Ribeirão Preto.   Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006. Springer-Verlag, 2006. v.1. QUENTAL, V. S. D. B. Os sintagmas preposicionais em SNs In: V Congresso Internacional da ABRALIN, 2007, Belo Horizonte.   Anais do V Congresso Internacional da ABRALIN. Belo Horizonte: , 2007. v.1. OLIVEIRA, C. M. G. M. ; XEXEO, J. A. M. ; CARVALHO, C. A. . Clustering and Categorization Applied to Cryptanalysis. Cryptologia, v. 30, p. 266-280, 2006. 2. OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Classes de palavras e etiquetagem na Lingüística Computacional. Calidoscópio (UNISINOS), v. 4:3, p. 179-188, 2006. OLIVEIRA, C. M. G. M. ; GARRAO, M. U. ; FREITAS, M. C. ; DIAS, M. C. P. . Corpus-based Compositionality. In: 7th Workshop on Computational Processing of Written and Spoken Portuguese, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006.

(cont. publicações) OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Nominal Complementation Rules Applied to Semantic Role Labelling. In: V Congresso Internacional da Associação Brasileira de Lingüística, 2007, Belo Horizonte. Caderno de Resumos do V Congresso Internacional da Associação Brasileira de Lingüística, 2007. v. 1. p. 416-417. 2. OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Classificação Semântica das Preposições Essenciais do Português. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumos do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. 3. OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Um Modelo de Sintagma Nominal Lexical para Aplicações Computacionais. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumo do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. Garrão, M., M.C. Dias. The corpus never lies: a statistical approach for the identification of verbal collocations. In Proceedings of Collocations and Idioms 1: Papers from the First Nordic Conference on Syntactic Freezes. Joensuu, May 19-20, 2006 http://cc.joensuu.fi/linguistics/idioms2006/contents.shtml Garrão, M. Oliveira, C. ; Freitas, M. C. ; Dias, M. C. P. Corpus-Based Compositionality. In: PROPOR 2006 - 7th International Workshop - Computational Processing of the Portuguese Language, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006. p. 268-271. http://www.springerlink.com/content/0250355137806586/ Garrão, M. U. Lingüística de Corpus: o lugar da fusão entre Semântica e Pragmática. Calidoscópio, Unisinus, Vol. 4, p. 135-140, 2006.

Teses e dissertações Maria Claudia de Freitas. Elaboração automática de ontologias de domínio: discussão e resultados.Tese (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. 2007. Claudia Maria Oliveira. O Substantivo-suporte: Critérios Operacionais de Caracterização. Doutorado em Letras. Pontifícia Universidade Católica do Rio de Janeiro, PUC/RJ, Brasil. , 2006. Garrão, M. O corpus não mente jamais: sobre a identificação e uso de expressões multivocabulares do tipo Verbo mais Sintagma Nominal. Tese de Doutorado inédita apresentada no Programa de Pós-Graduação de Estudos da Linguagem do Departamento de Letras da PUC-Rio, 2006. Liliana Paola Mamani Sanchez. Atribuição de Papéis Semânticos a Argumentos de Nominalizações: um método semi-automático. 2007. Dissertação (Mestrado em Engenharia de Sistemas - Informatica) - Instituto Militar de Engenharia, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. Orientador: Claudia Maria Garcia Medeiros de Oliveira. EM ANDAMENTO Nuno Caminada. Reconhecimento automático de expressões multivocabulares que formam Spreps. Dissertação (Sistemas e Computação) - Instituto Militar de Engenharia .Início 2007; defesa: junho 2008 Mauro Rebello. Elaboração de dicionário eletrônico de palavras compostas. Iniciação científica (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. Início 2006.

Prepoly 3 listas: a) pp (1400 itens), com a informação de uso adjetival ou adverbial. Checar, corrigir, aumentar essa lista e incluir marcadores estatísticos para usos preferenciais como MWE, e marcadores de precaução para casos de leitura como MWE e não MWE. b) pp ADV (270 itens), com itens que o Palavras trata como advérbios não ambíguos. Pode ser fundida com a 1ª. lista, com o mesmo tipo de markup/distinções. As duas listas têm tags secundárias de valência potencial e tipo semântico, não exaustivas, mas que seriam desejáveis para todos os casos (locativo, diretivo, temporal, preposition-governing etc.) c) pp VPP (980 itens), lista de PPs governadas por verbos-suporte, que estão inativas porque não têm informação suficiente. Objetivos: checar, classificar, modificar e suplementar essas listas com base em dados de corpus, acrescentando informação de distinção contextual e freqüência tentar dar uma forma consistente e machine-readable para essas informações

Exemplo de listas a=sério PP <adv> a=sós PP <adv> a=súbitas PP <adv> a=talho PP <adv> a=tempo PP <adv> a=tempo=e=a=hora PP <adv> a=tempo=e=a=horas PP <adv> a=tento PP <adv> a=tinir$$ PP <adj> a=tino PP <adv> a=tiracolo PP <adv> a=toda$$ PP <adv> a=toda=a=brida PP <adv> a=toda=a=força PP <adv> a=toda=a=pressa PP <adv> a=toda=a=prova PP <adj> a=toda=hora PP <adv> a=todo=o=pulso PP <adv>

a=altura VPP <sc> <estar+> L:21 G:50100 C:10 L:41 G:26100 PPs linked to SV Frequency in PT Frequency in BR Less or more constituents as MWE? Example Other verbs Comments/ Results 1 a=altura VPP <sc> <estar+> L:21 G:50100 C:10 L:41 G:26100 C:15 “à altura” “à sua altura” par 127398: O menos grave: sem laterais à altura, o treinador continua improvisando Rogerinho no setor esquerdo da defesa . Manter, mostrar, ficar, responder The MWE is à=(pron)=altura VPP 2 a=braços VPP <sc> <estar+> <+com-piv> L: 07 G:1970 C:03 L:01 G:05 C:02 "a braços com” par 52688: É um dos problemas das grandes cidades, a braços com um crescimento para o qual todas as soluções parecem irrisórias . Ficar, continuar, “a=braços=com”

PREPOSICOES >> ========================== >> preposicao: senão -> 113 >> preposicao: antes -> 511 >> preposicao: devolvido -> 20 >> preposicao: diante -> 3 >> preposicao: via -> 1253 >> preposicao: como -> 60116 >> preposicao: pera -> 15 >> preposicao: desde -> 16318 >> preposicao: malgrado -> 16 >> preposicao: at -> 62 >> preposicao: ponto -> 9 >> preposicao: contrariamente -> 1 >> preposicao: ante -> 317 >> preposicao: salvo -> 167 >> preposicao: com -> 230612 >> preposicao: exceto -> 499 >> preposicao: contra -> 27702 >> preposicao: tirante -> 6 >> preposicao: trás -> 193 >> preposicao: pra -> 1364 >> preposicao: entre -> 44387 >> preposicao: mediante -> 254 >> preposicao: per -> 452 >> preposicao: em -> 909243

>> RESULTADOS PRELIMINARES - PARÂMETRO = 2,576: >> --------------------------------------- >> por;meio ==>T-Test result==> 63.53607570364274 >> até;agora ==>T-Test result==> 48.226063527393784 >> de;ontem ==>T-Test result==> 43.609299957374404 >> até;hoje ==>T-Test result==> 36.67846071336202 >> de;aí ==>T-Test result==> 29.89378097605234 >> por;enquanto ==>T-Test result==> 28.950263532223858 >> há;muito ==>T-Test result==> 25.836297470626864 >> até;ontem ==>T-Test result==> 25.14490811635413 >> por;trás ==>T-Test result==> 25.11867050573179 >> desde;então ==>T-Test result==> 24.813421835192234 >> de;hoje ==>T-Test result==> 24.076928032530628 >> para;cá ==>T-Test result==> 22.77264239678492 >> há;cerca ==>T-Test result==> 22.701200406075312 >> por;aí ==>T-Test result==> 22.152210663751735 >> de;anteontem ==>T-Test result==> 22.083095153007193 >> por;acaso ==>T-Test result==> 21.881518149185847 >> por;aqui ==>T-Test result==> 20.33335778015257 >> com;cerca ==>T-Test result==> 18.61224155443909

com;direito;ADJ M S ==> 463 de;imóvel;ADJ M/F P ==> 450 com;grande;ADJ F S ==> 446 de;curto;ADJ M S ==> 429 de;alto;ADJ M S ==> 426 em;segundo;ADJ M S ==> 391 em;comum;ADJ M/F S ==> 377 com;alto;ADJ F S ==> 360 de;1º;ADJ M S ==> 353 em;1º;ADJ M S ==> 340 de;grande;ADJ F P ==> 320 com;grande;ADJ M S ==> 316 de;jovem;ADJ M/F P ==> 316 de;morto;ADJ M P ==> 316 em;baixo;ADJ F S ==> 313 em;pleno;ADJ F S ==> 309 em;terceiro;ADJ M S ==> 280 em;pleno;ADJ M S ==> 272 em;bom;ADJ F S ==> 254 de;longo;ADJ F S ==> 251 de;último;ADJ F S ==> 231 de;grande;ADJ M P ==> 229 em;primeiro;ADJ F S ==> 225

ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL ao=longo=de [ao=longo=de] PRP @¤PRP <sam-> @N< @<ADVL ao=longo=de [ao=longo=de] PRP @<ADVL ao=longo=de [ao=longo=de] <sam-> PRP @N< ao=longo=de [ao=longo=de] <sam-> PRP @ADVL> ao=máximo [ao=máximo] ADV @>N ao=máximo [ao=máximo] ADV @>P ao=máximo [ao=máximo] ADV @<ADVL

de;público;ADJ M S ==>Chi-Square result==> 1536 de;novo;ADJ F P ==>Chi-Square result==> 1532 em;segundo;ADJ F S ==>Chi-Square result==> 1493 em;grande;ADJ M/F P ==>Chi-Square result==> 1369 em;particular;ADJ M/F S ==>Chi-Square result==> 1325