A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizagem automática de informações lexicais

Apresentações semelhantes


Apresentação em tema: "Aprendizagem automática de informações lexicais"— Transcrição da apresentação:

1 Aprendizagem automática de informações lexicais
Coordenação: Violeta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ) Bolsistas: Milena de Uzeda Garrão 01/05/07-30/11/07 (PUC-RJ) Seimou Hamilton Oshiro 01/05/06-30/04/07 (PUC-RJ)

2 Objetivos propostos no projeto:
(a) a elaboração de recursos computacionais (dicionário de compostos nominais, verbais e prepositivos) e de ferramentas de reconhecimento e classificação semântica automática de nomes próprios e de criação de ontologias; (b) a avaliação da eficácia dessas ferramentas estatísticas versus ferramentas semi-automáticas.

3 Publicações FREITAS, Maria Cláudia de, QUENTAL, V. S. D. B. Subsídios para a elaboração automática de ontologias In: XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana, 2007, Rio de Janeiro. Anais do XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana. Rio de Janeiro: Sociedade Brasileira de Computação, p   FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. A Machine Learning Approach to the Identification of Appositives In: SBIA/IBERAMIA 2006, Ribeirão Preto.   Lecture Notes on ArtificiaI Inteligence series. Springer-Verlag,   OLIVEIRA, Cláudia Figueiredo de,FREITAS, Maria Cláudia de, SANTOS, C., QUENTAL, V. S. D. B., LEME, R., Souza, Lucas . A Set of NP-extraction rules for Portuguese: defining and learning In: 7th International Workshop, PROPOR 2006, Itatiaia.Computational Processing of the Portuguese Language- Lecture Notes in Computer Science. Springer-Verlag, v.3960. FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006 In: Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006, 2006, Ribeirão Preto.   Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA Springer-Verlag, v.1. QUENTAL, V. S. D. B. Os sintagmas preposicionais em SNs In: V Congresso Internacional da ABRALIN, 2007, Belo Horizonte.   Anais do V Congresso Internacional da ABRALIN. Belo Horizonte: , v.1. OLIVEIRA, C. M. G. M. ; XEXEO, J. A. M. ; CARVALHO, C. A. . Clustering and Categorization Applied to Cryptanalysis. Cryptologia, v. 30, p , 2006. 2. OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Classes de palavras e etiquetagem na Lingüística Computacional. Calidoscópio (UNISINOS), v. 4:3, p , 2006. OLIVEIRA, C. M. G. M. ; GARRAO, M. U. ; FREITAS, M. C. ; DIAS, M. C. P. . Corpus-based Compositionality. In: 7th Workshop on Computational Processing of Written and Spoken Portuguese, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006.

4 (cont. publicações) OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Nominal Complementation Rules Applied to Semantic Role Labelling. In: V Congresso Internacional da Associação Brasileira de Lingüística, 2007, Belo Horizonte. Caderno de Resumos do V Congresso Internacional da Associação Brasileira de Lingüística, v. 1. p OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M. . Classificação Semântica das Preposições Essenciais do Português. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumos do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, OLIVEIRA, C. M. G. M. ; FREITAS, M. C. . Um Modelo de Sintagma Nominal Lexical para Aplicações Computacionais. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumo do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. Garrão, M., M.C. Dias. The corpus never lies: a statistical approach for the identification of verbal collocations. In Proceedings of Collocations and Idioms 1: Papers from the First Nordic Conference on Syntactic Freezes. Joensuu, May 19-20, Garrão, M. Oliveira, C. ; Freitas, M. C. ; Dias, M. C. P. Corpus-Based Compositionality. In: PROPOR th International Workshop - Computational Processing of the Portuguese Language, 2006, Itatiaia. Computational Processing of the Portuguese Language, p Garrão, M. U. Lingüística de Corpus: o lugar da fusão entre Semântica e Pragmática. Calidoscópio, Unisinus, Vol. 4, p , 2006.

5 Teses e dissertações Maria Claudia de Freitas. Elaboração automática de ontologias de domínio: discussão e resultados.Tese (Letras) - Pontifícia Universidade Católica do Rio de Janeiro Claudia Maria Oliveira. O Substantivo-suporte: Critérios Operacionais de Caracterização. Doutorado em Letras. Pontifícia Universidade Católica do Rio de Janeiro, PUC/RJ, Brasil. , Garrão, M. O corpus não mente jamais: sobre a identificação e uso de expressões multivocabulares do tipo Verbo mais Sintagma Nominal. Tese de Doutorado inédita apresentada no Programa de Pós-Graduação de Estudos da Linguagem do Departamento de Letras da PUC-Rio, 2006. Liliana Paola Mamani Sanchez. Atribuição de Papéis Semânticos a Argumentos de Nominalizações: um método semi-automático Dissertação (Mestrado em Engenharia de Sistemas - Informatica) - Instituto Militar de Engenharia, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. Orientador: Claudia Maria Garcia Medeiros de Oliveira. EM ANDAMENTO Nuno Caminada. Reconhecimento automático de expressões multivocabulares que formam Spreps. Dissertação (Sistemas e Computação) - Instituto Militar de Engenharia .Início 2007; defesa: junho 2008 Mauro Rebello. Elaboração de dicionário eletrônico de palavras compostas. Iniciação científica (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. Início 2006.

6 Prepoly 3 listas: a) pp (1400 itens), com a informação de uso adjetival ou adverbial. Checar, corrigir, aumentar essa lista e incluir marcadores estatísticos para usos preferenciais como MWE, e marcadores de precaução para casos de leitura como MWE e não MWE. b) pp ADV (270 itens), com itens que o Palavras trata como advérbios não ambíguos. Pode ser fundida com a 1ª. lista, com o mesmo tipo de markup/distinções. As duas listas têm tags secundárias de valência potencial e tipo semântico, não exaustivas, mas que seriam desejáveis para todos os casos (locativo, diretivo, temporal, preposition-governing etc.) c) pp VPP (980 itens), lista de PPs governadas por verbos-suporte, que estão inativas porque não têm informação suficiente. Objetivos: checar, classificar, modificar e suplementar essas listas com base em dados de corpus, acrescentando informação de distinção contextual e freqüência tentar dar uma forma consistente e machine-readable para essas informações

7 Exemplo de listas a=sério PP <adv> a=sós PP <adv>
a=súbitas PP <adv> a=talho PP <adv> a=tempo PP <adv> a=tempo=e=a=hora PP <adv> a=tempo=e=a=horas PP <adv> a=tento PP <adv> a=tinir$$ PP <adj> a=tino PP <adv> a=tiracolo PP <adv> a=toda$$ PP <adv> a=toda=a=brida PP <adv> a=toda=a=força PP <adv> a=toda=a=pressa PP <adv> a=toda=a=prova PP <adj> a=toda=hora PP <adv> a=todo=o=pulso PP <adv>

8 a=altura VPP <sc> <estar+> L:21 G:50100 C:10 L:41 G:26100
PPs linked to SV Frequency in PT Frequency in BR Less or more constituents as MWE? Example Other verbs Comments/ Results 1 a=altura VPP <sc> <estar+> L:21 G:50100 C:10 L:41 G:26100 C:15 “à altura” “à sua altura” par : O menos grave: sem laterais à altura, o treinador continua improvisando Rogerinho no setor esquerdo da defesa . Manter, mostrar, ficar, responder The MWE is à=(pron)=altura VPP 2 a=braços VPP <sc> <estar+> <+com-piv> L: 07 G:1970 C:03 L:01 G:05 C:02 "a braços com” par 52688: É um dos problemas das grandes cidades, a braços com um crescimento para o qual todas as soluções parecem irrisórias . Ficar, continuar, “a=braços=com”

9 PREPOSICOES >> ========================== >> preposicao: senão -> 113 >> preposicao: antes -> 511 >> preposicao: devolvido -> 20 >> preposicao: diante -> 3 >> preposicao: via -> 1253 >> preposicao: como -> 60116 >> preposicao: pera -> 15 >> preposicao: desde -> 16318 >> preposicao: malgrado -> 16 >> preposicao: at -> 62 >> preposicao: ponto -> 9 >> preposicao: contrariamente -> 1 >> preposicao: ante -> 317 >> preposicao: salvo -> 167 >> preposicao: com -> >> preposicao: exceto -> 499 >> preposicao: contra -> 27702 >> preposicao: tirante -> 6 >> preposicao: trás -> 193 >> preposicao: pra -> 1364 >> preposicao: entre -> 44387 >> preposicao: mediante -> 254 >> preposicao: per -> 452 >> preposicao: em ->

10 >> RESULTADOS PRELIMINARES - PARÂMETRO = 2,576:
>> >> por;meio ==>T-Test result==> >> até;agora ==>T-Test result==> >> de;ontem ==>T-Test result==> >> até;hoje ==>T-Test result==> >> de;aí ==>T-Test result==> >> por;enquanto ==>T-Test result==> >> há;muito ==>T-Test result==> >> até;ontem ==>T-Test result==> >> por;trás ==>T-Test result==> >> desde;então ==>T-Test result==> >> de;hoje ==>T-Test result==> >> para;cá ==>T-Test result==> >> há;cerca ==>T-Test result==> >> por;aí ==>T-Test result==> >> de;anteontem ==>T-Test result==> >> por;acaso ==>T-Test result==> >> por;aqui ==>T-Test result==> >> com;cerca ==>T-Test result==>

11 com;direito;ADJ M S ==> 463
de;imóvel;ADJ M/F P ==> 450 com;grande;ADJ F S ==> 446 de;curto;ADJ M S ==> 429 de;alto;ADJ M S ==> 426 em;segundo;ADJ M S ==> 391 em;comum;ADJ M/F S ==> 377 com;alto;ADJ F S ==> 360 de;1º;ADJ M S ==> 353 em;1º;ADJ M S ==> 340 de;grande;ADJ F P ==> 320 com;grande;ADJ M S ==> 316 de;jovem;ADJ M/F P ==> 316 de;morto;ADJ M P ==> 316 em;baixo;ADJ F S ==> 313 em;pleno;ADJ F S ==> 309 em;terceiro;ADJ M S ==> 280 em;pleno;ADJ M S ==> 272 em;bom;ADJ F S ==> 254 de;longo;ADJ F S ==> 251 de;último;ADJ F S ==> 231 de;grande;ADJ M P ==> 229 em;primeiro;ADJ F S ==> 225

12 ao=longo=de [ao=longo=de] <sam-> PRP @<ADVL
ao=longo=de [ao=longo=de] @<ADVL ao=longo=de [ao=longo=de] ao=longo=de [ao=longo=de] <sam-> ao=longo=de [ao=longo=de] <sam-> ao=máximo [ao=máximo] ao=máximo [ao=máximo] ao=máximo [ao=máximo]

13 de;público;ADJ M S ==>Chi-Square result==> 1536
de;novo;ADJ F P ==>Chi-Square result==> 1532 em;segundo;ADJ F S ==>Chi-Square result==> 1493 em;grande;ADJ M/F P ==>Chi-Square result==> 1369 em;particular;ADJ M/F S ==>Chi-Square result==> 1325


Carregar ppt "Aprendizagem automática de informações lexicais"

Apresentações semelhantes


Anúncios Google