A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores:

Apresentações semelhantes


Apresentação em tema: "Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores:"— Transcrição da apresentação:

1 Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de OliveiraClaudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua DiasMaria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ)Maria Cláudia de Freitas Bolsistas: Milena de Uzeda GarrãoMilena de Uzeda Garrão 01/05/07-30/11/07 (PUC-RJ) Seimou Hamilton OshiroSeimou Hamilton Oshiro 01/05/06-30/04/07 (PUC-RJ)

2 Objetivos propostos no projeto: (a) a elaboração de recursos computacionais (dicionário de compostos nominais, verbais e prepositivos) e de ferramentas de reconhecimento e classificação semântica automática de nomes próprios e de criação de ontologias; (b) a avaliação da eficácia dessas ferramentas estatísticas versus ferramentas semi- automáticas.

3 Publicações FREITAS, Maria Cláudia de, QUENTAL, V. S. D. B. Subsídios para a elaboração automática de ontologias In: XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana, 2007, Rio de Janeiro. Anais do XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana. Rio de Janeiro: Sociedade Brasileira de Computação, p FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. A Machine Learning Approach to the Identification of Appositives In: SBIA/IBERAMIA 2006, Ribeirão Preto. Lecture Notes on ArtificiaI Inteligence series. Springer-Verlag, OLIVEIRA, Cláudia Figueiredo de,FREITAS, Maria Cláudia de, SANTOS, C., QUENTAL, V. S. D. B., LEME, R., Souza, Lucas. A Set of NP-extraction rules for Portuguese: defining and learning In: 7th International Workshop, PROPOR 2006, Itatiaia.Computational Processing of the Portuguese Language- Lecture Notes in Computer Science. Springer-Verlag, v FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006 In: Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006, 2006, Ribeirão Preto. Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA Springer- Verlag, v.1. QUENTAL, V. S. D. B. Os sintagmas preposicionais em SNs In: V Congresso Internacional da ABRALIN, 2007, Belo Horizonte. Anais do V Congresso Internacional da ABRALIN. Belo Horizonte:, v.1. OLIVEIRA, C. M. G. M. ; XEXEO, J. A. M. ; CARVALHO, C. A.. Clustering and Categorization Applied to Cryptanalysis. Cryptologia, v. 30, p , OLIVEIRA, C. M. G. M. ; FREITAS, M. C.. Classes de palavras e etiquetagem na Lingüística Computacional. Calidoscópio (UNISINOS), v. 4:3, p , OLIVEIRA, C. M. G. M. ; GARRAO, M. U. ; FREITAS, M. C. ; DIAS, M. C. P.. Corpus-based Compositionality. In: 7th Workshop on Computational Processing of Written and Spoken Portuguese, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006.

4 (cont. publicações) OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M.. Nominal Complementation Rules Applied to Semantic Role Labelling. In: V Congresso Internacional da Associação Brasileira de Lingüística, 2007, Belo Horizonte. Caderno de Resumos do V Congresso Internacional da Associação Brasileira de Lingüística, v. 1. p OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M.. Classificação Semântica das Preposições Essenciais do Português. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumos do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, OLIVEIRA, C. M. G. M. ; FREITAS, M. C.. Um Modelo de Sintagma Nominal Lexical para Aplicações Computacionais. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumo do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, Garrão, M., M.C. Dias. The corpus never lies: a statistical approach for the identification of verbal collocations. In Proceedings of Collocations and Idioms 1: Papers from the First Nordic Conference on Syntactic Freezes. Joensuu, May 19-20, Garrão, M. Oliveira, C. ; Freitas, M. C. ; Dias, M. C. P. Corpus-Based Compositionality. In: PROPOR th International Workshop - Computational Processing of the Portuguese Language, 2006, Itatiaia. Computational Processing of the Portuguese Language, p Garrão, M. U. Lingüística de Corpus: o lugar da fusão entre Semântica e Pragmática. Calidoscópio, Unisinus, Vol. 4, p , 2006.

5 Teses e dissertações Maria Claudia de Freitas. Elaboração automática de ontologias de domínio: discussão e resultados.Tese (Letras) - Pontifícia Universidade Católica do Rio de Janeiro Claudia Maria Oliveira. O Substantivo-suporte: Critérios Operacionais de Caracterização. Doutorado em Letras. Pontifícia Universidade Católica do Rio de Janeiro, PUC/RJ, Brasil., Garrão, M. O corpus não mente jamais: sobre a identificação e uso de expressões multivocabulares do tipo Verbo mais Sintagma Nominal. Tese de Doutorado inédita apresentada no Programa de Pós-Graduação de Estudos da Linguagem do Departamento de Letras da PUC-Rio, Liliana Paola Mamani Sanchez. Atribuição de Papéis Semânticos a Argumentos de Nominalizações: um método semi-automático Dissertação (Mestrado em Engenharia de Sistemas - Informatica) - Instituto Militar de Engenharia, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. Orientador: Claudia Maria Garcia Medeiros de Oliveira. EM ANDAMENTO Nuno Caminada. Reconhecimento automático de expressões multivocabulares que formam Spreps. Dissertação (Sistemas e Computação) - Instituto Militar de Engenharia.Início 2007; defesa: junho 2008 Mauro Rebello. Elaboração de dicionário eletrônico de palavras compostas. Iniciação científica (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. Início 2006.

6 Prepoly 3 listas: a) pp (1400 itens), com a informação de uso adjetival ou adverbial. Checar, corrigir, aumentar essa lista e incluir marcadores estatísticos para usos preferenciais como MWE, e marcadores de precaução para casos de leitura como MWE e não MWE. b) pp ADV (270 itens), com itens que o Palavras trata como advérbios não ambíguos. Pode ser fundida com a 1ª. lista, com o mesmo tipo de markup/distinções. As duas listas têm tags secundárias de valência potencial e tipo semântico, não exaustivas, mas que seriam desejáveis para todos os casos (locativo, diretivo, temporal, preposition-governing etc.) c) pp VPP (980 itens), lista de PPs governadas por verbos-suporte, que estão inativas porque não têm informação suficiente. Objetivos: checar, classificar, modificar e suplementar essas listas com base em dados de corpus, acrescentando informação de distinção contextual e freqüência tentar dar uma forma consistente e machine-readable para essas informações

7 Exemplo de listas a=sério PP a=sós PP a=súbitas PP a=talho PP a=tempo PP a=tempo=e=a=hora PP a=tempo=e=a=horas PP a=tento PP a=tinir$$ PP a=tino PP a=tiracolo PP a=toda$$ PP a=toda=a=brida PP a=toda=a=força PP a=toda=a=pressa PP a=toda=a=prova PP a=toda=hora PP a=todo=o=pulso PP

8 PPs linked to SVFrequency in PT Freque ncy in BR Less or more constitue nts as MWE? ExampleOther verbsComments/ Results 1 a=altura VPP L:21 G:50100 C:10 L:41 G: C:15 à altura à sua altura par : O menos grave: sem laterais à altura, o treinador continua improvisando Rogerinho no setor esquerdo da defesa. Manter, mostrar, ficar, responder The MWE is à=(pron)=altura VPP 2 a=braços VPP L: 07 G:1970 C:03 L:01 G:05 C:02 "a braços com par 52688: É um dos problemas das grandes cidades, a braços com um crescimento para o qual todas as soluções parecem irrisórias. Ficar, continuar, The MWE is a=braços=com

9 PREPOSICOES >> ========================== >> preposicao: senão -> 113 >> preposicao: antes -> 511 >> preposicao: devolvido -> 20 >> preposicao: diante -> 3 >> preposicao: via -> 1253 >> preposicao: como -> >> preposicao: pera -> 15 >> preposicao: desde -> >> preposicao: malgrado -> 16 >> preposicao: at -> 62 >> preposicao: ponto -> 9 >> preposicao: contrariamente -> 1 >> preposicao: ante -> 317 >> preposicao: salvo -> 167 >> preposicao: com -> >> preposicao: exceto -> 499 >> preposicao: contra -> >> preposicao: tirante -> 6 >> preposicao: trás -> 193 >> preposicao: pra -> 1364 >> preposicao: entre -> >> preposicao: mediante -> 254 >> preposicao: per -> 452 >> preposicao: em ->

10 >> RESULTADOS PRELIMINARES - PARÂMETRO = 2,576: >> >> por;meio ==>T-Test result==> >> até;agora ==>T-Test result==> >> de;ontem ==>T-Test result==> >> até;hoje ==>T-Test result==> >> de;aí ==>T-Test result==> >> por;enquanto ==>T-Test result==> >> há;muito ==>T-Test result==> >> até;ontem ==>T-Test result==> >> por;trás ==>T-Test result==> >> desde;então ==>T-Test result==> >> de;hoje ==>T-Test result==> >> para;cá ==>T-Test result==> >> há;cerca ==>T-Test result==> >> por;aí ==>T-Test result==> >> de;anteontem ==>T-Test result==> >> por;acaso ==>T-Test result==> >> por;aqui ==>T-Test result==> >> com;cerca ==>T-Test result==>

11 com;direito;ADJ M S ==> 463 de;imóvel;ADJ M/F P ==> 450 com;grande;ADJ F S ==> 446 de;curto;ADJ M S ==> 429 de;alto;ADJ M S ==> 426 em;segundo;ADJ M S ==> 391 em;comum;ADJ M/F S ==> 377 com;alto;ADJ F S ==> 360 de;1º;ADJ M S ==> 353 em;1º;ADJ M S ==> 340 de;grande;ADJ F P ==> 320 com;grande;ADJ M S ==> 316 de;jovem;ADJ M/F P ==> 316 de;morto;ADJ M P ==> 316 em;baixo;ADJ F S ==> 313 em;pleno;ADJ F S ==> 309 em;terceiro;ADJ M S ==> 280 em;pleno;ADJ M S ==> 272 em;bom;ADJ F S ==> 254 de;longo;ADJ F S ==> 251 de;último;ADJ F S ==> 231 de;grande;ADJ M P ==> 229 em;primeiro;ADJ F S ==> 225

12 ao=longo=de[ao=longo=de] @

13 de;público;ADJ M S ==>Chi-Square result==> 1536 de;novo;ADJ F P ==>Chi-Square result==> 1532 em;segundo;ADJ F S ==>Chi-Square result==> 1493 em;grande;ADJ M/F P ==>Chi-Square result==> 1369 em;particular;ADJ M/F S ==>Chi-Square result==> 1325


Carregar ppt "Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores:"

Apresentações semelhantes


Anúncios Google