A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores:

Apresentações semelhantes


Apresentação em tema: "Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores:"— Transcrição da apresentação:

1 Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores: Claudia Maria Garcia Medeiros de OliveiraClaudia Maria Garcia Medeiros de Oliveira (IME-RJ) Maria Carmelita Pádua DiasMaria Carmelita Pádua Dias (PUC-RJ) Colaboradores: Maria Cláudia de Freitas (PUC-RJ)Maria Cláudia de Freitas Bolsistas: Milena de Uzeda GarrãoMilena de Uzeda Garrão 01/05/07-30/11/07 (PUC-RJ) Seimou Hamilton OshiroSeimou Hamilton Oshiro 01/05/06-30/04/07 (PUC-RJ)

2 Objetivos propostos no projeto: (a) a elaboração de recursos computacionais (dicionário de compostos nominais, verbais e prepositivos) e de ferramentas de reconhecimento e classificação semântica automática de nomes próprios e de criação de ontologias; (b) a avaliação da eficácia dessas ferramentas estatísticas versus ferramentas semi- automáticas.

3 Publicações FREITAS, Maria Cláudia de, QUENTAL, V. S. D. B. Subsídios para a elaboração automática de ontologias In: XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana, 2007, Rio de Janeiro. Anais do XXVII Congresso da SBC - TIL - V Workshop em Tecnologia da Informação e da Linguagem Humana. Rio de Janeiro: Sociedade Brasileira de Computação, 2007. p.1585 - 15944. FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. A Machine Learning Approach to the Identification of Appositives In: SBIA/IBERAMIA 2006, Ribeirão Preto. Lecture Notes on ArtificiaI Inteligence series. Springer-Verlag, 2006. 5. OLIVEIRA, Cláudia Figueiredo de,FREITAS, Maria Cláudia de, SANTOS, C., QUENTAL, V. S. D. B., LEME, R., Souza, Lucas. A Set of NP-extraction rules for Portuguese: defining and learning In: 7th International Workshop, PROPOR 2006, Itatiaia.Computational Processing of the Portuguese Language- Lecture Notes in Computer Science. Springer-Verlag, 2006. v.3960. FREITAS, Maria Cláudia de, SANTOS, C., MILIDIÚ, Ruy, QUENTAL, V. S. D. B. Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006 In: Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006, 2006, Ribeirão Preto. Proceedings of the Ibero-American Artificial Intelligence Conference - SBIA-IBERAMIA 2006. Springer- Verlag, 2006. v.1. QUENTAL, V. S. D. B. Os sintagmas preposicionais em SNs In: V Congresso Internacional da ABRALIN, 2007, Belo Horizonte. Anais do V Congresso Internacional da ABRALIN. Belo Horizonte:, 2007. v.1. OLIVEIRA, C. M. G. M. ; XEXEO, J. A. M. ; CARVALHO, C. A.. Clustering and Categorization Applied to Cryptanalysis. Cryptologia, v. 30, p. 266-280, 2006. 2. OLIVEIRA, C. M. G. M. ; FREITAS, M. C.. Classes de palavras e etiquetagem na Lingüística Computacional. Calidoscópio (UNISINOS), v. 4:3, p. 179-188, 2006. OLIVEIRA, C. M. G. M. ; GARRAO, M. U. ; FREITAS, M. C. ; DIAS, M. C. P.. Corpus-based Compositionality. In: 7th Workshop on Computational Processing of Written and Spoken Portuguese, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006.

4 (cont. publicações) OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M.. Nominal Complementation Rules Applied to Semantic Role Labelling. In: V Congresso Internacional da Associação Brasileira de Lingüística, 2007, Belo Horizonte. Caderno de Resumos do V Congresso Internacional da Associação Brasileira de Lingüística, 2007. v. 1. p. 416-417. 2. OLIVEIRA, C. M. G. M. ; SANCHEZ, L. M.. Classificação Semântica das Preposições Essenciais do Português. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumos do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. 3. OLIVEIRA, C. M. G. M. ; FREITAS, M. C.. Um Modelo de Sintagma Nominal Lexical para Aplicações Computacionais. In: XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006, Uberlândia. Resumo do XI Simpósio Nacional e I Simpósio Internacional de Letras e Lingüística, 2006. Garrão, M., M.C. Dias. The corpus never lies: a statistical approach for the identification of verbal collocations. In Proceedings of Collocations and Idioms 1: Papers from the First Nordic Conference on Syntactic Freezes. Joensuu, May 19-20, 2006 http://cc.joensuu.fi/linguistics/idioms2006/contents.shtmlhttp://cc.joensuu.fi/linguistics/idioms2006/contents.shtml Garrão, M. Oliveira, C. ; Freitas, M. C. ; Dias, M. C. P. Corpus-Based Compositionality. In: PROPOR 2006 - 7th International Workshop - Computational Processing of the Portuguese Language, 2006, Itatiaia. Computational Processing of the Portuguese Language, 2006. p. 268-271. http://www.springerlink.com/content/0250355137806586/ http://www.springerlink.com/content/0250355137806586/ Garrão, M. U. Lingüística de Corpus: o lugar da fusão entre Semântica e Pragmática. Calidoscópio, Unisinus, Vol. 4, p. 135-140, 2006.

5 Teses e dissertações Maria Claudia de Freitas. Elaboração automática de ontologias de domínio: discussão e resultados.Tese (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. 2007. Claudia Maria Oliveira. O Substantivo-suporte: Critérios Operacionais de Caracterização. Doutorado em Letras. Pontifícia Universidade Católica do Rio de Janeiro, PUC/RJ, Brasil., 2006. Garrão, M. O corpus não mente jamais: sobre a identificação e uso de expressões multivocabulares do tipo Verbo mais Sintagma Nominal. Tese de Doutorado inédita apresentada no Programa de Pós-Graduação de Estudos da Linguagem do Departamento de Letras da PUC-Rio, 2006. Liliana Paola Mamani Sanchez. Atribuição de Papéis Semânticos a Argumentos de Nominalizações: um método semi-automático. 2007. Dissertação (Mestrado em Engenharia de Sistemas - Informatica) - Instituto Militar de Engenharia, Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. Orientador: Claudia Maria Garcia Medeiros de Oliveira. EM ANDAMENTO Nuno Caminada. Reconhecimento automático de expressões multivocabulares que formam Spreps. Dissertação (Sistemas e Computação) - Instituto Militar de Engenharia.Início 2007; defesa: junho 2008 Mauro Rebello. Elaboração de dicionário eletrônico de palavras compostas. Iniciação científica (Letras) - Pontifícia Universidade Católica do Rio de Janeiro. Início 2006.

6 Prepoly 3 listas: a) pp (1400 itens), com a informação de uso adjetival ou adverbial. Checar, corrigir, aumentar essa lista e incluir marcadores estatísticos para usos preferenciais como MWE, e marcadores de precaução para casos de leitura como MWE e não MWE. b) pp ADV (270 itens), com itens que o Palavras trata como advérbios não ambíguos. Pode ser fundida com a 1ª. lista, com o mesmo tipo de markup/distinções. As duas listas têm tags secundárias de valência potencial e tipo semântico, não exaustivas, mas que seriam desejáveis para todos os casos (locativo, diretivo, temporal, preposition-governing etc.) c) pp VPP (980 itens), lista de PPs governadas por verbos-suporte, que estão inativas porque não têm informação suficiente. Objetivos: checar, classificar, modificar e suplementar essas listas com base em dados de corpus, acrescentando informação de distinção contextual e freqüência tentar dar uma forma consistente e machine-readable para essas informações

7 Exemplo de listas a=sério PP a=sós PP a=súbitas PP a=talho PP a=tempo PP a=tempo=e=a=hora PP a=tempo=e=a=horas PP a=tento PP a=tinir$$ PP a=tino PP a=tiracolo PP a=toda$$ PP a=toda=a=brida PP a=toda=a=força PP a=toda=a=pressa PP a=toda=a=prova PP a=toda=hora PP a=todo=o=pulso PP

8 PPs linked to SVFrequency in PT Freque ncy in BR Less or more constitue nts as MWE? ExampleOther verbsComments/ Results 1 a=altura VPP L:21 G:50100 C:10 L:41 G:2610 0 C:15 à altura à sua altura par 127398: O menos grave: sem laterais à altura, o treinador continua improvisando Rogerinho no setor esquerdo da defesa. Manter, mostrar, ficar, responder The MWE is à=(pron)=altura VPP 2 a=braços VPP L: 07 G:1970 C:03 L:01 G:05 C:02 "a braços com par 52688: É um dos problemas das grandes cidades, a braços com um crescimento para o qual todas as soluções parecem irrisórias. Ficar, continuar, The MWE is a=braços=com

9 PREPOSICOES >> ========================== >> preposicao: senão -> 113 >> preposicao: antes -> 511 >> preposicao: devolvido -> 20 >> preposicao: diante -> 3 >> preposicao: via -> 1253 >> preposicao: como -> 60116 >> preposicao: pera -> 15 >> preposicao: desde -> 16318 >> preposicao: malgrado -> 16 >> preposicao: at -> 62 >> preposicao: ponto -> 9 >> preposicao: contrariamente -> 1 >> preposicao: ante -> 317 >> preposicao: salvo -> 167 >> preposicao: com -> 230612 >> preposicao: exceto -> 499 >> preposicao: contra -> 27702 >> preposicao: tirante -> 6 >> preposicao: trás -> 193 >> preposicao: pra -> 1364 >> preposicao: entre -> 44387 >> preposicao: mediante -> 254 >> preposicao: per -> 452 >> preposicao: em -> 909243

10 >> RESULTADOS PRELIMINARES - PARÂMETRO = 2,576: >> --------------------------------------- >> por;meio ==>T-Test result==> 63.53607570364274 >> até;agora ==>T-Test result==> 48.226063527393784 >> de;ontem ==>T-Test result==> 43.609299957374404 >> até;hoje ==>T-Test result==> 36.67846071336202 >> de;aí ==>T-Test result==> 29.89378097605234 >> por;enquanto ==>T-Test result==> 28.950263532223858 >> há;muito ==>T-Test result==> 25.836297470626864 >> até;ontem ==>T-Test result==> 25.14490811635413 >> por;trás ==>T-Test result==> 25.11867050573179 >> desde;então ==>T-Test result==> 24.813421835192234 >> de;hoje ==>T-Test result==> 24.076928032530628 >> para;cá ==>T-Test result==> 22.77264239678492 >> há;cerca ==>T-Test result==> 22.701200406075312 >> por;aí ==>T-Test result==> 22.152210663751735 >> de;anteontem ==>T-Test result==> 22.083095153007193 >> por;acaso ==>T-Test result==> 21.881518149185847 >> por;aqui ==>T-Test result==> 20.33335778015257 >> com;cerca ==>T-Test result==> 18.61224155443909

11 com;direito;ADJ M S ==> 463 de;imóvel;ADJ M/F P ==> 450 com;grande;ADJ F S ==> 446 de;curto;ADJ M S ==> 429 de;alto;ADJ M S ==> 426 em;segundo;ADJ M S ==> 391 em;comum;ADJ M/F S ==> 377 com;alto;ADJ F S ==> 360 de;1º;ADJ M S ==> 353 em;1º;ADJ M S ==> 340 de;grande;ADJ F P ==> 320 com;grande;ADJ M S ==> 316 de;jovem;ADJ M/F P ==> 316 de;morto;ADJ M P ==> 316 em;baixo;ADJ F S ==> 313 em;pleno;ADJ F S ==> 309 em;terceiro;ADJ M S ==> 280 em;pleno;ADJ M S ==> 272 em;bom;ADJ F S ==> 254 de;longo;ADJ F S ==> 251 de;último;ADJ F S ==> 231 de;grande;ADJ M P ==> 229 em;primeiro;ADJ F S ==> 225

12 ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @N ao=máximo[ao=máximo] ADV @>P ao=máximo[ao=máximo] ADV @ { "@context": "http://schema.org", "@type": "ImageObject", "contentUrl": "http://images.slideplayer.com.br/6/1692509/slides/slide_12.jpg", "name": "ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @N ao=máximo[ao=máximo] ADV @>P ao=máximo[ao=máximo] ADV @ ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @ ao=longo=de[ao=longo=de] PRP @N ao=máximo[ao=máximo] ADV @>P ao=máximo[ao=máximo] ADV @

13 de;público;ADJ M S ==>Chi-Square result==> 1536 de;novo;ADJ F P ==>Chi-Square result==> 1532 em;segundo;ADJ F S ==>Chi-Square result==> 1493 em;grande;ADJ M/F P ==>Chi-Square result==> 1369 em;particular;ADJ M/F S ==>Chi-Square result==> 1325


Carregar ppt "Aprendizagem automática de informações lexicais Coordenação: Violeta de San Tiago Dantas Barbosa QuentalVioleta de San Tiago Dantas Barbosa Quental Pesquisadores:"

Apresentações semelhantes


Anúncios Google