Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material.

Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material informático (CD LIVE): Susana Sotelo Docío

Extracción automática de información a partir de corpus Pablo Gamallo Otero http://gramatica.usc.es/~gamallo/

Bibliografia Levi Lúcio, Vasco Amaral (2001), Programação em PERL, FCA-Editora de Informática. Hammond, Michael (2003), Programming for linguistics: Perl for language researchers, Blackwell Publishing. Tanguy, Ludovic (2007), Perl pour les linguistes, Hermès - Lavoisier. http://perl.linguistes.free.fr/. Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil. M. Baroni (To appear), Distributions in text. In Anke Lüdeling and Merja Kytö (eds.), Corpus linguistics: An international handbook, Berlin: Mouton de Gruyter. pode-se descarregar em: http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/Baroni_distributions.pdf TUTORIAIS ON LINE (em espanhol): http://www.geocities.com/SiliconValley/Station/8266/perl/index.html http://kataix.umag.cl/~mmarin/topinf/perl.html

PLAN DEL CURSO Nociones básicas (2-3 horas) Iniciación a la programación en PERL (12 horas) leer el texto de un fichero procesar el texto leído escribir los resultados del procesamiento en un fichero

NOÇÕES BÁSICAS PLANO corpus e extracção extracção de frequências de palavras (tokens e formas) lei de zipf extracção de informação léxico-semântica a partir das frequências extracções básicas: concordâncias

corpus e extracção Características dum corpus: Deve estar formado por um conjunto de dados lingüísticos naturais (uso oral ou/e escrito). O conteúdo do corpus deve ser cuidadosamente escolhido segundo certos critérios. O corpus deve ser representativo duma língua ou variedade. O corpus dever ser vasto para ser representativo. O corpus deve ter como finalidade ser objecto de estudo linguístico. Processos computacionais que se podem realizar num corpus: Anotação morfológica, sintática e semântica. Extracção de informação

corpus e extracção Tipo de informação extraída: Frequências de ocorrências de palavras, de tipos, de lemas,... Semelhança semântica entre palavras: se duas palavras aparecem no corpus nos mesmos contextos sintácticos, então devem ser sinómimos ou estar semanticamente relacionadas. Equivalentes de tradução Métodos de extracção: Métodos supervisados Métodos não supervisados

Extracção de frequências de palavras Contagem de palavras, ocorrências ou itens (tokens) Contagem de palavras, formas ou tipos (types) conta-se o número de palavras diferentes. Contagem de lemas, ou lexemas (lemmas) Os corpus linguísticos contenhem um grande número de Hapax Legomena: palavras que ocorrem apenas uma vez (isto é, frequência 1)

Extracção de frequências de palavras Quais são as palavras mais frequentes num corpus representativo dum domínio específico? PALAVRAFREQUÊNCIA the7332 and2972 a1775 to1725 of1440 was1161 it1027 in906 that877 Tom679 Palavras mais frequêntes de Tom Sawyer PALAVRAFREQUÊNCIA la1.204.397 que1.007.827 en753.944 el666.949 y648.594 a583.111 los523.877 las370.840 del324.619 se318.383 Comisión125.258 Palavras mais frequêntes de Europarl (Parlamento Europeu)

Extracção de frequências de palavras 69970 the 36410 of 28852 and 26149 to 23326 a 21341 in 10594 that 10102 is 9815 was 9542 he 9488 for 8760 it 7290 with 7251 as 6997 his 6742 on 6376 be 5377 at 5306 by 5178 i 5146 this 5131 had 4609 not 4394 are 4381 but 4370 from 4207 or 3942 have 3748 an 3619 they 3561 which 3297 one 3286 you 3284 were 3037 her 3001 all 2859 she 2725 there 2715 would 2670 their 2653 we 2619 him 2473 been 2439 has 2331 when 2252 who 2244 will 2216 more 2202 no 2199 if 2096 out 1985 so 1961 said 1908 what 1895 up 1858 its 1815 about 1791 into 1790 than 1789 them 1772 can 1747 only 1702 other 1635 new 1617 some 1599 time 1599 could 1573 these 1412 two 1400 may 1377 then 1362 do 1361 first 1345 any 1319 my 1314 now 1303 such 1290 like 1252 our 1237 over 1207 man Palavras mais frequêntes do corpus Brown (não específico).

Extracção de frequências de palavras Quantas ocorrências de palavras (tokens ou itens) tem um corpus? Tom Sowyer tem 71.370 ocorrências de palavras. El Quijote tem 376.509. Brown tem 1 milhão. EuroParl tem 30 milhões 600 mil Quantas palavras diferentes (tipos ou formas) tem um corpus? Tom Sowyer tem 8.018 palavras diferentes (8,9 tokens por tipo). El Quijote tem 38.552 (9.8 tokens por tipo). (se consideramos os 71.000 primeiros tokens, extraem-se mais de 12.000 tipos) Brown tem 55.734 (17 tokens por tipo). EuroParl tem 159.211 (192 tokens por tipo).

Extracção de frequências de palavras 268,1100%125.927.624100%469.745TOTAL 2.223.37028,25%35.573.9220,00%16> 1.000.000 238.94714,80%18.637.8820,02%78 100.000 a 999.999 24.75626,01%32.753.0320,28%1.323 10.000 a 99.999 2.93020,38%25.663.3211,83%8.5861.000 a 9.999 316,87,81%9.840.2386,61%31.065100 a 999 32,42,11%2.662.49517,49%82.17410 a 99 3,80,48%610.45934,11%160.2282 a 9 1,00,15%186.27539,65%186.2751 frequência média % ocorrências Ocorrências% formas FormasBanda de ocorrências Corpus Banco do Português:

Modelo de frequências: Lei de Zipf F(pal) = K / R(pal) Dada uma constante K (frequência da palavra mais frequente), e dado o ranking R duma palavra, podemos predizer a frequência F da palavra: fRF 7332 the733217332 that87710773 two10410077 name2140018,3 comes1650015,4 fRF group1360012,88 friends108009,66 family810007,3 brushed420003,86 Applausive180000,97

Modelo de frequências: Lei de Zipf F(pal) = K / R(pal) fRFdif (%) 11425 de11425111425 la64732571211% los35285228540% artículo179110114236% artículos14010011418% litigio13100011,412% desplazarse1100001,110% 21% (média) Constituição Europeia (versão espanhola)

Modelo de frequências: Lei de Zipf F(pal) = K / R(pal) Constituição Europeia (versão inglesa) fRFdif(%) 13328 of13328113328 to74252666410% in32605266521% or13941013324% banks16110013317% commitment13100013,32% 19851100001,330% 14% (média)

Modelo de frequências: Lei de Zipf F(pal) = K / R donde K = N / 10 donde N = tamaño del corpus (i.e., número total de ocurrencias) La Ley de Zipf sufrió numerosas correcciones. He aquí la misma fórmula con dos factores de corrección: F(pal) = K / R α donde α = próximo a 1 (p.e. 09)

Modelo de frequências: Lei de Zipf Prácticas com ferramentas estatísticas more DonQuijote |./tokenizer.perl |./lei_zipf.perl

Extracção de informação léxico-semântica Matrizes Palavra / Contexto

Extracção de informação léxico-semântica procedimento | processo, acção, legislação problemática | temática, problema, tema problema | questão, problemática, dificuldade princípio | regra, norma, critério pressuposto | requisito, condição, critério presidente | secretário, membro, director preço | valor, montante, taxa Listas de palavras semelhantes

Extracção de informação léxico-semântica 2 unión, comunidad, estado, política, paíscommunity 4 grupo, consejo, parlamento, comité, comisióncommittee 1,2 compromiso, obligación, respuesta, responsabilidad, criteriocommitment 1,2 comentario, observación, pregunta, reflexión, palabracomment 1 colega, diputado, amigo, ministro, pueblocolleague empresa, industria, mercado, economía, sector cohesión, integración, solidaridad, estabilidad, igualdad credibilidad, coherencia, claridad, rigor, visibilidad 1 company 1 cohesion 2 coherence Equivalentes de tradução

Extracções básicas: Concordâncias A concordância é uma listagem das ocorrências duma forma específica, dispostas de tal modo que a palavra de busca (aquela que se quere investigar) aparece centralizada e acompanhada do seu contexto original, isto é, das palavras que ocorrem junto com ela no corpus. 13 | acordo em nada prejudica os direitos, no Reino da Dinamarca, dos nacionais dinamarqueses que res 14 | e algumas destas zonas na Bélgica, na Itália e no Reino Unido estão situadas em regiões que têm já 15 | e Tournai. Itália: província de Nápoles. Reino Unido: região de Strathclyde, counties de Clevela 16 | veis; Considerando que algumas destas zonas no Reino Unido estão situadas em regiões que têm já um elev 17 | específica diz respeito às seguintes zonas de Reino Unido: região de Strathclyde, condados de C 18 | grama especial», a apresentar à Comissão pelo Reino Unido. 2. O programa especial terá por fina 19 | izado a pedido dos governos da Irlanda e do Reino Unido, assim como da Comissão, recomendou que a r 20 | entre a Comunidade Económica Europeia e o Reino da Noruega na sequência da adesão da República Hel

Concordâncias Palavra de busca (search word) ou Nódulo: palavra (ou grupo de palavras) da qual o usuário tem interesse em obter uma concordância. Palavras de contexto (context words): palavras que estão próximas do nódulo durante a busca (dentro da mesma janela). São opcionais, ou seja, é possível fazer uma concordância sem especificá-las. Janela (Window): distância máxima entre o nódulo e a primeira palavra à esquerda (ou a ùltima à direita) dentro duma concordância.

Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material.

Apresentações semelhantes

Apresentação em tema: "Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material.

Apresentações semelhantes

Apresentação em tema: "Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback