Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero.

Slides:



Advertisements
Apresentações semelhantes
Presenter’s Notes Some Background on the Barber Paradox
Advertisements

Modal Verbs.
Object and Subject Pronouns
Criando corpora pessoais Corpógrafo – presente e futuro
(pronomes possessivos)
Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material.
And now, the end is here E agora o fim está próximo, And so I face the final curtain E então eu encaro a última cortina. My friend, I'll say it clear.
Modal verbs O modal Verb é um tipo especial de verbo auxiliar que é usado junto com um verbo principal. De modo geral, indica possibilidade, obrigação,
Shirley Bassey Where do I begin?.
Pronomes Indefinidos.
Possessives Teacher Natália.
Pronomes pessoais & Indefinidos
LÍNGUA INGLESA - REVISÃO
Wh- Questions e Short Answers
SIMPLE PRESENT O Simple Present é o equivalente, na língua inglesa, ao Presente do Indicativo, na língua portuguesa. O Simple Present é usado para indicar.
Objetivo: Como usar vídeos em suas aulas.
RELATIVE PRONOUNS SUMMARY.
Teacher Cadu English Review
Bible Story Jesus' first miracle. One day there was a wedding in the city of Cana in Galilee, Jesus’ mother was there and so were Jesus’ disciples and.

suas Tecnologias - Inglês Possessive Adjectives/Possessive Pronouns
MY WAY Frank Sinatra MARILYNMONROEMARILYNMONROE Ligue o som.
Unit 8 Subject and Object Pronouns.
Usando Perl para a extracção automática de informação a partir de corpus bruto / cru Tema 4A Pablo Gamallo Otero
Estratégia empresarial de TI Aula 5 – Teoria dos jogos (3) Prof. E. A. Schmitz.
Usando Perl para a extracção automática de informação a partir de corpus anotado e organizado em n-gramas Tema 4B Pablo Gamallo Otero
DISCURSO DIRETO E INDIRETO
Temas 3, 4 e 5 Pablo Gamallo Otero
Do you remember this?!!! Do you Know this?!!! Jumeirah Dubailand hotel,have you ear about that? Burj Al Arab.
Chapter 1 - The Foundations for a New Kind of Science Wolfram, Stephen. A New Kind of Science. Wolfram Media, Inc
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 3: Utilizando Legends Tiago Marçal Ricotta Gerente de Projetos – Brasoftware.
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 6: Quantitativos de áreas precisos Tiago Marçal Ricotta Gerente de Projetos.
INGLÊS INSTRUMENTAL TEMA: REFERENTES CONTEXTUAIS
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 5: Trabalhando em colaboração Tiago Marçal Ricotta Gerente de Projetos –
Pronomes - Pronouns.
Autodesk Revit para projetos executivos de arquitetura Módulo 4: Representação gráfica de diversas fases Tiago Marçal Ricotta Gerente de Projetos – Brasoftware.
daily (diariamente) weekly (semanalmente)
The Passive Voice By Laécio Miranda.
I could start dreamin, but it never ends Eu poderia começar a sonhar mas isso nunca terminaria As long as you're gone we may as well pretend Enquanto.
Heaven Bryan Adams Oh - thinkin about all our younger years Pensando nos nossos tempos de juventude There was only you and me Só existia eu e você.
Simple Present x Present Continuous
Billy Paul Without You No I can't forget this evening Não, eu não posso esquecer esta tarde Or your face as you were leaving Ou o seu rosto quando você.
POSSESSIVE ADJECTIVES
XML Namespaces XML Namespaces provê um método para evitar conflito de nomes de elementos.
Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material informático.
O que são os alertas do Google?
O Professor de Inglês Aprendendo e Ensinando
Can Must Verbos Modais Could Should.
Modal verbs II Verbos modais 2.
Present Perfect Continuous and Past Perfect
Communicate - Trade - Culture William Barron Mobile/Cell –
Introductions, Sustaining a Basic Conversation, and learning about family.
Adversativas: Ligam idéias que se opõem. Ex: He had no qualifications, BUT he got the job. HOWEVER AND YET NEVERTHELESS LinksTranslation ButMas, porém.
QUESTION TAGS or TAG QUESTIONS
By Búzios Slides Sincronizado com a Música All For Love Bryan Adams & Rod Stewart.
-A partir do 2º Slide a passagem é automática!
They try to tell us we´re too young Tentam nos dizer que somos muito jovens Too young to really be in love Jovens demais pra amar They say that love´s.
SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.
Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material.
PRESENT PERFECT. ESTRUTURA DO PRESENT PERFECT É formado por have (‘ve) / has (‘s) mais o particípio passado do verbo principal. –Ex.: I’ve seen Sarah.
MELHOR VISUALIZADO NO POWER POINT 2000 There comes a time, when we hear a certain call Haverá um tempo em que ouviremos um chamado When the world must.
Where do I begin Por onde eu começo To tell a story of how great a love can be, A contar a história de quão grande um amor pode ser? The sweet love.
Abril 2016 Gabriel Mormilho Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Departamento de Administração EAD5853 Análise.
-A partir do 2º Slide a passagem é automática!
Sunday School Adolescents Theme: Evangelism.
Sunday Bible School Theme: Evangelism Children & Intermediates
My Way - Frank Sinatra And now, the end is here E agora o fim está próximo, And so I face the final curtain E então eu.
FORMAS VERBAIS II (TEMPOS PROGRESSIVOS, PERFEITOS)
Transcrição da apresentação:

Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero

TEMA 1 Noções básicas de Extração de Informação (EI) Pablo Gamallo Otero

Bibliografia Chantal Pérez Hernández, Antonio Moreno (2008), “Lingüística computacional y lingüística de corpus: Potencialidades para la investigación textual”. Disponível em: Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil. Marco Baroni (2009), “Distributions in text”. In Anke Lüdeling and Merja Kytö (eds.), Corpus linguistics: An international handbook, Berlin: Mouton de Gruyter. Disponível em: J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona, págs Disponível em: Pablo Gamallo & Isaac González (2009) "Una gramática de dependencias basada en patrones de etiquetas", Procesamiento del Lenguaje Natural, 43, pp Disponível em:

PLANO  corpus e extração  extração de frequências de palavras (tokens e formas)‏  lei de zipf  extração de informação léxico-semântica a partir das frequências  extrações básicas: concordâncias

corpus e extração  Características dum corpus:  Deve estar formado por um conjunto de dados lingüísticos naturais (uso oral ou/e escrito).  O conteúdo do corpus deve ser cuidadosamente escolhido segundo certos critérios.  O corpus deve ser representativo duma língua ou variedade.  O corpus dever ser vasto para ser representativo.  O corpus deve ter como finalidade ser objecto de estudo linguístico.  Processos computacionais que se podem realizar num corpus:  Anotação morfológica, sintática e semântica.  Extração de informação

corpus e extração  Tipo de informação extraída:  Frequências de ocorrências de palavras, de tipos, de lemas,...  Semelhança semântica entre palavras: se duas palavras aparecem no corpus nos mesmos contextos sintácticos, então devem ser sinómimos ou estar semanticamente relacionadas.  Equivalentes de tradução  Métodos de extração:  Métodos supervisados  Métodos não supervisados

Extração de frequências de palavras  Contagem de palavras, ocorrências ou itens (tokens)‏  Contagem de palavras, formas ou tipos (types) conta-se o número de palavras diferentes.  Contagem de lemas, ou lexemas (lemmas)‏ Os corpus linguísticos contenhem um grande número de Hapax Legomena: palavras que ocorrem apenas uma vez (isto é, frequência 1)  Contagem de PoS tags ou categorias: Nomes, verbos...

Extração de frequências de palavras  Quais são as palavras mais frequentes num corpus representativo dum domínio específico? PALAVRAFREQUÊNCIA the7332 and2972 a1775 to1725 of1440 was1161 it1027 in906 that877 Tom679 Palavras mais frequêntes de “Tom Sawyer” PALAVRAFREQUÊNCIA la que en el y a los las del se Comisión Palavras mais frequêntes de Europarl (Parlamento Europeu)‏

Extração de frequências de palavras the of and to a in that is 9815 was 9542 he 9488 for 8760 it 7290 with 7251 as 6997 his 6742 on 6376 be 5377 at 5306 by 5178 i 5146 this 5131 had 4609 not 4394 are 4381 but 4370 from 4207 or 3942 have 3748 an 3619 they 3561 which 3297 one 3286 you 3284 were 3037 her 3001 all 2859 she 2725 there 2715 would 2670 their 2653 we 2619 him 2473 been 2439 has 2331 when 2252 who 2244 will 2216 more 2202 no 2199 if 2096 out 1985 so 1961 said 1908 what 1895 up 1858 its 1815 about 1791 into 1790 than 1789 them 1772 can 1747 only 1702 other 1635 new 1617 some 1599 time 1599 could 1573 these 1412 two 1400 may 1377 then 1362 do 1361 first 1345 any 1319 my 1314 now 1303 such 1290 like 1252 our 1237 over 1207 man Palavras mais frequêntes do corpus Brown (não específico).

Extração de frequências de palavras  Quantas ocorrências de palavras (tokens ou itens) tem um corpus? ”Tom Sowyer” tem ocorrências de palavras. “El Quijote” tem “Brown” tem 1 milhão. “EuroParl” tem 30 milhões 600 mil  Quantas palavras diferentes (tipos ou formas) tem um corpus?  ”Tom Sowyer” tem palavras diferentes (8,9 tokens por tipo).  “El Quijote tem (9.8 tokens por tipo). (se consideramos os primeiros tokens, extraem-se mais de tipos)‏  “Brown” tem (17 tokens por tipo).  “EuroParl” tem (192 tokens por tipo).

Extração de frequências de palavras 268,1100% % TOTAL ,25% ,00%16> ,80% ,02% a ,01% ,28% a ,38% ,83% a ,87,81% ,61% a ,42,11% ,49% a 99 3,80,48% ,11% a 9 1,00,15% ,65% frequência média % ocorrências Ocorrências% formas FormasBanda de ocorrências Corpus Banco do Português:

Modelo de frequências: Lei de Zipf F(pal) = K / R(pal)‏  Dada uma constante K (frequência da palavra mais frequente), e dado o ranking R duma palavra, podemos predizer a frequência F da palavra: fRF 7732 the that ,2 two ,3 name ,3 comes ,4 fRF group ,88 friends108009,66 family810007,3 brushed420003,86 Applausive180000,97

Modelo de frequências: Lei de Zipf F(pal) = K / R(pal)‏ fRFdif (%)‏ de la % los % artículo % artículos % litigio ,412% desplazarse ,110% 21% (média)‏ Constituição Europeia (versão espanhola)‏

Modelo de frequências: Lei de Zipf F(pal) = K / R(pal)‏ Constituição Europeia (versão inglesa)‏ fRFdif(%)‏ of to % in % or % banks % commitment ,32% ,330% 14% (média)‏

Modelo de frequências: Lei de Zipf F(pal) = K / R donde K = N / 10 onde N = tamanho do corpus (i.e., número total de ocorrências)‏  A Lei de Zipf sofreu numerosas correcções. Aqui abaixo, monstram-se duas modificações da fórmula inicial: F(pal) = K / R α onde α = próximo a 1 (p.e. 0’9)‏

Modelo de frequências: Lei de Zipf Prácticas com ferramentas estatísticas cat DonQuijote |./tokenizer.perl |./lei_zipf.perl

Extração de informação léxico-semântica  Matrizes “Palavra / Contexto”

Extração de informação léxico-semântica procedimento | processo, acção, legislação problemática | temática, problema, tema problema | questão, problemática, dificuldade princípio | regra, norma, critério pressuposto | requisito, condição, critério presidente | secretário, membro, director preço | valor, montante, taxa  Listas de palavras semelhantes

Extração de informação léxico-semântica 2 unión, comunidad, estado, política, paíscommunity 4 grupo, consejo, parlamento, comité, comisióncommittee 1,2 compromiso, obligación, respuesta, responsabilidad, criteriocommitment 1,2 comentario, observación, pregunta, reflexión, palabracomment 1 colega, diputado, amigo, ministro, pueblocolleague empresa, industria, mercado, economía, sector cohesión, integración, solidaridad, estabilidad, igualdad credibilidad, coherencia, claridad, rigor, visibilidad 1 company 1 cohesion 2 coherence  Equivalentes de tradução

Extrações básicas: Concordâncias A concordância é uma listagem das ocorrências duma forma específica, dispostas de tal modo que a palavra de busca (aquela que se quere investigar) aparece centralizada e acompanhada do seu contexto original, isto é, das palavras que ocorrem junto com ela no corpus. 13 | acordo em nada prejudica os direitos, no Reino da Dinamarca, dos nacionais dinamarqueses que res 14 | e algumas destas zonas na Bélgica, na Itália e no Reino Unido estão situadas em regiões que têm já 15 | e Tournai. Itália: província de Nápoles. Reino Unido: região de Strathclyde, counties de Clevela 16 | veis; Considerando que algumas destas zonas no Reino Unido estão situadas em regiões que têm já um elev 17 | específica diz respeito às seguintes zonas de Reino Unido: região de Strathclyde, condados de C 18 | grama especial», a apresentar à Comissão pelo Reino Unido. 2. O programa especial terá por fina 19 | izado a pedido dos governos da Irlanda e do Reino Unido, assim como da Comissão, recomendou que a r 20 | entre a Comunidade Económica Europeia e o Reino da Noruega na sequência da adesão da República Hel

Concordâncias  Palavras de contexto (context words): palavras que estão próximas do nódulo durante a busca (dentro da mesma janela). São opcionais, ou seja, é possível fazer uma concordância sem especificá-las.  Janela (Window): distância máxima entre o nódulo e a primeira palavra à esquerda (ou a ùltima à direita) dentro duma concordância.  Palavra de busca (search word) ou Nódulo: palavra (ou grupo de palavras) da qual o usuário tem interesse em obter uma concordância.