f ӕ ſ b ſ õ Linguística de Corpus e Linguística Computacional: ũ Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 a ſ õ ſ e b ӕ
A Anotação semi-automática de divergências de grafia como fundamento para o processamento automático de textos antigos: Uma experiência na Brasiliana Digital Maria Clara Paixão de Sousa Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Brasiliana Digital NUMEC - Núcleo de Matemática, Estatísica e Complexidade
ӕ Nesta comunicação apresentarei uma experiência de aplicação de técnicas da linguística de corpus ao processo de formação de uma biblioteca digital. Utilizando a ferramenta E-Dictor, concebida como auxiliar da anotação de grafias divergentes para fins de etiquetagem morfossintática automática num corpus histórico, procuramos transformar um conjunto de seis textos portugueses escritos entre 1600-1700 em material processável por outras ferramentas de busca e anotação automática. Para isso, adotamos a técnica originalmente utilizada na anotação de divergência de grafias como um tratamento para o problema dos resultados sofríveis do reconhecimento automático de caracteres naqueles textos. Na comunicação, mostrarei os desafios enfrentados ao longo dessa experiência, seus resultados iniciais, e os caminhos que se abrem a partir disso no sentido do aperfeiçoamento de processos de tratamento automático de textos mais antigos, tanto no que remete ao reconhecimento de caracteres quanto no que tange a indexação para buscas. d S ❡
Um Desafio
Um Desafio Construir uma biblioteca digital com textos acessíveis a programas de buscas www.brasiliana.usp.br Um Desafio
Condição material dos nossos textos mais antigos Um Desafio
Condição material dos nossos textos mais antigos Um Desafio
Condição material dos nossos textos mais antigos Um Desafio
Condição material dos nossos textos mais antigos Um Desafio
Um Desafio
Resultado da aplicação de programa de OCR Ofirm aexperknctt tptedom Phdippe I U Rey de Caííella por força epodeir de armas- àc- cupou antigamente a Coroa de Portugal3 e polo covftgmte prittou ao. Serenifjma ep^étQ po~ dercfo-Rey Dotn loao* (4ntesl)iiqú^de l$aroanç4)do indubitauel dereito desfiafie -ceffào ejuííiça para aditpa Coroa de "Portugal com) legitimo e pro- ximo berdeko da Serenifsima Senhora,, dona Catharina: fmuitos annos continuas per/èuerarap os fifeefmes.de ditto Rey^Ca$fL (a em auiolentà occupaçaó da ditta Coroade Portugal quebramando os concertos epafâos d'amiffade , de confiança edo Comercio que os Senhora Reysda Coroa de Portugglcomos outros P/mcepes Ena- çots d'Europaftntamente fempre refpeitaraó prmando.aosbopsfub- ditos euaffkllos da, mefma coroa defeu dereito de fias leys ecoftumes: talem dijjò carngandoos injufíamete de intoleraueis mokjlias eoutras diuerfis efpecias de tirannia3juntas aexcefstuos tr'èutos3os quaes os Reys de Caííella juntamente como patrimônio da Coroa Real de poKtugalconfomiraôedeftmiraó comguerras efcufadas-.coni as quaes coufasfendo os dittos boòs Subditos euaffkllos daquella Coroa eííi- mulados epromcados dejuíío furor ^vencido o fofrimento 3 com grande animo3 oufaâa eadvertenàa facodiraò aquelle intolerauel e injuflo lugo d El Rey de Caííella reftituindofe afsimefmos a fia liberdade} efinalmente por applaufo comun eUegraô eacclamaraó * deraòomenagem, ejuramentode fidelidade ao ãtto Rey Dom Io- ao* IV , Ofmmtopoderofos Senhores Qrdeés Geraes fenúndo juxtamente por fua parte 3 etendo be' conhecido aintolerauel tiranya edurifsimos encargos do ditto Rey de Caííella efia deteflauel deter minação para alcançar a Monanhia detanto tempo emtoda Europa Um Desafio
Um Desafio Resultado da correção do output de OCR MOſtrou aexperiencia quedom Phelippe I I, Rey de Castella por força epoder de armas oc- cupou antigamente a Coroa de Portugal, e polo conſeguinte priuou ao Sereniſsimo emuito po- deroſo Rey Dom Ioaõ (antes Duque de Bargança)doindubitaueldereito de ſua fuc- aſſaó ejustiça para aditta Coroa de Portugal como legitimo e pro ximo herdeiro da Sereniſsima Senhora dona Catharina: emuitos annos continuos perſeueraraó os fucceſsoresde ditto Rey de Castel- la em auiolenta occupaçaõ da ditta Coroade Portugal quebrantando os concertos epactos d’amiſſade, de confiança edo Comercio que os Senhores Reys da Coroa de Portugal com os outros Princepes Ena- çoés d’Europa ſantamenteſempre reſpeitaraó priuando aos boósſub- ditos euaſſallos da meſma coroa deſeu dereito de ſuas leys ecoftumes: ealem diſſo carregandoos injuſtamete de intoleraueis moleſtias eoutras diuerſas eſpecias de tirannia,juntas aexceſsiuos tributos, os quaes os Reys de Castella juntamente como patrimonio da Coroa Real de Portugal conſomiraó edeftruiraó comguerras eſcuſadas:com as quaes couſas ſendo os dittos boós Subditos euaſſallos daquella Coroa esti-- mulados eprouocados dejusto furor vencido o ſofrimento , com grande animo, ouſadia eadvertencia ſacodiraó aquelle intolerauel e injuſto Iugo d’ El Rey de Castella reftituindoſe afsimeſmos a fua liberdade, efinalmente por applauſo comun ellegeraó eacclamaraó , deraó omenagem, ejuramentó defidelidade ao ditto Rey Dom Io aó IV , Oſmnitopoderoſos Senhores Ordeés Geraes ſentindo juxtamente por ſua parte, etendo be' conhecido aintolerauel tiranya eduriſsimos encargos do ditto Rey de Castella efua deteſlauel deter minaçaó para alcançar a Monarchia detanto tempo emtoda Europa Resultado da correção do output de OCR Um Desafio
Um Desafio Texto efetivamente legível Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom João IV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa Texto efetivamente legível Um Desafio
Condição material dos nossos textos mais antigos Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom João IV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa Um Desafio Condição material dos nossos textos mais antigos
Estratégias
1. Correção de OCR Abbyy 10.0 Estratégias
Estratégias Estratégias Vantagens previstas: 1. Correção de OCR Abbyy 10.0 - Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos Estratégias
Desvantagens previstas: Estratégias 1. Correção de OCR Vantagens previstas: Abbyy 10.0 1. Correção de OCR - Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos Abbyy 10.0 Desvantagens previstas: - Software proprietário: - Impossibilidade de trabalho no código-fonte - Imprevisibilidade de continuidade do programa - Transferibilidade comprometida pelo alto preço - Resultado só pode ser parcial: - Necessidade de novo tratamento para variação de grafia Estratégias
* Paixão de Sousa, Kepler e Faria (2010) 1. Correção de OCR Abbyy 10.0 2. Correção de OCR e Edição filológica (Edictor*) * Paixão de Sousa, Kepler e Faria (2010) Estratégias
Estratégias Vantagens previstas: 1. Correção de OCR Abbyy 10.0 - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida 2. Correção de OCR e Edição filológica (EDictor) - Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia Estratégias
Desvantagens previstas: 1. Correção de OCR Vantagens previstas: Abbyy 10.0 - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida 2. Correção de OCR e Edição filológica (EDictor) - Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia Desvantagens previstas: - Ferramenta não-“treinável”: - Resultados não transferíveis para o total do acervo - Resultados não transferíveis para outros projetos e acervos Estratégias
Resultados
Resultados: Números Financiamento: Pró-reitoria De Graduação - USP Programa Ensinar com Pesquisa Tempo de pesquisa: 12 meses Pesquisadores envolvidos: 7 ( Bruna Baldini de Miranda Fabiana Ferraz Fabio Kepler Jáderson Porto Márcia Ap. Santos Mendes Maria Clara Paixão de Sousa (coord.) Mariane Cristine de Almeida Resultados: Números
Resultados: Números Financiamento: Pró-reitoria De Graduação - USP Programa Ensinar com Pesquisa Tempo de pesquisa: 12 meses Pesquisadores envolvidos: 7 Textos corrigidos: 6 Total de palavras processadas: 39.000 - Total de tokens de variação: 11.500 Resultados: Números
Cf. relatório de pesquisa: http://lampiao. brasiliana. usp Resultados: Números
Versões Disponíveis Para Cada Texto: - Texto com OCR corrigido (equivalente a uma edição paleográfica) - Edição Semi-diplomática - Edição Modernizada - Glossário de correções de OCR - Glossário de edições - Versão com Etiquetação Morfossintática Resultados: Esquema Geral
Versões Disponíveis Para Cada Texto - Texto com OCR corrigido (equivalente a uma edição paleográfica) XML, Html, TXT - Edição Semi-diplomática XML, Html, TXT - Edição Modernizada XML, Html, TXT - Glossário de correções de OCR XML, Html, TXT, CSV - Glossário de edições XML, Html, TXT, CSV - Versão com Etiquetação Morfossintática XML, TXT Resultados: Esquema Geral
- Documento submetido ao OCR Resultados: Exemplos
Treſlado do Latin na lin- goa Portugeza . Resultado do OCR (treinado para o Português Clássico) Treſlado do Latin na lin- goa Portugeza . Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao' I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias Vnìdas dos Pai % es Baìxos . Em a HAYA , Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri- midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais , Anno 1 642 . Curn Privilegio . Resultados: Exemplos
Taxa média de acerto inicial: 59% Treſlado do Latin na lin- goa Portugeza . Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao' I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias Vnìdas dos Pai % es Baìxos . Em a HAYA , Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri- midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais , Anno 1 642 . Curn Privilegio . Taxa média de acerto inicial: 59% Taxa média de acerto após treinamento: 86% Resultados: Exemplos
Treſlado do Latin na lin- goa Portugeza . Texto com OCR corrigido no E-Dictor Treſlado do Latin na lin- goa Portugeza . Trattado das Tregoas e ſuspenſaó de todo o acto de hoſtilidade e bem aſſi de navegaçaó , Comercio ejuntamente Soccorro , fei-to ,começado eaccabado em Haya de Hollande a xÿ . de Iunho 1641 . por tempo de des annos entre o Senhor Triſtaõ de Mendoça Furtado , do Conſelho e Embaixador do Sereniſſimo e poderoſiſſimo Dom Ioao' I V deſte nome Rey de Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores Eſtados Geraés das Provincias Vnidas dos Paizes Baixos . Em a HAYA . Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wouw , Impri- midor Ordinario dos Muy altos e poderoſos Snnores Eſtados Ge- nerais , Anno 1 642 . Cum Privilegio . Resultados: Exemplos
Treslado do latim na língua portuguesa . - Edição Modernizada Treslado do latim na língua portuguesa . Tratado das tréguas e suspensão de todo o ato de hostilidade e bem assim de navegação , comércio e juntamente socorro , feito, começado e acabado em Haya de Hollande a XII . de Junho 1641 . por tempo de dez anos entre o senhor Tristão de Mendoça Furtado , do conselho e embaixador do sereníssimo e poderosíssimo Dom João IV deste nome rei de Portugal e dos Algarvos , e os senhores deputados dos muito poderosos senhores estados gerais das províncias vindas dos países baixos . . Em a HAYA . Em casa da viúva e herdeiros de Ilebrandt Iacobſon van Wouw , imprimidor ordinário dos mui altos e poderosos senhores estados generais, Ano 1642 . Com privilégio Resultados: Exemplos
- Glossário de edições XML, Html, TXT, CSV Resultados: Exemplos
fubditos,,, ſubditos,,,subditos,,súditos - Glossário de edições XML, Html, TXT, CSV fubditos,,, ſubditos,,,subditos,,súditos ſ Resultados: Exemplos
<o> amiſjade</o> <e t="ocr">amiſſade</e> - Anotação XML <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Resultados: Exemplos
1 Banco de erros de reconhecimento Resultados: Produtos <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento capazes de tratar textos escritos em português clássico. Resultados: Produtos
Banco de grafias em variação 2 Banco de grafias em variação <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Estes dados poderiam ser utilizados como base para um programa de buscas no acervo de textos antigos. Resultados: Produtos
Banco de entidades nomeadas 3 Banco de entidades nomeadas <w id="s_3#1" t="honor"> <o>MARQVEZ</o> <e t="mod">MARQUÊS</e> <m v="NPR"/> </w> <w id="s_3#2" t="dep"> <o>DE</o> <m v="P"/> <w id="s_3#3" t="antropo" name="Montalvão (Marquês de)"> <o>MONTALVAM</o> <e t="mod">MONTALVÃO</e> <comment> Jorge de Mascarenhas, Marquês de Montalvão. Fidalgo e administrador colonial português. Foi governador de Mazagão (1615-1619), de Tânger (1622-1624) e do Algarve. No contexto da Dinastia Filipina, tendo caído em desgraça o conde da Torre (sucedido por uma Junta Governativa tríplice), Mascarenhas foi nomeado por Filipe IV de Espanha como 1º vice-rei do Brasil (1640). </comment> Resultados: Produtos
Banco de entidades nomeadas 3 Banco de entidades nomeadas Resultados: Produtos
Banco de entidades nomeadas 3 Banco de entidades nomeadas Resultados: Produtos
1 Aplicações no acervo Resultados: Aplicações Possíveis Resultados:
1 Aplicações no acervo Resultados: Aplicações Possíveis
Aplicações no estudo linguístico 2 Aplicações no estudo linguístico Resultados: Aplicações Possíveis
Novos Desafios
O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras. Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico. Novos Desafios
O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras. Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico. Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português clássico? Novos Desafios
Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português com ampla variação de grafias? Novos Desafios
As pesquisas em linguística de corpus dedicadas às fases antigas da língua portuguesa precisam unir-se às pesquisas em linguística de corpus dedicadas a língua atual - em especial, à língua escrita sujeita à ampla variação de grafia (a língua não-padrão). Novos Desafios
Encontros e Desencontros ? mas... e os Encontros e Desencontros ?
Itens gerados automaticamente pelas ferramentas (OCR, EDictor) <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Novos Desafios
Itens gerados automaticamente pelas ferramentas (OCR, EDictor) <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Itens anotados semi-automaticamente pelos editores com auxílio do EDictor Novos Desafios
Itens gerados automaticamente pelas ferramentas (OCR, EDictor) <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Itens acrescentados manualmente pelos editores Itens anotados semi-automaticamente pelos editores com auxílio do EDictor Novos Desafios
Plano: Geração automática das alterações <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Novos Desafios
Plano: Geração automática das alterações <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> EDictor Novos Desafios
Plano: Geração automática das alterações OCR treinado? <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> EDictor Novos Desafios
Novos Desafios Esse trabalho envolveria o desenvolvimento de ferramentas baseadas em reconhecimento de padrões, estudos probabilísiticos, ... <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Novos Desafios
Novos Desafios Esse trabalho envolveria a linguística computacional <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Novos Desafios
Novos Desafios Esse trabalho envolveria a linguística computacional, a linguística de corpus, a linguística histórica, e a filologia <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> Novos Desafios
f ĩ ũ ẽ a ſ õ ǣ δ b ſ e ӕ Obrigada! S ʦ d ❡
https://github.com/edictor f ĩ ũ ẽ a ſ õ ǣ δ b ſ e ӕ Obrigada! S ʦ d ❡ mariaclara@usp.br http://www.brasiliana.usp.br https://github.com/edictor
Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 A Anotação semi-automática de divergências de grafia como fundamento para o processamento automático de textos antigos: Uma experiência na Brasiliana Digital Maria Clara Paixão de Sousa Universidade de São Paulo Faculdade de Filosofia, Letras e Ciências Humanas Brasiliana Digital NUMEC - Núcleo de Matemática, Estatísica e Complexidade