A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008.

Apresentações semelhantes


Apresentação em tema: "Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008."— Transcrição da apresentação:

1 Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008 – ICMC-USP

2 Atividades do sub-projeto 1. Definição dos Protocolos e Padrões de Representação dos Documentos 2. Disponibilização dos Córpus de Treinamento 3. Construção da Plataforma de Acesso aos Córpus – o Portal de Córpus PLUS: disponibilização do córpus global (PLN-BR FULL - 29.014.089 tokens ) no ambiente Philologic: http://moodle.icmc.usp.br/philologic-plnbr1/ http://moodle.icmc.usp.br/philologic-plnbr2/ http://moodle.icmc.usp.br/philologic-plnbr3/

3 Definição dos Protocolos e Padrões de Representação dos Documentos 1.1 Adotamos o padrão XCES para anotação: dos cabeçalhos dos textos dos córpus da estrutura geral (parágrafos e sentenças) 1.2 Essas 2 últimas foram geradas automaticamente com a ajuda do segmentador sentencial SENTER, citado acima. 1.3 A anotação é stand-off, mas oferecemos também a intercalada, realizada por uma ferramenta disponibilizada pelo projeto do American National Corpus (ANC) Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas

4 Updates Estamos trabalhando na criação de um script independente que gere as 3 anotações (marcação lógica de parágrafos, de sentenças e cabeçalho XCES mínimo) para ser usado fora do ambiente do Portal Um RT está para sair e deve descrever tanto as anotações estruturais quanto lingüísticas Dois RT: – Aluísio, S. M., Muniz, F.A.M., Infante, K.M. (2007). Projeto Pln-Br: O Cabeçalho em Xml para os Textos do Córpus e o Editor Web de Cabeçalhos. Nilc-Tr-07-05, Junho 2007, 69 p. – Aluísio, S. M., Muniz, F.A.M. (2007). Instalação e Administração do Portal de Córpus do Projeto PLN-BR. Nilc-Tr-07-12, Outubro 2007, 17 p.

5 Disponibilização dos Córpus de Treinamento Córpus Gold Standard (PLN-BR GOLD - 338.441 tokens) - Público amostra aleatória estratificada e proporcional à distribuição do córpus global do projeto PLN-BR com relação aos textos dos cadernos. Ela é formada por 1% dos textos do córpus maior e possui somente notícias e reportagens (o que equivale a 1.024 textos). Córpus para treinamento de classificadores de conteúdo (PLN-BR CATEG - 9.780.220 tokens) – Restrito aos membros Amostra com 29.999 textos, seguindo o mesmo tipo de amostra do Córpus Gold Standard

6 Updates GOLD receberá a última versão das anotações POS, Phrases, WORDS, vinda do Palavras via script criado pelo grupo de Renata.

7 Construção da Plataforma de Acesso aos Córpus – o Portal de Córpus [1] A plataforma possui: um Editor Web de Cabeçalhos que preenche um banco de dados (BD) com informações dos cabeçalhos dos textos. Com os dados dos textos no BD há a possibilidade de: – várias formas de pesquisa aos textos dos córpus e montagem de sub- córpus. O sub-córpus criado com as pesquisas: é disponibilizado para download seguindo o padrão XCES, a partir dos dados do banco de dados e em texto crú pode ainda ser consultado via uma ferramenta de exploração gráfica – o PEx-Corpus Tool [2] – O PEx-Corpus é uma adaptação do projeto Projection Explorer (PEx) que permite inspecionar visualmente um subcórpus para explorar o seu conteúdo e criar outros subcórpus com base numa seleção de tópicos. [1][1] http://www.nilc.icmc.usp.br:8180/portal/ [2] http://www.lcad.icmc.usp.br/~paulovic/pex/

8 Updates: Resultados de Pesquisa, Divulgação Só 1 artigo sobre o Portal – precisamos divulgar melhor o projeto que pode beneficiar muitos pesquisadores Disponibilização do código do Portal na Incubadora Fapesp – Ótimo para divulgação e facilidade de acesso – Uso do Portal em 2 mestrados: Filipi Silveira (Vera Strube) – agregou funcionalidades de compilação de córpus a partir de vários formatos e funcionalidades para análise de córpus e vai deixar disponível publicamente o Entrelinhas Fernando Muniz (Sandra Aluísio) – vai integrar o Portal num ambiente colaborativo de geração de produtos terminológicos e-termos, integrar métodos prontos para extração de termos (do mestrado de Junior, aluno de Renata???) e trabalhar com o tema normatização de manuais de software, via simplificação textual

9 Proposta de pesquisa - artigos Mostrar como o Portal pode ser integrado em projetos maiores de compilação/uso de córpus via 2 estudos de caso: – Entrelinhas (Vera Strube) – E-Termos + Métodos de Extração de Termos (Sandra, Gladis e Renata) Mostrar usos do PLN-BR FULL para – Glosagem da Wordnet.Br e sua Indexação à WordNet de Princeton (Bento) – Aprendizagem Automática de Informações Lexicais (Violeta)

10 Coisas que não sei Não sei como os córpus foram usados pelos subprojetos: – Sumarização Automática e Recuperação da Informação Textual – Representação do Conhecimento Textual Mas adoraria saber ;)

11 Fernando Muniz Vai explicar a parte técnica do Portal

12 Portal de Córpus do Projeto PLN-BR Marcelo Muniz, Fernando Paulovich, Rosane Minghim, Kleber Infante, Fernando Muniz, Renata Vieira, Sandra Aluísio

13 O Portal de Córpus Desenvolvido usando tecnologias open source Arquitetura Cliente-Servidor Um portal de Córpus compatível com XCES – Baseado em um banco de dados que mapeia o formato XCES em entidades relacionais para permitir consultas rápidas Acesso público em: http://www.nilc.icmc.usp.br:8180/portal/ Download do Portal disponível na Incubadora Fapesp: http://incubadora.fapesp.br/projects/portal-corpus/

14 Client Side Server Side Browser (Portal) Web server (servlet container) MySQL Header Editor + Corpus Uploader (java applet) PEx-Corpus Tool (java applet) texts XCES Senter + ANC Tools XCES, text, annotations search results Portal de Córpus client/server architecture

15 Portal de Córpus Características – Acesso controlado – Córpus público ou privado – Inserir/Editar informações de cabeçalho (Header editor) – Inserir/Editar anotações stand-off (Header editor) – Funções de busca para construir subcorpora o Text type, keywords, Bibliographic data, newspaper sections – PEx-corpus tool (visual document map)

16 Efetuando buscas Efetuar login Selecionar córpus Selecionar tipo de Busca Fazer download do resultado Mapeamento de documentos através da ferramenta PEx-Corpus

17

18

19 Efetuando buscas

20 Efetuando buscas - resultado

21

22 Header Editor Acesso restrito – Usuário, senha, endereço do servidor, nome da base de dados Possui uma interface gráfica (java applet) que permite ao usuário – criar, manter e visualizar informações do cabeçalho de textos que estão armazenados em um banco de dados MySQL Cada córpus é armazenado em um base de dados diferente Opção de inserir vários textos de uma vez

23

24 Conexão com o banco de dados

25

26 Administração do portal Administração de usuários Administração de Córpus – Criar, desativar, alterar Atualização do portal com notícias Configurações gerais – Links, arquivos, páginas do portal www.nilc.icmc.usp.br:8180/portal/admincp/index.jsp

27

28 Recomendações A utilização da ferramenta de busca e do PEx- Córpus pode ser feita a partir de qualquer computador com acesso à internet e um navegador web disponível. A utilização do Header Editor preferencialmente deve ser feita em ambiente de INTRANET.

29 Portal Interno Acesso restrito – Cadastro independente do Portal de Córpus Endereço: http://www.nilc.icmc.usp.br:8180/portalinterno/ Córpus disponíveis: PLN-BR CATEG (30.000) PLN-BR FULL (100.000)

30 PLN-BR FULL no Philologic Acesso restrito Parte 1 - 1994-1997 – http://moodle.icmc.usp.br/philologic-plnbr1/ http://moodle.icmc.usp.br/philologic-plnbr1/ Parte 2 - 1998-2001 – http://moodle.icmc.usp.br/philologic-plnbr2/ http://moodle.icmc.usp.br/philologic-plnbr2/ Parte 3 - 2002-2005 – http://moodle.icmc.usp.br/philologic-plnbr3/ http://moodle.icmc.usp.br/philologic-plnbr3/

31 Obrigado! contato fernando.muniz@gmail.com


Carregar ppt "Construção, Manutenção e Disponibilização de Corpora Marcelo Muniz, Kleber Infante, Fernando Muniz Sandra Aluísio III Workshop do Projeto PLN-BR - 9/5/2008."

Apresentações semelhantes


Anúncios Google