Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouFrancisco Delgado Alterado mais de 10 anos atrás
1
Criando corpora pessoais Corpógrafo – presente e futuro
Belinda Maia
2
PRESENTE
3
Corpógrafo Um conjunto de ferramentas que permitem: Criar corpora
Analisar corpora Extrair e catalogar itens linguísticos Armazenar o material estudado Exportar os resultados
4
Corpógrafo Versão online: Versão descarregável Tem todas as funções
Cada pessoa ou grupo trabalha num espaço próprio O trabalho de cada espaço é privado Versão descarregável Tem de pedir licenças para certas funções Não compatível com Windows
5
Criar corpora Colecção de textos
Limpeza de formatação – e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata Referências bibliográficas, fontes, etc Classificação - ‘medium’, género, domínio Língua
6
Criar corpora Organização – e reorganização - de textos em corpora
Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora
7
Analisar corpora Concordância frase – frase inteira
Concordância Janela – até 15 átomos de cada lado Concordância KWIC – até 15 átomos ou 100 caráteres N-grams – até 15 – ordem alfabética / frequência
8
Concordâncias Pode ver
Metadata do texto fonte Estatísticas do átomo / frase no corpus Outra forma de concordância Em concordância janela – pode reorganizar por colunas à esquerda ou direita
9
Tipos de pesquisa Por expressões regulares MySQL
Por PoS NooJ – em Francês, Inglês ou Português Utiliza dicionários etiquetados Por sequências de expressões regulares ou gramáticas NooJ
10
Centro de conhecimento
Bases de dados terminológicas Objectivo original – extracção de terminologia Bases de dados fraseológicas Objectivo mais recente – permitir extracção e classificação de Itens do léxico geral Expressões multi-palavras
11
Bases de dados terminólogicas
BDs - multilingual Ferramentas: n-gram com filtros para extracção de ‘candidatos a termos’ Possibilidade de pesquisar definições e relações semânticas Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia
12
Informação em BD Geração de estatísticas dos termos
Frequência Co-ocurrência em textos Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos Concordância de corpora comparáveis Criação de relações semânticas pelo pesquisador
13
BDs Fraseológicas Algumas funções iguais ou semelhantes às BDs terminológicas MAS Pesquisa com gramáticas NooJ – resultados > BD Relações discursivos (Rhetorical Structure Theory) Possibilidade de criar classificações do investigador
14
Exportação de dados Exportação de corpora Exportação de BDs
15
FUTURO
16
Funcionamento Acelerar processamento
Tornar possível manuseamento de maior quantidade de dados Permitir mais interacção entre áreas privadas quando desejado Criar possibilidade de projectos em grupo mais sofisticados
17
Textos e corpora Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc Melhorar sistema de limpeza de textos
18
Listas do léxico Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus Criar ‘standard wordlists’ para comparação + sistema estatística relacionado Etiquetagem PoS automática + ferramentas de correcção
19
Pesquisa de corpora My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação
20
Outras Ideias Aumentar possibilidades de criar relações
Sintácticos Semânticos Criar possibilidades de visualizar as relações estabelecidos Usar métodos estatísticos para criar ‘word clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining
21
Aproveitar Wordnet – original e em PT Framenet – original e em PT
Outros maneiras ‘linguísticas’ de analisar a linguagem …… Sistemas informáticos > word clouds
22
Por exemplo http://news.bbc.co.uk/2/hi/americas/7813432.stm
What words did George Bush use most during this eight-year presidency?
24
Wortschatz – Univ. Leipzig
Computational Linguistics Artificial Intelligence
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.