Criando corpora pessoais Corpógrafo – presente e futuro

Slides:



Advertisements
Apresentações semelhantes
Como pesquisar na internet
Advertisements

Procura_PALavras (P_PAL): Um software para avaliação de palavras do Português Europeu Ana Paula Soares, Montserrat Comesaña, José João Almeida, Alberto.
Support.ebsco.com EBSCOhost Pesquisa básica para usuários corporativos Tutorial.
Base de Dados para a Gestão de Informação de Natureza Pedagógica
HAREM 2.0 Proposta Luís Sarmento e Cristina Mota
A17 – Primeiros passos na utilização das TIC
Sumário Aula n.º 18 Formatações Tamanho Cor Parágrafos Alinhamento
Elementos Acadêmicos e Profissionais em Ciência e Tecnologia
1. Análise do Problema 2. Definição de dados
IMax Felisberto Horta Amadú Bah Patrícia Veiga Programa para gestão de dados multimédia (existentes em múltiplos formatos, suportes e dispositivos ) pertencendo.
Apresentação da Monografia
COMUNICAÇÃO E EXPRESSÃO I Paulo Neto
Quantum GIS Andreza Costa Miranda Ester Luiz de Araújo G E O T C N L I
Software Livre Conceito:
OpenOffice = ferramentas de produtividade essenciais no dia-a-dia.
Equações e gráficos
‘Terminologia’ - para quem?
Mesa Redonda Corpora e Ensino
Seminário de Tradução – FLUP 8 de Fevereiro de 2007
Como iniciar uma pesquisa
Este software destina-se à gestão da área de expediente no que respeita a entradas e saídas de correspondência, emissão de ofícios e outros textos A Gestão.
Formatação de parágrafo
Tesauros José Antonio M. Nascimento.
Catálogo da Biblioteca Guia de utilização Fundação Universidade do Porto Faculdade de Psicologia e de Ciências da Educação Biblioteca 2009.
Microsoft Access Carlos Sebastião.
UCP Centro Regional das Beiras Pós-graduação em Tradução Informática Aplicada à Tradução 12 de Fevereiro de 2005.
1 Estado actual de progresso do projecto PT-Comunicações PT-Comunicações / Porto 27 de Julho de Estágio escolar no âmbito do ICR Estagiários :
Compiladores, Aula Nº 5 João M. P. Cardoso
INQUER Interacção Pessoa-Máquina em Linguagem Natural
Treinamento do Microsoft® Word 2010
Catálogo da Biblioteca Guia de utilização Fundação Universidade do Porto Faculdade de Psicologia e de Ciências da Educação Biblioteca 2011.
Tecnologias para Apresentação de Publicidade UMa | DME | 2009 Sistemas Multimédia Nuno Santos | Paulo Teixeira |
1 TUTORIAL DO CATÁLOGO DA EGP-UPBS. 2 O catálogo da EGP-UPBS encontra-se em e está integrado no catálogo da Universidade do Porto.
É um conjunto de registos dispostos numa estrutura regular que possibilita a reorganização dos mesmos e a produção de informação com a menor redundância.
POWER POINT.
Uma participação minimalista no Segundo HAREM
ACESSO A BASE DE DADOS.
INTRODUÇÃO ÁS BASES DE DADOS
Mineração na Web Introdução a Recuperação de Informação
Recursos da Linguateca Diana Santos Porto, 4 de Outubro de 2005.
1. Aprenda o básico sobre o Google
Quality Content Resource Management Access Integration Consultation Página de Acesso:
O PROCESSO DE INTEGRAÇÕES NA PORBASE Dulce Fontes, Biblioteca Nacional.
A utilização das TIC nos processos de ensino/ aprendizagem CRIE – ME
Plano de Doutoramento Construção de uma Base de Conhecimento Lexical para o Português Nuno Seco.
Introdução ao MS Access
DESAFIO Distinguir os sintagmas preposicionados (PP= Prepositional Phrases) que são complementos de verbos dos que são adjuntos. Ele trabalha em publicidade.
Interpretação Vs Tradução Confusão entre Tradução e Interpretação 1.Tradutor – Constante verificação, recurso a dicionários e glossários, corpora, base.
Sessão n.º 6 Competência específica: Conhecimento Explícito da Língua.
Indexação Automática e Etiquetadores parte do discurso (POS tagger)
Tutorial Wikispaces Edição de páginas Modificado por Ricardo Pimentel a partir de um original de Jennifer TIC – Ano lectivo 2008/2009.
Instituto Superior de Engenharia de Lisboa Departamento de Engenharia de Electrónica e Telecomunicações Licenciatura em Engenharia Informática e de Computadores.
Diana Lobo Helena Sousa Paula Monteiro Docente: Cláudia Ferreira EURAMIS Project Tecnologias de Apoio à Tradução II | Licenciatura em Tradução | 3º ano.
27 de Junho de Floresta sintá(c)tica: um recurso para avaliação Diana Santos Susana Afonso
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material informático.
Resolução de Anáforas Pronominais Apresentação da Proposta de Projeto Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática INF.
Linguagem, tecnologias e cidade Biblioteca Virtual das Ciências da Linguagem no Brasil  bvCLB 
Entrando em linha de conta com os utilizadores O exemplo concreto do COMPARA Ana Frankenberg-Garcia.
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Mª João Rodrigues Linguagem e Comunicação. Mª João Rodrigues LÍNGUA E FALANTE Linguagem – é a capacidade humana de usar símbolos para representar o mundo.
Casamento de Esquemas IAGO RAPHAEL VASCONCELOS MARINHO.
SisCad v1.0 Sistema de Cadastro de Pessoas.. Cadastro de Pessoas  Classificação por Grupo  Exibição da Foto da Pessoa  Facil acesso as informações.
Como criar uma apresentação em PowerPoint Aprender com a Biblioteca Escolar Agrupamento de Escolas Marquês de Marialva.
Conhecendo o Tutorial support.ebsco.com. EBSCOhost é uma poderosa ferramenta de referência online que oferece uma variedade de bases de dados de texto.
1 HISTÓRICO DO ECLE CAP.2 Baseado na obra de Jack C. Richards O ENSINO COMUNICATIVO DE LÍNGUAS ESTRANGEIRAS Elaborado por Cecília Hartt.
Literacia da Informação ESCOLA EB23 da Sertã BE/CRE.
GRLibrelotto & JCRamalho & PRHenriques, XATA’06, Fevereiro Topic Maps aplicados ao Sistema de Informação do Museu da Emigração Giovani R. Librelotto.
COMPILAÇÃO E RECUPERAÇÃO DE INFORMAÇÕES TÉCNICO-CIENTÍFICAS E INDUÇÃO AO CONHECIMENTO DE FORMA ÁGIL NA REDE AGROHIDRO MARIA FERNANDA MOURA 1 ;
Transcrição da apresentação:

Criando corpora pessoais Corpógrafo – presente e futuro Belinda Maia

PRESENTE

Corpógrafo Um conjunto de ferramentas que permitem: Criar corpora Analisar corpora Extrair e catalogar itens linguísticos Armazenar o material estudado Exportar os resultados

Corpógrafo Versão online: Versão descarregável Tem todas as funções Cada pessoa ou grupo trabalha num espaço próprio O trabalho de cada espaço é privado Versão descarregável Tem de pedir licenças para certas funções Não compatível com Windows

Criar corpora Colecção de textos Limpeza de formatação – e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata Referências bibliográficas, fontes, etc Classificação - ‘medium’, género, domínio Língua

Criar corpora Organização – e reorganização - de textos em corpora Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora

Analisar corpora Concordância frase – frase inteira Concordância Janela – até 15 átomos de cada lado Concordância KWIC – até 15 átomos ou 100 caráteres N-grams – até 15 – ordem alfabética / frequência

Concordâncias Pode ver Metadata do texto fonte Estatísticas do átomo / frase no corpus Outra forma de concordância Em concordância janela – pode reorganizar por colunas à esquerda ou direita

Tipos de pesquisa Por expressões regulares MySQL Por PoS NooJ – em Francês, Inglês ou Português Utiliza dicionários etiquetados Por sequências de expressões regulares ou gramáticas NooJ

Centro de conhecimento Bases de dados terminológicas Objectivo original – extracção de terminologia Bases de dados fraseológicas Objectivo mais recente – permitir extracção e classificação de Itens do léxico geral Expressões multi-palavras

Bases de dados terminólogicas BDs - multilingual Ferramentas: n-gram com filtros para extracção de ‘candidatos a termos’ Possibilidade de pesquisar definições e relações semânticas Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia

Informação em BD Geração de estatísticas dos termos Frequência Co-ocurrência em textos Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos Concordância de corpora comparáveis Criação de relações semânticas pelo pesquisador

BDs Fraseológicas Algumas funções iguais ou semelhantes às BDs terminológicas MAS Pesquisa com gramáticas NooJ – resultados > BD Relações discursivos (Rhetorical Structure Theory) Possibilidade de criar classificações do investigador

Exportação de dados Exportação de corpora Exportação de BDs

FUTURO

Funcionamento Acelerar processamento Tornar possível manuseamento de maior quantidade de dados Permitir mais interacção entre áreas privadas quando desejado Criar possibilidade de projectos em grupo mais sofisticados

Textos e corpora Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc Melhorar sistema de limpeza de textos

Listas do léxico Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus Criar ‘standard wordlists’ para comparação + sistema estatística relacionado Etiquetagem PoS automática + ferramentas de correcção

Pesquisa de corpora My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas  Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação

Outras Ideias Aumentar possibilidades de criar relações Sintácticos Semânticos Criar possibilidades de visualizar as relações estabelecidos Usar métodos estatísticos para criar ‘word clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining

Aproveitar Wordnet – original e em PT Framenet – original e em PT Outros maneiras ‘linguísticas’ de analisar a linguagem …… Sistemas informáticos > word clouds

Por exemplo http://news.bbc.co.uk/2/hi/americas/7813432.stm What words did George Bush use most during this eight-year presidency?

Wortschatz – Univ. Leipzig http://corpora.informatik.uni-leipzig.de/?dict=uk Computational Linguistics Artificial Intelligence