Extração Automática de Candidatos a Termos:

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

TENDÊNCIAS ATUAIS NA INVESTIGAÇÃO EM LINGUÍSTICA APLICADA Luís Guerra
Procura_PALavras (P_PAL): Um software para avaliação de palavras do Português Europeu Ana Paula Soares, Montserrat Comesaña, José João Almeida, Alberto.
Inovação e difusão tecnológica
Profa. Dra Maria Luiza de Almeida Campos
Letramento: um tema em três gêneros
NILC - Brasil Avaliação de Corretores Gramaticais Quanto aos Critérios Gerais de Avaliação: (1) Adequação (adequacy evaluation): considera-se o contexto.
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
DICIONÁRIOS PARA O FUTURO TRADUTOR Susana de Azeredo (Mestre em Letras pela UFRGS – colaboradora voluntária) Siane Simioni (Bolsista FAPERGS – acadêmica.
Apresentação da Monografia
Interfaces Conversacionais
ANÁLISE SINTÁTICA Um falante, ao se comunicar, escolhe as palavras e, combinando-as de acordo com as regras do idioma, cria os enunciados por meio dos.
Grupo de Pesquisa Ontologia e Taxonomia
Larissa Astrogildo de Freitas Patrícia Mylius Pizzinato
Diretrizes para o Plano Quadrienal da ENSP 2005 – 2008 Em Busca de Maior Direcionalidade e Mais Responsabilidade.
Construção de Compiladores
Criando corpora pessoais Corpógrafo – presente e futuro
Mesa Redonda Corpora e Ensino
Engenharia de Software
Uma visão geral Grupo: Alexandre Henrique Vieira Soares
1 T-Flex permite criar relações entre elementos dos conjuntos através de ligações geométricas. Assim pode-se criar modelos exactos, gerir e editar conjuntos.
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS
Tesauros José Antonio M. Nascimento.
Linguística, Semântica e Terminologia
Teoria da Informação Profa. Lillian Alvares
Faculdade de Ciência da Informação Universidade de Brasília
Linhas de Pesquisas Científicas Desenvolvidas no IFBA
Construindo tesauros Prof. José Antonio M. Nascimento.
Base de dados morfológicos de terminologias do português do Brasil.
REDAÇÃO DE DOCUMENTOS TÉCNICOS
Linguagens Documentárias
BARROS, L. Curso Básico de Terminologia. São Paulo: Edusp, 2004, págs
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação
Faculdade de Ciência da Informação Universidade de Brasília
Estimativas de Custos e Orçamentação
Introdução A pesquisa é um procedimento reflexivo e crítico de busca de respostas para problemas ainda não solucionados.
Universidade Federal de Uberlândia
Introdução a Banco de Dados Aula 04
Terminologia Aplicada à Tradução e à Interpretação
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Perguntas de Modelação
Centro de Informática Universidade Federal de Pernambuco Engenharia de Requisitos Paulo Ramos Jaelson Castro.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.
Indexação Automática e Etiquetadores parte do discurso (POS tagger)
Classificação de Texto
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Os Formalismos de Representação do Conhecimento Primeiros estudos: Ontologia e Terminologia.
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2008 Integrantes: Professor Orientador: Engenharia de.
AgentsResearch.com Ferramenta para Gerenciamento de Cursos via Internet Elaine Quintino da Silva Dilvan de Abreu Moreira
1 Linguagens de Programação Pedro Lopes 2010/2011.
Tesauro, Taxonomia e Ontologia: uma evolução?
Tecnologias da Informação e Comunicação
Classificação de Textos
As principais marcas do gênero textual: apresentação oral de trabalho acadêmico CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS DIRETORIA DE GRADUAÇÃO.
Engenharia de Software
Projeto de Banco de Dados
Mª João Rodrigues Linguagem e Comunicação. Mª João Rodrigues LÍNGUA E FALANTE Linguagem – é a capacidade humana de usar símbolos para representar o mundo.
Modelagem de dados XML Yago Zacarias Gomes Coutinho Ribeiro
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Apresentação ApresentaçãoApresentaçãoApresentação.
Informação documentária Profa. Giovana Deliberali Maimone.
Aula Origens da Linguagem Documentária Documentação (déc. 50 a 70) crescimento do conhecimento científico e tecnológico Dificuldades para armazenar.
Tefko Saracevic.  Professor Emérito da Escola de Comunicação e Ciência da Informação de Rutgers da Universidade Estadual de Nova Jersey (EUA). Saracevic.
COMPILAÇÃO E RECUPERAÇÃO DE INFORMAÇÕES TÉCNICO-CIENTÍFICAS E INDUÇÃO AO CONHECIMENTO DE FORMA ÁGIL NA REDE AGROHIDRO MARIA FERNANDA MOURA 1 ;
Técnicas de Avaliação de Interfaces Prof. Jorge Cavalcanti.
Indexação: o uso do Vocabulário de Controle Externo do TCU (VCE) ISC/CEDOC Serviço de Gestão do Conhecimento Junho/2016 Beatriz Pinheiro de Melo Gomes.
Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.
Transcrição da apresentação:

Extração Automática de Candidatos a Termos: Uma visão geral sobre os termos e a extração automática Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009

Roteiro Um pouco de Terminologia Um breve histórico Termos e Terminologia O que é um Termo? Dimensões dos Termos Extração Automática de Candidatos a Termos O reconhecimento terminológico Método Estatístico Método Linguístico Método Híbrido NSP – N-Gram Statistic Package Conclusão

Um pouco de Terminologia Breve Histórico (1) Subárea do Curso de Letras Não existe curso de Terminologia É uma área Aplicada e Teórica Aplicada: mais antiga, ligada aos saberes técnicos e científicos (séc. XVII) Vocabulários específicos e nomenclaturas técnico-científicas Teórica: mais recente, estudos dos termos nas comunicações especializadas (séc. XX) Formação dos termos técnico-científicos Demarcação do Léxico Geral e Léxico das Ciências Terminologia nos aspectos Disciplinar, Social e Político

Um pouco de Terminologia Breve Histórico (2) A Terminologia: estuda os Léxicos Especializados relação direta com os avanços da ciência denominações das novas descobertas e invenções do homem relação com a Globalização agente de intercâmbios culturais, científicos e tecnológicos tradução e uso correto dos termos interesse do Público Geral busca e ampliação do conhecimento específico

Um pouco de Terminologia A Terminologia é fundamental na sociedade atual pois trabalha na ampliação e difusão do conhecimento, baseando-se na linguagem especializada, sobretudo sobre os termos como veículo transmissor do conhecimento específico.

Um pouco de Terminologia Terminologia no Brasil Início em 1986 ANPOLL Crescimento de 1990 em diante: UnB: Lexterm MCT: IBICT USP/FFLCH: Citrat PUC-Rio ABNT UFPE UFRGS: Termisul UFCE UFG UNESP: Ibilce UFSCar: GETerm UFU

Termos e Terminologia Questões: O que é um Termo? Qual o papel dos Termos? O que diferencia um Termo de uma Palavra? Termo é uma unidade lexical de significação especializada. Expressar e transferir o conhecimento de caráter especializado Propriedades: da dimensão conceitual e invariabilidade semântica

Termos e Terminologia Isso quer dizer que: Que o significado de uma determinada palavra do léxico geral está associada, na maioria das vezes, ao contexto discursivo em que está inserida, diferentemente do que ocorre com os termos, que se limitam a expressar conceitos específicos.

Termos e Terminologia Casa João foi para casa depois do trabalho. Casa Exemplos: 1 Casa Língua Geral João foi para casa depois do trabalho. Casa Domínio Jurídico Casa: Bem inviolável... A Justiça Federal protege a casa de João.

Termos e Terminologia Lençol Joana estendeu o lençol de sua cama. Exemplos: 2 Lençol Língua Geral Joana estendeu o lençol de sua cama. Lençol Domínio Futebol Lençol: Lance no qual o jogador encobre o adversário com a bola. O mesmo que Chapéu. A torcida vibrou com o lençol do atacante sobre o goleiro.

Termos e Terminologia Letra Exemplos: 3 Letra Língua Geral Ninguém consegue entender a letra do Francisco. Letra Domínio Futebol Letra: Toque na bola após a mesma passar entre as pernas do jogador . O Pelé fez um gol de letra.

Termos e Terminologia Percepções: Os Termos nascem como Palavras Antes de ser Termo ele é uma Palavra O Termo participa o léxico geral Possui contextos linguísticos e pragmáticos Processo da “Terminologização” Valorização terminológica de uma determinada Palavra Globalização PALAVRA TERMO Terminologização Avanços da Ciência Ampliação do Conhecimento

Termos e Terminologia Terminologização é processo pelo qual as palavras da língua geral adquirem significados específicos, pertinentes a uma determinada área do saber científico, tornando-se então, elementos integrantes dos repertórios terminológicos. Desse ponto de vista, uma unidade lexical pode assumir o valor de termo fazendo parte da representação dos princípios e propósitos de uma área.

Representa o conceito e o conhecimento especializado o qual se refere. Termos e Terminologia Dimensões dos Termos: Dimensão Conceitual Representa o conceito e o conhecimento especializado o qual se refere. Termo Representa a vertente comunicativa, na tarefa de comunicar e transmitir o conhecimento especializado de forma eficiente. Dimensão Linguística Representa a estrutura morfológica do termo e as diferentes possibilidades de formação e combinação lexical. Dimensão Comunicacional

Extração Automática de Candidatos a Termos A Extração de Termos é: Em Terminologia: É a obtenção do conjunto terminológico que compõe a nomenclatura do produto terminológico (do glossário, dicionário ou base de dados). É o processo automático de reconhecer e extrair os candidatos a termos presentes em um determinado córpus de especialidade. Em Computação:

Extração Automática de Candidatos a Termos Esquema geral Córpus Lista de Termos Extrator de Termos

Extração Automática de Candidatos a Termos A tarefa de extração de termos é crucial para várias aplicações: Recuperação de Informação Criação (semi-)automática de ontologias OntoLP – dissertação de mestrado (PUC-RS - Junior, 2007) Sumarização Automática Indexação e Classificação de Textos Alinhamento de Textos Bilíngües Tradução Recursos Básicos de Processamento de Línguas Naturais (PLN) Edição Suportada por Computador Corretores Gramaticais Geração de Língua Natural

Extração Automática de Candidatos a Termos Um tema de pesquisa área da Linguística (reconhecimento terminológico) Termos tridimensionais área da Computação (aplicação do conhecimento) Gargalo do Trabalho Terminológico Trabalho difícil e custoso Exige atenção e perspicácia

Extração Automática de Candidatos a Termos Problemas Silêncio e Ruído Verificação das Listas (resultado) Córpus Extrator de Termos Lista de Ruído (falso positivo) Silêncio (falso negativo)

Extração Automática de Candidatos a Termos Métodos de Extração Automática Métodos Estatísticos Métodos Linguísticos Métodos Híbridos Geralmente detectam as unidades terminológicas de acordo com a freqüência em que elas ocorrem em um córpus. Detectam padrões de formação morfossintáticos dos termos tais como “substantivo-adjetivo” e “substantivo-preposição-substantivo”. Utilizam a estatística juntamente com o conhecimento linguístico.

Extração Automática de Candidatos a Termos Método Estatístico Puramente estatístico (sem conhecimento linguístico) Várias medidas estatísticas Frequência Simples Informação Mútua Coeficiente Dice Log-Likelihood C-Value Teste X2 Trabalho mais simples/fácil Independente de domínio Alteração nos Valores de Corte Gera muito Ruído

N + Adj / N + N / Adj + N / Adj + Adj / N + Adv Extração Automática de Candidatos a Termos Método Linguístico Uso de conhecimento linguístico Córpus etiquetado (POS-Tagger), informações lexicográficas, morfológicas e semânticas Ferramentas: tokenizador, lematizador, análise sintática Definição dos Padrões de Formação de Termos Trabalho humano (linguísta) Definição dos Padrões Trabalho mais elaborado/difícil Ajustes nos Padrões Dependente de domínio Gera muito Ruído ou Silêncio Depende da quantidade de padrões aplicados Resultados tendem a ser melhores EXEMPLOS N / NP / Adj / Verb N + Adj / N + N / Adj + N / Adj + Adj / N + Adv N + Prep + N / N + Prep + NP / N + N + Adj / N + Adj + Adj / N + Prep + Adj

Aplicação do Conhecimento Linguístico Extração Automática de Candidatos a Termos Córpus Lista de Termos Extrator de Termos Aplicação do Conhecimento Linguístico

Extração Automática de Candidatos a Termos Método Híbrido Uso da estatística e de conhecimento linguístico Tipos: Estatístico => Linguístico (Problemas de Ruído) Linguístico => Estatístico (Problemas de Silêncio) Trabalho humano (linguísta) Definição dos Padrões Trabalho muito mais elaborado/difícil Ajustes nos Padrões Dependente de domínio Melhores resultados Linguístico => Estatístico

Extração Automática de Candidatos a Termos Híbrido: Estatístico - Linguístico Córpus Lista de Termos Extrator de Termos Parte Estatística Parte Linguística

Extração Automática de Candidatos a Termos Híbrido: Linguístico – Estatístico Córpus Lista de Termos Extrator de Termos Parte Linguística Parte Estatística

NSP – n-Gram Statistics Package Pacote estatístico para manipulação de n-Grams Ted Pedersen e colaboradores (Universidade de Minnesota) http://www.d.umn.edu/~tpederse/nsp.html n-Gram Unidade Lexical de tamanho n onde n = tamanho do termo, pode ser n= (1,2,3... n) . Exemplos: n = 1: Unigrama, n = 2: Bigramas, n = 3: Trigramas Implementado em Perl Possui vários programas (9 no total): count.pl statistic.pl combig.pl huge-combine.pl huge-count.pl kocos.pl rank.pl sort-bigrams.pl split-data.pl

NSP – n-Gram Statistics Package Estatísticas para análise de tokens e córpus é o uso mais comum Possibilidade de vários outros trabalhos Contador de Frequências Limpeza de córpus Análise estatística e de co-relação de termos Extração Automática de Termos etc.

Frequências de n-Grams NSP – n-Gram Statistics Package COUNT.PL Calcula a frequência de n-grams em um texto/córpus. Textos/Córpus Frequências de n-Grams COUNT.PL

NSP – n-Gram Statistics Package COUNT.PL count.pl –-help count.pl [OPCOES] <saida> <entrada> Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod Exemplos: Uso do count.pl (opções) --ngram --token --stop --remove --frequency --window --histogram Lexia Simples/Complexa

Frequências de n-Grams NSP – n-Gram Statistics Package STATISTIC.PL Calcula as medidas de associação dos nGrams de texto/córpus. Frequências de n-Grams n-Grams com medida STATISTIC.PL Medida de Associação

STATISTIC.PL – Medidas de Associação NSP – n-Gram Statistics Package STATISTIC.PL – Medidas de Associação BRIGRAMAS TRIGRAMAS Chi-Squared Phi Coeficient T-score X2 – Dice Coeficient Jaccar Coeficient Fischer Test Mutual Information True Mutual Information Pointwise Mutual Information Log-likelihood Poison-Stirling Medidas são arquivos com extensão “ponto PM” (.pm) Perl Module

NSP – n-Gram Statistics Package STATISTIC.PL statistic.pl –-help statistic.pl [OPCOES] <medida_associacao> <saida> <resultado_count> Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod Exemplos: Uso do statistic.pl (opções) --ngram --score --rank --frequency --precision

Interface Web do NSP – Frequência Simples NSP – N-Gram Statistics Package Interface Web do NSP – Frequência Simples

Conclusões Área de Pesquisa Difícil automatização melhorar os resultados testar novos métodos mesclar métodos conhecidos Difícil automatização reconhecimento terminológico (Como identificar um Termo?) Dependente de domínio mas tem se desenvolvido Usado em várias aplicações e atividades Fundamental para Terminologia O NSP pode ser uma boa opção para abordagem estatística Vários aspectos implementados Evita retrabalho Precisa de mais documentação oficial

F I M! Muito Obrigado! Leandro Henrique lhmoliveira@gmail.com