A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Extração Automática de Candidatos a Termos: Uma visão geral sobre os termos e a extração automática Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009.

Apresentações semelhantes


Apresentação em tema: "Extração Automática de Candidatos a Termos: Uma visão geral sobre os termos e a extração automática Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009."— Transcrição da apresentação:

1 Extração Automática de Candidatos a Termos: Uma visão geral sobre os termos e a extração automática Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009

2 Roteiro Um pouco de Terminologia Um breve histórico Termos e Terminologia O que é um Termo? Dimensões dos Termos Extração Automática de Candidatos a Termos O reconhecimento terminológico Método Estatístico Método Linguístico Método Híbrido NSP – N-Gram Statistic Package Conclusão

3 Um pouco de Terminologia Breve Histórico (1) Subárea do Curso de Letras Não existe curso de Terminologia É uma área Aplicada e Teórica Aplicada: mais antiga, ligada aos saberes técnicos e científicos (séc. XVII) Vocabulários específicos e nomenclaturas técnico-científicas Teórica: mais recente, estudos dos termos nas comunicações especializadas (séc. XX) Formação dos termos técnico-científicos Demarcação do Léxico Geral e Léxico das Ciências Terminologia nos aspectos Disciplinar, Social e Político

4 Um pouco de Terminologia Breve Histórico (2) A Terminologia: estuda os Léxicos Especializados relação direta com os avanços da ciência denominações das novas descobertas e invenções do homem relação com a Globalização agente de intercâmbios culturais, científicos e tecnológicos tradução e uso correto dos termos interesse do Público Geral busca e ampliação do conhecimento específico

5 Um pouco de Terminologia A Terminologia é fundamental na sociedade atual pois trabalha na ampliação e difusão do conhecimento, baseando-se na linguagem especializada, sobretudo sobre os termos como veículo transmissor do conhecimento específico.

6 Um pouco de Terminologia Terminologia no Brasil Início em 1986 ANPOLL Crescimento de 1990 em diante: UnB: Lexterm MCT: IBICT USP/FFLCH: Citrat PUC-Rio ABNT UFPE UFRGS: Termisul UFCE UFG UNESP: Ibilce UFSCar: GETerm UFU

7 Termos e Terminologia Questões: O que é um Termo? Qual o papel dos Termos? O que diferencia um Termo de uma Palavra? Termo é uma unidade lexical de significação especializada. Expressar e transferir o conhecimento de caráter especializado Propriedades: da dimensão conceitual e invariabilidade semântica Propriedades: da dimensão conceitual e invariabilidade semântica

8 Termos e Terminologia Isso quer dizer que: Que o significado de uma determinada palavra do léxico geral está associada, na maioria das vezes, ao contexto discursivo em que está inserida, diferentemente do que ocorre com os termos, que se limitam a expressar conceitos específicos.

9 Termos e Terminologia Exemplos: 1 1 Casa João foi para casa depois do trabalho. A Justiça Federal protege a casa de João. Língua Geral Casa Domínio Jurídico Casa: Bem inviolável...

10 Termos e Terminologia Exemplos: 2 2 Lençol Joana estendeu o lençol de sua cama. A torcida vibrou com o lençol do atacante sobre o goleiro. Língua Geral Lençol Domínio Futebol Lençol: Lance no qual o jogador encobre o adversário com a bola. O mesmo que Chapéu.

11 Termos e Terminologia Exemplos: 3 3 Letra Ninguém consegue entender a letra do Francisco. O Pelé fez um gol de letra. Língua Geral Letra Domínio Futebol Letra: Toque na bola após a mesma passar entre as pernas do jogador.

12 Termos e Terminologia Percepções: Os Termos nascem como Palavras Antes de ser Termo ele é uma Palavra O Termo participa o léxico geral Possui contextos linguísticos e pragmáticos Processo da Terminologização Valorização terminológica de uma determinada Palavra Avanços da Ciência Globalização Ampliação do Conhecimento PALAVRATERMO Terminologização

13 Termos e Terminologia Terminologização é processo pelo qual as palavras da língua geral adquirem significados específicos, pertinentes a uma determinada área do saber científico, tornando-se então, elementos integrantes dos repertórios terminológicos. Desse ponto de vista, uma unidade lexical pode assumir o valor de termo fazendo parte da representação dos princípios e propósitos de uma área.

14 Termos e Terminologia Dimensões dos Termos: Termo Dimensão Conceitual Dimensão Linguística Dimensão Comunicacional Representa a estrutura morfológica do termo e as diferentes possibilidades de formação e combinação lexical. Representa a vertente comunicativa, na tarefa de comunicar e transmitir o conhecimento especializado de forma eficiente. Representa o conceito e o conhecimento especializado o qual se refere.

15 Extração Automática de Candidatos a Termos É a obtenção do conjunto terminológico que compõe a nomenclatura do produto terminológico (do glossário, dicionário ou base de dados). Em Terminologia : É o processo automático de reconhecer e extrair os candidatos a termos presentes em um determinado córpus de especialidade. Em Computação: A Extração de Termos é:

16 Extração Automática de Candidatos a Termos Córpus Extrator de Termos Extrator de Termos Lista de Termos Lista de Termos Esquema geral

17 Extração Automática de Candidatos a Termos A tarefa de extração de termos é crucial para várias aplicações: Recuperação de Informação Criação (semi-)automática de ontologias OntoLP – dissertação de mestrado (PUC-RS - Junior, 2007) Sumarização Automática Indexação e Classificação de Textos Alinhamento de Textos Bilíngües Tradução Recursos Básicos de Processamento de Línguas Naturais (PLN) Edição Suportada por Computador Corretores Gramaticais Geração de Língua Natural

18 Extração Automática de Candidatos a Termos Um tema de pesquisa área da Linguística (reconhecimento terminológico) Termos tridimensionais área da Computação (aplicação do conhecimento) Gargalo do Trabalho Terminológico Trabalho difícil e custoso Exige atenção e perspicácia

19 Extração Automática de Candidatos a Termos Córpus Extrator de Termos Extrator de Termos Lista de Termos Lista de Termos Ruído (falso positivo) Silêncio (falso negativo) Problemas Silêncio e Ruído Verificação das Listas (resultado)

20 Extração Automática de Candidatos a Termos Métodos de Extração Automática Métodos Estatísticos Métodos Linguísticos Métodos Híbridos Geralmente detectam as unidades terminológicas de acordo com a freqüência em que elas ocorrem em um córpus. Detectam padrões de formação morfossintáticos dos termos tais como substantivo-adjetivo esubstantivo-preposição-substantivo. Utilizam a estatística juntamente com o conhecimento linguístico.

21 Extração Automática de Candidatos a Termos Método Estatístico Puramente estatístico (sem conhecimento linguístico) Várias medidas estatísticas Frequência Simples Informação Mútua Coeficiente Dice Log-Likelihood C-Value Teste X 2 Trabalho mais simples/fácil Independente de domínio Alteração nos Valores de Corte Gera muito Ruído

22 Extração Automática de Candidatos a Termos Método Linguístico Uso de conhecimento linguístico Córpus etiquetado (POS-Tagger), informações lexicográficas, morfológicas e semânticas Ferramentas: tokenizador, lematizador, análise sintática Definição dos Padrões de Formação de Termos Trabalho humano (linguísta) Definição dos Padrões Trabalho mais elaborado/difícil Ajustes nos Padrões Dependente de domínio Gera muito Ruído ou Silêncio Depende da quantidade de padrões aplicados Resultados tendem a ser melhores EXEMPLOS N / NP / Adj / Verb N + Adj / N + N / Adj + N / Adj + Adj / N + Adv N + Prep + N / N + Prep + NP / N + N + Adj / N + Adj + Adj / N + Prep + Adj EXEMPLOS N / NP / Adj / Verb N + Adj / N + N / Adj + N / Adj + Adj / N + Adv N + Prep + N / N + Prep + NP / N + N + Adj / N + Adj + Adj / N + Prep + Adj

23 Extração Automática de Candidatos a Termos Córpus Extrator de Termos Extrator de Termos Lista de Termos Lista de Termos Aplicação do Conhecimento Linguístico

24 Extração Automática de Candidatos a Termos Método Híbrido Uso da estatística e de conhecimento linguístico Tipos: Estatístico => Linguístico (Problemas de Ruído) Linguístico => Estatístico (Problemas de Silêncio) Trabalho humano (linguísta) Definição dos Padrões Trabalho muito mais elaborado/difícil Ajustes nos Padrões Dependente de domínio Melhores resultados Linguístico => Estatístico

25 Extração Automática de Candidatos a Termos Córpus Extrator de Termos Extrator de Termos Lista de Termos Lista de Termos Parte Linguística Parte Estatística Híbrido: Estatístico - Linguístico

26 Extração Automática de Candidatos a Termos Córpus Extrator de Termos Extrator de Termos Lista de Termos Lista de Termos Parte Estatística Parte Linguística Híbrido: Linguístico – Estatístico

27 NSP – n-Gram Statistics Package Pacote estatístico para manipulação de n-Grams Ted Pedersen e colaboradores (Universidade de Minnesota) n-Gram Unidade Lexical de tamanho n onde n = tamanho do termo, pode ser n= (1,2,3... n). Exemplos: n = 1: Unigrama, n = 2: Bigramas, n = 3: Trigramas Implementado em Perl Possui vários programas (9 no total): count.plstatistic.plcombig.pl huge-combine.plhuge-count.plkocos.pl rank.plsort-bigrams.plsplit-data.pl

28 NSP – n-Gram Statistics Package Estatísticas para análise de tokens e córpus é o uso mais comum Possibilidade de vários outros trabalhos Contador de Frequências Limpeza de córpus Análise estatística e de co-relação de termos Extração Automática de Termos etc.

29 NSP – n-Gram Statistics Package COUNT.PL Calcula a frequência de n-grams em um texto/córpus. Textos/Córpus COUNT.PL Frequências de n-Grams

30 NSP – n-Gram Statistics Package COUNT.PL count.pl –-help count.pl [OPCOES] Documentação Básica: Exemplos: 1)Uso do count.pl (opções) 1)--ngram 2)--token 3)--stop 4)--remove 5)--frequency 6)--window 7)--histogram 2)Lexia Simples/Complexa

31 NSP – n-Gram Statistics Package STATISTIC.PL Calcula as medidas de associação dos nGrams de texto/córpus. STATISTIC.PL Frequências de n-Grams Medida de Associação n-Grams com medida

32 NSP – n-Gram Statistics Package STATISTIC.PL – Medidas de Associação BRIGRAMASTRIGRAMAS Chi-Squared Phi Coeficient T-score X 2 – Dice Coeficient– Jaccar Coeficient– Fischer Test– Mutual Information True Mutual Information Pointwise Mutual Information Log-likelihood Poison-Stirling Medidas são arquivos com extensão ponto PM (.pm) Perl Module

33 NSP – n-Gram Statistics Package STATISTIC.PL statistic.pl –-help statistic.pl [OPCOES] Documentação Básica: Exemplos: 1)Uso do statistic.pl (opções) 1)--ngram 2)--score 3)--rank 4)--frequency 5)--precision

34 NSP – N-Gram Statistics Package Interface Web do NSP – Frequência Simples

35 Conclusões Área de Pesquisa melhorar os resultados testar novos métodos mesclar métodos conhecidos Difícil automatização reconhecimento terminológico (Como identificar um Termo?) Dependente de domínio mas tem se desenvolvido Usado em várias aplicações e atividades Fundamental para Terminologia O NSP pode ser uma boa opção para abordagem estatística Vários aspectos implementados Evita retrabalho Precisa de mais documentação oficial

36 F I M! Muito Obrigado! Leandro Henrique


Carregar ppt "Extração Automática de Candidatos a Termos: Uma visão geral sobre os termos e a extração automática Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009."

Apresentações semelhantes


Anúncios Google