Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL.

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Operações sobre o Texto
Base de Dados para a Gestão de Informação de Natureza Pedagógica
Profa. Dra Maria Luiza de Almeida Campos
HAREM 2.0 Proposta Luís Sarmento e Cristina Mota
I - Noções dum compilador
Mapeamento de Ontologias
1 Mapeamento de Ontologias Agentes Inteligentes e Sistemas Cooperativos 02 de Dezembro de 2004 Nuno Silva
Indexação Automática de Documentos
Especificação de Consultas
Propriedades de Documentos
Recuperação de Imagens
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Diagrama de fluxo de dados (DFD)
Modelo Entidade-Relacionamento
Operadores Especiais da SQL
Estrutura de indexação Modelos de RI
Introdução a Teoria da Classificação
Criando corpora pessoais Corpógrafo – presente e futuro
University of Minho, Portugal
Extracção Automática de Ontologias a Partir de Texto
CLEI’2003, Montevidéu, Uruguai novembro de 2002
Semântica.
Tesauros José Antonio M. Nascimento.
Fontes eletrônicas para a Pesquisa bibliográfica construção de conhecimentos.
Inteligência Artificial
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Introdução a técnicas computacionais para PLN
Taxonomia Profa. Lillian Alvares,
Tipos de Sistemas de Organização do Conhecimento
Pedro Silva Elsa Cardoso Rita Mendes Sónia Costa Rita Correia
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Mineração da Web Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação Clássica
Construindo tesauros Prof. José Antonio M. Nascimento.
Dicionário Terminológico
Vocabulários Controlados
PUCRS I WTDIA-SBIA’02. Porto de Galinhas, Novembro 2002 CNPq Desenvolvimento e Avaliação de uma Estrutura Multitesauro para a Recuperação de Informações.
PUCRS WONTO-SBIE’02. Unisinos. São Leopoldo, Novembro 2002 Estrutura Multitesauro para a Recuperação de Informações Luiz Augusto Sangoi Pizzato Vera.
Classificacao de Texto Projeto Spam Filter
O Artigo Científico Cultura, Língua e Comunicação
Tesauro Marilda Lopes Ginez de Lara
 É uma construção de agrupamento que permite a você pegar qualquer construção na UML e agrupar seus elementos em unidades de nível alto.  Representa.
Temas 3, 4 e 5 Pablo Gamallo Otero
PUCRS Porto Alegre, 8 de Janeiro de 2003 Estrutura Multitesauro para Recuperação de Informações Luiz Augusto Sangoi Pizzato Dissertação de Mestrado Orientação:
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Recuperação Inteligente de Informação
Nº Pedro José de Oliveira Sessão Controlo Tese 2º Semestre 2007/2008 Orientador – João Rocha.
Sumarização Ontologias Paulo Orlando V. Q. Sousa.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Recuperação de Informação
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material informático.
Thesaurus Design (from analised corpora) Pablo Gamallo, Alexandre Agustini, G.P. Lopes GLINt (Gupo de Lingua Natural)
Tesauro, Taxonomia e Ontologia: uma evolução?
TÍTULOS DE CRÉDITO DIREITO CAMBIÁRIO.
Mª João Rodrigues Linguagem e Comunicação. Mª João Rodrigues LÍNGUA E FALANTE Linguagem – é a capacidade humana de usar símbolos para representar o mundo.
 O Modelo E-R (Entidade-Relação)
Projecto de Lista de Encabeçamento de Matérias Culinária Unidade Curricular: Análise da Informação II Docente: Doutora Ana Terra Diana Oliveira ( )
Corpus lingüísticos: proceso de elaboración e extracción automática de información María Paula Santalla del Río Pablo Gamallo Otero Elaboración do material.
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Informação documentária Profa. Giovana Deliberali Maimone.
Aula Origens da Linguagem Documentária Documentação (déc. 50 a 70) crescimento do conhecimento científico e tecnológico Dificuldades para armazenar.
Indexação: o uso do Vocabulário de Controle Externo do TCU (VCE) ISC/CEDOC Serviço de Gestão do Conhecimento Junho/2016 Beatriz Pinheiro de Melo Gomes.
Transcrição da apresentação:

Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Plano Sistemas de recuperação de informação e processamento da linguagem natural Tesaurus e ontologias Construção automática de tesaurus a partir de texto analisado Uso de tesaurus em sistemas de pesquisa e recuperação de informação

Tesaurus e Ontologias Definição dualista: ­Ontologia ­Ontologia: conjunto de conceitos + relações ­Tesaurus ­Tesaurus: conjunto de termos de uma língua ligados a uma ontologia Definição basada na hipôtese relacional: ­Tesaurus = Ontologia ­Tesaurus = Ontologia: conjunto de termos + relações semânticas

multa  coima(sinonímia) presidente  secretário(co-hiponímia) pequeno  grande(antonímia) ministério  ministro(meronímia) banco  instituição(hiperonímia) Tesaurus e Ontologias

Tesaurus = Ontologia = Terminologia Propriedades duma Terminologia: ­termos relevantes para um domínio ­pouca polisemia ­pouco interés nos termos ­pouco interés nos termos “upper-level” ­problema de “portabilidade” a outros domínios

Tesaurus e Ontologias WordNet Sinonímia: única relação entre termos (“word forms”). Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto. As relações semânticas (hiperonímia, meronímia…) são relações entre synsets Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado. Polisemia: um termo é polisémico se ele aparecer em diferentes synsets.

Tesaurus e Ontologias Informação associada a “Organisation” em WordNet Synsets (3 senses): (1) arrangement, organisation, system (an organised structure for arranging or classifying) (2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something) (3) constitution, establishment, formation, organisation (the act of forming something)

Tesaurus e Ontologias Results for Hyponyms of “organisation” in WordNet Sense (1):  distribution, statiscal distribution  coordinate system, frame of reference, reference system Sense (2):  county, council  government, officials, officialdom  judiciary, bench Sense (3):  collectivisation  colonisation, settlement  federation

Sistemas de RI e PLN Indexação de documentos Selecção de textos relevantes a uma determinada consulta

Sistemas de RI e PLN Indexação de documentos: Os documentos são representados por “termos de índices” Selecção de textos relevantes a uma determinada consulta: - As consultas são representadas por “termos de consulta” - As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta - Operadores de consulta: And, Or, And_Not - Ordenamento dos documentos recuperados

Sistemas de RI e PLN Uso do PLN para representar texto (documentos e consultas) : ­ tokenização ­ eliminação das “stopwords” Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: ­ Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento. ­ Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a: - pôr em relação índices com o mesmo significado - economia de índices

Sistemas de RI e PLN Reconhecemento automático de descritores: ­ marcas tipográficas: termos em títulos, resumos, em negrito,... ­ eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) ­ identificação de termos compostos Indices normalizados e controlados: ­ Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação) ­ Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)

Geração de thesaurus: Propriedades Hipótese distribucional: As palalavras que partilham os mesmos contextos estão associadas semanticamente Textos com conteúdo específico: “domain-specific corpus” Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas

Geração de thesaurus: Etapas  Extracção dos contextos sintácticos do corpus  Métrica de similaridade entre palavras (baseada nos contextos partilhados)  Identificar para cada palavra, a lista de palavras mais semelhantes

Extracção de contextos sintácticos: Etapas Tagging: marcação em categorias morfossintácticas Parsing Parcial: marcação em chunks básicos Heurísticas de “Attachment” Identificação de relações binárias Extracção de contextos sintácticos

“Falta pois a participação directa do funcionário no acto documentário.” (corpus P.G.R.) Tagger: Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ Tagging e Parsing Parcial Parsing Parcial (Chunks Básicos): VP( faltar, pois) NP(a, participação, directa) PP(de, NP(o, funcionário)) PP(em, NP(o, acto, documentário))

Heurísticas de “Attachment” e Relações Sintácticas Attachment de Chunks Básicos: Relações Sintácticas entre palavras:

Contextos sintácticos : : :

Coeficiênte de Jaccard Medida de Similaridade Coeficiênte de Jaccard A similaridade entre duas palavras depende de: A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.

Weighted Jaccard coefficient Similarity Measure Weighted Jaccard coefficient

MicroCorpus em Lingua Natural Pedro lê um livro e Maria lê um livro, Pedro lê um romance e Maria lê um romance, Pedro também lê muita coisa mas Pedro gosta de Maria, Maria gosta de livros, Maria gosta de muita coisa. Maria come uma maçã e Pedro come uma maçã, Pedro também come uma salchicha, Pedro come muita coisa, Maria come salchichas, Maria gosta mesmo de salchichas.

Relaçoes Thesáuricas entre nomes Pedro  Maria livro  romance maçã  salchicha coisa  livro, salchicha, maçã, romance (livro  salchicha)? (Maria  coisa)?? (Pedro  salchicha)???

Extração de Contextos sintácticos de nomes n Pedro : (, 3) (, 1) (, 3) n Maria : (,2) (, 3) (,2) (,1) n romance : (,2) n livro : (,3) (,1) n coisa : (,1) (,1) (,1) n maça : (,2). n salchicha : (,2) (,1)

Cálculo do Peso dum contexto para cada palabra (3): romance: (, 2) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(romance, ) = log(2) = 0.3 W(romance, ) = 1.45 livro: (, 3) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(livro, ) = log(3) = 0.47 W(livro, ) = 1.62 livro: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(livro, ) = log(1) = 0. W(livro, ) = 0.31

Similidade entre palavras (2) WJ(maça, salchicha) = 1.4 / 1.71 = 0.81 min( (1.4), (1.4) ) = 1.4 max( (1.4), ( ) ) = WJ(maça, coisa) = 1.1 / 2.68 = 0.41 min( (1.4), (1.1) ) = 1.1 max((1.4), ( ) ) = WJ(salchicha, coisa) = 1.41 / 2.68 = 0.51 min( ( ), ( ) ) = 1.41 max( ( ), ( ) ) = WJ(romance, coisa) = 1.1 / 2.68 = 0.41 min( (1.45), (1.1) ) = 1.1 max((1.45), ( ) ) = 2.68

Similidade entre palavras (Ordenamento) (0.83) Pedro  Maria (0.81) maçã  salchicha (0.75) livro  romance (0.58) coisa  livro (0.51) coisa  salchicha (0.41) coisa  maçã, romance (0.16) livro  salchicha (0.11) Maria  salchicha (0.09) Maria  coisa (0.0) Pedro  salchicha (0.0) romance  salchicha

n juíz| {dirigente, presidente, subinspector, governador, árbitros} juíz| {dirigente, presidente, subinspector, governador, árbitros} n diploma| {decreto, lei, artigo, convenção, regulamento} diploma| {decreto, lei, artigo, convenção, regulamento} n decreto| {diploma, lei, artigo, nº, código} decreto| {diploma, lei, artigo, nº, código} n regulamento| {estatuto, código, sistema, decreto, norma} regulamento| {estatuto, código, sistema, decreto, norma} n regra| {norma, princípio, regime, legislação, plano} regra| {norma, princípio, regime, legislação, plano} n renda| {caução, indemnização, reintegração, multa, quota} renda| {caução, indemnização, reintegração, multa, quota} n conceito| {noção, estatuto, regime, temática, montante} conceito| {noção, estatuto, regime, temática, montante} Corpus da Procuradoria Geral da República (P.G.R.) Listas de palavras semelhantes

Thesaurus e Pesquisa de Informação Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos Acesso ao thesaurus para expandir as pesquisas Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação

Expansão de pesquisas via thesaurus Expansão restrictiva via coocurrências frequêntes: república: presidente da república, assembleia da república... câmara: presidente da câmara, vereador da câmara... Expansão associativa: Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminador categoria: cargo, carreira, lugar, funçðes...

Problemas da expansão query Que palavras ou termos da pesquisa devem ser expandidos? query: “TIPO DE REMUNERAÇÃO” diversificar Termos associados podem diversificar os textos recuperados: juíz, ministro, investigador

Bibliografia Gamallo P., Agustini A., Lopes G.P. (2002) " Using Co-composition for Acquiring Syntactic and Semantic Subcategorisation ", Workshop SIGLEX'02 (ACL'02), Philadelphia. Gamallo P., Gonzalez, M., Agustini A., Lopes G.P., S. de Lima, V. (2002) " Mapping Syntactic Dependencies into Semantic Relations", Workshop OLT'02 (ECAI'02), Lyon, France (15-22) Gamallo P., Gasperin C. Agustini A. Lopes G.P. (2001) " Syntactic- Based Methods for Measuring Word Similarity", In: V. Matousek, P. Mautner, R. Moucek and K. Moucek (Eds.), Text, Speech and Discourse (TSD-2001), LNAI, Springer-Verlag, Plenz, CZ ( )