Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL.

Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt http://terra/~gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Plano Sistemas de recuperação de informação e processamento da linguagem natural Tesaurus e ontologias Construção automática de tesaurus a partir de texto analisado Uso de tesaurus em sistemas de pesquisa e recuperação de informação

Tesaurus e Ontologias Definição dualista: Ontologia Ontologia: conjunto de conceitos + relações Tesaurus Tesaurus: conjunto de termos de uma língua ligados a uma ontologia Definição basada na hipôtese relacional: Tesaurus = Ontologia Tesaurus = Ontologia: conjunto de termos + relações semânticas

multa  coima(sinonímia) presidente  secretário(co-hiponímia) pequeno  grande(antonímia) ministério  ministro(meronímia) banco  instituição(hiperonímia) Tesaurus e Ontologias

Tesaurus = Ontologia = Terminologia Propriedades duma Terminologia: termos relevantes para um domínio pouca polisemia pouco interés nos termos pouco interés nos termos “upper-level” problema de “portabilidade” a outros domínios

Tesaurus e Ontologias WordNet Sinonímia: única relação entre termos (“word forms”). Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto. As relações semânticas (hiperonímia, meronímia…) são relações entre synsets Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado. Polisemia: um termo é polisémico se ele aparecer em diferentes synsets.

Tesaurus e Ontologias Informação associada a “Organisation” em WordNet Synsets (3 senses): (1) arrangement, organisation, system (an organised structure for arranging or classifying) (2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something) (3) constitution, establishment, formation, organisation (the act of forming something)

Tesaurus e Ontologias Results for Hyponyms of “organisation” in WordNet Sense (1):  distribution, statiscal distribution  coordinate system, frame of reference, reference system Sense (2):  county, council  government, officials, officialdom  judiciary, bench Sense (3):  collectivisation  colonisation, settlement  federation

Sistemas de RI e PLN Indexação de documentos Selecção de textos relevantes a uma determinada consulta

Sistemas de RI e PLN Indexação de documentos: Os documentos são representados por “termos de índices” Selecção de textos relevantes a uma determinada consulta: - As consultas são representadas por “termos de consulta” - As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta - Operadores de consulta: And, Or, And_Not - Ordenamento dos documentos recuperados

Sistemas de RI e PLN Uso do PLN para representar texto (documentos e consultas) : tokenização eliminação das “stopwords” Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento. Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a: - pôr em relação índices com o mesmo significado - economia de índices

Sistemas de RI e PLN Reconhecemento automático de descritores: marcas tipográficas: termos em títulos, resumos, em negrito,... eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) identificação de termos compostos Indices normalizados e controlados: Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação) Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)

Geração de thesaurus: Propriedades Hipótese distribucional: As palalavras que partilham os mesmos contextos estão associadas semanticamente Textos com conteúdo específico: “domain-specific corpus” Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas

Geração de thesaurus: Etapas  Extracção dos contextos sintácticos do corpus  Métrica de similaridade entre palavras (baseada nos contextos partilhados)  Identificar para cada palavra, a lista de palavras mais semelhantes

Extracção de contextos sintácticos: Etapas Tagging: marcação em categorias morfossintácticas Parsing Parcial: marcação em chunks básicos Heurísticas de “Attachment” Identificação de relações binárias Extracção de contextos sintácticos

“Falta pois a participação directa do funcionário no acto documentário.” (corpus P.G.R.) Tagger: Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ Tagging e Parsing Parcial Parsing Parcial (Chunks Básicos): VP( faltar, pois) NP(a, participação, directa) PP(de, NP(o, funcionário)) PP(em, NP(o, acto, documentário))

Heurísticas de “Attachment” e Relações Sintácticas Attachment de Chunks Básicos: Relações Sintácticas entre palavras:

Contextos sintácticos : : :

Coeficiênte de Jaccard Medida de Similaridade Coeficiênte de Jaccard A similaridade entre duas palavras depende de: A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.

Weighted Jaccard coefficient Similarity Measure Weighted Jaccard coefficient

MicroCorpus em Lingua Natural Pedro lê um livro e Maria lê um livro, Pedro lê um romance e Maria lê um romance, Pedro também lê muita coisa mas Pedro gosta de Maria, Maria gosta de livros, Maria gosta de muita coisa. Maria come uma maçã e Pedro come uma maçã, Pedro também come uma salchicha, Pedro come muita coisa, Maria come salchichas, Maria gosta mesmo de salchichas.

Relaçoes Thesáuricas entre nomes Pedro  Maria livro  romance maçã  salchicha coisa  livro, salchicha, maçã, romance (livro  salchicha)? (Maria  coisa)?? (Pedro  salchicha)???

Extração de Contextos sintácticos de nomes n Pedro : (, 3) (, 1) (, 3) n Maria : (,2) (, 3) (,2) (,1) n romance : (,2) n livro : (,3) (,1) n coisa : (,1) (,1) (,1) n maça : (,2). n salchicha : (,2) (,1)

Cálculo do Peso dum contexto para cada palabra (3): romance: (, 2) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(romance, ) = log(2) = 0.3 W(romance, ) = 1.45 livro: (, 3) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(livro, ) = log(3) = 0.47 W(livro, ) = 1.62 livro: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(livro, ) = log(1) = 0. W(livro, ) = 0.31

Similidade entre palavras (2) WJ(maça, salchicha) = 1.4 / 1.71 = 0.81 min( (1.4), (1.4) ) = 1.4 max( (1.4), (1.4+0.31) ) = 1.71 0.41 WJ(maça, coisa) = 1.1 / 2.68 = 0.41 min( (1.4), (1.1) ) = 1.1 max((1.4), (1.27+0.31+1.1) ) = 2.68 0.51 WJ(salchicha, coisa) = 1.41 / 2.68 = 0.51 min( (1.4+0.25), (1.1+0.31) ) = 1.41 max( (1.4+0.25), (1.27+0.31+1.1) ) = 2.68 0.41 WJ(romance, coisa) = 1.1 / 2.68 = 0.41 min( (1.45), (1.1) ) = 1.1 max((1.45), (1.27+0.31+1.1) ) = 2.68

Similidade entre palavras (Ordenamento) (0.83) Pedro  Maria (0.81) maçã  salchicha (0.75) livro  romance (0.58) coisa  livro (0.51) coisa  salchicha (0.41) coisa  maçã, romance (0.16) livro  salchicha (0.11) Maria  salchicha (0.09) Maria  coisa (0.0) Pedro  salchicha (0.0) romance  salchicha

n juíz| {dirigente, presidente, subinspector, governador, árbitros} juíz| {dirigente, presidente, subinspector, governador, árbitros} n diploma| {decreto, lei, artigo, convenção, regulamento} diploma| {decreto, lei, artigo, convenção, regulamento} n decreto| {diploma, lei, artigo, nº, código} decreto| {diploma, lei, artigo, nº, código} n regulamento| {estatuto, código, sistema, decreto, norma} regulamento| {estatuto, código, sistema, decreto, norma} n regra| {norma, princípio, regime, legislação, plano} regra| {norma, princípio, regime, legislação, plano} n renda| {caução, indemnização, reintegração, multa, quota} renda| {caução, indemnização, reintegração, multa, quota} n conceito| {noção, estatuto, regime, temática, montante} conceito| {noção, estatuto, regime, temática, montante} Corpus da Procuradoria Geral da República (P.G.R.) Listas de palavras semelhantes

Thesaurus e Pesquisa de Informação Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos Acesso ao thesaurus para expandir as pesquisas Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação

Expansão de pesquisas via thesaurus Expansão restrictiva via coocurrências frequêntes: república: presidente da república, assembleia da república... câmara: presidente da câmara, vereador da câmara... Expansão associativa: Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminador categoria: cargo, carreira, lugar, funçðes...

Problemas da expansão query Que palavras ou termos da pesquisa devem ser expandidos? query: “TIPO DE REMUNERAÇÃO” diversificar Termos associados podem diversificar os textos recuperados: juíz, ministro, investigador

Bibliografia http://terra/~gamallo Gamallo P., Agustini A., Lopes G.P. (2002) " Using Co-composition for Acquiring Syntactic and Semantic Subcategorisation ", Workshop SIGLEX'02 (ACL'02), Philadelphia. Gamallo P., Gonzalez, M., Agustini A., Lopes G.P., S. de Lima, V. (2002) " Mapping Syntactic Dependencies into Semantic Relations", Workshop OLT'02 (ECAI'02), Lyon, France (15-22) Gamallo P., Gasperin C. Agustini A. Lopes G.P. (2001) " Syntactic- Based Methods for Measuring Word Similarity", In: V. Matousek, P. Mautner, R. Moucek and K. Moucek (Eds.), Text, Speech and Discourse (TSD-2001), LNAI, Springer-Verlag, Plenz, CZ (116-125)

Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL.

Apresentações semelhantes

Apresentação em tema: "Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL.

Apresentações semelhantes

Apresentação em tema: "Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback