Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouGabriela Monterroso Alterado mais de 9 anos atrás
1
Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt http://terra/~gamallo GLINt (Gupo de Lingua Natural) FCT, UNL
2
Plano Sistemas de recuperação de informação e processamento da linguagem natural Tesaurus e ontologias Construção automática de tesaurus a partir de texto analisado Uso de tesaurus em sistemas de pesquisa e recuperação de informação
3
Tesaurus e Ontologias Definição dualista: Ontologia Ontologia: conjunto de conceitos + relações Tesaurus Tesaurus: conjunto de termos de uma língua ligados a uma ontologia Definição basada na hipôtese relacional: Tesaurus = Ontologia Tesaurus = Ontologia: conjunto de termos + relações semânticas
4
multa coima(sinonímia) presidente secretário(co-hiponímia) pequeno grande(antonímia) ministério ministro(meronímia) banco instituição(hiperonímia) Tesaurus e Ontologias
5
Tesaurus = Ontologia = Terminologia Propriedades duma Terminologia: termos relevantes para um domínio pouca polisemia pouco interés nos termos pouco interés nos termos “upper-level” problema de “portabilidade” a outros domínios
6
Tesaurus e Ontologias WordNet Sinonímia: única relação entre termos (“word forms”). Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto. As relações semânticas (hiperonímia, meronímia…) são relações entre synsets Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado. Polisemia: um termo é polisémico se ele aparecer em diferentes synsets.
7
Tesaurus e Ontologias Informação associada a “Organisation” em WordNet Synsets (3 senses): (1) arrangement, organisation, system (an organised structure for arranging or classifying) (2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something) (3) constitution, establishment, formation, organisation (the act of forming something)
8
Tesaurus e Ontologias Results for Hyponyms of “organisation” in WordNet Sense (1): distribution, statiscal distribution coordinate system, frame of reference, reference system Sense (2): county, council government, officials, officialdom judiciary, bench Sense (3): collectivisation colonisation, settlement federation
9
Sistemas de RI e PLN Indexação de documentos Selecção de textos relevantes a uma determinada consulta
10
Sistemas de RI e PLN Indexação de documentos: Os documentos são representados por “termos de índices” Selecção de textos relevantes a uma determinada consulta: - As consultas são representadas por “termos de consulta” - As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta - Operadores de consulta: And, Or, And_Not - Ordenamento dos documentos recuperados
11
Sistemas de RI e PLN Uso do PLN para representar texto (documentos e consultas) : tokenização eliminação das “stopwords” Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento. Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a: - pôr em relação índices com o mesmo significado - economia de índices
12
Sistemas de RI e PLN Reconhecemento automático de descritores: marcas tipográficas: termos em títulos, resumos, em negrito,... eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) identificação de termos compostos Indices normalizados e controlados: Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação) Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)
13
Geração de thesaurus: Propriedades Hipótese distribucional: As palalavras que partilham os mesmos contextos estão associadas semanticamente Textos com conteúdo específico: “domain-specific corpus” Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas
14
Geração de thesaurus: Etapas Extracção dos contextos sintácticos do corpus Métrica de similaridade entre palavras (baseada nos contextos partilhados) Identificar para cada palavra, a lista de palavras mais semelhantes
15
Extracção de contextos sintácticos: Etapas Tagging: marcação em categorias morfossintácticas Parsing Parcial: marcação em chunks básicos Heurísticas de “Attachment” Identificação de relações binárias Extracção de contextos sintácticos
16
“Falta pois a participação directa do funcionário no acto documentário.” (corpus P.G.R.) Tagger: Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ Tagging e Parsing Parcial Parsing Parcial (Chunks Básicos): VP( faltar, pois) NP(a, participação, directa) PP(de, NP(o, funcionário)) PP(em, NP(o, acto, documentário))
17
Heurísticas de “Attachment” e Relações Sintácticas Attachment de Chunks Básicos: Relações Sintácticas entre palavras:
18
Contextos sintácticos : : :
19
Coeficiênte de Jaccard Medida de Similaridade Coeficiênte de Jaccard A similaridade entre duas palavras depende de: A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.
20
Weighted Jaccard coefficient Similarity Measure Weighted Jaccard coefficient
21
MicroCorpus em Lingua Natural Pedro lê um livro e Maria lê um livro, Pedro lê um romance e Maria lê um romance, Pedro também lê muita coisa mas Pedro gosta de Maria, Maria gosta de livros, Maria gosta de muita coisa. Maria come uma maçã e Pedro come uma maçã, Pedro também come uma salchicha, Pedro come muita coisa, Maria come salchichas, Maria gosta mesmo de salchichas.
22
Relaçoes Thesáuricas entre nomes Pedro Maria livro romance maçã salchicha coisa livro, salchicha, maçã, romance (livro salchicha)? (Maria coisa)?? (Pedro salchicha)???
23
Extração de Contextos sintácticos de nomes n Pedro : (, 3) (, 1) (, 3) n Maria : (,2) (, 3) (,2) (,1) n romance : (,2) n livro : (,3) (,1) n coisa : (,1) (,1) (,1) n maça : (,2). n salchicha : (,2) (,1)
24
Cálculo do Peso dum contexto para cada palabra (3): romance: (, 2) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(romance, ) = log(2) = 0.3 W(romance, ) = 1.45 livro: (, 3) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(livro, ) = log(3) = 0.47 W(livro, ) = 1.62 livro: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(livro, ) = log(1) = 0. W(livro, ) = 0.31
25
Similidade entre palavras (2) WJ(maça, salchicha) = 1.4 / 1.71 = 0.81 min( (1.4), (1.4) ) = 1.4 max( (1.4), (1.4+0.31) ) = 1.71 0.41 WJ(maça, coisa) = 1.1 / 2.68 = 0.41 min( (1.4), (1.1) ) = 1.1 max((1.4), (1.27+0.31+1.1) ) = 2.68 0.51 WJ(salchicha, coisa) = 1.41 / 2.68 = 0.51 min( (1.4+0.25), (1.1+0.31) ) = 1.41 max( (1.4+0.25), (1.27+0.31+1.1) ) = 2.68 0.41 WJ(romance, coisa) = 1.1 / 2.68 = 0.41 min( (1.45), (1.1) ) = 1.1 max((1.45), (1.27+0.31+1.1) ) = 2.68
26
Similidade entre palavras (Ordenamento) (0.83) Pedro Maria (0.81) maçã salchicha (0.75) livro romance (0.58) coisa livro (0.51) coisa salchicha (0.41) coisa maçã, romance (0.16) livro salchicha (0.11) Maria salchicha (0.09) Maria coisa (0.0) Pedro salchicha (0.0) romance salchicha
27
n juíz| {dirigente, presidente, subinspector, governador, árbitros} juíz| {dirigente, presidente, subinspector, governador, árbitros} n diploma| {decreto, lei, artigo, convenção, regulamento} diploma| {decreto, lei, artigo, convenção, regulamento} n decreto| {diploma, lei, artigo, nº, código} decreto| {diploma, lei, artigo, nº, código} n regulamento| {estatuto, código, sistema, decreto, norma} regulamento| {estatuto, código, sistema, decreto, norma} n regra| {norma, princípio, regime, legislação, plano} regra| {norma, princípio, regime, legislação, plano} n renda| {caução, indemnização, reintegração, multa, quota} renda| {caução, indemnização, reintegração, multa, quota} n conceito| {noção, estatuto, regime, temática, montante} conceito| {noção, estatuto, regime, temática, montante} Corpus da Procuradoria Geral da República (P.G.R.) Listas de palavras semelhantes
28
Thesaurus e Pesquisa de Informação Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos Acesso ao thesaurus para expandir as pesquisas Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação
29
Expansão de pesquisas via thesaurus Expansão restrictiva via coocurrências frequêntes: república: presidente da república, assembleia da república... câmara: presidente da câmara, vereador da câmara... Expansão associativa: Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminador categoria: cargo, carreira, lugar, funçðes...
30
Problemas da expansão query Que palavras ou termos da pesquisa devem ser expandidos? query: “TIPO DE REMUNERAÇÃO” diversificar Termos associados podem diversificar os textos recuperados: juíz, ministro, investigador
31
Bibliografia http://terra/~gamallo Gamallo P., Agustini A., Lopes G.P. (2002) " Using Co-composition for Acquiring Syntactic and Semantic Subcategorisation ", Workshop SIGLEX'02 (ACL'02), Philadelphia. Gamallo P., Gonzalez, M., Agustini A., Lopes G.P., S. de Lima, V. (2002) " Mapping Syntactic Dependencies into Semantic Relations", Workshop OLT'02 (ECAI'02), Lyon, France (15-22) Gamallo P., Gasperin C. Agustini A. Lopes G.P. (2001) " Syntactic- Based Methods for Measuring Word Similarity", In: V. Matousek, P. Mautner, R. Moucek and K. Moucek (Eds.), Text, Speech and Discourse (TSD-2001), LNAI, Springer-Verlag, Plenz, CZ (116-125)
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.