A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL.

Apresentações semelhantes


Apresentação em tema: "Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL."— Transcrição da apresentação:

1 Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt http://terra/~gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

2 Plano Sistemas de recuperação de informação e processamento da linguagem natural Tesaurus e ontologias Construção automática de tesaurus a partir de texto analisado Uso de tesaurus em sistemas de pesquisa e recuperação de informação

3 Tesaurus e Ontologias Definição dualista: ­Ontologia ­Ontologia: conjunto de conceitos + relações ­Tesaurus ­Tesaurus: conjunto de termos de uma língua ligados a uma ontologia Definição basada na hipôtese relacional: ­Tesaurus = Ontologia ­Tesaurus = Ontologia: conjunto de termos + relações semânticas

4 multa  coima(sinonímia) presidente  secretário(co-hiponímia) pequeno  grande(antonímia) ministério  ministro(meronímia) banco  instituição(hiperonímia) Tesaurus e Ontologias

5 Tesaurus = Ontologia = Terminologia Propriedades duma Terminologia: ­termos relevantes para um domínio ­pouca polisemia ­pouco interés nos termos ­pouco interés nos termos “upper-level” ­problema de “portabilidade” a outros domínios

6 Tesaurus e Ontologias WordNet Sinonímia: única relação entre termos (“word forms”). Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto. As relações semânticas (hiperonímia, meronímia…) são relações entre synsets Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado. Polisemia: um termo é polisémico se ele aparecer em diferentes synsets.

7 Tesaurus e Ontologias Informação associada a “Organisation” em WordNet Synsets (3 senses): (1) arrangement, organisation, system (an organised structure for arranging or classifying) (2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something) (3) constitution, establishment, formation, organisation (the act of forming something)

8 Tesaurus e Ontologias Results for Hyponyms of “organisation” in WordNet Sense (1):  distribution, statiscal distribution  coordinate system, frame of reference, reference system Sense (2):  county, council  government, officials, officialdom  judiciary, bench Sense (3):  collectivisation  colonisation, settlement  federation

9 Sistemas de RI e PLN Indexação de documentos Selecção de textos relevantes a uma determinada consulta

10 Sistemas de RI e PLN Indexação de documentos: Os documentos são representados por “termos de índices” Selecção de textos relevantes a uma determinada consulta: - As consultas são representadas por “termos de consulta” - As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta - Operadores de consulta: And, Or, And_Not - Ordenamento dos documentos recuperados

11 Sistemas de RI e PLN Uso do PLN para representar texto (documentos e consultas) : ­ tokenização ­ eliminação das “stopwords” Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: ­ Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento. ­ Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a: - pôr em relação índices com o mesmo significado - economia de índices

12 Sistemas de RI e PLN Reconhecemento automático de descritores: ­ marcas tipográficas: termos em títulos, resumos, em negrito,... ­ eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) ­ identificação de termos compostos Indices normalizados e controlados: ­ Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação) ­ Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)

13 Geração de thesaurus: Propriedades Hipótese distribucional: As palalavras que partilham os mesmos contextos estão associadas semanticamente Textos com conteúdo específico: “domain-specific corpus” Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas

14 Geração de thesaurus: Etapas  Extracção dos contextos sintácticos do corpus  Métrica de similaridade entre palavras (baseada nos contextos partilhados)  Identificar para cada palavra, a lista de palavras mais semelhantes

15 Extracção de contextos sintácticos: Etapas Tagging: marcação em categorias morfossintácticas Parsing Parcial: marcação em chunks básicos Heurísticas de “Attachment” Identificação de relações binárias Extracção de contextos sintácticos

16 “Falta pois a participação directa do funcionário no acto documentário.” (corpus P.G.R.) Tagger: Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ Tagging e Parsing Parcial Parsing Parcial (Chunks Básicos): VP( faltar, pois) NP(a, participação, directa) PP(de, NP(o, funcionário)) PP(em, NP(o, acto, documentário))

17 Heurísticas de “Attachment” e Relações Sintácticas Attachment de Chunks Básicos: Relações Sintácticas entre palavras:

18 Contextos sintácticos : : :

19 Coeficiênte de Jaccard Medida de Similaridade Coeficiênte de Jaccard A similaridade entre duas palavras depende de: A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.

20 Weighted Jaccard coefficient Similarity Measure Weighted Jaccard coefficient

21 MicroCorpus em Lingua Natural Pedro lê um livro e Maria lê um livro, Pedro lê um romance e Maria lê um romance, Pedro também lê muita coisa mas Pedro gosta de Maria, Maria gosta de livros, Maria gosta de muita coisa. Maria come uma maçã e Pedro come uma maçã, Pedro também come uma salchicha, Pedro come muita coisa, Maria come salchichas, Maria gosta mesmo de salchichas.

22 Relaçoes Thesáuricas entre nomes Pedro  Maria livro  romance maçã  salchicha coisa  livro, salchicha, maçã, romance (livro  salchicha)? (Maria  coisa)?? (Pedro  salchicha)???

23 Extração de Contextos sintácticos de nomes n Pedro : (, 3) (, 1) (, 3) n Maria : (,2) (, 3) (,2) (,1) n romance : (,2) n livro : (,3) (,1) n coisa : (,1) (,1) (,1) n maça : (,2). n salchicha : (,2) (,1)

24 Cálculo do Peso dum contexto para cada palabra (3): romance: (, 2) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(romance, ) = log(2) = 0.3 W(romance, ) = 1.45 livro: (, 3) GW( ) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15 LW(livro, ) = log(3) = 0.47 W(livro, ) = 1.62 livro: (, 1) GW( ) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31 LW(livro, ) = log(1) = 0. W(livro, ) = 0.31

25 Similidade entre palavras (2) WJ(maça, salchicha) = 1.4 / 1.71 = 0.81 min( (1.4), (1.4) ) = 1.4 max( (1.4), (1.4+0.31) ) = 1.71 0.41 WJ(maça, coisa) = 1.1 / 2.68 = 0.41 min( (1.4), (1.1) ) = 1.1 max((1.4), (1.27+0.31+1.1) ) = 2.68 0.51 WJ(salchicha, coisa) = 1.41 / 2.68 = 0.51 min( (1.4+0.25), (1.1+0.31) ) = 1.41 max( (1.4+0.25), (1.27+0.31+1.1) ) = 2.68 0.41 WJ(romance, coisa) = 1.1 / 2.68 = 0.41 min( (1.45), (1.1) ) = 1.1 max((1.45), (1.27+0.31+1.1) ) = 2.68

26 Similidade entre palavras (Ordenamento) (0.83) Pedro  Maria (0.81) maçã  salchicha (0.75) livro  romance (0.58) coisa  livro (0.51) coisa  salchicha (0.41) coisa  maçã, romance (0.16) livro  salchicha (0.11) Maria  salchicha (0.09) Maria  coisa (0.0) Pedro  salchicha (0.0) romance  salchicha

27 n juíz| {dirigente, presidente, subinspector, governador, árbitros} juíz| {dirigente, presidente, subinspector, governador, árbitros} n diploma| {decreto, lei, artigo, convenção, regulamento} diploma| {decreto, lei, artigo, convenção, regulamento} n decreto| {diploma, lei, artigo, nº, código} decreto| {diploma, lei, artigo, nº, código} n regulamento| {estatuto, código, sistema, decreto, norma} regulamento| {estatuto, código, sistema, decreto, norma} n regra| {norma, princípio, regime, legislação, plano} regra| {norma, princípio, regime, legislação, plano} n renda| {caução, indemnização, reintegração, multa, quota} renda| {caução, indemnização, reintegração, multa, quota} n conceito| {noção, estatuto, regime, temática, montante} conceito| {noção, estatuto, regime, temática, montante} Corpus da Procuradoria Geral da República (P.G.R.) Listas de palavras semelhantes

28 Thesaurus e Pesquisa de Informação Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos Acesso ao thesaurus para expandir as pesquisas Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação

29 Expansão de pesquisas via thesaurus Expansão restrictiva via coocurrências frequêntes: república: presidente da república, assembleia da república... câmara: presidente da câmara, vereador da câmara... Expansão associativa: Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminador categoria: cargo, carreira, lugar, funçðes...

30 Problemas da expansão query Que palavras ou termos da pesquisa devem ser expandidos? query: “TIPO DE REMUNERAÇÃO” diversificar Termos associados podem diversificar os textos recuperados: juíz, ministro, investigador

31 Bibliografia http://terra/~gamallo Gamallo P., Agustini A., Lopes G.P. (2002) " Using Co-composition for Acquiring Syntactic and Semantic Subcategorisation ", Workshop SIGLEX'02 (ACL'02), Philadelphia. Gamallo P., Gonzalez, M., Agustini A., Lopes G.P., S. de Lima, V. (2002) " Mapping Syntactic Dependencies into Semantic Relations", Workshop OLT'02 (ECAI'02), Lyon, France (15-22) Gamallo P., Gasperin C. Agustini A. Lopes G.P. (2001) " Syntactic- Based Methods for Measuring Word Similarity", In: V. Matousek, P. Mautner, R. Moucek and K. Moucek (Eds.), Text, Speech and Discourse (TSD-2001), LNAI, Springer-Verlag, Plenz, CZ (116-125)


Carregar ppt "Geração automática de tesaurus e recuperação de informação Pablo Gamallo GLINt (Gupo de Lingua Natural) FCT, UNL."

Apresentações semelhantes


Anúncios Google