A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Dissertação de Doutoramento de Stephen D. Richardson

Apresentações semelhantes


Apresentação em tema: "Dissertação de Doutoramento de Stephen D. Richardson"— Transcrição da apresentação:

1 Dissertação de Doutoramento de Stephen D. Richardson
Determining Similarity and Inferring Relations in a Lexical Knowledge Base Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997 Apresentado por: Nuno Seco

2 Estrutura da Tese Introdução Extracção de Relações Semânticas
Atribuição de Pesos às Relações Quantificação de Semelhanças Semânticas Inferência de Novas Relações Conclusões

3 Objectivos e Motivação
Criação de uma Base de Conhecimento Lexical (Ontologia Lexical, Rede Lexical, ...). Porquê?? Para que Serve??

4 Objectivos e Motivação
Aplicações: Ferramentas de auxílio à escrita Desambiguação Sumarização Recolha de Informação

5 Abordagens Duas estratégias seguidas na obtenção da Ontologia Lexical:
Manualmente: WordNet, Cyc, HowNet… (Semi -) Automáticamente: MindNet

6 Extracção de Relações Semânticas
Conversão de dicionários (LDOCE) para um formato mais formal. MIND – MIcrosoft Natural Language Dictionary Porquê dicionários? Vocabulário fechado Linguagem simples

7 Extracção de Relações Semânticas
Exemplo: fruit --- “an object that grows on a tree or bush, contains seeds, is used for food, but is not usually eaten with meat or with salt“.

8 Extracção de Relações Semânticas (1 - Árvores Sintácticas)

9 Extracção de Relações Semânticas (2 - Forma Lógica)
Tenta-se normalizar o texto, tratando de questões como: Voz Passiva ex: “eaten” Anáfora

10 Extracção de Relações Semânticas
Utilização de heurísticas: “If the head verb of phrase is use and it is post-modified by a prepositional phrase containing the preposition for, then create a Purpose relation between the word being defined and the object of for.” Fruit Purp Food

11 Extracção de Relações Semânticas (3 – Forma Semântica Relacional )

12 Extracção de Relações Semânticas
São identificadas 16 tipos de relações a extrair, alguns exemplos são: Causalidade Hyperonímia Sinonímia Meronímia Objecto_Típico_de Sujeito_Típico_de

13 Extracção de Relações Semânticas
Ponto da Situação: Deriva-se as árvores sintácticas das definições. Efectua-se um conjunto de transformações e obtém-se as representações lógicas. Efectuam-se mais transformações e obtém-se a forma semântica relacional. Permite a extracção de triplos (“SEMRELS”): x1R x2 Será que não se pode fazer mais?

14 Extracção de Relações Semânticas
Serão estas as únicas relações que se conseguem extrair para “car” ?

15 Extracção de Relações Semânticas
E as definições que contêm a palavra “car”?

16 Extracção de Relações Semânticas
Através de um processo de inversão obtemos:

17 Extracção de Relações Semânticas
LDOCE contém: 33,000 entradas de substantivos 12,000 entradas de verbos Processo de extracção obteve: 147,000 semrels (x1 R x2) Processo de inversão produz: 180,000 semrels 78% das relações (com um erro de -/+ 5%) estão correctas

18 Atribuição de Pesos às Relações
É importante quantificar a importância dos SEMRELS ou um “caminho” de SEMRELS entre duas palavras. Semrel: car --- Poss ---> people Caminho de Semrels: car --- Purp ---> carry --- Tobj ---> people

19 Atribuição de Pesos às Relações
Formalizando um pouco mais: SEMREL w1Rw2 (car --- Purp ---> carry) Caminho de SEMRELS w1R1w2R2w3 (car --- Purp ---> carry --- Tobj ---> people) w1R1w2…wnRn+1wn+1 Partes do SEMREL w1R1 R1w2

20 Atribuição de Pesos Utilizando tf.idf
Adaptação de métricas utilizadas em RI. wik - peso do termo Tk do documento Di tfik – frequencia Tk no documento Di N – nº total de documentos (colecção) nk – nº de documentos com Tk Peso de w1Rw2 para entrada w1 Frequência de _Rw2 na entrada w1 Nº de entradas na BCL Nº de entradas na BCL com _Rw2

21 Atribuição de Pesos Utilizando tf.idf
Quais são as partes mais importantes/salientes de um carro? Relações Semânticas Frequência tf.idf (SemRels) (2ª parte) car¾Part®engine 3 8 34.511 car¾Part®wheel 28 29.089 car¾Part®window 2 4 25.007 car¾Part®top 50 17.720 car¾Part®clutch 1 14.504 car¾Part®dicky car¾Part®fender car¾Part®scoop car¾Part®trunk 12.504 car¾Part®horn 11 11.044

22 Atribuição de Pesos Utilizando tf.idf
Alguns problemas com o tf.idf. As palavras mais discriminatórias (w2) não representam a maior saliência cognitiva. Não é uma métrica simétrica: sc(w1Rw2) != sc(w2Rw1)

23 Atribuição de Pesos Utilizando Informação Mútua
Informação Mútua (“Mutual Information”) P(x) – probabilidade de x ocorrer P(y) – probabilidade de y ocorrer P(x,y) – probabilidade de x e y co-ocorrerem

24 Atribuição de Pesos Utilizando Informação Mútua
Fazendo a correspondência para o domínio do problema --- MI(w1Rw2): P(x) P(y) P(x,y) P(w1R) P(Rw2) P(w1Rw2)

25 Atribuição de Pesos Utilizando Informação Mútua
Quais são as partes mais importantes/salientes de um carro? Relações Semânticas Frequência MI (SemRels) (2ª parte) car¾Part®dicky 1 9,201 car¾Part®fender car¾Part®scoop car¾Part®underside car¾Part®window 2 5 7,879 car¾Part®boot 3 7,616 car¾Part®cockpit car¾Part®engine 11 7,327 car¾Part®trunk 6 6,616 car¾Part®wheel 32 5,786

26 Atribuição de Pesos Utilizando Informação Mútua
As frequências muito baixas dos SEMRELS podem ser a causa do problema. Foram testadas algumas variações ao IM standard, mas sem sucesso.

27 Atribuição de Pesos às Relações
Lei de Zipf: Ordenando as palavras por ordem de frequência descendente (“rank”) e traçando a curva em relação à frequência da palavra obtém-se uma curva hiperbólica. A posição classificativa (“rank”) de uma palavra vezes a sua frequência aproxima uma constante K.

28 Atribuição de Pesos às Relações

29 Atribuição de Pesos às Relações

30 Atribuição de Pesos às Relações
Será a Lei de Zipf válida para as relações semânticas (SEMRELS)? Existem muitos mais SEMRELS distintos do que palavras. As frequências de cada SEMREL são bastante baixas. Frequência de 90 é o máximo Não existem palavras de função.

31 Atribuição de Pesos às Relações
Para obter uma curva equivalente à de Zipf pode-se traçar uma curva que relaciona o número de SEMRELS com uma determinada frequência em relação à frequência.

32 Atribuição de Pesos às Relações

33 Atribuição de Pesos às Relações
Já sabemos como obter uma curva parecida com a de Zipf. Mas o que interessa saber é quais as palavras que estão relacionadas por relações perto de vértice. Para isso temos que traçar um gráfico para cada relação.

34 Atribuição de Pesos às Relações
Exemplo: Curva representando a frequência de SEMRELS do tipo TOBJ em relação ao número de SEMRELS com uma dada frequência.

35 Função de Frequência “Verticial”

36 Probabilidades “Verticiais”
Probabilidade de um SEMREL: Probabilidade das partes do SEMREL:

37 Probabilidade Estimada
Como as frequências de SEMRELS é baixa a validade das estatísticas pode estar comprometida. Pode-se utilizar probabilidades estimadas (“Averaged Probabilities”).

38 Probabilidade Estimada
Factores de Estimação:

39 Atribuição de Pesos utilizando Probabilidades Estimadas
Relações Semânticas Frequência Probabilidade (SemRels) (2ª parte) Estimada car¾Part®engine 3 11 car¾Part®wheel 32 car¾Part®window 2 5 car¾Part®top 61 car¾Part®horn 1 car¾Part®trunk 6 car¾Part®boot car¾Part®cockpit car¾Part®body 43 car¾Part®front 48

40 Dissertação de Doutoramento de Stephen D. Richardson
Determining Similarity and Inferring Relations in a Lexical Knowledge Base Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997 Apresentado por: Nuno Seco


Carregar ppt "Dissertação de Doutoramento de Stephen D. Richardson"

Apresentações semelhantes


Anúncios Google