A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Resolução de Entidades

Apresentações semelhantes


Apresentação em tema: "Resolução de Entidades"— Transcrição da apresentação:

1 Resolução de Entidades

2 Equipe Lucas Inojosa da Costa Ferreira (licf)
Victor Hugo Carvalho de Amorim (vhca)

3 Agenda Tema Objetivo Motivação Dificuldades Caracterização do problema
Similaridade entre entidades Algoritmo de clusterização Avaliação de resultado Conclusão

4 Tema Resolução de Entidades: Resolução de ambiguidade entre nomes de autores em citações bibliográficas Uma citação bibliográfica é um conjunto de dados bibliográficos relativos a um artigo específico, por exemplo, nomes de autores, título do artigo, veículo e ano de publicação

5 Objetivo Prover serviços com grande ganho de informação de forma confiável: - Citações de alta qualidade - Consistentes - Atualizadas

6 Motivação Papel importante em sistemas do mundo acadêmico:
- Plataforma de currículos LATTES - Bibliotecas digitais de publicações científicas como a DBLP e a BDBComp

7 Motivação Fornecem: - Cobertura do conhecimento de uma área
- Tendências de pesquisa - Qualidade ou impacto de publicações - Padrões de colaboração em redes sociais - Suporte a decisão para agências de fomento a pesquisas

8 Dificuldades Problemas em manter as citações o mais consistentes e atualizadas possível: - Erros na catalogação de dados - Variedades de formatos - Nomes de autores ambíguos - Abreviação de nomes de veículos de publicação - Dados a serem inseridos muitas vezes não são validados

9 Caracterização do problema
Basear-se apenas na similaridade textual entre os nomes dos autores para agrupar as citações de uma biblioteca digital pode trazer alguns problemas

10 Caracterização do problema
Formalmente tem-se dois subproblemas: - Citações separadas (split citation) - Citações agrupadas (mixed citation)

11 Caracterização do problema
Citações separadas (split citation): - Identificar citações bibliográficas de um autor específico que estão divididas em várias classes - Cada classe associada a uma variação do nome do autor, como se fossem pessoas diferentes - Causas da variação: abreviações, erros de digitação e supressão ou troca de sobrenomes intermediários

12 Caracterização do problema
Citações agrupadas (mixed citation): - Diferentes autores com a mesma grafia - Autores que possuem o mesmo nome - Causas do agrupamento: abreviação ou supressão de parte de seus nomes - O nome A. Gupta pode, em uma publicação, representar Apurba Gupta e, em outra, Apoop Gupta

13 Exemplo de citações separadas: um único autor e diferentes grafias
Caracterização do problema Exemplo de citações separadas: um único autor e diferentes grafias

14 Exemplo de citações separadas: um único autor e diferentes grafias
Caracterização do problema Exemplo de citações separadas: um único autor e diferentes grafias

15 Exemplo de citações agrupadas: vários autores e a mesma grafia
Caracterização do problema Exemplo de citações agrupadas: vários autores e a mesma grafia

16 Resolução de Entidades em Grafos
Grafo de Referência: nós são referências para entidades e arestas estão entre essas referências Grafo de Entidades: nós representam as verdadeiras entidades e as arestas, suas reais relações

17 Resolução de Entidades em Grafos
Conciliar referências de dados com a mesma entidade do mundo real Construir um grafo de entidades “limpo” que capte as relações entre as verdadeiras entidades a partir do grafo de referência Importante passo em qualquer processo de mineração de grafos

18 Resolução de Entidades em Grafos
Dada uma coleção de referências para entidades, pretendemos: Determinar a verdadeira coleção de entidades subjacentes Mapear corretamente as referências de entidades para as reais entidades Mapear corretamente os relacionamentos das referências de entidades (arestas no grafo de referências) para relacionamentos entre entidades (arestas no grafo de entidades)

19 Exemplo de um grafo de referência simples
Caracterização do problema Exemplo de um grafo de referência simples

20 Exemplo de um grafo de entidade simples (grafo resolvido)
Caracterização do problema Exemplo de um grafo de entidade simples (grafo resolvido)

21 Métricas de similaridade
Similaridade de atributos Similaridade baseada em grafo Entre 0 e 1

22 Similaridade de atributos
Comparações par-a-par: Single-link, average-link, complete-link Custo computacional alto para grandes clusters Single-link mais apropriado - Se 2 ref. são duplicadas, todas as duplicações destas ref. também são duplicações - Atualiza a similaridade entre 2 clusters:

23 Similaridade de atributos
Computa a similaridade apenas com os nomes distintos de cada cluster Criação de um atributo representativo para cada cluster

24 Similaridade baseada em grafo
Entidades relacionadas entre si Similaridade por arestas Similaridade de vizinhança

25 Similaridade por arestas
Considerar o conjunto de arestas de um cluster Comparar os conjuntos de arestas de 2 clusters (par-a-par) Para cada aresta, considerar o multi-conjunto de rótulos de entidade

26 Similaridade por arestas
Métrica de Jaccard Single-link novamente

27 Similaridade de vizinhança
Método anterior muito complexo Junta todas as referências de todas as arestas do cluster num multi-conjunto, criando uma vizinhança

28 Similaridade baseada em grafo

29 Algoritmo de clusterização
Experimentalmente, apenas 1% dos pares são duplicações Técnica de bloqueio é aplicada para eliminar os 99% e garantir muito mais eficiência Impraticável a comparação de todos os pares de candidatos

30 Algoritmo de clusterização
As potenciais duplicações são identificadas Inseridas numa fila de prioridade pelo seu nível de similaridade O par com maior similaridade é mesclado em um novo cluster As operações são repetidas até a similaridade do maior par candidato estar abaixo de um limiar determinado

31 Algoritmo de clusterização
Cada referência inicialmente torna-se um cluster Sem um grafo formado, as comparações iniciais são baseadas apenas na similaridade de atributos Comparações baseadas em bancos de dados também são levadas em conta

32 Algoritmo de clusterização
Clusters inicializados Identifica os clusters mais similares, criando um novo cluster a partir deles Atualiza as similaridades Heaps indexados podem ser utilizados no processo Complexidade O(1) para a extração do par mais similar; O(log n) para mesclar de clusters

33 Métricas de avaliação Diversidade Dispersão

34 Experimentos

35 Experimentos

36 Conclusões Resolução baseada em grafos captura as relações entre as referências, aumentando a precisão Métrica com maior custo computacional prova ser mais confiável em alguns casos Escolha do algoritmo depende da frequência com que o processo é aplicado

37 Referências Entity Resolution In Graphs – Indrajit Bhattacharya, Lise Getoor – Departament of Computer Science – University of Maryland

38 Dúvidas


Carregar ppt "Resolução de Entidades"

Apresentações semelhantes


Anúncios Google