A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Resolução de Entidades. Equipe Lucas Inojosa da Costa Ferreira (licf) Victor Hugo Carvalho de Amorim (vhca)

Apresentações semelhantes


Apresentação em tema: "Resolução de Entidades. Equipe Lucas Inojosa da Costa Ferreira (licf) Victor Hugo Carvalho de Amorim (vhca)"— Transcrição da apresentação:

1 Resolução de Entidades

2 Equipe Lucas Inojosa da Costa Ferreira (licf) Victor Hugo Carvalho de Amorim (vhca)

3 Agenda Tema Objetivo Motivação Dificuldades Caracterização do problema Similaridade entre entidades Algoritmo de clusterização Avaliação de resultado Conclusão

4 Tema Resolução de Entidades: Resolução de ambiguidade entre nomes de autores em citações bibliográficas Uma citação bibliográfica é um conjunto de dados bibliográficos relativos a um artigo específico, por exemplo, nomes de autores, título do artigo, veículo e ano de publicação

5 Objetivo Prover serviços com grande ganho de informação de forma confiável: - Citações de alta qualidade - Consistentes - Atualizadas

6 Motivação Papel importante em sistemas do mundo acadêmico: - Plataforma de currículos LATTES - Bibliotecas digitais de publicações científicas como a DBLP e a BDBComp

7 Motivação Fornecem: - Cobertura do conhecimento de uma área - Tendências de pesquisa - Qualidade ou impacto de publicações - Padrões de colaboração em redes sociais - Suporte a decisão para agências de fomento a pesquisas

8 Dificuldades Problemas em manter as citações o mais consistentes e atualizadas possível: - Erros na catalogação de dados - Variedades de formatos - Nomes de autores ambíguos - Abreviação de nomes de veículos de publicação - Dados a serem inseridos muitas vezes não são validados

9 Caracterização do problema Basear-se apenas na similaridade textual entre os nomes dos autores para agrupar as citações de uma biblioteca digital pode trazer alguns problemas

10 Caracterização do problema Formalmente tem-se dois subproblemas: - Citações separadas (split citation) - Citações agrupadas (mixed citation)

11 Caracterização do problema Citações separadas (split citation): - Identificar citações bibliográficas de um autor específico que estão divididas em várias classes - Cada classe associada a uma variação do nome do autor, como se fossem pessoas diferentes - Causas da variação: abreviações, erros de digitação e supressão ou troca de sobrenomes intermediários

12 Caracterização do problema Citações agrupadas (mixed citation): - Diferentes autores com a mesma grafia - Autores que possuem o mesmo nome - Causas do agrupamento: abreviação ou supressão de parte de seus nomes - O nome A. Gupta pode, em uma publicação, representar Apurba Gupta e, em outra, Apoop Gupta

13 Caracterização do problema Exemplo de citações separadas: um único autor e diferentes grafias

14 Caracterização do problema Exemplo de citações separadas: um único autor e diferentes grafias

15 Caracterização do problema Exemplo de citações agrupadas: vários autores e a mesma grafia

16 Resolução de Entidades em Grafos Grafo de Referência: nós são referências para entidades e arestas estão entre essas referências Grafo de Entidades: nós representam as verdadeiras entidades e as arestas, suas reais relações

17 Resolução de Entidades em Grafos Conciliar referências de dados com a mesma entidade do mundo real Construir um grafo de entidades limpo que capte as relações entre as verdadeiras entidades a partir do grafo de referência Importante passo em qualquer processo de mineração de grafos

18 Resolução de Entidades em Grafos Dada uma coleção de referências para entidades, pretendemos: a)Determinar a verdadeira coleção de entidades subjacentes b)Mapear corretamente as referências de entidades para as reais entidades c)Mapear corretamente os relacionamentos das referências de entidades (arestas no grafo de referências) para relacionamentos entre entidades (arestas no grafo de entidades)

19 Caracterização do problema Exemplo de um grafo de referência simples

20 Caracterização do problema Exemplo de um grafo de entidade simples (grafo resolvido)

21 Métricas de similaridade Similaridade de atributos Similaridade baseada em grafo Entre 0 e 1

22 Similaridade de atributos Comparações par-a-par: Single-link, average- link, complete-link Custo computacional alto para grandes clusters Single-link mais apropriado - Se 2 ref. são duplicadas, todas as duplicações destas ref. também são duplicações - Atualiza a similaridade entre 2 clusters:

23 Similaridade de atributos Computa a similaridade apenas com os nomes distintos de cada cluster Criação de um atributo representativo para cada cluster

24 Similaridade baseada em grafo Entidades relacionadas entre si Similaridade por arestas Similaridade de vizinhança

25 Similaridade por arestas Considerar o conjunto de arestas de um cluster Comparar os conjuntos de arestas de 2 clusters (par-a-par) Para cada aresta, considerar o multi- conjunto de rótulos de entidade

26 Similaridade por arestas Métrica de Jaccard Single-link novamente

27 Similaridade de vizinhança Método anterior muito complexo Junta todas as referências de todas as arestas do cluster num multi-conjunto, criando uma vizinhança

28 Similaridade baseada em grafo

29 Algoritmo de clusterização Experimentalmente, apenas 1% dos pares são duplicações Técnica de bloqueio é aplicada para eliminar os 99% e garantir muito mais eficiência Impraticável a comparação de todos os pares de candidatos

30 Algoritmo de clusterização As potenciais duplicações são identificadas Inseridas numa fila de prioridade pelo seu nível de similaridade O par com maior similaridade é mesclado em um novo cluster As operações são repetidas até a similaridade do maior par candidato estar abaixo de um limiar determinado

31 Algoritmo de clusterização Cada referência inicialmente torna-se um cluster Sem um grafo formado, as comparações iniciais são baseadas apenas na similaridade de atributos Comparações baseadas em bancos de dados também são levadas em conta

32 Algoritmo de clusterização Clusters inicializados Identifica os clusters mais similares, criando um novo cluster a partir deles Atualiza as similaridades Heaps indexados podem ser utilizados no processo Complexidade O(1) para a extração do par mais similar; O(log n) para mesclar de clusters

33 Métricas de avaliação Diversidade Dispersão

34 Experimentos

35

36 Conclusões Resolução baseada em grafos captura as relações entre as referências, aumentando a precisão Métrica com maior custo computacional prova ser mais confiável em alguns casos Escolha do algoritmo depende da frequência com que o processo é aplicado

37 Referências rafia-docs/BCC pm HerculanoGrippNeto.pdf rafia-docs/BCC pm HerculanoGrippNeto.pdf LBS-7NAEMD/1/ricardogon_alvescota.pdf LBS-7NAEMD/1/ricardogon_alvescota.pdf Entity Resolution In Graphs – Indrajit Bhattacharya, Lise Getoor – Departament of Computer Science – University of Maryland

38 Dúvidas


Carregar ppt "Resolução de Entidades. Equipe Lucas Inojosa da Costa Ferreira (licf) Victor Hugo Carvalho de Amorim (vhca)"

Apresentações semelhantes


Anúncios Google