A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Link Mining Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães.

Apresentações semelhantes


Apresentação em tema: "Link Mining Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães."— Transcrição da apresentação:

1 Link Mining Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães

2 Roteiro Definição – Data Mining – Link Mining Atividades envolvendo Link Mining Desafios de Link Mining

3 Dados Quantidade de Dados – Evolução dos recursos computacionais – Quantidade de informação dobra a cada 20 meses

4

5

6 Data Mining Consiste em técnicas para transformar grande quantidade de dados em informações consistentes, para detectar relacionamentos sistemáticos.

7 Data Mining Estatística Recuperação da informação Inteligência artificial Reconhecimento de padrões

8 Data Mining Exemplo

9 Link Mining Refere-se a técnicas de mineração que explicitamente considera os tipos de links quando constrói modelos preditivos ou descritivos dos dados relacionados.

10 Link Mining Conjunto de Dados do Mundo Real: – Multi-relacionais, heterogêneos e semi-estruturado Link Mining – Nova área de pesquisa emergente resultante da interseçào de pesquisa em redes social e análise de links, hipertexto e mineração na web, aprendizado relacional e programação lógica indutiva e mineração de grafos.

11 Dados relacionados Dados heterogêneos, multi-relacional representados como um grafo ou rede – Nós são objetos Podemos ter diferentes tipos de objetos Objetos tem atributos Objetos podem ter rótulos ou classes – Arestas são links Podemos ter diferentes tipos de links Links podem ter atributos Links podem ser direcionados e não necessariamente precisam ser binários

12 Domínios de Exemplo Dados Web Dados Bibliográficos Dados epidemiológicos

13 Exemplo: Dados Bibliográficos Ligados P2P2 P4P4 A1A1 P3P3 P1P1 I1I1 P2P2 P4P4 P3P3 P1P1 I1I1 Links: Citação Co-Citação Autor de Attributos: Objects: Papers Authors Institutions Afiliação de autor Categorias

14 Atividades Link Mining Relacionadas a ObjetosRelacionadas a LinksRelacionadas a Grafos Ranking de objetos baseado em links Predição de links Descoberta de subgrafos Classificação de objetos baseado em links Estimar CardinalidadeClassificação de grafos Detectão de grupos Modelos geradores de grafos Resolução de entidades (Identificação de Objetos)

15 Ranking de Objetos baseado em Links Ordenar um Conjunto de Objetos a partir de um grafo Principais algoritmos: – Page Rank – HITS

16 Ranking – Page Rank

17 Ranking - HITS Hubs e Authorities – Hubs: Linka várias Authorities – Authorities: São linkadas por vários Hubs

18 Classificação de Objetos baseada em links Predizer a categoria de um objeto baseado em seu atributos, seus links e também os atributos dos objetos ligados. WEB: Predizer a categoria de uma página web, baseada em palavras que ocorrem na página, links entre páginas, texto principal, tags html, etc.

19 Classificação de Objetos baseada em links Cite: Predizer o tópico de um paper baseado na ocorrência de palavras, citações e co- citações EPI: Predizer tipo de doenças baseadas em características das pessoas; Predizer a idade de um indivíduo baseado nas idades das pessoas que entraram em contato com ele e o tipo da doença.

20 Detecção de Grupos Agrupar os nós do grafo em grupos cujos integrantes possua características em comum; Exemplo: – Determinar nichos de mercado Técnicas: – Blockmodeling – Spectral graph partitioning

21 Clientes Produtos Idosos Mulheres anos Homens anos

22 Identificação de Objeto Predizer quando dois objetos são o mesmo, baseado em seus atributos a seus links (record linkage, eliminição de duplicações) WEB: predizer quando dois sites são mirrors de um outro. Cite: Predizer quando duas citações são referenciadas para o mesmo paper. EPI: Predizer quando duas vertentes de doenças são as mesmas.

23 Predizer Tipo de Link Predizer o tipo ou propósito do Link Web: Predizer links patrocinados e links de navegação; Predizer um relacionamento advisor-advisse cite: Predição se um co-autor é também um orientador Epi: Predizer se o contato é familiar, profissional ou conhecido

24 Predizer existência de Links Predizer se um Link existe entre dois objetos WEB: predizer se haverá um link entre duas páginas Cite: predizer se um paper citará outro paper EPI:Predizer quem são os contatos de um paciente

25 Predição de links Predizer a existência de um link entre duas entidades baseado nos atributos dos objetos e outros links observados; Problema de classificação binário: para qualquer dois objetos potencialmente linkados o i e o j, predizer quando l ij é 1 ou 0. Abordagens: – Propriedades estruturais da rede; – Informações dos atributos. 25

26 Predição de links Exemplo: – Friend Finder do Facebook – Prever relações de amizade entre membros de uma rede social – Relações existentes mas não observadas 26

27 Predição de links Exemplo: – Recomendações do Amazon – Prever compra de novos produtos com base no histórico de compras – Relações ainda não existentes (nesse caso, de compra de produtos) 27

28 Estimar cardinalidade de links I Predizer o número de links de um objeto WEB: predizer a authoratativeness de uma página baseada no número de links internos; Identificando hubs baseado no número de links externos Cite: predizer o impacto de um paper baseado no número de citações EPI: predizer a infecciosidade de uma doença baseada no número de pessoas diagnosticadas

29 Estimar cardinalidade de links II Predizer o número de objetos alcançados ao longo de um caminho a partir de um objeto Importante para estimar o número de objetos que será retornado por uma consulta WEB: Predizer o número de páginas retornadas por crawling um site Cite: predizer o número de citações de um autor particular em um journla específico EPI: Predizer o número de contatos mais velhos para um paciente particular

30 Descoberta de subgrafos Encontrar subgrafos comuns ou interessantes em um conjunto de grafos; Uso – Classificação de grupos; – Identificação de padrões; – Identificação de regras associadas. Fases: – Geração de candidatos; – Matching. Teste de isomorfismo dos subgrafos 30

31 Descoberta de subgrafos Exemplo: – Identificação de padrões de relacionamento 31

32 Classificação de grafos Categorizar um grafo inteiro como uma instância positiva ou negativa de um conceito; Um dos primeiros problemas de data mining a empregar técnicas de AM; Não há necessidade de inferência coletiva -> independentemente gerado; Programação lógica indutiva: mineração de características do grafos utilizando descoberta de subgrafos 32

33 Modelos geradores de grafos Dado um conjunto de grafos, como podemos gerar novos grafos que são partes da distribuição do conjunto original? Exemplo: – Expressões faciais 33

34 Modelos geradores de grafos 2 passos: 1.Contrução de um modelo estatístico do conjunto de grafos que capture as presentes variações estruturais subjacentes; 2.A partir desse modelo, gerar novos exemplos que são partes da distribuição do conjunto original. 34

35 Grafos em constante mudança Desafios

36 Combinar técnicas Clientes Produtos 36

37 Desafios Combinar técnicas Clientes Produtos Detectar grupos 37

38 Desafios Combinar técnicas Clientes Produtos Idosos Mulheres anos Homens anos 38

39 Desafios Combinar técnicas Clientes Produtos Previsão de links Idosos Homens anos Mulheres anos 39

40 Desafios Análise de dados gigantescos 40

41 Conclusão Muitos domínios são melhores descritos hoje como uma coleção de dados linkados de objetos heterogênos relacionados; Link mining é uma nova e excitante área de pesquisa em data mining que explora os links entre as instâncias dos dados; 41

42 Conclusão Relacionadas a Objetos Relacionadas a LinksRelacionadas a Grafos Ranking de objetos baseado em links Predição de links Descoberta de subgrafos Classificação de objetos baseado em links Classificação de grafos Detectão de grupos Modelos geradores de grafos

43 Referências Link mining: a survey. Getoor L., Diehl C. SIGKDD Explor. Newsl., Vol. 7, No. 2. (December 2005), pp M. Kuramochi and G. Karypis. Frequent subgraph discovery.In ICDM, pages 313–320, /6050/The-Ultimate-List-100-Twitter- Statistics.aspx 43

44 Dúvidas


Carregar ppt "Link Mining Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães."

Apresentações semelhantes


Anúncios Google