Predição de Relacionamentos

Slides:



Advertisements
Apresentações semelhantes
SISTEMAS DE INFORMAÇÕES GERENCIAIS
Advertisements

Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.
INTELIGÊNGIA COMPUTACIONAL
Felipe Carvalho – UFES 2009/2
LOGO Sensitivity Analysis of Dependability in Redundant Computer Networks Almir Guimarães / Kádna Camboim / Rubens Matos
Formas de melhorar a integração – nível comunitário
Conexidade e Conectividade
Aprendizado de Máquina
A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Classificadores em Dados não Balanceados
Peer to Peer Referência:
Carlo Marcello Thiago Roberto Borille
Ontologia para Sistemas Configurarionais Urbanos
Sumarização Automática de Vídeos
Support Vector Machines (SVM)
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
Arquiteturas de Alto Desempenho
Composição e Geração de Aplicações usando Aspectos
Modelos de Redes Complexas
Tao Qin, Tie-Yan Liu, Jun Xu, Hang Li
Detecção de Comunidades
Aprendizado de Máquina
Aprendizado de Máquina Aula 8
Análise de Centralidade
Link Mining Víctor Medeiros.
Aprendizagem de Máquina - Agrupamento
Finding and Evaluating Community Structure in Networks
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Modelos de Redes Ricardo Prudêncio.
Alunos : Airton Sampaio de Sobral Mailson Lira
R ESOLUÇÃO DE E NTIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Análise de Redes Complexas – Conceitos e Propriedades Básicas
Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães
Maio, 2009 Técnicas de Modelagem de Dados Bruno Filipe de Oliveira Lins.
Aluno: Lucas Bucci da Silveira Orientador: Carlos Roberto Lopes
Combined Regression and Ranking
Aluno: Rodolfo A. L. Costa Orientador: Prof. Frederico G. Guimarães
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Uso de Sistemas Imunológicos Artificiais para Detecção de Falhas em Plantas da Indústria de Petróleo. Aluno: Alexandre Willig Quintino dos Santos Orientador:
Área de Pesquisa: Redes de Computadores
Arquitetura RNN BRNN IEBRNN Aprendizagem supervisionada seqüencial Aprendizagem supervisionada seqüencial enriquecida com um grafo de interações A arquitetura.
13/07/2007 Saulo Andrade Pessoa Simulação de Iluminação Volumétrica Apresentação de Andamento Computação Gráfica.
Reconstrução Tridimensional usando IPP Trabalho final do curso de Visão Computacional DCC / UFMG Apresentação: Antônio Wilson Vieira.
Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Análise de Redes Complexas – Conceitos e Propriedades Básicas
Uma Abordagem para Criação de Agentes Normativos Marx Leles Viana
C LASSIFICAÇÃO DE N ÓS Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
LIG - Université Grenoble Mineração de Preferências Contextuais sobre dados de preferência “pairwise” Data Mining AULA 19 – Parte I Sandra de Amo.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Classificação de conteúdo em blogs Evelin Amorim e Vitor Dantas Aprendizado de Máquina Depto. de Informática PUC-Rio.
Community Structure in Jazz de Pablo M. Gleiser e Leon Danon Tópicos Avançados em Inteligência Artificial Prof. Ricardo Prudêncio apresentado por Bernardo.
Link Prediction Problem for Social Networks
M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio.
LINK MINING Rafael Santos. Roteiro  Contexto  Data mining e Link mining  Tarefas:  Relacionadas a Objetos Ranking de objetos baseado em links Classificação.
Manuel Loaiza Marcelo Gattass Alberto Raposo
Um Sistema Peer-to- Peer para Armazenamento Distribuído de Arquivos Daniel Mauricio Sthor Lauro Luis Costa Lucas Nascimento Ferreira Departamento de Informática.
Análise de Centralidade
Tópicos Avançados em Agentes Inteligentes Análise e Mineração de Redes Complexas Ricardo Prudêncio –
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
Mineração de Grafos e Predição de Links
Introdução aos sistemas distribuídos on-line para processamento de fluxos de dados – Parte I PROF. ANDRÉ LEON S. GRADVOHL, DR. 7/agosto/2015.
DETECÇÃO DE COMUNIDADES TAIA
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Comunicação Assíncrona em Equipes Distribuídas: Requisitos e Meios Utilizados Cleyton Carvalho da Trindade Universidade Federal de.
Transcrição da apresentação:

Predição de Relacionamentos Paulo Soares Ricardo Prudêncio

Roteiro Introdução Métricas Abordagens Aplicações Conclusão Não temporal Temporal Aplicações Conclusão

Introdução Redes sociais são muito dinâmicas Conexões surgem e desaparecem com o tempo Antecipar o estado de uma rede é importante para propósitos diversos Predição de Relacionamentos

Link Mining - Tarefas Predição de Links Relacionadas a Objetos Ranking de Nós Classificação de Nós Detecção de Grupos Resolução de Entidades Relacionadas a Objetos Predição de Links Relacionadas a Arestas Descoberta de Sub-Grafos Classificação de Grafos Modelos Geradores Relacionadas a Grafos

Predição de Links Predizer links mais prováveis em uma rede ?

Representação ? V = {Alan, Alice, Bob} E = {(Alan, Alice),(Alan, Bob))} G = <V,E>

Predição de Links Variantes Predição de links futuros Predição de links ocultos Predição de aumento ou diminuição de conexão (predição de pesos) Predição de reincidência de conexões

Métricas Similaridade entre dois nós de uma rede (1)Características individuais dos nós E.g., áreas de pesquisa, gostos, comunidades... (2)Características topológicas Baseadas na vizinhança Preferential attachment, common neighbors... Baseadas em distância Katz, hitting time

Métricas Preferential Attachment 𝑠𝑐𝑜𝑟𝑒 𝑥,𝑦 =|Γ 𝑥 |.|Γ 𝑦 | Γ 𝑎 =2 Γ 𝑎 =2 e Γ 𝑏 =2 d 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑏 =4 a b c Prós: baseado no efeito “rich-get-richer” Contras: ainda que bem conectados, nós distantes na rede provavelmente nunca formarão links no futuro

Métricas Common Neighbors 𝑠𝑐𝑜𝑟𝑒 𝑥,𝑦 =|Γ 𝑥 ∩Γ 𝑦 | Γ 𝑥 ∩Γ 𝑦 ={𝑐,𝑑} 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑏 =2 d a b c Prós: amizades tendem a se formar intermediadas por nós em comum Contras: os nós em comum podem ser hubs

Métricas Adamic/Adar 𝑠𝑐𝑜𝑟𝑒 𝑥,𝑦 = 𝑧 ∈ Γ 𝑥 ∩Γ 𝑦 1 log⁡(Γ 𝑧 ) Γ 𝑥 ∩Γ 𝑦 ={𝑐,𝑑} e 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑏 = 1 log⁡(2) + 1 log⁡(3) = 5.42 d a b c Prós: minimiza efeitos dos hubs como vizinhos em comum Contras: análise da rede localmente

Métricas Katz 𝑠𝑐𝑜𝑟𝑒 𝑥,𝑦 = 𝑙=1 ∞ β 𝑙 .| 𝑝𝑎𝑡ℎ𝑠 <𝑙> (𝑥,𝑦)| β=0.05; 𝑠𝑐𝑜𝑟𝑒 𝑥,𝑦 = 𝑙=1 ∞ β 𝑙 .| 𝑝𝑎𝑡ℎ𝑠 <𝑙> (𝑥,𝑦)| β=0.05; e 𝑙=1; |𝑝𝑎𝑡ℎ𝑠 <1> 𝑎,𝑏 |=0 d 𝑙=2;| 𝑝𝑎𝑡ℎ𝑠 <2> 𝑎,𝑏 |=2 a b 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑏 =0.05∗0+0.0025∗2 =0.005 c Prós: minimiza efeitos da análise local Contras: alto custo computacional

Métricas Hitting Time 𝑠𝑐𝑜𝑟𝑒 𝑥,𝑦 =−( 𝐻 𝑥,𝑦 . 𝜋 𝑦 + 𝐻 𝑦,𝑥 . 𝜋 𝑥 ) 𝐻 𝑥,𝑦 = nº de passos até atingir “y” a partir de “x” com randomwalking. 𝜋 𝑥 = probabilidade estacionária de “x”. Prós: métrica probabilista Contras: apresenta resultados inferiores a outros algoritmos baseados no mesmo princípio

Abordagens Não temporal Ranqueamento (não-supervisionada) Usam um snapshot da rede no tempo t, para predizer novos relacionamentos no período entre t e um tempo futuro t’ Ranqueamento (não-supervisionada) Aprendizagem de máquina (supervisionada)

Ranqueamento Algoritmo Computar scores para cada par de vértices que não formam links no conjunto de treinamento Ranquear os scores em ordem decrescente Determinar um limiar de corte Classificar os pares acima desse limiar como positivos (formam ligações) e os abaixo como negativos (não formam ligações).

Ranqueamento Ex. Common Neighbors 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑏 =2 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑒 =1 d c b e 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑏 =2 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑒 =1 𝑠𝑐𝑜𝑟𝑒 𝑏,𝑒 =1 𝑠𝑐𝑜𝑟𝑒 𝑐,𝑑 =2 𝑠𝑐𝑜𝑟𝑒 𝑐,𝑒 =0 a d c b e Possível rede no tempo t’ Rede no tempo t 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑏 =2 𝑠𝑐𝑜𝑟𝑒 𝑐,𝑑 =2 𝑠𝑐𝑜𝑟𝑒 𝑎,𝑒 =1 𝑠𝑐𝑜𝑟𝑒 𝑏,𝑒 =1 𝑠𝑐𝑜𝑟𝑒 𝑐,𝑒 =0

Aprendizagem de Máquina Algoritmo Gerar feature vector para cada par de vértices que não formam links no conjunto de treinamento Utilizar algum classificador (ex. SVM) para construir o modelo de predição Classes 0. Não possui ligação 1. Possui ligação

Aprendizagem de Máquina Ex. Feature vector: (pa,cn,aa,classe) a d c b e Rede no tempo t a d c b e Rede no tempo t’ 𝑓𝑣 𝑎,𝑏 =(4,2,5.42,1) 𝑓𝑣 𝑎,𝑒 = (2,1,2.09,0) 𝑓𝑣 𝑏,𝑒 = (2,1,2.09,0) 𝑓𝑣 𝑐,𝑑 = (4,2,6.64,1) 𝑓𝑣 𝑐,𝑒 = (2,0,0,0) SVM Modelo

Abordagens Temporal Graph evolution rules Séries temporais Usam a evolução da rede até um tempo t para prever relacionamentos em um tempo entre t e um tempo futuro t’ Graph evolution rules Séries temporais

Graph Evolution Rules Objetivo: minerar o grafo para obter regras de evolução ao longo do tempo Algoritmo [Berlingerio, M. et al., 2009] Gerar regras a partir da mineração do grafo Aplicação das regras para prever o estado futuro da rede

Graph Evolution Rules Regras aprendidas Rede no tempo t c b 5 6 Regras aprendidas 1 2 Body Head GER 1 GER 2 Rede no tempo t a d c b 5 6 7 Possível rede no tempo t’

Séries Temporais Objetivo: construir séries temporais usando métricas e predizer relacionamentos futuros Framed Time-Sliced Network Structure: G1 G2 G3 G4 G5 G6 Frame 1 G1 G2 Frame 2 G3 G4 Frame 3 G5 G6

G1 G2 G3 G4 G5 G6 Série Temporal Frame 1 Frame 2 Frame 3 Métrica na janela de tempo 1 Métrica na janela de tempo 2 Métrica na janela de tempo 3 Série Temporal Métrica t

Previsões de diferentes métricas Previsão da métrica Métrica t Previsões de diferentes métricas Características para predição de links supervisionada ou não supervisionada

Aplicações Redes de Relacionamentos

Aplicações Redes Farmacológicas

Aplicações Redes de Coautoria Rede de colaboração científica entre Duncan Wattz e Albert-László Barabási [NEWMAN, M. E. J., 2000]

Aplicações Emails

Conclusão Análise de Redes Sociais é uma área emergente de pesquisa Link Prediction vem ganhando destaque na área Técnicas de predição de relacionamentos podem ser aplicadas em diversos domínios Abordagem temporal ainda é pouco explorada

Referências Liben-Nowell, D.; KLEINBERG, J. (2003). The link prediction problem for social networks, Proceedings of the twelfth international conference on information and knowledge management, New Orleans, LA, USA. GETOOR, L.; Diehl, C. P. (2005). Link mining: a survey, ACM SIGKDD Explorations Newsletter, v.7 n.2, p.3-12. BERLINGERIO, M. et al. (2009). Mining graph evolution rules, ECML PKDD, LCNS 5781, Springer, pp, 115-130. Bringmann, B. et al. (2010). Learning and Predicting the Evolution of Social Networks. IEEE Intelligent Systems, 25(4), 26-35. HUANG, Z.; LIN, D. K. J. (2009). The Time-Series Link Prediction Problem with Applications in Communication Surveillance. INFORMS J. on Computing 21, 2, 286-303. NEWMAN, M. E. J. (2000). Who is the best connected scientist?: a study of scientific coauthorship networks. Santa Fé: The Santa Fé Institute. Paper 00-12-064. NEWMAN, M. E. J.; GIRVAN, M. (2004). Finding and evaluating community structure in networks. Physical Review E, 69(2), 26113. ROTH, M. (2010). Suggesting friends using the implicit social graph. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '10). ACM, New York, NY, USA, 233-242