M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio.

Slides:



Advertisements
Apresentações semelhantes
Fluxo em Redes Prof. Ricardo R. Santos.
Advertisements

Administração de Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Abordagens de avaliação
Engenharia de Software
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
Mineração de Dados ou Descoberta de conhecimento em BDs
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
O Surgimento dos Sistemas de Bioinformática
RUP: Fluxo de Análise e Projeto
Prof. Ilaim Costa Jr. Novas Tecnologias Prof. Ilaim Costa Jr.
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Link Mining Víctor Medeiros.
Aprendizagem de Máquina - Agrupamento
Finding and Evaluating Community Structure in Networks
Predição de Relacionamentos
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
JUNG Daniel Brito.
Adriana Libório Arthur Alem
R ESOLUÇÃO DE E NTIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Tratamento de Dados Desbalanceados
Análise de Redes Complexas – Conceitos e Propriedades Básicas
Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães
D IFUSÃO EM REDES COMPLEXAS Ricardo Prudêncio. W ORD - OF - MOUTH Opinião PúblicaAdoção de Inovações Marketing e Propaganda Brand Awareness Informação.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Sistema Recomendador para Comércio Eletrônico
AntNet Algoritmos de formigas aplicados a encaminhamento de pacotes em redes Pedro Neves nº
E VERYONE S AN I NFLUENCER : Q UANTIFYING I NFLUENCE ON T WITTER – B AKSHY ET AL Ricardo Prudêncio TAIA –
Área de Pesquisa: Redes de Computadores
Capacidades do Data Warehouse
Qualidade do Produto de Software
Aprendizado de Máquina - Introdução
Data Mining: Conceitos e Técnicas
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Seleção de Atributos Ricardo Prudêncio.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Prof. Silvestri – todos os direitos reservados SISTEMAS DISTRIBUIDOS Aula 5 Eduardo Silvestri
Análise de Redes Complexas – Conceitos e Propriedades Básicas
C LASSIFICAÇÃO DE N ÓS Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Nomeação.
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Recuperação Inteligente de Informação
LINK MINING Rafael Santos. Roteiro  Contexto  Data mining e Link mining  Tarefas:  Relacionadas a Objetos Ranking de objetos baseado em links Classificação.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
SISTEMAS DE APOIO À DECISÃO - SAD
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Mineração de Dados: Introdução
Redes Complexas Silvia Benza Bareiro
Tópicos Avançados em Agentes Inteligentes Análise e Mineração de Redes Complexas Ricardo Prudêncio –
+ Diogo Ribeiro Glauber Ramos iGather: Refinamento de Buscas.
Mecanismo de sugestão e processo de caracterização de redes sociais
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.
Mineração de Grafos e Predição de Links
Classificação de Textos
REDES COMPLEXAS Rafael Dahis Engenharia de Computação e Informação UFRJ Redes de Computadores II – 2009/2 Professores: Luis Henrique Otto.
Diagrama de Objetos.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Interações entre objetos
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Mapeamento e Padronização de Processos
Tópicos Avançados em Inteligência Artificial Análise de Redes Complexas Ricardo Prudêncio –
Técnicas de Avaliação de Interfaces Prof. Jorge Cavalcanti.
Transcrição da apresentação:

M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio

D ATA M INING  Descoberta de conhecimento em grandes conjuntos de dados  Tarefas:  Pre-processamento  Classificação  Análise de agrupamento  Visualização  Regras de Associação ...

D ATA M INING Limitações: Lidar com dados que apresentam algum tipo de estrutura relacional I 1 I 2. I 100 Classe A 1 A 2... A 10 ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ Instâncias independentes

L INK M INING Descoberta de conhecimento em dados com relacionamentos I1I1 I2I2 I 100 A 1.. A 10 | Classe

L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós Classificação de Nós Detecção de Grupos Resolução de Entidades Predição de Links Descoberta de Sub-Grafos Classificação de Grafos Modelos Geradores

R ANKING DE OBJETOS Ordenar nós de uma rede conforme importância, influência ou centralidade Principais métricas: Grau Closeness Betweeness HITS PageRank

R ANKING DE OBJETOS - P AGE R ANK  Algoritmo de ordenação de páginas do Google  Baseado em random walks em um grafo A B C D Random Walk iniciado em A: - Probabilidade α de seguir para B ou C - Probabilidade (1- α) de pular para qualquer outro nó da rede

R ANKING DE OBJETOS - P AGE R ANK  PageRank = no. esperado de vezes que um usuário visita uma dada página através de sucessivos random walks Nós que apontam para A No de nós para quem u aponta

Page Rank inicial igualmente dividido PR = 0,25 A BC D PR(A) = 0,25PR(D) = 0,25 PR(B) = 0,25PR(C) = 0,25 A BC D = 0,4583 R ANKING DE OBJETOS - P AGE R ANK

PR(A) = 0,25PR(D) = 0,25 PR(B) = 0,25PR(C) = 0,25 A BC D Primeira Iteração: (1- α )/N = (1-0,85)/4 = 0,0375 PR(A) = 0, ,85*(0,25/2 + 0,25/1 + 0,25/3) = 0,43 PR(B) = 0, ,85*(0,25/3) = 0,07 PR(C) = 0, ,85*(0,25/2 + 0,25/3) = 0,21 PR(D) = 0, ,85*(0,25/1) = 0,25 PR(A) = 0, ,85*(0,07/2 + 0,21/1 + 0,25/3) = 0,34 PR(B) = 0, ,85*(0,25/3) = 0,11 PR(C) = 0, ,85*(0,07/2 + 0,25/3) = 0,15 PR(D) = 0, ,85*(0,43/1) = 0,40 PR(A) = 0,43PR(D) = 0,25 PR(B) = 0,07PR(C) = 0,21 A BC D Segunda Iteração: PR(A) = 0,35 PR(B) = 0,13 PR(C) = 0,19 PR(D) = 0,33 Décima Iteração: R ANKING DE OBJETOS - P AGE R ANK Assumindo α = 0.85

R ANKING DE OBJETOS - P AGE R ANK Quantidade de links que a página recebe; Não basta ter uma grande quantidade de links;

R ANKING DE O BJETOS - A PLICAÇÕES  Identificação de nós influentes em redes sociais  Estudos de resiliência em redes tecnológicas  Seleção de nós em contextos diversos  E.g., maximização de influência, etiquetação de nós para classificação coletiva,...

C LASSIFICAÇÃO DE N ÓS Tarefa: Dados uma rede e um sub- conjunto de nós previamente etiquetados com classes Classifique corretamente os todos os nós da rede 13 ? ?

C LASSIFICAÇÃO DE N ÓS Classificação tradicional Objetos são independentes e identicamente distribuídos Em geral, apenas atributos dos objetos são usados para classificação Classificação coletiva Objetos são relacionados Relacionamentos e atributos são usados na classificação Assortatividade é importante

C LASSIFICAÇÃO DE N ÓS - A PLICAÇÕES Classificação de texto (hypertextos) Sistemas de recomendação Marketing e propaganda

D ETECÇÃO DE GRUPOS Agrupamento de objetos baseados em links Relacionamento forte intra-grupo Relacionamento fraco inter-grupo

D ETECÇÃO DE GRUPOS - V ISUALIZAÇÃO Abstração de redes com grande número de nós Transformação Nós = grupos Arestas = relacionamentos inter-grupo

D ETECÇÃO DE GRUPOS - A PLICAÇÕES Visualização de dados relacionais E.g., Touchgraph Segmentação de mercado E.g., redes de telefonia Identificação de grupos funcionais de proteínas e genes

R ESOLUÇÃO DE ENTIDADES Problema: Identificar diferentes referências para a mesma entidade no mundo real

 Redes sociais R ESOLUÇÃO DE ENTIDADES ricardobcp Ricardo Prudêncio

R ESOLUÇÃO DE ENTIDADES Baseada em Atributos Baseada em Relacionamentos

R ESOLUÇÃO DE ENTIDADES - A PLICAÇÕES Integração de dados Extração de informação em bases de textos multi- língue Coleta de dados em redes sociais

P REDIÇÃO DE LINKS Predizer links mais prováveis em uma rede ?

P REDIÇÃO DE L INKS Predição de novos links Relacionamentos futuros Predição de links existentes, mas não observados Relacionamentos ocultos

P REDIÇÃO DE LINKS - A PLICAÇÕES Recomendação de amigos e colaboradores em redes sociais Identificação de ligações ocultas em redes de criminosos Identificação de alvos em redes farmacológicas Pré-processamento de dados Data completion

D ESCOBERTA DE SUBGRAFOS  Encontrar sub-grafos freqüentes e interessantes em um dado grafo;

D ESCOBERTA DE SUBGRAFOS  Descoberta de padrões dinâmicos t t+1 t t+2

D ESCOBERTA DE SUBGRAFOS - A PLICAÇÕES  Descoberta de padrões  Predição de relacionamentos  Descoberta de motifs em redes regulatórias de genes

C LASSIFICAÇÃO DE GRAFOS Categorizar um grafo inteiro como uma instância positiva ou negativa de um conceito Abordagens: Extração de características a partir de sub-grafos freqüentes Métodos baseados em kernel Aplicações Classificação de propriedades de compostos químicos Eg.: eficácia ou toxicidade de um medicamento

M ODELOS GERADORES DE GRAFOS Definição de modelos probabilísticos gerados de dados relacionais Eg., modelos de redes complexas (aleatórios, sem escala, small-world,...) Aprendizado de modelos Dado um conjunto de dados relacionais, aprender um modelo probabilístico Modelos podem ser usados para realizar inferências diversas

D ESAFIOS Redes complexas são dinâmicas

D ESAFIOS Redes heterogêneas

D ESAFIOS Grande quantidade de dados

R EFERÊNCIA  Link mining: a survey. Getoor L., Diehl C. SIGKDD Explor. Newsl., Vol. 7, No. 2. (December 2005), pp. 3-12