Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães

Slides:



Advertisements
Apresentações semelhantes
01/08/2011 Professor Leomir J. Borba- –
Advertisements

Programa das Aulas 20/09/05 - Apresentação da disciplina
Abordagem Entidade Relacionamento
Lógica de Predicados e Representação de Conhecimento
Fluxo em Redes Prof. Ricardo R. Santos.
Administração de Sistemas de Informação
Resultados da Pesquisa "Identificação de Valores de Jovens Brasileiros – Uma Nova Proposta", realizada pela Profª. Dra. Rosa Maria Macedo, da PUC de São.
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Resumo 1.1) Introdução 1.2) Abordagem Convencional de Arquivos
Felipe Carvalho – UFES 2009/2
1 INQUÉRITOS PEDAGÓGICOS 2º Semestre 2003/2004 ANÁLISE GERAL DOS RESULTADOS OBTIDOS 1.Nº de RESPOSTAS ao inquérito 2003/2004 = (42,8%) 2.Comparação.
Excel Profa. Cristina M. Nunes.
Apresentação da Monografia
O padrão de gerenciamento de projetos de um projeto
Sistema Gerenciador de Banco de Dados SGBD
Mineração de Padrões Arborescentes
Correção – Completude – Performance – Escalabilidade
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
Resolução.
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
PERSPECTIVA CONCEITUAL
1 MODELAGEM COM A UML (UNIFIED MODELING LANGUAGE) BREVE HISTÓRICO CARACTERÍSTICAS CONCEITOS DE PROGRAMAÇÃO ORIENTADA A OBJETOS MODELAGEM DE ANÁLISE E DE.
Mineração de Dados ou Descoberta de conhecimento em BDs
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
Rodrigo Geraldo Ribeiro Denis Pinto Pinheiro Camila Leles Rezende
Introdução a Teoria da Classificação
Mineração de Dados Introdução.
Dissertação de Mestrado Michel Alain Quintana Truyenque
FUNÇÃO MODULAR.
DATA MINING Inteligência Artificial
Questionário de Avaliação Institucional
Fases do desenvolvimento de software UML
Classes e objetos P. O. O. Prof. Grace.
Provas de Concursos Anteriores
Felipe Farias de Andrade
1 Jovens Urbanos 3ª edição Resultados da Avaliação Econômica Jovens Urbanos 3ª edição São Paulo março/2010.
Engenharia de Requisitos
Link Mining Víctor Medeiros.
Predição de Relacionamentos
JUNG Daniel Brito.
R ESOLUÇÃO DE E NTIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Aluno: Mário Monteiro Orientador: Sérgio Soares 1.
Oferta e Demanda A Curva de Oferta
Algoritmos Culturais.
Estruturas de Dados com Jogos
Sistema Recomendador para Comércio Eletrônico
Taxonomia Profa. Lillian Alvares,
Coordenação Geral de Ensino da Faculdade
O problema do emparelhamento máximo
IF696 - Integração de Dados e DW
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Conceitos básicos em grafos
BPM BUSINESS PROCESS MANAGEMENT Projecto em Informática e Gestão de Empresas Lisboa, 20 de Junho de 2006.
Exercício - 1. Criar no SPSS o banco de dados com as informações fornecidas 2. Salvar o banco com o nome atividade física na pasta pos pilates 3.
Inferência Estatística
Análise de Sistemas de Informação
Professor Antonio Carlos Coelho
Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.
Planilha Eletrônica - Excel
PROJETO DE AUTOMAÇÃO RESIDÊNCIAL
C LASSIFICAÇÃO DE N ÓS Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Link Prediction Problem for Social Networks
M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio.
LINK MINING Rafael Santos. Roteiro  Contexto  Data mining e Link mining  Tarefas:  Relacionadas a Objetos Ranking de objetos baseado em links Classificação.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Mineração de Dados: Introdução
Tópicos Avançados em Agentes Inteligentes Análise e Mineração de Redes Complexas Ricardo Prudêncio –
Mineração de Grafos e Predição de Links
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais – parte I Prof. Dalton Martins Gestão da Informação Universidade.
Transcrição da apresentação:

Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães Link Mining Dayvid Victor Rodrigues de Oliveira Guilherme Ramalho Magalhães

Roteiro Definição Atividades envolvendo Link Mining Data Mining Link Mining Atividades envolvendo Link Mining Desafios de Link Mining

Dados Quantidade de Dados Evolução dos recursos computacionais Quantidade de informação dobra a cada 20 meses

Data Mining Consiste em técnicas para transformar grande quantidade de dados em informações consistentes, para detectar relacionamentos sistemáticos.

Data Mining Estatística Recuperação da informação Inteligência artificial Reconhecimento de padrões

Data Mining Exemplo

Link Mining Refere-se a técnicas de mineração que explicitamente considera os tipos de links quando constrói modelos preditivos ou descritivos dos dados relacionados.

Link Mining Conjunto de Dados do Mundo Real: Link Mining Multi-relacionais, heterogêneos e semi-estruturado Link Mining Nova área de pesquisa emergente resultante da interseçào de pesquisa em redes social e análise de links, hipertexto e mineração na web, aprendizado relacional e programação lógica indutiva e mineração de grafos.

Dados relacionados Dados heterogêneos, multi-relacional representados como um grafo ou rede Nós são objetos Podemos ter diferentes tipos de objetos Objetos tem atributos Objetos podem ter rótulos ou classes Arestas são links Podemos ter diferentes tipos de links Links podem ter atributos Links podem ser direcionados e não necessariamente precisam ser binários

Domínios de Exemplo Dados Web Dados Bibliográficos Dados epidemiológicos

Exemplo: Dados Bibliográficos Ligados Objects: A1 Papers Links: P4 Authors Citação Institutions Co-Citação Attributos: Autor de Categorias Afiliação de autor

Atividades Link Mining Relacionadas a Objetos Relacionadas a Links Relacionadas a Grafos Ranking de objetos baseado em links Predição de links Descoberta de subgrafos Classificação de objetos baseado em links Estimar Cardinalidade Classificação de grafos Detectão de grupos Modelos geradores de grafos Resolução de entidades (Identificação de Objetos)

Ranking de Objetos baseado em Links Ordenar um Conjunto de Objetos a partir de um grafo Principais algoritmos: Page Rank HITS

Ranking – Page Rank

Ranking - HITS Hubs e Authorities Hubs: Linka várias Authorities Authorities: São linkadas por vários Hubs

Classificação de Objetos baseada em links Predizer a categoria de um objeto baseado em seu atributos, seus links e também os atributos dos objetos ligados. WEB: Predizer a categoria de uma página web, baseada em palavras que ocorrem na página, links entre páginas, texto principal, tags html, etc.

Classificação de Objetos baseada em links Cite: Predizer o tópico de um paper baseado na ocorrência de palavras, citações e co-citações EPI: Predizer tipo de doenças baseadas em características das pessoas; Predizer a idade de um indivíduo baseado nas idades das pessoas que entraram em contato com ele e o tipo da doença.

Detecção de Grupos Agrupar os nós do grafo em grupos cujos integrantes possua características em comum; Exemplo: Determinar nichos de mercado Técnicas: Blockmodeling Spectral graph partitioning blockmodeling na análise de redes sociais envolve particionar a rede em conjuntos de indivíduos, chamados positions, que exibem um conjunto similar de links para os outros na rede. Um medida de similaridade é definida entre o conjunto de links e o agrupamento aglomerativo é usado para identificar as positions. O método Spectral graph partitioning endereça o problema de detecção de grupos identificando um conjunto mínimo aproximado de links a serem removideos do grafo para alcançar um dado número de grupos.

Produtos Clientes 1 2 3 4 5 6 Idosos Mulheres 14-17 anos Homens 18-26 anos 6

Identificação de Objeto Predizer quando dois objetos são o mesmo, baseado em seus atributos a seus links (record linkage, eliminição de duplicações) WEB: predizer quando dois sites são mirrors de um outro. Cite: Predizer quando duas citações são referenciadas para o mesmo paper. EPI: Predizer quando duas vertentes de doenças são as mesmas.

Predizer Tipo de Link Predizer o tipo ou propósito do Link Web: Predizer links patrocinados e links de navegação; Predizer um relacionamento advisor-advisse cite: Predição se um co-autor é também um orientador Epi: Predizer se o contato é familiar, profissional ou conhecido

Predizer existência de Links Predizer se um Link existe entre dois objetos WEB: predizer se haverá um link entre duas páginas Cite: predizer se um paper citará outro paper EPI:Predizer quem são os contatos de um paciente

Predição de links Predizer a existência de um link entre duas entidades baseado nos atributos dos objetos e outros links observados; Problema de classificação binário: para qualquer dois objetos potencialmente linkados oi e oj, predizer quando lij é 1 ou 0. Abordagens: Propriedades estruturais da rede; Informações dos atributos.

Predição de links Exemplo: Friend Finder do Facebook Prever relações de amizade entre membros de uma rede social Relações existentes mas não observadas

Predição de links Exemplo: Recomendações do Amazon Prever compra de novos produtos com base no histórico de compras Relações ainda não existentes (nesse caso, de compra de produtos)

Estimar cardinalidade de links I Predizer o número de links de um objeto WEB: predizer a authoratativeness de uma página baseada no número de links internos; Identificando hubs baseado no número de links externos Cite: predizer o impacto de um paper baseado no número de citações EPI: predizer a infecciosidade de uma doença baseada no número de pessoas diagnosticadas

Estimar cardinalidade de links II Predizer o número de objetos alcançados ao longo de um caminho a partir de um objeto Importante para estimar o número de objetos que será retornado por uma consulta WEB: Predizer o número de páginas retornadas por crawling um site Cite: predizer o número de citações de um autor particular em um journla específico EPI: Predizer o número de contatos mais velhos para um paciente particular

Descoberta de subgrafos Encontrar subgrafos comuns ou interessantes em um conjunto de grafos; Uso Classificação de grupos; Identificação de padrões; Identificação de regras associadas. Fases: Geração de candidatos; Matching. Teste de isomorfismo dos subgrafos

Descoberta de subgrafos Exemplo: Identificação de padrões de relacionamento

Classificação de grafos Categorizar um grafo inteiro como uma instância positiva ou negativa de um conceito; Um dos primeiros problemas de data mining a empregar técnicas de AM; Não há necessidade de inferência coletiva -> independentemente gerado; Programação lógica indutiva: mineração de características do grafos utilizando descoberta de subgrafos

Modelos geradores de grafos Dado um conjunto de grafos, como podemos gerar novos grafos que são partes da distribuição do conjunto original? Exemplo: Expressões faciais Conjunto de grafos descrevendo várias expressões faciais de uma pessoa. Nós deveríamos ser capazes de gerar novos grafos que descrevem expressões similares, mas que não são conhecidas. Nós aplicamos técnicas estatísticas para garantir que os novos grafos gerados são parte da distribuição do conjunto original. Por exemplo, se a maioria das expressões descritas no conjunto são felizes então nós deveriamos esperar a geração de expressões na maioria das vezes felizes.

Modelos geradores de grafos 2 passos: Contrução de um modelo estatístico do conjunto de grafos que capture as presentes variações estruturais subjacentes; A partir desse modelo, gerar novos exemplos que são partes da distribuição do conjunto original.

Desafios Grafos em constante mudança

Desafios Combinar técnicas Produtos Clientes 1 2 3 4 5 6

Desafios Combinar técnicas Produtos Clientes Detectar grupos 1 2 3 4 5 6

Desafios Combinar técnicas Produtos Clientes 1 2 3 4 5 6 Idosos Mulheres 14-17 anos 2 3 4 5 Homens 18-26 anos 6

Desafios Combinar técnicas Produtos Clientes Previsão de links 1 2 3 4 Idosos Produtos Clientes 1 Mulheres 14-17 anos 2 3 4 Previsão de links 5 Homens 18-26 anos 6

Desafios Análise de dados gigantescos

Conclusão Muitos domínios são melhores descritos hoje como uma coleção de dados linkados de objetos heterogênos relacionados; Link mining é uma nova e excitante área de pesquisa em data mining que explora os links entre as instâncias dos dados; These represent some of the common threads emerging from a variety of elds that are exploring this exciting and rapidly expanding eld.

Conclusão Relacionadas a Objetos Relacionadas a Links Relacionadas a Grafos Ranking de objetos baseado em links Predição de links Descoberta de subgrafos Classificação de objetos baseado em links Classificação de grafos Detectão de grupos Modelos geradores de grafos

Referências Link mining: a survey. Getoor L., Diehl C. SIGKDD Explor. Newsl., Vol. 7, No. 2. (December 2005), pp. 3-12 M. Kuramochi and G. Karypis. Frequent subgraph discovery.In ICDM, pages 313–320, 2001. http://blog.hubspot.com/blog/tabid/6307/bid/6050/The-Ultimate-List-100-Twitter-Statistics.aspx

Dúvidas