Web Mining Disciplina de Mineração de Dados CIn-UFPE Franklin Ramalho

Slides:



Advertisements
Apresentações semelhantes
Sistemas de Informação
Advertisements

Melhores práticas de Search Engine Optimization (SEO) Curso: Publicidade e Propaganda FACHA – Faculdades Hélio Alonso Setembro 2011 LUIZ AGNER MÍDIAS.
Tecnologia Hipermídia e Multimídia
Adriano Kaminski Sanches
Mitos e Problemas Relacionados ao Software
Programas Utilitários Básicos
Mineração de Dados ou Descoberta de conhecimento em BDs
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Divisão de Biblioteca e Documentação FMUSP
Anderson Berg Orientador: Prof. Fernando Buarque
Internet e Informação Electrónica INTERNET EXPLORER
Internet Principais conceitos.
Prof. Ilaim Costa Jr. Novas Tecnologias Prof. Ilaim Costa Jr.
Seminários Avançados 3 Conceitos Java EE Servidor de aplicação Tomcat
Link Mining Víctor Medeiros.
Sistemas de Recomendação
Layout.
Adicionando Escalabilidade ao Framework de Recomendação Idealize
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Rodrigo Cristiano Silva
INFORMÁTICA BÁSICA.
Gerenciamento de Dados
1ª Aula de Html Íria Albuquerque.
A autoria - II.
Área de Pesquisa: Redes de Computadores
Tecnologia da Informação
Mineração na Web Introdução a Recuperação de Informação
Sistemas de Recomendação Mineração da Web
Recuperação de Informação
Agentes Inteligentes na Web
PARA GERENCIAR O TEXTO NA INTERNET Produção e distribuição de conteúdo jornalístico na Web.
Prof. MSc. Cláudio Cabral
Jacques Robin e Francisco Carvalho CIn-UFPE Tópicos de projetos da disciplina de mineração de dados
Redes Sociais Colaborativas Patrícia Ramos | 22/05/2006.
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
Aula Prática 4 Monitoria IP/CC (~if669).
Monitoria IP ~if669 Garbage Collection e pacotes.
Dados abertos interligados
A DISCIPLINA  Objetivos do curso  Desenvolver páginas web (sites estáticos) usando a linguagem HTML  Basear o desenvolvimento destes sites usando os.
M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio.
Gestão da Tecnologia da Informação
Disciplina de Mineração de Dados CIn-UFPE
Filtragem de Informação
Web Usage Mining Fábio Ávila Rêgo Pessoa Mariano Cravo Teixeira Neto CIn-UFPE.
Mineração de Dados: Introdução
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.
1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.
Marketing de Busca Professora: Aline.  Marketing de conteúdo ou marketing de busca (SEM) as vezes de misturam.  Marketing de busca é otimizar, melhorar.
Agência Brazil com Z Agência Brazil com Z WEB 2.0 A Personalização da Internet.
Projeto Supervisionado no Desenvolvimento de Aplicações Profissionais na Web Servidores.
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
Plano de Ensino Conceitos e Características Tipos de Banco de Dados
Data Warehouse Introdução ao Data Warehouse Introdução ao Data Warehouse Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Conceituação de Data Warehouse.
Programação para Web I AULA 2 BANCO DE DADOS.
Tutorial de busca básica no SMART Imagebase. Bem-vindo ao tutorial de pesquisa básica no SMART ImageBase. O SMART ImageBase tem uma interface única, desenvolvida.
Fundamentos de Engenharia de SW Diagramas da UML Usados no Projeto de Software.
Curso de verão Data Mining Web Mining. O que é Web Mining?  Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações.
Mauricio Barbosa e Castro.  A construção de um produto multimídia se faz através de um projeto.  O escopo e a complexidade de um projeto de multimídia.
SISTEMAS DE BUSCA NA INTERNET LEANDRO COSTA DO NASCIMENTO 09/04/2007.
Estudo sobre:. O que todo site precisa ter: Conteúdo UsabilidadeEncontrabilidade.
Ismael Stangherlini – Programa de Educação Tutorial.
Prof. João Ricardo Andrêo Programação p/ INTERNET - HTML 31/5/ :32 1 LISTAS Listas de Definição Estas listas são chamadas também “Listas de Glossário”,
Arleys Pereira Nunes de Castro - Mestrando : Modelagem computacional (SENAI-MCTI) Especialista : Sistema distribuídos
Internet - Intranet - Extranet Internet Rede pública mundial Padrões e protocolos multiplataforma Intranet Rede privada, corporativa Mesmos protocolos.
Rhizome. Roteiro Definição Metas Características Arquitetura Tecnologias envolvidas Referências.
Tarefa Autor: Skyup Informática. Atividade – Tarefa O módulo atividade tarefa tem como principio básico a interação professor-aluno. Os alunos podem apresentar.
Transcrição da apresentação:

Web Mining Disciplina de Mineração de Dados CIn-UFPE Franklin Ramalho Rodrigo Cunha

Roteiro Motivação e Contexto Taxonomia Softwares no Mercado Web Content Mining Web Structure Mining Web Usage Mining Softwares no Mercado Considerações Finais

Motivação - Web Conteúdo + Hyper-links Sem padronização Heterogênea Não estruturado / semi-estruturado Enorme Amplamente distribuído Em evolução

Motivação - Web Crescendo e mudando muito rapidamente Um servidor WWW a cada 2 horas 5 milhões de documentos em 1995 320 milhões de documentos em 1998 Mais de 1 bilhão em 2000

Web Problemas: O problema da "abundância" Cobertura limitada da web 99% da informação não é do interesse de 99% das pessoas Cobertura limitada da web Recursos da web escondidos Maioria dos dados em SGBD's 400 a 500 vezes maior que a Web estática Interface de consulta limitada, baseada em buscas por palavra-chave e navegação em links

WWW e Web Mining Web é uma grande coleção de informação: Documentos Hiper-links Acesso e uso da informação A parte relevante desta informação, o conhecimento, está escondida e precisa ser descoberta

Exemplo de aplicação prática Recuperação da Informação Engenhos de Busca (Google, AltaVista, etc) Usuário Baixa Precisão e Baixa Cobertura Consulta Resultado Interface Web Documentos + URLs Casamento de Termos BI Robôs Índices + URLs

Exemplo de aplicação prática Engenhos de Busca Ineficientes: Baixa precisão e cobertura Precisam descobrir documentos relevantes escondidos Data Mining vai ajudar em vários aspectos: Análise de links Criação de linguagens baseadas na Web Personalização Classificação Clustering Encontrar melhores primitivas de busca Melhorar a eficiência (precisão e cobertura) Outros exemplos: Sites de e-commerce, chats, sites de entretenimento, portais genéricos, etc.

Exemplo de aplicação prática

Web Mining: Taxonomia Web Mining Web Content Mining Web Structure Mining Web Usage Mining

Web Content Mining Sumarização de páginas Classificadores Wrappers Ahoy Atualização de páginas na Web Wrappers ShopBot Linguagens de Consultas WebLog WebOQL

Web Content Mining Ahoy! (1996-2000) – "achador de homepages" Shopbot Motivação: Altavista muito impreciso. Diretórios pouco dinâmicos Entrada: nome de uma pessoa, país e instituição Analisa resultados de vários motores de busca Resultados analisados sintaticamente usando heurísticas Páginas que contêm frases como "home page” http://www.help4web.net/search/eMail/Ahoy.html Shopbot Agente de compras Identifica listas de preço e ofertas especiais. Aprende a reconhecer estruturas de documentos de catálogos on-line e sites e e-commerce. Tem que se ajustar às mudanças de conteúdo das páginas. http://www.edgegain.com

Web Content Mining WebOQL (1998) WebSQL - Exemplo: Linguagem de consulta declarativa Baseada em select-from-where Retorna informações dentro de documentos Web. Exemplo: select [x.Titulo] from x in "books.html" where x.Autor = ”John Smith“ Select [x.Text] from x in “papers.html” where x.Tag=“H2” WebSQL - Exemplo: Recuperar o título e a URL de todos os documentos que são apontados pelo documento cuja URL é http://www.somewhere.com SELECT d.url, d.title FROM Document d SUCH THAT ”http://www.somewhere.com" -> d API para Java

Web Structure Mining Como achar os principais engenhos de busca? Consulta “search engines” Extrair conhecimento das interconexões dos documentos. Navegação Recomendação Citação Descoberta de páginas influentes e importantes na WWW.

Web Structure Mining Hyperlink Induced Topic Search (HITS) Algoritmo de Jon Kleinberg, 1998, Cornell University Problema Qualidade das respostas para consultas genéricas em engenhos de busca Os engenhos de busca consideram apenas palavras-chave do texto Consulta: “search engine” Como ficam as páginas como Google e Altavista, por exemplo? Hubs e autoridades Boa autoridade: página apontada por bons hubs Bom hub: página que aponta para boas autoridades Algoritmo aplicado em dois passos: construção do conjunto de páginas candidatas e propagação de pesos

Etapas do algoritmo HITS Primeiro passo: construção das páginas candidatas Começando de uma consulta convencional, HITS monta um conjunto inicial S de páginas, o conjunto raiz. As páginas são expandidas para um conjunto T adicionando páginas que estão ligadas de ou para qualquer página no conjunto inicial S. T S

Etapas do algoritmo HITS Segunda passo: propagação de pesos Cria um vetor de hubs e um vetor de autoridades HITS então associa com cada página p um peso de hub h(p) e um peso de autoridade a(p), tudo inicializado com o valor um. HITS então iterativamente atualiza os pesos de hub e autoridade de cada página Ë aplicada, então, uma normalização para todos os pesos Considerando que pq denota que a página p tem um link para a página q, HITS atualiza os hubs e autoridades da seguinte forma: å ® = q p a h ) (

Melhorias para o HITS O HITS devolve um conjunto de páginas com altos hubs e/ou altos valores de autoridade Deficiências do HITS Cálculo é feito on-line O conteúdo dos links é ignorado Sistema CLEVER (Chakrabarti, et.al.,1998-1999) Estende o HITS Combina a informação existente tanto no conteúdo como na informação do link Considera o texto da âncora da página, aumentando os pesos para aquelas cujo texto casa com termos da consulta Divide conjunto de links de uma página em sub-conjuntos de mini-hubs

Web Structure Mining HyPursuit (Weiss et.al., 1996) Engenho de busca que utiliza clustering de hipertexto baseado no conteúdo e nos links das páginas web A função de similaridade do algoritmo de clustering é proporcional ao: Grau de similaridade dos termos. Grau de similiaridade da estrutura de hiperlinks – ancestrais e descendentes em comum, além do caminho de links entre os documentos (grau de conectividade)

Links de Nepotismo Spamming – poluição de páginas web com termos que não são texto Com o uso de algoritmos como HITS, Clever, Page Rank, dentre outros, muitos links “tendenciosos” surgiram Abordagens para combater o problema Não considerar páginas de mesmo host, mesmo ip Manter uma lista de páginas que abusam de links Manter um limiar para o número de backlinks

Web Usage Mining (WebLog) Descoberta do comportamento de acesso de usuários a sites na Web usando técnicas de mineração de dados. Geralmente usa-se o LOG do Servidor Web como dados de entrada. CRM (Customer Relationship Management) analítico na Web. Exemplos: Amazon.com Siciliano

Motivação do WebLog Por que Amazon.com e Siciliano fazem WebLOG? Conhecer melhor o consumidor. Melhorar o relacionamento com o cliente. Fidelizar o Cliente Satisfação do cliente Maior Retorno Financeiro

KDD x Web KDD  Difere basicamente pela natureza dos dados.

Natureza dos Dados Parte crítica do Web Usage Mining. Perda de informação quando os dados são coletados no servidor (caching). Privacidade do usuário. Identificação do acesso de usuários (natureza sem estado). Não se sabe o momento da saída do usuário.

Preparação dos Dados Informações poderiam ser mais ricas: Movimento do mouse durante o acesso. Movimento da barra de rolagem. Momento da mudança do site. Integração dos dados de Conteúdo e Estrutura.

Tipo de Dados Dados de uso da Web Dados de Conteúdo Dados de estrutura Dados de Perfil do usuário  Ideal: Combinação de todos os tipos de dados

Onde obter os dados? Servidor: Múltiplos usuário em um site. Cliente: Um cliente em vários sites. Proxy: Vários usuários em vários sites.

Exemplo de dados Web IP ID Data Pedido Status Bytes URL de Origem Agente 150.165.1.76 ... 28/02/1999 05:01:20 POST 200 2045 www.radix.com.br Mozila4.0 (win95) 200.131.198.2 27/01/2001 06:31:14 GET 1287 www.cin.ufpe.br IE6.0 (Win98) 200.246.210.4 11/11/2002 15:15:17 www.cesar.org.br Mozila 4.7 (WinNT)

Aplicação Específica: Aplicações Aplicações Gerais: Aplicação Específica: Entendimento geral do padrão de acesso dos usuários de determinado site. Personalização do site para clientes, premiação de clientes por tempo ou quantidade de acessos, modificações na estrutura do site. Perfil Geral da Carteira de Clientes Satisfação e Fidelização dos Clientes

Aplicações Exemplos: Consultas OLAP: Qual a área do site mais acessada por usuários por turno: manhã, tarde e noite? Regras de Associação: 40% dos clientes que acessam o link download também acessam o link de preços de produtos. Classificação: Ao entrar no site o cliente é classificado em um dos possíveis padrões de página, baseado no seu perfil de acesso.

Softwares no Mercado Web Usage Mining: Analog (http://www.analog.cx) WUN 6.0 (http://ebusiness.hhl.de/research/wum) Clementine (http://www.spss.com/SPSSBI/Clementine) Web Content Mining: Sav Z Server (http://savtechno.com) mnoGoSearch (http://mnogosearch.org) Web Structure Mining:

Softwares no Mercado - Clementine

Exemplo Prático Exemplo: Encontrar associações entre links do site da UOL.

Exemplo Prático Exemplo: Encontrar associações entre links do site da UOL. ID Amigos Virtuais Bate - Papo Biblioteca Carros ... Esportes 1

Exemplo Prático Exemplo: Encontrar associações entre links do site da UOL. Possíveis resultados: 55% dos clientes que acessam o link “Amigos Virtuais” não passam mais que 5 minutos no site. 70% dos clientes que clicam no item de compras são clientes do UOL. 50% dos clientes que acessam o link “Esportes” também acessam o link “Carros”.

Exemplo Prático Baseado no conhecimento adquirido: 50% dos clientes que acessam o link “Esportes” também acessam o link “Carros”. Por que não colocar uma chamada na página do UOLcarros das principais notícias do esporte no dia?

Considerações Finais Web: Enorme quantidade de dados, mas pouco conhecimento Web Mining: Descobrir este conhecimento para melhorar eficiência de diversas aplicações da Web Web Mining não é só texto HTML Web Mining = Web Content + Web Structure + Web Usage Aplicação isolada de uma sub-área deixa lacunas Web Content e Web Structure tratam dados genéricos Web Usage se concentra em dados privativos Web Usage é usado principalmente em marketing na melhoria do relacionamento com o cliente. Poucas empresas tem um processo de WebLog Muita informação não capturada como: movimento do mouse, barra de rolagem e momento da mudança do site