Um Ambiente para Mineração de Utilização Web

Slides:



Advertisements
Apresentações semelhantes
Agenda Introdução Justificativa Objetivo Detecção de Spam
Advertisements

Administração de Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Sistemas automatizados de recuperação e disseminação da informação
Resumo 1.1) Introdução 1.2) Abordagem Convencional de Arquivos
Apresentação da Monografia
Sistema Gerenciador de Banco de Dados SGBD
Banco de Dados Dedutivo
Introdução aos Sistemas Gerenciadores de Banco de Dados
Correção – Completude – Performance – Escalabilidade
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
Universidade Federal do Paraná
CPU – based DoS Attacks Against SIP Servers
Mineração de Dados ou Descoberta de conhecimento em BDs
Sistemas Operacionais Planejamento de Experimento
Avaliação de Desempenho Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Sistemas de Computação Marcos José
Algoritmos de escalonamento (com e sem o
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Data Warehouse Um Data Warehouse é um armazém de dados, contendo dados extraídos do ambiente de produção da empresa. De acordo com INMON (1997), um.
Anderson Berg Orientador: Prof. Fernando Buarque
Paulo J Azevedo Departamento de Informática
Administração de Sistemas de Informação Banco de Dados
Data Mining, Data Warehousing e OLAP
Arquitetura e Linguagens
Link Mining Víctor Medeiros.
Sistemas de Recomendação
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Gerenciamento de Dados
É um conjunto de registos dispostos numa estrutura regular que possibilita a reorganização dos mesmos e a produção de informação com a menor redundância.
A autoria - II.
Área de Pesquisa: Redes de Computadores
ACESSO A BASE DE DADOS.
Tecnologia da Informação
Business Intelligence:
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Mineração na Web Introdução a Recuperação de Informação
Sistemas de Recomendação Mineração da Web
Data Mining: Conceitos e Técnicas
Recuperação de Informação
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Experimentação Algorítmica
Tradutor Oracle SQL Server Núcleo comum Lookup Middleware consultas esquema de mediação Base de dados das fontes locais Ambiente de geração das consultas.
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
Introdução a Banco de Dados Aula 04
RUP - Cap. 4 – Processo Centrado na Arquitetura
PROGRAMAÇÃO WEB AULA 01 Prof. Gustavo Linhares
ASSUNTO Facilitando a Tomada de Decisão em um Ambiente Móvel Mohamed A. Sharaf Panos K. Chrysanthis Felipe Menezes Cardoso COPIN – UFCG Banco de Dados.
M INERAÇÃO DE R ELACIONAMENTOS - L INK M INING Ricardo Prudêncio.
Uma proposta para OLAP ontológica Adriana Ribeiro.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
Filtragem de Informação
Mineração de Dados: Introdução
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Classificação de Textos
Daniel Paulo Banco de dados: é uma coleção/conjunto de registros relacionados.  Exemplo: O banco de dados de uma Universidade.
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Projeto de Banco de Dados
Universidade Federal de Sergipe Departamento de Sistemas de Informação Bruno Cruz Jessica Rodrigo Aragão – ASP.NET MVC 3.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Curso de verão Data Mining Web Mining. O que é Web Mining?  Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações.
INTELIGÊNCIA EMPRESARIAL Aula 9 - Modelagem de Data Warehouse.
INTELIGÊNCIA EMPRESARIAL Aula 6 – Componentes dos Sistemas de Apoio à Decisão.
Síntese do Negócio ONTOWEB. Ontoweb – Nova Geração de Ferramenta de Busca Possui comportamento inteligente que auxilia o usuário a organizar e compartilhar.
Transcrição da apresentação:

Um Ambiente para Mineração de Utilização Web José Roberto de Freitas Boullosa

Introdução Apresentação Motivação Estrutura do trabalho Mineração de dados Mineração de utilização da Web Ambiente proposto Conclusões

Descoberta do conhecimento (knowledge discovery) Mineração de dados Mineração de dados (data mining) x Descoberta do conhecimento (knowledge discovery) Piatestky-Shapiro: Workshop in Knowledge Discovery in Databases Detroit 1989

Mineração de dados “Estilos” de mineração de dados Descoberta de conhecimento Bottom-up Indução Testes de hipóteses Top-down Dedução

Mineração de dados Descoberta de conhecimento (Fayyad et al.) Definição dos domínios Criação do conjunto de dados, seleção de fontes Pré-processamento Transformação dos dados MINERAÇÃO DE DADOS Técnicas e algoritmos Análise e interpretação dos resultados

Mineração de dados Modelos para mineração de dados Preditivos Classificação Agrupamento Séries temporais

Mineração de dados Métodos de mineração de dados Geração de regras de associação Banco de dados de transações “Market-basket analysis” Análise de seqüências Teoria dos grafos Padrões seqüenciais

Mineração de dados Métodos de mineração de dados Classificação Conhecimento apriorístico sobre classes Perfis de itens com atributos em comum Agrupamento (clustering) Sem conhecimento prévio sobre classes Dados similares Métricas para “distância” Clusters

Mineração de dados Métodos de mineração de dados Árvores de Decisão Indução de regras CART (Classification and Regression Tree) CHAID (chi-squared automatic induction) Algoritmos principais: ID3, C4.5

Mineração de dados Métodos de mineração de dados MBR (Memory-based reasoning) Predição de novos itens a partir de itens já conhecidos Redes neurais Modelos simuladores das conexões neuronais Dificuldades: sensibilidade, entendimento dos modelos gerados GA - Algoritmos genéticos Mecanismos da genética e seleção natural Seleção, cross-over, mutação Gerações sucessivas de soluções Soluções “sobreviventes”

Mineração de dados Data Warehousing Conjunto de dados integrados, não-voláteis, orientados por assunto e variáveis no tempo, utilizados primordialmente como ponto de apoio a decisões gerenciais. (INMON)

Mineração de dados Data Warehousing Modelo multidimensional Vantagens em relação ao MER Cubo Fatos n Dimensões Atributos Hierarquias Operações de manipulação Slice & dice, roll-up, drill-down Esquemas Estrela (Star schema) Flocos de neve (snow flakes)

On-line Analytical Processing On-line Transaction Processing Mineração de dados OLAP On-line Analytical Processing x On-line Transaction Processing Cubos Categorias MOLAP (OLAP Multidimensional) ROLAP (OLAP Relacional) HOLAP (OLAP Híbrido)

Mineração de dados da Web Aplicação das técnicas de mineração de dados para a extração de dados da Web Termos úteis Visita / acesso (page view) Clickstream Sessão de usuário Episódio URL (Universal Resource Locator) esquema://host:porta/path/querystring URI (Universal Resource Identifier) Referidor (referrer) Cookie Programas CGI (Common Gateway Interface)

Mineração de dados da Web Modelos de navegação WWW (World Wide Web) Ecologia de Informações dinâmica (Catledge & Pitkow) Sistema hipermídia aberto Colaborativo Altamente dinâmico

Mineração de dados da Web Modelos de navegação WWW Estratégias de utilização Busca Orientação quanto ao objetivo Navegação Similaridade entre itens Navegação serendípica (serendipitious browsing) Aleatoriedade

Mineração de dados da Web Modelos de navegação Etapas da busca de informações na Web (Levene & Loizou) Especificação da consulta Recuperação da informação Navegação Modificação da consulta Nielsen (1990): “Perdido no hiperespaço” (lost in hyperspace)

Mineração de dados da Web Modelos de navegação Objetivos no projeto de um site Busca x Navegação Análise dos padrões de navegação Mineração de utilização

Mineração de dados da Web Modelos de navegação Revisitação de páginas Taxa de recorrência R Probabilidade de que uma página já tenha sido acessada na mesma sessão Tauscher & Greenberg : R = 61%, D.P. 9% Navegação Web: Sistema recorrente

Mineração de dados da Web Modelos de navegação Razões para revisitação Páginas mudam Explorar com mais detalhes Páginas especiais (busca, etc.) Edição de páginas Páginas são caminho de navegação Razões para acessar novas páginas Mudanças nas necessidades de informações Exploração de novos sites Recomendação de amigos Encontrar nova página interessante ao navegar

Mineração de dados da Web Modelos de navegação Padrões de navegação (Tauscher & Greenberg) Visitas iniciais a grupo de páginas Revisitas a páginas Visitas a páginas em edição Visitas a páginas criadas por aplicações Hub-and-spoke Navegação dirigida Navegação de profundidade

Mineração de dados da Web Modelos de navegação Modelos estocásticos (Borges, Levene, Loizou) Estrutura do site: grafo direcionado Nós = páginas Arestas = links entre páginas Conjunto de trilhas do grafo: Visão Web Cada página representa um estado Cada link tem uma probabilidade associada Freqüência de utilização do link Peso relativo dos links para os usuários Cadeia de Markov

Mineração de dados da Web Modelos de navegação Modelos estocásticos (Huberman et al.) Comportamento do usuário Maximizar utilidade ou valor das páginas Reduzir custo ou esforço de navegação Lei de Zipf (Levene e Borges) P = Probabilidade de trilha de comprimento t ser percorrida P = t –3/2 Usuários preferem trilhas curtas Número de trilhas curtas exponencialmente maior que o de trilhas longas Razão = Valor agregado / esforço despendido Maior para as trilhas curtas

Mineração de dados da Web Tipo Carac. Físicas Carac. Uso Cabeçalho Links de entrada partem de várias páginas Raiz do site Início das sessões Conteúdo Muitos textos e gráficos em relação a links Tempo médio de visita longo Navegação Poucos textos e gráficos em relação a links Tempo médio de visitação curto Não é Ref.P.Máxima Look-up Poucos links de entrada Poucos links de saída Conteúdo reduzido É Ref.P.Máxima Pessoal Sem características comuns Baixa freqüência de visitação

Mineração de dados da Web Modelos de navegação Classificação das páginas Manual Uma-a-uma Meta-dados HTML, XML (RDF) Automática Algoritmos

Mineração de dados da Web Tipos de mineração de dados da Web Zaïane Mineração de conteúdo (Web content mining) Mineração de estrutura (Web structure mining) Mineração de utilização (Web usage mining) Cooley et al.

Mineração de dados da Web Problemas da mineração de dados da Web Necessidade de filtragem dos dados Integração das fontes de dados Identificação de usuários Identificação de sessões Identificação de transações

Mineração de dados da Web Mineração de conteúdo da Web Agentes (Cooley) Agentes de busca inteligente Domínios e perfis ParaSite, ShopBot… Crawlers, spiders, robots… Personalizados e baseados em filtragem/categorização Preferências dos usuários, perfis WebWatcher, Letizia… Relacionam-se também com a mineração de utilização

Mineração de dados da Web Mineração de conteúdo da Web Abordagens baseadas em bancos de dados Estruturar a Web Meta-dados Multicamadas Mecanismos de consulta UnQL, W3QL…

Mineração de utilização da Web Objetivos de um site Acesso às páginas “importantes” Exibição de links relevantes Evitar desorientação

Mineração de utilização da Web A estrutura do site reflete: Comportamento esperado dos visitantes Expectativas do projetista quanto ao comportamento O site deveria refletir TAMBÉM: Comportamento real dos visitantes

Mineração de utilização da Web Solução: Analisar os padrões de utilização do site Fontes: Logs dos servidores Web Estruturas dos sites (Pirolli) Logs gerados por agentes e outros programas Mineração de utilização da Web Chen et al. (1996) Mannila & Toivonen (1996) Yan et al. (1996)

Mineração de utilização da Web Aspectos complementares: Analisar sistematicamente o comportamento dos usuários Servir como apoio para a tomada de decisões sobre o que deve ser modificado no site

Mineração de utilização da Web Classificação (Cooley) Descoberta de padrões gerais Tendências de uso genéricas Descoberta de padrões customizados Tendências de uso de determinado visitante Adaptação do site ao visitante Sites adaptativos: Perkowitz & Etzione, Maedche

Mineração de utilização da Web Aplicações das informações obtidas Utilização em campanhas promocionais Análise de estratégias de marketing Reestruturação e adaptação automática do site Gerenciamento mais efetivo das comunicações de um grupo de trabalho e da infraestrutura organizacional Distribuição de propaganda para usuários específicos Venda de espaços de publicidade

Mineração de utilização da Web Produtos comerciais Webtrends, NetTracker, NetGenesis Analog Análises estatísticas Estrutura proprietárias Deficientes em relação a análises mais profundas

Mineração de utilização da Web Tipos de ferramentas para mineração de utilização (Cooley) Descoberta de padrões WebMiner, Joshi & Krishnapuram, … Análise de padrões WebViz, WebLogMiner… * Mistas WebMiner, WebSift

Mineração de utilização da Web Etapas da mineração de dados (Cooley et al.) Preparação de dados Descoberta de padrões Análise e visualização de padrões

Mineração de utilização da Web Preparação de dados Fontes de dados Logs de servidores Web Agentes autônomos Outras interfaces Páginas dinâmicas, scripts, programas CGI

Mineração de utilização da Web Preparação de dados Logs de servidores Web Itens irrelevantes Ausência de identificação de usuários e sessões Falta do registro de muitos acessos Páginas em cache

Mineração de utilização da Web Preparação de dados: etapas Filtragem dos dados Identificação dos usuários Identificação das sessões Identificação das transações

Mineração de utilização da Web Filtragem de dados Formatos de logs Common Log Format Extended Log Format Arquivos indesejados

Mineração de utilização da Web Identificação de usuários Cache (local e de servidor) Cache busting Proxy servers Cookies Registro explícito Privacidade Heurísticas de identificação Mudanças nas entradas do log Tempo entre acessos Topologia do site

Mineração de utilização da Web Identificação de sessões Uso de time-out de controle Entre acessos Para a duração total da sessão Preenchimento de “vazios” da sessão Uso da topologia do site Tempo médio de acesso

Mineração de utilização da Web Identificação de transações Transação: unidade semântica Tipos Transações de navegação Caminhos comuns até uma página Transações de conteúdo Relacionamentos entre páginas de conteúdo Implicações Regra A->B analisada a partir de transações de diferentes tipos

Mineração de utilização da Web Identificação de transações Abordagens Divisão em transações menores Agrupamento em transações maiores Seqüência de passos Primeiro passo : divisão

Mineração de utilização da Web Identificação de transações L : Conjunto de entradas de log l.ip : IP do cliente l.uid : Identificador do usuário l.URL : URL da página acessada I.tempo : momento do acesso t = < ipt, uidt, {(lt1.URL, lt1.tempo), ...ltm.URL, ltm.tempo)} > onde, para 1  k  m: ltkL, ltk.ip=ipt, ltk.uid=uidt

Mineração de utilização da Web Identificação de transações Métodos Duração da referência Divisão das transações Referências posteriores máximas (Chen et al.) Janelas de tempo Não utiliza o modelo de páginas de conteúdo e navegação Agrupamento ou divisão das transações

Mineração de utilização da Web Identificação de transações Método de referências posteriores máximas Referências reversas (backward references) Referências posteriores (forward references) Maximal forward references Algoritmo MF (maximal forward) Seqüências longas de referências Algoritmo FS (full-scan) Algoritmo SS (selective-scan)

Mineração de utilização da Web Identificação de transações Análise dos métodos Duração de referência Encontra regras que os outros não encontram Referências posteriores Ruim para achar transações de conteúdo em sites com alto grau de conectividade Muitas transações de navegação Janelas de tempo Pode ser usado juntamente com os outros métodos

Mineração de utilização da Web Descoberta de padrões Análises estatísticas Caráter geral Hits por página Páginas mais acessadas Páginas mais usadas como partida ou saída Tempo médio por página Comum nos pacotes comerciais

Mineração de utilização da Web Descoberta de padrões Análise dos caminhos percorridos Grafos direcionados Nós Páginas Arestas Links Similaridades entre páginas Número de usuários que percorreram o link Caminhos mais freqüentes Seqüências longas de referências

Mineração de utilização da Web Descoberta de padrões Regras de associação Aplicadas a BDs de transações, onde cada transação é um conjunto de itens Item = página acessada Transação = conjunto de páginas acessadas

Mineração de utilização da Web Descoberta de padrões Regras de associação A → B Na Web, A pode ser: Página individual Seqüência não ordenada de páginas Seqüência ordenada de páginas

Mineração de utilização da Web Descoberta de padrões Regras de associação Confiança Percentual entre as transações que contêm todos os itens de uma regra e as transações que contêm os antecedentes da regra Suporte Percentual das transações que contêm o padrão

Mineração de utilização da Web Descoberta de padrões Padrões seqüenciais Percentual de usuários que acessaram X e depois Y num determinado intervalo Intervalos em que certas páginas foram mais acessadas Características em comum dos visitantes de uma página num determinado período

Mineração de utilização da Web Descoberta de padrões Padrões seqüenciais Mineradores convencionais procuram os padrões mais freqüentes Muitas vezes, são buscados padrões raros, mas “interessantes” Zaki et al.: remoção das seqüências não interessantes Spiliopoulou et al.: WUM

Mineração de utilização da Web Descoberta de padrões Classificação e agrupamento Reunião de páginas semelhantes Detecção de seqüências semelhantes Comparação com perfis de usuários Informações demográficas Su et al.: RDBC (Recursive density based clustering) Agrupamento de páginas com base na freqüência de sua utilização, não no conteúdo

Mineração de utilização da Web Descoberta de padrões Cooley et al. Filtro de sites Diminuição do tempo de processamento Redução do número de regras inúteis Diminuição das medidas de suporte e confiança Maior número de padrões úteis Ignorar regras triviais Ex.: regra que apenas confirme um link direto entre as páginas

Mineração de utilização da Web Análise dos padrões Ferramentas Programas estatísticos Gráficos Linguagens de consulta Kato et al. Ferramenta de análise de padrões Relevância entre páginas e conectividade dos links Co-ocorrência de acessos entre páginas diferentes Mostra ao administrador as páginas que não são úteis

Mineração de utilização da Web Análise dos padrões WebViz (Pitkow & Bharat) Web paths Visualização de trechos dos grafos Webminer Linguagem de consulta Linguagem MINT (WUM) Especificação de critérios de consulta Conteúdo Estatística Estrutura Interestingness

Mineração de utilização da Web Análise dos padrões Data warehousing e OLAP Zaïane OLAP Kimball “Data webhousing”

Mineração de utilização da Web Trabalhos relacionados Webminer (Mobasher, Cooley et al) Arquitetura genérica de mineração de utilização Definição das fases da mineração Linguagem de consulta

Mineração de utilização da Web Trabalhos relacionados WebSIFT (Web Site Information Filter) Hipóteses É possível inferir, a partir do ECLF, as páginas não registradas no log Tipo de utilização de uma página pode ser inferido a partir do tempo gasto na mesma Dados do ECLF são suficientes para identificar com precisáo as sessões

Mineração de utilização da Web Trabalhos relacionados Mannilla & Toivonen (1996) Logs dão visão exata da utilização Yan et al. (1996) Agrupamento de usuários Links mostrados de acordo com as páginas mais visitadas pelo grupo do usuário Amir et al. Agregação dos dados em seqüências de itens Combinam seqüências com prefixos iguais

Mineração de utilização da Web Trabalhos relacionados SiteHelper (1997) Recomenda páginas a partir da análise do log PageGather (Perkowitz & Etzione, 1998) Agrupamento de páginas visitadas juntas Não leva em conta o caminho que conduz à página Propuseram sites adptativos

Mineração de utilização da Web Trabalhos relacionados WebLogMiner - Zaïane et al, 1998 Técnicas de OLAP e mineração de dados Ferramenta DBMINER (IBM) Arquitetura com 4 etapas Pré-processamento Construção de cubo Técnicas OLAP no cubo Mineração de dados

Mineração de utilização da Web Trabalhos relacionados FootPrints (Wexelblat & Maes, 1999) Caminhos freqüentes são armazenados para serem usados por futuros visitantes Schechter et al. (1998) Path profiles Geração dinâmica do conteúdo acessado Ignoram problemas causados pelo cache

Mineração de utilização da Web Trabalhos relacionados WUM (Spiliopoulou, 1999) Mineração de seqüências eficiente Transações agrupadas em trilhas Tráfego = quantidade de transações que acessaram uma trilha Árvore agregada de trilhas (log agregado) Prefixos iguais Suporte: quantidade de usuários que chegaram ao nó Redução do espaço de armazenamento Consultas em MINT Descritores, máscaras Padrão de navegação – generalização da árvore

Mineração de utilização da Web Trabalhos relacionados Gaul et al. (2000) Ao invés de seqüências generalizadas a partir de descritores, encontram TODAS as subseqüências Borges & Levene (1998) Modelos estocásticos HPG – hypertext probabilistic grammar Gramática regular Símbolos não-terminais – páginas Regras de produção – links Cálculo da entropia Alta – elevado grau de incerteza da navegação Baixa – alto conhecimento sobre o comportamento do usuário

Mineração de utilização da Web Trabalhos relacionados Larsen et al. (2000) Visão estocástica Algoritmo GGM (generalizable gaussian mixture) Generalização dos padrões de navegação para se obter aprendizado supervisionado a partir de um modelo de distribuição gaussiano Segmentação do comportamento dos usuários Segmentação das páginas

Mineração de utilização da Web Trabalhos relacionados Joshi & Krishnapuram (2000) Agrupamento fuzzy para a identificação de sessões Algoritmos: FCMdd, FCTMdd) Tveit (2000) Programação lógica indutiva – PROGOL Regras de primeira ordem que representam as sessões Melhoria da qualidade e desempenho do site

Mineração de utilização da Web Trabalhos relacionados Andersen et al. (2000) Projeto comercial em empresa dinamarquesa Análise de eficácia de banners Killer sessions Data warehousing Fatos: subsessões

Mineração de utilização da Web Trabalhos relacionados Nanopoulos & Manolopoulos (2001) Busca de conjuntos de seqüências, como em Gaul Consideram a estrutura do site Anderson et al. (2001) Sistemas de personalização Proteus, MinPath Dispositivos móveis, PDAs, celulares, pagers

Mineração de utilização da Web Trabalhos relacionados Nanopoulos & Manolopoulos (2001) Busca de conjuntos de seqüências, como em Gaul Consideram a estrutura do site Anderson et al. (2001) Sistemas de personalização Proteus, MinPath Dispositivos móveis, PDAs, celulares, pagers

Mineração de utilização da Web Trabalhos relacionados XML LOGML (Punin et al., 2001) Site como um grafo Web XGMML

Mineração de utilização da Web Segurança e privacidade Registro das ações dos usuários enquanto estes navegam Necessidades de informação x direito à privacidade UE : Directive on Data Protection Processos contra empresas on-line Normas auto-impostas pelas empresas Limites para a coleta de dados Pedido de autorização dos usuários

MineraWeb Dificuldades dos sistemas existentes Proprietários Fechados Pouco espaço para configuração, ampliação Limitados a um determinado experimento ou análise

MineraWeb Proposta Ambiente modularizável, aberto e expansível Aberto a novos métodos de leitura, filtragem, pré-processamento Dados em um SGBD relacional Qualquer linguagem de programação Algoritmos modificáveis e configuráveis Agregação de ferramentas de terceiros Apoio à construção de sites adaptativos

MineraWeb Mineraweb Administrador de sites Definir dados a serem analisados Fazer análises Utilizar análises para projetar, incrementar o site Pesquisador de mineração de utilização Desenvolver novos métodos de mineração e análise Testar e comparar métodos existentes

MineraWeb

MineraWeb Fases da mineração Integração e preparação de dados Descoberta de padrões Análise dos padrões Aplicação dos padrões

MineraWeb Integração e preparação de dados Logs de servidores Web Agentes Filtragem Transformação Armazenamento em SGBDR Identificação de usuários Identificação de sessões Identificação de transações

MineraWeb 2. Descoberta de padrões 3. Análise de padrões Algoritmos de busca MineraWebCenter Ferramentas de terceiros 3. Análise de padrões 4. Aplicação dos padrões Adaptação de páginas e sites

MineraWeb MineraData Base de dados Espinha dorsal do ambiente Integração de fontes de dados Modelo lógico ERWIn 3.52 Modelo físico do protótipo SQL Server 2000 * Oracle 8i

MineraWeb

MineraWeb

MineraWeb MineraWebCenter Módulo principal Borland C++ Builder 4 Configuração do ambiente Carga, pré-processamento dos dados Geração de arquivos customizados e dados de teste

MineraWeb MineraWebCenter Carga dos dados Filtragem Formatos dos logs Regras de filtragem @METODO IN (“GET”, “POST”) @EXTENSAO NOT IN (“GIF”, “JPG”, “BMP )

MineraWeb MineraWebCenter Campos lidos IP Cliente, Usuario Servidor, IP Servidor, Porta Método URI, URI Query Status protocolo, Status SO Bytes enviados e recebidos Duração acesso Versão protocolo Host Agente, cookie Referido

MineraWeb MineraWebCenter Stored procedures INSERE_ENTRADA EXTRAI_ENTRADA

MineraWeb MineraWebCenter Identificação de sessões Janelas de tempo – default de 25 min Stored procedure IDENTIFICA_SESSOES_TEMPO Identificação de transações Transações de conteúdo Limite de tempo IDENTIFICA_TRANSACOES_TEMPO

MineraWeb MineraWebCenter Classificação de páginas Tipos de páginas Navegação Conteúdo Tempos médios de referência Classificação manual Classificação automática Stored procedure CLASSIFICA_PAGINAS

MineraWeb MineraWebCenter Busca de padrões Regras de associação Parâmetros Suporte Confiança Stored Procedure IDENTIFICA_REGRAS_1

MineraWeb MineraWebCenter Análise de padrões Ferramentas de terceiros Cubos OLAP MS Analysis Services VISITAS Domínios Clientes Páginas

MineraWeb MineraCrawler Extração da estrutura de um site Delphi 5 Nível de profundidade Breadth-first

MineraWeb

MineraWeb

MineraWeb MineraRedirect Delphi 5 Biblioteca HTTP Agente de apoio à navegação Enquadramento das páginas Redirecionamento dos links Cadastro de perfis do usuário Log das ações Tipos de páginas registradas

MineraWeb MineraRedirect Implementação ISAPI CGI MS IIS (Information Services) Windows 2000 Testes do redirecionamento

MineraWeb MineraRedirect Dificuldades Frames dentro de frames Scripts Páginas já redirecionadas

MineraWeb

MineraWeb Adaptação de páginas Banco de dados Páginas ASP Páginas “reservas”” Navegação serendípica

MineraWeb Conclusões Definição de ambiente Administrador de sites Pesquisador em mineração Integração de várias propostas SGBD Técnicas de visualização Crawler Incorporação de novas características Adaptação de páginas

MineraWeb Conclusões Direcionamentos Filtragem Descoberta de padrões Eficiência dos métodos Logs distribuídos XML E-commerce : “Killer domain”