Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar.

Slides:



Advertisements
Apresentações semelhantes
O que é a Internet?.
Advertisements

Agenda Apresentar modelo de funcionamento do Cadastro Nacional de Gestores Prestar esclarecimentos quanto às orientações encaminhadas pelo TCU para publicação.
Webdesigning em 30 minutos Bruno Afonso 2 Setembro 2005 Comunicar Ciência 2005.
Página de Acesso
Sistemas de Informação
Universidade do Vale do Paraíba Colégio Técnico Antônio Teixeira Fernandes Disciplina Ferramenta de Desenvolvimento Material II-Bimestre Conceitos de lógica.
Eventos, Variáveis de Sessão e Aplicação
Conhecimento e Inovação com as TIC Salas TIC Agenda Solução Técnica School Server 2004 Construção da estação de trabalho Actualizações de antivírus.
Construindo uma aplicação de redes sociais em 30 min Guilherme Pita Gerente de Marketing, Windows Live Empresas – Microsoft Marcelo Negrini CEO, Zazambia.
Internet Introdução à Internet Navegação na WWW (Web)
COMO FAZER UM TRABALHO ESCRITO
Pesquisar na Web e Avaliar a informação encontrada
Web Services 1º Semestre 2010 > PUCPR > BSI Bruno C. de Paula.
Terceiro Encontro GUG Porto Alegre/Brasil
Criação de Páginas Web Criação de Páginas Web – KompoZer
HTML – Hyper Text Markup Language
Web Mining Aplicação de técnicas de Mineração de Dados para descoberta de padrões na Web Motivações: Encontrar informação relevante Gerar conhecimento.
Algoritmos para Seleção Simples
Programas Utilitários Básicos
Encontro Linguagem HTML; 13. Hospedagem na WWW.
Encontro Construindo um Web Site com o Nvu
Programação Cabeças Automáticas 3M
Redes de Computadores 2 - Camada de Aplicação (HTTP) –
WWW – word wide web A WWW (World Wide Web ou, simplesmente, Web) é a parte multimídia da Internet, portanto possiblita a exibição de páginas de hipertexto,
GERENCIAMENTO DE REDES
Cookies e Sessões Mauro César Lopes. Mecanismos para guardar estados entre requisições HTTP HTTP é um protocolo sem estado Uma requisição é independente.
Como fazer citações E ORGANIZAR A BIBLIOGRAFIA
Internet e Informação Electrónica INTERNET EXPLORER
Curso de Jornalismo e Ciências da Comunicação
Html Fernanda Barroso.
Paulo J Azevedo Departamento de Informática
Prof. Marco Aurelio N. Esteves
Produção de Apresentações Electrónicas com o PowerPoint
Este software destina-se à gestão da área de expediente no que respeita a entradas e saídas de correspondência, emissão de ofícios e outros textos A Gestão.
HTML O que é? HiperText Markup Language
Desenvolvimento de Projetos e Aplicações Web
Protocolo HTTP e HTML Prof. Danton Cavalcanti Franco Junior
Arquitectura de Computadores II
MECÂNICA – ESTÁTICA 2.
Introdução ao Desenvolvimento Web
Minicurso PHP – Parte 2 João Paulo Ribeiro jpribeiro.com
Dep. Informática Sistemas de Informação Módulo de Processamento de Documentos Lic. Administração Pública 1º ano 2001/02 A. J. Proença.
Arquitecturas de extensão do servidor HTTP CGI | ISAPI : ASP, ASP.NET Programação na Internet Secção de Programação ISEL-DEETC-LEIC Luis Falcão -
Arquitecturas de extensão do servidor HTTP Arquitecturas de extensão do servidor HTTP CGI e ISAPI: ASP, ASP.NET Programação na Internet Secção de Sistemas.
Tópicos de Sistemas de Informação A Carlos Oberdan Rolim Ciência da Computação.
Funcionalidade e Protocolos da Camada de Aplicação
1/40 COMANDO DA 11ª REGIÃO MILITAR PALESTRA AOS MILITARES DA RESERVA, REFORMADOS E PENSIONISTAS - Mar 06 -
Recuperação de Informação
Tarântula-Sistema de Recolha de Documentos da Web Daniel Gomes, Mário Silva G rupo xldb-LASIGE, Faculdade de Ciências da Universidade de Lisboa O Tarântula.
Banco de Dados Parte 04 Ceça. Ceça Moraes 2 Conteúdo  Os três níveis da arquitetura  Mapeamentos  Arquitetura cliente-servidor.
Fernando CamposTIC - Uma experiência pedagógica 1 ENCONTRO Universidade de Évora TIC – Uma experiência pedagógica Escola EB 1 da Mina (Amadora)
WEBQUEST Fernanda Eliza L
Tecnologias Web Prof. Msc. Juliano Gomes Weber Tecnologias Web Notas de Aula – Aula 02 1º Semestre UNIJUÍ.
Criação de Páginas Web A Internet HTML Básico TIC 9º Ano
Nelson Vieira Nº 12 Manutenção Industrial. Servidor: Em informática, um servidor é um sistema de computação centralizada que fornece serviços a uma.
Aplicações Web com Orientação a Objetos
PROJETO DE AUTOMAÇÃO RESIDÊNCIAL
Aluna: Ingrid S. M. A. de Pádua RGA: Caches Web e GET Condicional.
IIS Web Server.
Inteligência Artificial Web Semântica
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Dados abertos interligados
Requisições e Respostas HTTP Prof. Leandro Luque.
Professor: Pedro Lopes Gestão de Base de dados Ano Lectivo 2010/2011.
Nº Aluno: Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.
Novas funcionalidades do registo on line de DM/DIV Demonstração prática do sistema de registo para Distribuidores Demonstração prática do sistema de registo.
Tabela de Publicidade Índice do documento Apresentação Áreas de publicidade nas páginas / Slots Zona nº1 – Mid-banner de topo Zona.
Aplicativos para Internet Prof. Wolley W. Silva
Curso de verão Data Mining Web Mining. O que é Web Mining?  Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações.
Escola Técnica Machado de Assis Técnico em Informática PROGRAMAÇÃO INTERNET I.
Transcrição da apresentação:

Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar

Knowledge Management and Discovery Group AGENDA Apresentação do tumba! Web-Mining Diferentes perspectivas Diários do tumba! Detecção de Sessões Padrões de utilização Extracção de relações semânticas Conclusão

Knowledge Management and Discovery Group Tumba! temos um motor bem alternativo! Motor de pesquisa para a WWW portuguesa. Desenvolvido pelo grupo fc.ul.pt Actualmente indexa documentos. O Google para uma comunidade específica

Knowledge Management and Discovery Group Tumba! temos um motor bem alternativo!

Knowledge Management and Discovery Group Web-Mining Data-Mining para a WWW Extracção de conhecimento relevante a partir de dados obtidos na WWW Mas que dados poderão ser esses?

Knowledge Management and Discovery Group Web-Mining Conteúdo As páginas HTML, imagens, video.... (text mining) Estrutura Os hyper-links contidos num único sítio web ou em toda a WWW (algoritmo de page rank) Utilização Entradas nos diários de servidores e proxies HTTP, histórico guardado pelo cliente HTTP (personalização, recomendação)

Knowledge Management and Discovery Group Extracto do diário do tumba! 21a.13.2lk.abc - -[01/Oct/2003:00:00: ] "GET /pesquisa?lang=pt&index=sidra&terms=netmeeting HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 21a.13.2lk.abc - - [01/Oct/2003:00:00: ] "GET /pesquisa?pag= HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2b3.2a.1w9.7e - - [01/Oct/2003:00:01: ] "GET /pesquisa?docs=10&terms=condominio&index=sidra&lang=pt&query_id= &pos=hit_2 HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90; (R1 1.3))" 1oo.23.1ww.1cc - - [01/Oct/2003:00:02: ] "GET /pesquisa?lang=pt&index=sidra&terms=descodificador+tvcabo&Submit.x=30&Submit.y=14 HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2xy.2a.2qq.1aa - - [01/Oct/2003:00:02: ] "GET /cache?terms=cache: HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"

Knowledge Management and Discovery Group Informação usual nos diários hora e data nome e tamanho do ficheiro a enviar endereço do cliente ( pode ser um proxy!! ) comando HTTP: GET, PUT, POST resultado: Status Code QueryID (específico do tumba!) Copulado a um mecanismo de re-direct

Knowledge Management and Discovery Group Preparação e limpeza dos diários 21a.1sd.227.abc - - [01/Oct/2003:00:00: ] "GET pesquisa?pag= ndex=sidra&lang=pt HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" Servlet pesquisa, IP , Date , Terms netmeeting, Language pt, Index sidra, Position 0, Page QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5

Knowledge Management and Discovery Group Preparação e limpeza dos diários Ignorar as entradas que não correspondem a pesquisas Ignorar as pesquisas nulas (sem termos) Watchdog Erros ou experiências de utilizadores

Knowledge Management and Discovery Group Preparação e limpeza dos diários Os diários estudados correspondem a período de 6 meses em Inicialmente: entradas Após limpeza: entradas Re-directs: entradas Pesquisas:

Knowledge Management and Discovery Group Detecção de Sessões de Utilização Uma sessão pode ser definida como: Um período de tempo durante a qual existe alguma interactividade com a WWW por um utilizador

Knowledge Management and Discovery Group Detecção de Sessões de Utilização 5 variáveis foram utilizadas: QueryID Agent Endereço IP Date Termos da Pesquisa

Knowledge Management and Discovery Group Detecção de Sessões de Utilização - Algoritmo Quando existe QueryID faz parte de uma sessão de utilização existente. Quando não existe QueryID Inicio de uma nova sessão Ou reformulação da pesquisa

Knowledge Management and Discovery Group Detecção de Sessões de Utilização - Algoritmo Assumimos que uma entrada pertence a uma sessão existente se: Têm mesmo agente Têm mesmo endereço IP O intervalo entre a última entrada e a corrente é menor do que um limiar estabelecido Pelo menos um termo (após radicalização) na sessão é utilizado na entrada actual

Knowledge Management and Discovery Group Detecção de Sessões de Utilização - Algoritmo Sessões que após algum tempo estão inactivas Expiram e são removidas de memória central

Knowledge Management and Discovery Group Exemplo de uma Sessão Servlet pesquisa, IP d9e.2a.1cs.159, Date , Terms descodificador tvcabo, Language pt, Index sidra, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Servlet pesquisa, IP d9e.2a.1cs.159, Date , Terms crack tvcabo, Language pt, Index sidra, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Servlet pesquisa, IP d9e.2a.1cs.159, Date , Terms crack tvcabo, Language pt, Index sidra, Position 0, Page madeira-torres.rcts.pt/jornal interactivo 2/sites.htm, QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Knowledge Management and Discovery Group Problema com o Algoritmo Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms sumos, Language pt, Site Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms site: sumos, Language pt, Index pt, Position 0, Page QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Knowledge Management and Discovery Group Solução Proposta Antes de remover uma sessão: verificar se essa pode ser cabeçalho de outra já existente. Utilizar as regras anteriores mas agora tendo em conta as sessões já estabelecidas. Aglomerar Sessões

Knowledge Management and Discovery Group Aglomeração de Sessões Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms sumos, Language pt, Site Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms site: sumos, Language pt, Index pt, Position 0, Page QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)

Knowledge Management and Discovery Group Aglomeração de Sessões 4187 aglomerações efectuadas Inspecção manual preliminar das aglomerações são favoráveis

Knowledge Management and Discovery Group Padrões de utilização mais frequentes SessõesPadrão 60611PEQUISA 20221PESQUISA: PESQUISA:PESQUISA 5559PESQUISA:1 5018PESQUISA:PESQUISA:PESQUISA 3254PESQUISA:2 2345PESQUISA:PAG_2 Total de sessões detectadas

Knowledge Management and Discovery Group Extracção de Relações Semânticas avaliação carro avaliação automóvel construir instrumentos de música fabricar instrumentos de música Alguns extractos de sessões.... misturas para aves misturas para periquitos coser malhas tricô bonecos desenhos animados purificadores de água filtros de água pensões porto residenciais porto

Knowledge Management and Discovery Group Extracção de Relações Semânticas Não sabemos exactamente que relação temos. TALVEZ! Possamos olhar para página que o utilizador consultou e extrair a relação...

Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar FIM