Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar
Knowledge Management and Discovery Group AGENDA Apresentação do tumba! Web-Mining Diferentes perspectivas Diários do tumba! Detecção de Sessões Padrões de utilização Extracção de relações semânticas Conclusão
Knowledge Management and Discovery Group Tumba! temos um motor bem alternativo! Motor de pesquisa para a WWW portuguesa. Desenvolvido pelo grupo fc.ul.pt Actualmente indexa documentos. O Google para uma comunidade específica
Knowledge Management and Discovery Group Tumba! temos um motor bem alternativo!
Knowledge Management and Discovery Group Web-Mining Data-Mining para a WWW Extracção de conhecimento relevante a partir de dados obtidos na WWW Mas que dados poderão ser esses?
Knowledge Management and Discovery Group Web-Mining Conteúdo As páginas HTML, imagens, video.... (text mining) Estrutura Os hyper-links contidos num único sítio web ou em toda a WWW (algoritmo de page rank) Utilização Entradas nos diários de servidores e proxies HTTP, histórico guardado pelo cliente HTTP (personalização, recomendação)
Knowledge Management and Discovery Group Extracto do diário do tumba! 21a.13.2lk.abc - -[01/Oct/2003:00:00: ] "GET /pesquisa?lang=pt&index=sidra&terms=netmeeting HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 21a.13.2lk.abc - - [01/Oct/2003:00:00: ] "GET /pesquisa?pag= HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2b3.2a.1w9.7e - - [01/Oct/2003:00:01: ] "GET /pesquisa?docs=10&terms=condominio&index=sidra&lang=pt&query_id= &pos=hit_2 HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90; (R1 1.3))" 1oo.23.1ww.1cc - - [01/Oct/2003:00:02: ] "GET /pesquisa?lang=pt&index=sidra&terms=descodificador+tvcabo&Submit.x=30&Submit.y=14 HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 2xy.2a.2qq.1aa - - [01/Oct/2003:00:02: ] "GET /cache?terms=cache: HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
Knowledge Management and Discovery Group Informação usual nos diários hora e data nome e tamanho do ficheiro a enviar endereço do cliente ( pode ser um proxy!! ) comando HTTP: GET, PUT, POST resultado: Status Code QueryID (específico do tumba!) Copulado a um mecanismo de re-direct
Knowledge Management and Discovery Group Preparação e limpeza dos diários 21a.1sd.227.abc - - [01/Oct/2003:00:00: ] "GET pesquisa?pag= ndex=sidra&lang=pt HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" Servlet pesquisa, IP , Date , Terms netmeeting, Language pt, Index sidra, Position 0, Page QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5
Knowledge Management and Discovery Group Preparação e limpeza dos diários Ignorar as entradas que não correspondem a pesquisas Ignorar as pesquisas nulas (sem termos) Watchdog Erros ou experiências de utilizadores
Knowledge Management and Discovery Group Preparação e limpeza dos diários Os diários estudados correspondem a período de 6 meses em Inicialmente: entradas Após limpeza: entradas Re-directs: entradas Pesquisas:
Knowledge Management and Discovery Group Detecção de Sessões de Utilização Uma sessão pode ser definida como: Um período de tempo durante a qual existe alguma interactividade com a WWW por um utilizador
Knowledge Management and Discovery Group Detecção de Sessões de Utilização 5 variáveis foram utilizadas: QueryID Agent Endereço IP Date Termos da Pesquisa
Knowledge Management and Discovery Group Detecção de Sessões de Utilização - Algoritmo Quando existe QueryID faz parte de uma sessão de utilização existente. Quando não existe QueryID Inicio de uma nova sessão Ou reformulação da pesquisa
Knowledge Management and Discovery Group Detecção de Sessões de Utilização - Algoritmo Assumimos que uma entrada pertence a uma sessão existente se: Têm mesmo agente Têm mesmo endereço IP O intervalo entre a última entrada e a corrente é menor do que um limiar estabelecido Pelo menos um termo (após radicalização) na sessão é utilizado na entrada actual
Knowledge Management and Discovery Group Detecção de Sessões de Utilização - Algoritmo Sessões que após algum tempo estão inactivas Expiram e são removidas de memória central
Knowledge Management and Discovery Group Exemplo de uma Sessão Servlet pesquisa, IP d9e.2a.1cs.159, Date , Terms descodificador tvcabo, Language pt, Index sidra, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Servlet pesquisa, IP d9e.2a.1cs.159, Date , Terms crack tvcabo, Language pt, Index sidra, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) Servlet pesquisa, IP d9e.2a.1cs.159, Date , Terms crack tvcabo, Language pt, Index sidra, Position 0, Page madeira-torres.rcts.pt/jornal interactivo 2/sites.htm, QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
Knowledge Management and Discovery Group Problema com o Algoritmo Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms sumos, Language pt, Site Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms site: sumos, Language pt, Index pt, Position 0, Page QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Knowledge Management and Discovery Group Solução Proposta Antes de remover uma sessão: verificar se essa pode ser cabeçalho de outra já existente. Utilizar as regras anteriores mas agora tendo em conta as sessões já estabelecidas. Aglomerar Sessões
Knowledge Management and Discovery Group Aglomeração de Sessões Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms sumos, Language pt, Site Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms site: sumos, Language pt, Index pt, Position 0, Page QueryID , Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0) Servlet pesquisa, IP 1y3.ab6.1v1.a, Date , Terms compal sumos, Language pt, Index pt, NumberOfDocuments 0, Agent Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 4.0)
Knowledge Management and Discovery Group Aglomeração de Sessões 4187 aglomerações efectuadas Inspecção manual preliminar das aglomerações são favoráveis
Knowledge Management and Discovery Group Padrões de utilização mais frequentes SessõesPadrão 60611PEQUISA 20221PESQUISA: PESQUISA:PESQUISA 5559PESQUISA:1 5018PESQUISA:PESQUISA:PESQUISA 3254PESQUISA:2 2345PESQUISA:PAG_2 Total de sessões detectadas
Knowledge Management and Discovery Group Extracção de Relações Semânticas avaliação carro avaliação automóvel construir instrumentos de música fabricar instrumentos de música Alguns extractos de sessões.... misturas para aves misturas para periquitos coser malhas tricô bonecos desenhos animados purificadores de água filtros de água pensões porto residenciais porto
Knowledge Management and Discovery Group Extracção de Relações Semânticas Não sabemos exactamente que relação temos. TALVEZ! Possamos olhar para página que o utilizador consultou e extrair a relação...
Knowledge Management and Discovery Group Detecção de sessões de utilização nos diários dos Tumba! Ideias e Trabalho Preliminar FIM