Flávio Henrique Moura Stakoviak Desenvolvimento e Implantação de um Sistema para Recomendação de Tags utilizando Clustering e Classificação Textual para o Konnen Flávio Henrique Moura Stakoviak
Roteiro Conceitos Clustering + Classificação Textual Resultados Considerações Finais
Roteiro Conceitos Clustering + Classificação Textual Resultados Considerações Finais
Conceitos Sistemas de Marcação Social Folksonomia Recuperação da Informação Clustering Sistemas de Recomendação
Conceitos Sistemas de Marcação Social Folksonomia Recuperação da Informação Clustering Sistemas de Recomendação
Sistemas de Marcação Social Tags Motivação Recuperar Informação futuramente Compartilhar Expressar opiniões
Sistemas de Marcação Social (cont.)
Conceitos Folksonomia Sistemas de Marcação Social Recuperação da Informação Clustering Sistemas de Recomendação
Folksonomia Liberdade ao Usuário Marcações Populares nas Tags Organização da Web
Folksonomia (cont.) Problemas Sobrecarga de Informações Diferentes Tags para um mesmo conteúdo Sistemas não tem interligações
Conceitos Recuperação da Informação Sistemas de Marcação Social Folksonomia Recuperação da Informação Clustering Sistemas de Recomendação
Recuperação da Informação Auxiliar o usuário a busca por informações Etapas Aquisição Preparação Indexação Busca Ordenação
Recuperação da Informação (cont.) Técnicas auxiliares WebCrawler Stop Words Lematização
Conceitos Clustering Sistemas de Marcação Social Folksonomia Recuperação da Informação Clustering Sistemas de Recomendação
Clustering Clustering é um método de descoberta de conhecimento que identifica agregações ou relações entre objetos, sendo um método útil para o agrupamento de documentos similares (WIVES, 1999)
Clustering (cont.) Etapas de Clustering Representação de Padrões Mediação da Proximidade Identificação do Clustering (Técnicas) Abstração dos Dados Validação dos Clusters
Clustering (cont.) Técnicas de Clustering Clustering Hierárquico Algoritmo Particional Density based Model based
Clustering (cont.) Técnicas de Clustering Algoritmo Particional Clustering Hierárquico Algoritmo Particional Density based Model based
Conceitos Sistemas de Recomendação Sistemas de Marcação Social Folksonomia Recuperação da Informação Clustering Sistemas de Recomendação
Sistemas de Recomendação Sistema de Recomendação
Sistemas de Recomendação (cont.) Tags Uniformizar as marcações Melhora a eficiência dos resultados das buscas Folksonomia
Roteiro Clustering + Classificação Textual Conceitos Resultados Considerações Finais
Clustering + Classificação Textual Documento a ser analisado K agrupamentos Base de dados Lista de termos Peso de cada termo em cada cluster
Clustering + Classficação Textual (cont.) Lista de classificação de Termos Lista de classificação de Tags Histórico de Tags do Usuário ∩ ∩
Clustering + Classficação Textual (cont.) Lista de Tags Recomendadas
Roteiro Resultados Conceitos Clustering + Classificação Textual Considerações Finais
Resultados Konnen
Módulo de Recomendação Resultados (cont.) Módulo Core Módulo de Segurança Outros módulos Módulo de Conteúdo Módulo de Recomendação Konnen
Resultados (cont.) Konnen em desenvolvimento Estrutura em constante evolução Falta de conteúdo real para simulação
Resultados (cont.) WebCrawler Utility.Util:GenerateData() Utility.User Utility.Tag Utility.ContentTag Utility.Content / Page Bibsonomy Servidor Local Utility.StopWords Lematização Utility.Util:PrepareData() Utility.StopWords LemmaSharp.Ilemmatizer Utility.Content / Page
Resultados (cont.) Duração das Etapas (996 registros) Tempo WebCrawler Tempo WebCrawler 3 minutos Lematização 22 minutos
Número de tags por usuário Resultados (cont.) Mínimo Máximo Média Número de tags por post 1 23 1,35 Número de posts por usuário 899 39,84 Número de tags por usuário 1000 341,56
Número de tags atribuídas por usuários às postagens Resultados (cont.) Número de tags atribuídas por usuários às postagens
Módulo de Recomendação Resultados (cont.) Módulo de Recomendação Clustering Módulo de Conteúdo Konnen
Resultados (cont.) Documento: « Visual analytics tools for analysis of movement data » Etapas: 5 execuções para cada valor de cluster = { 5, 10, 20, 25, 30 } 5 melhores resultados
Resultados (cont.) Para 5 clusters Tempo Iterações Recomendações Tempo Iterações Recomendações 1ª execução 4,63 3 data, analysis, reasoning, automatic, method 2ª execução 4,89 2 analysis, data, human, time, automatic 3ª execução 4,85 human, data, case, method, support 4ª execução 4,66 data, analysis, large, method, automatic 5ª execução 4,72 data, method, large, study, understanding
Resultados (cont.) Para 10 clusters Tempo Iterações Recomendações Tempo Iterações Recomendações 1ª execução 8,50 3 data, analysis, scale, support, automatic 2ª execução 14,47 2 analysis, data, large, reasoning e servisse 3ª execução 8,02 analysis, data, mobility, framework, human 4ª execução 14,69 4 data, analysis, tool, tools, method 5ª execução 8,34 data, analysis, framework, knowledge, visual
Resultados (cont.) Para 20 clusters Tempo Iterações Recomendações Tempo Iterações Recomendações 1ª execução 28,60 4 data, analysis, support, case, large 2ª execução 37,99 knowledge, data, analysis, case e human 3ª execução 36,21 data, tools, analysis, case, semantic 4ª execução 19,65 data, tools, analysis, support, techinique 5ª execução 10,20 3 data, analysis, large, study, human
Resultados (cont.) Para 25 clusters Tempo Iterações Recomendações Tempo Iterações Recomendações 1ª execução 12,11 3 data, analysis, human, semantic, visual 2ª execução 22,65 4 data, analysis, human, tools, visual 3ª execução 22,62 data, analysis, large, database, studies 4ª execução 11,93 data, analysis, support, collection, human 5ª execução 22,59 5 data, analysis, gps, human, visual
Resultados (cont.) Para 30 clusters Tempo Iterações Recomendações Tempo Iterações Recomendações 1ª execução 27,06 4 human, data, analysis, mobility, pattern 2ª execução 26,57 data, analysis, interactive, human, making 3ª execução 14,45 data, analysis, human, method, mobility 4ª execução 14,75 3 data, analysis, human, knowledge, mobility 5ª execução 27,38 data, analysis, human, semantic, visual
Resultados (cont.) Freqüência dos colocados: 1o : data(18), analysis(3), human(2), knowledge(1) 2o : analysis(16), data(6), tools(2), method(1) 3o : human (5), large (5), analysis(4), case, reasoning, scale, mobility, tool, gps 4o : method (3), case (3), study(2), support(2), knowledge (2), semantic(2), human(2), tools(2), automatic(1), time(1), reasoning(1), framework(1), collection(1), mobility(1) 5o : visual(5), human(4), automatic(3), method(2), support(1), understanding(1), servisse(1), large(1), semantic(1), techinique(1), pattern(1), making(1)
Resultados (cont.) Melhores recomendações: data, analysis, human/large, method/case, visual Tempo de execução muito alto Usuário web quer tempo de resposta baixo
Resultados (cont.) Para 50 documentos e 3 clusters: Tempo de execução: 1,38 segundos Recomendação: automatic, knowledge, gps, method, pattern Qualidade da recomendação fraca
Roteiro Considerações Finais Conceitos Clustering + Classificação Textual Resultados Considerações Finais
Considerações Finais Boa performance Excelente qualidade das recomendações Funciona em qualquer ambiente
Considerações Finais Depende de uma base com um bom vocabulário Usuários online: pré-classificação dos documentos
Flávio Henrique Moura Stakoviak Desenvolvimento e Implantação de um Sistema para Recomendação de Tags utilizando Clustering e Classificação Textual para o Konnen Flávio Henrique Moura Stakoviak