A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

+ Diogo Ribeiro Glauber Ramos iGather: Refinamento de Buscas.

Apresentações semelhantes


Apresentação em tema: "+ Diogo Ribeiro Glauber Ramos iGather: Refinamento de Buscas."— Transcrição da apresentação:

1 + Diogo Ribeiro Glauber Ramos iGather: Refinamento de Buscas

2 + Agenda O problema Qual o problema? Relevância do problema Solução Modelos O que é uma tag? O que é um cluster? Método MCL Parâmetros Extração de resultados Nodo mais representativo Validação Trabalhos relacionados Trabalhos futuros Considerações Finais

3 + Qual o problema? Sistemas de busca baseados em índices quantitativos (Ex: PageRank, número de visitas, quantidade de referências, etc) Usuários ao procurar por um domínio semântico especifico nesses sistemas podem vir a encontrar o primeiro resultado correspondente muito além da primeira página. Nesse trabalho procurou-se agrupar resultados de campos de conhecimento relacionados a fim de facilitar a pesquisa do usuário.

4 + Relevância do problema É um assunto atual que atinge um grande número de pessoas e atualmente várias empresas estão investindo nessa área. O campo de motores de busca é muito importante e bastante concorido. A resolução do problema de domínios semânticos pode vir a ser um diferencial diante do grande número de ferramentas de buscas existentes.

5 + Solução Para a resolução desse trabalho foi utilizado o Flickr. Para encontrar grupos semânticos distintos dentro de um resultado é preciso encontrar semelhanças entre os menbros de um resultado. Para encontrar essas semelhanças são utilizadas as tags específicas de cada resultado de busca do Flickr.

6 + O que é uma tag? Uma tag é um metadado fornecido por um usuário com o objetivo de descrever um item ao qual é relacionado. A ocorrência de um par de tags em um resultado é referida como co-ocorrência e é atribuído a esse par um peso.

7 + O que é uma tag? Para calcular o peso das arestas foi utilizado a métrica de Dice. A atribuição de peso leva em conta quantas vezes as duas tags aparecem em resultados de busca, mas também a quantidade em que elas aparecem juntas. Isso é muito importante para evitar a supervalorização de tags que aparecem em grandes quantidades de resultados. Quando um par de tags sempre aparece junto o valor do peso de sua aresta é 1.

8 + O que é um cluster? Um agrupamento de tags é chamado de cluster. Um cluster representa um domínio semântico e a maioria das suas tags são sobre o mesmo assunto. A qualidade de um cluster é medida através das métricas de coesão e separação:

9 + MCL Para a realização do processo de clusterização dos resultados foi utilizado o algoritmo MCL que é um processo iterativo proposto pelo autor Stijn van Dong. Ele se baseia na clusterização de grafos através da simulação de fluxos dentro de uma cadeia de Markov. MCL representa o grafo a ser clusterizado através de uma matriz estocástica. Cada valor dessa matriz representa a probabilidade de atingir um nodo i a partir de outro nodo j. Quanto maior o peso da aresta maior a probabilidade de atingi-lo.

10 + MCL Para conseguir uma matriz estocástica é preciso realizar o processo de Normalização. Neste processo o peso de cada aresta é dividido pela soma de todos os pesos de todas as arestas ligadas ao nodo i. Cada linha da matriz terá soma 1 e todos seus valores representam a probabilidade do nodo i atingir o nodo j.

11 + MCL


Carregar ppt "+ Diogo Ribeiro Glauber Ramos iGather: Refinamento de Buscas."

Apresentações semelhantes


Anúncios Google