Aluno: Jorge Machado RI - 2007 Syntactic Clustering of the Web Jorge Machado Recuperação de Informação Prof. Pável Calado.

Slides:



Advertisements
Apresentações semelhantes
Solved Exercises 1. Finding the Peak. Let A= a1,…,an be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
Advertisements

Algoritmos para Seleção e Projeção
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Projeto de um Comparador Descrição Estrutural x Comportamental
Paradigmas de Programação
Mineração da Web Recuperação de Informação
Apresentação do Artigo: Gradient Field Descriptor for Sketch Based Retrieval and Localization RUI HU, MARK BARNARD AND JOHN COLLOMOSSE CENTRE FOR VISION,
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Algoritmos para Operações Binárias entre blocos SQL AULA 19 – Parte I Profa. Sandra de Amo GBC053 – BCC.
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
XML Namespaces XML Namespaces provê um método para evitar conflito de nomes de elementos.
Um Sistema de recomendação de consultas baseados em query log Diogo Mendonça.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Distribuições Contínuas de Probabilidade. Objetivos Apresentar a Distribuição de Probabilidade Normal Apresentar a Distribuição de Probabilidade Normal.
Aula 5 Bioestatística. Estatísticas para uma variável.
Prof. João Ricardo Andrêo Programação p/ INTERNET - HTML 29/5/ :57 1 Formulários A linguagem HTML, permite que o browser realize uma interação com.
José Antônio da cunha IFRN Administração de Banco de Dados.
Aula 01 Conhecendo o Computador Prof. Filipe Mutz.
SECRETARIA DE ESTADO DA EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DIRETORIA DE DESENVOLVIMENTO HUMANO GERÊNCIA DE TECNOLOGIA DE INFORMAÇÕES EDUCACIONAIS E ADMINISTRATIVAS.
Aula 7 Validando os Modelos Prof. José Valentim Machado Vicente, D.Sc.
A importância das TIC Com a partilha de experiências surge, não só, um conhecimento mais optimizado das TIC, como também, uma relação interpessoal, mais.
Inferência Estatística
Aula 5. Teste de Hipóteses II. Capítulo 12, Bussab&Morettin “Estatística Básica” 7ª Edição.
Redes de Co-citação Wagner de Souza Rolim CIn – UFPE.
Glossário Autor: Skyup Informática. Atividade - Glossário A atividade glossário permite que o administrador crie páginas de definições, um dicionário.
Projeto de Inclusão Digital Aula de introdução a Informática 10 de outubro de 2009.
Aula 5 Bases Num é ricas Prof. Filipe Mutz.. Bases Numéricas São sistemas de organização de medidas em que unidades são organizadas em grupos com um tamanho.
IFRN Técnico em Informática para Internet Desenvolvimento de Algoritmos Prof. Gilbert Azevedo.
Informática Básica Karine Alessandra Córdova O navegador é o principal programa para acessar a Internet. Com ele, você pode visitar endereços na rede,
FISCALIZAÇÃO DA APURAÇÃO DOS INDICADORES DO SERVIÇO – METODOLOGIA PARA VERIFICAR A CONFORMIDADE DO DESEMPENHO DECLARADO PELOS AGENTES. Brasília 18/8/2015.
Campus Pau dos Ferros Disciplina de Algoritmos Prof. Demétrios Coutinho INFORMÁTICA BÁSICA Algoritmos de Ordenação.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Intervalo de Confiança Camilo Daleles Rennó
1 – Estudo dos Movimentos Continuação Parte Site:
MISSING DATA (Dados Omissos ou Dados Faltantes) Luciana Nunes
SISTEMAS OPERACIONAIS MEMÓRIA VIRTUAL. INTRODUÇÃO Memória Virtual é um técnica sofisticada e poderosa de gerenciamento de memória, onde a MP e a MS são.
Programação para Internet Aula 12 SQL (Comandos de Consulta ao BD)
Medidas de Tendência Central ou de Posição 2- MODA- mo 1.1-Para Dados não Agrupados indica a região das máximas freqüências – que se evidencia – que está.
OPERAÇÕES COM NÚMEROS NATURAIS
Instituto de Educação a Distância Interativa Coordenação Acadêmica: Prof. Wander Garcia.
Programação p/ INTERNET - HTML Prof. João Ricardo Andrêo 2/6/ :46 1 TABELAS A TAG é utilizada para apresentação de dados no formato de tabelas (apresentação.
Alice, Bob and Eve – Quantum Cryptography Hands on Quantum Mechanics João Sabino.
Noções de amostragem Bioestatística. É a ciência que fornece os princípios e os métodos para coleta, organização, resumo, análise e interpretação de dados.
CICLO BÁSICO GEOMETRIA OBJETIVOS Espera-se que o aluno:
CARTOGRAFIA PROF° ISRAEL FROIS. COORDENADAS GEOGRÁFICAS Latitude – Paralelos (0° a 90° N e S) Longitude – Meridianos (0° a 180° L e O)
Application Server & EJB3 Wesley Gonçalves da Silva
ORGANIZAÇÃO DA INFORMAÇÃO: Metodologias de Resumos e Indexação
Curso Superior de Tecnologia em Redes de Computadores TCC Seminário Final Aluno: Julio Cezar Oliveira de Borba Orientador: Professor Carlos Vinícius Rasch.
Revisão de Estatística Parte II J M Fernandes. Amostras estatísticas para parâmetros populacionais Assumir que a distribuição é normal X~N(µ(σ 2 )) Gerar.
Cromatografia Teoria.
Qualidades de Feixes de Raios X usados em Radiologia Daniel Vicente Vieira Física das Radiações II Prof. Paulo Roberto Costa 13/11/12.
Lógica de Programação Aula 08 Prof. Marcelo Marcony.
Lógica de programação Estruturas de seleção Estruturas de repetição Sub-Rotinas 1.
Agenda 1. O Problema das 8 Rainhas 2. Hill Climbing
FORMULÁRIOS FORMULARIOS. Introdução O formulário é um importante meio de comunicação, transmissão e registro de informações, principalmente as baseadas.
Indexação automática de documentos utilizando técnicas de mineração de textos Proposta para trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Inferência Estatística Camilo Daleles Rennó
© 2000 Paulo Adeodato Avaliação de Desempenho de Sistemas Geração de Valores Aleatórios Paulo Adeodato Departamento de Informática Universidade Federal.
Copyright © 2011 Pearson Education, Inc. Publishing as Pearson Addison-Wesley Capítulo 5 Mais SQL: Consultas Complexas, Triggers e Views.
Curso de Jornalismo Investigativo: uma capacitação para organizações e ativistas locais Análise e filtro de dados: oficina prática Apresentação baseada.
NOME DA MATÉRIA NOME DO(A) PROFESSOR(A) Gerência e Organização.
1 1 Slide Programação Dinâmica Prof. Dr. Alexandre Pereira Salgado Junior.
MAE 0535 – Pesquisa de Mercado Universidade de São Paulo – USP Instituto de Matemática, Estatística e Computação – IME Professora: Silvia Elian Nagib 2º.
Prof. Gustavo Fernandes de Lima Descrevendo Circuitos Lógicos Capítulo 3 Parte II.
Como construir modelos empíricos. Nos modelos estudados, cada fator foi fixado em dois níveis Por esta razão temos que nos contentar com uma visão limitada.
Organização de Arquivos e Indexação
Prof. Hubert Chamone Gesser, Dr. Retornar Probabilidades Disciplina de Probabilidade e Estatística.
Monografias Projeto Científico. 2 Monografia e Projeto Científico O projeto científico pode ser uma tese ou monografia; É a base da monografia; Não existe.
Métodos Quantitativos em Medicina Cálculo do Tamanho da Amostra Patometria 2015.
Administração de Banco de Dados José Antônio da Cunha.
Transcrição da apresentação:

Aluno: Jorge Machado RI Syntactic Clustering of the Web Jorge Machado Recuperação de Informação Prof. Pável Calado

Aluno: Jorge Machado RI Syntactic Clustering of the Web Motivação do autor Objectivos Definições Algoritmo Problemas e Melhoramentos Aplicações práticas

Aluno: Jorge Machado RI Motivação do autor Detectar documentos sintacticamente similares –Versões de um mesmo documento –Instabilidade de URL’s –Mirrors –Perdidos e Achados –Documentação em linha para programas populares –Violações de direitos de autor –Problemática do URN

Aluno: Jorge Machado RI Objectivos Detectar dois tipos de fenómenos –Documentos similares no seu todo –Documentos contidos noutros documentos

Aluno: Jorge Machado RI Definições Sketching Impressão Digital Completa Impressão Digital Selectiva –Problemas com grandes variações Token Shingle

Aluno: Jorge Machado RI Definições Sensivelmente o Mesmo (resemblance ) –Medida entre 0 e 1 para a semelhança total de dois documentos Sensivelmente Contido (containment ) –Medida entre 0 e 1 para a semelhança total dos conteúdos de um documento A com um documento B * Estas medidas podem ser calculadas com base num scketch

Aluno: Jorge Machado RI Algoritmo (Cálculo de Similaridade) w-shingling S (D, w) –conjunto de todos os shingles de tamanho w para o documento D Exemplo D = (a,rose,is,a,rose,is,a,rose) w = 4 S(D,w) = { (a,rose,is,a), (rose,is,a,rose), (is,a,rose,is) }

Aluno: Jorge Machado RI Algoritmo (Cálculo de Similaridade) Resemblance entre dois documentos A e B.

Aluno: Jorge Machado RI Algoritmo (Cálculo de Similaridade) Containment do documento A em B.

Aluno: Jorge Machado RI Algoritmo (Cálculo de Similaridade) Distância entre o documento A em B.

Aluno: Jorge Machado RI Algoritmo (Estimativas das Métricas) Amostrar aleatoriamente os primeiros s shingles aleatórios –princípio assumido por Heintze Para os mesmos documentos deveremos retornar os mesmos shingles iguais Ordenação (Hashing) Amostrar um conjunto uniformemente distribuído de shingles

Aluno: Jorge Machado RI Algoritmo (Estimativas das Métricas) Função de extracção dos primeiros s elementos de W

Aluno: Jorge Machado RI Algoritmo (Estimativas das Métricas) Função de extracção distribuída de elementos de m em m shingles

Aluno: Jorge Machado RI Algoritmo (Estimativas das Métricas) Teorema de definição dos métodos F(A) e V(A) para obter os sketches dos documentos

Aluno: Jorge Machado RI Algoritmo (Estimativas das Métricas) Estimativa de resemblance –Pode usar ambas F e V

Aluno: Jorge Machado RI Algoritmo (Estimativas das Métricas) Estimativa de containement –Apenas resulta bem o segundo

Aluno: Jorge Machado RI Algoritmo (Estimativas das Métricas) Proposta de limitação do tamanho de V mantendo ainda assim uniformidade

Aluno: Jorge Machado RI Algoritmo (Dados de Teste) We canonicalize documents by removing HTML formatting and converting all words to lowercase. –The shingle size w is 10. –We use a 40-bit fingerprint function, based on Rabin fingerprints [7], enhanced to behave as a random permutation. (When we refer to a shingle or shingle value in the rest of this paper, we will mean this fingerprint value.) We use the "modulus" method for selecting shingles with an m of ,000,000 HTML and text documents retrieved from the Web.

Aluno: Jorge Machado RI Algoritmo (Teórico) Download de todos os documentos da WEB Cálculo dos sketches para cada documento Comparar os sketches para cada par de documentos para verificar se excedem o treshold de reasemblance. Combinar os pares de documentos similares para agrupar em clusters.

Aluno: Jorge Machado RI Algoritmo (Teórico - Resultados) Quadriliões de comparações 800 bytes por sketche  24 Gb de espaço de memória para scketches 1 Milisegundo levaria 8 horas no total

Aluno: Jorge Machado RI Algoritmo (Solução prática) Dividir, Processar, Juntar bocados de tamanho m Processamento totalmente em Memória Merge consome I/O e tempo Consegue-se tempo mais ou menos lenear n log(n/m) sendo m o tamanho dos blocos

Aluno: Jorge Machado RI Algoritmo (Novo Algoritmo) Na primeira fase foi calculado o sketch de cada documento. ordenada pelo shingle. Agrupados todos os pares de documentos que partilhavam algum shingle. –Linear (Ordenação por shingle) – ordenadas pelo primeiro ID de documento. Na última fase calcula-se para cada cluster aqueles que excedem o treshold mínimo de reasemblance com base nos shingles comuns criando a lista final de clusters.

Aluno: Jorge Machado RI Algoritmo (Suporte a queries) Encontrar um ID dado um URL (Query invisível ao utilizador final) Encontrar um URL dado um ID (Query invisível ao utilizador final) Encontrar o cluster de um documento dado o ID Encontrar todos os documentos de um cluster

Aluno: Jorge Machado RI Problemas e Melhoramentos Shingles Comuns Documentos equivalentes Super Shingles

Aluno: Jorge Machado RI Problemas e Melhoramentos (Shingles Comuns) HTML tags identificando editor Cabeçalhos e Rodapés partilhados Sequências de texto comuns (os números de 3-12,...) Paginas iguais com links internos alterados

Aluno: Jorge Machado RI Problemas e Melhoramentos (Documentos Equivalentes) Assinaturas iguais a nível de conteúdos. Assinatura iguais para forma canónica. Assinaturas iguais aplicadas directamente aos shingles obtidos

Aluno: Jorge Machado RI Problemas e Melhoramentos (SuperShingles) Idéia meta-sketch’s –sketch do sketch Forma de o fazer: super-shingles dos shingles –ordenar os shingles pelo seu ID e aplicar o algoritmo de shingling aos shingles ordenados

Aluno: Jorge Machado RI Aplicações práticas Clustering de resultados para buscas em linha, Clustering este que poderá ser feito on the fly Possibilidades de serviços de perdidos e achados Caracterizar a evolução das páginas com o tempo Encontrar plágios e violações dos direitos de autor.

Aluno: Jorge Machado RI Resultados PhaseTime (CPU-days)Parallelizable Sketching4.6YES Duplicate Elimination0.3 Shingle Merging1.7YES ID-ID Pair Formation0.7 ID-ID Merging2.6YES Cluster Formation0.5 Total~ % resemblance3.6 mihões clusters num total de 12.3 milhões de docs 2.1 milhões clusters contendo apenas docs idênticos (5.3 milhões docs) 1.5 milhões clusters contendo 7 milhões de documentos 150 Gbytes (5k por doc)30,000,000 HTML 1.8 Gbytes (u maédia de 60 bytes por URL) 10 palavras para shingles para 40 bit (5 byte) shingle fingerprints 600M shingles3 Gbytes (5 bytes por shingle) 5.5 Gbytes (9 bytes por entrada - 5 bytes por shingle e 4 bytes por document ID)

Aluno: Jorge Machado RI Questões ???????????