Indexação por Semântica Latente (Latent Semantic Indexing) Joaquim Macedo.

Slides:



Advertisements
Apresentações semelhantes
Correlação e Regressão
Advertisements

Operações sobre o Texto
Sistemas Realimentados
Analise de Regressão Parte 2.
Transformação para o Espaço Latente
Controle de Processos por Computador
ANÁLISE DISCRIMINANTE
Recuperação de Imagens
Pesquisa em imagens combinando informação visual e informação textual.
Capítulo 3 - Aplicações das Derivadas
Redução de Atributos Série: Por que não me contaram antes isto Prof. Dr. Hemerson Pistori www. gpec. ucdb. br/pistori Universidade Católica Dom Bosco.
Universidade Federal de Ouro Preto (UFOP)
Reconhecimento de Padrões Principal Component Analysis (PCA) Análise dos Componentes Principais David Menotti, Ph.D. Universidade.
A Review of Algorithms for Audio Fingerprinting
Descoberta de Conhecimento:
Linguagem Orientada a Matrizes COB 727
Outras Transforações de Imagens
ÁRVORE DE FALHAS (Fault Tree Analysis – FTA)
Recuperação de Informação Distribuída por Fontes Autónomas com Sobreposição Joaquim Macedo Departamento de Informática Escola de Engenharia.
Técnicas Experimentais Aplicadas em Ciência do Solo
Autores: Jean Suellen Silva de Almeida Victor Hugo Cunha de Melo
Relato da discussão sobre disciplinas de laboratório para a Licenciatura – 29/5/2013 Objetivos Gerais: Compreender a importância da experimentação na construção.
Parte D Inversão de dados
Recuperação Inteligente de Informação Tarefa 1 Equipe.
1 Fundamentos de SIG. - Sistemas de Informação
CS276: Information Retrieval and Web Search
1ª. AULA PRÁTICA.
Tecnologias para Apresentação de Publicidade UMa | DME | 2009 Sistemas Multimédia Nuno Santos | Paulo Teixeira |
Carlos Oliveira Sumário Descrição e Objetivo O Método de Tsai Implementação Resultados obtidos Melhoramentos.
Análise Fatorial Factor analysis.
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Pequena revisão e alguns conselhos
Modelação Dinâmica António Câmara ADSA. Modelação dinâmica Desenvolvimento de modelos de simulação dinâmica Solução de equações diferenciais utilizando.
TÍTULO Área do trabalho
Instituto de Sistemas e Robótica - Instituto Superior Técnico
Analise de Texturas Dinâmicas Baseado nos trabalhos de Gianfranco Doretto e Stefano Soatto Autor : Igor Goulenko.
Regressão Linear.
Aula 14 Disciplina: Sistemas de Controle 1 - ET76H
Faculdade de Medicina da Universidade do Porto Introdução à Medicina Introdução à Medicina Regente da disciplina: Prof. Dr. Altamiro da Costa Pereira Orientador:
Seleção de atributos Mariana Pinheiro Bento IA368Q.
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Componentes Principais Camilo Daleles Rennó
© 2000 Paulo Adeodato Avaliação de Desempenho de Sistemas A Arte da Apresentação de Dados Paulo Adeodato Departamento de Informática Universidade Federal.
Best Combination of Binarization Methods for License Plate Character Segmentation (2013) - Resumo Vinicius Queiroz e Vinicius M. de Almeida.
Ricardo Ferreira Schiavo
Uma Introdução a SVM Support Vector Machines
Predição de interações proteína-proteína e domínio-domínio
Regressão e Previsão Numérica.
Análise de Dados. PROGRAMA Ano lectivo:2007/2008 Ano/semestre:3.º ano/1.º semestre Horas semanais:5 horas (2T/3P) Docente:Alexandre Pereira
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Aluno: Jorge Machado RI Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado.
1 Summarizing Text Documents: Sentence Selection and Evaluation Metrics Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
1 Fundamentos de SIG (2ª aula). - Sistemas de Informação
Classificação de Textos
Multicolinearidade.
Visualização da Informação
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Análise de Componentes Principais
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Métodos Estatísticos Aplicados às Ciências Biológicas - 11ª aula -
Testes de Hipóteses.
Sistemas de Controle III N8SC3
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
Texto e Linguagens Multimédia e Propriedades Bibliotecas Digitais Engenharia Biomédica Universidade do Minho Instructor: Joaquim Macedo Baseada em apresentações.
UNIVERSIDADE ESTADUAL DE CAMPINAS FACULDADE DE ENGENHARIA CIVIL, ARQUITETURA E URBANISMO PARÂMETROS DE RESISTÊNCIA CRITÉRIO TENSORIAL PARÂMETROS DE RESISTÊNCIA.
1 factor de impacto de revistas científicas 23 de Abril 2008 Biblioteca da UA.
Abordagem comparativa
Análise de Dados Espaciais: Baseadas na Localização Flávia F. Feitosa Disciplina BH1408 – Cartografia e Geoprocessamento para o Planejamento Territorial.
Transcrição da apresentação:

Indexação por Semântica Latente (Latent Semantic Indexing) Joaquim Macedo

Fontes Apresentação de Berthier Neto Outras apresentações disponíveis na Internet

Leituras Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman, "Indexing by latent semantic analysis". Journal of the American Society for Information Science, Volume 41, Issue 6, bin/issuetoc?ID= Livro Modern Information Retrieval Cap. 02: Modeling (Latent Semantic Indexing) 2.7.2, 2.7.3

Indexação por Semântica Latente A RI clássica pode conduzir a baixa eficácia na busca devido a –Documentos não relacionados podem ser incluídos no conjunto da resposta –Documentos relevantes que não contenham pelo menos um termo de índice da interrogação podem não ser devolvidos Raciocínio: Busca baseada em termos de índice é vaga e ruidosa.

Deficiências com indexação automática convencional Sinónimos: Várias palavras e frases referenciam o mesmo conceito (diminui a cobertura) Homógrafas: Palavras que têm mais que um significado (diminui a precisão) Independência: Não é dada importância ao facto de 2 termos aparecerem em conjunto frequentemente

Indexação por Semântica Latente Objectivo Substituir índices que usam conjunto de termos de índice por índices que usam conceitos. Abordagem Estabelecer uma correspondência entre o espaço vectorial dos índices por um espaço de menor dimensão, usando a decomposição em valores singulares

t1t1 t2t2 t3t3 d1d1 d2d2  O espaço tem tantas dimensões como os termos da lista de palavras Espaço vectorial dos termos de índice

PCA e SVD PCA ( Principle Component Analysis) –Análise em Componentes Principais SVD: Singular Value Decomposition –Decomposição em Valores Singulares Recursos –The Matrix Cookbook mm3274.pdfhttp:// mm3274.pdf

Análise em Componentes Principais (PCA) Exemplo: Projectar dados 2D num PC 1D Variabilidade dos dados pode ser descrito usando um menor número de dimensões –Funciona bem quando as facetas de entrada estão correlacionadas –As novas dimensões são não correlacionadas.

Análise Discriminante Linear Linear Discriminant Analysis (LDA) A análise por componentes principais não é necessariamente boa para discriminação na classificação. A Análise disciminante linear procura encontrar uma transformação linear que maximiza a variância entre classes e minimizar a variância interna das classes –i.e. discriminação das facetas

Análise Discriminante Linear Projectar um espaço 2D num 1 PC B A w. Não descriminante (from slides by Shaoqun Wu)

Análise Discriminante Linear B A w. B A w. PCA LDA: descobre uma discriminação linear

PCA e SVD Fazer a PCA é equivalente ao SVD nos dados Qualquer matriz X nxm pode ser descrita como: –X=T · S · V T –T é os vectores de valores próprios de X · X T (nxn) –S é a diag(eig(X · X T ) (nxm) –V é os vectores de valores próprios dr X T · X (mxm) n x m terms documents X

Exemplo de Documentos: Títulos c1Human machine interface for Lab ABC computer applications c2A survey of user opinion of computer system response time c3The EPS user interface management system c4System and human system engineering testing of EPS c5Relation of user-perceived response time to error measurement m1The generation of random, binary, unordered trees m2The intersection graph of paths in trees m3Graph minors IV: Widths of trees and well-quasi-ordering m4Graph minors: A survey

Exemplo : Termos e Documentos Terms Documents c1c2c3c4c5m1m2m3m4 human interface computer user system response time EPS survey trees graph minors

Dimensão das matrizes X= T0T0 D0'D0'S0S0 t x dt x mm x dm x m m é o rank de X < min(t, d)

Latent Semantic Indexing t x d terms documents X = t x m m x mm x d * D S T 0 00 Singular Value Decomposition t x dt x k k x k k x d = terms documents * X D S T Select first k singular values ^

T0T0

S0S0

D0D0

Rank Reduzido Os elementos da diagonal de S 0 são positivos e decrescem em magnitude. Considere apenas os k maiores e coloque os restantes a zero. Apague as colunas e as filas a zero de S 0 e as filas correspondentes de T 0 e D 0. Isto dá: X X = TSD' Interpretação Se o valor k for bem seleccionado, espera-se que X retenha a informação semântica de X, mas elemine o ruído de sinónomos, homografias e reconhece a dependência. ~ ~ ^ ^

Selecção de valores singulares X = t x dt x kk x dk x k k é o número de valores singulares escolhidos para representar os conceitos no conjunto de documentos Normalmente k « m. T SD' ^

SVD com os termos menores descartados TS define coordenadas para documentos no espaço latente

Termos Graficados em 2 dimensões

Documentos e Termos

Comparação de dois termos XX' = TSD'(TSD')' = TSD'DS'T' = TSS'T Uma vez que D é ortonormal = TS(TS)' Para calcular a posição i, j, calcule o produto interno entre a fila i e j de TS Uma vez que S é diagonal, TS difere apenas de T pela mudança do sistema de coordenadas. ^ ^ O produto interno de duas filas de X reflecte em que medida dois termos têm um padrão similar de ocurrências. ^

Comparação entre 2 documentos X'X = (TSD')'TSD' = DS(DS)' Para calcular a posição i, j, obtenha o produto interno entre as colunas i e j de DS. Uma vez que S é diagonal DS difere D apenas pela mudança d o sistema de coordenadas. ^ ^ O produto interno de duas colunas de X reflecte a medida em que dois documentos têm um padrão similar de ocurrências. ^

Comparação de um termo e um documento A comparação entre um termo e um documento duma célula individual de X. X = TSD' = TS(DS)' Onde S é uma matriz diagonal cujos valores são a raiz quadrada dos correspondentes valores de S. ^ - - -

Exemplo duma Memo técnica: Interrogação Terms Query x q human1 interface0 computer0 user0 system1 response0 time0 EPS0 survey0 trees1 graph0 minors0 Interrogação: "human system interactions on trees" No espaço termo-documento, uma interrogação é representada por x q, um vector t x 1. No espaço de conceitos, uma interrogação é representada por d q, um vector 1 x k.

Interrogação A forma sugerida de d q é : d q = x q 'TS -1 Exemplo de uso. Para comparar uma interrogação com um documento i, tome o elemento iésimo do produto de DS e d q S, que é iésimo elemento do produto de DS e x q 'T. Observe que d q é um vector coluna.

Interrogação Seja x q um vector de termos para a interrogação q. No espaço de dimensão reduzido, q, é representado pelo pseudo-documento, d q, no centroides de termos, com aapropriada mudança de escala dos eixos. d q = x q 'TS -1

Resultados Experimentais Deerwester, et al. ensaiaram o LSI em duas colecções de teste MED e CISI, com interrogações e julgamentos de relevância disponíveis. Documentos eram compostos por títulos e resumos. Listas de Stopwords de 439 palavras, sem stemming, etc. Comparação com: (a) unificação simples de termos, (b) SMART, (c) método de Voorhees.

Resultados Experimentais: 100 Factores

Resultados Experimentais: Nº de Factores

Conclusões O Latent semantic indexing fornece uma diferente conceptualização do problema da RI(IR) Permite a redução da complexidade do quadro de representação subjacente o que pode ser explorado por exemplo com o propósito de interface com o utilizador