Transformação para o Espaço Latente Paulo Sérgio Rodrigues PEL205
Matriz Ortogonal
Norma p de um Vetor Por exemplo, a normas p usuais são:
Matriz Simétrica e Positiva Definida
Valor Singular
Espaço Semântico Latente [Deewesteer, 1990] diz que: “A indexação no espaço latente (LSI) tenta resolver problemas de casamento lexicográfico usando índices conceituais derivados estatisticamente ao invés de usar palavras diretamente”. A LSI assume que existe alguma informação escondida (Estrutura Latente das Palavras) que é parcialmente obscurecida devido a variabilidade das escolhas das palavras”.
Espaço Semântico Latente Uma vez que tanto textos quanto imagens podem ser interpretadas como espaços vetoriais, as idéias do LSI de que existe informação escondida e essa informação é essencial para caracterização de padrões, podem ser levadas para a interpretação de cenas Por que trabalhar no espaço latente quando se procura padrões tanto textuais quanto visuais? Existe uma série de problemas em casamento de padrões que incluem pelo menos ...
Espaço Semântico Latente Sinônimos: palavras diferentes com o mesmo significado Exemplo: avaro-avarento, léxico-vocabulário, falecer-morrer, etc.. Tais palavras possuem baixa similaridade no espaço vetorial euclidiano. Imagens diferentes podem ter o mesmo significado:
Espaço Semântico Latente Polissemia: Uma única palavra pode ter múltiplos significados Dependendo do contexto, o que leva a uma precisão pobre em casamento de padrões textuais. Ex: vários significados do verbo ter
Espaço Semântico Latente Polissemia: Uma única imagem, dependendo do contexto, pode ter vários significados, o que pode levar a uma pobre precisão em classificação.
Espaço Semântico Latente Alta dimensionalidade: Tanto o espaço vetorial dos textos, quanto das imagens, possuem geralmente uma alta dimensionalidade, gerando dificuldades de gerenciamento e escondendo informações latentes.
Decomposição do Valor Singular
Decomposição do Valor Singular Então, Ak é uma aproximação ótima de A considerando que:
Decomposição do Valor Singular Interpretação Visual do SVD =
Decomposição do Valor Singular Conclusão 1: O teorema de de Eckart-Young, garante que Ak, a matriz truncada de A, é a matriz de rank k mais próxima de A de acordo com as normas de Forbenius e norma 2 Conclusão 2: A decomposição em valores singulares de um espaço vetorial, pode separar informações latentes escondidas. Revelar essas informações pode ser uma maneira de representar esse espaço Em sua essência semântica. Isso vale para textos, imagens, sons, vídeos, etc..
Decomposição do Valor Singular Exemplo numérico no Matlab A = 0.95 0.49 0.46 0.44 0.23 0.89 0.02 0.62 0.61 0.76 0.82 0.79 [U,S,V] = svd(A)
Decomposição do Valor Singular Exemplo numérico no Matlab U = -0.55 0.54 -0.64 -0.45 -0.84 -0.31 -0.70 0.11 0.70 S = 2.10 0 0 0 0 0.67 0 0 0 0 0.39 0 V = -0.50 0.58 -0.64 0.05 -0.57 -0.59 -0.13 -0.55 -0.40 0.48 0.73 -0.28 -0.51 -0.28 0.21 0.78 Verifica-se que A = U*S*V’
Decomposição do Valor Singular Exemplo com uma imagem Imagem Original Valores Singulares
Decomposição do Valor Singular Exemplo com uma imagem Imagem reconstruída com apenas 10% dos Valores Singulares 10% dos Valores Singulares
Referências Bibliográficasa de SVD e LSI 1. S. T. Dumais, G. W. Furnas, T. K. Landauer, and S. Deerwester (1988), Using latent semantic analysis to improve information retrieval. In Proceedings of CHI’88: Conference on Human Factors in Computing, New York: ACM, 281-285. 2. S. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman (1990), Indexing by latent semantic analysis. Journal of the Society for Information Science, 41(6), 391-407. 3. P. W. Foltz (1990), Using Latent Semantic Indexing for Information Filtering. In R. B. Allen (Ed.) Proceedings of the Conference on Office Information Systems, Cambridge, MA, 40-47. 4. J. S. Yu, Z. H. Jin, and Z. S. Wen (2003), Automatic Detection of Collocation. Report at the seminar of Statistical Machine Learning, Peking University, http://icl.pku.edu.cn/yujs