An Industrial-Strength Audio Search Algorithm

Slides:

Advertisements

Apresentações semelhantes

Intervalos de Confiança

Advertisements

INTELIGÊNGIA COMPUTACIONAL

Operações envolvendo imagens

Análise de Resposta em Freqüência Introdução. 8. 2

10º CAPÍTULO Segmentação de imagem.

Software Básico Silvio Fernandes

Hash Extensivel Rápido acesso a dados com um custo mínimo de processamento (overhead cost).

1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.

Estatística Básica Utilizando o Excel

EFICIÊNCIA DE RADIAÇÃO

Grafos – Parte 1 Projeto e Análise de Algoritmos Aline Vasconcelos

Edward Cayllahua Sumarização de vídeo Edward Cayllahua

A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003.

Autor : Ewald Peizer Vienna University of Technology

A Review of Algorithms for Audio Fingerprinting

Acompanhamento de Cenas com Calibração Automática de Câmeras

CAPÍTULO 9 1. Estrutura de controle de um robô industrial

Funções de hash unidirecionais

Complexidade de Algoritmos

Fundamentação Teórica

Introdução à Automação Industrial

Intervalo de Confiança para a média da população

Marco Antonio Montebello Júnior

Estatística e Probabilidade

Nome: Rafael Baeta Orientador: Dr. David Menotti

TESTE DE HIPÓTESES PARA A MÉDIA POPULACIONAL 

Autores: Jean Suellen Silva de Almeida Victor Hugo Cunha de Melo

Arquitectura de Computadores II

Informática Teórica Engenharia da Computação

Aprendizado Baseado em Instâncias – Algoritmo k-NN

Avaliação da Viabilidade Econômico-Financeira em Projetos

Teste de Hipóteses de uma amostra Prof. Helcio Rocha

Aula 5. Teste de Hipóteses II.

Departamento de Electrónica, Telecomunicações e Informática

Algorítmos e estrutura de dados III

Passo 4: Definição do número de classes

Site: Estatística Prof. Edson Nemer Site:

Rodrigo de Carvalho.  Introdução ◦ Descrição do Problema  Algoritmos ◦ GRASP ◦ S.A ◦ AG  Planejamento Experimental ◦ Objetivo ◦ Instância e métricas.

Fernando Carvalho, João Manuel R. S. Tavares

Avaliação de Clusteres Parte II

Amostragem Pontos mais importantes:

Introdução e Busca Cega

Mineração da Web Recuperação de Informação

Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.

Aula Teórica 2 Difusividade e Fluxo Difusivo.

1 Contributos para uma Boa Apresentação Luis M. Correia Instituto Superior Técnico / INOV-INESC Universidade Técnica de Lisboa, Portugal (2001/06/22, revisto.

Análise Léxica.

SISTEMAS OPERACIONAIS I

Capítulo III – Processamento de Imagem

Estatística Aplicada Aula 8

Algoritmos de Chave Pública

Segmentação de Fundo Marcelo Gonella

Aluno: Rómulo Marlon Ramos Avalos Gil Santos, Edmundo Hoyle.

Tabela Hash Alunos : Gustavo Jorge Zanin nºUSP

Aula 14: Distribuição normal Prof. Diovani Milhorim

Professor Antonio Carlos Coelho

Digital Image Processing, 2nd ed. © 2002 R. C. Gonzalez & R. E. Woods 3 Representação da Imagem Digital O espectro eletromagnético.

Análise e Processamento de sinais fisiológicos

Exercícios de Fluxo em Redes

Analise de Algoritmos e Notação Assintótica

Algoritmo e Estrutura de Dados I Introdução ao conceito de algoritmo Márcia Marra

Alinhamento Global de Seqüências Katia Guimarães.

Técnicas Algorítmicas em Processamento de Imagens

1 Reunião do Grupo de Estudos do Serviço de Informática do InCor Artigo-base: Nonparametric Snakes (Umut Ozertem e Deniz Erdogmus) 28 de março de 2008.

Estimação: Estimativa Pontual Estimativa Intervalar

Fundamentos de Redes de Computadores

Professor: Gerson Leiria Nunes.  Correlação de sinais  Correlação cruzada  Exemplo correlação  Autocorrelação  Propriedades da correlação  Exemplo.

Comportamento Assintótico

INTERVALO DE CONFIANÇA PARA A MEDIA POPULACIONAL (σ 2 desconhecido ) Sabemos que se o tamanho da amostra for superior a 30 a distribuição amostral das.

Capítulo 8 Gráficos de controle para variáveis mensuráveis

Transcrição da apresentação:

An Industrial-Strength Audio Search Algorithm ISMIR – A1 Shazam Entertainment,Ltd. Avery Li-Chun Wang 2001

Súmário Introdução Princípios Básicos de Operação Robust Constellations Fast Combinatorial Hashing Searching Resultados

Introdução Shazam é uma empresa baseada na identificação de música através do celular. A empresa foi fundada em 1999, por Chris Barton, Inghelbrecht Philip, Wang Avery e Mukherjee Dhiraj. Ate setembro de 2012, Shazam teve um faturamente de US $ 32 milhões.

Introdução O algoritmo consegue fazer o reconhecimento mesmo com ruído pesado ao fundo. (Um bar por exemplo). O algoritmo reconhece rapidamente uma música mesmo contra uma grande base de dados.

Princípios Básicos de Operação Cada arquivo de áudio é convertido em um FingerPrint. As impressões digitais da amostra desconhecida de áudio são correspondidas contra um grande número de FingerPrints armazenados no banco. Os candidatos correspondentes são posteriormente avaliados. Existem 3 componentes principais que serão apresentados a seguir.

Robust Constellations Picos no espectograma são robustos na presença de rúido. Um time-frequency point é um pico candidato se tiver um alto grau de energia do que todos os seus vizinhos. Picos com amplitude mais elevada tem mais probabilidade de sobreviver a distorções. Mapa de constelações são uma importante forma de matching na presença de ruído.

Robust Constellations

Fast Combinatorial Hash Combinatorial Hashs são usadas para mapear o Mapa de Constelações. Cada pico de 1024hz por exemplo produz 10 bits de dados. Foi desenvolvido um modo rápido para indexar Mapas de Constelação utilizando pares de pontos combinatorialmente associados. Pontos ancoras são escolhidos e cada um possuindo uma zona de destino associada a ele.

Fast Combinatorial Hash

Fast Combinatorial Hash A operação acima é executada em cada faixa do banco de dados e associado um ID ao fingerprint correspondente. O número de hashes geradas por um mapa de constelações é igual a sua densidade x fan-out. O tamanho do fan-out leva diretamente a um fator de custo em armazenamento.

Fast Combinatorial Hash Ao formar pares em vez de tentar fazer o casamento com picos individuais ganhamos uma enorme aceleração no tempo de pesquisa. Hash-token de picos associados combinatoriamente geram uma especificidade de cerca de 1 milhão de vezes maior do que de Hash-tokens de picos solitários. Consequentemente a busca é acelerada. Por outro lado Hashs combinatórias precisam de mais espaço de armazenamento ( Constelation Map size x fan-out ) . Trade OFF.

Searching Para realizar uma pesquisa o processo de Fingerprint descrito acima é executado em uma amostra desconhecida de áudio para gerar um conjunto de hash-tokens. Cada hash-token é usado para pesquisar no banco de dados para fazer o matching de hashes. Para cada matching os tempos correspondentes ( offset times ) na amostra e da base de dados são associados ( time-pairs ).

Searching Depois de todos os hashes de amostra do audio desconhecido serem usados na pesquisa do BD , os bins representativos dos matches são “scaneados”. É feito um gráfico de disperção da associação entre a amostra do audio e os arquivos da base de dados.

Searching O problema de decidir se uma música foi encontrada esta na detecção de um conjunto significativo de pontos que formam uma linha diagonal no interior da disperção.

Searching Várias técnicas podem ser usadas para realizar a detecção por exemplo uma transformada de Hough. A seguinte técnica resolve o problema em aproximadamente - n * log (n). tk’ = coordenada do tempo do matching no database. tk = coordenada do tempo no som de amostra.

Searching Para cada ( tk’, tk ) coordenadas no diagrama de disperção, calculamos: δtk = tk’ – tk Então é calculado um histograma dos valores de δtk. Uma música foi encontrada quando o número de matching points em um pico no histograma é alto.

Searching

Searching A presença de um associamento estatisticamente significativo indica um match, ou seja a música foi encontrada.

Resultados Como descrito acima, o resultado é simplesmente o número de matching e de hash-tokens alinhados no tempo. A distribuição de scores de falsos matchings é de interesse na determinação de falsos positivos ( um histograma de escores de faixas incorretamente correspondida é calculada).

Resultados 250 amostras de áudio com diferentes níveis de rúido. Database – 10.000 músicas populares

Resultados Mais rúido. Compressão GSM

Referências [1] Avery Li-Chun Wang and Julius O. Smith, III., WIPO publication WO 02/11123A2, 7 February 2002,(Priority 31 July 2000). [2] Jaap Haitsma, Antonius Kalker, Constant Baggen, and Job Oostveen., WIPO publication WO 02/065782A1, 22 August 2002, (Priority 12 February, 2001). [3] Jaap Haitsma, Antonius Kalker, “A Highly RobustAudio Fingerprinting System”, InternationalSymposium on Music Information Retrieval (ISMIR) 2002, pp. 107-115. [4] Cheng Yang, “MACS: Music Audio Characteristic Sequence Indexing For Similarity Retrieval”, in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2001.