A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003.

Slides:



Advertisements
Apresentações semelhantes
Prof. André Laurindo Maitelli DCA-UFRN
Advertisements

Sistemas de Localização baseados em
Recuperação de Imagens
Aprendizado de Máquina
Redes de Hopfield Redes Neurais COPIN
Michele Mengucci CVRM-Centro de Geo-Sistemas IST Lisboa
Como verificar se seu registro (ou processamento) ficou bom
Edward Cayllahua Sumarização de vídeo Edward Cayllahua
Mel Frequency Cepstral Coefficients for Music Modeling
An Industrial-Strength Audio Search Algorithm
Autor : Ewald Peizer Vienna University of Technology 
Sumarização Automática de Vídeos
Reconhecimento de Padrões Combinando Classificadores
Reconhecimento de Padrões Dissimilaridade
A Review of Algorithms for Audio Fingerprinting
Iana Alexandra Alves Rufino
Avaliação de Desempenho Planejamento de Experimentos 2 Aula 2 Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de.
Junções Adaptativas em consultas Federadas sobre Linked Data
Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Hardware/Software para Multimédia
Introdução à Multimídia
Trabalho de Graduação (TG)
Nome: Rafael Baeta Orientador: Dr. David Menotti
Grupo de Realidade Virtual e Aumentada - UFU
Aprendizagem de Máquina - Agrupamento
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Reconhecimento de Expressões Faciais em Imagens
II Workshop de Dissertação Pós-Graduação em Ciência da Computação Faculdade de Computação – FACOM Universidade Federal de Uberlândia – UFU Dezembro/2008.
Fundamentos de Análise de Sinais
Combined Regression and Ranking
Departamento de Electrónica, Telecomunicações e Informática
Journal New Research Music – 2012 Citado por 3 artigos Alex Amorim Dutra Jason Weston, Samy Bengio, and Philippe Hamel Google, USA.
A Hybrid Method for Robust Car Plate Character Recognition.
Carlos Oberdan Rolim Ciência da Computação
Momentos de Hu e Zernike para o Reconhecimento de Linguagem de Sinais
Uso de Sistemas Imunológicos Artificiais para Detecção de Falhas em Plantas da Indústria de Petróleo. Aluno: Alexandre Willig Quintino dos Santos Orientador:
Análise da Diferença do tempo de sopro de homens e mulheres Aluno: Jim Jones da Silveira Marciano Disciplina: Planejamento e Análise de Experimentos Professor:
Raquel Ramos Pinho, João Manuel R. S. Tavares, Miguel Velhote Correia
Fotografia automática
Desenvolvimento de um Controle Reconfigurável para Sistemas de Tempo Real Crítico Sistema para aplicações em Mecatrônica e Automobilística.
Reconstrução Tridimensional usando IPP Trabalho final do curso de Visão Computacional DCC / UFMG Apresentação: Antônio Wilson Vieira.
Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.
Seleção de Atributos Ricardo Prudêncio.
Support Vector Machine - SVM
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Recuperação de música baseada em conteúdo { jabca, mpl, mta
Reconhecimento e Verificação de Assinaturas
SVMSharp – Uma implementação didática de uma SVM
Apresentação do Artigo: Gradient Field Descriptor for Sketch Based Retrieval and Localization RUI HU, MARK BARNARD AND JOHN COLLOMOSSE CENTRE FOR VISION,
Relator: Leandro Augusto da Silva Contestador: Ramon Alfredo Moreno São Paulo, 14 de Março, de 2008.
Filtragem Colaborativa
TEMPLATE DESIGN © RECONHECIMENTO DE ÍRIS USANDO FILTRO DE CORRELAÇÃO Volnei da Silva Klehm 1, Waldir S. S. Júnior 1,2.
Aluno: Rómulo Marlon Ramos Avalos Gil Santos, Edmundo Hoyle.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Lame Lame Ain't an MP3 Encoder Luiz Carlos d´Oleron – lcadb at cin.ufpe.br André Ricardo - arss at cin.ufpe.br Aluísio Rodrigo – arfs at cin.ufpe.br.
22/4/20151 / Query By Humming. Ana Alves (apba) Bruno Ribeiro (brcr) Francisco Neto (ffsn) Garsielle Valença (gval) Query by Humming (QBH)
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Processamento Digital de Sinais Universidade de Brasília Faculdade de Tecnologia Departamento de Engenharia Elétrica Prof. Francisco Assis de O. Nascimento.
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
A música e a voz A música e a voz © 2001 Wilson de Pádua Paula Filho.
Reconhecimento Facial usando SVM
Disciplina Engenharia da Qualidade II
Rogério Ishibashi Orientador: Cairo L. Nascimento Jr.
Guido Stolfi 1 / 46 Compressão de Áudio MPEG AAC Guido Stolfi Mackenzie 2008.
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
SIM 15/16 – T7 Processamento de Sinal e Imagem Médica Miguel Tavares Coimbra.
Compressão de Imagens Binárias usando Codificação de Vizinhança
Transcrição da apresentação:

A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003

Introdução O AudioFingerPrint é uma assinatura gerada do conteúdo do sinal do áudio. Pode ser utilizado para identificar um som desconhecido rapidamente em uma base de músicas ( idependente do formato do áudio )

Introdução Neste trabalho avaliamos diferentes técnicas e modelos de Fingerprint. Quando apresentado um audio desconhecido sua FingerPrint é calculada e comparada ( matching) com FingerPrints armazenadas em um Banco de Dados. Usando bons algoritmos de matching até mesmo áudio com ruídos podem ser identificados.

Desafio A grande dificuldade de identificar o audio automaticamente : 1 - Seu conteudo deriva de uma elevada dimensionalidade. 2 - Existe uma variancia significativa dos dados de audio para uma música similar.

Pré - Requisitos O sistema deve ser equivalente ao reconhecimento humando de uma determinada música. Pequenos trechos arbitrários de uma música, devem ser suficientes para o reconhecimento. Deve ser robusto o suficiente contra ruídos, gravação de má qualidade, low bit-rate,etc.

Feature Extraction Extração de features é uma etapa fundamental que influencia diretamente no desempenho geral do sistema. A configuração atual do audio é segmentado em janelas, onde cada janela é mapeada em uma representação espectral.

Training Os vetores de features são normalizados. Utiliza-se um classificador linear que se baseia em uma representação compacta dos vetores de training. A classificação é realizada usando um padrão NN ( Nearest Neighbor ).

Training VQ ( Vector Quantizantion ) K – means RMSE ( Root Mean Square Error) Code Vector ( FingerPrint) Code Book

Matching Para cada música um codebook é gerado e associado a um metadado :. Nome da Música. Artista. Genero Para identificar um audio desconhecido, uma sequencia de vetores é gerado a partir da amostra deste audio e depois comparado ( aproximado ) a cada codebook da base de músicas.

Arquitetura do Sistema

Requisitos de Robustez Cropping Audio Encoding Change volume Noise LoudSpeaker - Microfone

Requisitos Computacionais Fingerprint é rápido. Tarefa de matching é custosa dependendo do algoritmo de casamento, do tamanho da base e tamanho do fingerprint.

Avaliação Um fator determinante no desempenho do sistema é a escolha de boas features.. LoudNess. SFM – ótima para discriminar diferentes sinais de áudio.

Avaliação

Aplicações Monitoramento de rádio. Identificação de uma música e linking ao metadado.

Conclusões Claramente ainda há um longo caminho para que o sistema seja tão eficaz em reconhecer determinada música comparado ao ouvido humano. No entanto o atual nível de desempenho ja abre portas para um número interessante de aplicações.

Referências K. El-Maleh, M. Klein, G. Petrucci, and P. Kabal. Speech music discrimination for multimedia applications. In ICASSP, vol. IV, pages , E. Wold, T. Blum, D. Keislar, and J. Wheaton. Contentbased classification, search, and retrieval of audio. In IEEE Multimedia, vol. 3, pages 27-36, A. K. Jain, R. P. W. Duin, and J. Mao. Statistical Pattern Recognition: A Review. IEEE Transaction in Pattern Analysis and Machine Intelligence, 2(1), E. Zwicker, and H. Fastl. Psychoacoustics. Springer, Berlin, 2nd edition, N. Jayant, and P. Noll. Digital Coding of Waveforms.Prentice-Hall, Englewood Cliffs, NJ, 1984.