A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003.

Slides:

Advertisements

Apresentações semelhantes

Prof. André Laurindo Maitelli DCA-UFRN

Advertisements

Sistemas de Localização baseados em

Recuperação de Imagens

Aprendizado de Máquina

Redes de Hopfield Redes Neurais COPIN

Michele Mengucci CVRM-Centro de Geo-Sistemas IST Lisboa

Como verificar se seu registro (ou processamento) ficou bom

Edward Cayllahua Sumarização de vídeo Edward Cayllahua

Mel Frequency Cepstral Coefficients for Music Modeling

An Industrial-Strength Audio Search Algorithm

Autor : Ewald Peizer Vienna University of Technology

Sumarização Automática de Vídeos

Reconhecimento de Padrões Combinando Classificadores

Reconhecimento de Padrões Dissimilaridade

A Review of Algorithms for Audio Fingerprinting

Iana Alexandra Alves Rufino

Avaliação de Desempenho Planejamento de Experimentos 2 Aula 2 Marcos José Santana Regina Helena Carlucci Santana Universidade de São Paulo Instituto de.

Junções Adaptativas em consultas Federadas sobre Linked Data

Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

Hardware/Software para Multimédia

Introdução à Multimídia

Trabalho de Graduação (TG)

Nome: Rafael Baeta Orientador: Dr. David Menotti

Grupo de Realidade Virtual e Aumentada - UFU

Aprendizagem de Máquina - Agrupamento

Aprendizado Baseado em Instâncias – Algoritmo k-NN

Reconhecimento de Expressões Faciais em Imagens

II Workshop de Dissertação Pós-Graduação em Ciência da Computação Faculdade de Computação – FACOM Universidade Federal de Uberlândia – UFU Dezembro/2008.

Fundamentos de Análise de Sinais

Combined Regression and Ranking

Departamento de Electrónica, Telecomunicações e Informática

Journal New Research Music – 2012 Citado por 3 artigos Alex Amorim Dutra Jason Weston, Samy Bengio, and Philippe Hamel Google, USA.

A Hybrid Method for Robust Car Plate Character Recognition.

Carlos Oberdan Rolim Ciência da Computação

Momentos de Hu e Zernike para o Reconhecimento de Linguagem de Sinais

Uso de Sistemas Imunológicos Artificiais para Detecção de Falhas em Plantas da Indústria de Petróleo. Aluno: Alexandre Willig Quintino dos Santos Orientador:

Análise da Diferença do tempo de sopro de homens e mulheres Aluno: Jim Jones da Silveira Marciano Disciplina: Planejamento e Análise de Experimentos Professor:

Raquel Ramos Pinho, João Manuel R. S. Tavares, Miguel Velhote Correia

Fotografia automática

Desenvolvimento de um Controle Reconfigurável para Sistemas de Tempo Real Crítico Sistema para aplicações em Mecatrônica e Automobilística.

Reconstrução Tridimensional usando IPP Trabalho final do curso de Visão Computacional DCC / UFMG Apresentação: Antônio Wilson Vieira.

Classificação de imagens de fotografias históricas usando detecção de linhas e paralelogramos pela presença de edifícios Natália Cosse Batista Grupo 8.

Seleção de Atributos Ricardo Prudêncio.

Support Vector Machine - SVM

Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.

Recuperação de música baseada em conteúdo { jabca, mpl, mta

Reconhecimento e Verificação de Assinaturas

SVMSharp – Uma implementação didática de uma SVM

Apresentação do Artigo: Gradient Field Descriptor for Sketch Based Retrieval and Localization RUI HU, MARK BARNARD AND JOHN COLLOMOSSE CENTRE FOR VISION,

Relator: Leandro Augusto da Silva Contestador: Ramon Alfredo Moreno São Paulo, 14 de Março, de 2008.

Filtragem Colaborativa

TEMPLATE DESIGN © RECONHECIMENTO DE ÍRIS USANDO FILTRO DE CORRELAÇÃO Volnei da Silva Klehm 1, Waldir S. S. Júnior 1,2.

Aluno: Rómulo Marlon Ramos Avalos Gil Santos, Edmundo Hoyle.

A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.

Lame Lame Ain't an MP3 Encoder Luiz Carlos d´Oleron – lcadb at cin.ufpe.br André Ricardo - arss at cin.ufpe.br Aluísio Rodrigo – arfs at cin.ufpe.br.

22/4/20151 / Query By Humming. Ana Alves (apba) Bruno Ribeiro (brcr) Francisco Neto (ffsn) Garsielle Valença (gval) Query by Humming (QBH)

Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Processamento Digital de Sinais Universidade de Brasília Faculdade de Tecnologia Departamento de Engenharia Elétrica Prof. Francisco Assis de O. Nascimento.

Categorização de Documentos Mariana Lara Neves CIn/UFPE.

A música e a voz A música e a voz © 2001 Wilson de Pádua Paula Filho.

Reconhecimento Facial usando SVM

Disciplina Engenharia da Qualidade II

Rogério Ishibashi Orientador: Cairo L. Nascimento Jr.

Guido Stolfi 1 / 46 Compressão de Áudio MPEG AAC Guido Stolfi Mackenzie 2008.

Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.

SIM 15/16 – T7 Processamento de Sinal e Imagem Médica Miguel Tavares Coimbra.

Compressão de Imagens Binárias usando Codificação de Vizinhança

Transcrição da apresentação:

A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003

Introdução O AudioFingerPrint é uma assinatura gerada do conteúdo do sinal do áudio. Pode ser utilizado para identificar um som desconhecido rapidamente em uma base de músicas ( idependente do formato do áudio )

Introdução Neste trabalho avaliamos diferentes técnicas e modelos de Fingerprint. Quando apresentado um audio desconhecido sua FingerPrint é calculada e comparada ( matching) com FingerPrints armazenadas em um Banco de Dados. Usando bons algoritmos de matching até mesmo áudio com ruídos podem ser identificados.

Desafio A grande dificuldade de identificar o audio automaticamente : 1 - Seu conteudo deriva de uma elevada dimensionalidade. 2 - Existe uma variancia significativa dos dados de audio para uma música similar.

Pré - Requisitos O sistema deve ser equivalente ao reconhecimento humando de uma determinada música. Pequenos trechos arbitrários de uma música, devem ser suficientes para o reconhecimento. Deve ser robusto o suficiente contra ruídos, gravação de má qualidade, low bit-rate,etc.

Feature Extraction Extração de features é uma etapa fundamental que influencia diretamente no desempenho geral do sistema. A configuração atual do audio é segmentado em janelas, onde cada janela é mapeada em uma representação espectral.

Training Os vetores de features são normalizados. Utiliza-se um classificador linear que se baseia em uma representação compacta dos vetores de training. A classificação é realizada usando um padrão NN ( Nearest Neighbor ).

Training VQ ( Vector Quantizantion ) K – means RMSE ( Root Mean Square Error) Code Vector ( FingerPrint) Code Book

Matching Para cada música um codebook é gerado e associado a um metadado :. Nome da Música. Artista. Genero Para identificar um audio desconhecido, uma sequencia de vetores é gerado a partir da amostra deste audio e depois comparado ( aproximado ) a cada codebook da base de músicas.

Arquitetura do Sistema

Requisitos de Robustez Cropping Audio Encoding Change volume Noise LoudSpeaker - Microfone

Requisitos Computacionais Fingerprint é rápido. Tarefa de matching é custosa dependendo do algoritmo de casamento, do tamanho da base e tamanho do fingerprint.

Avaliação Um fator determinante no desempenho do sistema é a escolha de boas features.. LoudNess. SFM – ótima para discriminar diferentes sinais de áudio.

Avaliação

Aplicações Monitoramento de rádio. Identificação de uma música e linking ao metadado.

Conclusões Claramente ainda há um longo caminho para que o sistema seja tão eficaz em reconhecer determinada música comparado ao ouvido humano. No entanto o atual nível de desempenho ja abre portas para um número interessante de aplicações.

Referências K. El-Maleh, M. Klein, G. Petrucci, and P. Kabal. Speech music discrimination for multimedia applications. In ICASSP, vol. IV, pages , E. Wold, T. Blum, D. Keislar, and J. Wheaton. Contentbased classification, search, and retrieval of audio. In IEEE Multimedia, vol. 3, pages 27-36, A. K. Jain, R. P. W. Duin, and J. Mao. Statistical Pattern Recognition: A Review. IEEE Transaction in Pattern Analysis and Machine Intelligence, 2(1), E. Zwicker, and H. Fastl. Psychoacoustics. Springer, Berlin, 2nd edition, N. Jayant, and P. Noll. Digital Coding of Waveforms.Prentice-Hall, Englewood Cliffs, NJ, 1984.