A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003.

Apresentações semelhantes


Apresentação em tema: "A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003."— Transcrição da apresentação:

1 A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003

2 Introdução O AudioFingerPrint é uma assinatura gerada do conteúdo do sinal do áudio. Pode ser utilizado para identificar um som desconhecido rapidamente em uma base de músicas ( idependente do formato do áudio )

3 Introdução Neste trabalho avaliamos diferentes técnicas e modelos de Fingerprint. Quando apresentado um audio desconhecido sua FingerPrint é calculada e comparada ( matching) com FingerPrints armazenadas em um Banco de Dados. Usando bons algoritmos de matching até mesmo áudio com ruídos podem ser identificados.

4 Desafio A grande dificuldade de identificar o audio automaticamente : 1 - Seu conteudo deriva de uma elevada dimensionalidade. 2 - Existe uma variancia significativa dos dados de audio para uma música similar.

5 Pré - Requisitos O sistema deve ser equivalente ao reconhecimento humando de uma determinada música. Pequenos trechos arbitrários de uma música, devem ser suficientes para o reconhecimento. Deve ser robusto o suficiente contra ruídos, gravação de má qualidade, low bit-rate,etc.

6 Feature Extraction Extração de features é uma etapa fundamental que influencia diretamente no desempenho geral do sistema. A configuração atual do audio é segmentado em janelas, onde cada janela é mapeada em uma representação espectral.

7 Training Os vetores de features são normalizados. Utiliza-se um classificador linear que se baseia em uma representação compacta dos vetores de training. A classificação é realizada usando um padrão NN ( Nearest Neighbor ).

8 Training VQ ( Vector Quantizantion ) K – means RMSE ( Root Mean Square Error) Code Vector ( FingerPrint) Code Book

9 Matching Para cada música um codebook é gerado e associado a um metadado :. Nome da Música. Artista. Genero Para identificar um audio desconhecido, uma sequencia de vetores é gerado a partir da amostra deste audio e depois comparado ( aproximado ) a cada codebook da base de músicas.

10 Arquitetura do Sistema

11 Requisitos de Robustez Cropping Audio Encoding Change volume Noise LoudSpeaker - Microfone

12 Requisitos Computacionais Fingerprint é rápido. Tarefa de matching é custosa dependendo do algoritmo de casamento, do tamanho da base e tamanho do fingerprint.

13 Avaliação Um fator determinante no desempenho do sistema é a escolha de boas features.. LoudNess. SFM – ótima para discriminar diferentes sinais de áudio.

14 Avaliação

15

16 Aplicações Monitoramento de rádio. Identificação de uma música e linking ao metadado.

17 Conclusões Claramente ainda há um longo caminho para que o sistema seja tão eficaz em reconhecer determinada música comparado ao ouvido humano. No entanto o atual nível de desempenho ja abre portas para um número interessante de aplicações.

18 Referências K. El-Maleh, M. Klein, G. Petrucci, and P. Kabal. Speech music discrimination for multimedia applications. In ICASSP, vol. IV, pages , E. Wold, T. Blum, D. Keislar, and J. Wheaton. Contentbased classification, search, and retrieval of audio. In IEEE Multimedia, vol. 3, pages 27-36, A. K. Jain, R. P. W. Duin, and J. Mao. Statistical Pattern Recognition: A Review. IEEE Transaction in Pattern Analysis and Machine Intelligence, 2(1), E. Zwicker, and H. Fastl. Psychoacoustics. Springer, Berlin, 2nd edition, N. Jayant, and P. Noll. Digital Coding of Waveforms.Prentice-Hall, Englewood Cliffs, NJ, 1984.


Carregar ppt "A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP – International WorkShop on Multimedia Signal Processing 2003."

Apresentações semelhantes


Anúncios Google