Compressão de áudio Márcio Dahia e Geber Ramalho

Slides:



Advertisements
Apresentações semelhantes
Representação da Informação como padrões de bits
Advertisements

O Áudio (Parte IV) Prof. AMOUSSOU DOROTHÉE
Aula 3 – Transmissão Digital
Programação em Java Prof. Maurício Braga
Conceitos de Programação Paralela
Algoritmo para codificação em bitrate constante Vinicius Kursancew.
A técnica de transmissão OFDM
Técnicas de Modulação Todas as técnicas de modulação envolvem o deslocamento do sinal original, doravante denominado sinal modulador ou modulante, de sua.
O Vídeo (Parte II) Prof. AMOUSSOU DOROTHÉE
O Áudio (Parte I) Prof. AMOUSSOU DOROTHÉE
Tecnologia Hipermídia e Multimídia Prof. Rudson Faculdade de Excelência Educacional do Rio Grande do Norte CURSO DE GRADUAÇÃO TECNOLÓGICA.
Especificações de Filtros
Diagramas de Blocos e Graphos
Sinais e Sistemas – Capítulo 4
Compressão de Dados ORI Ednaldo Pizzolato.
Universidade Federal de São Carlos Programa de Pós-Graduação Estruturas de Aplicações Distribuídas e Multimídia MPEG Jessica Zorzatto.
Wesley Barbosa Thereza
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
MULTIMÍDIA Mídias Discretas e Contínuas (Slide - 3)
Conversão Analógica/Digital PCM
Prof. Eduardo Leivas Bastos
1 M P 3 Paulo Centoducatte Guido Araújo Rodolfo Azevedo Rafael Espíndula Valdiney Pimenta Blablabla.... Daniel Feber.
10. Análise de Fourier usando DFT
Imagem Digital Conceitos, Processamento e Análise
Imagem Digital Conceitos, Processamento e Análise 1.Imagem e funções 2.Imagem digital: amostragem, quantização e codificação 3.Re-amostragem de funções.
Trabalho Final da Cadeira de Sistemas Embarcados
Rejane Sobrino Pinheiro Tania Guillén de Torres
Capítulo 7 Multimídia 7.1 Introdução à multimídia
Formato de arquivo de Vídeo
MODULAÇÃO Conceito de Modulação
Filtragem Espacial É baseado na aplicação de máscaras na imagem.
Filtro Linear-Máscaras
Processamento Tempo-Freqüência de Sinais Auditivos
Capítulo IV – Processamento de Imagem e Vídeo
Aquisição e reprodução de som
Unidade de Vídeo Escola Secundária Diogo de Macedo Curso Tecnológico de Informática Aplicações Informáticas A Prof.: Henrique Ribeiro Paulo Cruz 11ºD nº2.
Compressão de Imagens em Movimento
Defesa de Mestrado Bruno Zatt Sergio Bampi Orientador
Processamento Digital de Imagens
Fundamentos de Análise de Sinais
Fundamentos de Telecomunicações
Compressão de Áudio Digital
Aplicações dos Bancos de Filtros
Departamento de Electrónica, Telecomunicações e Informática
Teoria da Informação Profa. Lillian Alvares
Prof. Marcelo de Oliveira Rosa
Compressão de áudio Márcio Dahia e Geber Ramalho
Guilherme Defreitas Juraszek
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Trabalho Realizado por: - João Chapouto nº8 11º12
SISTEMAS OPERACIONAIS I
Renato Marcelino – rmo Taíse Dias – tds2
Protocolo MODBUS [ Slide de Abertura com a presença de outras logomarcas ] A segunda opção é a mais apropriada para a presença de mais de duas marcas.
Lame Lame Ain't an MP3 Encoder Luiz Carlos d´Oleron – lcadb at cin.ufpe.br André Ricardo - arss at cin.ufpe.br Aluísio Rodrigo – arfs at cin.ufpe.br.
AFINAL QUANTOS MPS EXITEM?
Aquisição e reprodução de som
Conceitos de vídeo Bruna gomes nº2 Turma 9ºD voc. Multimedia.
Faculdade de Engenharia da Universidade do Porto Licenciatura em Engenharia Electrotécnica e de Computadores Ramo de Telecomunicações, Electrónica e Computadores.
MELHORANDO O PROCESSO DE DOWNLOAD DE ÁUDIO EM REDES DE COMPARTILHAMENTO DE ARQUIVOS Aluno: Márcio Leal de Melo Dahia Orientador: Geber Lisboa Ramalho.
O áudio.
A música e a voz A música e a voz © 2001 Wilson de Pádua Paula Filho.
TV DIGITAL Paulo Ernesto Moreira 18/04/2017.
Guido Stolfi 1 / 46 Compressão de Áudio MPEG AAC Guido Stolfi Mackenzie 2008.
Áudio/Música na Internet
PSI2653: Meios Eletrônicos Interativos I I – Informação Digital Escola Politécnica da USP Engenharia de Sistemas Eletrônicos Meios Eletrônicos Interativos.
Filtragem de Imagens CONCI, A. AZEVEDO, E. e LETA, F
Técnicas Algorítmicas em Processamento de Imagens
Alocação Ótima de Bits Alan Dantas de Medeiros Endalécio Diego Berg Brum Nilson Carvalho Silva Junior Victor Pereira da Costa Vitor Borges Coutinho da.
Capítulo 14 Camada 6 A Camada de Apresentação. Sumário A Camada de Apresentação.
1 Processamento de Sinais CDESC Rodolfo Araujo Victor RH/UP/ECTEP Aula 1 03/11/2010.
Transcrição da apresentação:

Compressão de áudio Márcio Dahia e Geber Ramalho

O que é compressão de dados? Processo de codificar mensagens a fim de reduzir o número de “bits” necessários para representá-la 2 tipos de compressão Sem perdas Não há eliminação de informação na mensagem. Compressão implica codificação eficiente Com perdas Informações redundantes, pouco importantes ou irrelevantes sob algum critério são descartadas Não dispensa a codificação eficiente Grau de compressão x Distorção na mensagem

O que é compressão de dados? Por que uma codificação específica pra áudio? Teoria da Informação: Quanto maior o conhecimento sobre a mensagem, emissor e/ou receptor, melhor a compressão Mp3 usa a modelagem psicoacústica para remover informações da irrelevantes Conhecimento sobre o receptor e a mensagem FLAC usa a correlação entre os canais (E/D) para aumentar a compressão Conhecimento sobre o emissor e a mensagem

Exemplo *Taxa de Compressão(TC) = tamanho comprimido/tamanho original *100

Codificação de áudio: Histórico 1988 : Criação Motion Pictures Expert Group (MPEG) Padronização da codificação para transmissão e gravação de filmes Imagem, seqüência de imagens (vídeo) e áudio Surgimento de novos conceitos e vocabulário Frame, Codec, Bitrate Padronização do processo de decodificação Apenas sugestão de compressão

Codificação de áudio: Histórico 1992: MPEG-1. O padrão de codificação de áudio consistia em 3 modos de operação de acordo com o taxa de compressão (complexidade do processo de codificação)‏ As principais idéias foram sugeridas pela Fraunhofer Institut für Integrierte Schaltungen (IS 11172-3 e IS 13818-3).

Codificação de áudio: Histórico 1994: Surge Xiph.org Definir padrões aberto para transmissão e armazenamento de áudio e vídeo. 1996: Surge o ID3 Padrão de fato para de metadados no mp3 1997: MPEG-2 Advanced Audio Coding (AAC)‏ Estado da arte em compressão de áudio (melhorado em Mpeg-4)‏ 1:16 2003: Surge FLAC

Conceitos importantes Codec (COder–DECoder)‏ Frames Estrutura dedados correspondente à unidade mínima de tempo em arquivos de áudio Mp3 -> 1152 amostras PCM Bitrate (taxa de bits): Número de bits p/ codificar um frame Medida em kbps CBR (constant bitrate) - A mesma quantidade de bits para representar qualquer frame (WAV)‏ ABR (average bitrate) - Frames menos complexos deixam bits para os próximos (MP3)‏ VBR (variable bitrate) - O número de bits para cada frame deve garantir a qualidade definida no início da codificação (AAC, VORBIS)‏

Processo de Compressão MP3 Entrada no formato PCM Processa 1152 amostras por vez por canal Frames são codificados independentemente

Modelo Perceptual Objetivo Critérios Analisar o que pode ser considerado redundância Critérios Limiar de audibilidade Mascaramento de sons Simultâneo Temporal Boa parte dos critérios são avaliados no domínio da freqüência Transformada de Fourier

Limiar de audibilidade Um codificador perceptual compara o sinal de entrada com o limiar de audição e descarta os sinais que estão abaixo ou acima

Mascaramento Simultâneo Quando dois sons ocorrem simultaneamente, o mais intenso pode ocultar o menos intenso A curva de mascaramento é assimétrica Baixas freqüências mascaram as altas mais facilmente

Mascaramento Temporal Quando sons são tocados quase ao mesmo tempo O som mais intenso que ocorre antes ou depois de um menos intenso pode mascará-lo

Mascaramento Temporal e Simultâneo

Processo de Compressão MP3

Análise de banco de filtros Objetivo: transformar o sinal para o domínio da freqüência para evidenciar as redundâncias Composto por 2 fases Filtragem em sub-bandas Transformada Discreta Modificada do Cosseno (MDCT)‏

Filtragem de sub-banda Supostamente baseado no conceito de banda-critica regiões da membrana basilar que estabelecem limites na percepção de freqüências Porém 32 subbandas de mesma largura Sem justificativa psicoacústica 1 subbanda é selecionada para cada 32 amostras 36 amostras em cada subbanda

Filtragem de sub-banda

Transforma Discreta Modificada do Cosseno Cada banda passa é transformada do domínio do tempo pra domínio da freqüência (50% overlap)‏ Resultado: 2* 18 linhas de freqüência para cada sub-banda

Processo de Compressão MP3

Quantização e Codificação As informações irrelevantes (detectadas na fase de modelagem perceptual) são efetivamente retiradas O número de bits para cada banda é determinado Codificação Dissociação inter-canais (caso estéreo)‏ Os Canais E e D são transformados em média (E+D/2) e side (E-D/2)‏ Codificação de Huffmann

Codificação de Huffman Mensagem aaaaaabbbcdee 104 bits (ASCII)‏ Mensagem comprimida 00000010101011101111110110 26 bits. TC = 75%

Processo de Compressão MP3

Encoding http://www.mp3-tech.org/programmer/frame_header.html

Metadados ID3 Padrão não prevê metadados Solução: Usar 128 bits antes do primeiro frame (v1.0)‏

Curiosidade: AAC Evolução do mp3 Fim da retro-compatibilidade com Layer I e II Codificação para até 48 canais De 576 para 1024 amostras por canal por frame Uso de codebooks Ao invés de codificar huffman para cada subbanda separadamente, codificar seqüências de subbandas Dissociação inter-frames Predição Surgimento dos modos

Curiosidade: AAC Diversos modos com complexidade variável MPEG-2 AAC LC / Low Complexity MPEG-2 AAC Main MPEG-2 AAC SSR / Scalable Sampling Rate MPEG-4 AAC LC / Low Complexity MPEG-4 AAC Main MPEG-4 AAC SSR / Scalable Sampling Rate MPEG-4 AAC LTP / Long Term Prediction MPEG-4 AAC HE / High Efficiency MPEG-4 AAC LD / Low Delay

Compressão sem perdas Os compressores em geral possuem os seguem os seguintes passos Exemplo: FLAC

Blocking Separação do conteúdo em partes contíguas Tamanho pode variar de 16 a 64k amostras valor fixo dependente da F.A. e número de canais Blocos possuem Sub-bloco Informações sobre um canal específico Blocos são codificados em Frames Cabeçalho taxa de amostragem, resolução, CRC do frame etc. Os frames são independente entre si. Sub-frame: contém o dado codificado e um header que indica a predição usada na compressão

Dissociação inter-canais Remoção redundância de informação causada pela correlação entre os canais Executa 4 transformações, usa a melhor delas. Canais codificados independentemente Média-Lado (mid-side): Os Canais são transformados em média (média dos 2 canais) e lado (canal esquerdo menos direito)‏ Esquerda-Lado/Direita-Lado: Codifica um canal (esquerda ou direita) e a diferença entre este e o canal não codificado. Geralmente, os melhores resultados

Predição Função matemática para tentar descrever o sinal 4 funções existentes Zero: prediz sempre zero. Resíduo = Entrada Constante: Usado quando todas as amostras de uma canal possuem o mesmo valor, e.g., silêncio. “Preditor” Linear Fixo: função linear com coeficientes fixos que prediz no máximo 4 amostras subseqüentes Predição FIR Linear: filtro de até 32 estágios. Acha a solução para o sistema de equações referentes a uma matriz constante diagonal Algoritmo O(n2)‏

Codificação Residual Codificação da diferença (resíduo) entre o que foi predito e a entrada Utiliza o código Rice para codificar os resíduos de predição (passo anterior)‏ Dados um número N (de k bits) a ser codificado e um número M (potencia de 2) que divide N, a codificação Rice (R) é representada por <Unário(N div M)><Binário(N mod M)> Ex.: N=23 (10111) , m=16  R= 10111

Codificação Residual Por que Rice? É ótimo para distribuições geométricas Pr[x] = (1 − p)x−1p Huffman também é ótimo nessa distribuição, mas difícil de decodificar (encontrar onde começa e termina cada código)‏ Para a escolher M, FLAC utiliza 2 métodos Método 1: Baseando-se na variância do sinal residual. O bloco inteiro é codificado com esse M. Método 2: Um bloco é dividido em várias partes de tamanhos distintos. M é escolhido baseado na média do resíduo daquela parte específica