A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Compressão de Áudio Digital

Apresentações semelhantes


Apresentação em tema: "Compressão de Áudio Digital"— Transcrição da apresentação:

1 Compressão de Áudio Digital
Joaquim Macedo Departamento de Informática da Universidade do Minho É necessário um grande número de bits para representar dados áudio. Por exemplo, áudio estéreo com qualidade CD precisa de Kbytes/seg para transmissão ou armazenamento . Esta largura de banda é bastante larga para muitas aplicações nomeadamente transmissão de voz na Internet. Mesmo quando não há necessidade de transmissão de áudio ao vivo o custo de armazenamento é bastante alto. Um CD áudio contém apenas à volta de 74 minutos de áudio. Foi descoberto que se os dados áudio forem compactados com cuidado, pode-se armazenar ou transmitir áudio com qualidade excelente com um débito de bits muito mais pequeno. Nesta aula vai-se apresentar os princípios básicos de compressão áudio, seguidos duma discussão breve discussão dum pequeno número de normas de compressão áudio

2 Sumário Princípios de Compressão Áudio Redundância Estatística
Redundância Temporal Codificação perceptual áudio Normas de compressão áudio Norma de Compressão Áudio MPEG-1 Norma de Compressão Áudio MPEG-2 Normas de Compressão Áudio AC Comparação de Algoritmos de Compressão Formatos Áudio Nesta aula vai-se apresentar os princípios básicos de compressão áudio, seguidos duma discussão breve dum pequeno número de normas de compressão áudio

3 Exemplo 7.1 Queremos transmitir áudio estéreo em tempo real num canal de 56Kbps. Considere os seguintes cenários Usamos uma frequência de amostragem de 44.1KHz. Quantos bits podemos usar para cada amostra áudio? Usamos 16 bits/amostra/canal. Qual a máxima frequência de amostragem? O que podemos fazer para evitar o aliasing Queremos usar uma frequência de amostragem de 44.1 Khz e 16 bits/amostra/canal. Qual a razão mínima de compressão para transmitir o sinal áudio? Débito de bits= bits/seg, Taxa de amostragem= amostras/seg Média de taxa de bits= (56/44.1)= 1.26 bits /amostra estéreo = = 0.63 bits/canal/amostra b) Frequência de amostragem (FA) FA= 56000/(2x16)=1750 Hz Para evitar o aliasing o sinal áudio de entrada tem que ser passado através dum filtro passa baixo com frequência de corte de 875 Hz ou inferior. Débito de bits necessário (debito) debito= 44100x2x16 bit/se = 1.41x 10^6 Factor de compressão mínimo = 1.41x10^6/56000= 25.2

4 Princípios de Compressão Áudio
Redundância Estatística Mais bits para valores de amostra mais comuns Redundância Temporal Correlação entre valores de amostras vizinhas Redundância inter-amostra Redundância do Conhecimento Explorar conhecimento partilhado entre codificador e descodificador Ficheiros MIDI Propriedades do Sistema Humano de Audição Aumentar a qualidade subjectiva do sinal áudio O exemplo acima demonstra que um débito baixo de bits áudio pode ser conseguido reduzindo a resolução em bits de cada amostra áudio ou reduzindo a frequência de amostragem. Embora esses métodos possam reduzir o débito de bits necessário, a qualidade pode ser degradada de forma significativa. Nesta aula vão ser apresentadas técnicas que conseguem um desempenho melhor de compressão (boa qualidade com baixo débito de bits) removendo as redundâncias do sinal áudio. As três redundâncias mais importantes estão apresentadas no slide. Redundância estatística – As amostras áudio não têm igual probabilidade de ocorrência o que resulta numa redundância estatística. Se se atribuir maior número de bits a valores menos frequentes compacta-se a informação. Redundância temporal – O sinal áudio varia no tempo. Contudo há muitas vezes uma correlação forte entre valores de amostras vizinhos que é removida tipicamente com técnicas como codificação preditiva ou codificação de transformada. Redundância de conhecimento: Quando o sinal a ser codificado é de âmbito limitado, pode ser associado conhecimento tanto ao codificador como ao descodificador. Nesse caso, o codificador precisa apenas de enviar a informação necessária para a descodificação. Um exemplo é a utilização de MIDI para o som produzido por uma orquestra. Para além dessas técnicas, pode-se explorar as propriedades do sistema de audição humano para aumentar a qualidade subjectiva do sinal de áudio. Neste capítulo, vão ser apresentadas diversas técnicas de compressão áudio que exploram essas redundâncias. Ao contrário de de dados de texto que usa tipicamente compressão sem perdas, o sinal áudio é compactado com perdas. Uma introdução breve da teoria da taxa de distorção para a codificação sem perdas é apresentada a seguir.

5 Função Taxa de Distorção
Teorema de Shannon para codificação da fonte sem erros Limite na compressão sem erros Fontes áudio naturais Compressão sem perdas máxima 2:1 Compressão com perdas usada na prática Obtenção de maior razão de compressão.

6 Função Taxa de Distorção
Codificador simples Débito D(dm) Codificador complexo Limite da teoria da informação distorção dm Dado um vector fonte aleatório S, o objectivo da codificação com perdas é conceber um codificador que opera a um dado débito e minimiza a distorção média dada na equação acima. O vecto d(S,^S) representa a distorção entre o sinal original e o reconstruído. R(dm) é o valor mínimo desta informação sobre todas distribuições de transições com uma distorção média dm. A teorema de codificações de fontes de Shannon estabelece que para uma dada distorção dm, existe uma função débito-distorção correspondente a uma fonte de informação, que é o débito mínimo necessário para transmitir sinais provenientes dessa fonte com distorção igual (ou inferior) a dm. A importância do teorema acima é que ele apresenta um limite para o desempenho dum codificador. O teorema estabelece que não há codificadores, independente da sua forma ou complexidade que possa produzir uma distorção inferior a dm a um débito médio de R(dm), mas que é possível conceber um codificador com uma distorção dm com um débito o mais perto possível de R(dm). Pode-se mostrar que R(dm) é uma função convexa, contínua e estritamente decrescente de dm. Uma curva típica é mostrada na figura acima. Este função é um limite teórico a que pode ser aproximado assimtoticamente com o aumento o número de amostras mas não pode ser conseguido na prática. Contudo constitui uma boa referência de avaliação (benchmark) para os sistemas de codificação.

7 Redundância Estatística
Compressão de Texto Métodos de compressão eficientes baseados na entropia Pode-se usar a mesma abordagem na compressão de áudio

8 Exemplo 7.2 Considere um sistema de aquisição áudio que tem amostras de áudio mono com resolução de 3 bits com níveis entre 0 e 7. O número de ocorrências para os oito níveis foram [700,900,1500,3000,1700,1100,800,300] Calcule e desenhe a função densidade de probabilidade para cada símbolo Calcule a entropia da fonte O probabilidade de ocorrência de cada nível nas amostras e dada por P[0]= 700/10000= 0.07,P[1]= 0.09, P[2]= 0.15, P[3]=0.30, P[4]=0.17, P[5]=0.11, P[6]=0.08, P[7]=0.03 A entropia é H=-(o.07log log log0.03)=1.88 bits/amostra ( logaritmo na base 2)

9 Solução p[0] = 700/10000 = 0.07 p[1] = 900/10000 = 0.09 p[2] = 1500/10000 = 0.15 p[3] = 3000/10000 = 0.30 p[4] = 1700/10000 = 0.17 p[5] = 1100/10000 = 0.11 p[6] = 800/10000 = 0.08 p[7] = 300/10000 = 0.03

10 Sinal chord.wav Fig. 7.3,pag.149 Fig. 4.14(a)
O sinal foi quantificado a 8 bits/amostra, a gama dinâmica dos valores do sinal ficou entre [-128,127]. A função densidade de probabilidade dos valores amostrados está na figura 7.3. A entropia do sinal é 3.95 bits/amostra. Como resultado uma aplicação directa da codificação baseada na entropia sem perdas produzirá uma relação de compressão de 2:1.

11 Redundância Estatística
O método de codificação baseado na entropia Não consegue altos níveis de compressão para a maioria dos sinais áudio Mas disponibiliza bom desempenho quando aplicado a coeficientes de transformada Norma MPEG-1 utiliza codificação baseada na entropia

12 Codificação MU-LAW g h h* g* Quantificador Uniforme
Como foi observad na Fig. 7.3, a maioria das amostras áudio têm valores perto de zero. Nesse caso, foi usada a quantificação uniforme para obter as amostras, que não é muito eficiente uma vez que os valores (que ocorrem muito frequentemente) são quantificados com o mesmo passo de degrau que é usado para quantificar amostras de amplitudes maiores. Com uma quantificação não uniforme que quantifique os valores que ocorrem frequentemente de forma mais precisa que os outros. Contudo, conceber um quantificador não uniforme pode ser um processo tedioso. Um desempenho aproximado da quantificação não uniforme pode ser obtido com uma transformação não linear (conhecido como compading). Aqui o sinal passa por um processo duma transformação não linear fixa como mostrado na figura do slide. Uma qunatificação uniforme é então aplicada ao sinal transformado e os valores de amostra digitalizados são armazenados. Durante a reprodução do sinal, o sinal é desquantificado e sofre a transformação não linear inversa, conhecida como expansão. É obtido o áudio original, conjuntamente com algum ruído de quantificação. A concretização deste sistema é mais simples que a de um sistema não linear.

13 Codificação MU-LAW Caratcterísticas de E/S com
Os sistemas telefónicos na América do Norte usam a compressão e expansão, que conhecido como codificação mu-law. A relação E/S para o compressor é a seguinte: Onde g e h são a entrada e a saída do compressorr, respectivamente. Depois da quantificação , o sinal de saída pode ser usando a relação inversa que é dada por g*

14 Exemplo 7.3 Considere o sinal áudio chord. Quantifique o sinal uniformemente com 8 bits, utilizando a compressão com mu=255. Expanda o sinal e calcule a relação sinal-ruído (SNR). Compare a SNR com a obtida com o exemplo 4.6 Quando o sinal de áudio é quantificado com compressão, o SNR obtido é 44 dB. No exemplo 4.6 o SNR correspondente a 8 bits/amostra foi 32 dB. Assim, nesta experiência com o compressão o ganho foi de aproximadamente 12 dBs. Estudos relevam que um ganho na gama dos 25 dBs é geralmente conseguido para sinais telefónicos. Por outras palavras, mesmo mesmo quantificando com 8 bits/amostra, a qualidade efectiva com o compressão comparável à utilização de 12 bits com quantificação uniforme. Os sistemas de telefone europeus usam um esquema ligeiramente diferente conhecido como codificador A-law.

15 Redundância Temporal Na amostragem áudio com PCM (Pulse Code Modulation) as amostras são codificadas de forma independente. A maioria dos sinais áudio exibem uma correlação forte entre sinais vizinhos. Isto é especialmente verdadeiro se o sinal for amostrado acimda da frequência de Nyquist. Isto é mostrado na figura 7.6, que mostra o sinal com base nas amostras do sinal áudio da Fig. 4.14(a). Pode-se observar que as amostras vizinhas estão razoavelmente bem correlacionadas. Portanto o valor dum sinal áudio em qualquer instância de tempo pode ser predito pelos valores do sinal no intsnate k-m em que m é um inteiro pequeno. Esta propriedade pode ser explorada para conseguir uma razão de compressão de 2 a 4 sem degradar significativamente a qualidade do sinal áudio. O DPCM (differential pulse code modulation) é uma técnica simples mas efectiva nesta categoria e é apresentada a seguir.

16 DPCM Differential Pulse Code Modulation
No DPCM Uma amostra áudio é prevista com base nas amostras anteriores O valor previsto é aproximado mas diferente do valor da amostra Fórmula usada pela técnica LPC(Linear Preditive Coding) Onde S’n-i é a amostra reconstruída na instância prévia à distância i e alfai i=1,..,M são os coeficientes do previsor de ordem M. O erro da previsão é en.

17 Codificador DPCM Esquema simplificado
Áudio original Codificador Quantificador Áudio Compactado Previsor

18 Descodificador DPCM Esquema simplificado
Áudio Reconstruído Descodificador Áudio Compactado Previsor

19 DPCM No sentido de obter uma boa predicção, os coeficientes do predictor devem ser escolhidos adequadamente para minimizar a variãncia da energia erro da sequência en. O conjunto de coeficientes LPC óptimos alfa-opt podem ser obtidos resolvendo o conjunto de equações simultâneas apresentada no slide.

20 Exemplo 7.4 Considere o sinal áudio chord. Determine o conjunto óptimo de coeficientes de previsão de 1ª,2ª e 3ª ordem. A função normalizada da função de auto-correlação do sinal chord é o seguinte: R=[ ] Predictores de 1ª ordem da equação do slide anterior R(0)alfa1=R(1). Assim alfa1=R(1)/R(0)= 0.97. Predictores de segunda ordem Preditores de 3ª ordem O primeiro preditor produz um erro de energia de 2.79, enquanto o segundo um de 0.25.

21 Erros de previsão Para verificar a validade dos coeficientes óptimos, os erros de energia totais são calculados na vizinhança dos coeficientes óptimos e são mostrados na figura 7.8. Pode-se observar que os preditores de 1ª ordem fornecem o menor erro de energia.No caso dos predictores de 2da ordem, observa-se que o erro da energia é mínima (ou bastante próxima) para um grande número de coeficientes. Esses coeficientes geralmente seguem a relação alfa1+alfa2= Por outras palavras desde que as relações sejam satisfeitas, é de esperar uma boa predição.

22 DPCM Depois de obtida o erro da sequência en
É codificado para reconstruir o sinal perfeitamente Na codificação com perdas uma qualidade de reconstrução razoável é aceitável A quantificação é a única operação na codificação DPCM que introduz ruído

23 Exemplo 7.5 As 4 primeiras amostras duma sequência digital áudio são [70,75,80,82,...]. São necessários no mínimo 7 bits para codificar cada uma das amostras. As amostras áudio são codificadas usando o DPCM usando o previsor de primeira ordem. Os coeficientes de erro de predição são quantificados por 2 e arredondados para o próximo inteiro e armazenados sem perdas. Determine o número aproximado de bits necessários para representar cada amostra e o erro reconstruído em cada instância de amostra.

24 Codificação DPCM vários passos para a sequência [70,75,80,82,...]
Instâncias de amostras 1 2 3 Sinal original 70 75 80 82 Erro do sinal =6.4 =6.4 =4.8 Erro do sinal quantificado 7.1/2=4 6.4/2=3 4.8/2=2 Erro reconstruído 4*2=8 3*2=6 2*2=4 Sinal reconstruído 67.9+8=75.9 73.6+6= 79.6 77.2+4= 81.2 Sinal previsto para próxima amostra 70*0.97=67.9 75.9*0.97=73.6 79.6*0.97=77.2 81.2*0.97=78.8 Erro de reconstrução -0.9 0.4 0.8 Nº de bits necessários 7 Os vários passos nas diferentes instãncias das amostras são mostrados na tabela. Observa-se que a primeira amostra é codificada como amostra de referência. Para a segunda amostra em diante é usada a predição. Com um pequeno passo de quantificação de 2,, o erro de reconstrução é muito pequeno (magnitude inferior a 1) e tolerável. Contudo o número de bits necessário para codificar o erro de quantificação é significativamente reduzido (3,2 e 2 bits para codificar os erros preditos das amostras 2, 3 e 4 respectivamente).

25 Codificação do Áudio Perceptível
Como foi explicado no cap. 2 a sensibilidade do ouvido não é uniforme ao longo do espectro audio (20Hz-20KHz). Foi observado que o ouvido é mais sensível na gama 1-5 KHz. A sensibilidade diminui nas baixas e nas altas frequências. Para além disso um sinal forte numa dada frequência mascara sinais mais fracos nas frequência vizinhas- Quando são combinadas essas duas propiedades obtém-se um limiar de audição mostrado na fig 2.5. Qualquer sinal áudio cuja amplitude esteja abaixo do limiar de dissimulação é inaudível ao ouvido humano. Esta característica do sistema auditivo pode ser explorada para conseguir uma compressão áudio superior. No sentido de usar o modelo psico-acústico, o sinal áudio é dividido em blocos de dados de curta duração. O espectro de cada bloco áudio é a seguir estimado usando a transformada de Fourie e são obtidos os limiares de dissimulação para as diferentes freqências áudio. É executada então a processo de alocação de bits perceptíveis como mostrado na figura do slide, com um sinal composto por vários tons. Devido ao limiar de dissumlação apenas os tons Q,S e U serão ouvidos e os tons tons (P,R,T e V) serão dissimulados por tons mais fortes. Uma vez que ons tons P,R,T e V não vão ser ouvidos não precisam de ser codificados. Assim os bits são alocados aos sinais correspondentes aos tons Q,S e U. Os bits alocados são proporcionais ao n´vel de sinal acima do limiar de dissimulação, uma vez que os sinais mais fortes são mais importantes e precisam de ser codificados com maior precisão. A técnica de codificação perceptivel pode ser concretizada eficientemente no domínio das sub-bandas. Aqui o sinal áudio é passado através dum banco de filtros digitais consistindo dum banco de filtros passa-baixo e passa-banda (figura 5.10). O banco de filtros divide o sinal em múltiplos canais de banda limitada para aproximar a banda de resposta crítica do ouvido humano. As amostras em cada sub-banda são analizadas e comparadas com um modelo psico-acústico. A seguir o codificador qunatifica as amostras em cada sub-banda baseado no limiar de dissumulação nessa sub-banda.

26 Codificação do Áudio Perceptível
A figura 7.7 mostra a operação típica dum codificador de sub-banda. O nível de ruído de quantificação introduzido em cada sub-banda é determinado pelo número de bits usados (mais bits produzem menos ruído). A alocação de bits é determinada pelo modelo psico-acústico e pela análise do próprio sinal. Essas operações são repetidas em cada sub-banda para cada novo bloco de dados. As amostras são dinamicamente qunatificadas de acordo com a audibilidade dos sinais e o todo o processo é altamente flexível. O descodificador desquantifica os dados quantificados que são então passados através do banco de filtros de síntese resultando na saída áudio reconstruída que é então reproduzida. Análise da figura: Codificação perceptível de diferents sub-bandas. As bandas 2 e 4 não são importantes porque os níveis de ´sinal são abaixo do limiar de dissimulação, ao contrário das bandas 1 e 3. Os bits são atribuídos de acordo com o valor de pico acima do limiar de dissimulação correspondenod à respectiva sub-banda.

27 Normas de Compressão Áudio
Codificadores áudio de baixo débito Para telefone ITU-G.711 Defeito para ISDN 8000 amostras/seg, 8 bits/amostra Usam u-law e A-law companding ITU-G.722 Áudio de maior fidelidade Codifica 7KHz em 64Kbit/seg ITU-G.729 Voz a 8 KHz Usa uma estrutura conjugada Algebraic-Code-excited, Linear Prediction Agorithm

28 Normas de Compressão Áudio Codificadores áudio genéricos
MPEG-1 Adoptada em 1992 Para áudio digital de alta fidelidade Norma de compressão genérica Pode compactar sinais áudio provenientes duma larga diversidade de fontes MPEG-2 Baseada na MPEG-1 com alguns melhoramentos MPEG-4 Compacta tanto som natural (música, voz) como sintetizado O som sintetizado pode ser representado por texto ou pela descripção de intrumentos musicais com diferentes efeitos

29 Normas de Compressão Áudio Codificadores áudio genéricos
AC-2 e AC-3 Desenvolvidos pela Dolby Digital Laboratories Para codificação de áudio de alata fidelidade multi-canal

30 Norma MPEG-1 Áudio Explora as propriedades psico-acústicas do ouvido humano Taxa de amostragem áudio:32, 44.1 ou 48 KHz pode compactar: mono ou estéreo (2 canais) 3 camadas independentes de compressão Compromisso entre complexidade, relação de compressão, qualidade Camada 1 : mais simples, débitos acima de 128kbps/canal Camada 2: complexidade moderada, débito à volta de 128 bits/canal Camada 3 (mp3): maior complexidade, débitos à volta de 64 kbps/canal e oferece a melhor qualidade áudio Adequada para transmissão áudio em ISDN

31 Codificador Áudio MPEG-1
Modelo Psico-Acústico Dados auxiliares (opcional) Alocação, Quantificação e Codificação de bits Banco de Filtros de Análise Formatação da sequência de bits Entrada Áudio Sequência de bits codificada O codificador genérico MPEG-1 (para as três camadas) é mostrado na figura no slide. O sinal áudio de entrada passa através dum banco de filtros que representa o sinal em sub-bandas múltiplas. O sinal de entrada é também passado através dum modelo psico-acústico que determina o limiar de dissimulação para cada sub-banda. São usados dois modelos psico-acústicos: o modelo 1 para as camadas 1 e 2 e o modelo 2 para a camada 3. Os coeficientes na sub-banda são então quantificados de acordo com o limiar de dissimulação. Então os coeficientes quantificados para todas as sub-bandas são formatdos e adicionados alguns dados auxiliares para formar a sequência codificada de bits.

32 Descodificador Áudio MPEG-1
Reconstrução da frequência de amostragem Desempacotamento da sequência de bits Sequência de bits codificada Dados auxiliares Banco de Filtros de Síntese O descodificador é o inverso do codificador como é mostrado na figura. Aqui a sêquência de bits codificada é desempacotada. Os coeficientes quantificados de sub-banda são desquantificados, passados através duma sub-banda de síntese e adionados para obter o áudio reconstruído. Áudio Reconstruído

33 Áudio MPEG-1 Banco de Filtros
Para conseguir melhor desempenho As larguras de banda dos filtros no banco de filtros devem unificar com as sub-bandas críticas Mais pequenas na gama inferior de frequências Maiores na gama superior Para simplificar o desenho do codificador Existem 32 sub-bandas de igual largura Os filtros são relativamente simples Boa resolução no tempo e uma resolução razoável na frequência O banco de filtros não é reversível Mesmo que os coeficientes de sub-banda não sejam quantificados, o sinal de áudio reconstruído não é igual ao original

34 MPEG camada 1,2 e 3 Codificação de camada
12 Amostras 12 Amostras 12 Amostras Filtro sub-banda 1 12 Amostras 12 Amostras 12 Amostras Filtro sub-banda 2 12 Amostras 12 Amostras 12 Amostras Amostras Agrupadas Filtro sub-banda 3 Como há 32 filtros, os filtros individuais de sub-banda no banco de fitros produzem 1 amostra por cada 32 amostras de entrada como se mostra na figura do slide. As amostras são agrupadas para quantificação embora sejam agrupados de forma distinta nas três camadas. A camada 1 codifica o áudio em quadros de 384 amostras áudio que é obtido agrupando 12 amostras de cada das 32 sub-bandas. Cada grupo de 12 amostras obtém a sua alocação de bits variando de 0-15 bits dependendo do nível de dissimulação. Se a alocação de bits não for zero, cada grupo obtém também um factor de escala (representado por 6 bits) que classifica por tamanhos para fazer uso da toda a gama do quantificador. Conjuntamente a alocação de bits e o factor de escala fornecem até 20 bits de resolução que rsulta numa relação sinal-ruído de 120 dB. O descodificador multiplica o factor de escala com a saída desquantificada para reconstruir as amostras de sub-banda. O codificador da camada 2 usa um tamanho de quadro de 1152 amostras por canal áudio agrupando 36 amostras de cada sub-banda. Há uma alocação de bits por canal e até três factores de escala para cada trio de 12 amostras. Os diferentes factores de escala são usadas apenas para evitar distrorção audível. Nesta camada, três valores consecutivos qunatificados podem ser codificados com uma palavra de código. ... Amostras Áudio 12 Amostras 12 Amostras 12 Amostras Filtro sub-banda 32 Quadro da camada 1 Quadro da camada 2 e 3

35 Codificação do MPEG-1 camada 3
MDCT Banco de Filtros da Camada 1 e da Camada 2 Janela MDCT Redução do Aliasing, Quantificação e codificação MDCT Janela MDCT ... ... Entrada Áudio PCM Áudio Compactado Para conseguir uma melhor eficácia na compressão, a camada 3 utiliza um algoritmo muito mais refinado que as camadas 2 e 3. O esquema da camada 3 é mostrada no slide.Utiliza uma transformada discreta de coseno modificada (MDCT). O MDCT é claculado para um boloco longo de 18 amostras ou para um bloco curto de 6 amostras. Há 50% de sobreposição entre sucessivas janelas de transformadas uma vez que o tamanho da janela é 36 ou 12 respectivamente. O comprimento longo de bloco disponibiliza uma melhor resolução na frequência, enquanto que o comprimento de bloco curto disponibiliza uma melhor resolução no tempo. Contudo, a comutação entre o bloco longo e curto não é instantâneo. Um bloco longo com janelas especializadas curta-para-longa e longa-para-curta é usada para servir de transição entre os blocos curtos e longos. Observe que uma vez que o MDCT usa um boloco de 36 ou 12 amostras qualquer erro de quantificação dos coeficientes MDCT espalha-se por uma janela larga no tempo comparada com as camadas 1 e 2, dando como resultado uma distorção audível. Por esse facto, utiliza um mecanismo de redução de alias que processa os valores MDCT removendo os artefactos provocadas pelas bandas de sobreposição do banco de filtros polifásico. Para além do MDCT a camada 3 inclui vários melhoramentos. Usa uma quantifficação não uniforme para coseguir uma relação sinal-ruído (SNR) através da gama dos valores do quantificador. Os factores de escala das bandas são usados na camada 3 para colorir o ruído de quantificação para adaptação à variação na frequência da forma do limiar de dissimulação. A camada 3 usa também um código de Huffman de comprimento variável para codificar as amostras quantificadas e para conseguir melhor compressão. 32 MDCT Janela MDCT

36 Norma MPEG-2 Define duas normas MPEG-2 BC MPEG-2 AAC
BC (Backward Compatible) Extensão da norma MPEG-1 Inclui codificação multi-canal e multilingue É permitida codificação a frequências abaixo de 32 KHz MPEG-2 AAC ACC (Advanced Audio Coding) Codificador áudio altamente avançado com um desempenho de compressão superior

37 MPEG-2 AAC 3 Perfis ou Modos Modo Low Complexity (LC) Modo Main
Aplicações em que o gargalo é a velocidade de processamento e a memória Modo Main Quando há capacidade de computação e memória disponíveis Mode SSR (Scalable Sample Rate) Quando as aplicações precisam de descodificação escaláveis.

38 Codificador MPEG-2 AAC Esquema simplificado
Entrada do Sinal Áudio Banco de Filtros Multiplexador da Sequência de bits Modelo Perceptual Calibragem do ruído temporal Previsão Sequência codificada de bits áudio Processo de Controlo da Taxa de Distorção Factores de Escala A figura no slide mostra um codificador MPEG-2 ACC. Passa-se a descrevar brevemente as suas ferramentas básicas Banco de filtros É usada uma DCT modificada (MDCT). A saída da MDCT consiste em 1024 ou 128 linhas de frequência. A forma da janela é escolhida entre duas alternativas. Modelo Perceptual Um modelo psico-acústico similar ao mdelo 2 do MPEG-2 calcula o limiar de dissimulação. Calibração do Ruído Temporal Controla a forma temporal do ruído de quantificação dentro de cada janela da transformada- Predição Reduz a redundância dos sinais estacionários. É usado um predictor de segunda-ordem adaptável Factor de Escala O espectro áudio é dividido em vários grupos de coeficientes espectrais , conhecidos como bandas de factor de escala, que partilham um factor de escala. Um factor de escala representa uma valor de ganho que muda a amplitude dos coeficientes espectrais com um factor de escala da banda. Quantificação: é utilizado um quantificador com um tamanho de passo de 1.5 dB Codificação sem ruído:é aplicada a codificação de Huffman para os coeficientes quantificados de sub-banda, os factores de escala diferenciais e a informação direccional. Até 12 livros de código de Huffman estáticos são usados para codificar pares ou quatro valores de espectro. Quantizador Codificação sem ruído

39 Normas de Compressão Áudio AC Áudio Digital Áudio
O codificador AC-3 é largamente utilizado para transportar Áudio multi-canal em aplicações como Vídeo DVD TV Digital TV de alta definição (HDTV) Aplicações de éstudio O codificador AC-3 foi precedido por AC-1e AC-2. AC-1: Utiliza modulação delta adaptativa combinada com companding analógica. Não é um codificador perceptual. AC-2: Um codificador perceptual que usa uma transformada de baixa Complexidade TDAC (Time domain alias cancellation) transform. Usa MDCT, MDST.Àudio de alta qualidade a um débito de 256 kbps por canal. AC-3: Superior ao AC-2. Alta qualidade a 384 kbps/seis-canais

40 Codificador AC-3 Esquema simplificado
Qunatificador da mantissa, Mantissas Quantificadas Mantissas Alocação de bits Amostras Áudio Áudio Codificado Na figura é mostrada o codificador AC-3. Utiliza uma transformação TDAC que permite um compromisso entre o atraso na codificação e o débito de bits. Aqui uma série de DCT e DST (Transformada do seno) são aplicadas em blocos de dados áudio sobrepostos 50% no domínio do tempo. Os coeficientes da transformada são então sub-amostrados por um factor de 2 (i.e. Descartar todos outros coeficientes) para obter uma transformada amostrada de forma crítica. O tamanho por defeito do bloco são 256 amostras( 512 amostras com 50% sobreposição) fornecendo 97.5 Hz de resolução na frequência a uma taxa de amostragem de 48 KHz. A entrada de áudio é monitorizada constantemente para detectar a presença de transitórios. Se estiverem presentes alguns transitórios, o tamanho do bloco é reduzido a metade para aumentar a resolução temporal (como consequência resolução na frequência degrada-se). Transformação TDAC Vírgula flutuante em bloco Empacotador do sequência de bits Expoentes Coeficientes de transformada

41 Codificação de Expoente
Os expoentes são valores de 5 bits que indicam o número de zeros da frente Os valores dos expoentes variam de 0 a 24 São codificados de forma diferencial Os diferentes expoentes são combinados em grupos no bloco áudio A Estratégia do expoente define como os diferentes expoentes são codificados

42 Descodificador AC-3 Esquema simplificado
Sequência de bits codificada Desempacotador da mantissa, Normalização Desempacotador do expoente Alocação de bits Ponto flutuante para fixo Transformação inversa TDAC Canais 5.1 de saída O codificador AC-3 é o inverso do processo de codificação. A figura 7.13 mostra o esquema da operação de descodificação.

43 Comparação de algoritmos
Débito (em Kb/seg) Qualidade Aplicação Disponível desde MPEG Camada 1 32-448 Boa a 192 Kbps/canal DCC 1991 Camada 2 32-384 Boa a 256 Kbps/canal Difusão de Áudio Digital, CD-I, DVD Camada 3 32-320 Boa a 96 Kbps/canal 1993 AC-3 Dolby 32-640 Boa a 384 Kbps/5.1 canais HDTV, Cabo, DVD Uma vez que foram desenvolvidas normas de codificação áudio em grande número, é importante conhecer o seu desempenho relativo. A tabela mostra uma comparação entre as várias camadas da norma MPEG e o AC-3. A camada 1 do MPEG disponibiliza uma compressão moderada bas com baixa complexidade. Pode ser usada qunado há problema de custos. A camada 2 disponibiliza melhor desempenho com um nível razoável de complexidade e é usada em muitas aplicações. A camada 3, conhecida como mp3, dipsonibiliza uma excelente compressão, mas com alta complexidade. O codificador AC-3 é o melhor para aplicações muti-canal com boa qualidade áudio. O MPEG-2 AAC disponibiliza um desempenho superior quando comparado com a maioria dos algoritmos de codificação existentes incluindo o MP3 e AC-3. Experiências demonstraram que o MPEG-2 AAC a 320 Kbps ultrapassa em desempenho o MPEG-2 a 640 Kbps

44 Formatos Áudio típicos para armazenamento de som
Extensão/ tipo de ficheiro Comentários aiff Áudio não compactado, tipicamente 16 bits/amostra. Pode ter outra resolução, tipicamente usado em Mac/Unix au Usa compressão mu-law. Usado em plataformas Sun mov Vídeo QuickTime mpa/mp2 Formato MPEG áudio. São usadas várias camadas para compromisso entre a complexidade e o desempenho mp3 Camada 3 do MPEG áudio qt Formato QuickTime. Proprietário da Apple Ra,ram Formato Real Áudio. Proprietário da Real Networks. Suporta áudio ao vivo na Internet wav Áudio não compactado, tipicamente 16 bits/amostra wma Áudio usado no Windows Media. Proprietário da Microsoft Os dados de áudio digital estão disponíveis numa larga gama de formatos. Um pequeno conjunto seleccionado é mostrado na tabela do slide. Observe que alguns formatos representam áudio como dados PCM, enqunato os restantes utilizam outra forma de compressão. Formatos usados para cadeias de áudio na Internet


Carregar ppt "Compressão de Áudio Digital"

Apresentações semelhantes


Anúncios Google