Compressão de Voz por Processamento Tempo - Frequência

Compressão de Voz por Processamento Tempo - Frequência
PTC2547 – Princípios de Televisão Digital EPUSP – 10 / 2016 Guido Stolfi

Diagrama de Blocos do Processamento
Áudio Digitalizado Janelamento Temporal Superposto Transformada Discreta de Cossenos Mapeamento Coeficientes Geração de Ruído Áudio Digitalizado Janelamento Temporal Superposto Transformada Inversa Processamento Não-linear

Janelas Temporais Superpostas
512 amostras 256 amostras (32 16 kHz) (16 ms)

Janela Temporal

Construção da Janela Temporal
Convolução de uma janela retangular de 256 amostras com uma janela Gaussiana Como a janela é aplicada 2 vezes em série, cada aplicação usa a raiz quadrada da convolução J = sqrt(conv(rectwin(256),gausswin(256,4.2)))

Transformada Discreta de Cossenos
Decimação 2:1 (256 coeficientes para 512 amostras) Cancelamento de produtos de “Aliasing” devido ao formato da janela Coeficientes com valores reais

Primitivas da Transformada Discreta de Cossenos
(k = 1 até 8, considerando J(n) )

Exemplo de Processamento
Voz.wav – Taxa de amostragem 16 kHz, 11seg., 256 kbps

Quadro Temporal (Após Janelamento)
100 200 300 400 500 600 -0.8 -0.6 -0.4 -0.2 0.2 0.4 0.6 0.8 Antes da DCT 0.8 0.6 0.4 Reconstruído 0.2 -0.2 -0.4 -0.6 -0.8 100 200 300 400 500 600

Reconstrução Precisa do Som Original
256 coeficientes Por quadro 16k amostras/s 62.5 quadros/s Áudio Digitalizado Janelamento Temporal Superposto Transformada Discreta de Cossenos Áudio Digitalizado Janelamento Temporal Superposto Transformada Inversa

Extração de Parâmetros
Apenas a componente espectral de maior amplitude em cada janela : 3 bandas de ruído acompanhando a DEP média (33-64, , ) : Uma componente espectral (1-64) e duas bandas de ruído (65-128, ) :

Bandas de Ruído Entrada Saída 3 componentes de maior amplitude
3 faixas de ruído Com energias equivalentes

Qual o Modelo Mais Adequado?
Filtro + X v u p Filtro 2 + X v u p Filtro 1

Extração de Componentes por regiões de Formantes
Componente espectral de maior amplitude, em 3 faixas independentes (6-25, 26-64, ) 2 faixas de ruído ( e ) :

Original Reconstruído

Espectro do Segmento Original Espectro do Segmento Reconstruído

Extração de Componentes por Região de Frequências
16 componentes espectrais (1-16) 4 bandas de ruído (17-32, 33-64, e ): 32 componentes espectrais (1-32) 3 bandas de ruído (33-64, e ):

Envoltórias Temporais das Bandas de Ruído
(33-64 = 1 a 2 kHz) (t=11s) ( = 2 a 4 kHz) ( = 4 a 8 kHz)

Extração de Componentes por Amplitude
3 bandas de ruído e componentes com amplitude tal que (média 3 componentes por quadro) Mesmas componentes, quantizadas com Ai = Amax

Estimativa de Taxa de Bits
Por quadro: 5 bits para frequência da componente (1-32) 5 bits para amplitude ( 0 – 60 dB) Média de 3 componentes por quadro: 30 bits 15 bits para 3 bandas de ruído Total por quadro (16 ms) : 45 bits Taxa média total 2,8 kb/s

Compressão de Voz por Processamento Tempo - Frequência

Apresentações semelhantes

Apresentação em tema: "Compressão de Voz por Processamento Tempo - Frequência"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Compressão de Voz por Processamento Tempo - Frequência

Apresentações semelhantes

Apresentação em tema: "Compressão de Voz por Processamento Tempo - Frequência"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback