A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Compressão de Voz por Processamento Tempo - Frequência

Apresentações semelhantes


Apresentação em tema: "Compressão de Voz por Processamento Tempo - Frequência"— Transcrição da apresentação:

1 Compressão de Voz por Processamento Tempo - Frequência
PTC2547 – Princípios de Televisão Digital EPUSP – 10 / 2016 Guido Stolfi

2 Diagrama de Blocos do Processamento
Áudio Digitalizado Janelamento Temporal Superposto Transformada Discreta de Cossenos Mapeamento Coeficientes Geração de Ruído Áudio Digitalizado Janelamento Temporal Superposto Transformada Inversa Processamento Não-linear

3 Janelas Temporais Superpostas
512 amostras 256 amostras (32 16 kHz) (16 ms)

4 Janela Temporal

5 Construção da Janela Temporal
Convolução de uma janela retangular de 256 amostras com uma janela Gaussiana Como a janela é aplicada 2 vezes em série, cada aplicação usa a raiz quadrada da convolução J = sqrt(conv(rectwin(256),gausswin(256,4.2)))

6 Transformada Discreta de Cossenos
Decimação 2:1 (256 coeficientes para 512 amostras) Cancelamento de produtos de “Aliasing” devido ao formato da janela Coeficientes com valores reais

7 Primitivas da Transformada Discreta de Cossenos
(k = 1 até 8, considerando J(n) )

8 Exemplo de Processamento
Voz.wav – Taxa de amostragem 16 kHz, 11seg., 256 kbps

9 Quadro Temporal (Após Janelamento)
100 200 300 400 500 600 -0.8 -0.6 -0.4 -0.2 0.2 0.4 0.6 0.8 Antes da DCT 0.8 0.6 0.4 Reconstruído 0.2 -0.2 -0.4 -0.6 -0.8 100 200 300 400 500 600

10 Reconstrução Precisa do Som Original
256 coeficientes Por quadro 16k amostras/s 62.5 quadros/s Áudio Digitalizado Janelamento Temporal Superposto Transformada Discreta de Cossenos Áudio Digitalizado Janelamento Temporal Superposto Transformada Inversa

11 Extração de Parâmetros
Apenas a componente espectral de maior amplitude em cada janela : 3 bandas de ruído acompanhando a DEP média (33-64, , ) : Uma componente espectral (1-64) e duas bandas de ruído (65-128, ) :

12 Bandas de Ruído Entrada Saída 3 componentes de maior amplitude
3 faixas de ruído Com energias equivalentes

13 Qual o Modelo Mais Adequado?
Filtro + X v u p Filtro 2 + X v u p Filtro 1

14 Extração de Componentes por regiões de Formantes
Componente espectral de maior amplitude, em 3 faixas independentes (6-25, 26-64, ) 2 faixas de ruído ( e ) :

15 Extração de Componentes por regiões de Formantes
Original Reconstruído

16 Extração de Componentes por regiões de Formantes
Original Reconstruído

17 Extração de Componentes por regiões de Formantes
Espectro do Segmento Original Espectro do Segmento Reconstruído

18 Extração de Componentes por Região de Frequências
16 componentes espectrais (1-16) 4 bandas de ruído (17-32, 33-64, e ): 32 componentes espectrais (1-32) 3 bandas de ruído (33-64, e ):

19 Envoltórias Temporais das Bandas de Ruído
(33-64 = 1 a 2 kHz) (t=11s) ( = 2 a 4 kHz) ( = 4 a 8 kHz)

20 Extração de Componentes por Amplitude
3 bandas de ruído e componentes com amplitude tal que (média 3 componentes por quadro) Mesmas componentes, quantizadas com Ai = Amax

21 Estimativa de Taxa de Bits
Por quadro: 5 bits para frequência da componente (1-32) 5 bits para amplitude ( 0 – 60 dB) Média de 3 componentes por quadro: 30 bits 15 bits para 3 bandas de ruído Total por quadro (16 ms) : 45 bits Taxa média total 2,8 kb/s


Carregar ppt "Compressão de Voz por Processamento Tempo - Frequência"

Apresentações semelhantes


Anúncios Google