A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes.

Apresentações semelhantes


Apresentação em tema: "Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes."— Transcrição da apresentação:

1 Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes

2 Motivação Comunicações de voz permanecer o meio predominante de comunicação humana. Proporciona a transmissão de sinais de fala com boa qualidade através de canais de comunicação com banda estreita. O sistema CELP é o núcleo da maioria dos sistema celular, e sistemas de comunicação de banda estreita(VoIP).

3 SINAIS DA FALA Fala é produzido por um sinal de excitação gerada em nossa garganta, o que é modificado por ressonâncias produzidas por diferentes formatos de nosso trato vocal, nasal e da faringe.

4 Vogais e Consoantes Este sinal de excitação pode ser a vibração glotal produzido pela abertura e fechamento periódico cordas vocais o que cria voz sonora, como as vogais ou apenas o fluxo continuo de ar empurrado por nossos pulmões, que cria a fala não articulada, tais como o consoantes, ou mesmo uma combinação de ambos ao mesmo tempo

5 Anatomia da voz As três estruturas mais importantes são os pulmões as cordas vocais e a laringe. A fonte de energia para a geração de sons é provida pelo diafragma e músculos abdominais que pressionam os pulmões e geram um fluxo de ar controlado que passa pelas cordas vocais. O mecanismo de produção da voz apresenta uma resposta limitada em freqüência, com limite por volta de 10kHz. 95% da energia do sinal de voz esta concentrada na faixa de freqüência entre 300 e 3400 Hz, pode se limitar o canal a esta banda com uma perda tolerável em qualidade.

6 Anatomia do voz Quando o ar vibrante entra na glote há uma mudança na resistência do ar (ao abrir ou fechar a continuidade da traquéia) e isso faz o processo de modulação da voz.

7 Anatomia da voz O som é produzido quando a glote, que é uma abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar é interrompido e assim se cria uma seqüência de impulsos que possuem algumas freqüências básicas chamadas de tom (pitch). Nos homens estas freqüências estão entre 80 e 160Hz e nas mulheres entre 180 e 320Hz.

8 Vogais e consoantes Exemplos de sons do tipo VOICED são as 5 vogais, das quais notam-se claras diferenças no pitch e na formant do sinal ao comparar o som da vogal A com o som da vogal I dispostas nas figuras abaixo:

9 Vogais e consoantes

10 Vogais e Consoantes Já os sons do tipo UNVOICED, são bem caracterizados através do exemplo do fonema S, que consta abaixo. Sons deste tipo são descritos através de AWGN – Aditive White Gaussian Noise, e possui amplitude praticamente constante em todo espectro.

11 Pitch e formantes O componente periódica da excitação glotal é caracterizado pela sua freqüência fundamental F0 [Hz], chamado pitch. As freqüências de ressonância o trato vocal, oral e da faringe são chamados formantes. No espectro de um quadro de fala, o pitch aparece como picos estreitos na fundamental e harmônicas Formantes aparecem como picos largos do envelope do espectro

12 Pitch e formantes

13 Codecs existentes Comparação rudimentar de alguns dos esquemas de codec existens na atualidade em termos de qualidade de voz e bitrate.

14 Evolução dos algoritmos

15 Linear Predictive Code Análise de predição linear de sinais de voz é o núcleo da maioria dos sistemas de codificação parametricos de voz (Celulares, VoIP, e etc). Um modelo simples de síntese da voz que tem sido usado em processamento de fala para várias aplicações de codificação.

16 Modelo do aparelho fonador Este modelo do sistema é inspirado no mecanismo humano de produção da fala. Voz sonora é produzida pela exitação do filtro do trato vocal com pulsos quasi-periódica do glote. A periodicidade da voz sonora é devido à vibração cordas vocais. Fala não articulada (não vozeada) é produzido forçando o ar através de uma constrição no trato vocal.

17 Linear Predictive Coding O trato vocal é geralmente representado por filtro digital de décima ordem do tipo somente pólos, como mostrado no modelo LPC da fala. A fala é produzida pela excitação do filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote E a fala não articulada é gerada usando o estímulo ruído aleatório ou pseudo-branco. Os coeficientes do filtro e os parâmetros de excitação são geralmente determinadas a cada 20 ms ou menos.

18 Codificador LPC

19 Decodificador LPC

20 Comparação entre real e LPC

21 LINEAR PREDICTIVE CODING O filtro digital para aplicações do linear predictive coding é caracterizado pela seguinte equação de diferenças. Os parâmetros de a i são os coeficientes do filtro e controlam as características de freqüência de resposta do filtro. Estes são determinados pela analise LPC.

22 Analise LPC

23 Derivação do algoritimo LPC O objetivo do LPC é minimizar a informação contida no sinal de exitação. Os parametros de predição a i são desconhecidos e são determinadas pela minimização Erro quadratico medio (MSE) do sinal de exitação (e(n)).

24 O sinal de excitação (e(n)) pode ser gerado apartir de um sinal de voz (s(n)) atraves da convolução com o filtro LPC inverso, o qual é um filtro FIR, com coeficientes a i (a determinar) Derivação do algoritimo LPC

25 Isto é feito tomando a deriva do sinal de energia da exitação a cada uma dos coeficientes, e igualando a zero.

26 Derivação do algoritimo LPC Isto gera uma Matriz Toepliz, que pode ser resolvida usando o algoritmo recursivo Levinson-Durbin.

27 Fittro de sintese A predição dos parâmetros a(i) também são usados para formar o filtro digital somente pólos para síntese de voz. Os coeficientes do LPC são computados resolvendo o a matriz de autorrelação, gerando o filtro:

28 Estruturas de Filtros All-Pole Filtro all-pole, forma direta. Filtro lattice – Tem a vantagem de ter maior imunidade a quantização

29 Estimação do ganho O valor do ganho a ser aplicado no sinal de exitação escolhido é determinado pelo valor RMS do sinal de exitação ideal. O qual é obtido na analise LPC, sendo o primeiro coeficiente dá matrix de autocorrelação

30 Seleção de sinal vozeado não vozeado Apartir do sinal de autocorrelação do sinal (excluindo o valor R(0)) é definido um limiar de decisão. Usualmente 0,3 do valor normalizado do vetor.

31 Estimação periodo do Pitch A fala possui uma falsa periodicidade, oque dificulta a estimativa do pitch Pode ser determinado apartir do sinal de autocorrelação do sinal, procurando os valores de pico e reptições do sinal (na faixa de 20 a 160). Como visto nas figuras abaixo.

32 Estimativa do pitch - Sinal não vozeado

33 Estimativa do pitch - Sinal vozeado

34 Code Excited Linear Prediction Explora melhor a idéia de codificação análise-por- síntese da fala, utilizando o conceito de quantização vetorial (VQ) para a seqüência de excitação. O codificador seleciona uma sequência de excitação de um codebook de seqüências pré-definidas estocásticas.

35 CELP CELP, adicionalmente, aproveita a periodicidade de sons vozeados e melhorar a eficiência do preditor. O filtro do preditor de termo longo é cascateado com o filtro de síntese, o que melhora a eficiência do codebook O mais simples preditor de longo prazo consiste de um filtro de um único polo, o qual representa um simples atraso com ganho ajustável O método de escolha dos vetores do Codebook é a analise por síntese

36 CELP : Analise por sintese O sistema varre cada um dos possíveis candidatos a sinal de excitação oriundos do gerador de excitação Identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado e o sinal de fala da entrada O Decoder correspondente é simplesmente o gerador de excitação e o filtro de sintetização.

37 CELP : Com filtro LTP Esta estrutura adiciona o filtro de predição longa (LTP), o qual é utilizado para aproveitar o fato de que o sinal de exitação tem uma alta autocorrelação na frequencia do pitch.

38 CELP : Estrutura Original A estrutura do codificador CELP original tem como filtro LTP um filtro de um pólo apenas. Essa adição aproveita o fato de que o sinal de exitação apresenta uma alta autocorelação na frequencia do pitch. Porem esse modelo é computacionalmente ineficiente.

39 CELP : Codebook Adaptativo Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parâmetros do filtro de predição longa são simplificados a busca de um vetor no codebook adaptativo.

40 CELP : Estrutura final Retirar o efeito do frame anterior deixado nas condições iniciais do filtro de sintese. Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado.E retirar o efeito desta exitação Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.


Carregar ppt "Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes."

Apresentações semelhantes


Anúncios Google