A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CELP Artur Benneman Rafael Henrique de Moraes Feron

Apresentações semelhantes


Apresentação em tema: "CELP Artur Benneman Rafael Henrique de Moraes Feron"— Transcrição da apresentação:

1 CELP Artur Benneman Rafael Henrique de Moraes Feron
Renan dos Santos Fagundes

2 Motivação Comunicações de voz permanecer o meio predominante de comunicação humana. Proporciona a transmissão de sinais de fala com boa qualidade através de canais de comunicação com banda estreita. O sistema CELP é o núcleo da maioria dos sistema celular, e sistemas de comunicação de banda estreita(VoIP). O sistema de celular necessita cada vez mais de canais de comunicação para poder alocar mais usuarios falando simultaneamente, isso tudo sobre uma largura de espectro fixa, e uma das maneiras de conserguir alocar mais usuarios é diminuindo a banda necessaria para alocar cada usuario.

3 SINAIS DA FALA Fala é produzido por um sinal de excitação gerada em
nossa garganta, o que é modificado por ressonâncias produzidas por diferentes formatos de nosso trato vocal, nasal e da faringe.

4 Vogais e Consoantes Este sinal de excitação pode ser a vibração glotal produzido pela abertura e fechamento periódico cordas vocais o que cria voz sonora, como as vogais  ou apenas o fluxo continuo de ar empurrado por nossos pulmões, que cria a fala não articulada, tais como o consoantes, ou mesmo uma combinação de ambos ao mesmo tempo

5 Anatomia da voz As três estruturas mais importantes são os pulmões as cordas vocais e a laringe. A fonte de energia para a geração de sons é provida pelo diafragma e músculos abdominais que pressionam os pulmões e geram um fluxo de ar controlado que passa pelas cordas vocais. O mecanismo de produção da voz apresenta uma resposta limitada em freqüência, com limite por volta de 10kHz. 95% da energia do sinal de voz esta concentrada na faixa de freqüência entre 300 e 3400 Hz, pode se limitar o canal a esta banda com uma perda tolerável em qualidade. que pressionam os pulmões e geram um fluxo de ar controlado que passa pelas cordas vocais.

6 Anatomia do voz Quando o ar vibrante entra na glote há uma mudança na resistência do ar (ao abrir ou fechar a continuidade da traquéia) e isso faz o processo de modulação da voz. quando uma pessoa começa a falar, o ar é empurrado do pulmão pela força dos músculos e passa pela região vocal, que se estende da glote até a boca, incluindo as três cavidades mostradas na Figura 1.

7 Anatomia da voz O som é produzido quando a glote, que é uma abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar é interrompido e assim se cria uma seqüência de impulsos que possuem algumas freqüências básicas chamadas de tom (pitch). Nos homens estas freqüências estão entre 80 e 160Hz e nas mulheres entre 180 e 320Hz.

8 Vogais e consoantes Exemplos de sons do tipo VOICED são as 5 vogais, das quais notam-se claras diferenças no pitch e na “formant” do sinal ao comparar o som da vogal ‘A’ com o som da vogal ‘I’ dispostas nas figuras abaixo: O codebook adaptativo é uma maneira diferente de atingir efeitos similares ao filtro de predição longa (LTP). Os vetores do codebook adaptativo são formados pelo sinal de exitação deslocado de amostra em amostra (isso gera a necessidade de um buffer para o sinal de exitação). Em outras palavras, o codebook adaptativo é obtido pela rotação de uma janela retangular sobre o sinal de exitação para retirar diferentes seções do buffer. Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parametros do filtro de predição longa são simplificados a busca de um vetor no codebook adaptativo.Procedimento o qual seria de grande dificuldade computacional utilizando o filtro LTP, pois cada vetor do codebook fixo teria que ser analizado para todos os valores de pitch. O procedimento a ser executado é o seguinte: Retirar o efeito do frame anterior deixado nas condições iniciais do filtro de sintese. Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado. E retirar o efeito desta exitação. Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.

9 Vogais e consoantes

10 Vogais e Consoantes Já os sons do tipo UNVOICED, são bem caracterizados através do exemplo do fonema ‘S’, que consta abaixo. Sons deste tipo são descritos através de AWGN – Aditive White Gaussian Noise, e possui amplitude praticamente constante em todo espectro.

11 Pitch e formantes O componente periódica da excitação glotal é caracterizado pela sua freqüência fundamental F0 [Hz], chamado pitch.  As freqüências de ressonância o trato vocal, oral e da faringe  são chamados formantes. No espectro de um quadro de fala, o pitch aparece como picos estreitos na fundamental e harmônicas Formantes aparecem como picos largos do envelope do espectro

12 Pitch e formantes

13 Codecs existentes A pontuação de opinião formalmente avaliados (MOS- means opinion score) valores dos vários codecs  Comparação rudimentar de alguns dos esquemas de codec existens na atualidade em termos de qualidade de voz e bitrate.

14 Evolução dos algoritmos

15 Linear Predictive Code
Análise de predição linear de sinais de voz é o núcleo da maioria dos sistemas de codificação parametricos de voz (Celulares, VoIP, e etc). Um modelo simples de síntese da voz  que tem sido usado em processamento de fala para várias aplicações de codificação.  Ó Modelo LPC é o nucleo da maioria dos sitemas mostrados anteriormente

16 Modelo do aparelho fonador
Este modelo do sistema é inspirado no mecanismo  humano de produção da fala.  Voz sonora é produzida pela exitação do  filtro do trato vocal com pulsos quasi-periódica do glote.  A periodicidade da voz sonora é devido à vibração cordas vocais. Fala não articulada (não vozeada)  é produzido forçando o ar através de uma constrição no trato vocal.

17 Linear Predictive Coding
O trato vocal é geralmente representado por filtro digital de décima ordem do tipo somente pólos, como mostrado no modelo LPC da fala. A fala é produzida pela excitação do filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote E a fala não articulada é gerada usando o estímulo ruído aleatório ou pseudo-branco. Os coeficientes do filtro e os parâmetros de excitação são geralmente determinadas a cada 20 ms ou menos . The periodicity of voiced speech is due to the vibrating vocal chords.

18 Codificador LPC

19 Decodificador LPC As early as 1960, Fant proposed a linear model of speech production (Fant, 1960), termed as the source-filter model, based on the hypothesis that the glottis and the vocal tract are fully uncoupled. This model led to the well-known autoregressive (AR) or linear predictive (LP)2 model of speech production (Rabiner and Shafer 1978), which describes speech s(n) as the output of an all-pole filter 1/A(z), resulting from some excitation : s( n ) e( n ) 0 where and are the Z transforms of the speech and excitation signals respectively, and p is the prediction order. The excitation of the LP model (Fig. 1.2) is assumed to be either a sequence of regularly spaced pulses (whose period T0 and amplitude  can be adjusted), or white Gaus-sian noise (whose variance ² can be adjusted), thereby implicitly defining the so-called Voiced/Unvoiced (V/UV) decision. The filter 1/Ap(z) is termed as the synthesis filter and Ap(z) is called the inverse filter. S( z ) E( z )  Equation (1.1) implicitly introduces the concept of linear predictability of speech (hence the name of the model), which states that each speech sample can be expressed as a weighted sum of the p previous samples, plus some excitation contribution:

20 Comparação entre real e LPC

21 LINEAR PREDICTIVE CODING
O filtro digital para aplicações do linear predictive coding é caracterizado pela seguinte equação de diferenças. Os parâmetros de ai são os coeficientes do filtro e controlam as características de freqüência de resposta do filtro. Estes são determinados pela analise LPC. Filtro de sintese

22 Analise LPC Levinson-Durbin algoritmo que resolve matrix toepliz
Matrix que as diagonais são constantes

23 Derivação do algoritimo LPC
O objetivo do LPC é minimizar a informação contida no sinal de exitação. Os parametros de predição ai são desconhecidos e são determinadas pela minimização Erro quadratico medio (MSE) do sinal de exitação (e(n)). The prediction parameters a(i) are also used to form the all-pole digital filter for speech synthesis. The minimization of the MSE yields a set of autocorrelation equations that can be represented in terms of the matrix equation,

24 Derivação do algoritimo LPC
O sinal de excitação (e(n)) pode ser gerado apartir de um sinal de voz (s(n)) atraves da convolução com o filtro LPC inverso, o qual é um filtro FIR, com coeficientes ai (a determinar)

25 Derivação do algoritimo LPC
Isto é feito tomando a deriva do sinal de energia da exitação a cada uma dos coeficientes, e igualando a zero. N numero de amostras no frame The autocorrelation are computed once per speech frame

26 Derivação do algoritimo LPC
Isto gera uma Matriz Toepliz, que pode ser resolvida usando o algoritmo recursivo Levinson-Durbin. Para isso pode ser usados os seguintes metodos. The Gaussian elimination method. Any matrix inversion method (MATLAB). The Levinson-Durbin recursion (described below).

27 Fittro de sintese A predição dos parâmetros  a(i) também são usados ​​para formar o filtro digital somente pólos para síntese de voz. Os coeficientes do LPC são computados resolvendo o a matriz de autorrelação, gerando o filtro:

28 Estruturas de Filtros ‘All-Pole’
Filtro ‘all-pole’, forma direta. Ná pratica o filtro de sintese é calculado com uma estrutura lattice. Duas maneiras de implementar filtros all poles; O segundo é menos sensível a quantização LATTICE; Os paramentros do primeiro são tranaformados para o LATTICE LSP line spectral Pairs Filtro lattice – Tem a vantagem de ter maior imunidade a quantização

29 Estimação do ganho O valor do ganho a ser aplicado no sinal de exitação escolhido é determinado pelo valor RMS do sinal de exitação ideal. O qual é obtido na analise LPC, sendo o primeiro coeficiente dá matrix de autocorrelação

30 Seleção de sinal vozeado não vozeado
Apartir do sinal de autocorrelação do sinal (excluindo o valor R(0)) é definido um limiar de decisão. Usualmente 0,3 do valor normalizado do vetor.

31 Estimação periodo do Pitch
A fala possui uma falsa periodicidade, oque dificulta a estimativa do pitch Pode ser determinado apartir do sinal de autocorrelação do sinal, procurando os valores de pico e reptições do sinal (na faixa de 20 a 160). Como visto nas figuras abaixo. A mais cara mas também mais robusto Estritamente falando campo, é definida como a freqüência percebida fundamental.

32 Estimativa do pitch - Sinal não vozeado
Excluindo o valor em zero, A auto correlação é muito baixa. Abaixo de 0,3.

33 Estimativa do pitch - Sinal vozeado
Pontinho vermelho em 53 Logo o sinal se repete a cada 53 amostras Logo o pitch = 53

34 Code Excited Linear Prediction
Explora melhor a idéia de codificação análise-por-síntese da fala, utilizando o conceito de quantização vetorial (VQ) para a seqüência de excitação. O codificador seleciona uma sequência de excitação de um codebook de seqüências pré-definidas estocásticas.

35 CELP CELP, adicionalmente, aproveita a periodicidade de sons vozeados e melhorar a eficiência do preditor.  O filtro do preditor de termo longo é cascateado com o filtro de síntese, o que melhora a eficiência do codebook O mais simples preditor de longo prazo consiste de um filtro de um único polo, o qual representa um simples atraso com ganho ajustável O método de escolha dos vetores do Codebook é a analise por síntese

36 CELP : Analise por sintese
O sistema varre cada um dos possíveis candidatos a sinal de excitação oriundos do gerador de excitação Identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado e o sinal de fala da entrada O Decoder correspondente é simplesmente o gerador de excitação e o filtro de sintetização . Na analise por sintese de codificadores de sinais de fala, Para alcançar um melhor eficiencia, o sinal de predição residual, ou sinal de excitação, é usualmente quantizado bloco por bloco, ao inves de amostra por amostra, Onde cada bloco é tipicamente 0,5 – 10ms de comprimento (4-80 amostras a 8ksps) Cada bloco de amostras é comumente chamado de vetor O retangulo consiste de gerador de excitação seguido do filtro de sintese O sistema varre cada um dos possiveis candidatos a sinal de excitação oriundos do gerador de excitação Passando cada um deles pelo filtro de sintese e identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado E o sinal de fala da entrada Note que este é apenas a estrutura do encoder. O Decoder correspondente é simplismente o gerador de excitação e o filtro de sintetização .

37 CELP : Com filtro LTP Esta estrutura adiciona o filtro de predição longa (LTP), o qual é utilizado para aproveitar o fato de que o sinal de exitação tem uma alta autocorrelação na frequencia do pitch. A figura mostra a estrutura do codificador Analise por sintese de fala um pouco mais detalhada e generalizada Esta figura cobre a maioria dos codificadores de fala por analise por sintese, pelo menos no nivel conceitual Este modelo adicionou: 1. Adicionou um modificador de sinal de fala opicional 2. Usa minimização de erros ponderado 3. Expandiou o gerador de excitação e filtro de sintese em mais blocos O proposito do modificador do sinal de entrada é que não haja degradação apreciavel da qualidade de sinal E ainda assim fazer o resultado da pala modificada facil de codificar (oque requer uma taxa de transmissão menor, para um mesma qualidade de som percebida). Esta tecnica é usada para melhorar a eficiencia do codificador. Contudo em alguns analise por sintese codificadores de fala não usam isso, porque aumenta a complexidade e pode, ocasionalmente, causar degradação ligeiramente audível para qualidade de voz. O bloco minmizador de erro ponderado é normalmente usado para moldar o espectro do ruído de codificação assim isto segue o espectro do sinal de entrada para algum medido – um processo usualmente referido como moldagem de espetro de ruido Devido ao efeito de mascaramento do ruído sistema auditivo humano, como forma de codificação de espectro o ruído é menos audíveis aos ouvidos humanos. O gerador de forma de excitação gera vetores de excitação com todos os tipos de possíveis formas vetoriais enquanto toma ganhos (medido por um vetor normal) seja igual a um valor único ou encontram-se dentro uma estreita faixa em torno de um único valor.

38 CELP : Estrutura Original
A estrutura do codificador CELP original tem como filtro LTP um filtro de um pólo apenas. Essa adição aproveita o fato de que o sinal de exitação apresenta uma alta autocorelação na frequencia do pitch. Porem esse modelo é computacionalmente ineficiente. Esta estrutura é basicamente a mesma que o codificador Analise por sintese de fala mostrado na figura anterior Exeto pelas especificação da estruta do filtro e a função de trasnferencia são dados é aplicado sobre o sinal de exitação do filtro de sintese, esse filtro é comumente chamado de filtro de predição longa (LTP). O Codebook Adaptativo, o filtro de sintesis For convenience of later discussion of the so-called adaptive codebook, the long-term synthesis filter is reverted from a three-tap filter back to a singletap filter as used in the improved MPLPC [17.19]. The short-term synthesis filter is 1/A(z). The weighted errorminimization is explicitly separated into a perceptual weighting filter as defined in (17.3) followed by MSE minimization.Por

39 CELP : Codebook Adaptativo
Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parâmetros do filtro de predição longa são simplificados a busca de um vetor no codebook adaptativo.

40 CELP : Estrutura final Retirar o efeito do frame anterior deixado nas condições iniciais do filtro de sintese. Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado.E retirar o efeito desta exitação Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado. O codebook adaptativo é uma maneira diferente de atingir efeitos similares ao filtro de predição longa (LTP). Os vetores do codebook adaptativo são formados pelo sinal de exitação deslocado de amostra em amostra (isso gera a necessidade de um buffer para o sinal de exitação). Em outras palavras, o codebook adaptativo é obtido pela rotação de uma janela retangular sobre o sinal de exitação para retirar diferentes seções do buffer. Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parametros do filtro de predição longa são simplificados a busca de um vetor no codebook adaptativo.Procedimento o qual seria de grande dificuldade computacional utilizando o filtro LTP, pois cada vetor do codebook fixo teria que ser analizado para todos os valores de pitch. O procedimento a ser executado é o seguinte: Retirar o efeito do frame anterior deixado nas condições iniciais do filtro de sintese. Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado. E retirar o efeito desta exitação. Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.


Carregar ppt "CELP Artur Benneman Rafael Henrique de Moraes Feron"

Apresentações semelhantes


Anúncios Google