A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Grupo de Comunicações por Computador

Apresentações semelhantes


Apresentação em tema: "Grupo de Comunicações por Computador"— Transcrição da apresentação:

1 Grupo de Comunicações por Computador
Fundamentos de Áudio Sistemas Telemáticos Ano Lectivo 2002/2003 LESI Grupo de Comunicações por Computador

2 Sumário Sistema de Audição Humana Física do Som
Gravação e Reprodução Analógica Sim Digital Compressão Áudio Métodos de compressão simples MPEG

3 Materias utilizados Dr. Ze-Nian Li’s course material at: MPEG Audio:

4 Audição Humana Mecanismo deveras complexo!
Através dos ouvidos é realizada a captação das mais diversas formas de som Os nossos ouvidos transformam o som em sinais que são processados pelo nosso cérebro Vamos fazer uma descrição ligeira do nosso sistema de audição

5 A física do Som Audição Humana
O nosso sistema auditivo converte energia sonora em energia mecânica para um impulso nevorso que é transmitido para o cerébro. O ouvido tem três partes: externa, média e interna. Audição Humana

6 A física do Som Audição humana O ouvido externo
O ouvido externo compreende o pavilhão auricular e o meato acústico externo. O pavilhão capta os sons, tendo papel importante na localização espacial da fonte sonora, extremamente importante para ouvirmos em ambientes ruidosos. O meato acústico externo conduz os sons até a membrana timpânica. Audição humana

7 A física do som Audição humana Ouvido interno
Serve para transformar a energia sonora em vibrações internas do estrutura óssea da orelha média As vibrações são transformadas em ondas de compressão

8 A física do som Audição Humana
O ouvido médio compreende a membrana timpânica, a cadeia de ossículos (martelo ,bigorna e estribo) e os espaços aéreos do osso temporal, particularmente o antro mastóide e as células mastóideas adjacentes. O ouvido médio desempenha o papel de um transformador, que evita a perda de energia das ondas sonoras ao passar de um meio gasoso (ar) a um meio líquido (a perilinfa da orelha interna).

9 A física do som Audição Humana O ouvido interno
Serve para transformar a energia da onda de compressão num fluído interno do ouvido em implusos do nervo no fluído interno que podem ser transmitido ao cérebro

10 Efeito de dissimulação
Quando um som forte numa determinada frequência estimula os pelos da cóclea As frequências próximas não são ouvidas caso sejam menos significativas (de menor amplitude) Apesar do nosso ouvido captar uma certa amplitude de frequências, parte delas não são processados por causa do processo de masking

11 Termos e Conceitos básicos No âmbito do nosso sistema de audição
Sensibilidade às frequências Mais sensíveis de 1-3 KHz Directividade De onde nos chega determinado som? 0.2-3kHz Dissimulação (masking) temporal Também acontece no domínio dos tempos

12 A física do som Ondas sonoras
Uma onda mecânica é uma perturbação que viaja através dum meio transportando energia dum local para outro.

13 A física do som Ondas sonoras
Uma onda produz áreas de alta e baixa pressão Quando a onda de alta pressão atinge o timpano ele move-se para dentro Quando a onda de baixa pressão atinge o timpano ele move-se para fora.

14 A física do som Ondas sonoras
A amplitude é o máximo deslocamento positivo. Quanto maior a amplitude mais alto é som É medido em decibéis (db)

15 A física do som Ondas sonoras
O comprimento de onda (wavelength) é a distância entre dois pontos adjacentes na onda

16 A física do som Ondas sonoras 2 Hz
A frequência da onda é o número de comprimentos de onda por ciclo (normalmente um segundo) É medida em Hertz (ondas por segundo) Quanto maior a frequência maior é o tom 1 wave 2 waves t 0 secs time sec 2 Hz

17 Representação do som Domínio do tempo Domínio da frequência
Representação da variação da amplitude do sinal ao longo do tempo Domínio da frequência Representação da amplitude das diferentes frequências do sinal num determinado instante

18 Maioria dos humanos (Limiar)
A física do som A forma como os humanos se apercebem do som como forte ou fraco depende não só da frequência mas também da amplitude (intensidade). Voz Humana Limiar da dor Maioria dos humanos (Limiar) Limiar da audição (1% dos humanos) Frequência Fundamental

19 A física do som A gama normal de audição humana é entre 20Hz e 20000Hz. Aqui estão várias frequências (0 dB) 60 Hz 440 Hz 4000 Hz (-6dB: half power) (+6dB: double power) 13000Hz 20000Hz

20 A física do som A percepção do som inclui três aspectos:
Intensidade (amplitude); Tom (frequência); e, Timbre Porquê que o violino e o piano a tocar a mesma nota são tão diferentes?

21 A física do som Timbre Definido vagamente como tom, cor, textura do som que permite ao cérebro distinguir um tom de outro Afectado pelas propriedades acústicas do instrumento e da sala

22 Timbre Formas de onda complexa são construídas combinando um certo número de formas de onda mais simples de diferentes amplitudes e frequências É por esta razão que conseguimos perceber tons altos e baixos simultaneamente.

23 Timbre O som característico duma forma de onda (produzido por um piano ou um violino) é chamado o seu timbre. O timbre, também designado como a cor dum tom, é considerado rico ou cheio se o som incluir muitas frequências. Um som duma onda sinusoidal é considerado monótono por incluir apenas uma frequência

24 Timbre As diferentes frequências dum som, combinadas com as suas amplitudes variáveis, constituem o conteúdo espectral da forma de onda. O conteúdo espectral (um termo mais científico para timbre) varia normalmente com o tempo.

25 Timbre A variação das características espectrais com o tempo para uma forma de onda é a assinatura dum tom que permite a sua descrição com uma string.

26 Gravação e Reprodução Analógica
Um microfone converte as mudanças de pressão no ar em mudanças na tensão eléctrica. Produz-se um sinal analógico. Se se comparar as mudanças de pressão do ar e as mudanças de tensão eléctrica são bastante similares .

27 Gravação e Reprodução Analógica
Para gravar um som com um microfone, podemos enviá-lo para uma fita magnética que pode guardar uma réplica do sinal analógico.

28 Gravação e Reprodução Analógica
Para reproduzir a sua gravação necessita de algo que crie as diferenças de pressão no ar de forma ao nosso ouvido poder interpretá-lo como um som, isto é um altifalante áudio. Os altifalantes funcionam movendo um cone de uma posição para outra de forma consistente..

29 Gravação e Reprodução Analógica
Para mover o cone para frente e para trás o altifalante tem que ser alimentado por uma corrente eléctrica Durante a reprodução, o gravador ou o gira-discos geram a corrente que alimenta um amplificador Quando ligada ao altifalante a corrente permite reproduzir as mudanças de pressão sentidas pelo microfone durante a gravação.

30 Gravação e Reprodução Analógica
Até recentemente o som era gravado em como um sinal analógico numa cassete de fita magnética ou num disco de vinil. Um problema com este tipo de gravação é a dificuldade de gravar o sinal analógico sem adicionar ruído.

31 Gravação e Reprodução Analógica
Quando se copia gravações analógicas tem que se converter a gravação magnética num sinal eléctrico e tornar a gravar o que adiciona ainda mais ruído. A edição de som em fita é linear.

32 Digitalização do Som Quando se trabalha com audio digital há duas questões que precisam de resposta: Que qualidade é necessária? Que débito de dados pode ser tolerado? Há 3 categoriais de áudio digital : Alta fidelidade Comunicação telefónica Voz compactada

33 Digitalização do Som Áudio Digital é baseado em dois aspectos:
Amostragem (tempo) Quantificação (nível)

34 Amostragem O som natural é analógico O som digital é digital
Para conversão de analógico para digital é necessária a amostragem

35 Amostragem Uma gravação analógica (ie fita magnética) é baseada no registo da voltagem como padrões de magnetização nas partículas óxidas da fita. Uma gravação digital converte as voltagens em números binários

36 Amostragem Uma onda analógica pode ser amostrada com um número de bits pré-determinado Isto é chamado a resolução em bits do sistema Quanto mais bits maior a clareza. 8 bits correspondem a 256 níveis 16 bits correspondem a 65,536 níveis, etc.. Ganham-se 6db por cada bit 8 bits níveis = 48 dB, 16 bits 65,536 níveis = 96 dB. Para determinar a gama dinâmica de um sistema, multiplique a taxa de bits por 6.

37 Frequência de amostragem
A o ritmo de obtenção de amostras dum onda analógica é designada por frequência de amostragem É o número de amostras obtidas por segundo. A frequência de amostragem determina a largura de banda do sistema.

38 Frequência de amostragem
Quanto maior for a frequência de amostragem maior é a possibilidade de capturar as altas frequências.

39 Frequência de amostragem
Uma onda deve ser amostrada duas vezes para se obter uma verdadeira representação (Teoria de Nyquist) A frequência de amostragem deve ser pelos menos o dobro da mais alta frequência do sinal Como a gama de audição humana varia de 20 Hz a 20 kHz, uma frequência de amostragem de 44.1 Khz satisfaz teoricamente as necessidades de audio.

40 Frequência de amostragem versus armazenamento
Quando aumenta a frequência de amostragem melhora a qualidade da amostra . Com o aumento da qualidade aumenta a quantidade de espaço de armazenamento necessário. Uma velocidade de amostragem de kHz com gravação de 16 bit usa aproximadamente 5Mb por minuto. (10Mb para stereo). NOTA: norma CD. A kHz é metade.

41 Exemplos de amostragem
Música de 35 Segundos 44.1kHz 22.05kHz 16kHz 8kHz 6Hz Onda sonora gerada para estes 35 segundos.

42 Áudio de alta fidelidade
O Áudio Digital apareceu com o CD (Compact Laser Disc) A superfície dum CD virgem reflecte (espelhada) A informação digital é armazenada como buracos na superfície. Os dados são armazenados com uma única pista em espiral desde o interior para fora. Leitura a 1.2 m/s. Dados armazenados a 1 Mbit/mm2

43 Áudio de alta fidelidade
Sistemas Audio com mais de um canal chamam-se estereofónicos. . 4 canais de som em video chama-se Dolby Stereo. A versão cinema em casa é Dolby Surround Pro Logic. Os sinais dos canais de ambiente são atrasados millisegundos para dar a impressão ao ouvinte que vêm do ecrâ e não dos altifalantes.

44 Métodos Simples de Compressão
Compressão de silêncios Adaptative Diferential Pulse Code Modulation (ADPCM) CTTITT G or 32 Kbits/sec. Linear Predictive Coding (LPC) Code Excited Linear Predictor (CELP) Silence Compression - detect the "silence", similar to run-length coding Run-length encoding (RLE) is a very simple form of data compression encoding. It is based on simple principle of encoding data. This principle is to every stream which is formed of the same data values (repeating values is called a run) i.e sequence of repeated data values is replaced with count number and a single value. This intuitive principle works best on certain data types in which sequences of repeated data values can be noticed; RLE is usually applied to the files that a contain large number of consecutive occurrences of the same byte pattern. Adaptive Differential Pulse Code Modulation.A technique of translating analog sound into digital format that takes less computer memory than the regular pulse code modulation used by audio CDs.It is used on the Sony minidisk, and for CD-ROMs which have images and other data as well as sound.ADPCM takes rapid samples of sound and translates them into binary code, but instead of coding an absolute measurement at every sample point, it codes the difference between samples. linear predictive coding (LPC): A method of digitally encoding analog signals, which method uses a single-level or multilevel sampling system in which the value of the signal at each sample time is predicted to be a linear function of the past values of the quantized signal. Note: LPC is related to adaptive predictive coding (APC) in that both use adaptive predictors. However, LPC uses more prediction coefficients to permit use of a lower information bit rate than APC, and thus requires a more complex processor. Linear Predictive Coding (LPC) fits signal to speech model and then transmits parameters of model. It sounds like a computer talking, 2.4 kbits/sec. Code Excited Linear Predictor (CELP) does LPC, but also transmits error term --> audio conferencing quality at 4.8 kbits/sec.

45 Modelo Psico-Acústico
Audição e Voz Humana Sensibilidade da Audição humana Limiar da Audição Dissimulação na Frequência Dissimulação no Tempo Human hearing and voice Frequency range is about 20 Hz to 20 kHz, most sensitive at 1 to 5 KHz. Dynamic range (quietest to loudest) is about 96 dB Normal voice range is about 500 Hz to 2 kHz Low frequencies are vowels and bass High frequencies are consonants How sensitive is human hearing? To answer this question we look at the following concepts: Threshold of hearing Describes the notion of “quietness” Frequency Masking A component (at a particular frequency) masks components at neighboring frequencies. Such masking may be partial. Temporal Masking When two tones (samples) are played closed together in time, one can mask the other.

46 Limiar da Frequência Experiência :
40 30 bB 20 10 2 4 6 8 10 12 14 16 Frequency (KHz) Experiência : Uma pessoa num quarto em silêncio. Aumente a intensidade dum tom de 1 Khz até ele se tornar audível. Varia a frequência e vá registando The ear is most sensitive to frequencies between 1 and 5 kHz, where we can actually hear signals below 0 dB. Two tones of equal power and different frequencies will not be equally loud. Sensitivity decreases at low and high frequencies.

47 Dissimulação na Frequência
Experiência: Coloque um tom a 1 kHz (tom para dissimulação) com uma amplitude fixa (60 dB). Coloque o tom de teste numa frequência (1.1 kHz) e aumente a sua intensidade até se poder distinguir. Varia a frequência do tom de teste e coloque o valor de limiar de audição.

48 Frequency Masking (Contd.)
Repeat previous experiment for various frequencies of masking tones

49 Temporal Masking Se ouvirmos um som e o pararmos demora tempo até podermos ouvir um tom próximo na frequência. Enuncie a experiência a realizar Play 1 kHz masking tone at 60 dB, plus a test tone at 1.1 kHz at 40 dB. Test tone can't be heard (it's masked). Stop masking tone, then stop test tone after a short delay. Adjust delay time to the shortest time when test tone can be heard (e.g., 5 ms). Repeat with different level of the test tone and plot:

50 Efeito total da dissimulação:

51 MPEG Audio As duas técnicas avançadas de codificação áudio são baseadas em Codificação de sub-banda (SBC) Codificação de Transformada Adaptativa A codificação MPEG de Audio Tem três camadas independentes de compressão áudio Cada um tem o seu codificador SBC Correspondência entre Tempo e Frequência Modelo Psico-Acústico Quatificador

52 MPEG Audio Camada 1 Camada 2 Camada 3 usa codificação de sub-banda
usa codificação de sub-banda com quadros maiores e maior nível de compressão Camada 3 Usa tanto codificação de sub-banda como de transformada

53 MPEG MPEG-1 Audio Está concebido para tomar um sinal áudio de entrada em PCM e dependendo da camada Amostrá-lo a 32, 44.1 ou 48 kHz Codificá-lo de 32 a 192 Kbps por canal áudio MPEG-1 débito 1.5 Mbit/seg para áudio e vídeo 1.2 para vídeo e 0.3 para áudio Audio CD não compactado tem 44,100 amostras por segundo*16 bits/amostra * 2 canais > 1.4 Mbits/seg Factor de Compressão 2,7 a 24

54 MPEG Com compressão 6:1 Amostragem a 48 KHz de 16 bits stereo reduzidas a 256 Kbits/seg Sob condições ótptimas de audição, ouvintes experimentados não conseguem distinguir o clip original e codificado Suporta um ou dois canais de áudio num dos seguintes modos Monofónico – um simples canal de áudio Monofónico dual – 2 canais independentes por ex. Português e Inglês Stereo – para 2 canais stereo que partilham bits mas não usam uma codificação stereo conjunta Junção stereo- tira partido da correlação entre os dois canais

55 Algoritmo de Codificação MPEG
Input Filter into Critical Bands (Sub-band filtering Allocate bits (Quantization) Format BitStream Output Compute Masking (Psychoacoustic Model) Use convolution filters to divide the audio signal (e.g., 48 kHz sound) into 32 frequency sub-bands. (sub-band filtering) Determine amount of masking for each band caused by nearby band using the psychoacoustic model . If the power in a band is below the masking threshold, don't encode it. Otherwise, determine number of bits needed to represent the coefficient such that, the noise introduced by quantization is below the masking effect (Recall that one fewer bit of quantization introduces about 6 dB of noise). Format bitstream

56 Exemplo de Masking e Quantificação
Banda 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Nível 60 35 20 Say, performing the sub-band filtering step on the input results in the following values (for demonstration, we are only looking at the first 16 of the 32 bands): The 60dB level of the 8th band gives a masking of 12 dB in the 7th band, 15dB in the 9th. (according to the Psychoacoustic model) The level in 7th band is 10 dB ( < 12 dB ), so ignore it. The level in 9th band is 35 dB ( > 15 dB ), so send it. We only send the amount above the masking level Therefore, instead of using 6 bits to encode it, we can use 4 bits -- a saving of 2 bits (= 12 dB). “determine number of bits needed to represent the coefficient such that, the noise introduced by quantization is below the masking effect” [noise introduced = 12bB; masking = 15 dB]

57 MPEG Coding Specifics Sub-band filter 0 Sub-band filter 1 Audio
12 samples 12 samples 12 samples Sub-band filter 0 Sub-band filter 1 Audio Samples Sub-band filter 2 . . . 12 samples 12 samples 12 samples Sub-band filter 31 Layer I Frame Layer II, III Frame

58 Especificidades da codificação MPEG
Camada 1 do MPEG O filtro aplicado é um quadro (12x32 = 384 amostras) de cada vez. A 48 kHz, cada quadro contém 8ms de som. Usa a FFT com 512 pontos para obter uma informação espectral detalhada do sinal (filtro de sub-banda). Usa uma faixa de frequência igual em cada banda. Modelo psico-acústico usa apenas o masking na frequência. Aplicações típicas Gravação digital em tapes, discos que podem suportar um débito alto. Melhor qualidade conseguida com débito de 384kbps.

59 Especificidades da codificação MPEG
Camada 2 do MPEG Usa 3 quadros no filtro (anterior, actual e seguinte com um total de 1152 amostras). A 48 kHz, cada quadro transporta 24 ms de som. Modela um pouco o masking temporal. Usa a FTT com 1024-pontos para uma melhor resolução na frequência. Usa uma faixa de frequência idêntica em cada banda. Maior qualidade conseguida com um débito de 256 k bps. Aplicações típicas Difusão áudio, TV, Gravação profissional e Multimedia

60 Especificidades da codificação MPEG
MPEG Layer III Usa melhores filtros nas bandas críticas Não usa sub-bandas iguais Uses non-equal frequency bands O modelo psico-acústico Inclui efeitos de dissimulação temporal Tira partido da redundância steero Codificador de Huffman

61 Especificidades da codificação MPEG
MPEG Camada 3 Codificação da Redundância Stereo Codificação da intensidade stereo --- nos canais de frequência superior codificar a soma dos sinais da direita e esquerda em vez de os considerar de forma independente. Codificação Stereo Middle/Side – codificar a soma e a subtração dos sinais da esquerda e da direita


Carregar ppt "Grupo de Comunicações por Computador"

Apresentações semelhantes


Anúncios Google