A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Fundamentos de Vídeo Sistemas Telemáticos

Apresentações semelhantes


Apresentação em tema: "Fundamentos de Vídeo Sistemas Telemáticos"— Transcrição da apresentação:

1 Fundamentos de Vídeo Sistemas Telemáticos
Grupo de Comunicações por Computador Departamento de Informática Universidade do Minho O presente captulo ira incidir sobre quest~oes relacionadas com o processamento de audio o vídeo. Inicialmente ser~ao apresentados alguns fundamentos inerentes ao audio e vídeo constituindo pois uma primeira introduc~ao a estes mesmos media. Posteriormente, e a titulo exemplicativo, sera feito um apanhado ao formato MPEG-2[23] que pode ser utilizado para a codicac~ao de audio e vdeo. Aqui ser~ao apresentadas algumas tecnicas de codicac~ao/compress~ao que s~ao essenciais para a transmiss~ao digital de audio e vdeo e para o seu processamento em ambientes computacionais.

2 Sumário Vídeo Digital e Analógico Varrimento de Vídeo
Representação de dados Vídeo MPEG-2

3 Quem está familarizado com a seguinte terminologia?
Quadro Entrelaçamento Campo Pixel Resolução Componentes DCT Luma MPEG RGB YUV / YCbCr PAL / NTSC 4:4:4 / 4:2:2 / 4:2:0 CIF / SIF SNR Quantificação Croma Difusão

4 Objectivos: Sistemas de Vídeo Uso eficiente da largura de banda
Transmissor Receptor Objectivos: Uso eficiente da largura de banda Alta percepção de qualidade da parte do telespectador

5 Funcionamento da Câmera
Um sensor que converte luz em cargas elétricas: charge coupled device (CCD). O CCD é um colecção de diodos finos e sensíveis à luz que convertem fotões (luz) em electrões (carga elétrica). Esses diodos são chamados fotocélulas (photosites?) Cada fotocélula é sensível à luz- quanto mais intensa for a luz sobre ela maior é a energia eléctria que ela acumula. A fotocélula não detecta cores: apenas é sensível à intensidade de luz que chega à sua superfície. Para obter uma imagem a cores usam filtros para distinguirem as cores primárias. Registadas as três cores, podem ser adicionadas para criar o espectro completo de cores.

6 Funcionamento da Câmera
Tubos de câmera Codificador Filtros de Cor Lentes de Zoom Luminância R Partição do Fluxo G B Crominância A Camera tem 1, 2, ou 3 tubos para amostragem – conversão A/D Com mais tubos (CCD’s) e melhores lentes produz-se melhores imagens

7 Tubo de Raios Catódicos (CRT)
A forma mais comum de mostrar imagens nos dias de hoje. O fósforo é qualquer material que quando exposto a um fluxo de electrões emite luz visível.

8 Gamma A luminância gerada por um dispositivo físico é geralmente uma função não linear do sinal aplicado. CRT: A luminância produzida no ecrã é aproximadamente proporcional ao sinal de voltagem aplicado elevado à potência de 2.5 O valor numérico do expoente desta função potência é conhecido como gamma.

9 Gamma (Cont…) Esta não linearidade tem que ser compensada para conseguir uma reprodução correcta da luminância. A relação não linear entre o valor do pixel e a intensidade mostrada que é típica do CRT. intensidade_mostrada = valor_pixel^gamma A maioria dos monitores têm um gamma entre 1.7 e 2.7 A correcção do Gamma consiste em aplicar a relação inversa à imagem antes da imagem ser mostrada i.e. calculando valor_novo_pixel = valor_pixel_velho^(1.0/gamma)

10 Gamma em Vídeo câmera transmissão terminal
Camera executa a correcção gamma O terminal impõe a função potência inversa

11 Processo de visão do ser humano
Resolução de visão do ser humano Resolução espacial da imagem: reconhecimento de detalhes de determinada imagem Resolução temporal da imagem: reconhecimento de alterações na imagem ao longo do tempo Observação Captura do reflexo da luz que é absorvido pelos olhos Processamento da informação pelo cérebro humano Focalização da imagem na retina Retina equipada com fotoreceptores, elementos que são estimulados de diferentes formas Durante o processo da vis~ao, o olho humano tem maioritariamente duas tarefas a efectuar. Primeiro, reconhecer os detalhes de uma determinada imagem, o que significa que tera que entender resoluc~ao espacial da imagem que observa, de seguida tera que reconhecer as alterac~oes na imagem, ou seja, entender a resoluc~ao temporal da imagem que corresponde as alterac~oes ao longo do tempo. O termo observac~ao envolve o processo que vai desde da captura do reexo luminoso dos objectos que e absorvido pelos olhos, ate ao processamento dessa informac~ao pelo cerebro humano. Desde da captura ate ao processamento da imagem existem uma serie de componentes do olho humano cujo objectivo final e a colocac~ao de uma imagem focada na retina para posterior processamento. A partir do momento da focalizac~ao da imagem na retina esta mesma podera ser processada pelo cerebro. Para isso a retina esta equipada com fotoreceptores que s~ao estimulados de diferentes formas.

12 Fotoreceptores Bastonetes Sensibilidade ao preto e branco
Sensíveis à alteração da intensidade de luz Cones Permitem-nos distinguir as diferentes cores Alguns cones são mais sensíveis ao vermelho, verde e azul Resolução espacial da imagem (detalhes da imagem) Distribuição dos fotoreceptores na retina Cones (centro da retina) e cones (+ nas áreas vizinhas) Para reconhecer detalhes numa determinada área é preciso olhar directamente para ela (reflexão da luz nos cones) Ollho humano menos sensível às cores Característica aproveitada por muitas técnicas de compressão Existem dois tipo de fotoreceptores. Os primeiros permitem-nos ter sensibilidade ao preto e branco, enquanto que os segundos permitem-nos distinguir as diferentes cores, havendo elementos que s~ao mais sensveis ao vermelho, ou ao verde, ou ao azul. Se a luz for reectida para um grande numero de elementos deste ultimo tipo ent~ao o olho humano podera ter uma elevada resoluc~ao espacial da imagem visto que que pequenas alterac~oes de cor podem ser reconhecidas. Os primeiros elementos (rods) ser~ao mais sensveis a alterac~ao de intensidade de luz do que a alterac~ao de cor. Os rods e cones est~ao distribuidos de diferentes maneiras pela retina. Prova-se que no centro desta havera mais cones do que nas areas vizinhas, onde existem mais rods. Esta e a raz~ao pela qual teremos que olhar directamente para uma determinada imagem por forma a reconhecer todos os detalhes. Isto leva-nos a conclus~ao que oolho humano acaba por ser menos sensvel as alterac~oes de cor. Assim se justica o porqu^e de algumas tecnicas de compress~ao de imagem reduzirem a informac~ao de cor das imagens por forma a obter menores quantidades de informac~ao para descrever uma simples imagem.

13 Percepção de Vídeo O que é o movimento suave Depende da fonte
A maioria das acções são vistas como suaves a 24qps As pessoas são mais sensíveos Às baixas frequências Mudanças na luminância e no eixo azul-laranja A visão enfatiza a detecção de as linhas de fronteira Forte propensão para linhas horizontais e verticais A visão é bastante prejudicada por variações abruptas de luminância

14 Luma A visão humana também é não linear
A sensação de luz é uma função potência da intensidade (y=xw) O CRT não linear é próximo da inversa da luminosidade humana. A codificação da intensidade no sinal com correção gamma maximiza a percepção da imagem O vídeo usa a luminância e a crominância Um componente representativo da luminância e dois outros que representam as cores. a Luminância –vs.- Luma (i.e., Y –vs.- Y’) Y é a luminância linear Y’ é a luminância com correção gamma (designada por luma)

15 Taxa de Quadros Quadro Tempo

16 Taxa de Quadros Quando se mostra uma sequência de imagens ao olho humano Se a velocidade da sequenciação for suficientemente rápida dá a sensação de movimento Este princípio é a base do cinema e do vídeo O número de imagens (quadros) mostradas por segundo é chamada taxa de quadros (frame rate)

17 Taxa de quadros 10 fps: movimento suave Cinema: 24 fps
Televisão: 30 fps ou 25 fps Depende do país

18 Resolução da Imagem A qualidade do vídeo não depende apenas da taxa de quadros É importante a quantidade de informação em cada quadro A quantidade de informação de cada quadro é a resolução da imagem Resolução Nº pixels horizontais x Nº pixels verticais 640x480, 720x480

19 Resolução 2,073,000 pixels 7,000 pixels

20 Taxa de Quadros e Resolução
Vários valores de acordo com o suporte Cassete VHS, CD-ROM, Web Muito importantes no Vídeo Digital Maior Taxa de Quadros Maior Largura de Banda Maior Resolução Mais Bits Mais Disco e Memória

21 Vídeo entrelaçado A televisão não digital usa vídeo entrelaçado
Um fluxo de electrões faz o varrimento do interior do ecrã , colidindo com uma camada de fósforo O fósforo produz luz que podemos ver A intensidade do fluxo faz variar a intensidade da luz produzida Outro aspecto essencial no contexto do vdeo digital e o conceito de entrelacamento. Este conceito e por exemplo aplicado no domínio da televis~ao. Estes baseam-se no dispositivo de raios catodicos4, onde um raio de electr~oes e projectado no ecran da televis~ao, que e composto internamente por um conjunto de particulas fosforecentes. As particulas fosforecentes ir~ao ent~ao acender-se por um curto espaco de tempo. Se considerarmos que um ecran e composto por um conjunto de linhas, acontece que, apesar de o feixe de electr~oes varrer todas as linhas rapidamente, quando este chega as linhas inferiores ja os pontos das linhas superiores se apagaram, dando a sensac~ao de uma quebra na imagem. Para evitar tal situac~ao utiliza-se a tecnica de entrelacamento, em que uma imagem e dividida em duas partes: um conjunto de linhas de posic~ao mpar e um conjunto de linhas pares, cada uma delas contendo informac~ao respeitante a metade da imagem (ver gura 2.4). Ambas as partes s~ao projectadas no CRT, uma atras da outra, permitindo que quando as linhas superiores comecem a desaparecer ja existe informac~ao semelhante na sua vizinhanca.

22 Vídeo entrelaçado O varrimento do ecrã pelo fluxo de electrões
Demora um certo tempo percorrer todas as linhas e regressar ao início No início da TV a persistência do fósforo disponível era muito fraca Foi usada como solução o varrimento entrelaçado

23 Varrimento entrelaçado
1 Quadro com dois campos ímpar e par 25 quadros/seg equivalente a 50 campos/seg

24 Campo e Quadro Porque são tão importantes?
Se o produto vai ser usado em TV, o software tem que ser capaz de produzir vídeo entrelaçado Calcular a partir de cada quadro os campos ímpar e par Os computadores usam vídeo não entrelaçado Varrimento progressivo Nesse caso não é necessário calcular os campos

25 Varrimento progressivo

26 Modelos de Cor: RGB e YCC
Formato mais popular Usado pelos PCs Cada pixel produzido pela luz proveniente de fósforo vermelho, azul e verde bastante próximos Como estão bastante próximos são vistos pelos nossos olhos como uma única cor. Chamados frequentemente como os três canais duma imagem digital. Um modelo de cores e basicamente um modelo teorico descrevendo a forma como separar uma determinada cor em diferentes componentes, denindo igualmente o signicado de cada um desses componentes. Existem dois tipos de modelos de cores que s~ao usados em vdeo digital: RGB e YUV/YCrCb. O modelo RGB e geralmente usado em ambientes computacionais, enquanto que o YUV esta mais relacionado com os ambientes de televis~ao

27 A TV não usa RGB? No princípio só TV a preto e branco
Na realidade tons cinzento entre preto e branco Única informação enviada é o brilho de cada ponto Quando aparece TV a cores... Milhares de receptores a preto e branco Migração gradual para nova tecnologia Em vez de transmitir a cores usa-se o YCC Y (Luminância ou brilho) e os dois canais de cor (crominância); permite cor e compatibilidade com preto e branco Um modelo de cores e basicamente um modelo teorico descrevendo a forma como separar uma determinada cor em diferentes componentes, denindo igualmente o signicado de cada um desses componentes. Existem dois tipos de modelos de cores que s~ao usados em vdeo digital: RGB e YUV/YCrCb. O modelo RGB e geralmente usado em ambientes computacionais, enquanto que o YUV esta mais relacionado com os ambientes de televis~ao

28 Crominância Característica da imagem que é definida por dois valores: coloração e saturação. A coloração é a parte de luz reflectida por um objecto. Este absorve luz e reflecte apenas uma parte do espectro visível. A saturação define a proporção de branco que uma côr contém. Quanto maior for a percentagem de branco, tanto menor será o seu brilho. As placas gráficas de qualidade tratam a crominância e a luminância de forma muito aperfeiçoada. Excerto extraído da obra Multimedia de A a Z, de Carlos Correia, Ed. Notícias, Lisboa, 1997

29 Espaço de cores RGB Baseado nos componentes vermelho ( Red), verde (Green) e azul (Blue) A escolha básica para os gráficos em computador Não usa eficientemente a largura de banda Precisa duma correcção Gamma para os CRTs Não linearidade dos CRTs No modelo RGB cada pixel do ecran tem um valor RGB correspondente, sendo este dividido em tr^es componentes que denem valores para o vermelho, verde e azul. Nos ambientes computacionais, por forma a ser possvel reproduzir todas as cores que o olho humano pode captar no mundo real, foi denido que cada componente de cor deveria ser descrito em 8 bits. Isto resulta numa combinac~ao de 224 cores diferentesque podem ser representadas neste sistema. No entanto para algumas aplicac~oes o modelo RGB tem algumas desvantagens. Um dos problemas e que s~ao precisos os mesmos numeros de bits para cada componente por forma a reproduzir todas as cores possveis. De igual forma o modelo RGB n~ao se adequa totalmente a determinadas aplicac~oes, como a televis~ao. Se se pretendesse aumentar o brilho de uma imagem de televis~ao atraves de um comando remoto de RGB, isto signicaria que era preciso incrementar todos os componentes RGB de todos os pixeis na mesma proporc~ao. Assim, existem outros modelos de cores como o caso do YUV/YCrCb.

30 Espaço de Cores RGB Vermelho Amarelo Verde Cyan Azul Violeta RG B Cada pixel no ecrã tem o valor RGB correspondente, sendo dividido em Componentes de 8bits cada (podem ser representadas 224 cores) Red Green Blue

31 { { Espaço de Cores YUV Y = 0.299R’ + 0.587G’ + 0.114B’
Baseado no componente preto e branco (Y) e informação de cor (U e V) Usado nas normas para TV a cores NTSC, PAL e SECAM Derivado do sinal RGB com a correcção gamma U e V sub amostradas para reduzir bitrate. { Y = 0.299R’ G’ B’ U =-0.147R’ G’ B’ V = 0.615R’ G’ B’ { Y = 0.299R’ G’ B’ U = ( B’ - Y ) V = ( R’ - Y ) O modelo YUV separa a informac~ao de cor de uma forma diferente do que e proposto pelo RGB. Em vez de separar em componentes de vermelho, verde e azul, cada cor e separada em intensidade (Y) e duas componentes de cor (U e V). O componente Y, que e basicamente informac~ao preto/branco, e tambem designado por lumin^ancia. Os componentes U e V s~ao denominados por cromin^ancia. Para o ambiente da televis~ao este modelo de cores traz algumas vantagens relativamente ao anterior. A primeira e que e facil o suporte a ecrans preto e branco e a ecrans de cores. Um ecran preto/branco so tera de usar informac~ao de lumin^ancia dosinal, enquanto um ecran a cores usara os dois tipos de informac~ao. O modelo YUV adequa-se melhor na nossa percepc~ao a cor visto que o nosso sistema de vis~ao esta habituado a lidar com os componentes de brilho e cor separadamente. As tecnicas de compress~ao adoptadas pelos formatos MPEG-1 e MPEG-2 lidam com informac~ao sob o modelo YUV3. Relacionado com o modelo YUV temos o modelo YCrCb que e denido pela recomendac~ao ITU-R 601. Da mesma forma Y, Cr e Cb podem ser derivados do modelo RGB aplicando somas e multiplicac~oes.

32 Espaço de cores YCbCr Desenvolvido como parte da norma ITU-R BT.601, para componente digital de video Os sinais YCbCr são obtidos com uma variação de escala e de posição a partir do YUV Usado pela maioria das normas de compressão de imagem (JPEG, H.261, MPEG) Vários formatos de amostragem, tal como 4:4:4, 4:2:2 e 4:1:1 (tb 4:2:0) Os formatos de amostragem implicam as proporções da velocidade de amostragem de Y, Cb e Cr

33 Formatos de vídeo analógico
Devido aos problemas de ruído nos sinais analógicos O tipo de ligações entre dispositivos analógicos é extremamente importante Tipos de ligações analógicas Vídeo Composto S-Vídeo Vídeo com Componentes

34 Vídeo Composto Tipo mais simples é o cabo composto
Um único cabo transporta todo o sinal Os sinais de luminância e crominância são compostos e transportados num único sinal É inevitável alguma interferência entre os dois sinais. É a ligação de menor qualidade porque junta os dois sinais.

35 S-Vídeo Um compromisso entre os dois anteriores. Usa duas linhas uma para luminância e outra para o sinal composto de crominância Ligação com melhor qualidade que a do vídeo composto a luminância vai num único fio Os sinais de cor são combinados e transportados noutro fio Os fios separados são encapsulados num único cabo

36 Vídeo com componentes É a ligação de maior qualidade
Cada um dos sinais do espaço YCC são transportados em cabos diferentes. – cada cor primária é enviada como um sinal separado de vídeo. As primárias tanto podem ser RGB ou uma transformação com base na luminância e crominância (i.e., YIQ, YUV). Melhor reprodução das cores Requer mais largura de banda e uma boa sincronização entre os três componentes.

37 Que ligação usar? Escolher o tipo de ligação de acordo com a qualidade da gravação Quanto maior a qualidade de gravação ... melhor deve ser a qualidade da gravação No próximo slide: Formatos analógicos versus tipo de ligações

38 Formatos de vídeo analógico
Formato da cassete Formato de Vídeo Qualidade Aplicação VHS Composto Boa Video em casa S-VHS Hi-8 S-Vídeo Melhor Vídeo industrial BetaSP Componente A melhor Vídeo industrial, Difusão

39 Normas de Difusão 3 normas de TV usadas no mundo
NTSC (National Television Standard Commitee) PAL (Phase Alternative Line) SECAM Normalmente não nos preocupamos com isso Os receptores, gravadores e câmaras são conforme a norma usada no País

40 Normas de difusão Em algumas situações a norma usada é importante
Produção de conteúdos para o mercado internacional Podemos fazer conversões mas com degradação de qualidade Diferenças na resolução e taxa de quadros Existem várias normas por razões técnicas e administrativas

41 Normas de Difusão Formato de difusão Países Linhas Taxa de Quadros
NTSC us,ca,jp, kr,mx 525 29.97 fps PAL Eu (*),pt au, américa do sul, ch 625 25 fps SECAM fr, África (*) , médio oriente

42 Normas de difusão O formato SECAM é usado apenas para difusão
Nesses países usa-se o PAL para gravadores e câmaras Formato de cassete é diferente do formato de difusão O VHS pode suportar tanto o PAL como o NTSC

43 Vídeo no PC O PC só entende o formato digital
Qualquer vídeo que queiramos manipular tem que ser convertido previamente para digital As fontes podem ser digitais ou analógicas

44 Dispositivos analógicos
As câmaras de vídeo tradicionais Gravam o que vêm e ouvem no formato analógico Se usarmos uma fonte analógica Câmara ou gravador Precisamos duma placa de aquisição de vídeo Uma vez processado o vídeo pode ser armazenado em Formato digital para o Web Formato analógico como VHS ou Beta-SP

45 Dispositivos digitais
As câmaras de vídeo digital traduzem já as cenas capturadas em formato digital O formato usado pela câmara no seu interior pode ser manipulado pelo computador O formato mais usado é o DV A ligação de um PC a um dispositivo digital (câmara ou gravador) É mais simples que os analógicos Trata-se duma simples comunicação Usa-se a interface IEEE 1394 (FireWire)

46 Compressão de Vídeo Um único quadro de vídeo não compactado ocupa 1 Mbyte 720*486*3 bytes= bytes ~1 MByte 1 segundo de vídeo (PAL)= 25 MBytes 1 minuto de vídeo (PAL) = 1,5 GBytes Para manipular vídeo não compactado Precisamos dum disk-array com terabytes Largura de banda da ordem de 200 Mbit/seg 25 Mbytes *8 = 200 Mbits

47 Compressão de vídeo Objectivo
Reduzir a quantidade de dados mantendo a qualidade da imagem alta Taxa de compressão Depende de como se vai usar o vídeo Formato DV 5:1 Tamanho original= 5* tamanho compactado Vídeo no Web: 50:1 ou maior

48 Tipos de Compressão Simples
Reduzir o tamanho do quadro Uma imagem 320x240 Tem apenas um quarto do tamanho duma imagem 640*480 Reduzir a taxa de quadros Uma taxa de 15 fps metade dos dados de outra com 30 fps Não resulta se quisermos Visualizar o vídeo num monitor de TV com toda a resolução e 25 fps

49 Compressão de Vídeo O olho humano é mais sensível a mudanças na luminância que na cor A maior parte dos esquemas de compressão tiram partido disso.. Compressão intra-quadro Cada quadro é compactado per si Mesmas técnicas que as usadas para compactar imagens Compressão inter-quadro Um quadro é com grande probabilidade bastante similar aos quadros à sua volta Envia-se apenas as diferenças relativamente ao quadro anterior

50 Redundância entre quadros
Image 1 Image 2 Image 3

51 Codecs A compressão e descompressão de vídeo é feita usando os codecs
Codecs podem ser em hardware ou em software Alguns têm um débito de dados fixo Outros têm um débito ajustável Mais apropriados para edição

52 Codecs vídeo e aplicações
Formato Resolução Tipo de Compressão Débito Aplicações MPEG 720x486 Intra-quadro Mbps Geral MPEG-1 352x240 Mbps CD-ROM, Web MPEG-2 720x480 Intra e Inter quadro 0.01-2 Mbps DVD, TV Satélite DV 3.5 Mbps Industrial, Difusão, consumidor DI Nenhuma 25 Mbps Difusão

53 Video Digital Vantagens: Sem degradação de qualidade no tempo
Sem degradação da qualidade na transmissão Acesso aleatório directo  bom para edição não linear de vídeo Sem problemas na gravação repetida (cópia) Sem necessidade de blanking e pulso de sincronismo Quase todos vídeos digitais usam vídeo composto

54 Varrimento Video O vídeo é obtido através de raster scanning, que transforma um sinal 3-D signal (função de x, y, e t) num sinal unidimensional que pode ser transmitido. Varrimento progressivo: esquerda para direita e cima para baixo -> amostragem Amostras através do tempo : quadros Amostras através de y: linhas Amostras através de x: pixel Nós vemos a imagem como contínuas não como discretas: o sistema visual humano faz a interpolação! Quantos quadros, linhas, pixels ? Varrimento Progressivo

55 Varrimento Video (Cont…)
Se a taxa de quadros for baixa - > movimentos flickering and jagged Compromisso entre resolução espacial e temporal Objectos com movimento lento com alta resolução espacial Objectos com movimento rápido com alta resolução temporal (e menor resolução espacial) Varrimento entrelaçado: varrimento de todas linhas pares e depois todas as linhas ímpares. Um quadro dividido em 2 campos (amostrados em instantes diferentes) Varrimento entrelaçado (par) Varrimento entrelaçado (ímpar)

56 Varrimento Vídeo (Cont…)
Quantificação (a) 2, (b) 4, (c) 8, (d) 16, (e) 32, (f) 64 Níveis de quantificação

57 Varrimento Vídeo (Cont…)
Subamostragem do Chroma : sistema visual humano é mais sensível à luminância que à crominância Podemos sub-amostrar a crominância 4:4:4 – Sem sub-amostragem 4:2:2, 4:1:1 – sub-amostragem horizontal 4:2:0 – sub-amostragem horizontal e vertical 4:2:2 Em vídeo digital, para cada pixel havera um conjunto de componentes, por exemplo Y, Cr e Cb. No entanto para algumas aplicac~oes, tal como a difus~ao da Televis~ao, a informac~ao respeitante a cor podera ser menos precisa do que a informac~ao respeitante a lumin^ancia. Neste caso podera optar-se por atribuir informac~ao de cor simplesmente aos segundos pixeis da imagem. Este metodo e designado por 4:2:2. Esta notac~ao descreve a relac~ao entre o numero de amostras relativas a lumin^ancia e a cromin^ancia enquanto se digitaliza uma imagem de vdeo: Amostragem 4:4:4 : Neste caso, lumin^ancia e cromin^ancia est~ao presentes para cada pixel. Amostragem 4:2:2 : Neste caso, a informac~ao de lumin^ancia esta presente para todos os pixeis, enquanto a informac~ao relativa a cor esta presente unicamente para os segundos pixeis na direcc~ao horizontal. A gura 2.2 ilustra este caso. Amostragen 4:1:1 : Neste caso a informac~ao relativa a cor ainda e mais reduzida, estando unicamente presente no quarto pixel. O formato 4:2:0 COMUN. e um caso especial do 4:1:1, em que os valores da cromin^ancia s~ao calculados baseados nas amostras dos valores de limun^ancia. 4:1:1 4:2:0

58 Normas para Video HDTV CCIR 601 NTSC PAL CIF QCIF Resolução da
Luminância 1920 x 1080 720 x 486 720 x 576 352 x 288 176 x 144 Crominância 960 x 540 360 x 486 360 x 576 88 x 72 Sub-amostragem de cor 4:2:2 4:2:0 Campos/seg 60 50 30 Relação Aspecto 16:9 4:3 Entrelaçamento Sim Não A recomendac~ao ITU-R (antigo CCIR) 601 define os par^ametros basicos para a digitalizac~ao de vídeo analogico. Assim, cobre os dois maiores standards de TV5(PAL -625 linhaspor frame e 25 frames por segundo- e NTSC -525 linhas por frame e 30 frames por Segundo de vídeo. Alem destas caractersticas o ITU-R 601 dene igualmente o modelo de cores YCrCb descrevendo as diferentes formulas para derivar os valores de Y, Cr e Cb a partir de valores RGB. Recomendac~oes CIF e SIF O Source Input Format (SIF) e o Common Interchange Format (CIF) s~ao formatos de vdeo digital denidos pelo MPEG-1 e pela recomendac~ao ITU-H.261 para vdeo confer^encia. O formato CIF foi desenvolvido no contexto da recomendac~ao ITU-T H.261 de modo a existir um formato comum para o qual frames em PAL e em NTSC pudessem ser convertidos. CCIR – Consultative Committee for International Radio CIF – Common Intermediate Format (approximately VHS quality)

59 Grupos de Normalização
ITU-T – ITU Telecomunicações Antigo CCITT ITU-R – ITU Comunicações Rádio Antigo CCIR FCC SMPTE - Society of Motion Picture and Television Engineers … e muitos mais!

60 Débito de dados para vídeo
Exemplo 1 720x485 = 349,200 pixels/quadro Amostragem 4:2:2 dá 698,400 bytes/quadro 21 MB/sec (167 Mbs) Amostragem 4:4:4 dá 250 Mbs Exemplo 2 1280x720 = 921,600 pixels/quadro Amostragem 4:2:0 dá 1,382,400 bytes/quadro 41 MB/sec (328 Mbs) (Nota: fluxos codificados MPEG estão entre Mbs)

61 Débito de dados para vídeo (Cont…)
Exemplo 3 720x1280 = 921,600 pixels por quadro Amostragem 4:2:2 = 1,843,200 bytes por quadro 24 fps = 44,236,800 bytes por segundo 44 MB/s = 354 Mbs Exemplo 4 1080x1920 = 2,073,600 pixels por quadro Amostragem 4:4:4 = 6,220,800 bytes por quadro 30 fps = 186,624,000 bytes por segundo 187MB/s = 1.5 Gbs

62 Representações de Vídeo Digital
Vídeo Digital Composto (D2/D3,SMPTE 244M) 142 Mb/s débito de dados, paralelo ou série Sub-amostragem dos sinais de cor 4:2:2 Vídeo Digital em componentes (D1/D5,SMPTE RP125) Mantém sinais separados para luma e chroma 270 Mb/s débito de dados, paralelo ou série Video Digital Compactado MPEG, MJPEG, H.26x, DV, …

63 Conversão de Formatos A conversão entre diferentes formatos é um problema de interpolação, resolvido com técnicas de interpolação. Exemplo: transferência dum filme para cassete vídeo: Filme: 24 quadros/segundo Vídeo: 30 quadros/segundo 5 quadros de video criados a partir de 4 quadros do filme 2-3 e 3-2 pulldown: duplicação de campos , não quadros NTSC -> PAL: 60 HZ -> 50 Hz, PAL -> NTSC: 50 Hz -> 60 Hz

64 Formato MPEG-2 Enquadra-se no âmbito das tecnologias de compressão e definição da sintaxe de informação Transmissão de áudio e vídeo em redes de comunicação Engloba oito normas Abordagem ligeira: MPEG-2 Áudio MPEG-2 Vídeo Técnicas utilizadas para codificar/comprimir os dados de audio e vídeo Adequação a diferentes tipos de serviços de comunicação Os standard MPEG-2 enquadra-se no ^ambito das tecnologias de compress~ao e definic~ao de sintaxe da informac~ao que permitem a transmiss~ao de audio e vídeo em redes de comunicac~ao. Esses standards abragem tambem aspectos genericos que v~ao desde a sincronizac~ao dos media ate a utilizac~ao de circuitos de redes para o transporte de vídeo e audio. De entre os conceitos abrangidos por esta secc~ao salientam-se: Funcionalidades Vdeo: Esta sec~ao ira abordar a hierarquia de objectos utilizados na compress~ao MPEG-2 de vdeo (sequencias, grupos de imagens, blocos, macroblocos etc.). Os metodos de compress~ao utilizados e as tramas de bits resultantes ir~ao posteriormente ser analisados. anteriores. O MPEG-2 e muitas vezes associado unicamente com as quest~oes de compress~ao de vídeo. Na realidade, o MPEG-2 engloba um conjunto de standards que se extendem muito alem das quest~oes de vídeo. No total existem oito diferentes partes do MPEG-2 que cobrem aspectos da representac~ao e transmiss~ao de audio e vdeo. A nossa abordagem vai ser ligeira, naturalmente

65 MPEG-2 Vídeo: Visão Geral
. O maior objectivo do MPEG-2 Vídeo e a definic~ao de um formato que possa ser usado para descrever uma sequ^encia de bits de uma imagem codicada. Esta sequ^encia de bits e o resultado de um determinado processo de codicac~ao, que comprime os dados de um conjunto de imagens de vdeo. Aquando do desenvolvimento de MPEG-2, um dos requisitos presentes seria tornar o processo sucientemente exivel de modo a suportar uma serie de aplicac~oes de vdeo, como: Servicos Broadcast (satelites) TV distribuida por cabo Servicos de Televis~ao Interactiva Desta forma, exibilidade pretendida devia resultar no suporte a diferentes resoluc~oes de vídeo, diferentes capacidades do equipamento, limitac~oes de largura debanda etc. Desta forma o standard MPEG-2 deveria ser generico fornecendo um conjunto de ferramentas que pudessem ser combinadas de diferentes formas. O standard de vídeo MPEG-2 engloba assim os seguintes aspectos: Denfiic~oes Basicas, Sintaxe de Vdeo MPEG-2, Descric~ao sem^antica dos elementos da sintaxe, Mecanismos de descodicac~ao do vdeo (incluindo descodicac~ao interlacada e progressiva). Scalability Extensions: Diferentes modos e respectivas operac~oes. Diferentes perfs e nveis: Denic~ao de diferentes subconjuntos do vdeo MPEG- 2Destes pontos ir~ao ser abordados de forma generica apenas os aspectos mais essenciais no contexto do MPEG-2.

66 Princípios Gerais Tirar partido da Níveis de detecção da visão humana
Redundância espacial Redundância temporal da imagem

67 MPEG- Instrumentos de Compressão
Mediante: DCT-Quantificação-Codificação VL Codificação Huffman Estimação de Movimento } Imagens tipo I Imagens tipo B e tipo P

68 MPEG2- Vídeo Definição de um formato usado para descrever uma sequência de bits de imagens codificadas Gama heterogénea de aplicações Serviços de Difusão (Satélites) TV por Cabo Televisão Interactiva Estrutura a informação vídeo em diferentes objectos Sequência Vídeo, Quadro, Imagem, Bloco, MacroBloco, Pedaços (Slices) Cada objecto tem uma sintaxe própria e uma posição na hierarquia

69 MPEG-2 Video: Escabilidade
Utilização de diferentes camadas de vídeo complementares Utilização de vários fluxos com qualidade de vídeo diferentes Escala espacial Possibilidade de ter diferentes resoluções de vídeo Escala temporal Possibilidade de usar diferentes frequências de actualização de vídeo Diferentes qualidades no transporte de informação Canais fiáveis para camadas com informação base Canais menos fiáveis para camada com informação extra (elevada qualidade de vídeo)

70 MPEG-2 Vídeo Sempre que possível usar informação base+extra
Em casos de congestão, perdas A salvaguarda camada de base é suficiente para uma qualidade aceitável Estabelecer correspondências das diferentes camadas de vídeo em níveis de serviço com diferente QoS das infra-estruturas de comunicação utilizadas

71 MPEG-2 Video: Hierarquia de Objectos
Sequência Vídeo= conjunto de imagens Quadro Contém informação de crominância e luminância para mostrar a imagem no ecrã (tabelas variáveis consoante o tipo de amostragem isto é 4:4:4, 4:2:2) Imagem Conjuntos de macroblocos organizados em pedaços MacroBloco Conjunto de blocos (respeitantes a informação de luminância(Y) e crominância(Cr+Cb)) Diferentes tipos de macroblocos 4:2:2 -> 4 blocos de Y+ 2 blocos de Cb+ 2 blocos de Cr 4:4:4 -> 4 blocos de Y+ 4 blocos de Cb+ 4blocos de Cr O MPEG-2 lida com um conjunto de objectos que s~ao utilizados para estruturar a informac~ao vídeo. Video Sequence: Representa um conjunto de imagens (pictures). Frame: Contem toda informac~ao de cromin^ancia e lumin^ancia necessarios para efectuar o display da imagem no ecran. Composto por tr^es matrizes que cont^em valores para Y, Cr e Cb. A dimens~ao destas varia consoante o tipo de amostragem efectuada

72 MPEG-2 Vídeo: Hierarquia de Objectos
Bloco Oito linhas Cada linha contém oito amostras respeitantes a valores de luminância ou crominância Pedaço (Slice) Conjunto de macroblocos Contém informação de localização (no ecrã) a que dizem respeito às amostras presentes nos macroblocos Permitem actualizações parciais da imagem Em caso de perda de informação, poder-se-á usar informação de alguns pedaços para actualização Tentativa de diminuir impacto de perdas de pacotes durante a transmissão de vídeo Sobrecarga de informação na transmissão Picture, Macroblocks and Blocks: Uma picture e dividida num conjunto de (blocks), que s~ao agrupados em macroblocks. Cada block contem oito linhas, cada linha contendo oito amostras relativas a valores de lumin^ancia ou cromin^ancia. Isto resulta num total de 64 valores para lumin^ancia ou cromin^ancia. Quatro blocks com valores de lumin^ancia, mais um conjunto de blocks com valores de cromin^ancia, formam um macroblock. O numero de blocks de cromin^ancia de um determinado macroblock varia consoante o formato de digitalizac~ao do vdeo: Macroblock 4:2:0 : composto por quatro blocos de lumin^ancia e dois blocos de cromin^ancia. Macroblock 4:2:2 : composto por quatro blocos de lumin^ancia e quatro blocos de cromin^ancia. Macroblock 4:4:4 : composto por quatro blocos de lumin^ancia e oito blocos de de cromin^ancia. Os diferentes formatos dos macroblocks s~ao apresentados na gura 2.7. Cada block tem um numero que indica a sequ^encia pela qual esse bloco foi codicado no MPEG-2. Os referidos macroblocks s~ao usados para o processo de construc~ao de uma ima- gem (picture). Slices: Estes elementos s~ao constituidos por uma conjunto de macroblocks. Estes especicam a localizac~ao (no ecran) da informac~ao presente nos macroblocks. Destaforma, se durante a transmiss~ao se perder alguma informac~ao da imagem e possvel aproveitar alguns slices para actualizar partes da imagem. No fundo e um mecanismo que tenta diminuir o impacto das perdas de informac~oes durante o processo de transmissa~o. Como desvantagem temos o aumento de informac~ao redundante.

73 MPEG Vídeo: Estrutura do Fluxo de bits codificado
GOP-1 GOP-2 GOP-n Camada de sequência I B B B P B B.. Camada de Grupo de Imagens (GOP) Camada de Pedaço (slice) Slice-1 Slice-2 Slice-N Sequence layer: picture dimensions, pixel aspect ratio, picture rate, minimum buffer size, DCT quantization matrices GOP layer: will have one I picture, start with I or B picture, end with I or P picture, has closed GOP flag, timing info, user data Picture layer: temporal ref number, picture type, synchronization info, resolution, range of motion vectors Slices: position of slice in picture, quantization scale factor Macroblock: position, H and V motion vectors, which blocks are coded and transmitted mb-1 mb-2 mb-n Camada de Macrobloco 1 4 5 2 3 Camada de Imagem Blocos 8x8

74 MPEG-2 Vídeo: 3 tipos de Imagens
Imagens intra-codificadas (Intra-Coded Pictures) ou tipo I Imagens que podem ser descodificadas só por si Imagens codificadas com informação prévia (Predictive-Coded Pictures) ou tipo P Imagens que são descodificadas tendo conhecimento de informação anterior Imagens bidireccionais (Bidirectionally Predictive Pictures) Tipo B Codificador tem acesso a imagen(s) seguinte(s) Introdução de interdependência de imagens (elevado grau de complexidade na codec) Há níveis MPEG-2 onde não são permitidas Existem tr^es tipos de imagens no vdeo MPEG-2: Intra-coded Pictures: (I-pictures) Imagens que podem ser descodicadas sem se ter conhecimento sobre as imagens anteriores ou posteriores, ou seja, toda a informac~ao sobre a imagem esta presente nos bits que a descrevem. Os blocks que compo^em a imagem denominam-se por intra-blocks. Predictive Coded Pictures: (P-pictures) Imagens que s~ao descodicadas utilizando informac~ao de imagens anteriores. Ou seja existem macroblocks que s~ao calculados atraves de macroblocks de imagens anteriores (denominam-se por predictive macroblocks). Isto e possvel atraves de tecnicas denominadas por motion estimation que ser~ao abordadas posteriormente. Imagens deste tipo usualmente rondam os 50 por cento do tamanho das I-Pictures. Bidirectionally Predictes Pictures: (B-Pictures) Semelhantes as anteriores com a funcionalidade adicional de utilizarem informac~ao de imagens posteriores . Isto e possvel devido ao facto que na altura de codicac~ao da imagem o codicador ja tera acesso a informac~ao de algumas imagens seguintes. Este tipo de imagem ronda os 50 por cento do tamanho das P-Pictures. E obvio que neste tipo de imagens o receptor tera que ter o conhecimento de imagens posteriores a n antes de poder processar a imagem n. Em situac~oes de transmiss~ao em tempo-real este processo introduz um atraso que tera de ser limitado por forma a n~ao alterar a percepc~ao humana das imagens.

75 MPEG-2 Vídeo: Mecanismos de Compressão
Remoção de informação invisível ao olho humano Remoção de informação de cor (alterações de cor de elevada frequência) Técnica DCT (Discret Cosine Transformation) para aproximar os valores de luminância e crominância nos blocos Factor de Escala: possibilidade de usar resoluções diferentes para diferentes macroblocos Tabelas de codificação de tamanho variável Representar com menor número possível de bits a informação quantificada (padrões mais frequentes devem ter codificações mais curtas) ex. Código de Huffman

76 Fourier (Fundamentos de Telecomuncações)
Uma forma de onda periódica (ou qualquer se se considerar o período  ), pode ser expressa como uma soma de componentes sinusoidais,cada uma delas expressas com sua amplitude, frequência e fase

77 Trasformada Discreta do Coseno (DCT)
Passa do domínio do tempo para o domínio da fequência e divide a forma de onda na sua componente da frequência. Elimina a componente em seno. A DCT não efectua qualquer compressão. Apenas transforma o pixel de forma a ser possível identificar a redundância Nem todas as frequências espaciais estarão presentes. Usando a DCT haverá alguns coeficientes com valor relevante mas a maioria será muito próxima de zero. Remoc~ao de informac~ao que e invisvel para o olho humano: Como tinha sido referido o olho humano e pouco sensvel a alterac~oes de cor de elevada frequ^encia. A ideia sera pois aproveitar esta caracterstica para reduzir a informac~ao relativa a uma determinada imagem. O MPEG-2 utiliza um metodo, que e baseado em DCT , para aproximar os valores de lumin^ancia e cromin^ancia nos blocks. Em vez de se utilizar a cor real para cada bloco e calculado um conjunto de coecientes de frequ^encia. Este conjunto descrevera as transic~oes de cor num determinado block. Dividindo esses coecientes por um determinado valor, e apos arredondamento, alguns deles poder~ao desaparecer. E neste passo que se elimina alguma informac~ao que se cr^e ser inutil. Este processo e denominado por quantizac~ao e os factores s~ao fornecidos por matrizes de quantizac~ao. Existem matrizes de quantizac~ao denidas pelo MPEG-2, mas e tambem possivel a denic~ao de novas matrizes. Assim os blocos ser~ao submetidos a tecnica DCT, cujo resultado seraposteriormente quantizado resultando deste processo uma matriz que pode ser ecientemente comprimida (ver gura 2.9). Este processo pode ser ajustadoatraves de um factor de escala, que permite ao utilizador ajustar o nvel dequantizac~ao (e assim diminuir ou aumentar o factor de compress~ao de uma ima-gem). Cada slice tera o seu factor de escala, podendo o mesmo acontecer com cada macroblock. Isto podera ser util para a exist^encia de partes da imagem com um maior ou menor grau de detalhe onde se podera diminuir ou aumentar,respectivamente, o factor de escala. A explicac~ao detalhada do funcionamento dos DCT em conjunc~ao com as ta- belas de quantizac~ao e um processo complexo que esta fora do ^ambito desta disciplina. O que importa realcar e que a matriz quantizada resultante ira con- ter um numero consideravel de zeros. Ainda assim, os nossos blocks continuam a conter, para os 64 valores iniciais, 64 coecientes, alguns deles a zero. A re- duc~ao de bits para representar esta informac~ao e obtida atraves da codicac~ao desses dados atraves de tabelas de codicac~ao de tamanho variavel, processo que e descrito de seguida.

78 Componentes na frequência
0,2657 x = 0,2322 x = 0,0791 x = 0,2861 x = 0,2446 x = 0,1286 x = 0,1329 x = 0,0993 x = 0,1645 x = Combinando linearmente os vários componentes posso obter qualquer padrão O 1º componente dá a luminosidade geral do bloco Os outros representam a intensidade dos componentes das diversas frequência Grande parte dos componentes é próxima de zero e não são considerados

79 MPEG-2 Vídeo: Mecanismos de Compressão Estimação de Movimento
Encontrar regiões de uma dada imagem que se irão repetir em imagens adajacentes Comparação dos macroblocos das imagens Transmitir unicamente as diferenças entre eles bem como uma indicação da posição relativa (vector de deslocamento) Em casos óptimos não é necessário alterar pedaços do ecrã ou então só deslocá-los para uma nova posição. Esta terceira tecnica de compress~ao consiste em encontar regi~oes de uma dada imagem que se ir~ao repetir nas imagens adjacentes. Dado que a frequ^encia de imagens podera rondar as 20/30 imagens/s e provavel que existam regi~oes similares ligeiramente deslocadas na(s) imagem seguinte(s). Assim, o codicador, compara os macroblocks de uma imagem com os macroblocks das imagens anteriores ou seguintes. Desta forma apenas e necessario transmitir as diferencas entre estes dois blocos semelhantes, bem como uma indicac~ao relativa a posic~ao do macroblock anterior (atraves de um vector de deslocamento). Num caso optimo o macroblock podera estar na mesma posic~ao do anterior, podendo essa regi~ao permanecer inalteravel no ecran. No entanto, no caso de quebras na transmiss~ao esta tecnica podera trazer alguns problemas visto que poder~ao existir imagens que referenciam blocos de anteriores imagens que nunca chegaram ao receptor

80 MPEG-2 Vídeo: Mecanismos de Compressão Estimação de Movimento

81 MPEG-2 Vídeo: Mecanismos de Compressão Problemas na Estimação de Movimento
Este processo não deve ser usado como panaceia Se houver um pequeno erro ele propaga-se rapidamente Por isso se criou o GoP (Grupo of Pictures) com diversos tipos de imagens

82 MPEG : Detalhes Técnicos
Quadro 1 Quadro 2 Quadro 3 Quadro 4 Quadro 5 Quadro 6 Quadro 7 Imagens de Entrada Compressão MPEG Quadro I QuadroB QuadroB Quadro P QuadroB Quadro B Quardo I


Carregar ppt "Fundamentos de Vídeo Sistemas Telemáticos"

Apresentações semelhantes


Anúncios Google