Fala e Movimentação Facial em Avatares

Slides:



Advertisements
Apresentações semelhantes
Processamento de Voz Eng. Informática 5º Ano
Advertisements

Introdução a Algoritmos
Sistemas de Localização baseados em
DCA-0114 Computação Gráfica
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Aline Leal Carla Truda Marcus Morais Micheli Rech
O Essencial sobre Linguagens de Programação Luís Caires Maio 2005.
João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.
Redes Neurais Artificiais
Interfaces Conversacionais
RV: projeto de interface Prof. Dr. Annibal Hetem Jr.
Introdução a Informática
Gestão de telas e ambientes em jogos 2D
Modelo de Arquitetura Diagrama de Componentes
Mel Frequency Cepstral Coefficients for Music Modeling
A terceira dimensão.
Matraca – Software para Auxílio de Invisuais no Uso do Computador
Interfaces gráficas e Interfaces Web
Márcio Geovani Jasinski
UNIVERSIDADE KIMPA VITA
Software Acessível Introdução O objetivo deste trabalho é fornecer noções básicas sobre os principais sistemas de acessibilidade de deficientes visuais.
Introdução a Programação
Hardware/Software para Multimédia
Estado da Arte Anderson Gomes Principais Empresas e Centros de Pesquisa  Google  Darpa  IBM  Philips  Nuance  INESC  UFRJ  UCS.
Impressão vocal Alunos: Daniel de Carvalho Cayres Pinto
Cap 4 – Métricas do Processo e Projeto de Software
Fundamentos de Engenharia de Software
Animação Facial Aluno: Marcos Paulo Moreti
Bruno Florencio Pinheiro Orientador: Renato Fernandes Corrêa
Fernando Carvalho, João Manuel R. S. Tavares
Semântica de Linguagens de Programação
Centro de Informática - UFPE Computação Musical
Introdução à Computação Gráfica Curvas
Referências: Booch, G. et al. The Unified Modeling Language User Guide
Princípios de Cinemática
CSP-Z Disciplina: Especificação de Sistemas Distribuídos Mestrado em Ciências da Computação Aleciano Jr. Leonilson Barbosa
Síntese de voz utilizando avatares GPVoz Gabriel de Albuquerque Styve Stallone.
Aplicações de Processamento de Voz
Banco de Dados Aplicado ao Desenvolvimento de Software
Capítulo III – Processamento de Imagem
O que é? É o processo de investigação técnica com intuito de identificar a qualidade, a segurança e a exatidão do software desenvolvido. A validação do.
METODOLOGIA, MÉTODOS E FERRAMENTAS
(OU) Hardware da Rede Implementacao da rede
Gabriel de Albuquerque Styve Stallone.  O que foi feito na área  Potenciais parceiros  Possíveis soluções para o problema.
Conceitos de thread Faculdade PITÁGORAS – Outubro de 2012
ESCOLA POLITÉCNICA DA UNIVERSIDADE DE SÃO PAULO Departamento de Engenharia de Computação e Sistemas Digitais Implementação de buscas utilizando Linguagem.
Desenvolvimento de Software Dirigido a Modelos
A Linguagem Formal de Especificação VDM-SL
Jailton Alkimin Louzada - PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS DEPARTAMENTO DE COMPUTAÇÃO Trabalho de Conclusão de Curso.
Fundamentos de linguagens de programação
Semântica de Linguagens de Programação
Síntese de voz Para Avatares GPVoz Gabriel Azuirson Styve Stallone.
Sistema de Embalagens Inteligentes para auxílio de deficientes visuais
A música e a voz A música e a voz © 2001 Wilson de Pádua Paula Filho.
Análise e Projeto de Sistemas Unified Modeling Language Renata Araujo Ricardo Storino Núcleo de Computação Eletrônica Curso de Programação de Computadores.
CloudSim Um framework para modelagem e simulação de infraestrutura e serviços de Computação em Nuvem.
LÍNGUAS DE SINAIS As línguas de sinais são línguas naturais, pois surgiram do convívio entre as pessoas. As línguas de sinais podem ser comparadas no que.
Abordagem Sistemática Guilherme Amaral Avelino Avaliação e Controle de Sistemas de Informação.
UML (Unified Modeling Language) Linguagem Unificada de Modelagem
INTELIGÊNCIA ARTIFICIAL Grupo: Amora Figueiredo Érika Diniz
Construção de um ambiente virtual tridimensional habitado por personagens virtuais com ALICE 3.0 Andréa Zotovici e Luciene Cristina Alves Rinaldi.
Software para Multimídia
Mauricio Barbosa e Castro.  A construção de um produto multimídia se faz através de um projeto.  O escopo e a complexidade de um projeto de multimídia.
1 Especificação de Sistemas de Software e a UML. 2 Modelagem de sistema A modelagem de sistema auxilia o analista a entender a funcionalidade do sistema.
Sincronização Em multimídia: relações temporais entre objetos de mídias Objetos dependentes de tempo: –apresentados como um feixe de mídia –relações temporais.
CEPZ1 – 2015 – AULA 09 PROFESSORA: BRUNA CAVALLINI E RODRIGUES
Sincronização Lip Sync Sincronização cursor-voz Entre outras mídias.
1 O usuário com baixo letramento, o cego, o surdo: soluções para acesso a TIC Grupo GJN MO622 – Agosto/2007 Unicamp.
LÍNGUAS DE SINAIS As línguas de sinais são línguas naturais, pois surgiram do convívio entre as pessoas. As línguas de sinais podem ser comparadas no que.
Transcrição da apresentação:

Fala e Movimentação Facial em Avatares Alexandre Magno Maciel magnomaciel@hotmail.com Ricardo de Oliveira Schmidt schmidt@gprt.ufpe.br

Módulo Text-To-Speech

Síntese de voz Definição: “Geração automática pelo computador de formas de onda de voz” [TAH05] Outras denominações: Sistema de resposta vocal ou Text-To-Speech (TTS) Dilema: Produção X Reprodução

Conversão ortográfico-fonética Processamento prosódico Síntese de voz Processo de síntese de voz: Pré-processamento Conversão ortográfico-fonética Processamento prosódico Síntese Texto Sinal de voz Baixo nível Alto nível

Conversão ortográfico-fonética Processamento prosódico Síntese de voz Processo de síntese de voz: Normalização: encontrar equivalentes “por extenso” ex: símbolos ($ %), datas, pontuação (, .) Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese

Conversão ortográfico-fonética Processamento prosódico Síntese de voz Processo de síntese de voz: Conversão ortográfico-fonética: encontrar seqüência correta de fonemas ex: letra “x” -> xumbo, exame, tórax “o piloto morreu”; “eu piloto bem” Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese

Conversão ortográfico-fonética Processamento prosódico Síntese de voz Processo de síntese de voz: Cálculo de intensidade e duração ex: pausas entre palavras, entonação (sentenças declarativas, imperativas e interrogativas) Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese

Conversão ortográfico-fonética Processamento prosódico Síntese de voz Processo de síntese de voz: Geração do áudio Estratégias: concatenativa formantes articulatória Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese

Síntese de voz Geração do áudio: Síntese concatenativa : segmentos de áudio pré-gravadas a partir de um inventário de unidades previamente construído. Tamanho das unidades: Palavras Silabas (Demissílabas) Fones (Difones)

Síntese de voz Geração do áudio: Síntese de formantes: modelo acústico que forma o áudio de acordo com uma série de parâmetros Síntese articulatória: gera o sinal de voz através da modelação das características físicas, anatômicas e fisiológicas do aparelho humano produtor de voz

Síntese de voz Trabalhos realizados: Simões, 1999 (dissertação - UNICAMP) Dicionário de 2450 unidades Síntese concatenativa Voz masculina

Síntese de voz Trabalhos realizados: Carvalho, 2005 (INESC) DIXI Síntese concatenativa Dicionário de 4000 unidades Vozes masculina e feminina

Síntese de voz Trabalhos realizados: DOSVOX (UFRJ) ... 2008 Auxílio deficientes físicos Software livre

Síntese de voz Trabalhos realizados: MATRACA (UFCG) ... 2008 Auxílio deficientes físicos Software livre

Síntese de voz Aplicações Comerciais IBM ViaVoice 8.0 NUANCE Dragon Systems Jaws for Windows

Módulo Extração de Fonemas

Extração de Fonemas [FEC02] Processo de reconhecimento de padrões

Extração de Fonemas Extração de Parâmetros: Principais Parâmetros: [FEC02] Extração de Parâmetros: Dar representatividade Compactar (redução dimensionalidade) Simplicidade computacional Principais Parâmetros: Energia por segmento; Taxa cruzamento por zero; Número total e diferença entre picos; Coeficiente de Correlação Normalizado.

Extração de Fonemas Extração de Parâmetros Pré-Processamento: [FEC02] Extração de Parâmetros Pré-Processamento: Pré-ênfase (filter) Segmentação (frames) Janelamento (stationary) Segmento Janelamento Palavra “zero” após pré-ênfase

Extração de Fonemas Extração de Parâmetros: Principais técnicas: [DIM06] Mel Frequency Cepstral Coding (MFCC) Linear Predictive Coding (LPC) Perceptual Linear Predictive (PLP) Experimentos: Comparador: HMM Base de dados: 11 locutores(7 MS,4 WS); Treino: 3300 locuções; Teste: 880 locuções; Frases: 300

Extração de Fonemas Comparação dos Padrões: Determinísticas: Dynamic Time Warping; Quantização Vetorial; Redes Neurais. Estatísticas Função Densidade Probabilidade; Modelos de Markov Escondidos.

Extração de Fonemas Trabalhos Realizados Fechine, 2002 (UFCG) Reconhecimento de Locutor Independente do Texto Base própria, 20 locutores 20 sentenças por locutor Parâmetros LPC (12) Híbrido (QV + HMM)

Extração de Fonemas Trabalhos Realizados Rustein, 1998 (UNICAMP) Reconhecimento de fala Independente de Locutor Base própria, 30 locutores 10 sentenças por locutor Parâmetros diversos Redes Neurais Backpropagation Kohonen Quantização Vetorial

Interpretação de Visemas

Interpretação de Visemas Associação entre fonemas/vogais e seus respectivos visemas Parâmetros emocionais Energia Parâmetros de animação

Etapa de Animação

Etapa de Animação Construção da animação Síntese de video ou técnicas de keyframing Parâmetros ao modelo da face associados ao áudio

Aminação Facial Parametrização ideal para os sistemas de animação facial Satisfazer todos os requisitos para um sistema de animação facial não é fácil

Aminação Facial Facilidade de uso Número de parâmetros, complexidade e intuitividade Maior a flexibilidade, maior a complexidade Sutileza Movimentos suaves

Aminação Facial Abstração de alto-nível Controlar a face com alto-nível de abstração Textos com marcações Previsibilidade O resultado da combinação de parâmetros deve ser previsível

Aminação Facial Portabilidade Troca fácil de modelos faciais Reuso de conjuntos de parâmetros Medição dos parâmetros Descritos em unidades físicas que possam ser visualmente medidas na face Eficiência Comunicação através da rede

Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Animação Parâmetros pré-calculados Qualquer modelo possa ser animado Usados pelo algoritmo de deformação Definidos offline (antes da execução em tempo real) Captura de pontos através de ferramentas Feature Points Vértices vizinhos (pesos)

Animação

Animação

Animação Busca pelas respectivas FAPs Facial Animation Parameters Por exemplo: Instrução para abrir a boca

Animação Algoritmo de deformação Integração dos elementos do processo

Animação

Animação Offline

Animação Módulos da Análise fonética

Animação

Animação Padrão MPEG-4

Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

InterFace Java e Virtual Reality Modeling Language Sistema interativo para criação de diferentes expressões faciais Animação entre as expressões Técnicas de composição digital de imagens

InterFace Dividido em 2 módulos: Criação de Expressões Animação Facial Suporte para a criação das ações Animação Facial Simulação do ator virtual através das 3 camadas

InterFace O que é Entrada Saída Expressões Biblioteca básica ou modeladas Qual expressão e intensidade Modificação do rosto virtual Ações Ações definidas (olhos, lábios, etc) Quais ações executar Expressões e intensidades à camada de expressões Inteligência Quais ações realizar Usuário, roteiro, I.A., síntese de voz Quais ações realizar à camada de ações

InterFace Cada expressão criada individualmente Expressão neutra Objetos que compõe o rosto Expressão neutra Biblioteca básica de expressões

InterFace Biblioteca básica de expressões Conjunto de expressões simples Nem muitas, nem poucas Combinadas para criar expressões complexas Vetor de diferenças Valores de intensidade

InterFace Ahh Ohh esquerda direita Dúvida Rotação X Y Z

Expressões combinadas InterFace Expressões básicas Expressões combinadas

InterFace Ações Piscar, falar um fonema, cantar, chorar, dormir, espirrar, ... Construídas através das expressões Valores de intensidade Grupos de ações Duas ações de um mesmo grupo podem ser executadas ao mesmo tempo

InterFace Exemplos de grupos de ações Não intencionais Emoções Respirar ou piscar os olhos Emoções Chorar, sorrir ou dormir Sincronismo de movimentos labiais

Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Objetivos Definição de representações para os padrões visuais de movimentação articulatória Ou seja, visemas Visemas dependentes do contexto fonético Modelos para movimentação temporomandibular e do tecido dos lábios Elevação, depressão, protrusão e retração Deformações

Movimentação Facial Idéia de pontos de interesse e referência Gerados através da captura de video

Movimentação Facial Articulação temporomandibular

Movimentação Facial

Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

Objetivos Sistema para geração de expressões faciais dinâmicas Variações ao longo do tempo Ligadas à emoções, fala e fenômenos afetivos Sincronismo com fala Face tridimensional realista

Sistema VeeM (Virtual emotion-to-expression Model) Modelo de emoção para personagens virtuais falantes Conceito de hipercubo emocional no espaço canônico do R4 Combinação de expressões básicas para gerar emoções derivadas

Sistema DynaFeX (Dynamic Facial eXpression) Para validação do VeeM Autoria e apresentação de animações faciais Processo de fala para sincronismo entre fonemas e visemas Malha poligonal tridimensional (baseada no modelo de animação MPEG-4)

Familias de emoção Robert Plutchik

VeeM Alegria-Tristeza combinada com Medo-Raiva

VeeM Alegria-Tristeza combinada com Confiança- Abominação

VeeM e Parametrização Ideal VeeM em relação à parametrização ideal Combinação de emoções Emoções mapeadas em uma expressão única Manipulação do hipercubo emocional é fácil e direta Representação da expressão pode ser mapeada para uma descrição de alto-nível VeeM é independente de face

MPEG-4 MPEG-4 para especificação de uma face Definição de parâmetros (face neutra) Olhar na direção do eixo z Músculos da face relaxados Pálpebras tangentes à íris Pupila medindo um terço do diâmetro da íris Lábios em contato (com linha na altura dos cantos) Boca fechada com dentes se tocando Língua plana na horizontal com ponta tocando o limite dos dentes

MPEG-4 A partir de Feature Points (pontos chaves) Parâmetros de Animação Facial (FAPs) Animação de pontos chaves característicos Representação de visemas e emoções

Visema final = visema1 x (blend/63) + visema2 x (blend/63) MPEG-4 Visemas e Lip-Sync no MPEG-4 Transição de um visema para outro é através da combinação (blending) com um peso associado a cada um deles Variação da intensidade de 0 a 63 Visema final = visema1 x (blend/63) + visema2 x (blend/63)

MPEG-4 Combinação de visemas Cuidando as propriedades das FPs

DynaFeX

Referências TATHAM, M., “Developments in Speech Systems” Editora Wiley, 2005. SIMÕES, F.O., “Implementação de um Sistema de Conversão Texto-Fala para o Português do Brasil”. Dissertação de Mestrado, UNICAMP, 1999. DIMITRU, C.O., et al. “A Comparative Study of Feature Extraction Methods Applied to Continuous Speech Recognition in Romanian Language”. ELMAR, 2006.

Referências FECHINE, J.M. “Reconhecimento Automático de Identidade Vocal Utilizando Modelagem Híbrida: Paramétrica e Estatística”, UFCG, 2002. RUSTEIN, F.O. “Sistema de Reconhecimento de Fala Baseado em Redes Neurais Artificiais” Tese de doutorado,UNICAMP, 1998. FIUZA, M.; Monteiro, M.; Dourato, C.; Soares, J.; Barroso, G. “Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis,” III CONNEPI, 2008.

Referências WEY, J. “InterFace: Um Sistema de Animação Interativa de Rostos Humanos,” Dissertação de mestrado, Escola Politécnica, USP, 1999. MARTINO, J. de. “Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil,” Tese de doutorado, DCA/FEEC UNICAMP, 2005. RODRIGUES, P. “Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala,” Tese de doutorado, Departamento de Informática, PUC-RJ, 2007.

Fala e Movimentação Facial em Avatares Alexandre Magno Maciel magnomaciel@hotmail.com Ricardo de Oliveira Schmidt schmidt@gprt.ufpe.br