Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Fala e Movimentação Facial em Avatares
Alexandre Magno Maciel Ricardo de Oliveira Schmidt
2
Módulo Text-To-Speech
3
Síntese de voz Definição: “Geração automática pelo computador de formas de onda de voz” [TAH05] Outras denominações: Sistema de resposta vocal ou Text-To-Speech (TTS) Dilema: Produção X Reprodução
4
Conversão ortográfico-fonética Processamento prosódico
Síntese de voz Processo de síntese de voz: Pré-processamento Conversão ortográfico-fonética Processamento prosódico Síntese Texto Sinal de voz Baixo nível Alto nível
5
Conversão ortográfico-fonética Processamento prosódico
Síntese de voz Processo de síntese de voz: Normalização: encontrar equivalentes “por extenso” ex: símbolos ($ %), datas, pontuação (, .) Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese
6
Conversão ortográfico-fonética Processamento prosódico
Síntese de voz Processo de síntese de voz: Conversão ortográfico-fonética: encontrar seqüência correta de fonemas ex: letra “x” -> xumbo, exame, tórax “o piloto morreu”; “eu piloto bem” Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese
7
Conversão ortográfico-fonética Processamento prosódico
Síntese de voz Processo de síntese de voz: Cálculo de intensidade e duração ex: pausas entre palavras, entonação (sentenças declarativas, imperativas e interrogativas) Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese
8
Conversão ortográfico-fonética Processamento prosódico
Síntese de voz Processo de síntese de voz: Geração do áudio Estratégias: concatenativa formantes articulatória Sinal de voz Conversão ortográfico-fonética Processamento prosódico Texto Pré-processamento Síntese
9
Síntese de voz Geração do áudio:
Síntese concatenativa : segmentos de áudio pré-gravadas a partir de um inventário de unidades previamente construído. Tamanho das unidades: Palavras Silabas (Demissílabas) Fones (Difones)
10
Síntese de voz Geração do áudio:
Síntese de formantes: modelo acústico que forma o áudio de acordo com uma série de parâmetros Síntese articulatória: gera o sinal de voz através da modelação das características físicas, anatômicas e fisiológicas do aparelho humano produtor de voz
11
Síntese de voz Trabalhos realizados:
Simões, 1999 (dissertação - UNICAMP) Dicionário de 2450 unidades Síntese concatenativa Voz masculina
12
Síntese de voz Trabalhos realizados: Carvalho, 2005 (INESC) DIXI
Síntese concatenativa Dicionário de 4000 unidades Vozes masculina e feminina
13
Síntese de voz Trabalhos realizados: DOSVOX (UFRJ) ... 2008
Auxílio deficientes físicos Software livre
14
Síntese de voz Trabalhos realizados: MATRACA (UFCG) ... 2008
Auxílio deficientes físicos Software livre
15
Síntese de voz Aplicações Comerciais IBM ViaVoice 8.0
NUANCE Dragon Systems Jaws for Windows
16
Módulo Extração de Fonemas
17
Extração de Fonemas [FEC02] Processo de reconhecimento de padrões
18
Extração de Fonemas Extração de Parâmetros: Principais Parâmetros:
[FEC02] Extração de Parâmetros: Dar representatividade Compactar (redução dimensionalidade) Simplicidade computacional Principais Parâmetros: Energia por segmento; Taxa cruzamento por zero; Número total e diferença entre picos; Coeficiente de Correlação Normalizado.
19
Extração de Fonemas Extração de Parâmetros Pré-Processamento:
[FEC02] Extração de Parâmetros Pré-Processamento: Pré-ênfase (filter) Segmentação (frames) Janelamento (stationary) Segmento Janelamento Palavra “zero” após pré-ênfase
20
Extração de Fonemas Extração de Parâmetros:
Principais técnicas: [DIM06] Mel Frequency Cepstral Coding (MFCC) Linear Predictive Coding (LPC) Perceptual Linear Predictive (PLP) Experimentos: Comparador: HMM Base de dados: 11 locutores(7 MS,4 WS); Treino: 3300 locuções; Teste: 880 locuções; Frases: 300
21
Extração de Fonemas Comparação dos Padrões: Determinísticas:
Dynamic Time Warping; Quantização Vetorial; Redes Neurais. Estatísticas Função Densidade Probabilidade; Modelos de Markov Escondidos.
22
Extração de Fonemas Trabalhos Realizados Fechine, 2002 (UFCG)
Reconhecimento de Locutor Independente do Texto Base própria, 20 locutores 20 sentenças por locutor Parâmetros LPC (12) Híbrido (QV + HMM)
23
Extração de Fonemas Trabalhos Realizados Rustein, 1998 (UNICAMP)
Reconhecimento de fala Independente de Locutor Base própria, 30 locutores 10 sentenças por locutor Parâmetros diversos Redes Neurais Backpropagation Kohonen Quantização Vetorial
24
Interpretação de Visemas
25
Interpretação de Visemas
Associação entre fonemas/vogais e seus respectivos visemas Parâmetros emocionais Energia Parâmetros de animação
26
Etapa de Animação
27
Etapa de Animação Construção da animação
Síntese de video ou técnicas de keyframing Parâmetros ao modelo da face associados ao áudio
28
Aminação Facial Parametrização ideal para os sistemas de animação facial Satisfazer todos os requisitos para um sistema de animação facial não é fácil
29
Aminação Facial Facilidade de uso
Número de parâmetros, complexidade e intuitividade Maior a flexibilidade, maior a complexidade Sutileza Movimentos suaves
30
Aminação Facial Abstração de alto-nível
Controlar a face com alto-nível de abstração Textos com marcações Previsibilidade O resultado da combinação de parâmetros deve ser previsível
31
Aminação Facial Portabilidade Troca fácil de modelos faciais
Reuso de conjuntos de parâmetros Medição dos parâmetros Descritos em unidades físicas que possam ser visualmente medidas na face Eficiência Comunicação através da rede
32
Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
33
Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
34
Animação Parâmetros pré-calculados Qualquer modelo possa ser animado
Usados pelo algoritmo de deformação Definidos offline (antes da execução em tempo real) Captura de pontos através de ferramentas Feature Points Vértices vizinhos (pesos)
35
Animação
36
Animação
37
Animação Busca pelas respectivas FAPs Facial Animation Parameters
Por exemplo: Instrução para abrir a boca
38
Animação Algoritmo de deformação Integração dos elementos do processo
39
Animação
40
Animação Offline
41
Animação Módulos da Análise fonética
42
Animação
43
Animação Padrão MPEG-4
44
Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
45
InterFace Java e Virtual Reality Modeling Language
Sistema interativo para criação de diferentes expressões faciais Animação entre as expressões Técnicas de composição digital de imagens
46
InterFace Dividido em 2 módulos: Criação de Expressões Animação Facial
Suporte para a criação das ações Animação Facial Simulação do ator virtual através das 3 camadas
47
InterFace O que é Entrada Saída Expressões
Biblioteca básica ou modeladas Qual expressão e intensidade Modificação do rosto virtual Ações Ações definidas (olhos, lábios, etc) Quais ações executar Expressões e intensidades à camada de expressões Inteligência Quais ações realizar Usuário, roteiro, I.A., síntese de voz Quais ações realizar à camada de ações
48
InterFace Cada expressão criada individualmente Expressão neutra
Objetos que compõe o rosto Expressão neutra Biblioteca básica de expressões
49
InterFace Biblioteca básica de expressões
Conjunto de expressões simples Nem muitas, nem poucas Combinadas para criar expressões complexas Vetor de diferenças Valores de intensidade
50
InterFace Ahh Ohh esquerda direita Dúvida Rotação X Y Z
51
Expressões combinadas
InterFace Expressões básicas Expressões combinadas
52
InterFace Ações Piscar, falar um fonema, cantar, chorar, dormir, espirrar, ... Construídas através das expressões Valores de intensidade Grupos de ações Duas ações de um mesmo grupo podem ser executadas ao mesmo tempo
53
InterFace Exemplos de grupos de ações Não intencionais Emoções
Respirar ou piscar os olhos Emoções Chorar, sorrir ou dormir Sincronismo de movimentos labiais
54
Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
55
Objetivos Definição de representações para os padrões visuais de movimentação articulatória Ou seja, visemas Visemas dependentes do contexto fonético Modelos para movimentação temporomandibular e do tecido dos lábios Elevação, depressão, protrusão e retração Deformações
56
Movimentação Facial Idéia de pontos de interesse e referência
Gerados através da captura de video
57
Movimentação Facial Articulação temporomandibular
58
Movimentação Facial
59
Trabalhos Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis InterFace: Um Sistema de Animação Interativa de Rostos Humanos Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala
60
Objetivos Sistema para geração de expressões faciais dinâmicas
Variações ao longo do tempo Ligadas à emoções, fala e fenômenos afetivos Sincronismo com fala Face tridimensional realista
61
Sistema VeeM (Virtual emotion-to-expression Model)
Modelo de emoção para personagens virtuais falantes Conceito de hipercubo emocional no espaço canônico do R4 Combinação de expressões básicas para gerar emoções derivadas
62
Sistema DynaFeX (Dynamic Facial eXpression) Para validação do VeeM
Autoria e apresentação de animações faciais Processo de fala para sincronismo entre fonemas e visemas Malha poligonal tridimensional (baseada no modelo de animação MPEG-4)
63
Familias de emoção Robert Plutchik
64
VeeM Alegria-Tristeza combinada com Medo-Raiva
65
VeeM Alegria-Tristeza combinada com Confiança- Abominação
66
VeeM e Parametrização Ideal
VeeM em relação à parametrização ideal Combinação de emoções Emoções mapeadas em uma expressão única Manipulação do hipercubo emocional é fácil e direta Representação da expressão pode ser mapeada para uma descrição de alto-nível VeeM é independente de face
67
MPEG-4 MPEG-4 para especificação de uma face
Definição de parâmetros (face neutra) Olhar na direção do eixo z Músculos da face relaxados Pálpebras tangentes à íris Pupila medindo um terço do diâmetro da íris Lábios em contato (com linha na altura dos cantos) Boca fechada com dentes se tocando Língua plana na horizontal com ponta tocando o limite dos dentes
68
MPEG-4 A partir de Feature Points (pontos chaves)
Parâmetros de Animação Facial (FAPs) Animação de pontos chaves característicos Representação de visemas e emoções
69
Visema final = visema1 x (blend/63) + visema2 x (blend/63)
MPEG-4 Visemas e Lip-Sync no MPEG-4 Transição de um visema para outro é através da combinação (blending) com um peso associado a cada um deles Variação da intensidade de 0 a 63 Visema final = visema1 x (blend/63) + visema2 x (blend/63)
70
MPEG-4 Combinação de visemas Cuidando as propriedades das FPs
71
DynaFeX
72
Referências TATHAM, M., “Developments in Speech Systems” Editora Wiley, 2005. SIMÕES, F.O., “Implementação de um Sistema de Conversão Texto-Fala para o Português do Brasil”. Dissertação de Mestrado, UNICAMP, 1999. DIMITRU, C.O., et al. “A Comparative Study of Feature Extraction Methods Applied to Continuous Speech Recognition in Romanian Language”. ELMAR, 2006.
73
Referências FECHINE, J.M. “Reconhecimento Automático de Identidade Vocal Utilizando Modelagem Híbrida: Paramétrica e Estatística”, UFCG, 2002. RUSTEIN, F.O. “Sistema de Reconhecimento de Fala Baseado em Redes Neurais Artificiais” Tese de doutorado,UNICAMP, 1998. FIUZA, M.; Monteiro, M.; Dourato, C.; Soares, J.; Barroso, G. “Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis,” III CONNEPI, 2008.
74
Referências WEY, J. “InterFace: Um Sistema de Animação Interativa de Rostos Humanos,” Dissertação de mestrado, Escola Politécnica, USP, 1999. MARTINO, J. de. “Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil,” Tese de doutorado, DCA/FEEC UNICAMP, 2005. RODRIGUES, P. “Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala,” Tese de doutorado, Departamento de Informática, PUC-RJ, 2007.
75
Fala e Movimentação Facial em Avatares
Alexandre Magno Maciel Ricardo de Oliveira Schmidt
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.