Aplicações de Processamento de Voz Prof. Marcio Eisencraft
Universidade Presbiteriana Mackenzie Sumário Introdução Modelagem básica Aplicações: Geração de fonemas Reconhecimento de fonemas Voz sintética Codificação Trabalhos presentes e futuros Universidade Presbiteriana Mackenzie
Universidade Presbiteriana Mackenzie 1. Introdução Processamento de voz é um dos mais importantes instrumentos da era digital. Exemplos de aplicação: discagem automática atendimento automático auxílio de pessoas deficientes Segurança Uma das grandes áreas de pesquisa dentro da Engeharia de Telecomunicações Universidade Presbiteriana Mackenzie
Universidade Presbiteriana Mackenzie 2. Modelagem básica (1/2) O trato vocal Universidade Presbiteriana Mackenzie
Universidade Presbiteriana Mackenzie 2. Modelagem básica (2/2) Universidade Presbiteriana Mackenzie
Universidade Presbiteriana Mackenzie 3. Aplicações Geração de fonemas Reconhecimento de fonemas Voz sintética Codificação e compactação Universidade Presbiteriana Mackenzie
Universidade Presbiteriana Mackenzie 3.1 Geração de fonemas Trato vocal modelado como filtros digitais com atrasos e ganhos. Universidade Presbiteriana Mackenzie
3.2 Reconhecimento de fonemas (1/2) Universidade Presbiteriana Mackenzie
3.2 Reconhecimento de fonemas (2/2) Formantes e relação entre elas são tabeladas e usadas para identificar vogais e sexo do falante. Universidade Presbiteriana Mackenzie
Universidade Presbiteriana Mackenzie 3.3 Voz sintética Tendo um banco de dados com os coeficientes para cada fonema, é possível gerar voz sintética. Problema: sons são vocálicos ou fricativos. Universidade Presbiteriana Mackenzie
3.4 Codificação – Compactação Coeficientes de predição – LPC Transmite-se apenas o erro de predição ao invés do próprio sinal São necessários menos bits para a codificação Usado, por exemplo, em sistemas de telefonia digital – economia de até 50% na taxa de transmissão. Universidade Presbiteriana Mackenzie
4. Alguns trabalhos atuais e futuros Eliminação de ruído em voz (videoconferência) Sincronismo automatizado entre articulação e fala para animações Reconhecimento de voz em ambientes barulhentos Novas técnicas de compactação baseadas em percepção auditiva (wavelets) Universidade Presbiteriana Mackenzie
Universidade Presbiteriana Mackenzie Algumas Referências PICKETT, J. M. Acoustics Of Speech Communication: Fundamentals, Speech Perception Theory, And Technology. 2. ed. New Jersey: Prentice Hall. 1999. 404 p RABINER, L.R.; SCHAFER, R. W. Digital Processing of Speech Signals. 7. ed., Prentice Hall. 1978. STONICK, V. L. Labs for signals and systems: using MATLAB. PWS, c1996. BURRUS, C. S. et al. Computer-based exercises for signal processing using Matlab 5. Prentice-Hall, c1998. BEHLAU, M. S.; et al. Análise Espectrográfica de Formantes das vogais do português brasileiro. Revista ACTA AWHO, Volume VII, n. 2, p. 74-85, 1988. MONTEIRO, M. C. Uma análise espectrográfica das formantes das vogais orais do português brasileiro falado em São Paulo. 1995. 74f. Monografia (Especialização)-Escola Paulista de Medicina, São Paulo, São Paulo, 1995. Universidade Presbiteriana Mackenzie
FIM Contato: marcioft@mackenzie.br meusite.mackenzie.br/marcioft Universidade Presbiteriana Mackenzie