Speech processing toolbox for MATLAB André Palhares

Slides:



Advertisements
Apresentações semelhantes
Prof. André Laurindo Maitelli DCA-UFRN
Advertisements

Análise de Voz e Vídeo Reconhecimento de voz baseado em modelos de palavras conectadas André Vitor de Almeida Palhares.
Complexidade de Algoritmos
DETERMINANTES de Ordem n (n > 3).
Controle de Processos por Computador
Os inversores são circuitos estáticos (não tem partes móveis) que convertem potência DC em potência AC com frequência e tensão ou corrente de saída desejada.
Análise de Resposta em Freqüência Introdução. 8. 2
Álgebra Linear e Geometria Analítica
Sinais e Sistemas – Capítulo 3
Adaptive Resonance Theory Carpenter & Grossberg
Chapter 2 Fundamentals (a) (b) Convenções de coordenadas:
Modelagem Funcional.
1.1. CONTROLADOR DIGITAL CONCEITO: sistema de dados amostrados, implementado por um hardware que executa uma lei de controle. LEI DE CONTROLE: programa.
Estrutura e movimento a partir de imagens
Análise de Histograma para segmentação de fundo de imagens
Análise de Dados.
Classes e objetos Arrays e Sobrecarga
3 - Equações Lineares de Segunda Ordem
Aula 4: Matrizes e Operações Matriciais
Na barra de mensagem, clique em Habilitar Edição,
Routing de reservatórios
Slide 06.
Aula prática 6 Vetores e Matrizes
Matemática para Economia III
MBA em Gestão de Empreendimentos Turísticos
Sistemas de Aquisição e Processamento de Dados
Realimentação de estados Estimadores de estados (C. T
Treinamento do Microsoft® Access® 2010
Cálculo Numérico / Métodos Numéricos
APLICAÇÕES DA LÓGICA FUZZY
Radar de Onda Contínua Modulação em frequência Efeito Doppler
Aula 8 By: Abraham Ortega Paredes
MÉTODOS NUMÉRICOS APLICAÇÃO NO MATLAB
Monitoria de Sistemas Inteligentes
Quadrados Mínimos.
1AT 2004 Conceitos de Sinais e Sistemas Mestrado em Ciências da Fala e da Audição António Teixeira.
Matemática para Economia III
Aulas 2 e 3 – Java – Prof. Marcelo Heitor # O método main e argumentos na linha de comando; # Fluxo padrão de entrada e saída; # A classe JOptionPane;
Análise de Sistemas LTI no Domínio da Transformada
Forma de ondas & Taxa de amostragem
Revisão Geral Técnicas de Realce Histogramas
Marcelo Lucena de Souza Análise de Voz e Vídeo.
Regressão Linear.
Matemática Financeira
Matemática Discreta 1 – MD 1
Introdução Disciplina: Sistemas de Controle (Laboratório) - ET76H
1AT 2004 Conceitos de Sinais e Sistemas Mestrado em Ciências da Fala e da Audição António Teixeira 8 Janeiro 2005.
1AT 2004 Conceitos de Sinais e Sistemas Mestrado em Ciências da Fala e da Audição António Teixeira.
1AT 2004 Conceitos de Sinais e Sistemas Mestrado em Ciências da Fala e da Audição António Teixeira.
Campus de Caraguatatuba
SQL Server Comando PIVOT.
Monitoria de Sistemas Inteligentes IF684
Prof. José Mauricio Neto
Processamento de Sinais
1 Universidade de Brasília (UnB) Departamento de Engenharia Elétrica (ENE) Laboratório de Processamento de Sinais em Arranjos Caixa Postal 4386 CEP ,
©Prof. Lineu MialaretAula 4 - 1/27Matemática Discreta I Instituto Federal de Educação, Ciência e Tecnologia de São Paulo - IFSP Campus de Caraguatatuba.
PROGRAMAÇÃO II – PARTE 6 Profa. Maria Augusta Constante Puget.
Noções de Estatística - I
Shell Script Parte 2.
Microsoft Excel.
Sistemas de Controle III N8SC3
Estatística e Probabilidade
Matemática Financeira
Arrays Outline 7.1 Introdução 7.2 Arrays 7.3 Declarando e Criando Arrays 7.4 Exemplos usando arrays 7.5 Ordenando arrays 7.6 Procurando em.
Ajustamento de Observações
Sistemas de Controle III N8SC3
Professor: Gerson Leiria Nunes.  Introdução  Filtro IIR  Forma direta  Forma direta implementada.
Professor: Gerson Leiria Nunes.  Solução da equação de diferenças  Exemplos de solução  Exemplos de solução homogênea  Exemplos de solução particular.
Análise descritiva de dados (3) Medidas de tendência central.
Capítulo 8 Gráficos de controle para variáveis mensuráveis
Transcrição da apresentação:

Speech processing toolbox for MATLAB André Palhares Voicebox Speech processing toolbox for MATLAB André Palhares

Vector Distance - disteusq Calcula a distância euclidiana, quadrado da euclidiana ou de mahanalobis entre matrizes D=disteusq(X,Y,MODE,W) X,Y são matrizes com mesmo número de colunas MODE é uma string ‘x’: distância entre cada uma das linhas de X e Y ‘d’: distância entre linhas correspondentes ‘s‘: tira a raiz quadrada de modo a obter a distância euclidiana W é opcional e utilizado como peso pra distância Se MODE = ‘x’, retorna uma matriz com as distâncias Se MODE = ‘d’, o retorno é um vetor coluna

Speech Analysis - enframe Divide o sinal em frames, um por linha da matriz de saída F = ENFRAME(X,LEN) Cada frame fica com tamanho LEN e ocupa uma linha de F F = ENFRAME(X,LEN,INC) Cada frame começa a distancia INC do inicio do frame anterior

Speech Analysis – fram2wav Converte frames em waveforms contínuos, usando algum método de interpolação [w,s]=fram2wav(x,tt,mode) Entradas x(nf, p) – sinal de entrada, um frame por linha tt(nf, 3) – serve para específicar quais frames exatamente se quer interpolar mode – l pra interpolação linear, z para zero-order hold interpolation Saídas w(n,p) s(ns, 2)

Speech Analysis – ewgrpdel Calcula a energy weighted group delay waveform – para cada sample de entrada, essa rotina calcula o delay entre tal amostra e o centro de gravidade de uma janela centrada na amostra [y,mm]=ewgrpdel(x,w,m) x – sinal de entrada w – a janela ou o tamanho da janela m – onde fica o centro da janela (no meio, como default) y – o waveform gerado mm – o m utilizado no cálculo

Speech Analysis – activlev Mede o level ativo do sinal, de acordo com a recomendação P.56 da ITU-T [lev,af,fso]=activlev(sp,fs,mode) sp – sinal de entrada fs – frequencia de amostragem mode: ‘r’ – omitir todos os filtros (padrao é 200 Hz até 5.5 kHz) ‘0’ – não usar filtro passa alta (inclui DC) ‘4’ – usa filtro passa alta em 40 Hz ‘1’ – usa filtro de chebyschev de ordem 1 ‘2’ – usa filtro de chebyschev de ordem 2 (default) ‘e’ – usa filtro elíptico ‘h’ – omitir filtro passa baixa em 5.5 kHz ‘d’ – saída e dB Saídas lev – level do sinal af – duty cycle do sinal fso – vetor com informações adicionais do sinal

Speech Analysis – spgrambw Exibe o spectrograma do sinal em escala de cinza [tt,f,b]=spgrambw(data,fs,bw,fmax)

Speech Analysis – txalign Encontra o melhor alinhamento entre dois conjuntos de marcadores de tempo [kx,ky,nxy,mxy,sxy]=txalign(X,Y,MAXT) X e Y são vetores de tempo. O alinhamento tenta minimizar (X-Y)^2 com uma penalidade de MAXT^2 para cada par de entradas que não alinhem Saídas: nxy – número de alinhamentos obtidos mxy – média das distancias do alinhamento sxy – desvio padrão das distancias do alinhamento kx – vetor do mesmo tamanho de X. kx(i) = j se X(i) alinhou com Y(j). Se não, kx(i) = 0. Ky – idem em relação a Y

Speech Analysis – soundspeed Retorna a velocidade do som no ar, em função da temperatura v=soundspeed(t,m,g) t – temperatura do ar em celsius m – peso molecular médio do ar g – constante adiabática do ar v – velocidade do som

Voicebox Parameters and System Interface - voicebox Usado para setar parâmetros globais do voicebox y=voicebox(f,v) f é o nome de algum campo a ser setado v é o novo valor que tal campo vai assumir y é o valor do campo atualmente, se nenhum valor novo for passado como parâmetro. Se f e v forem ambos passados ou não, y recebe a estrutura dos parâmetros atual Entre os campos que podem ser setados, temos: PP.dir_temp - localização de dados temporários PP.dir_data - localizaçao de dados PP.shorten - localização do executavel shorten PP.sfsbin – localizaçao dos executaveis sfs PP.sfssuffix – sufixo dos executaveis sfs