A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Junho 2011 Davyd Bandeira de Melo 1. * Aplicações do Processamento Digital de Voz * Motivação * Arquitetura de um Sistema de Reconhecimento de Voz * Aquisição.

Apresentações semelhantes


Apresentação em tema: "Junho 2011 Davyd Bandeira de Melo 1. * Aplicações do Processamento Digital de Voz * Motivação * Arquitetura de um Sistema de Reconhecimento de Voz * Aquisição."— Transcrição da apresentação:

1 Junho 2011 Davyd Bandeira de Melo 1

2 * Aplicações do Processamento Digital de Voz * Motivação * Arquitetura de um Sistema de Reconhecimento de Voz * Aquisição de Dados * Pré-processamento * Sistema de Recorte * Representação do Sinal de Voz * Reconhecimento de padrões * Tipos de problemas de interesse * Memória Associativa Linear Ótima (OLAM) * Máquinas de Aprendizagem Extrema (ELM) * SRCV – Sistema de Reconhecimento de Comandos de Voz * Simulações * Conclusões * Perspectivas Futuras 2

3 Técnicas de Processamento Digital da Voz Transmissão Digital e Armazenamento Síntese de Voz Reconhecimento de Voz Identificação de Elocutores Realce da Qualidade da Voz Acessibilidade 3

4 * Interação homem-máquina em sistemas multimídias em alta * Maior naturalidade na comunicação com sistemas computacionais * Mobilidade do usuário melhorada através da interface de voz * Aplicações em Robótica Móvel * Acessibilidade 4

5 Estágios constituintes de um sistema de reconhecimento de voz 5

6 * Responsável por capturar, amostrar e digitalizar as elocuções * O sinal capturado constitui de: * Períodos de silêncio * Períodos relevantes do sinal de voz * Ruído de fundo * Ex: Ar condicionado, chuva, imperfeições do equipamento de captura, dentre outros. 6

7 * Sistemas Detectores de Atividade de Voz (DAV) * Retira períodos de silêncio do início e do fim da elocução * Reduz a quantidade de dados a serem processados em estágios posteriores * Alguns algoritmos de DAV levam em consideração o ruído de fundo 7

8 8

9 * Filtro de pré-ênfase * Torna o sinal menos suscetível aos efeitos de precisão finita * Planifica o espectro Função de transferência do filtro de pré-ênfase Equação temporal do filtro de pré-ênfase 9

10 * Geração de características que forneçam maior eficiência no reconhecimento das elocuções * Reduz o espaço de dados sem perda de informação útil * Representação utilizada: coeficientes LPC 10

11 * Consiste em representar o sinal através de suas amostras atrasadas no tempo: * Os coeficientes a 1, a 2, a 3,..., a p são chamados de coeficientes LPC * p é chamada ordem do preditor 11

12 * Minimização de uma função custo * Resolvendo a equação acima obtemos os valores ótimos onde 12

13 * Utiliza-se então o algoritmo de Levison-Durbin para resolver o sistema dos coeficientes LPC 13

14 14

15 * Objetivo: encontrar regularidades nos dados de forma a separá-los em classes 15

16 * Fase de treinamento e fase de generalização * Divide-se o conjunto de dados (N elementos) para treinamento e teste * Fase de treinamento * Conjunto de treinamento X tr com N 1 elementos * Rótulos das classes de cada vetor de treinamento * Fase de teste * Conjunto de teste X test com N 2 elementos * Observa-se as saídas do classificador para verificar seu desempenho * Realimentação dos resultados e ajustes finos * Tipos de conjunto * Linearmente separáveis * Não-linearmente separáveis 16

17 Problema linearmente separável Problema não-linearmente separável Curva não-linear separando duas classes de dados 17

18 * Assume-se inicialmente um mapeamento linear W desconhecido entre vetores de entrada x e vetores de saída d: * Representando o mapeamento através de sistemas lineares: 18

19 19

20 20

21 21

22 22

23 Mapeamento Aleatório (W) tgh(.) OLAM (M) u(i)z(i) x y Arquitetura da rede neural ELM 23

24 Neurônio da camada escondidaNeurônio da camada de saída 24

25 * Três fases a serem seguidas para realização do treinamento da rede ELM: * Fase 01: Inicialização Aleatória dos Pesos dos Neurônios Ocultos * Fase 02: Acúmulo das Saídas dos Neurônios Ocultos * Fase 03: Cálculo dos pesos dos neurônios de saída * O conjunto de dados possui N vetores de entrada. * N 1 (N 1

26 * Fase 01: Inicialização Aleatória dos Pesos dos Neurônios Ocultos * Inicializa-se a matriz dos pesos W com valores aleatórios que podem ser distribuídos de forma uniforme ou normal * Onde W é 26

27 27

28 * Fase 03: Cálculo dos pesos dos neurônios de saída * Tendo obtido Z, podemos enxergar a última camada como um modelo OLAM de entrada Z e saídas desejadas D * Podemos obter a matriz de pesos M da camada de saída aplicando o método da pseudoinversa * Teste de capacidade de generalização utilizando as matrizes W e M 28

29 * SRCV – Sistema de Reconhecimento de Comandos de Voz * Características Proprostas * Gravação de elocuções * Cadastro de novos comandos de voz * Exibição de formas de onda * Gerenciamento completo das elocuções * Armazenamento dos parâmetros das redes neurais * Seleção do tipo de rede utilizado nas simulações * Log de atividades * Simulações através de arquivos de dados e bancos de dados relacionais 29

30 30

31 Modelos de dados utilizados no SRCV 31

32 * Padrão de Projeto * Soluções que, no contexto das linguagens orientadas a objeto, proporcionem reuso, modularidade e uma maior separação entre camadas de software. * Padrões de Projeto utilizados no SRCV * Singleton: Acesso através de um único objeto à conexão com o banco de dados * Data Access Object: Acesso transparente aos meios persistentes 32

33 Diagrama de classe que representa o padrão DAO 33

34 Diagrama de classe que representa o padrão Singleton 34

35 * Simulação 01: Utilização de um conjunto de dados pouco desafiador para validação das redes neurais desenvolvidas * Após os vetores de dados serem carregados eles são embaralhados e divididos * 80% dos dados para treinamento. N 1 = 0,80 * N * 20% dos dados para teste. N 2 = 0,20 * N * A rede é treinada 50 vezes e em cada vez um novo embaralhamento é realizado * Os melhores parâmetros das redes neurais são guardados e utilizados na fase de generalização * OLAM: Matriz W * ELM: Matriz W e M 35

36 * Resultados: * OLAM: 98% de acerto no treinamento * ELM: Taxa de acerto da rede ELM no treinamento Tempo médio de execução da rede ELM (inicialização, treinamento e teste) 36

37 * Simulação 02: Utilização de um conjunto de dados desafiador para validação das redes neurais desenvolvidas * Após os vetores de dados serem carregados eles são embaralhados e divididos * 80% dos dados para treinamento. N 1 = 0,80 * N * 20% dos dados para teste. N 2 = 0,20 * N * A rede é treinada 50 vezes e em cada vez um novo embaralhamento é realizado * Os melhores parâmetros das redes neurais são guardados e utilizados na fase de generalização * OLAM: Matriz W * ELM: Matriz W e M 37

38 * Resultados: * OLAM: 65,5% de acerto no treinamento * ELM: Taxa de acerto da rede ELM no treinamento Tempo médio de execução da rede ELM (inicialização, treinamento e teste) 38

39 * Simulação 03: Utilização do conjunto de dados para testar o reconhecimento de comandos * Após os vetores de dados serem carregados eles são embaralhados * 100% dos dados para treinamento. N 1 = N * 7 elocuções para cada um dos comandos: frente, trás, esquerda e direita * A rede é treinada 50 vezes e em cada vez um novo embaralhamento é realizado * Os melhores parâmetros das redes neurais são guardados e utilizados na fase de generalização * OLAM: Matriz W * ELM: Matriz W e M * Para realização do teste uma nova elocução é gravada, representada através de coeficientes LPC e submetida às redes neurais 39

40 * Os coeficientes LPC de cada frame de uma elocução são extraídos e a cada um deles é atribuído um rótulo * A matriz dos vetores de entrada tem a seguinte forma * Onde os rótulo R 0, R 1, R 2,... R L-1 são os rótulos dos comandos dos quais cada coeficiente LPC pertence 40

41 * A matriz dos vetores de entrada é submetida a rede neural * Para cada vetor dessa matriz a rede neural inferirá uma classe * Cada classe possui uma variável acumuladora que indica quantas vezes a rede identificou um dado comando * É feito o voto majoritário entre as variáveis acumuladoras para indicar qual comando foi emitido pelo usuário * Por exemplo, se a rede possuir as seguintes variáveis acumuladoras teremos como saída o comando frente: * Frente: 145 * Trás: 0 * Esquerda: 15 * Direita: 12 41

42 * Parâmetros de aquisição das elocuções: * Taxa de amostragem: 8KHz * Bits/amostra: 8 * Número de canais: 1 * Sinalização: Sim * Endianess: Big-endian * Parâmetros de pré-processamento * Coeficiente do filtro de pré-ênfase: 0,9 * Parâmetros de representação do sinal * Ordem de predição linear: 10 42

43 * Resultados: * OLAM: 55% de acerto no treinamento * ELM: Taxa de acerto da rede ELM no treinamento Matriz de confusão para a rede neural ELM. Métrica m 1 para a rede neural ELM. 43

44 Matriz de confusão para a rede neural OLAM. Métrica m 1 para a rede neural OLAM. 44

45 * O uso de conjuntos de dados cuja complexidade é conhecida foi útil para validar as implementações das redes neurais * O classificador não-linear (ELM) se comportou melhor em relação ao classificador linear (OLAM) para os dados de voz * Melhor matriz de confusão * Maior precisão evidenciada através de uma métrica m 1 * A taxa de acerto da rede ELM saturou a medida que se aumenta quantidade de neurônios da camada oculta * O tempo de execução da rede ELM apresentou um comportamento exponencial a medida que se aumenta quantidade de neurônios da camada oculta * O uso de padrões de Software adicionou modularidade e reuso à aplicação 45

46 * Correções de bugs conhecidos no simulador * Melhoria da usabilidade do simulador * Implementação da funcionalidade de reconhecimento de usuários * Criação de uma interface entre o software e as rotinas de movimentação do robô SCITOS G5 46

47 47

48 48


Carregar ppt "Junho 2011 Davyd Bandeira de Melo 1. * Aplicações do Processamento Digital de Voz * Motivação * Arquitetura de um Sistema de Reconhecimento de Voz * Aquisição."

Apresentações semelhantes


Anúncios Google