A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

© 2005, it - instituto de telecomunicações. Todos os direitos reservados. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga.

Apresentações semelhantes


Apresentação em tema: "© 2005, it - instituto de telecomunicações. Todos os direitos reservados. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga."— Transcrição da apresentação:

1 © 2005, it - instituto de telecomunicações. Todos os direitos reservados. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga HE[eee]SIT[u]AÇÃO Modelos de Hesitação para o Português FLUC, 17 Fevereiro 2011

2 2 Fevereiro 17, 2011 Sumário Introdução Objeto de estudo Objetivos Plano e métodos Corpus Análise Perspetivas

3 3 Objeto de Estudo Eventos de hesitação (disfluências) Pausas preenchidas Segmentos fonéticos do sistema português não ocorrentes no âmbito do vocábulo: uum, mm, amm, aa Extensões Prolongamentos fonéticos no âmbito de vocábulos Vocábulos cortados Repetições de de, para a para a Fevereiro 17, 2011 Preenchimentos com vocábulos pá, ok, …

4 4 Objetivos Modelar eventos de hesitação presentes no português falado em contínuo Identificar características linguísticas pertinentes e regulares Descrever os fenómenos de hesitação existentes no português falado Propriedades acústico-fonéticas Propriedades morfológicas e sintácticas Caracterizar modelos linguísticos e acústicos das hesitações para identificação e anotação automática dos eventos na fala contínua Fevereiro 17, 2011 Anotar uma base de dados de fala contínua em termos de eventos de hesitação

5 5 Plano de Trabalho Criação e anotação de base de dados Identificação automática de hesitações Estudo linguístico e caracterização de hesitações Fevereiro 17, 2011 corpora: Tecnovoz Noticiários Centenas de locutores 40 horas de fala lida Anotado ortograficamente Centenas de horas Não anotado Ferramentas para anotação automática de: jingles e música mudança de locutor, reportagens no exterior

6 6 Eventos de Hesitação Primeiros passos… Eventos encontrados manualmente Uso do TranscriberTranscriber Fevereiro 17, 2011 Sub-corpora: Inferem-se as primeiras características (surface structure) que permitam a deteção automática dos eventos

7 7 Deteção Automática de Hesitações Fevereiro 17, 2011 Problemas: Ficheiros muito longos; qualidade do áudio variável; muitos locutores: necessidade de tratamento automático. Inexistência de modelos acústicos para hesitação. Caracterização acústica/fonética dos eventos: Tom constante e mais baixo que o usual? Formantes diferentes? Vibrante múltipla? Quais as características a usar? Deteção de repetições: Uso de técnicas de reconhecimento de fala/fones.

8 8 Deteção Automática de Hesitações Fevereiro 17, 2011 Solução preliminar: Apenas deteção de pausas preenchidas e extensões. Uso de modelos acústicos de fones. Modelos estatísticos de fones com misturas de Gaussianas, GMM. Regra: existe uma hesitação se for detetada uma vogal longa (>350ms) ou repetições de um mesmo fone por mais que 350ms. Permitir mais falsas aceitações que falsas rejeições. Verificação manual dos eventos detectados. Exemplos

9 9 Processo de Anotação Sistemas propostos: Levelt (1983; 1989) Nakatani & Hirschberg (1994) Shriberg (1994) Fevereiro 17, 2011 material a corrigir momentos de interrupção acompanhados (ou não) de pausas material reposto Mostra voos de Lisboa na umm de Londres na terça. Interruption Point Reparandum Interregnum Repair SimpleMDE_v6.2: Simple Metadata Annotation Specification Linguistic Data Consortium

10 10 Exemplos de Anotação Fevereiro 17, 2011 Venho de Lisboa aaaa de Co- Coimbra. IP * [ ] Reparandum FP Repair [ ] Reparandum Repair É necessário gastar para renovar para renovar renová-lo. IP * [ ] Reparandum Repair [ ] Reparandum Repair IP *

11 11 Caracterização de Hesitações Estruturas subjacentes: reparandum, interruption point, (explicit) editing phase, repair, fronteiras (frases, vocábulos, sílabas) Características fonéticas: contornos da onda sonora valores de F0 para onset e offset dos eventos valores de formantes das vogais duração dos segmentos … Características sintáticas e morfológicas (dos eventos e dos elementos adjacentes) Fevereiro 17, 2011 Informação estatística

12 12 Perspetivas Fevereiro 17, 2011 Identificação de regularidades no âmbito da sintaxe e da morfologia da prosódia ???

13 © 2005, it - instituto de telecomunicações. Todos os direitos reservados. Fim Obrigados


Carregar ppt "© 2005, it - instituto de telecomunicações. Todos os direitos reservados. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga."

Apresentações semelhantes


Anúncios Google