60ª Reunião Anual da SBPC




H. Artes, Letras e Lingüística - 4. Lingüística - 1. Lingüística Aplicada

BRAVOZ - RECONHECIMENTO DE VOZ COM SUPORTE A GRANDES VOCABULÁRIOS (LVCSR) PARA O PORTUGUÊS BRASILEIRO: DESENVOLVIMENTO DE RECURSOS E SISTEMA DE REFERÊNCIA

Verônica Feldkircher1
André Gustavo Adami2

1. Departamento de Letras - UCS
2. Prof. Dr. - Departamento de Informática - UCS - Orientador


INTRODUÇÃO:
Atualmente o processamento de voz é visto como um desafio a ser enfrentado pela computação, engenharia e lingüística no desenvolvimento de máquinas capazes de interagir de forma natural com os seres humanos. O projeto de pesquisa Bravoz surgiu da importância do processamento da voz na computação moderna e da necessidade de se desenvolver um sistema de reconhecimento automático de voz para o Português Brasileiro (PB) de referência com suporte a grandes vocabulários (acima de 30 mil palavras), o qual é referenciado como Large Vocabulary Continuous Speech Recognition (LVCSR). Entre as dificuldades para o desenvolvimento de sistemas LVCSR estão a criação de um corpus de voz digitalizada e transcrita para treinamento do modelo acústico e de recursos específicos ao PB organizados em um dicionário fonético. Para superar essas dificuldades, o projeto visa desenvolver e disponibilizar um dicionário fonético, um modelo de linguagem, um modelo acústico, tabelas de conversão entre alfabetos fonéticos, transcrição ortográfica, transcrição e alinhamento fonético, e também desenvolver um sistema de referência para o PB através de implementação própria e toolkits open-source de processamento de voz disponíveis. Estes resultados servirão como base para o desenvolvimento de sistemas LVCSR para o PB.

METODOLOGIA:
Uma tabela de conversão de alfabetos fonéticos foi elaborada a partir dos símbolos fonéticos do IPA para o PB buscando correspondentes na tabela de símbolos fonéticos do Worldbet, para fazer a transcrição e alinhamento fonético. O trabalho é feito a partir de arquivos de fala de informantes de diversas áreas do Brasil da base de dados do Spoltech. Para cada arquivo de voz são criados dois arquivos: um com indicação do conteúdo falado (transcrição ortográfica) e outro com a informação temporal dos fonemas (transcrição e alinhamento fonético), isto é, o símbolo fonético e o intervalo de tempo onde o fonema inicia e termina. Através desses dados um dicionário fonético é criado para que possa prover uma ou mais pronúncias para cada palavra do vocabulário descritas por transcrição fonética, e um modelo de linguagem é desenvolvido a partir do tratamento de bases de textos de PB para que reflita o conhecimento acerca da língua. Todas estas informações são alimentadas durante o treinamento de um sistema LVCSR para que o mesmo aprenda as características acústicas e lingüísticas (através de modelos estocásticos e estatísticos) da língua a ser reconhecida.

RESULTADOS:
O primeiro resultado foi a definição de um conjunto fonético para o PB e correspondência com o mundialmente utilizado Worldbet, onde, em alguns casos, foi necessário criar novos símbolos que servissem às necessidades do PB anterior ao início do trabalho de transcrição e alinhamento fonético. Este conjunto é freqüentemente revisado de acordo com as necessidades à medida que o trabalho de transcrição e alinhamento fonético avança. A transcrição ortográfica de dois corpora do PB foi realizada: Spoltech e OGI 22 Language (o qual contém PB como uma das línguas coletadas). Utilizando o novo conjunto fonético, foi realizada a revisão do alinhamento temporal fonético de 20% do corpus Spoltech (8119 arquivos de voz de 480 locutores). Além disso, a revisão elimina problemas de inconsistências encontrados em diferentes partes

CONCLUSÕES:
Os recursos a serem produzidos neste projeto facilitarão enormemente tanto o desenvolvimento de novos sistemas de reconhecimento automático de voz para o PB quanto o desenvolvimento de novas técnicas que são necessárias para o funcionamento de tais sistemas, servindo como base de dados e sistema de referência. A revisão da transcrição fonética realizada no corpus Spoltech permitirá a utilização eficaz da mesma para o desenvolvimento de sistemas LVCSR, já que a mesma contém muitas inconsistências na transcrição. A transcrição ortográfica realizada já pode ser utilizada para o desenvolvimento de sistemas LVCSR.

Instituição de fomento: CNPq

Trabalho de Iniciação Científica

Palavras-chave:  Reconhecimento de voz, Processamento de voz, Fonética

E-mail para contato: vfeldkir@ucs.br