62ª Reunião Anual da SBPC
A. Ciências Exatas e da Terra - 2. Ciência da Computação - 17. Ciência da Computação
SPEAK: UTILIZANDO RECONHECIMENTO DE VOZ APLICADA A TRADUÇÃO
Pablo Vinicius Alves de Barros 1
Richarlyson Alves D´Emery 1
1. Unid. Acadêmica de Serra Talhada, Univ. Federal Rural de Pernambuco - UAST-UFRPE
INTRODUÇÃO:
Com a crescente popularização digital, computadores e acesso a internet estão disponíveis a quase toda a população mundial. A evolução das tecnologias de acesso e interação com o conteúdo digital é algo inevitável, e o uso de tecnologias de reconhecimento de fala cada vez mais se destaca. Muitos são os casos estudados e aplicados para essa tecnologia, envolvendo desde atendimento automático ao usuário nos tele atendimentos até o controle de ferramentas e dispositivos através da fala. Este trabalho apresenta o Speak, um tradutor eletrônico que faz uso da tecnologia de reconhecimento de fala aplicado à tradução de palavras e pequenas frases com o Sphinx-4, um framework em linguagem Java, aberta, desenvolvida e distribuída pela CMU (Carnigie Mellon University) em parceria com Sun Microsystems, Mitsubishi Electric Research Labs, o MIT (Massachusets Institute of Tecnology) para reconhecimento de fala e da Google Translate API para tradução de frases e palavras.
METODOLOGIA:
O estudo de caso utilizado neste trabalho é um software de tradução eletrônica que utiliza do framework Sphinx-4 e a Google Translate API para reconhecer e traduzir palavras e pequenas frases. O modelo acústico e o dicionário utilizado no estudo de caso foi o Wall Street Journal, contando com um total de cinco mil palavras na língua inglesa. O modelo lingüístico utilizado no Speak é um modelo trigram, modelo que se caracteriza por tentar prever as três próximas palavras a serem ditas em uma sentença. O modelo utilizado neste estudo de caso contém 170 palavras com um total de 4.913.000 combinações possíveis a serem previstas. O Speak utiliza Google Translate API para a tradução online, a partir da língua inglesa, para Alemão, Árabe, Italiano, Francês e Português. Esta API é distribuída pela Google através do projeto google-api-translate-java e usa a língua inglesa como língua intermediária para tradução. No estudo de caso foi escolhida uma sentença composta de três frases e 25 palavras faladas no mesmo microfone e mesmo computador por cinco locutores com diferentes sotaques, idades e gênero. A sentença foi escolhida aleatoriamente: "The green one is behind the table, the purple one is on the top right corner, then the purple one back to the left side".
RESULTADOS:
O Speak permite escolher os idiomas de origem (o falado) e de destino (o traduzido). O usuário deve falar próximo ao microfone em um tom constante e de bom volume e evitar utilizá-lo em ambientes ruidosos. A captação do som, reconhecimento e tradução da palavra ou frase serão dados de forma continua, existindo um delay entre a captação e o reconhecimento de aproximadamente 10s. O primeiro locutor obteve o resultado: The Green on is behinde the table;The purple on is on the top right corner;Then the purple one back to the left right size. O Segundo locutor obteve o resultado: A Green one is behinde the table;The purple one is top right corner; The the purple on back to the left size. O Terceiro locutor obteve o resultado: The Green one is behinde a table;That Color are all on the top right corner; Then the purple one back to the left size. O Quarto locutor obteve o resultado: The Green one is behinde the table; The purple one is the top right corner; then the button all one back to the left size. O Quinto locutor obteve o resultado: The Green one is in the table; purple the top right corner; then purple one back to the left size. O Speak obteve para esses locutores, respectivamente, uma taxa de acerto de palavras reconhecidas de 84%, 76%, 80%, 88% e 76%.
CONCLUSÃO:
Com uma taxa média de acertos de 80,8%, podemos concluir que o Speak cumpre seu papel como tradutor eletrônico de uma forma aceitável. Percebemos que as limitações de linguagem falada (somente inglês) e poucas palavras no dicionário no modelo lingüístico (170 palavras) podem influenciar pouco esse resultado, de forma que a taxa final de acerto não irá variar muito em relação a que foi obtida nesse experimento.
Palavras-chave: Sphinx-4, Tradutor eletrônico, Reconhecimento de Voz.