Pesquisadores da Microsoft criaram um software que pode aprender o som da sua voz, e então usá-lo para falar uma língua que você não sabe falar. O sistema poderia ser usado para tornar a aprendizagem de uma outra linguagem mais pessoal, ou como ferramenta de apoio para os viajantes.
Em uma demonstração na Microsoft em Redmond, Washington, campus nesta terça-feira, o cientista da Microsoft Frank Soong mostrou como o seu software pode ler texto em espanhol usando a voz de seu chefe, Rick Rashid, que lidera os esforços de pesquisa da Microsoft. Em uma segunda demonstração, Soong usou seu software para dar a Craig Mundie, chefe de pesquisa da Microsoft e diretor de estratégia, a capacidade de falar mandarim.
Em Inglês, uma versão sintética de voz Mundie deu boas-vindas ao público no evento realizado pela Microsoft Research, concluindo: “Com a ajuda deste sistema, agora eu posso falar mandarim.” A frase foi repetida em chinês mandarim, em que ainda era reconhecidamente a voz do Mundie.
Frank Soong criou o sistema com os colegas na Microsoft Research Asia, laboratório de pesquisa da empresa de segunda maior, em Pequim, China.
“Para um viajante monolíngüe em um país estrangeiro, vamos fazer o reconhecimento de voz seguido de tradução, seguido do texto final para a saída de fala [em] uma linguagem diferente, mas ainda em sua própria voz”, disse Soong.
A nova técnica poderia também ser usado para ajudar os estudantes aprender uma língua, disse Soong. Fornecer amostra de frases estrangeiras na voz da própria pessoa pode ser encorajador, ou tornar mais fácil de imitar. Soong também mostrou como seu novo sistema poderia melhorar um aplicativo de navegação telefone direções, permitindo um estoque de voz sintética Inglês para ler perfeitamente o texto escrito nos sinais de trânsito chineses como que retransmitida as instruções para um percurso em Pequim.
O sistema necessita de cerca de uma hora de treinamento para desenvolver um modelo capaz de ler qualquer texto em voz própria de uma pessoa. Esse modelo é convertido para um novo modelo a capacidade de ler texto em outro idioma, comparando-a com um estoque de modelo de texto para fala para a língua alvo. Sons individuais usados pelo primeiro modelo para construir palavras usando a voz de uma pessoa em sua própria língua são cuidadosamente ajustado para dar ao novo modelo de texto uma capacidade total para sondar frases na segunda língua.
Soong diz que esta abordagem pode converter entre qualquer par de 26 línguas, incluindo chinês mandarim, espanhol e italiano.
Preservar a voz de uma pessoa quando a síntese de fala para eles em outro idioma provavelmente seria reconfortante para um usuário, e pode tornar as interações dependentes de software de tradução mais significativo, diz Shrikanth Narayanan , professor da University of Southern California, em Los Angeles.
“A palavra é apenas uma parte do que uma pessoa está dizendo”, diz ele, e para realmente transmitir todas as informações no discurso de uma pessoa, o sistemas de tradução terá que ser capaz de preservar as vozes e muito mais. “Preservar a voz, preservando a entonação, essas coisas são importantes, e este projecto claramente que sabe”, diz Narayanan. “Nossos sistemas precisam capturar a expressão de uma pessoa está tentando transmitir, quem são eles e como eles estão dizendo isso.”
Seu grupo de pesquisa investiga como os recursos, como ênfase, entonação e a forma como as pessoas usam as pausas ou hesitações afeta a eficácia e a qualidade percebida de uma tradução palavra por palavra. “Nós estamos perguntando se você pode construir sistemas que podem mediar entre as pessoas, bem como apenas substituir as palavras”, diz ele. “Eu vejo isso como uma parte de como você fazer isso acontecer.”