Por que a 'vovó morta' da Amazon, Alexa, é apenas o começo da clonagem de voz

A evolução da tecnologia de texto para fala está nos aproximando de vozes convincentemente humanas.

  Por que a 'vovó morta' da Amazon, Alexa, é apenas o começo da clonagem de voz
[Foto: Mateus Bola /Unsplash; seamartini/Getty Images]

No início deste verão, na conferência re:MARS - um evento organizado pela Amazon com foco em aprendizado de máquina, automação, robótica e espaço - Rohit Prasad, cientista-chefe e vice-presidente da Alexa AI, teve como objetivo impressionar o público com um truque paranormal. : falando com os mortos. “Embora a IA não possa eliminar a dor da perda, ela pode definitivamente fazer suas memórias durarem”, disse ele, antes de mostrar um pequeno vídeo que começa com um menino adorável perguntando a Alexa , “A vovó pode terminar de me ler O feiticeiro de Oz ?”

A voz da mulher que lê algumas frases do livro parece bastante vovó. Mas sem conhecer a vovó, era impossível avaliar a semelhança. E a coisa toda atingiu muitos observadores como mais do que um pouco assustadora – Ars Technica chamou a demonstração de “mórbida”. Mas a revelação de Prasad de como o “truque” foi realizado foi realmente digna de suspiro: os cientistas da Amazon conseguiram invocar a voz da vovó com base em apenas uma amostra de áudio de um minuto. E eles podem facilmente fazer o mesmo com praticamente qualquer voz, uma perspectiva que você pode achar emocionante, aterrorizante ou uma combinação de ambos.

O medo de vozes “deepfake” capazes de enganar humanos, ou tecnologia de reconhecimento de voz, não é infundado. Em um caso de 2020, os ladrões usaram uma voz gerada artificialmente para convencer um gerente de banco de Hong Kong a liberar US$ 400.000 em fundos antes que o ardil fosse descoberto. Ao mesmo tempo, à medida que as interações de voz com a tecnologia se tornam mais comuns, as marcas estão ansiosas para serem representadas por vozes únicas. E os consumidores parecem querer tecnologia que soe mais humana (embora um Assistente de voz do Google que imitava os “ums”, “mm-hmms” e outros tiques da fala humana foi criticado por ser também realista).



Isso tem impulsionado uma onda de inovação e investimento em tecnologia text-to-speech (TTS) com inteligência artificial. Uma pesquisa no Google Scholar mostra mais de 20.000 artigos de pesquisa sobre síntese de conversão de texto em fala publicados desde 2021. Globalmente, o mercado de conversão de texto em fala deve atingir US$ 7 bilhões em 2028, acima dos US$ 2,3 bilhões em 2020, de acordo com a Pesquisa Emergente.

Hoje, o uso mais difundido do TTS é em assistentes digitais e chatbots. Mas os aplicativos emergentes de identidade de voz em jogos, mídia e comunicação pessoal são fáceis de imaginar: vozes personalizadas para suas personas virtuais, mensagens de texto que são lidas em sua voz, narrações por ausência ( ou falecido ) atores. O metaverso também está mudando a maneira como interagimos com a tecnologia.

“Haverá muito mais dessas experiências virtualizadas, onde a interação é cada vez menos um teclado e mais sobre fala”, diz Frank Chang, sócio fundador do fundo de risco Flying Fish, em Seattle, focado em IA. “Todo mundo pensa no reconhecimento de fala como a coisa quente, mas, no final das contas, se você está falando com algo, não quer que ele apenas responda para você? Na medida em que isso pode ser personalizado – com sua voz ou a voz de alguém que você quer ouvir – tanto melhor.” Fornecer acessibilidade para pessoas com problemas de visão, função motora limitada e outros problemas cognitivos é outro fator que impulsiona o desenvolvimento da tecnologia de voz, principalmente para e-learning.

Quer você goste ou não da ideia de “Vovó Alexa”, a demonstração destaca a rapidez com que a IA impactou a conversão de texto em fala e sugere que vozes falsas convincentemente humanas podem estar muito mais próximas do que pensamos.

Acredita-se que o Alexa original, lançado com o dispositivo Echo em novembro de 2014, tenha sido baseado em a voz de Nina Rolle , dublador baseado em Boulder (algo que nem Amazon nem Rolle jamais confirmaram), e contou com tecnologia desenvolvida pela empresa polonesa de conversão de texto em fala Ivona, adquirida pela Amazon em 2013. Mas o estilo de conversação do Alexa inicial deixou muito a desejar . Em 2017, VentureBeat escreveu: “Alexa é muito inteligente, mas não importa o que o assistente com inteligência artificial fale, não há como contornar sua voz relativamente plana e monótona”.

As primeiras versões do Alexa usavam uma versão de conversão de texto em fala “concatenativa”, que funciona compilando uma grande biblioteca de fragmentos de fala gravados de um único falante que pode ser recombinado para produzir palavras e sons completos. Imagine uma nota de resgate, onde as letras são cortadas e coladas novamente para formar novas frases. Essa abordagem gera áudio inteligível com um timbre de som autêntico, mas requer muitas horas de dados de voz gravados e muitos ajustes finos - e sua dependência de uma biblioteca de sons gravados dificulta a modificação de vozes. Outra técnica, conhecida como TTS paramétrico, não usa fala gravada, mas começa com modelos estatísticos de sons de fala individuais que podem ser reunidos em uma sequência de palavras e frases e processados ​​por meio de um sintetizador de fala chamado vocoder. (As vozes 'padrão' de conversão de texto em fala do Google usam uma variação dessa tecnologia.) Ela oferece mais controle sobre a saída de fala, mas tem um som robótico abafado. Você não gostaria que ele lesse uma história de ninar para você.

No esforço de criar vozes novas, mais expressivas e com som natural, Amazon, Google, Microsoft, Baidu e outros grandes players da conversão de texto em fala adotaram nos últimos anos alguma forma de “TTS neural”. Os sistemas NTTS usam redes neurais de aprendizado profundo treinadas na fala humana para modelar formas de onda de áudio do zero, convertendo dinamicamente qualquer entrada de texto em fala com som fluido. Os sistemas neurais são capazes de aprender não apenas a pronúncia, mas também padrões de ritmo, ênfase e entonação que os linguistas chamam de “prosódia”. E eles podem aprender novos estilos de fala ou trocar as “identidades” dos falantes com relativa facilidade.

Atualmente, a API de conversão de texto em fala do Google Cloud oferece aos desenvolvedores mais de 100 vozes neurais em idiomas que variam de árabe a vietnamita (além de dialetos regionais), além de 'vozes padrão' que usam TTS paramétricos mais antigos ( escute aqui ). O Azure da Microsoft oferece aos desenvolvedores acesso a mais de 330 vozes neurais em mais de 110 idiomas e dialetos, com uma variedade de estilos de fala, incluindo noticiário, atendimento ao cliente, gritos, sussurros, raiva, excitação, alegria, tristeza e terror ( Experimente! ). As vozes neurais do Azure também foram adotadas por empresas, incluindo ATT, Duolingo e Progressive. (Em março, a Microsoft concluiu a aquisição da Nuance, líder em IA conversacional e parceira na construção do Siri da Apple, cujo serviço de vocalizador oferece mais de 120 vozes de chatbots neurais em mais de 50 idiomas.) A API de conversão de texto em fala Polly da Amazon suporta aproximadamente três dúzias de vozes neurais em 20 idiomas e dialetos, em estilos de conversação e de “locutor” (ouça uma demonstração inicial aqui).

A tecnologia subjacente à demonstração de voz da Vovó foi desenvolvida por cientistas do laboratório de conversão de texto em fala da Amazon em Gdansk, Polônia. Em um artigo de pesquisa, os desenvolvedores descrevem sua nova abordagem para clonar uma nova voz a partir de uma amostra muito limitada – um problema de “poucos tiros”, no jargão do aprendizado de máquina. Essencialmente, eles dividiram a tarefa em duas partes. Primeiro, o sistema converte texto em fala “genérica”, usando um modelo que foi treinado em 10 horas de fala de outro falante. Então, um “filtro de voz” – treinado em uma amostra de um minuto da voz do falante alvo – confere uma nova identidade do falante, modificando características da voz genérica para soar como o alto-falante alvo. Muito poucos exemplos de treinamento são necessários para construir novas vozes.

Em vez de ter que construir um novo modelo de conversão de texto em fala para cada nova voz, essa abordagem modular transforma o processo de criação de uma nova identidade de falante na tarefa computacionalmente mais fácil de transformar uma voz em outra. Em medidas objetivas e subjetivas, a qualidade da fala sintética gerada dessa maneira foi comparável à fala de modelos treinados com 30 vezes mais dados. Dito isto, não pode imitar totalmente o estilo de fala de uma pessoa específica. Em um e-mail para Empresa Rápida , os pesquisadores do Alexa explicam que o filtro de voz altera apenas o timbre da voz falada – sua ressonância básica. A prosódia da voz – seus ritmos e entonação – vem do modelo genérico de voz. Então, soaria como a voz da vovó lendo, mas sem a maneira distinta como ela esticava certas palavras ou fazia uma longa pausa entre outras.

A Amazon não dirá quando os novos recursos de clonagem de voz estarão disponíveis para desenvolvedores e público. Em um e-mail, um porta-voz escreve: “Personalizar a voz do Alexa é um recurso altamente desejado por nossos clientes, que podem usar essa tecnologia para criar muitas experiências deliciosas. Estamos trabalhando para melhorar a ciência fundamental que demonstramos no re:MARS e estamos explorando casos de uso que irão encantar nossos clientes, com as proteções necessárias para evitar qualquer uso indevido em potencial.

Pode-se imaginar oferecer a capacidade de personalizar algo como o Reading Sidekick - um recurso do Alexa que permite que as crianças se revezem na leitura com o Alexa - com a voz de um ente querido. E é fácil ver como a demonstração da “voz da vovó” pode pressagiar um elenco expandido de vozes de celebridades mais adaptáveis ​​para assistentes virtuais. As vozes de celebridades atuais de Alexa - Shaquille O'Neal, Melissa McCarthy e Samuel L. Jackson - exigiram cerca de 60 horas de gravações em estúdio para serem produzidas e são um pouco limitadas no que podem fazer; respondendo a perguntas sobre o clima, contando piadas e histórias e respondendo a certas perguntas, mas deixando de usar a voz padrão do Alexa para solicitações fora da zona de conforto do sistema.

As “aparições de voz de celebridades” do Google Assistant de John Legend e Issa Rae – introduzidas em 2018 e 2019, mas sem suporte no momento – combinou de forma semelhante áudio pré-gravado com algumas respostas improvisadas sintetizadas com a tecnologia WaveNet. A capacidade de desenvolver vozes de celebridades mais robustas que podem ler qualquer entrada de texto após uma curta sessão de gravação pode ser um divisor de águas - e pode até ajudar a aumentar as vendas estagnadas de alto-falantes inteligentes. (De acordo com a empresa de pesquisa Omdia, as remessas de alto-falantes inteligentes dos EUA caíram quase 30% no ano passado em relação a 2020, incluindo uma queda de quase 51% nos embarques de alto-falantes inteligentes Amazon Alexa.)

À medida que as grandes empresas de tecnologia continuam investindo em conversão de texto em fala, uma coisa é certa: será cada vez mais difícil dizer se a voz que você está ouvindo é feita por um humano ou por um algoritmo feito por humanos.