A tecnologia moderna revolucionou a maneira como fazemos as coisas. Mesmo a versão mais básica dos smartphones nos bolsos da maioria das pessoas ou dispositivos domésticos inteligentes em nossas salas de estar têm uma quantidade impressionante de recursos-especialmente quando você considera que pode controlá-los simplesmente conversando, graças à inteligência artificial (IA). Mas, mesmo quando os computadores progrediram para ajudar a facilitar nossas vidas, eles também estão entrando em um novo território à medida que se tornam capazes de imitar o comportamento humano e até pensar por si mesmos. E agora, uma nova forma assustadora de IA pode simular sua voz perfeitamente depois de ouvi -la por apenas três segundos. Continue lendo para saber mais sobre a tecnologia inovadora.
Leia o próximo: Nunca carregue seu telefone Android dessa maneira, dizem os especialistas.
Todos nós confiamos em máquinas para facilitar nossa vida diária de uma maneira ou de outra. Mas e se um computador pudesse intervir e imitar a maneira como você fala sem que outros percebam?
Na semana passada, os pesquisadores da Microsoft anunciaram que haviam desenvolvido uma nova forma de IA de texto em fala que chamaram de Vall-e, Relatórios ARS Technica. A tecnologia pode simular a voz de uma pessoa usando um clipe de áudio de três segundos, até pegando e preservando o tom emocional do orador original e os sons acústicos do ambiente em que estão gravando. A equipe diz que o modelo pode ser útil para criar vocalizações automáticas de texto-mesmo que venha com riscos potenciais de idiotas altamente sofisticados semelhantes aos vídeos deepfake.
Em seu artigo discutindo a nova tecnologia, a Microsoft dubs vall-e um "modelo de idioma de codec neural."O que isso significa é que, embora o software tradicional de texto em fala (TTS) pegue palavras escritas e manipula formas de onda para gerar vocalizações, a IA pode captar elementos sutis de uma voz e avisos de áudio específicos que o ajudam a criar uma recriação confiável de um pessoa que fala qualquer frase que seja alimentada a ela, de acordo com o site engenharia interessante.
"Para sintetizar o discurso personalizado (e.g., zero tts de tiro), o Vall-e gera os tokens acústicos correspondentes condicionados aos tokens acústicos da gravação inscrita em 3 segundos e o aviso de fonema, que restringe o alto-falante e as informações de conteúdo, respectivamente, "a equipe explica em seu artigo. "Finalmente, os tokens acústicos gerados são usados para sintetizar a forma de onda final com o decodificador de codec neural correspondente."
Relacionado: Para obter informações mais atualizadas, inscreva-se em nosso boletim informativo diário.
Para desenvolver o novo modelo, a equipe diz que usou cerca de 60.000 horas de discurso gravado em inglês de mais de 7.000 falantes individuais de uma biblioteca de áudio montada por meta conhecida como Librilight. Na maioria dos casos, as gravações foram retiradas de leituras de audiolivros de domínio público armazenados no Librivox, Relatórios da Ars Technica. Em seus ensaios, a equipe disse que Vall-e precisa da voz na amostra de três segundos para se assemelhar a uma das vozes de seus dados de treinamento para produzir um resultado convincente.
A equipe agora está mostrando seu trabalho publicando exemplos específicos do software em ação em uma página do GitHub. Cada um fornece um clipe de três segundos da voz de um falante, lendo o texto aleatório e uma "verdade do solo", que é um exemplo gravado do orador lendo uma frase a ser usada para comparação. Eles então fornecem uma gravação de "linha de base" para mostrar como o software TTS típico geraria áudio falado e uma versão "Vall-e" da gravação para comparação com os dois anteriores.
Embora os resultados não sejam totalmente perfeitos, eles mostram alguns exemplos muito convincentes, onde a fala gerada por máquina parece chocantemente humana. Os pesquisadores também acrescentam que, além de imitar a inflexão e a emoção, o software também pode replicar o ambiente em que o áudio base é gravado, por exemplo, fazendo parecer que alguém está falando ao ar livre, em uma sala de eco ou em uma chamada telefônica.
A equipe de pesquisa conclui seu artigo dizendo que planeja aumentar a quantidade de dados de treinamento para ajudar o modelo a melhorar seus estilos de fala e se tornar melhor em imitar a voz humana. Mas, por enquanto, a Microsoft também impediu de disponibilizar o novo software para os desenvolvedores ou o público em geral testar potencialmente devido à sua capacidade de enganar as pessoas ou ser usado para propósitos nefastos. AE0FCC31AE342FD3A1346EBB1F342FCB
"Como Vall-e poderia sintetizar a fala que mantém a identidade do alto-falante, pode carregar riscos potenciais no uso indevido do modelo, como a identificação de voz falsa ou a se passar por um falante específico", escreveram os autores em sua conclusão. "Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado por Vall-e. Também colocaremos em prática os princípios da Microsoft IA ao desenvolver ainda mais os modelos."