Nova IA da Meta consegue clonar vozes – e chega com ressalvas

O Audiobox é uma plataforma com IA generativa capaz de replicar estilos vocais e criar efeitos sonoros a partir de áudios e prompts.

Meta, controladora do Facebook, Instagram, WhatsApp, lançou o Audiobox, na segunda-feira (11). A plataforma usa inteligência artificial (IA) generativa para clonar vozes – e a big tech a disponibilizou com algumas ressalvas.

Para que tem pressa:

  • Lançamento do Audiobox pela Meta: A Meta lançou (com ressalvas) o Audiobox, uma plataforma de inteligência artificial (IA) que clona vozes e gera efeitos sonoros a partir de áudios e comandos de texto (prompts);
  • Tecnologia e Modelos Utilizados: A Meta desenvolveu uma “família de modelos” para o Audiobox, que utiliza aprendizado auto-supervisionado (SSL). O desenvolvimento envolveu grandes quantidades de dados de áudio em vários idiomas – mas a origem e o uso de material protegido por direitos autorais não foram detalhados pela empresa;
  • Demonstração e Restrições: A Meta demonstrou as capacidades do Audiobox com exemplos interativos. A plataforma é restrita a fins de pesquisa, não podendo ser usada comercialmente. Além disso, é restrita em certos estados dos EUA, devido às leis locais;
  • Código Aberto e Planos Futuros: Diferentemente de outros projetos de código aberto da Meta, o Audiobox não é de código aberto. Até o momento, a empresa não anunciou planos de torná-lo disponível para uso comercial ou aberto.

A replicação de estilos vocais das pessoas – incluindo tom, timbre, ritmos, maneirismos e pronúncias – é uma área emergente na IA generativa. No caso do Audiobox, o recurso foi apresentado pelo laboratório de pesquisa de IA do Facebook como um “novo modelo de pesquisa para a criação de áudio”.

Nova IA da Meta

Audiobox permite essencialmente a geração de vozes e efeitos sonoros combinando entradas de voz e comandos (prompts) de texto. Assim, o recurso possibilita aos usuários digitar frases ou descrever sons para geração automática – e também permite clonar a voz do usuário a partir de gravações.

A Meta desenvolveu uma “família de modelos” para o Audiobox, incluindo modelos separados para imitação de fala e geração de sons ambiente e efeitos sonoros. O Audiobox utiliza aprendizado auto-supervisionado (SSL), permitindo que algoritmos gerem rótulos para dados não rotulados.

desenvolvimento do Audiobox dependeu de grandes quantidades de dados de áudio, incluindo fala, música e amostras sonoras de várias fontes e em diferentes idiomas.

A questão de onde esses dados foram obtidos e se estavam no domínio público não foi especificada pela Meta, o que levanta preocupações sobre o uso de material protegido por direitos autorais sem consentimento.

A Meta demonstrou as capacidades do Audiobox com exemplos interativos, incluindo a replicação da voz do usuário e a geração de vozes e sons novos a partir de descrições de texto.

Ressalvas no Audiobox

O Audiobox vem com a ressalva de que é apenas para fins de pesquisa e não pode ser usado comercialmente, além de ser restrito a usuários fora dos estados de Illinois e Texas (EUA), devido às leis locais.

Ao contrário de outros projetos de código aberto da Meta, como a família de modelos de linguagem Llama 2, o Audiobox não é de código aberto. E a empresa ainda não anunciou planos de torná-lo disponível para uso comercial ou aberto.

FONTE:

https://olhardigital.com.br/2023/12/12/internet-e-redes-sociais/nova-ia-da-meta-consegue-clonar-vozes-e-chega-com-ressalvas/