Como Explorar a Clonagem de Voz no Google AI Studio (Passo a Passo)

 O Google está preparando o terreno para o Gemini 3 Flash Native Audio. Embora o recurso ainda esteja em fase de testes (muitas vezes oculto ou em "preview"), você já pode visualizar e se preparar para usar essas ferramentas de desenvolvedor.

Pré-requisitos

  1. Conta Google: Acesso ao Google AI Studio.

  2. Modelo Correto: O recurso está vinculado às versões "Flash" com suporte a áudio nativo (atualmente aparecendo como preview no Gemini 2.5 Flash ou futuro Gemini 3).

  3. Arquivo de Áudio: Um sample da sua voz (ou da voz que deseja clonar) em boa qualidade


Passo 1: Acessando o Ambiente de Testes

  1. Acesse o Google AI Studio.

  2. No painel lateral direito, localize a seleção de Model.

  3. Procure por modelos que mencionem "Flash" e "Native Audio" (ex: Gemini 2.5 Flash Native Audio Preview).

Passo 2: Localizando a Opção "Create Your Voice"

Com o modelo de áudio nativo selecionado, uma nova interface de configuração de áudio deverá aparecer:

  1. Procure pelo botão ou menu suspenso de seleção de voz.

  2. Fique atento à opção oculta ou recém-liberada chamada "Create Your Voice" (Criar sua voz).

  3. Ao clicar, um pop-up de configuração será exibido.

Passo 3: Gravando ou Fazendo Upload da Amostra

Para que a IA aprenda o tom e a dicção, você terá duas opções dentro do pop-up:

  • Gravação Direta: Clique no ícone de microfone e leia o texto sugerido na tela (geralmente um parágrafo curto para capturar diferentes frequências vocais).

  • Upload de Arquivo: Envie um arquivo (MP3 ou WAV) de 30 a 60 segundos com voz clara e sem ruído de fundo.

Passo 4: Gerando Respostas com a Voz Clonada

Assim que o processamento da voz terminar:

  1. Digite um comando de texto na caixa de chat (ex: "Explique como funciona a fusão nuclear").

  2. Certifique-se de que a saída (output) esteja configurada para Audio.

  3. Dê o play e o Gemini responderá utilizando a voz que você acabou de clonar, em vez das vozes padrão do sistema.

Obs: Integração com GitHub (Nova Funcionalidade)

O artigo também menciona a importação de repositórios. Para testar:

  1. Na seção Build ou ao adicionar anexos, procure por "Import from GitHub".

  2. Conecte sua conta e selecione um repositório. Isso permitirá que o Gemini analise todo o seu código para criar assistentes de voz personalizados baseados na lógica do seu próprio projeto.

Observações Importantes:
  1. Status de Lançamento: Como o recurso faz parte do "road map" para o Gemini 3 Flash, ele pode aparecer e desaparecer (testes A/B) para diferentes usuários.

  2. Ética e Segurança: O Google deve implementar travas de segurança para evitar deepfakes não autorizados. Use apenas sua própria voz ou vozes com consentimento.

  3. Finalidade: Esta ferramenta é voltada para desenvolvedores que criam assistentes de voz, ferramentas de acessibilidade e conteúdo personalizado dentro do ecossistema Google Cloud.


Comentários

Postagens mais visitadas