Como Explorar a Clonagem de Voz no Google AI Studio (Passo a Passo)

TecnologiaMundo Tecnologia Mundo fevereiro 02, 2026

Como Explorar a Clonagem de Voz no Google AI Studio (Passo a Passo)

O Google está preparando o terreno para o Gemini 3 Flash Native Audio. Embora o recurso ainda esteja em fase de testes (muitas vezes oculto ou em "preview"), você já pode visualizar e se preparar para usar essas ferramentas de desenvolvedor.

Pré-requisitos

Conta Google: Acesso ao Google AI Studio.
Modelo Correto: O recurso está vinculado às versões "Flash" com suporte a áudio nativo (atualmente aparecendo como preview no Gemini 2.5 Flash ou futuro Gemini 3).
Arquivo de Áudio: Um sample da sua voz (ou da voz que deseja clonar) em boa qualidade

Passo 1: Acessando o Ambiente de Testes

Acesse o Google AI Studio.
No painel lateral direito, localize a seleção de Model.
Procure por modelos que mencionem "Flash" e "Native Audio" (ex: Gemini 2.5 Flash Native Audio Preview).

Passo 2: Localizando a Opção "Create Your Voice"

Com o modelo de áudio nativo selecionado, uma nova interface de configuração de áudio deverá aparecer:

Procure pelo botão ou menu suspenso de seleção de voz.
Fique atento à opção oculta ou recém-liberada chamada "Create Your Voice" (Criar sua voz).
Ao clicar, um pop-up de configuração será exibido.

Passo 3: Gravando ou Fazendo Upload da Amostra

Para que a IA aprenda o tom e a dicção, você terá duas opções dentro do pop-up:

Gravação Direta: Clique no ícone de microfone e leia o texto sugerido na tela (geralmente um parágrafo curto para capturar diferentes frequências vocais).
Upload de Arquivo: Envie um arquivo (MP3 ou WAV) de 30 a 60 segundos com voz clara e sem ruído de fundo.

Passo 4: Gerando Respostas com a Voz Clonada

Assim que o processamento da voz terminar:

Digite um comando de texto na caixa de chat (ex: "Explique como funciona a fusão nuclear").
Certifique-se de que a saída (output) esteja configurada para Audio.
Dê o play e o Gemini responderá utilizando a voz que você acabou de clonar, em vez das vozes padrão do sistema.

Obs: Integração com GitHub (Nova Funcionalidade)

O artigo também menciona a importação de repositórios. Para testar:

Na seção Build ou ao adicionar anexos, procure por "Import from GitHub".
Conecte sua conta e selecione um repositório. Isso permitirá que o Gemini analise todo o seu código para criar assistentes de voz personalizados baseados na lógica do seu próprio projeto.

Observações Importantes:

Status de Lançamento: Como o recurso faz parte do "road map" para o Gemini 3 Flash, ele pode aparecer e desaparecer (testes A/B) para diferentes usuários.
Ética e Segurança: O Google deve implementar travas de segurança para evitar deepfakes não autorizados. Use apenas sua própria voz ou vozes com consentimento.
Finalidade: Esta ferramenta é voltada para desenvolvedores que criam assistentes de voz, ferramentas de acessibilidade e conteúdo personalizado dentro do ecossistema Google Cloud.

Pesquisar este blog

Tecnologia Mundo