Como Explorar a Clonagem de Voz no Google AI Studio (Passo a Passo)
O Google está preparando o terreno para o Gemini 3 Flash Native Audio. Embora o recurso ainda esteja em fase de testes (muitas vezes oculto ou em "preview"), você já pode visualizar e se preparar para usar essas ferramentas de desenvolvedor.
Pré-requisitos
Conta Google: Acesso ao
.Google AI Studio Modelo Correto: O recurso está vinculado às versões "Flash" com suporte a áudio nativo (atualmente aparecendo como preview no Gemini 2.5 Flash ou futuro Gemini 3).
Arquivo de Áudio: Um sample da sua voz (ou da voz que deseja clonar) em boa qualidade
Passo 1: Acessando o Ambiente de Testes
Acesse o
.Google AI Studio No painel lateral direito, localize a seleção de Model.
Procure por modelos que mencionem "Flash" e "Native Audio" (ex: Gemini 2.5 Flash Native Audio Preview).
Passo 2: Localizando a Opção "Create Your Voice"
Com o modelo de áudio nativo selecionado, uma nova interface de configuração de áudio deverá aparecer:
Procure pelo botão ou menu suspenso de seleção de voz.
Fique atento à opção oculta ou recém-liberada chamada "Create Your Voice" (Criar sua voz).
Ao clicar, um pop-up de configuração será exibido.
Passo 3: Gravando ou Fazendo Upload da Amostra
Para que a IA aprenda o tom e a dicção, você terá duas opções dentro do pop-up:
Gravação Direta: Clique no ícone de microfone e leia o texto sugerido na tela (geralmente um parágrafo curto para capturar diferentes frequências vocais).
Upload de Arquivo: Envie um arquivo (MP3 ou WAV) de 30 a 60 segundos com voz clara e sem ruído de fundo.
Passo 4: Gerando Respostas com a Voz Clonada
Assim que o processamento da voz terminar:
Digite um comando de texto na caixa de chat (ex: "Explique como funciona a fusão nuclear").
Certifique-se de que a saída (output) esteja configurada para Audio.
Dê o play e o Gemini responderá utilizando a voz que você acabou de clonar, em vez das vozes padrão do sistema.
O artigo também menciona a importação de repositórios. Para testar:
Na seção Build ou ao adicionar anexos, procure por "Import from GitHub".
Conecte sua conta e selecione um repositório. Isso permitirá que o Gemini analise todo o seu código para criar assistentes de voz personalizados baseados na lógica do seu próprio projeto.
Status de Lançamento: Como o recurso faz parte do "road map" para o Gemini 3 Flash, ele pode aparecer e desaparecer (testes A/B) para diferentes usuários.
Ética e Segurança: O Google deve implementar travas de segurança para evitar deepfakes não autorizados. Use apenas sua própria voz ou vozes com consentimento.
- Finalidade: Esta ferramenta é voltada para desenvolvedores que criam assistentes de voz, ferramentas de acessibilidade e conteúdo personalizado dentro do ecossistema Google Cloud.
Comentários
Postar um comentário
Obrigado por participar!