Planos

Como escrever prompts para VEO 3 (vídeo com áudio nativo)

VEO 3 é o único modelo top em 2026 que gera vídeo + áudio sincronizado nativo. Guia completo com termos de sound design, exemplos prontos e a estrutura que rende.

Como escrever prompts para VEO 3 (vídeo com áudio nativo)

VEO 3 do Google DeepMind é o único modelo top-tier de vídeo em 2026 que gera vídeo + trilha sonora sincronizada em uma única chamada. Enquanto Sora 2 e Kling 3 entregam vídeo silencioso (você precisa adicionar áudio depois), VEO 3 entende prompts de ambient, diálogo e SFX. Esse guia mostra a estrutura que funciona — em inglês, com termos reais que o modelo conhece.

A estrutura que funciona em vídeo + áudio

Anatomia de um prompt VEO 3

  1. 1. Cena visual

    Sujeito + ambiente + ação. Ex: 'A street vendor preparing acarajé at a Salvador market stall, golden hour light filtering through the canopy'.

  2. 2. Movimento de câmera

    Nomeie explicitamente. Ex: 'slow dolly-in from medium shot to close-up of the hands shaping the dough'.

  3. 3. Áudio diegético

    Som que pertence à cena. Ex: 'sizzling oil, distant chatter, occasional drum beats from a nearby block party'.

  4. 4. Áudio não-diegético (opcional)

    Trilha sonora sobre a cena. Ex: 'subtle Afro-Brazilian percussion building underneath'.

  5. 5. Diálogo (opcional)

    Use aspas se for falado por personagem na cena. Ex: 'The vendor says "prova um, freguês"'.

Termos de áudio que VEO 3 entende

VEO 3 reconhece vocabulário específico de sound design. Os mais úteis:

  • ambient room tone (textura sonora de fundo do espaço)

  • diegetic music (música tocando dentro da cena, ex: rádio ligado)

  • non-diegetic score (trilha sonora sobre a cena, externa)

  • foley (sons de objetos: passos, papel amassando, copo)

  • SFX (efeitos especiais: explosão, vidro quebrando)

  • natural reverb / room reverb (ambiência acústica do espaço)

  • off-screen sound (som de algo que não está enquadrado)

  • muffled / crisp / hollow (qualidades do som)

Movimentos de câmera nomeados

Mesmo padrão que os outros modelos top — VEO 3 entende cinema language em inglês:

  • slow dolly-in / dolly-out — aproxima/afasta linearmente

  • orbit / 360° rotation — gira ao redor do sujeito

  • pan left / right — rotação no eixo vertical

  • tilt up / down — rotação no eixo horizontal

  • tracking shot — segue o sujeito mantendo distância

  • handheld — câmera na mão, orgânico

  • crane shot — movimento amplo vertical

  • rack focus — foco muda entre dois sujeitos

Duração e resolução

VEO 3 trabalha em 8 segundos fixos por geração. Não tente forçar duração maior — o modelo simplesmente trunca. Para cenas mais longas, encadeie 2 gerações no Flow com a última frame da primeira como reference da segunda.

FeatureCaranguejo.artVariantes VEO 3
veo-3-1-fastGeração mais rápida, ~30s, 720p/1080p, ideal pra iteração
veo-3-1-qualityPremium, ~90s, até 4K, melhor coerência de áudio
veo-3-1-liteVersão econômica, 720p, sem áudio
Experimente VEO 3 no Caranguejo →

Exemplo completo (prompt vencedor)

Erros comuns que destroem o resultado

✅ Prós

  • Descrição visual específica e cinematográfica
  • Áudio explicitamente declarado em pelo menos 2 camadas (ambient + foley)
  • Movimento de câmera nomeado
  • Inglês com termos técnicos reais

❌ Contras

  • Listas vagas tipo "high quality, 4k, cinematic" — não ajudam
  • Pedir áudio sem dizer QUAL áudio ("with sound" → resultado aleatório)
  • Tentar duração maior que 8s — o modelo trunca
  • Diálogo longo (mais de 1 frase) — sai ruim em sincronia labial
Ver planos a partir de $4.99/mês →

Quando usar VEO 3 vs alternativas

VEO 3 ganha em:

  • Vídeos com áudio diegético/SFX importante (entrevistas, reportagem, comerciais com fala)

  • Realismo fotográfico de luz natural e textura

  • Coerência temporal em 8 segundos (movimento sem glitches)

Use outro modelo quando:

  • Precisa de mais de 8 segundos → Seedance 2 Pro (até 10s) ou Kling 3 (até 15s)

  • Quer multi-shot com transição → Kling 3 (suporta sintaxe [shot 1][shot 2])

  • Quer animar foto antiga → Seedance 2 Pro image-to-video roda melhor

Veja o pipeline completo no Flow →

Perguntas frequentes

VEO 3 funciona com prompt em português?
Funciona, mas o resultado piora muito. O modelo foi treinado em legendas inglesas — termos como "slow dolly-in" e "ambient room tone" são tokens reais que o modelo reconhece. Escreva sempre em inglês.
Como pedir música específica?
Use referências de gênero + instrumentação: "subtle bossa nova guitar", "upbeat samba percussion", "melancholic piano score". VEO 3 não toca músicas existentes (não há licenciamento), mas gera trilhas inspiradas no estilo descrito.
Posso usar VEO 3 comercialmente?
Sim, todos os planos pagos do Caranguejo (Coral $4.99/mês, Garra Pro $9.99, Maré Alta $24.99, Abissal Studio $59.99) incluem licença comercial pros vídeos gerados.
Qual a diferença entre veo-3-1-fast, quality e lite?
Fast: ~30s de processamento, 720p/1080p, com áudio, ideal pra iteração rápida. Quality: ~90s, até 4K, melhor coerência audiovisual, recomendado pra entrega final. Lite: 720p, sem áudio, mais econômico em créditos.
Tem como gerar vídeo mais longo que 8 segundos?
Não diretamente. Mas no Flow do Caranguejo você encadeia 2 gerações VEO 3 com a última frame da primeira virando reference da segunda, somando 16s contínuos. Ou use Seedance 2 Pro (até 10s nativos) / Kling 3 (até 15s) se precisar de duração sem encadear.

Experimente o Caranguejo.art agora

Os melhores modelos de IA em um só lugar, a partir de $4.99/mês.

Ver planosComeçar a criar

Posts relacionados

Sora 2 vs VEO 3 vs Kling 3 — qual modelo de vídeo escolher em 2026
Comparativo·comparativos

Sora 2 vs VEO 3 vs Kling 3 — qual modelo de vídeo escolher em 2026

Comparativo 3-way dos modelos de vídeo top em 2026. Sora 2, VEO 3 e Kling 3 cada um com diferencial técnico real. Veja qual escolher por caso de uso.

28 de mai. de 2026 3 min
Como escrever prompts para FLUX 2 Pro (typography + editorial)
Guia de prompt·prompts

Como escrever prompts para FLUX 2 Pro (typography + editorial)

FLUX 2 Pro é o único top model com typography premium nativa. Guia mostra como renderizar texto integrado a imagens — logos, posters, headlines.

28 de mai. de 2026 2 min
Como escrever prompts para Kling 3.0 (multi-shot + character lock)
Guia de prompt·prompts

Como escrever prompts para Kling 3.0 (multi-shot + character lock)

Kling 3.0 tem syntax única pra multi-shot e o melhor character lock entre os top models. Guia completo com sintaxe explicada e exemplos vencedores.

28 de mai. de 2026 3 min