VEO 3 do Google DeepMind é o único modelo top-tier de vídeo em 2026 que gera vídeo + trilha sonora sincronizada em uma única chamada. Enquanto Sora 2 e Kling 3 entregam vídeo silencioso (você precisa adicionar áudio depois), VEO 3 entende prompts de ambient, diálogo e SFX. Esse guia mostra a estrutura que funciona — em inglês, com termos reais que o modelo conhece.
A estrutura que funciona em vídeo + áudio
Anatomia de um prompt VEO 3
1. Cena visual
Sujeito + ambiente + ação. Ex: 'A street vendor preparing acarajé at a Salvador market stall, golden hour light filtering through the canopy'.
2. Movimento de câmera
Nomeie explicitamente. Ex: 'slow dolly-in from medium shot to close-up of the hands shaping the dough'.
3. Áudio diegético
Som que pertence à cena. Ex: 'sizzling oil, distant chatter, occasional drum beats from a nearby block party'.
4. Áudio não-diegético (opcional)
Trilha sonora sobre a cena. Ex: 'subtle Afro-Brazilian percussion building underneath'.
5. Diálogo (opcional)
Use aspas se for falado por personagem na cena. Ex: 'The vendor says "prova um, freguês"'.
Termos de áudio que VEO 3 entende
VEO 3 reconhece vocabulário específico de sound design. Os mais úteis:
ambient room tone (textura sonora de fundo do espaço)
diegetic music (música tocando dentro da cena, ex: rádio ligado)
non-diegetic score (trilha sonora sobre a cena, externa)
foley (sons de objetos: passos, papel amassando, copo)
SFX (efeitos especiais: explosão, vidro quebrando)
natural reverb / room reverb (ambiência acústica do espaço)
off-screen sound (som de algo que não está enquadrado)
muffled / crisp / hollow (qualidades do som)
Movimentos de câmera nomeados
Mesmo padrão que os outros modelos top — VEO 3 entende cinema language em inglês:
slow dolly-in / dolly-out — aproxima/afasta linearmente
orbit / 360° rotation — gira ao redor do sujeito
pan left / right — rotação no eixo vertical
tilt up / down — rotação no eixo horizontal
tracking shot — segue o sujeito mantendo distância
handheld — câmera na mão, orgânico
crane shot — movimento amplo vertical
rack focus — foco muda entre dois sujeitos
Duração e resolução
VEO 3 trabalha em 8 segundos fixos por geração. Não tente forçar duração maior — o modelo simplesmente trunca. Para cenas mais longas, encadeie 2 gerações no Flow com a última frame da primeira como reference da segunda.
| Feature | Caranguejo.art | Variantes VEO 3 |
|---|---|---|
| veo-3-1-fast | Geração mais rápida, ~30s, 720p/1080p, ideal pra iteração | — |
| veo-3-1-quality | Premium, ~90s, até 4K, melhor coerência de áudio | — |
| veo-3-1-lite | Versão econômica, 720p, sem áudio | — |
Exemplo completo (prompt vencedor)
Erros comuns que destroem o resultado
✅ Prós
- Descrição visual específica e cinematográfica
- Áudio explicitamente declarado em pelo menos 2 camadas (ambient + foley)
- Movimento de câmera nomeado
- Inglês com termos técnicos reais
❌ Contras
- Listas vagas tipo "high quality, 4k, cinematic" — não ajudam
- Pedir áudio sem dizer QUAL áudio ("with sound" → resultado aleatório)
- Tentar duração maior que 8s — o modelo trunca
- Diálogo longo (mais de 1 frase) — sai ruim em sincronia labial
Quando usar VEO 3 vs alternativas
VEO 3 ganha em:
Vídeos com áudio diegético/SFX importante (entrevistas, reportagem, comerciais com fala)
Realismo fotográfico de luz natural e textura
Coerência temporal em 8 segundos (movimento sem glitches)
Use outro modelo quando:
Precisa de mais de 8 segundos → Seedance 2 Pro (até 10s) ou Kling 3 (até 15s)
Quer multi-shot com transição → Kling 3 (suporta sintaxe [shot 1][shot 2])
Quer animar foto antiga → Seedance 2 Pro image-to-video roda melhor
Perguntas frequentes
- VEO 3 funciona com prompt em português?
- Funciona, mas o resultado piora muito. O modelo foi treinado em legendas inglesas — termos como "slow dolly-in" e "ambient room tone" são tokens reais que o modelo reconhece. Escreva sempre em inglês.
- Como pedir música específica?
- Use referências de gênero + instrumentação: "subtle bossa nova guitar", "upbeat samba percussion", "melancholic piano score". VEO 3 não toca músicas existentes (não há licenciamento), mas gera trilhas inspiradas no estilo descrito.
- Posso usar VEO 3 comercialmente?
- Sim, todos os planos pagos do Caranguejo (Coral $4.99/mês, Garra Pro $9.99, Maré Alta $24.99, Abissal Studio $59.99) incluem licença comercial pros vídeos gerados.
- Qual a diferença entre veo-3-1-fast, quality e lite?
- Fast: ~30s de processamento, 720p/1080p, com áudio, ideal pra iteração rápida. Quality: ~90s, até 4K, melhor coerência audiovisual, recomendado pra entrega final. Lite: 720p, sem áudio, mais econômico em créditos.
- Tem como gerar vídeo mais longo que 8 segundos?
- Não diretamente. Mas no Flow do Caranguejo você encadeia 2 gerações VEO 3 com a última frame da primeira virando reference da segunda, somando 16s contínuos. Ou use Seedance 2 Pro (até 10s nativos) / Kling 3 (até 15s) se precisar de duração sem encadear.



