VEO 3 funciona com prompt em português?

Funciona, mas o resultado piora muito. O modelo foi treinado em legendas inglesas — termos como "slow dolly-in" e "ambient room tone" são tokens reais que o modelo reconhece. Escreva sempre em inglês.

Como pedir música específica?

Use referências de gênero + instrumentação: "subtle bossa nova guitar", "upbeat samba percussion", "melancholic piano score". VEO 3 não toca músicas existentes (não há licenciamento), mas gera trilhas inspiradas no estilo descrito.

Posso usar VEO 3 comercialmente?

Sim, todos os planos pagos do Caranguejo (Coral $4.99/mês, Garra Pro $9.99, Maré Alta $24.99, Abissal Studio $59.99) incluem licença comercial pros vídeos gerados.

Qual a diferença entre veo-3-1-fast, quality e lite?

Fast: ~30s de processamento, 720p/1080p, com áudio, ideal pra iteração rápida. Quality: ~90s, até 4K, melhor coerência audiovisual, recomendado pra entrega final. Lite: 720p, sem áudio, mais econômico em créditos.

Tem como gerar vídeo mais longo que 8 segundos?

Não diretamente. Mas no Flow do Caranguejo você encadeia 2 gerações VEO 3 com a última frame da primeira virando reference da segunda, somando 16s contínuos. Ou use Seedance 2 Pro (até 10s nativos) / Kling 3 (até 15s) se precisar de duração sem encadear.

Como escrever prompts para VEO 3 (vídeo com áudio nativo)

VEO 3 do Google DeepMind é o único modelo top-tier de vídeo em 2026 que gera vídeo + trilha sonora sincronizada em uma única chamada. Enquanto Sora 2 e Kling 3 entregam vídeo silencioso (você precisa adicionar áudio depois), VEO 3 entende prompts de ambient, diálogo e SFX. Esse guia mostra a estrutura que funciona — em inglês, com termos reais que o modelo conhece.

A estrutura que funciona em vídeo + áudio

Anatomia de um prompt VEO 3

1. Cena visual
Sujeito + ambiente + ação. Ex: 'A street vendor preparing acarajé at a Salvador market stall, golden hour light filtering through the canopy'.
2. Movimento de câmera
Nomeie explicitamente. Ex: 'slow dolly-in from medium shot to close-up of the hands shaping the dough'.
3. Áudio diegético
Som que pertence à cena. Ex: 'sizzling oil, distant chatter, occasional drum beats from a nearby block party'.
4. Áudio não-diegético (opcional)
Trilha sonora sobre a cena. Ex: 'subtle Afro-Brazilian percussion building underneath'.
5. Diálogo (opcional)
Use aspas se for falado por personagem na cena. Ex: 'The vendor says "prova um, freguês"'.

Termos de áudio que VEO 3 entende

VEO 3 reconhece vocabulário específico de sound design. Os mais úteis:

ambient room tone (textura sonora de fundo do espaço)
diegetic music (música tocando dentro da cena, ex: rádio ligado)
non-diegetic score (trilha sonora sobre a cena, externa)
foley (sons de objetos: passos, papel amassando, copo)
SFX (efeitos especiais: explosão, vidro quebrando)
natural reverb / room reverb (ambiência acústica do espaço)
off-screen sound (som de algo que não está enquadrado)
muffled / crisp / hollow (qualidades do som)

Movimentos de câmera nomeados

Mesmo padrão que os outros modelos top — VEO 3 entende cinema language em inglês:

slow dolly-in / dolly-out — aproxima/afasta linearmente
orbit / 360° rotation — gira ao redor do sujeito
pan left / right — rotação no eixo vertical
tilt up / down — rotação no eixo horizontal
tracking shot — segue o sujeito mantendo distância
handheld — câmera na mão, orgânico
crane shot — movimento amplo vertical
rack focus — foco muda entre dois sujeitos

Duração e resolução

VEO 3 trabalha em 8 segundos fixos por geração. Não tente forçar duração maior — o modelo simplesmente trunca. Para cenas mais longas, encadeie 2 gerações no Flow com a última frame da primeira como reference da segunda.

Feature	Caranguejo.art	Variantes VEO 3
veo-3-1-fast	Geração mais rápida, ~30s, 720p/1080p, ideal pra iteração	—
veo-3-1-quality	Premium, ~90s, até 4K, melhor coerência de áudio	—
veo-3-1-lite	Versão econômica, 720p, sem áudio	—

Experimente VEO 3 no Caranguejo →

Exemplo completo (prompt vencedor)

Erros comuns que destroem o resultado

✅ Prós

Descrição visual específica e cinematográfica
Áudio explicitamente declarado em pelo menos 2 camadas (ambient + foley)
Movimento de câmera nomeado
Inglês com termos técnicos reais

❌ Contras

Listas vagas tipo "high quality, 4k, cinematic" — não ajudam
Pedir áudio sem dizer QUAL áudio ("with sound" → resultado aleatório)
Tentar duração maior que 8s — o modelo trunca
Diálogo longo (mais de 1 frase) — sai ruim em sincronia labial

Ver planos a partir de $4.99/mês →

Quando usar VEO 3 vs alternativas

VEO 3 ganha em:

Vídeos com áudio diegético/SFX importante (entrevistas, reportagem, comerciais com fala)
Realismo fotográfico de luz natural e textura
Coerência temporal em 8 segundos (movimento sem glitches)

Use outro modelo quando:

Precisa de mais de 8 segundos → Seedance 2 Pro (até 10s) ou Kling 3 (até 15s)
Quer multi-shot com transição → Kling 3 (suporta sintaxe [shot 1][shot 2])
Quer animar foto antiga → Seedance 2 Pro image-to-video roda melhor

Veja o pipeline completo no Flow →

Perguntas frequentes

VEO 3 funciona com prompt em português?: Funciona, mas o resultado piora muito. O modelo foi treinado em legendas inglesas — termos como "slow dolly-in" e "ambient room tone" são tokens reais que o modelo reconhece. Escreva sempre em inglês.
Como pedir música específica?: Use referências de gênero + instrumentação: "subtle bossa nova guitar", "upbeat samba percussion", "melancholic piano score". VEO 3 não toca músicas existentes (não há licenciamento), mas gera trilhas inspiradas no estilo descrito.
Posso usar VEO 3 comercialmente?: Sim, todos os planos pagos do Caranguejo (Coral $4.99/mês, Garra Pro $9.99, Maré Alta $24.99, Abissal Studio $59.99) incluem licença comercial pros vídeos gerados.
Qual a diferença entre veo-3-1-fast, quality e lite?: Fast: ~30s de processamento, 720p/1080p, com áudio, ideal pra iteração rápida. Quality: ~90s, até 4K, melhor coerência audiovisual, recomendado pra entrega final. Lite: 720p, sem áudio, mais econômico em créditos.
Tem como gerar vídeo mais longo que 8 segundos?: Não diretamente. Mas no Flow do Caranguejo você encadeia 2 gerações VEO 3 com a última frame da primeira virando reference da segunda, somando 16s contínuos. Ou use Seedance 2 Pro (até 10s nativos) / Kling 3 (até 15s) se precisar de duração sem encadear.

Como escrever prompts para VEO 3 (vídeo com áudio nativo)

A estrutura que funciona em vídeo + áudio

Anatomia de um prompt VEO 3

1. Cena visual

2. Movimento de câmera

3. Áudio diegético

4. Áudio não-diegético (opcional)

5. Diálogo (opcional)

Termos de áudio que VEO 3 entende

Movimentos de câmera nomeados

Duração e resolução

Exemplo completo (prompt vencedor)

Erros comuns que destroem o resultado

✅ Prós

❌ Contras

Quando usar VEO 3 vs alternativas

Perguntas frequentes

Experimente o Caranguejo.art agora

Posts relacionados

Sora 2 vs VEO 3 vs Kling 3 — qual modelo de vídeo escolher em 2026

Como escrever prompts para FLUX 2 Pro (typography + editorial)

Como escrever prompts para Kling 3.0 (multi-shot + character lock)