Veo3 和 Sora2 发布之后，AI 视频模型的发展趋势已经非常清晰，就是是音视频融合

Veo3 和 Sora2 发布之后，AI 视频模型的发展趋势已经非常清晰，就是是音视频融合。
今天，国内的终于跟上节奏，火山引擎正式发布了Seedance 1.5 pro。
它采用了业界领先的音视频联合生成方案。
它在音画同步、方言演绎、运镜控制和叙事表达上展现了惊人的潜力。
这个视频我做的一组相声和方言的实测。

除了人声，环境音效（SFX）与画面的同步率也非常重要，可以简化以前复杂的 AI 音效工作流。特别是在游戏场景、电影特效场景等有高频音效需求的场景里。
这个模型不仅懂画面声音，还懂专业的摄影术语，在运镜上表现得更加专业，连续性更好。
人物表演方面也更加细腻真实。
这是几个测试示例，实测抽卡成功率 50%。

Seedance 1.5 pro 在技术上和前代模型的本质区别在于它不再把声音看作视频的附属品。

通过 MMDiT 原生架构和针对音视频联合场景的 RLHF 训练，它解决了以往 AI 视频“画质虽好但无神、无声、无镜头感”的痛点，特别是在中文方言和专业摄影控制上形成了差异化竞争优势。

一些架构设计特点：

1. 基于 MMDiT（Multi-modal Diffusion Transformer）架构。它采用双分支（Dual-branch）设计，内部集成了一个跨模态联合模块（Cross-modal joint module）。这使得视觉和听觉流在生成过程中就能进行深度交互，确保了极高的时间同步性和语义一致性。

2. 引入音频反馈的 RLHF。在 SFT 之上，专门针对音视频上下文开发了强化学习（RLHF）算法。它使用多维奖励模型来评估视频质量、美学表现以及音频保真度。

3. 推理流水线。它的推理链条包括：用户提示词 -> 提示词工程 -> 文本编码器 -> 联合生成模型(DiT) -> 视频/音频细化器(Refiner) -> 输出。

4. 评估标准：升级了评测基准，不仅看画质，还专门增加了“视频生动性”维度（分为动作和镜头两个子维度）以及四个音频维度（指令遵循、音质、音画同步、音频表现力）。

完整技术报告地址：https://arxiv.org/pdf/2512.13507

Seedance 1.5 pro 是 AI 视频生成从“默片时代”迈向“有声电影时代”的重要一步。它在音画同步、方言演绎、运镜控制和叙事表达上展现了惊人的潜力。虽然目前在部分方言支持（如东北话、上海话）和复杂场景的稳定性（抽卡成功率约 50%）上仍有提升空间，但它已经能够辅助创作者完成短剧、广告 demo 甚至电影分镜的制作。

体验入口：

目前 Seedance 1.5 Pro 已正式上线，可以在这几个地方玩到：
即梦 AI ：网页端选择“视频生成” -> 模型选择视频 3.5 Pro。
豆包 App：对话框输入“照片动起来” -> 上传照片 -> 选择 1.5 Pro 模型（内测中）。
开发者 API：下周，Seedance 1.5 Pro 模型 API 将在火山引擎 (Volcano Engine) 开放调用。现在可到火山方舟体验中心体验模型效果，也可预约模型服务。

https://exp.volcengine.com/ark/vision?launch=seedance