Gemini Omni 上线一周，我把那些 viral 视频翻完之后看明白一件事

发表于 2026-05-23 更新于 2026-07-13 分类于 AI 阅读次数：本文字数： 5.1k 阅读时长 ≈ 5 分钟

Google I/O 2026 发布的 Gemini Omni 这一周在 X 上刷屏，最 viral 的不是清晰度也不是物理 grounding，是 conversational editing 这个新交互范式。我把 marble 弹珠、protein folding 黏土、violinist 多轮编辑、mirror ripple 这几条 standout 视频翻完之后，发现真正改变的是创作者跟视频的关系。

cover

哈喽，我是飞飞。

I/O 2026 周二 keynote 上 Sundar 发 Gemini Omni 那一刻我就在直播间，但当时被 Antigravity 2.0 拆 5 surface 那条新闻压住，没仔细看 Omni 的视频。

这一周陆陆续续刷到了一堆 Omni 创作，Logan Kilpatrick 周五在 X 上贴了一波”these are the standouts”，我点进去把 7 条视频翻完之后看明白一件事。

Omni 这次的提升当然包括视频清晰度，物理 grounding 和 multi-turn 一致性维度也都比上一代更好。

但核心变化在别处。

创作者跟视频的关系变了。

说白了，video editing 从”在 timeline 上拖 layer”变成了”我说一句话，模型把上一帧改一下”。

这是一种新的交互范式，已经不只是又一个 video model。

这一篇我挑 4 条这一周 viral 起来的 standout 视频，每条对应 Omni 一个真东西，按”看到的现象 + 真正在干什么 + 对国内创作者意味着什么”梳一遍。

Marble world 那条:Omni 真正把”物理 grounding”做出来了

最先 viral 的是 keynote 现场放的 marble 视频。

一颗弹珠在一条复杂金属轨道上滚下来，途中撞到一个金属铃铛，弹珠继续往前滚，铃铛在它撞击的同一个瞬间发出”叮”的一声。

听起来不奇怪？

奇怪的地方在于:**这条视频是从一句 prompt 出来的，没有人工剪辑铃铛的音轨，没有人指定”撞到铃铛时播放声音”**。

弹珠的运动轨迹符合重力、动量守恒、滚动摩擦。

撞击的瞬间金属铃铛发声，声音的时间戳跟撞击帧完全对齐。

弹珠继续滚动的时候铃铛持续震荡，声音衰减跟物理上的金属阻尼一致。

这是 Omni 内部把”物理 simulation”和”audio synthesis”放在同一个 model pass 里，不是先生成视频再配音。

Veo 3 做不到这件事。Sora 1 做不到。Luma Dream Machine 也做不到。

国内创作者的实操含义:你不用再为”动画效果跟音效不同步”花两小时手动对帧。

prompt 一句”金属球在木桌上滚落撞到玻璃杯发出清脆响声”，Omni 出来的视频物理和声音同步度已经够发短视频了。

黏土版蛋白质折叠:reasoning 比渲染更值钱

DeepMind 发布会上还放过一条黏土风格的”蛋白质折叠科普”，这条的看点跟 marble 完全不同。

prompt 是简单一句:a claymation explainer of protein folding。

视频输出是一段 stop-motion 风格的黏土动画，开头是一串氨基酸”链”，中间慢慢折叠出 alpha helix（α 螺旋）和 beta sheet（β 折叠），旁白同步念出”Proteins start as chains of amino acids. They fold into patterns like the alpha helix and flat sections called beta sheets…”。

我看这条视频的关键不是它好看，是它知道蛋白质折叠是怎么回事。

它没把”alpha helix”画成抽象螺旋，而是画成生物学课本里那种规整的螺旋折叠形态。

它没把 beta sheet 画成长条形，而是画成扁平的多链平行结构。

旁白的术语顺序符合生物学教学顺序（先讲 amino acid chain → 再讲折叠模式 → 最后讲三维结构）。

本质上这是 Gemini 的”world knowledge”被注进了视频生成 pipeline。

它在做的是 reason “what should happen next based on what I know about science”，不只是 fit pixel pattern。

对国内做科普 / 教育内容的同行实操含义很直接:原来要花 3 天找美术外包做的科普动画，现在 prompt 一句就出来一稿能用的版本。

效率提升的量级到了 50 倍以上。

Violinist 4 步多轮编辑:Conversational editing 是 Omni 的真东西

Logan 那条 violinist 多轮编辑视频，我觉得是这周被低估的一条。

Logan Kilpatrick 在 X 上放过一个 4 步编辑的 demo:

第一句:A video of a violinist playing a song，出来一条 10 秒的小提琴手演奏视频。

第二句:Transport the violinist to the image environment（连同一张富丽宫廷的参考图），Omni 把那个演奏者搬到了宫廷里继续演奏，人物长相、衣着、动作姿态完全保留。

第三句:Make the violin invisible，小提琴消失了，演奏者的手仍然保持着拉琴的姿势在演奏空气小提琴，人物没变形。

第四句:Change the camera angle to be over the violinist's shoulder，镜头切到了演奏者背后越肩拍，身体姿势、宫廷场景、消失的小提琴都跟前一步对得上。

每一步只改一件事，其余全部保留。

这就是 conversational editing 的关键。

实话讲，Omni 的核心创新在剪辑界面这一层，而不在视频生成模型本身。

Premiere / DaVinci / Final Cut 这些剪辑软件你打开是 timeline + tracks + keyframes + transitions 全堆在屏幕上。

Omni 这边你打开是一个聊天框，第一句话出视频，第二句话改，第三句话再改。

会用 Premiere 需要学习两个月。

会用 Omni 只需要会说话。

国内创作者短期的实操含义跟”AI 替代剪辑师”不挂钩。AI 替代是 5 年后的事。

实操含义是:90% 不会用 Premiere 的人，第一次能”剪”视频了。

这是 video 的 prompt 时刻，跟 2022 年 12 月 ChatGPT 是文字的 prompt 时刻一样。

镜面液化那条:视频特效门槛已经塌了

Logan 那条镜面液化的视频是这周让我有”创意门槛塌了”感觉的那一条。

prompt 是:When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material。

输出视频:一个人伸手去摸镜子，触碰瞬间镜面像水面一样涟漪扩散，与此同时这个人的手臂从手腕开始向上液态化、表面变成镜面反射的金属质感。

这一条视频如果用传统 VFX 流程做，需要的工作量是:

3D 建模一个 ripple 表面（Houdini 或 Blender 几个小时）+ 关键帧动画从 mirror 到 liquid metal 的材质转变（After Effects 几个小时）+ 跟实拍视频精确对齐人物轮廓（roto + masking 几个小时）+ 渲染合成。

VFX 团队报价能开到 5 万人民币起。

Omni 用一句英文 prompt 在 30 秒内出来。

视频质量当然还远没有替代 5 万的 VFX 团队，那是另一个话题。

我想说的是:视频特效的门槛已经塌了。

那种”想做但不会做”的创意，现在能在 30 秒内试一遍。

这件事对国内做短视频内容的创作者影响最大的是创意试错成本。

原来你要做一个”喝水的杯子里游出一条鱼”的镜头，得先评估”做不做得出来 / 找谁做 / 多少钱 / 多久”。

现在你直接 prompt 一句话，10 秒后看效果，不行就改 prompt 再来一遍。

创意 → 视频之间的距离从”几周 + 几千元”变成了”几句话 + 几秒钟”。

数字 avatar:Sora 1 那条没走完的路 Google 接着走

Avatar 是 Omni 这次单独拿出来讲的一个功能。

它让你录一段视频，对镜头读一组随机数字（防 deepfake），Google 把你的面部 + 声纹存下来，之后你的视频里可以让这个数字分身出场。

OpenAI 去年在 Sora 1 上线过类似功能叫 Cameos，前段时间因为合规和创作者抗议把 Sora 1 app 下架了。

Google 这次走的还是 Sora 1 那条路径，但加了几个安全锁:全程录制时必须念随机数 + 所有生成视频带 SynthID 数字水印 + 只有你自己能用你的 avatar（默认不公开）。

简单讲这是给 YouTube Shorts 创作者用的:你不想每条短视频都自己出镜，可以让 avatar 替你出镜，文案、动作、表情通过 prompt 控制。

对国内的同行最大变化:你的”视频出镜 frequency”和”创作者人设建设”现在可以解耦。

原来你想保持周更需要每周固定时间录视频，现在 prompt 一句话让 avatar 出镜。

对人设打造重度依赖出镜的创作者（健身 / 美妆 / 知识科普）这是个真东西。

但有一个边界:Omni 目前不允许 avatar 唱歌、不允许 avatar 说政治敏感内容、不允许 avatar 做明显的”角色扮演”。

合规上比 Sora 1 上线时严了好几档。

Omni 跟 Veo / Luma / Sora 真正分开的地方在交互层

把 4 条 standout 视频拼起来看，Omni 真正不一样的不在”模型能力”。

模型能力上 Veo 3.1 / Luma Dream Machine 2 / Sora 1 互相之间已经追得很近，10 秒视频的清晰度、物理一致性、prompt 服从度差不多在同一档。

Omni 不一样的是交互界面。

Veo:prompt → 视频，单次生成

Luma:prompt → 视频，可以 reference 图片，但每次重新出

Sora 1:prompt → 视频 + 简单 multi-turn，但一致性差

Omni:prompt → 视频 → 改一件事 → 视频再出来 → 再改 → 视频再出来，整个过程像 ChatGPT 一样

Anthropic 在 Claude.ai 里早就把”对话 + artifact”这种交互打磨成熟了。

Google 这次把同一套交互模式搬到视频生成里来。

这是 2026 年 Q2 video 生成赛道最大的范式转移。

不夸张地说，Omni 之后所有视频生成产品都会被迫往 conversational editing 这个方向靠。

谁先把对话式编辑做顺、把 multi-turn 一致性做稳，谁就拿下 video 的 ChatGPT 时刻。

国内创作者怎么准备:别死磕 prompt，先练”对话编辑”的提问能力

我自己这一周陆陆续续试了二十多条 Omni，最大的体会不是 prompt 工程要学新模板。

是”对话编辑”的提问能力要刻意练。

很多创作者第一次用 Omni 会把所有要求堆进一句 prompt:”一个穿白衬衫的男人在咖啡馆敲电脑，窗外下雨，画面是 cinematic 风格，10 秒，4k，杜比音效…”。

这种 prompt 在 Veo / Luma 上是对的写法，因为模型只能跑一次。

在 Omni 上完全错了。

Omni 正确的用法是分轮:第一轮先出基本场景（一个男人在咖啡馆敲电脑），第二轮加细节（窗外下雨），第三轮调风格（cinematic），第四轮改镜头（推到电脑屏幕）。

每一轮只改一件事，剩下的全保留。

这个工作流跟 Cursor 改代码一模一样。

你不会让 Cursor 一次生成完整 app，你让它先出框架、再加功能、再修 bug。

Omni 这条赛道接下来 6 个月，会”对话编辑”的人比”会写长 prompt”的人创作效率会差 3-5 倍。

不需要英文好。中文 prompt Omni 同样支持。

需要的是”我想改什么 / 这一步改什么 / 上一步保留什么”的清晰判断。

本周末跑 marble 物理复刻，下周录 avatar 数字分身实测

发到生产之前我自己还要再做两件事。

一个是复刻那条 marble 弹珠的物理视频。

我会用 prompt A glass marble rolls down a wooden track on a rustic kitchen counter and hits a small bronze bell, the bell rings with the same physics as the marble's impact, soft natural lighting, 10 seconds，看 Omni 出来的视频在国内的网络环境下生成时间多久、Token 消耗多少、声音同步精度怎样。

另一个是录我自己的 avatar 数字分身。

下周想让 avatar 替我出镜做一条”飞飞 5 分钟讲 Antigravity SDK”的解释视频，看看观众反馈是不是能分辨出来。

两件事做完会写一篇实测，包括生成时间、Token 消耗、Avatar 真实度、观众识别率几个数据。

你这一周看 Omni 的视频最让你震到的是哪一条？

是 marble 那种物理 grounding，还是 violinist 多轮编辑的连贯性，还是镜面液化那种特效塌门槛？

评论区告诉我，下一篇可以专门挑你最关心的那个深挖技术细节。