Gemini 出了 Mac 版,按 Option+Space 就能让它看我屏幕

cover

大家好,我是飞飞。

昨天早上我还在 Cursor 里改一段 Python,打开 X 随手一刷,看见 Sundar Pichai 那条推顶着一张 Gemini 菱形 logo 的截图——“It’s the first time we’re bringing the Gemini app to desktop.”

第一反应是”怎么现在才来”。ChatGPT Mac 版我用了快一年,Claude for Mac 也早就有,Google 居然是三家里最后一个上桌面的。

我放下键盘打开 gemini.google/mac,一张 DMG 的下载链接,37 秒拉下来。装上之后第一次按 Option + Space,整个屏幕中央浮出一个窗口,左下角有个 “Share Window” 的按钮。我把它指向 Cursor 的那段代码,随口说了一句”帮我看一下这段为什么没走到第 23 行的 if”。

它没让我贴代码。它直接开始说”你这段在 17 行就 return 了,23 行进不去”。

我当时把键盘往桌上一拍——它真的在看我屏幕。

Gemini Mac 版是什么时候发的

北京时间 2026 年 4 月 16 日凌晨,Google 把 Gemini 的 macOS 原生应用推上线。要求 macOS 15 Sequoia 或更新、只跑 Apple Silicon(M1 及以上)。免费,全球可用,所有支持 Gemini 的语言都有。

下载地址是一句话能记住的 URL:gemini.google/mac。

官方 PM Josh Woodward 在 X 上说了一句我觉得比功能介绍更刺激的话——“小团队,不到 100 天,做了 100+ 个功能,100% 原生 Swift”。Sundar 接着补了一条说这个 App 是团队用 Google 自家的 Antigravity 做出来的,从 idea 到 Swift 原型只用了几天。

也就是说,Google 内部也开始”让 AI 造产品”了——这条线去年 Claude Code 出来的时候我就在追,今年 Cursor、Windsurf、Antigravity 这些工具打起来,AI 公司自己变成了第一批重度用户。

读屏这件事到底怎么用

装完之后我最想搞懂的就是 “Share Window” 到底能做什么,连着试了一上午。

第一个丢给它的是上周画的 Figma 股价一周走势图,我在浏览器里打开,按 Option + Space,点 Share Window,问”这张图里三个最重要的信号是什么”。不到 8 秒,它给我抛回来三条——“4/14 放量、4/17 跳空、4/18 反弹无力”。三条都是对的,说明它真的读懂了横纵轴,不是瞎编。

然后我切到 Obsidian,想让它帮我提炼昨天研究笔记的核心观点。这里踩到第一个坑——默认只能看当前窗口显示的内容,Obsidian 底部滚出屏幕的段落它是看不到的。我得手动滚动让它在不同时刻”看”不同的部分,不像 ChatGPT Mac 版能一次把整个文件 drop 进去。

中间吃午饭回来之后,我在 Cursor 里卡住了一段 SQL——JOIN 写得不对,结果是重复行,但 Cursor 的 inline chat 没看出来。我 Option + Space,Share Cursor 的窗口,问”这个 JOIN 为什么查出来重复行”。Gemini 10 秒内告诉我右表没加 WHERE 过滤,重复行数是期望的 4 倍——它不但读了 SQL,还推理出了业务意图。这是整个上午最让我意外的一次。

一上午跑下来,我对 Share Window 的定位有数了:它帮你省掉的是”手动拷贝粘贴屏幕内容”这件事,不是替你写代码。

为什么需要给它 Accessibility 权限

第一次 Share Window 的时候,系统弹了两个权限请求:Screen Recording 和 Accessibility。

Screen Recording 很好理解——没这个权限它看不到像素。Accessibility 权限我一开始没给,结果在 Chrome 里分享整个浏览器窗口,Gemini 只能看到当前 viewport 里的内容,页面滚动到下面的东西它读不到。

打开设置 → Privacy & Security → Accessibility 勾上 Gemini,再测一遍就能读完整页面。

这里我想多说一句。Accessibility 权限本来是给残障辅助工具用的,像 VoiceOver、一些盲人读屏软件。给一个 AI App 开这个权限意味着它理论上能”看见”这个浏览器正在渲染的所有 DOM 内容——你打开的每一个标签页、输入的每一个字符、弹出的每一个对话框。

给不给,是个取舍。我自己的做法是平时关着,需要用 Share Window 的时候再去设置里开,用完再关。Mashable 的评测里也给了同样的建议。

这个做法有点繁琐,但我不想让一个 AI 在我不主动调用的时候一直看我屏幕。

最晚到场的反而最激进

我顺手比了一下 ChatGPT、Claude、Gemini 三家的 Mac 版定位。

ChatGPT Mac 版是最早的,2024 年就有,今年更新支持了原生读 VS Code 和 JetBrains 里的代码——但要你先去 IDE 装个扩展,是”让 IDE 告诉 ChatGPT 你在写什么”的模式。

Claude for Mac 的走向不一样。它跟 Claude Code 打通,强调”把 design bundle 打包丢给 IDE”,是从对话到代码的流水线。

Gemini 这个 Mac 版走的是第三条路——Share Window,让 AI 直接看屏幕上的像素。不用装 IDE 扩展,不用把文件 drop 进去,你在哪个应用里都能让它读。

Neowin 在评测里写了一句我觉得很准的话——“Google 明显不想让 Apple 定制的 Siri UI 吞掉自己的品牌可见度”。Apple 已经在 1 月 12 号和 Google 官宣合作,iOS 27 和 macOS 27 的下一代 Siri 要用 Gemini 驱动。这意味着半年后 macOS 27 一上线,你按 Cmd + Space 唤起的 Siri 背后其实跑的是 Gemini——但图标是苹果的、UI 是苹果的、用户心智里那是 Siri。

Google 自己发一个原生 Mac App 是在给自己留条后路。哪怕 Siri 接管了日常提问,Option + Space 那个菱形 logo 还在,用户知道是 Gemini 在回答。

我现在的用法

装了两天之后,它在我工作台上占的位置是这样的——主力 AI 还是 Claude Code 写代码、Cursor 做 inline edit,Gemini Mac 版夹在中间做两件事。

一件是读屏问答,就是 Share Window——屏幕上出现了懒得拷贝的图表、嵌了代码的截图、格式乱七八糟的网页,直接 share。另一件是替掉我原本那种”新建浏览器 tab 搜一下”的动作:查命令、查公式、查 CSS 属性,甚至做饭查换算都塞给它。Option + Space 比 Cmd + T 打开新 tab 再搜还快。

有一个细节我特别喜欢:关掉窗口之后它缩到 menu bar,下次 Option + Space 是秒开的,没有网页版那种”等加载”的等待感。

装的话要注意什么

我把自己踩过的坑列一下。

先看 macOS 版本,得是 15 Sequoia 或更新。Intel Mac 装不了——这一刀砍得比 Claude for Mac 还狠,Claude 至少还支持 Intel。Apple Silicon Only。

Gemini 拖进 Applications 文件夹的安装界面

下载是 dmg,按标准 macOS 流程拖进 Applications 就行。第一次打开需要登录 Google 账号——Workspace 账号和个人账号都行,你的账号级别决定能用的功能上限。免费账号也能用 Share Window,只是 Nano Banana 和 Veo 这两个生成类功能会有配额限制。

最后就是我刚才说的权限问题。Screen Recording 是必须的,Accessibility 是可选的——想让它读完整浏览器页面就得开。


昨天下午我把 Gemini Mac 版的 Share Window 和 Claude for Mac 的 Send to Claude Code 都跑了一遍。同一段代码、同一个 bug,Gemini 走的是”看屏幕 → 回答”,Claude 走的是”接过来 → 开 worktree → 改”。

两个功能的重叠其实不大。一个是让你不用离开当前应用就能得到答案,一个是让答案直接变成能跑的代码。

你已经装上 Gemini Mac 版了吗?用了之后有没有发现它在哪个场景下比你现有的 AI App 顺手?特别是有没有试过让它在做菜、剪视频、改图这些非编程场景下读屏——我还没跑过这些场景,挺好奇实际表现的。评论区聊聊。


参考资料