免费的 Google,现在强得可怕

大个青椒 2025-04-18 13:34+-

我隐隐有种感觉,AI 工具快到全面提价收钱的时候了。这不完全是成本压力带来的被迫收费,而是它们的使用效果逐渐趋于完美。

完美这个词有点过分,可用。可以用来拿捏用户。使用效果能够拿捏用户,才有收费的资本。

举个例子,上周在 Google Gemini 2.5 Pro 的支持下,把我一直想做的视频笔记工作流完成了大部分。

视频是美股视频博主们的作品。我没时间看完所有博主的视频,但又想要多家观点做相互印证。对视频中的股票点位,压力位,支撑位,市场预期,我希望有人能提炼出来,方便日后查询和追踪。

这个需求当然没人做,认真的学生用手记录,自己做笔记,做表。我很懒,经常看完就完了。给自己一个理由,咱是长线投资,不在乎一时得失。但一到要卖出或者买入的时候,又想起点位参考。于是想,如果能用代码自动化实现,岂非完美。大模型提炼出来的文字,阅读时间比看视频节省 80%,还能综合多个频道的观点。

这件事的难点在于,中文博主口播不喜欢做字幕,没有脚本,视频必须做音频转录才能得到文本。而且,不露脸的博主喜欢在视频中的 K 线图上手写标注,有时具体点位要看视频才能做好笔记。

动手之前,我让 Gemini 帮我做了任务拆解和开发规划。

免费的 Google,现在强得可怕

首先,解析博主视频频道,得到频道的 rss 订阅链接。通过每天刷新 rss 内容得到最新一期的视频链接。用 yt-dlp 将视频下载到本地。

然后,调用 ffmpeg 对视频进行音频分离,得到 mp3 文件。音频转录到文本,我原本想在本地安装 Openai 免费的 Whisper 来做,后来发现,Gemini 1.5 开始就支持多模态,完全可以做语音转录,无需本地资源还不要钱。干脆直接将音频发送给大模型做转录。

前两部完成之后,已经可以得到带有时间戳的完整转录文本以及提纯后的精炼文本。一般视频笔记做到这里就可以结束了。但我还希望再进一步,把个股的关键点位结合当时视频播放的画面做整合分析。

Gemini 告诉我,这完全可行。我可以将文本中涉及关键点位的时间戳发给 ffmpeg,让它做截图,然后对截图进行二次分析,结合之前的转录文本,再做一次笔记优化。

这部分功能花了我好几个小时。原因是大模型输出的时间戳格式不稳定,2.5 Pro 的指令遵从不好,时常将毫秒当作秒,记录在时间戳上,导致 ffmpeg 找不到对应的时间点。

最后的方案是用 Gemini 1.5 Pro 做完整音频转录,提取时间戳,用 2.5 Pro 做文本处理。最终效果不错。

事情做到这一步,还不够好。我不想每天打开目录去读 markdown 格式的报告,不够好看,不够优雅。

于是我又问 Gemini,我想跨设备阅读,最大化便利性和可读性,我该怎么办?我心里预设的方案,构建一个 Web 网页或者发给 Notion 做成云笔记。

Gemini 和 ChatGPT 分别回答了我的问题,这两个顾问一致认为 Notion 是更好的选择。ChatGPT 甚至不停问我,要不要写 python 脚本帮我实现这一功能。我没理它。

在之前的代码编写中,Gemini 2.5 Pro 出现 bug 的次数不超过 5 次。几乎每次都能正常运行,报告效果需要逐渐调优,但没有编码错误。以前那种代码频频出错,时间花在代码而不是功能优化上的蠢事,已经没有了。

我遇到的唯一问题是cline+gemini 2.5 pro,如果 cline 处理文件出错,会大量消耗 API 调用次数,导致免费额度很快用光。

这个问题让我在后期只能通过 Cherry Studio 和 Gemini 继续对话。好在 Gemini 的代码正确率极高,无需频繁修改。

将优化后的报告上传到 Notion 是另一个挑战。我对 Notion 几乎一窍不通。但 Gemini 通就行了,我把报告拆解和格式优化的任务通通交给它。它甚至提出了自己的方案,把视频截图也上传到 Notion,做成带有原始素材的互动笔记。完美。

这部分代码还在调试,但我已经想好了下一步工作。通过 Notion 刚刚开放的 MCP 协议,将日积月累的视频笔记通过 Cherry Studio 的 AI 聊天框进行检索。把这些自动生成的笔记当作知识库,随时查询关键点位和财报分析。

在 Google Gemini 2.5出来之前,我一直用 Cursor+ChatGPT 来做规划和编程。这一次大量使用 Gemini 2.5 Pro,发现了它的不少短板,但也用出了它的强项。做规划,提建议,不厌其烦的回答各种问题,Gemini 是极佳的架构师和技术顾问。

我在开发这个工作流的过程中,不仅通过 AI 完成了我想做的事,更大收获是和 Gemini的沟通中学习到了更多知识。它并不能从一开始就精确地规划好每一步应该怎么做。

我们的合作是逐渐进展,慢慢深入。它带我一步,我带它一步。它拓展了我的知识边界,我看到了更好的开发方向。编程,反而成了这其中最不重要的一步。我沉浸在所谓的氛围编程中,一步步完成自己的作品。

我相信,今天我做的这一切,很快会被更快更便宜的大模型功能替代。音频转录,截图分析,你直接把视频发给AI 去看不就得了。它们现在不是不能看,而是太贵,太慢,效果不如分拆任务做得更好。在它们变得更强之前,造几个自己的玩具,其乐无穷。

Gemini另一个强大的能力是 Deep Research,我之前为此写过文章。最近再用的时候,我明显感觉到 Deep Research 又做了优化。它不容易死在半道上了。

模拟人工对数十上百个网站进行检索,对信息归类,总结,提炼要点,形成报告,我认为目前没有其他工具比 Google Gemini 的 Deep Research 做得更好。ChatGPT 的 Deep Research 原理和 Google 一样,但在爬虫普适性和历史资料的沉淀上,OpenAI 远不及 Google。

所以,Google 看似在 AI 中稍显落后,但未来可期。

回应我在开篇时的文字,为什么觉得它们要开始收费了?因为在上述开发过程中,Gemini 的服务会变得很慢,免费额度居然会被我用光。ChatGPT 4.5 第一次提示我剩余使用次数。

这些现象预示着,不仅我感知到了 AI 工具的强大,它们自己也知道。白嫖的盛宴,已近尾声。

附一张 ChatGPT 用我的照片生成的黏土版。

提示词:

请根据附上的照片,将画面中的角色转化为 3D Q版黏土风格角色公仔,整体放置于一张 拍立得照片中,并由一只手持握着拍立得相纸。画面呈现出一种视觉效果:角色从拍立得照片中突破边框、延伸进入现实世界的二维空间。

构图比例:9:16 垂直构图

人物设定:将照片中的人物转化为 Q版 3D 公仔,整体约为 1/4 身高比例,呈现全身,保持原照片中的服装与造型,风格为柔软可爱的黏土材质

背景:延续拍立得中的背景,以 Q 版风格绘制,不需再有人物出现,仅作为角色背景的延伸,与照片原始场景一致

拍立得底部文字:手写字体 银山塔林

免费的 Google,现在强得可怕

上一篇文章有读者喜欢封面图,那是 midjourney 画的,放在这里。

免费的 Google,现在强得可怕