AI的天要塌了，50美元训练的大模型横空出世

你们的中产先生 2025-02-07 09:33

蒸馏大法好。

今天，AI行业突然传出一个爆论：

斯坦福用50美元就跑出了媲美DeepSeek的大模型。

我一开始是有点不相信的，之前即便是DeepSeek用600万美元训练大模型，都被认为是不可能，50美元，怎么可能？

但是后来我发现居然是真的。

主要找到两个信息：

1、跑出这个模型的人是李飞飞

李飞飞是业界公认的国内最顶尖的AI人员，号称AI教母，她16岁才去的美国，甚至表示以后得了诺贝尔奖的话要以中国人的身份领奖，有她做背书，可信度大大提升。

2、我找到了这个大模型论文原文

发在论文预印本网站arxiv上的（https://arxiv.org/html/2501.19393v1），那就更不可能有假了。

但我还是觉得震惊。

机翻了一下论文，终于了解了一个大概。

这个模型叫S1，是怎么训练成功的呢？

先说结论：

S1是用知识蒸馏的方式通过低成本训练出了推理能力。

再详细来说：

S1本身是有一个大模型，名字就不说了，这个大模型的推理能力不太行，李飞飞团队是怎么做的呢？

蒸馏了1000条谷歌Gemini 2.0的数据，然后用16块H100 GPU、26分钟就训练出了推理能力。

当然，这个50美元只是云计算的费用，不包括购置显卡的硬件费用，因为硬件不是一次性使用，26分钟的使用摊薄费用也没必要。

接下来，由这个具备了推理能力的S1对原来的大模型进行监督微调，就这样之前的大模型瞬间有了灵魂脱胎换骨，直接可以媲美DeepSeek甚至是OpenAI。

我的理解就是：

推理能力是核心，一旦训练出来就一通百通。

这个研究其实跑出了一个新方向：

只要蒸馏的数据质量足够高，很低的成本就可以训练出高质量的推理能力，这简直把AI的天给翻了。

算力还是王道吗？知识蒸馏才是大法好啊。

现在我有点相信，DeepSeek可能真的只花了600万美元就训练出这么厉害的模型了。

这简直是开创了AI新时代。

以后小模型训练更方便了，甚至每个人都能训练自己的小模型了，信息平权的时代这么快就到了？

OpenAI现在堵知识蒸馏的口子还来得及吗？要不然干脆放开付费调用吧。

笑。

就这样。

实用资讯

最新评论

那时烟花乱

实际上李飞飞的这个模型正好揭露了deepseek的谎言，李的这个模型同时借助了两套模型gemini和通义千问，没有这两个化巨资建立起来的模型做基础，什么都免谈。如果不是openai已经将化巨资完成了原始语料的收集，标记和多轮训练，deepseek去蒸馏个鬼。

2025-02-07 19:45

屏蔽

舒满粥

强国人，”莘莘游子“ ，的脑袋对是屎缸？懂什么叫 “蒸馏”吗？

2025-02-07 12:05

lary

但是在信息封锁的国家, 仍然是梦想和奢望.

2025-02-07 10:09

莘莘游子

李飞飞团队以不到50美元的云计算成本成功训练出名为s1的人工智能推理模型，该模型在数学和编码能力测试中表现出色，媲美OpenAI的o1和DeepSeek的R1模型。这一成果表明，人工智能领域不再是高资本、高投入、高算力的专利，象征着高墙深院的垄断正在瓦解。这次实验再次侧面印证了DeepSeek的宣言，预示着人工智能普及化的时代即将到来。全球对此欢欣鼓舞，尤其是欧盟和印度，而对于美国，是一记重击。

2025-02-07 09:51