首页 - 财经 - 滚动新闻 - 正文

不到50美元就能训练出媲美DeepSeek R1的模型?背后真相是……

来源:21世纪经济报道 媒体 2025-02-07 18:03:48
关注证券之星官方微博:

(原标题:不到50美元就能训练出媲美DeepSeek R1的模型?背后真相是……)

21世纪经济报道记者白杨 北京报道

当DeepSeek对AI行业的震撼仍在持续发酵时,又一则“炸裂”的AI新闻引发全球关注。

据媒体报道,斯坦福大学和华盛顿大学的研究人员发表的一篇研究论文显示,他们以不到50美元的云计算费用,训练出一款名为S1的推理模型。该模型在数学和编码能力测试中,与OpenAI的o1和DeepSeek的R1表现不相上下。

要知道,DeepSeek之所以惊艳世界,正是因为它以远低于OpenAI的训练成本,做出了与其水平相当的产品。如今,若真的能将这一成本降至不到50美元(约364元),那无疑是AI领域的又一次重大突破。

然而,事实并非如此。

根据研究论文,S1模型并不是从零开始训练,而是以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,然后在16块H100 GPU上进行了26分钟的监督微调(STF),最终训练出新模型S1-32B。

在推理能力方面,研究人员则通过蒸馏技术,从谷歌的AI推理模型Gemini 2.0 Flash Thinking Experimental中提取了推理能力。

某大模型厂商的研发人员告诉21世纪经济报道记者,S1模型本质上是在前人研究的基础上复制了推理能力,而非真正创新。

他进一步指出,蒸馏技术虽然可以大幅降低模型训练成本,但它并不能创造出全新、更强大的推理模型。“这意味着,蒸馏出来的模型永远无法超过被蒸馏的模型”。

与DeepSeek R1大有不同

准确来说,S1模型的核心在于“模仿”。研究团队通过蒸馏技术,将谷歌模型的推理过程和能力迁移到S1模型上,并通过监督微调进一步优化其表现。

因此,S1模型的训练过程相对简单,成本也更低。它使用的数据集仅包含1000个问题及其推理过程。

此外,研究团队还开发了一种名为“预算强制(budget forcing)”的技术,通过在模型尝试结束生成时强行终止其思考过程,或通过多次附加“等待”来延长思考时间。这种方法可以使模型重新检查其答案,从而提高推理的准确性。

然而,无论是从训练方法、成本,还是模型数据来源和优化策略上,S1与DeepSeek R1都有着本质的区别。

DeepSeek R1是通过强化学习训练的,它在训练过程中能够不断自我调整,并通过奖励机制强化正确的推理路径,最终达到较高的推理能力。

R1的优势在于它能够在动态环境中进行调整和优化,因此具有更强的适应性和处理复杂情境的能力。而S1只是复制已有模型的能力。

S1模型的启示

尽管S1模型无法与DeepSeek R1和OpenAI o1等顶尖模型直接对比,但它的出现对AI行业的未来发展具有重要意义。

通过蒸馏和监督微调,S1模型能够在极低的费用下训练出与顶尖AI模型相似的推理能力,这对许多预算有限的AI研究团队和小型公司来说,意味着AI技术不再是大型科技企业的专利。

目前,S1模型已经开源。如果一些团队只希望获得高性能的数学和编码能力,那么S1模型已经为他们打破了高成本门槛。

此外,S1模型采用的蒸馏技术,已证明可以在低资源环境下取得不错的推理能力。未来,其他团队也可以沿着这一思路,尝试蒸馏出更多高性能模型。

当然,S1模型推出后也引发一些争议。例如,谷歌的条款禁止其他团队将其模型反向工程化,开发与谷歌自家AI产品竞争的服务。S1模型是否违反了该条款,目前尚不得知。截至发稿,谷歌公司尚未对此进行回应。

对头部大模型厂商而言,S1模型的出现也为其敲响了警钟。如果头部大模型厂商投入巨大资源训练出来的模型,其他人用极少的资源就能复制并实现相似的能力,那头部厂商的“护城河”究竟是什么?这一问题值得头部厂商深思。

阿里云Qwen成幕后赢家

随着S1模型被广泛关注,其采用的基座模型——来自阿里巴巴的Qwen也成功出圈。

据了解,从2023年8月起,阿里云通义千问相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括大语言模型、多模态模型、数学模型和代码模型等数十款,涵盖从1.5B到72B乃至110B等不同模型尺寸。

此前,DeepSeek官方透露,其在发布DeepSeek-R1的同时,也将其推理能力蒸馏了6个模型开源给社区,而其中有四个蒸馏模型是基于Qwen-32B。

S1模型发布后,有开发者在社交平台上表示,“我们已经尝试用相同的数据训练其他模型,但几乎没有发现任何收益,Qwen模型确实有些神奇之处”。

据开源社区HuggingFace的统计,2024年,仅Qwen2.5-1.5B-Instruct这款模型,就占到了全球模型下载量的26.6%,远高于第二名Llama-3.1-8B-Instruct-GGUF的6.44%。

目前来看,Qwen模型已经取代Llama成为开源社区事实上最重要的标杆基座模型。

有业内人士向记者表示,不论是微调、蒸馏或是其他低成本的新技术,都并非从零开始训练,而是站在基础模型强大性能表现的“肩膀上”才取得的新技术成果。从这个角度来看,Qwen也成为开源推动前沿技术发展的又一经典案例。

总的来说,S1模型的出现虽然未能颠覆AI行业的格局,但它为低成本AI技术的发展提供了新的思路。未来,随着更多类似技术的涌现,AI领域的竞争将更加激烈,而开源模型和低成本训练方法或将成为推动行业进步的重要力量。

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-