首页 - 财经 - 国内经济 - 正文

MiniMax追着DeepSeek打

来源:经济观察报 媒体 2025-06-18 19:22:26
关注证券之星官方微博:

(原标题:MiniMax追着DeepSeek打)

经济观察报 记者 陈月芹

6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro,比拼谁更好用、谁更低成本。

对大语言模型而言,上下文窗口与长文本处理能力是衡量一个模型处理复杂、长篇任务能力的关键指标。MiniMax M1支持100万个token的上下文长度,是DeepSeek R1上下文大小(12.8万Token)的8倍,仅落后于谷歌的Gemini 2.5 Pro。支持百万级上下文输入的能力,使得MiniMax M1擅长处理长文档,适用于法律文件审查、深度研究分析或处理整个代码库等应用。

在架构上,MiniMax M1和DeepSeek R1均采用了混合专家(MoE)架构。MiniMax M1的总参数量为4560亿,每个token激活459亿参数;而DeepSeek R1虽然总参数量更大(6710亿),但每个token激活的参数量相对较低,为370亿。

此外,与DeepSeek R1相比,MiniMax-M1在生成10万个token时仅消耗25%的浮点运算。在生成长度达64000个token的推理任务中,M1所需的计算能力不到DeepSeek R1的一半,进一步降低了模型操作成本。

2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广泛争议。

MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元,这一成本“比最初的预期少了一个数量级”。

MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。

降低训练成本后,MiniMax也把用户使用API服务的价格打下来了。

MiniMax M1采用分级计费,根据用户输入或输出的Token数量(即内容的长度)而变化。第一档为0—32k Token,每100万个输入Token收取0.8元,输出则为8元/百万Token;第二档为32k—128k Token,输入为1.2元/百万Token,输出则为16元/百万Token;第三档为128k—1M Token,输入为2.4元/百万Token,输出为24元/百万Token。

而DeepSeek R1 的API服务收费标准为?输入每百万Tokens?收费?0.55美元?(约合人民币3.95元),?输出每百万Tokens?收费?2.19美元?(约合人民币15.4元)。

据此计算,MiniMax M1前两档位的定价均低于DeepSeek R1,而第三个超长文本档位,目前DeepSeek模型尚未覆盖。

目前,MiniMax M1已在Hugging Face和GitHub上公开其代码和模型权重,允许用户进行透明的检查、定制和本地部署。

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-