MiniMax追着DeepSeek打_财经频道

（原标题：MiniMax追着DeepSeek打）

经济观察报记者陈月芹

6月17日，MiniMax（稀宇科技）宣布其自主研发的MiniMax M1模型开源，并计划在未来5天内每天发布一项新产品或新技术。而这款MiniMax M1模型，在关键技术规格、架构设计、上下文处理能力、训练成本等维度全面对标DeepSeek R1，甚至是谷歌Gemini 2.5 Pro，比拼谁更好用、谁更低成本。

对大语言模型而言，上下文窗口与长文本处理能力是衡量一个模型处理复杂、长篇任务能力的关键指标。MiniMax M1支持100万个token的上下文长度，是DeepSeek R1上下文大小（12.8万Token）的8倍，仅落后于谷歌的Gemini 2.5 Pro。支持百万级上下文输入的能力，使得MiniMax M1擅长处理长文档，适用于法律文件审查、深度研究分析或处理整个代码库等应用。

在架构上，MiniMax M1和DeepSeek R1均采用了混合专家（MoE）架构。MiniMax M1的总参数量为4560亿，每个token激活459亿参数；而DeepSeek R1虽然总参数量更大（6710亿），但每个token激活的参数量相对较低，为370亿。

此外，与DeepSeek R1相比，MiniMax-M1在生成10万个token时仅消耗25%的浮点运算。在生成长度达64000个token的推理任务中，M1所需的计算能力不到DeepSeek R1的一半，进一步降低了模型操作成本。

2025年2月，DeepSeek火爆出圈，除了免费和好用之外，还因其仅以500万至600万美元的GPU成本，就训练出了与OpenAI o1能力不相上下的DeepSeek R1模型，引起行业震撼，不过这一成本数据也引发了广泛争议。

MiniMax称，M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU，耗时三周，成本仅为53.5万美元，这一成本“比最初的预期少了一个数量级”。

MiniMax解释，MiniMax M1的强文本处理能力和更低成本，背后是两大核心技术作为支撑，一是线性注意力机制（Lightning Attention）混合构架和强化学习算法CISPO。例如，CISPO算法通过裁剪重要性采样权重，而非传统算法中调整Token的更新方式，来提升强化学习的效率和稳定性。

降低训练成本后，MiniMax也把用户使用API服务的价格打下来了。

MiniMax M1采用分级计费，根据用户输入或输出的Token数量（即内容的长度）而变化。第一档为0—32k Token，每100万个输入Token收取0.8元，输出则为8元/百万Token；第二档为32k—128k Token，输入为1.2元/百万Token，输出则为16元/百万Token；第三档为128k—1M Token，输入为2.4元/百万Token，输出为24元/百万Token。

而DeepSeek R1 的API服务收费标准为?输入每百万Tokens?收费?0.55美元?（约合人民币3.95元），?输出每百万Tokens?收费?2.19美元?（约合人民币15.4元）。

据此计算，MiniMax M1前两档位的定价均低于DeepSeek R1，而第三个超长文本档位，目前DeepSeek模型尚未覆盖。

目前，MiniMax M1已在Hugging Face和GitHub上公开其代码和模型权重，允许用户进行透明的检查、定制和本地部署。

证券之星微信

扫描二维码

关注

证券之星微信

精彩推荐

内容精选