首页 - 财经 - 滚动新闻 - 正文

MiniMax挑战Transformer架构,要做AI agent时代的新基建?业内称没有改变本质,尚需应用共识

关注证券之星官方微博:

(原标题:MiniMax挑战Transformer架构,要做AI agent时代的新基建?业内称没有改变本质,尚需应用共识)

21世纪经济报道记者邓浩 上海报道


近期基础大模型领域热点不断,先是量化巨头幻方上线全新系列模型DeepSeek-V3首个版本上线并同步开源,以极低训练成本引发海内外对大模型经济性的广泛讨论。

1月15日,本土“大模型六小龙”之一的MiniMax发布并开源了MiniMax-01全新系列模型,第一次大规模实现线性注意力机制,直接挑战传统的Transformer架构,再一次在行业掀起巨浪。

某大模型领域专家对记者解释,“传统的Transformer的注意力机制的计算复杂度随着序列长度的增加而呈二次增长,所以做长文本效率很低。MiniMax一直在做’线性注意力机制’这一套,做了比较大的改进,从而可以做到400万token的超长上下文。”

也有不少业内人士对记者表示,MiniMax的创新可以增强现有方法的效率,但没有改变本质。实际效果还需要应用的验证和共识。

创新大模型增强效率

此前,MiniMax一直选择闭源,外界对其技术细节知之甚少,没想到这一次上手即是“王炸”。

不仅采用全新架构,而且实现综合性能比肩海外顶尖模型。据MiniMax透露,该模型的参数量高达4560亿个,其中单次激活459亿个。能够高效处理全球最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。

为什么需要这么大的窗口处理能力?

事实上,在处理长文本内容、复杂任务的高效执行以及应对多模态\跨模态任务等情况时,越高的信息处理能力越能让模型充分理解需求,从而得到更优的结果。

雪浪云高级副总裁、雪浪工业软件研究院副院长郭翘就对记者表示,“我们已经积累了不少工业语料,相当于工业场景数据,可以很快测试一些基础大模型的能力,而上下文的长度是非常重要的指标。”

为什么可以做到?关键在于其使用了基于线性注意力机制的新架构,其中每8层中有7个是基于Lightning Attention的线性注意力,有1层是传统的SoftMax注意力。

用个通俗的比喻,假如我们需要在一个装满卷轴的藏宝箱,找出一个与宝藏位置最相关的卷轴。传统的注意力机制类似于一群赏金猎人,每一个猎人会把手里的每一个卷轴都与其他所有卷轴依次做比较,随着卷轴书数量的增多,工作量会呈平方级增长。

而线性注意力机制相当于一位聪明的考古学家,他用一套相对简单的办法,依次对这些卷轴进行检阅,不断记录并累计对线索的理解,最后得出综合判断。这个工作量是随着卷轴增加而线性增长的,相对更高效。

MiniMax称,主要“受益于我们的架构创新,我们的模型在处理长输入的时候有非常高的效率,接近线性复杂度。”而且,MiniMax还在技术论文中透露,“我们正在研究更高效的架构,以期完全摒弃softmax注意力机制,从而有可能实现无计算负担的无限上下文窗口。”

况客科技(北京)有限公司管理合伙人安嘉晨对记者表示,“(MiniMax的影响)现在谈可能还为之过早,之前很多类似的其实最终没有成功证明自己比transformer好,这个需要应用的验证和共识。”

某硅谷技术专家也对记者分析,“从去年开始,硅谷一直在诟病Transformer架构,认为没办法商用,成本消耗太大。Minimax的模型本质是对现有方法效率的增强,但是没有改变本质。”

对于MiniMax来说,花费巨大精力和成本构建这个全新的架构,有着更大的野心。

MiniMax直言,“我们相信2025年会是Agent高速发展的一年,不管是单Agent的系统需要持续的记忆,还是多Agent的系统中Agent之间大量的相互通信,都需要越来越长的上下文。在这个模型中,我们走出了第一步,并希望使用这个架构持续建立复杂Agent所需的基础能力。”

不过,上述硅谷技术专家表示并不太认可这个说法,其认为“就单纯AI agent来说,其实用不了太多的token,几千个足够了。多模态会需要,但技术还没到这个点上。”

安嘉晨则坦言,“MiniMax的应用很成功,星野之类的APP,但是(Agent)用模型的话,我觉得竞争还是很激烈的,现在很难说谁比谁明显领先多少。”

开源、口碑与性价比

其实,在基础大模型领域,自从OpenAI推出O1和O3模型之后,产业界和投资界都逐渐形成新的共识,Scaling Law已经趋缓,预训练模型热度开始转向推理模型。

前述硅谷技术专家称,“预训练大模型,现在大家有一个统一的共识,还没办法转化成真实的生产力,性价比极不合适。投资人也有点慌,因为不知道要烧(钱)到什么时候。”

最近的案例是李开复的零一万物,李开复公开表态,只有大厂能烧超大的模型,“我们觉得要和一个烧得起大模型的大厂合作,以后超大的模型由阿里训练,我们就可以用小而精的团队来做小而便宜的模型,拥抱应用的爆发。”

实际上,商业化是摆在现在大模型初创公司面前的一条必答题。

除了零一万物,月之暗面、百川智能、智谱AI等也在加速探索B端业务的变现,而MiniMax相对比较另类,2023年6月和9月,其相继在海外和国内上线AI陪伴产品“Talkie”、“星野”。2024年5月上线C端产品“海螺AI”,作为生产力助手。此前有媒体预测,MiniMax2024年收入预计达到7000万美元,而大部分收入来自Talkie的广告。

该硅谷技术专家透露,“Minimax在国内比较犹豫,但在海外愿意花钱去租GPU,可以侧面印证海外收入还不错。”

实际上,某熟悉MiniMax的业内人士曾对记者表示,由于MiniMax创始团队出身传统AI四小龙,吃过不少B端的“亏”,比如项目制开发,无法规模化做大,利润微薄,因此其在大模型领域创业时特别注重商业变现。

可是,现在价格内卷也开始在预训练模型不断蔓延,如何在白菜价中实现规模盈利,仍将继续考验入局的玩家。

MiniMax称,“受益于架构的创新、效率的优化、集群训推一体的设计以及我们内部大量并发算力复用,我们得以用业内最低的价格区间提供文本和多模态理解的API,标准定价是输入token 1元/百万token,输出token 8元/百万token。”

对于业内比较关心的开源问题,MiniMax解释,“选择开源,一是因为我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”

前述硅谷技术专家对此表示,“我觉得大模型开源,主要还是做口碑。特别是在中国,一旦开源,客户的选择成本会很低。而且后续也可以有延伸的增值服务。”

安嘉晨也认为,“闭源模型要盈利,就只能卷性能,但卷性能和盈利这两者几乎很难平衡,也许只有少数的一两个才能坚持闭源且盈利;开源的话,卷性能的需求下降了,自然成本压力也能缓释,还有可能占个生态位,未来还有建立商业模式的可能性。”

郭翘则对记者分析,“我们只关注开源模型,为什么不用闭源(模型)?因为制造业的客户更关心数据安全,必须要保证私有化部署,而闭源模型通常是提供网络接口,通过公有云服务,这是B端客户不太容易接受的。”

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-