(原标题:王炸!DeepSeek发布收官)
至此,DeepSeek为期五天的“开源周”活动正式收官。 2月21日,DeepSeek宣布,从2月24日起将开源5个代码库,以完全透明的方式与全球开发者社区分享他们的研究进展。 2月24日,DeepSeek宣布开源FlashMLA。FlashMLA是DeepSeek用于Hopper GPU的高效MLA解码内核,并针对可变长度序列进行了优化,现已投入生产。 2月25日,DeepSeek宣布开源DeepEP,即首个用于MoE模型训练和推理的开源EP通信库。 2月26日,DeepSeek宣布开源DeepGEMM。其同时支持密集布局和两种MoE布局,完全即时编译,可为V3/R1模型的训练和推理提供强大支持等。 2月27日,DeepSeek宣布开源Optimized Parallelism Strategies。其主要针对大规模模型训练中的效率问题。 开年以来,DeepSeek持续火热。QuestMobile数据显示,自上线以来至2月9日,DeepSeek App的累计下载量已超1.1亿次,周活跃用户规模最高近9700万个。 日前,有消息称,原计划今年5月发布的DeepSeek-R2模型正在加速开发,或将提前发布。新模型有望能生成更好的代码,并使用英语之外的语言进行推理。对此,DeepSeek母公司幻方量化回应称,以官方消息为准。 印度科技服务商Zensar的首席运营官认为,DeepSeek-R2模型的发布或将成为AI行业的关键时刻。DeepSeek成功打造了具有高性价比的AI模型,将促使全球公司加速研发进程,打破目前少数企业垄断的格局。 目前,OpenAI、谷歌、xAI、Anthropic、阿里等已相继上新深度推理/深度思考模型。字节跳动旗下AI助手豆包也被传正在小范围测试深度思考模型的不同实验版本,且接入的不是DeepSeek模型。 编辑:晨曦 校对:纪元
制作:小茉
审核:许闻
版权声明
《中国基金报》对本平台所刊载的原创内容享有著作权,未经授权禁止转载,否则将追究法律责任。
授权转载合作联系人:于先生(电话:0755-82468670)
突然出手!抄底来了