DeepSeek这波开源,六小虎敢跟吗?
原标题:DeepSeek这波开源,六小虎敢跟吗?
导读:
未经授权严禁转载发现抄袭者将进行全网投诉恭喜恭喜新闻台前首席主播香港女星麦诗敏正式出嫁和圈外老公何泽彬在香港尖沙咀某星级酒店举行婚礼踏入人生新的阶段从港媒曝光的图片可以看到麦诗...
未经授权严禁转载,发现抄袭者将进行全网投诉恭喜,恭喜!TVB新闻台前首席主播、香港女星麦诗敏正式出嫁,和圈外老公何泽彬在香港尖沙咀某星级酒店举行婚礼,踏入人生新的阶段。从港媒曝光的图片可以看到,麦诗敏化着精致的妆容,穿着定制的凤袍,整个人显得雍容华贵。最关键的是,麦诗敏的脖子上以及手上都戴着各种各样的...
出品|虎嗅科技组
作者|宋思杭
编辑|苗正卿
头图|视觉中国
DeepSeek“开源周”正在掀起一场革命,但要不要革命,怎么革,取决于大模型厂商自身。
持续了五天的“开源周”本应该在2月28日画上句号。但3月1日,DeepSeek再次开源一个重磅代码库,推理效能极致提升,成本利润率达545%。这种效能提升在业界是前所未有的。
根据估算,目前业界H800的平均性能水平可以达到500~1000 tokens/s(输入)、250~350 tokens/s(输出);而DeepSeek的效率是73.7k/14.8k(输入/输出)。
如果把DeepSeek R1比作一道菜,那么一周内,其已经分别将这道菜所使用的原材料(指数据)、来源、具体加工流程、步骤,毫无保留地公布出来。
大模型开源社区生态 Open G(开放传神)创始人陈冉告诉虎嗅,“这是一套完整的‘生产线’。像这样的库开放是前所未有的。从没有任何一家将模型是怎么做出来的开源出来”。
相当于,DeepSeek先后甩出了两颗炸弹。 颗炸弹是R1技术报告,因为里面提到了创新点;第二颗就是上周开源的代码库,也就是创新过程。
据虎嗅了解,更重磅的还是在开源周之前DeepSeek发布的NSA(N ive S rse Attention)。“R1是为了 后训练和推理,但NSA 的是预训练的成本问题。这种极致的降本增效方式,挑战了预训练Scaling Law的规则。”陈冉告诉虎嗅。
不过,虎嗅还向行业人士了解到,即使DeepSeek公布出这一整条大模型“生产线”,也未必有几家基座模型厂商能照模照样地生产出下一个DeepSeek。这一方面取决于其自身的开源基础,另一方面是适配难度。
更甚的是,DeepSeek引发的这场开源潮,掀起了国内所有大模型厂商的一场革命,有些甚至不惜成本革自己的命。
据虎嗅获悉,几家云厂商已经开始大刀阔斧地调整组织架构,内部也正在探讨新的商业模式;而大模型六小虎方面,普遍对内在筹备应对方案,对外拒绝对DeepSeek发表任何态度。
还没有评论,来说两句吧...