当前位置:商业频道首页 > 财讯 > 正文

Deepseek、Kimi争相对标o1 初创公司能打破“技术”和“用户”二选一魔咒吗?(2)

集体对标o1,Deepseek、Kimi相继推出新模型

1月20日晚,Deepseek发布了DeepSeek-R1,并同步开源模型权重。据官方介绍,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1正式版。

官方披露,DeepSeek-R1 API

随后,Kimi也在当晚推出了全新的k1.5多模态思考模型。官方介绍称,从基准测试成绩看,k1.5多模态思考模型实现了SOTA(意为特定时间背景下的最高水平)级别的多模态推理和通用推理能力。

一位国内头部大模型的算法工程师向《每日经济新闻》记者表示:“Kimi探索了一条不同于Deepseek V3的基座模型方案,通过进行长模型和短模型的权重合并,以及短模型的特化RL,最大化保留了类o1模型的能力。”

从表现数据来看,在短链思考(short-CoT)模式下,Kimi k1.5的数学、代码、视觉多模态和通用能力,均超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平;在长链思考(long-CoT)模式下,Kimi k1.5的数学、代码、多模态推理能力,也达到长思考SOTA模型OpenAI o1正式版的水平。

此外,字节跳动旗下的豆包于1月20日推出了实时语音大模型;“AI六小龙”之一的阶跃星辰也在同天上线了Step-2系列语言模型的两款新品,即参数量小、性价比更高的Step-2 mini以及针对内容创作领域推出的“Step文学大师版”。不难看出,作为当下最为炙手可热的行业,大模型领域的技术竞赛日趋激烈。

技术和用户,初创公司必须取舍吗?

玩家们仍在同一田径场内竞争,但起跑线和赛道已经不同。2025年刚刚开始,国内“AI六小龙”和互联网大厂等有代表性的大模型选手就在战略方向、侧重点上出现了分野。

热点推送

本周关注

MORE