原标题:DeepSeek引发全球AI圈震动 中国人工智能创新迎历史性拐点
蛇年春节的爆竹声尚未消散,一家名为深度求索(DeepSeek)的中国公司在全球AI圈引发的震动仍在持续。从“技术追随”到在一定程度上实现“创新引领”,国产AI正站上历史性的拐点。
“东方力量”意外刷屏海内外
刚刚过去的蛇年春节,科技圈的“顶流”非DeepSeek莫属。农历腊月二十八,深度求索公司旗下生成式AI产品DeepSeek以“低成本、高性能”的标签闻名海内外,同时登顶中国区和美国区苹果应用商店免费榜。
据悉,DeepSeek R1模型的独特之处在于,通过强化学习让模型自主进化出复杂的推理能力。“这具有非常重要的价值,在历史上,几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。”面壁智能联合创始人兼首席科学家刘知远说。
这种技术路径不仅提高了训练效率,还减少了对昂贵计算资源的依赖。与OpenAI的o1相比,DeepSeek模型的百万token输入成本和输出成本降低至数十分之一,“花小钱办大事”。
DeepSeek的火爆,绝非中国科技圈的自我狂欢。《自然》杂志连发多篇文章盛赞DeepSeek。纽约时报则称,DeepSeek以极低成本和少量芯片实现了与OpenAI等巨头相媲美的性能,挑战了“唯有科技巨头才能研发尖端AI”的行业共识。
开源革命加速AI应用普及
海内外AI大模型第一梯队此前早已地位稳固,此次引发全球AI圈震动的,为什么是DeepSeek?
刘知远认为,此前以OpenAI o1为代表的海外大模型尽管具备了强大的推理能力,但没有提供关于其实现细节的任何信息,“它相当于引爆了一个原子弹,但没有告诉大家秘方,而DeepSeek通过纯粹的强化学习技术复现了OpenAI o1的推理能力,并且把这种能力开源了。”
功能强大、免费使用的DeepSeek,还将代码向开发者开源,并将技术细节公开。因此,大量全国乃至全球AI开发者都进入了“DeepSeek时间”。
在大年初四凌晨完成了一项重要发布后,硅基流动创始人兼CEO袁进辉感叹道:“这个春节有点特别,虽然没有休息一天,大家也没有怨言。”
假如将算力、模型和工具链等比作制作大模型“蛋糕”的素材,硅基流动所做的,如同为大家提供一个“蛋糕机”,人们不再需要自己从头准备材料、做大量准备工作,而是能比较容易地享用成品。在春节假期,袁进辉与同事加班加点,推出了基于华为云昇腾云服务的DeepSeek R1/V3推理服务,让DeepSeek的模型“跑”在国产算力上,为用户提供服务。
由于接入的用户越来越多,团队不得不屡次对平台扩容,以应对汹涌的流量。
硅基流动是国内众多AI企业积极加入这股AI热潮的缩影。昨天,蛇年春节后的首个工作日,百度智能云宣布成功点亮昆仑芯三代万卡集群。同日,京东云宣布上线DeepSeek R1和DeepSeek V3模型。此前两天,华为云、腾讯云、阿里云等多个云平台密集宣布上线DeepSeek旗下模型,拥抱这场由中国公司掀起的AI机遇。
“DeepSeek差异化的破局点恰在于其前瞻性的开源战略布局——通过将核心模型开源,构建开发者生态,在巨头垄断的流量体系外开辟了另一条增长曲线。”一位AI行业资深从业者说。
AI竞争进入技术多极化时代
DeepSeek的出现预示着中国AI产业正从“跟随创新”转向“范式创新”,全球AI竞争进入技术多极化时代。
在刘知远看来,DeepSeek带来了一个重要启示:“即使用‘小米加步枪’,依然能够取得胜利,我们即将迎来一个非常重要且意义深远的智能革命时代,它的高潮即将到来,这是可望且可及的。”
DeepSeek并非唯一的中国AI大模型之光。两天前,全球顶级大模型竞技榜单Chatbot Arena LLM Leaderboard公布了最新一期榜单,该榜单再添一款国产模型——阿里Qwen2.5 Max,超越DeepSeek V3,位列总榜第七。
不过,国产大模型显然还不完美。一些专业人士测评发现,在部分重要问题的解决能力上,DeepSeek并没有超越ChatGPT。互联网分析师丁道 师认为,不应过 分“神化”Deep-Seek,它目前仍有一些明显不足,例如套路化、公式化创作,对因果关系理解欠佳,在一些事实信息方面低级错误频出等。
1月31日,OpenAI正式上线推理模型o3-mini,并首次向用户免费开放。你追我赶的AI技术竞争仍在不断上演。(记者 孙奇茹)