当前位置: | 首页 |
|
9月6日,在北京市科委、中关村管委会,海淀区政府指导下,北京人工智能企业百川智能召开主题为“百川汇海,开源共赢”的大模型发布会。百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat,并且均为免费可商用。公司创始人兼CEO王小川在会上表示,其70亿参数模型在英文评测级上,能够做到“以小博大”。
今年7月,国际互联网巨头Meta发布LLaMA2,并很快被业界认可为全球范围内最强的开源大模型,甚至有人预言其将改变大模型发展的终局。然而,以LLaMA2为代表的开源大模型大多支持英文等西方语言,对中文的支持往往不够友好。据悉,百川本次开源的模型给予中文、英文、西班牙语、法语等数十种语言的预料进行训练,在几大权威评估基准中,性能大幅度优于LLaMA2等同尺寸模型。
不久前,首批8家大模型通过《生成式人工智能服务管理暂行办法》备案,其中5家为京企研发的大模型。“继成为本市首批完成备案上市的大模型之后,百川智能向全行业开源新一代大模型,冲击大模型开源领域的世界领先地位,将有助于建立起我国自主可控的开源大模型生态,推动大模型在各行各业的应用与落地。”北京市科委、中关村管委会二级巡视员刘航说。
大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入,从零到一完整训练一个模型的高昂成本,阻碍了学术界对大模型训练的深入研究。当前,大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。
为更好地推动大模型社区的技术发展,百川智能此次开源了模型训练的Check Point(模型切片),其发布了Baichuan2技术报告,详细介绍了训练细节,帮助大模型学术机构、开发者和企业用户更深入地了解其训练过程,更好地推动大模型学术研究和社区的技术发展。业界人士分析,开源训练模型过程对国内开源生态尚属首次,这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等方面极具价值,将极大推动国内大模型的科研进展。(记者 孙奇茹)