北京市科学技术委员会、中关村科技园区管理委员会企业新闻开源共赢！京企发布新一代开源大模型

开源共赢！京企发布新一代开源大模型

发布时间：2023年09月08日来源：北京日报字体：【大】【中】【小】

　　9月6日，在北京市科委、中关村管委会，海淀区政府指导下，北京人工智能企业百川智能召开主题为“百川汇海，开源共赢”的大模型发布会。百川智能宣布正式开源微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat，并且均为免费可商用。公司创始人兼CEO王小川在会上表示，其70亿参数模型在英文评测级上，能够做到“以小博大”。

　　今年7月，国际互联网巨头Meta发布LLaMA2，并很快被业界认可为全球范围内最强的开源大模型，甚至有人预言其将改变大模型发展的终局。然而，以LLaMA2为代表的开源大模型大多支持英文等西方语言，对中文的支持往往不够友好。据悉，百川本次开源的模型给予中文、英文、西班牙语、法语等数十种语言的预料进行训练，在几大权威评估基准中，性能大幅度优于LLaMA2等同尺寸模型。

　　不久前，首批8家大模型通过《生成式人工智能服务管理暂行办法》备案，其中5家为京企研发的大模型。“继成为本市首批完成备案上市的大模型之后，百川智能向全行业开源新一代大模型，冲击大模型开源领域的世界领先地位，将有助于建立起我国自主可控的开源大模型生态，推动大模型在各行各业的应用与落地。”北京市科委、中关村管委会二级巡视员刘航说。

　　大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入，从零到一完整训练一个模型的高昂成本，阻碍了学术界对大模型训练的深入研究。当前，大部分开源模型在开源过程中只是对外公开自身的模型权重，很少提及训练细节，企业、研究机构、开发者们只能在开源模型的基础上做有限的微调，很难进行深入研究。

　　为更好地推动大模型社区的技术发展，百川智能此次开源了模型训练的Check Point（模型切片），其发布了Baichuan2技术报告，详细介绍了训练细节，帮助大模型学术机构、开发者和企业用户更深入地了解其训练过程，更好地推动大模型学术研究和社区的技术发展。业界人士分析，开源训练模型过程对国内开源生态尚属首次，这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等方面极具价值，将极大推动国内大模型的科研进展。（记者孙奇茹）