项目编号A06-2019-J065
项目名称超大规模计算集群智能弹性调度及数据路由关键技术研究与应用
候选单位北京京东尚科信息技术有限公司
北京京东世纪贸易有限公司
清华大学
候选人黎科峰 刘海锋 李 丹 胡鲁辉 赵国梁 任 强 梁秋实 郭李明 吕 信 杨泽森
项目简介    1.研究目的: 国家主席习近平在全国网络安全和信息化工作会议上指出:核心技术是国之重器。要下定决心、保持恒心、找准重心,加速推动信息领域核心技术突破。 5G时代万物互联带来更大的数据采集、存储、计算需求,对于高效低成本的智能资源调度也提出了更高需求。同时如何使大规模集群系统符合云原生概念和方法,做到高度弹性化、动态调度和自动伸缩等特性,也需要进行创新。 本项目实现了云原生和容器化集群统一调度,同时管理在线业务与大数据离线任务, 极大地提升了资源利用率和性能,降低成本。使用智能算法精准地调度资源,通过高并发的容器集群网络域名系统解决了混合部署中大规模容器集群存在的网络性能瓶颈问题,创新性地实现了计算和存储分离,满足在线离线混布对高性能存储的性能和容量要求以及资源扩展问题,达到世界先进水平。 2.主要创新技术点: (1)智能容器集群精准调度:使用智能和机器学习方法,通过预测、统计、优化算法,能够准确和动态地分配计算、存储和网络资源给业务和应用,最大化资源使用率;同时利用在线业务负载高低峰错位性质,通过夜间调度大量离线任务,平均资源利用率由13%提升三倍至36%,近三年节省了服务器采购成本20.3亿元。 (2)超高并发容器集群分布式域名解析与负载均衡服务:使用基于DPDK的全新DNS server实现,加上有效的缓存和内存管理优化,把DNS服务的峰值性能提高了67倍(从15万QPS到1000万QPS)远远超过当前开源社区的 CoreDNS和KubeDNS的性能极限,极大地改善了DNS服务性能稳定性。具有高可用、自动发现服务域名、后端探活、易于维护、动态扩展以及容器化部署等功能和特点,保证了在线服务和离线任务在超大规模容器集群下的性能。 (3)海量数据存储技术:随着集群规模增长,Hadoop集群的Namenode存储成为集群性能的瓶颈。基于路由的 Federation 方案, 支持动态映射、嵌套映射等功能,通过计算和存储分离技术可以解决Hadoop集群无限横向扩展问题。通过EC技术进行数据压缩,实现节省数据存储空间40%以上。 3.成果产生的价值: 项目获得国内已授权发明专利32项,国际专利5项,在IWQoS、IEEE等高水平学术会议和期刊上发表论文3篇。获全球最大云原生社区CNCF最佳用户奖,获得直接经济效益194.6亿元,节约硬件成本20.3亿元。项目正在进行全面开放赋能,向行业内输出技术服务后,将有效降低IT资源投入成本,降低数据中心能耗,为北京市云计算与大数据计算技术创新带来新的动力。

关 闭