查看原文
其他

春晚4小时16次超大规模精准调度 京东云“亮舰”

带你数字化转型的 京东云 2022-09-20



除夕,京东集团总部。2022年春晚技术备战指挥大厅灯光通明,掌声雷动。


全球12.96亿观众收看,691亿次红包互动,新媒体用户触达人次超71亿次,虎年春晚再创历史新高。

19天极限备战,4小时16次极限切换,京东云成功挑战全球最大规模流量洪峰,首次在不新增服务器的情况下完成春晚技术保障,再次刷新云原生超大规模实践记录。



 

这是一个云计算挑战极限的故事,也是六年磨“一舰”的京东云翻越高山的故事。


01 

高流量遇到高复杂场景

鱼和熊掌如何兼得?


1月5日,京东成为2022年央视春晚独家互动合作伙伴。同时保证全球顶级的高并发流量和超复杂购物交易场景,这是云计算行业从来没有经历过的挑战。京东云没有可复制的经验,行业也没有。
 
留给京东云的是史上最短备战周期——19天


面对超级流量场,行业通用的解决方案是增加服务器。但是,19天新增大量服务器,在目前全球硬件供应链供货周期持续拉长的情况下,这条路是很快被证实是行不通的。

但也并不是无解,是否可以调动现有资源满足多个场景的错峰需求,通过高效、精准、稳定的资源调度,既满足春晚红包互动的需求,同时满足购物交易的需求。理论上可行,但难度极大。
 
这意味着,京东云需要在最短时间内腾挪现有资源,快速完成超千万核资源的筹备,为春晚红包场景临时搭建数字底座,实现这个大规模、高频度资源调度的设想,并快速组织多次压测验证系统及调度可行性。难度不亚于北京三元桥换桥。
 

02 

敢于挑战高难度

京东云的底气是什么?


脱胎于京东全面容器化和大规模业务实践的云舰,在关键时刻扛起了重任。

 

春晚4小时内,7轮红包互动,伴随每次口播,业务场景都要经历从购物场景到红包互动,再到购物场景的切换。从最初的运行常态到春晚场景,再回归到日常业务场景,大小累计16次超大规模资源调频调度。
 

进行如此大规模资源的快速调度,难在哪里?

 


首先,春晚红包互动对京东云来说是第一次,它的业务逻辑是全新的,注定有新的系统要开发上线,这些资源使用情况并没有历史数据参考,资源调度相当于摸着石头过河,并且系统还需要支持春晚的临时调整。

 

其次,在不影响其它业务的情况下,超大规模资源需要在极短的时间内精准分配到需要的位置,留给调度系统的时间是1秒,对系统敏捷性地考验是空前的。

 

 “不增加资源,通过云舰资源调度来同时⽀持春晚互动与购物交易,上千万核资源,4⼩时内切换⼗⼏次应⽤场景,这相当于让云舰控制⼤象⾛钢丝。“京东集团技术委员会主席曹鹏说。


03 

控制千万核资源

云舰表演大象走钢丝


云舰的底气来自于京东在云原生方面的实践。现在,京东云运营着全球最大规模的容器集群,是全球容器化最彻底的企业之一。这也是云舰实现资源超高弹性、快速变阵的关键所在。
 
不新增资源,意味着必须最大程度“压榨”现有资源。云舰的计划是两步走。 第一步是自动化系统分级。基于京东现有业务系统容量规划和算法预测,划分业务优先级,将春晚互动设为S级系统,其它相关度较低的系统根据情况逐一降级,最大程度保障春晚项目的优先级和稳定性。

 

第二步是离在线混合部署。充分利用离在线混部的“潮汐车道”错峰效应,将在线交易、抢红包应用和离线的大数据计算任务混合部署,分时复用,让算力资源得到最大化利用。

 

资源让出来后,还需要一个强大的“吊装”平台,实现资源的极速切换调度,而云舰内嵌的阿基米德智能调度正好扮演着这一角色。

 

阿基米德相当于云舰的发动机,负责整个京东数据中心的资源调度,是撬动数据中心的支点。针对春晚如此大规模的异构基础设施,阿基米德可以秒级完成全部资源的管理与统一调度,根据实际情况进行最优的集群调度以及一次作业调度,运用敏捷调度能力确保4小时内全局资源编排和成本最优、系统运行最稳。


04 

多轮高保真压测

全链路监控消灭每个不可控因素


尽管作战计划已经足够完美,4小时极限保障依然是云舰团队技术长征路上最难征服的高山。

 

围绕着这个极限挑战,反应最快的是压力测试系统。为了春晚,京东云累计进行7轮全链路压测,每次压测都在不断扩容优化,试图去触碰整个系统能达到的极限。

 

压测期间,京东云利用对应用的全链路追踪能力,精确的分析每一次系统调用的消耗情况,包括应用逻辑、数据访问、网络消耗,有针对性的做到极致的优化。通过全链路监控系统,检测每一个硬件及系统、代码可能的隐患。

 

调动了足够的弹药,还需要将资源快速扩容到系统中。就好比数以亿计的观众涌入一个场馆观看比赛,那么就需要快速合理打开通道引流,保证大家有序可控地进入自己的座位观赛。京东云中间件就相当于场馆的各个通道,快速疏通资源,实现架构高弹性,帮助业务快速处理用户请求。

 

一切都是为了除夕那个特殊时刻。

 

除夕当天后台监控数据曲线显示,在前台重重的分流减压下,后台服务器负载仍然瞬间飙升十倍以上。在云舰游刃有余的调度下,红包互动几乎满分通过



05

系统化工程

上万人大规模并行作战


这么短的时间,京东同时还有年货节等多个重点项目并行,3000多人参与春晚技术攻克,加上支持年货节包装人员,研发工程师超万人,需要协同作战,要像一支队伍一样整齐划一投入备战,对研发平台提出了巨大挑战。

 

上万研发人员共同备战,涉及到100多个敏捷团队的需求拆解和协同,需要保障600多个上下游系统的快速交付,300万核机器的快速扩容,是一场超大规模的研发协同作战。支持这场超大规模作战的,就是京东云一站式研发协同平台-行云。



在行云平台支持下,京东研发体系具备了整齐划一、快速作战的能力。以前,一组程序员围绕一个主体建筑组成一支施工队,现在,很多跨体系团队可以协同,一起用“搭积木”的方式来构建服务,极大提升了开发效率,保障春晚项目快速落地。

 云原生的新纪录

产业数字化新征程


春晚一战,正式将云原生推向2.0时代。京东云用云计算的中国速度创造了一个新纪录。这是京东云的分水岭,也是产业数字化的分水岭。

 

“如果说通过大量新增服务器扛住大规模流量是云计算的上半场,那么京东云则通过资源极致调度将超大规模流量保障推向了下半场。这些领先的技术,正在通过京东云加速向产业输出。希望更多产业合作伙伴成为京东模式的受益者。”京东集团副总裁,京东云事业群总裁高礼强说。


- End -



更多了解


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存