《“十四五”国家信息化规划》中建设数字中国的规划对我国的数字基础设施体系和数字政府建设水平都提出了更高的要求。在发展建设数字基础设施体系的过程中,政府需要采购软件和硬件系统。而《政府采购法》对单一来源采购的严格限制,就要求政府建设的IT系统要由来自于多个供应商提供的子系统组成。

多供应商IT系统

随着社会经济的发展和计算机技术的进步,社会数字化的进程也在逐步推进,更多的数字化场景被引入政府的工作和社会的生活中,随之用户数量也在逐步增加,这也意味着IT系统将承受更多的流量峰值场景。

IT系统要实现更复杂的功能、服务更多的用户、承载更大的流量,就意味着要引入更多的组件,这些组件来自于不同的供应商,涉及整个系统的诸多不同环节。更复杂的系统必然会引入更多的潜在故障,也必然存在更高的稳定性风险,这就对多供应商IT系统的稳定性保障提出了更高的要求。

对于复杂的多供应商分布式IT系统,简单地在测试环境中进行压力测试并不足以检验其潜在的风险。某大型股份制银行的红包秒杀活动系统即便是提前在测试环境做了数轮压测,在面对真正的流量时依然暴露出容量和IDC资源不够的问题。相似地,华南某知名股份制银行虽然积极地对活动系统在测试环境中进行压测,但还是连续三年都发生了不同的问题。

积极防御

分布式系统组成复杂、组件众多、发布频次多,这些特点意味着分布式系统中存在着大量的不稳定因素。如果在这些不稳定因素暴露问题之后再应对,就会陷入疲于救火的被动局面。因此,要保障分布式系统的稳定,就要采取积极防御的战略思想,对实际生产环境产生的流量进行模拟和预演,采用全链路压测和链路监控的技术发现和定位潜在的链路性能问题。

案例:浙大多供应商IT系统

2020年2月底和3月初是疫情管控的关键阶段,教育部要求全国高校实行远程网络授课的教学形式。面对特殊时期突发的流量高峰,许多网课平台在开课首日纷纷出现故障,给全国多地高校的教学工作造成了影响。而浙江大学7万师生进行网络教学所使用的浙大钉钉工作台、学在浙大等平台经受住了陡增的流量压力的考验,保障了浙江大学的教学顺利开展。这要归功于浙江大学信息技术中心引入的生产环境全链路压测和链路监控解决方案。

浙江大学网络授课所使用的IT系统是一个多供应商的系统。多个单位和供应商参与了浙江大学网络授课相关的IT系统的供应和支持工作。对于这样复杂的系统,采用简单的压力测试是不足以发现潜在的问题的。需要采取模拟真实流量情况的生产环境全链路压测方案,就像模拟考试一样检验系统的流量承受能力。

全链路压测与传统的压力测试仅支持单节点压测不同,支持将节点组合成场景进行压测,更真实地反映场景中的问题。全链路压测方案要模拟真实条件下的流量压力,要遵循三大原则,即一样的环境、一样的场景、一样的量级,以对真实的用户行为产生的流量进行模拟。浙大引入的全链路压测平台Takin采用的是基于JavaAgent来实现压测数据识别和转发的技术,它可以对压测产生的数据和正式流量产生的数据进行标识和隔离,将压测产生的数据写入影子缓存和影子数据库中。在JVM层进行数据识别及转发、影子库表隔离的技术方案能保障它既不需要侵入业务系统的内部改造代码,又可以避免压测流量产生的数据对生产造成污染。同时,该压测平台通过白名单管理、挡板等功能可以有效阻止压测流量流向外部第三方系统,进一步防止压测数据的泄漏。

通过实施生产全链路压测方案,浙江大学网络授课平台的多种性能问题被提前发现。根据压测报告,相关的企业和单位对系统中的设计进行了调整,包括对数据库链接的调整、对权限检查代码的优化、对获取身份逻辑的调整、对资讯服务的调整等。

经过一系列的工作,排除了潜在的性能风险,保障了浙江大学网络授课工作的顺利进行。2020年2月24日当天,学在浙大平台当日总访问量突破100万次,在线最高访问量11万余次,未出现性能故障。

1月21日高峰流量场景下的系统稳定性保障实践沙龙上数列科技的杨德华老师针对以上问题做了讲解,以下为ppt实录:

Takin开源地址:https://github.com/shulieTech/Takin

参考资料:

《现代教育技术》,2021年9期--全链路压测保障高校信息系统的探索与思考 ——以浙江大学为例

多供应商IT系统稳定性保障相关推荐

  1. 中国信通院正式发布“系统稳定性保障计划”

    为推动分布式系统稳定性能力建设,中国信息通信研究院(以下简称"中国信通院")倡议发起"系统稳定性保障计划"(以下简称"稳保计划").2022 ...

  2. 聚焦IT系统稳定性保障服务 PerfMa笨马网络完成亿元级B轮融资

    近日,国内专注于IT系统稳定性保障的企业服务公司--杭州笨马网络技术有限公司(下称"PerfMa笨马网络")宣布完成由博华资本领投,老股东高瓴创投跟投的亿元级B轮融资.这是该公司继 ...

  3. 大促场景系统稳定性保障实践经验分享

    简介:11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍. 每到双11 ...

  4. 大促场景系统稳定性保障实践经验总结

    简介:11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍. 每到双11 ...

  5. 3+1保障:高可用系统稳定性是如何炼成的?

    简介: 影响系统稳定性的架构设计有哪些?一个可持续保障的研发运维流程机制是怎样的?如何培养团队技术人员的意识和能力?本文作者以团队技术负责人的视角,从三大技术要素和一个业务要素,分享在稳定性建设上的实 ...

  6. 蚂蚁集团TRaaS技术风险防控平台入选中国信通院《信息系统稳定性保障能力建设指南(1.0)》最佳实践案例

    近日,中国信息通信研究院分布式系统稳定性实验室正式发布了<信息系统稳定性保障能力建设指南>(以下简称<指南>).蚂蚁集团应邀深度参与了<指南>的研讨编制,该指南收录 ...

  7. 信通院牵头数列科技参与主编的《信息系统稳定性保障能力建设指南》正式发布

    中国信息通信研究院分布式系统稳定性实验室正式发布了<信息系统稳定性保障能力建设指南>(下称<指南>).数列科技应邀作为主要编写单位,深度参与了<指南>的编写制定:同 ...

  8. 系统稳定性设计原则:简单、冗余、标准化、健壮

    作者介绍 淇公,蚂蚁金服技术专家.热爱java和一些函数式语言,长期关注系统稳定性领域 因为base在分公司,需要经常去总部出差,所以搭乘飞机成了家常便饭,很多时候坐在飞机上会不由的感叹,设计制造这样 ...

  9. 阿里云发布性能测试 PTS 2.0:低成本、高效率、多场景压测,业务稳定性保障利器

    618 来临,高峰时段的品牌直播间要同时容纳几百万人线上发弹幕.抢货.抢红包,如此大的用户体量.高频交互以及脉冲流量场景,对于后端服务器来说都是不小的挑战. 为了确保线上稳定性以及优质的交互体验,通过 ...

最新文章

  1. 安装SAP Business One对软硬件有哪些要求
  2. FaceDetector(人脸识别)
  3. 服务器返回的数据把标签转义为其它字符
  4. Silverlight3 加载其他xap
  5. BATJ等大厂最全经典面试题分享
  6. 使用sql语句查询access数据库
  7. 【20保研】四川大学视觉合成图形图像技术国防重点学科实验室2019年全国优秀大学生暑期夏令营招生简章...
  8. 国产3G之父--------李世鹤
  9. 群同态和群同构的区别_顾沛《抽象代数》1.4群的同态与同构习题解答
  10. U盘突然提示格式化怎么办?里面的数据怎么办?
  11. PCB板材的基础知识
  12. win10如何安装.NET3.5
  13. Debian 下安装中文语言包和中文输入法
  14. slite 存储图片
  15. iOS结构化并发---喵神出品。
  16. 图片按指定比例缩放并压缩至指定大小,解决保存图片文件体积过大bug。
  17. Linux:未定义引用`CPU_ZERO‘
  18. 2022暑期项目实训(一)
  19. 硬盘突然变raw格式_磁盘分区变成RAW格式怎么办?手把手教你解决方法
  20. vmware虚拟机PE启动

热门文章

  1. Amaze UI框架搭建
  2. 【初等数论】同余方程、与二次剩余互反律
  3. ST 和 Macom 制作射频 GaN-on-Si 原型
  4. MindNode 5.0.1 pro for mac 破解版
  5. 【树莓派开发】02-基于OpenCV的车牌识别处理(LPR)
  6. python编程基本语法元素_第一章:Python基本语法元素
  7. 示教器重定位下机器人动作_ABB机器人基础应用练习题
  8. intel(R) Dual BandWireless-Ac 7265 工作异常(代码31) 以及Windows仍在设置此设备的类配置(代码56)
  9. 计算机浏览器存储技术cookie、sessionStorage、localStorage
  10. 如何修改visual-studio的sln文件和project工程名