整理 | 朱珂欣

出品 | CSDN程序人生(ID:coder_life)

对于后端程序员来说,“高并发”并非新鲜的话题,经历过一次服务器宕机,职业生涯才“完整”。

但如果事故超过 12 小时,或许会直接造成职业生涯“宕机”!

3 月 29 日,#唯品会崩了#的话题登上热搜。

昨天,事件后续来了。

唯品会发布了关于 329 机房宕机故障处理公告:此次南沙机房重大故障,影响客户达 800 多万,判定为 P0 级故障,对负责人予以免职处理。

“崩”上热搜:损失超亿元,持续12小时

说起来,一切都还要追溯到 3 月末。

3 月 29 日,有多名网友反馈唯品会“崩了”,用验证码登录时显示网络错误,登不上去。

随后,唯品会官方微博表示:因系统短时故障,导致主站“加购”等功能或出现异常。

图源:微博截图

时隔 2 个多月,唯品会官方对故障事件做出了回应。

据悉,此次南沙机房重大故障的主要原因是南沙 IDC 冷冻系统故障导致机房设备温度快速升高宕机,造成线上商城停止服务。

故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万,公司将此次故障判定为 P0 级故障。( P0 属于最高级别事故,比如崩溃、页面无法访问、主流程不通、主功能未实现,或在影响面上影响很大。)

与此同时,唯品会认为此次事故暴露出容灾应急预案和风险防范措施不到位,并决定对此次事件严肃处理。对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。

其实,类似 329 号机房宕机的事故并非首次发生。

但毋庸置疑的是,唯品会作为拥有大量用户的电商平台,服务器和网络设备的正常运行至关重要。任何一次宕机事件,都会导致平台无法提供正常的服务,因此,每一次故障背后的原因和影响都值得大家思考,并引以为戒。

腾讯旗下社交软件受到“牵连”

同样值得注意的是,受到此次机房事故影响的还有微信、QQ 等腾讯旗下社交软件,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和QQ 邮箱在内的多个功能无法使用。

图源:微博截图

对此,腾讯微信团队在 3 月 29 日上午发布信息称:“今天凌晨部分用户使用微信、微信支付相关功能出现异常,经工程师抢修,系统正在逐步恢复,很抱歉给大家带来不便。”

与此同时,腾讯内部对此事件的评估为“一级事故”,并对几名高管进行了不同程度的批评、降级和和免职处罚处理。

高并发引起的服务器宕机,频繁发生

随着直播电商平台的发展,用户数的增多导致高并发的概率增大。

近年来,各大平台、热门 APP 的服务器,都似乎难逃卡顿、崩溃乃至宕机的宿命。

2017 年双十一凌晨,在数百万消费者的激情涌入天猫之际,出现了大量手机淘宝、手机天猫的用户无法付款和修改地址,订单、足迹、收藏夹、红包卡券等异常问题,直到 12 点 30 分,天猫的服务器才恢复正常。

2021 年 10 月 20 日晚上,就在淘宝电商大促“双十一”刚开始之际,不少用户发现淘宝出现了客服聊天窗口消息发不出、不能点确认收货等诸多问题。随后,#淘宝崩了# 话题迅速登上微博热搜榜,并占据榜首第一。

如今,即使互联网相关技术已经迭代多轮,却仍然存在许多大规模以及时间长的宕机事件发生。

针对这类问题,在 CSDN 之前报道的《“一天宕机三次”,为什么高并发这么难?》一文中提到,可以从两个方面进行解析:

  • 一方面故障是不可避免的,有人为的故障(人是容易出错的——Human Error)和非人为的故障(机器 Failure)。这些是无计划的停机,还有有计划的停机,如发布新系统、升级维护、更新硬件等。这也是为什么行业中即使部分公司做得再好也只能说自己能做到多少个 9,而非 100% 的主要原因。

    当前,我们所能努力的就是尽可能地做到多少个 9,这其中需要很强的技术实力支撑。

级别

可用性级别

通俗说法

年度停机时间

配套措施

基本可用性

99%

2 个 9

3d-15h-39m-29s

服务在一个数据中心里有冗余,简单基础的自动化运维

高可用性

99.9%

3 个 9

8h-45m-56s

大量的自动化故障工具,以及各种控制调度系统等基础设施要做好

具有故障自动恢复

99.99%

4 个 9

52m-35s

本地多机房(像 AWS 一样每个地方都有三个可用区)

极高可用性

99.999%

5 个 9

5m-15s

远程多机房,异地多活

  • 另一方面,从分布式架构设计来说,世界上的软件都是有故障的,当故障发生时,大家首先希望故障不要蔓延开,能够控制得住,其次还希望故障的时间越短越好,不要太长。

然而,架构系统也有很多的依赖,如基础设施 DNS、CDN、运营商、机房等等,想要实现稳定,需要大家一起实现。

网友:请给程序员加工资!

的确,服务器一旦宕机,消费者就无法对网站进行访问,客户下不了单,直接就会对公司经济利润造成很大的影响,甚至还可能影响到网站在搜索引擎上的收录和排名。

因此,每一年各个平台的促销拉开序幕之际,开发和运维人员都面临巨大的挑战。

伴随着#唯品会崩了相关负责人被免职#等话题再次引发大家关注,许多人纷纷留言表示:

  • “希望以后大公司会有一套很完善的避免和处理宕机事故的流程”;

  • “宕机是各家常有现象,这么久的处理时间就确实邋遢了”;

  • “还是要加强基础设施建设和技术管理”;

  • “关键时候千万不能崩,这个影响到的客户数量”。

与此同时,也有不少网友借此表达了对程序员职业的关怀:

  • “服务器宕机这个事情挺正常的,辛苦开发人员们维护了”;

  • “我曾经是程序员,知道维护的不易,请给程序员们加工资”。

那么,你经历过服务器宕机吗?可以在评论区留言和讨论。

参考链接:

https://news.mydrivers.com/1/914/914671.htm

https://www.163.com/dy/article/I6HMABGN0553V12F.html

https://k.sina.com.cn/article_3172142827_bd130eeb0190120sh.html

推荐阅读:

▶ChatGPT迎华人产品老大,斯坦福毕业,扎克伯克最喜欢的产品经理!

▶GitHub 前 CTO 再创业,起步便获 2600 万美元投资,唯一竞争对手只有 OpenAI!

▶九天应用赛题剧透|点我了解第二届“移动云杯”大赛

宕机超 12 小时,损失过亿,唯品会基础平台负责人被“祭天”相关推荐

  1. Facebook史上最严重宕机,全网宕机近七小时,到底是怎么回事?

    Facebook史上最严重宕机,全网宕机近七小时,高管赴推特道歉.近7个小时时间,全都挂了Facebook全网宕机,连内网都废了.Twitter成为了最大赢家.对一家互联网巨头来说,这样的状况实在太尴 ...

  2. Facebook全球宕机近7小时,传有15亿用户数据泄漏,市值蒸发千亿

    Facebook再次遭遇重大打击.10月5日消息,美国当地时间4日清晨,有用户反映,再也无法刷新Facebook诸多社交网站,涉及到全球数十个国家和地区的用户.直到宕机近7个小时,美国当地时间下午三点 ...

  3. 微盟宕机的 36 小时,300 万商家停摆 ,竟是远程办公的锅?

    作者:雷锋网 来源:https://tech.ifeng.com/c/7uM9cJEO5ox&scene=7#rd 删库一时爽,警局等你坐. 开年遭删库,商家有点惨 2 月 25 日消息,24 ...

  4. 又一起删库跑路事件!宕机36小时、损失近10亿,腾讯云还差点背锅...

    人在家中坐,删库天上来. 靠给微信公众账号提供营销推广服务发家,做到上市的微盟怎么也没想到,2020年给自己上的第一课是公司核心运维人员的"删库跑路". 微盟是一家提供零售.广告等 ...

  5. 云宕机事件盘点:IBM云服务全球宕机四小时,安全稳定成空话?

    随着越来越多的企业及应用将它们的数据搬运至云端,即便只是云服务上的一个小小宕机事件,都可能引发一场大灾难. 6月10日,IBM云计算发生了长达四个小时的中断故障,导致多项托管于平台上的互联网服务中断, ...

  6. 2018消费者投诉举报咨询量超千万件 挽回损失31亿

    远离消费陷阱,提升消费体验,黑猫投诉平台全天候服务,您的每一条投诉,都在改变这个世界.[投诉,就上黑猫!] 原标题:2018年消费者投诉举报咨询量超过千万件 行政监管为消费者挽回经济损失超过30亿元 ...

  7. 许多知名公司宕机现象频繁发生

    黑色八月,细数宕机的那些事 摘要:今年8月,许多知名公司宕机现象频繁发生.Google宕机5分钟损失55万美元,Amazon不到100分钟损失近700万美元.面对如此巨大的损失,对于众多的企业机构来说 ...

  8. 黑色八月 宕机事件盘点

    黑色八月 宕机事件盘点 摘要:宕机的事件好像8月频频发生,国外苹果iclould.谷歌.微软.Amazon等巨头先后宕机,国内百度.微信也发生故障.各大网络应用和服务都频繁地出现问题,给企业带来了重大 ...

  9. 经常宕机的RAC系统 -排查案例

     第4章 经常宕机的RAC系统 4.1  3月2日 上海的紧急故障 今天晚上上海的雷总突然打电话过来,说有件事需要我们帮下忙.我问他是什么事,他说是一个客户的系统宕机的问题,最好能够尽快过来一下. ...

最新文章

  1. mysql 命令源码_MySQL常用命令
  2. 自学机器学习、深度学习、人工智能的学习资源集合
  3. 物联网智能硬件设备常见攻击方法
  4. 可编程ic卡 通用吗_8255可编程IC
  5. 信息学奥赛一本通 1004:字符三角形 | OpenJudge NOI 1.1 08
  6. swift - scrollview 判断左右移动, 以及上下两个view联动
  7. NPM酷库050:xmlbuilder,创建XML文件
  8. 2016最新版App Store应用审核指南完整版
  9. WPF 设置TextBox的输入法
  10. 适合于图像处理方向的SCI期刊杂志列表
  11. Android仿QQ空间
  12. Windows命令提示符窗口操作命令
  13. 最详细bugku杂项小白解法(1~24已完结)
  14. 重生之我又是蝌蚪(召唤神龙)源码和无敌版
  15. FaceX-Zoo: A PyTocrh Toolbox for Face Recognition
  16. 石狮子吃了四十四个涩柿子
  17. 区块链应用 | 直击“区块链”:概念火爆背后 是技术还是利益在驱动?
  18. C语言学习之——课程大纲
  19. 定位导航——旋转矩阵,IMU,左右乘
  20. 正电子发射计算机断层扫描质控检测,正电子发射计算机断层扫描(PET)

热门文章

  1. 对于手游防代充策略的一些思考
  2. 计算机信息系统应急管理办法,信息系统安全措施和应急安全保障措施
  3. 从回测到实盘系列(2):如何让回测更贴近实盘结果
  4. UITableView的简单介绍和功能
  5. Numpy 高级操作大全
  6. 【数据库2】生成txt/xml文件,ftp,oracle安装/表操作/虚表/日期/序列/索引/视图/链路/同义词/高可用性,mysql/文件入库/清理/表结构设计/交换/收集
  7. 本题要求实现一个函数,将非负整数n转换为二进制后输出。
  8. 大数据分析对新零售的作用是什么?
  9. android StaticLayout 完美契合TextView
  10. 决策统计---指标六要素