配电箱配电柜研发制造商
全国咨询热线:4000-588-448
配电箱
当前位置:首页 > 配电箱 > 弱电箱

腾讯云详解宕机故障:光纤挖断后的150秒

来源:华体会官方网站    发布时间:2024-02-14 20:24:14

产品介绍

  3 月 23 日 16 时左右,腾讯服务器发生了大规模宕机,有网友发微博称旗下《王者荣耀》、《刺激战场》等多款热门游戏和网络服务产品“集体阵亡”。

  除了腾讯系手游出现一些明显的异常问题,比如王者荣耀、奇迹暖暖、掌盟、红警等等登录不了,微信、QQ、QQ 音乐全民 K 歌等服务也受到波及。

  @腾讯游戏在当日 16 时做出了回应,称本次崩溃是因上海当地网络运营商的光纤线路大面积故障,使得腾讯游戏及外部多个网络应用的使用均受一定的影响。目前运营商正在紧急抢修中,公司也正在积极做容灾处理,业务陆续恢复中。

  晚上 19 点 54 分,腾讯回应已基本修复,各业务基本正常运行。类目太多未公布各类游戏补偿奖励。

  据腾讯 2018 年财报显示,全年游戏营收 1284 亿,核算停止营运 4 个小时,粗略损失 5800 多万收入;而这 4 个小时其他经营成本没有减少。

  此事也被当地电视新闻当晚报道,未披露施工方信息,目前还没有相关单位发声明对此事负责。

  3 月初,阿里云出现大规模宕机故障,华北地区很多互联网公司都受波及,一程序员、运维专员都从睡梦中被叫醒跑去办公室干活。

  对此,阿里云官方回应称,宕机原因为:华北 2 地域可用区 C 部分 ECS 服务器等实例出现 IO HANG,后经紧急排查处理后逐步恢复。

  3 月 20 日淘宝、天猫、淘宝直播、闲鱼等 App 崩溃,紧接着 12306 也躺枪。这次腾讯光纤又被挖,AT 两大巨头仅时隔三天。

  对此次事故,有网民评价道:“上次是萧山拔阿里网线,这次是上海拔企鹅的网线!什么互联网+大数据,终究干不过传统工业的一铲子。”

  上周末的这起光纤中断事故引发了一场声势浩大的断网危机。在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

  当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。

  腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部 T 级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。

  “ 这项技术的厉害之处在于,即使遇到运营商的光纤故障,这套调度系统可以依据需要自动绕过故障点,从而***时间恢复公网用户的网络覆盖。”

  正常来说,假如没有这套流量调度系统,只能被动的等待运营商来完成修复,这样的结果是在大多数情况下要更长的时间。

  最终结果是,此次光纤故障,腾讯云从发现到恢复故障,全程只有 2 分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在短短 150 秒之内就迅速恢复了网络,企业运维人员几乎无任何感知。

  能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。

  首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。

  腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供较为可靠的风火水电物理全隔离。

  同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证了用户的网络高可用性和稳定性。

  另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。

  什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用 3 条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在 50 毫秒级自动切换。

  除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统能主动探测光缆具体中断情况,***时间精准定位光缆中断的具置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息。

  一天,某处室的一上网用户打来电话反映上网有问题;刚开始的时候,笔者还认为这是上网用户自己问题导致的,于是随口建议他重新更换一个IP地址,或者重新插拔一下网络线缆试试;没想到,电话还没有挂断,其他上网用户纷纷打来电话,集中反应无法上网故障,这才让笔者感到事态的严重性。既然出现了大批量用户无法上网的故障,笔者赶快到故障现场进行去处理。

  6月底的一场风暴袭击美国弗吉尼亚北部,致使超过350万人失去了电力供应,而亚马逊位于弗吉尼亚的USEast1数据中心也随之瘫痪,由于数据中心停止运行,亚马逊的云服务AmazonWebServices也因此一度中断服务。此次亚马逊云服务中断事件再次引发了对于云服务的可靠性的疑虑,并且一家网站还因此而放弃了亚马逊的云服务。

上一篇:epic无法衔接网络怎么办 epic无法衔接网络最新处理办法

下一篇:杞县街头的美景