困在宕机里的“大厂”_顶尖财经网
  您的位置:首页 >> 财经频道 >> 投资互联网 >> 文章正文

困在宕机里的“大厂”

加入日期:2024-10-13 21:29:01

半个月,从阿里云到滴滴,两家头部互联网企业相继发生App崩溃事件。

11月27日-28日有关“滴滴崩了”的多个话题登上热搜,“8公里订单收费1540元”“临近月底全勤直接没了”。还有用户吐糟,“打不到滴滴了吧”……其他平台的网约车师傅偷着乐。滴滴给出解释,“费用异常支付、多扣费等问题会在事故处理结束后统一结算补偿”。

11月28日上午仍有不少滴滴用户晒出无法下单的截图,此次事故原因暂无定论,但让业内人士和用户对互联网应用稳定性、安全性的感知大大增强。为什么App会崩溃?一般多久能恢复?发生此类故障的补偿方案有无统一标准?

恢复了?

“如果滴滴的服务器宕掉了,可能你出门就叫不到车了……互联网是一个整体,我们每个人都连在网上,一旦互联网遭到攻击,老百姓(603883)的生活肯定会受到巨大影响。”不久前,360创始人周鸿祎举的例子真实发生了。

“刚在寒风中瑟瑟发抖”,11月27日23:16,林萧(化名)多次尝试在滴滴下单均未成功,卸载后重新下载继续叫车,页面仍显示“发单失败”,无奈的她在朋友圈留下上述文字。

晓萌(化名)幸运得多,滴滴App崩溃时她已到家,看到新闻推送才知道滴滴App无法使用了,社交平台陆续出现多个相关热搜,“你想想那时候从二环到大兴的地铁已经停运了,打不到车的话咋办?”她向北京商报记者感慨。

徐师傅(11月27日)晚上十点半就发现滴滴App崩了,没法拉活的他提前回家,“(11月28日)早上拉了几单,又没法弄了”,原本一天8-10小时的接单计划完成不了了,休息到11月28日下午5点,他还没有出车,也弄不清楚为什么这次崩了这么久。

“系统崩溃,在抢修”,11月27日晚滴滴内部人士告诉北京商报记者。滴滴官网在23:19发布的公告中向用户致歉:“由于系统故障,今天(11月27日)晚间滴滴App服务出现异常,经技术同学紧急修复,目前正陆续恢复中。”23:30左右,林萧终于坐上回家的滴滴网约车。

滴滴技术团队则整夜未休,11月28日7:31滴滴再次发布致歉公告,“滴滴网约车等服务已恢复,用户可下载滴滴App使用打车服务。骑车等服务还在陆续修复中,所有可开锁或未关锁的青桔车辆均可免费骑行”。

公告下的用户评论里,穿插着暂不能正常使用滴滴App或使用过程中出现问题的截图,按热度排在第一的评论附着7:33的截图“七公里路程,扣了我270元”。

真真假假

还有更夸张的网络截图,有网友称“某司机收入超690亿元”,并晒出一张账户余额截图,经滴滴核查,证实该图是PS伪造的谣言。

另有报道称部分司机开始提现,司机称怕系统出问题自己账号出问题被注销。

针对上述情况,滴滴相关人士向北京商报记者回应:“经核查,目前司机账号及提现功能一切正常,广大司机师傅们无需担心。滴滴平台是每周二提现,服务等级高的司机可每天提现。据多个司机群聊天显示,不少滴滴司机都表示自己提现成功了。恳请大家不造谣、不传谣。另外,司机师傅们关心受影响的相关奖励、费用异常、口碑值(包括出行分)等,也会尽快陆续恢复和补发。”

一般平台遇到App崩溃事故会拿出怎样的补偿方式?“如果涉及交易类的平台,等故障处理完,再给用户发放一些优惠。”一位互联网企业公关从业者向北京商报记者表示。

不管是这次滴滴崩溃还是不久前阿里系App集体宕机,文渊智库创始人王超都认为,“可能存在管理漏洞,公司的冗余不够”。换个危机处理的角度,“11月27日晚开始出现问题,到11月28日仍有零星故障,从大厂的应急管理、安全人才配备方面看,是要反思的”。

2023年三季度财报显示,滴滴中国出行业务总交易额725亿元,日均单量3130万单。按故障发生12小时算的话,这次事件可能导致滴滴损失千万级订单、超4亿元交易额。

怎么补偿

“滴滴再次就服务异常致歉”“滴滴系统崩溃其他平台爆单”等新一波热搜也层出不穷。

有用户反馈,自己因为滴滴App崩溃第一次体验高德、T3打车。北京商报记者11月28日打开高德地图打车页面发现,到达地址栏侧面“享20元优惠”的图标格外亮眼。

提到11月28日单量是否暴增,多个网约车平台企业相关人士均回复“哈哈哈”,其中一位人士告诉北京商报记者“肯定的啊,确实会带来分流”,不过该人士表示,不会因为此次事件上线专门的优惠活动,“就算崩了12小时,做活动也没有意义”。

根据苹果应用商店信息,截至北京商报记者发稿,高德地图在苹果免费应用总榜排名第8、滴滴排名第18、T3出行排在第307位、阳光出行排名第312。曹操出行、飞嘀打车、首汽约车并未进入总榜单。

“我得给出行多几个备选。”看到因为滴滴迟到、订单金额错误的用户吐槽后,晓萌暗暗比较了几个网约车平台价格。

滴滴也搜集整理了5个来自用户和司机的问题和意见。以优惠券为例,“用户账户中的优惠券可正常使用。如果因故障原因优惠券未生效,用户原价支付后,故障恢复后系统将自动抵扣优惠券并原路退款(优惠券同等金额),请耐心等待;因系统故障导致的费用支付异常、多扣费等问题,请大家不用担心,耐心等待,会在事故处理结束后统一结算补偿”。

针对故障期间骑行未能关锁的用户,滴滴承诺“已扣除费用会原路退回”。对于司机师傅的担忧,滴滴表示,“周一晚间开始,因系统原因导致已领取/购买的相关奖励发放延迟,平台会正常计算,陆续补款,口碑值出行分也会正常计算,陆续恢复展示,请耐心等待。个别司机师傅反馈接到乘客后无法开始行程和计费,请司机师傅们正常接送乘客,安全送达目的地,平台后续会根据行程计算和补发车费”。

大厂之殇

本月遭遇宕机事件的还有淘宝、闲鱼、钉钉、阿里云盘等多个阿里系App。

据报道称,一个阿里云客户服务支持相关的钉钉官方群里,相关管理员发布公告称,2023年11月12日17:44起,阿里云产品控制台访问及API(应用程序编程接口)调用出现使用异常,阿里云工程师正在紧急介入排查。阿里方面解释,当日19:20左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等App已全面恢复。

这只是用户可感知的互联网故障,业内人士对互联网应用崩溃事件已见怪不怪,“App经常有崩的,只不过这次时间长了点”。还有用户不容易感知的故障,阿里云香港Region可用区C服务中断事件是个典型。

2022年12月18日9:23,香港Region可用区C部分ECS服务器开始出现停机,触发同可用区内宕机迁移。随着温度继续升高,受影响的服务器停机数量持续增加,客户业务开始受到影响,影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。至当晚21:30左右绝大部分数据库实例恢复正常。

这次事故之后,时任阿里CEO的张勇亲自接管阿里云,并向阿里云员工发布了一封措辞严厉的内部信,强调“稳定和安全是对客户最基本的责任”。

这说明“阿里云当前稳定性还存在问题,可能是之前组件问题没有解决,又或者是当前阿里云中通用组件数量太多,很难从海量代码中找到问题所在,这是很多互联网大企业发展到一定程度常有的问题”。谈到上次故障以及不久前的阿里系App宕机事件,浙江大学国际联合商学院数字经济与金融创新研究中心联席主任盘和林向北京商报记者表示。

什么原因

至于滴滴App本次崩溃的原因,滴滴相关人士暂未回应。

一位资深技术人员则向北京商报记者解释了互联网应用崩溃的逻辑,“现在的IT系统分三层:上层应用软件、中间云平台、下层IT硬件。底层硬件的问题,是可以通过冗余和快速更换解决的。云平台出现问题的话,影响的就不会是一个App,而是多个。滴滴出现问题时,场景能打开,但不能正常使用,应该是软件应用的问题,比如研发做了一次代码提交后,自动发布到生产系统上,因为之前的一些配置注意点没有关注到,造成了连锁反应,软件系统把硬件资源耗尽,或者提交的部分代码造成了其他相关系统运行出现预案外异常”。

针对滴滴App崩溃,360安全专家给北京商报记者罗列了6种可能的原因:系统更新升级过程中出现了编程、逻辑错误或未处理的异常情况;服务器故障;第三方服务故障;DDOS攻击;其他网络攻击;勒索病毒。该专家补充,服务器故障、第三方服务故障、DDOS攻击的可能性不大。

“一般情况下,互联网厂商发布更新都会在晚上,与滴滴发生故障的时间也能对应,当然业务升级维护是放量更新,但这次滴滴全平台、全业务都故障了,说明肯定是它‘家里’的问题。”该人士详细解释,“如果是因为勒索病毒,可能是网络攻击黑客对滴滴的底层数据、业务代码进行了加密。据披露现象,用户的账单和打车数据都算错了,存在一定可能是滴滴为了避免更大损失主动暂停了业务。”

北京商报记者 魏蔚