腾讯云称「人为/运维」违规操作,导致「数据完全丢失」

华盟原创文章投稿奖励计划

腾讯今日发布「数据丢失事件」的完整过程,如下:

近日,腾讯云客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致该客户的文件系统元数据损坏,我们对客户业务所受影响表示诚挚歉意。同时,我们也对此次故障过程进行了深入的技术复盘。

复盘发现,该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范的操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。

痛定思痛,腾讯云希望在尽力帮助客户解决本次问题的同时,也通过相关机制的优化避免类似情况的再度发生。

故障过程复盘

当天上午11:57,我们的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。

 

故障原因复盘

本次事故起源自因磁盘静默错误导致的单副本数据错误,再由于数据迁移过程中的不规范操作,导致异常数据扩散至三副本,进而导致客户数据完整性受损。

 

数据搬迁过程中的违规操作主要如下两点:

第一是正常数据搬迁流程默认开启数据校验,开启之后可以有效发现并规避源端数据异常,保障搬迁数据正确性,但是运维人员为了加速完成搬迁任务,违规关闭了数据校验;

第二是正常数据搬迁完成之后,源仓库数据应保留24小时,用于搬迁异常情况下的数据恢复,但是运维人员为了尽快降低仓库使用率,违规对源仓库进行了数据回收。

因这些错误操作的连续影响,导致该客户数据完整性受损,给客户的正常业务运行造成影响,腾讯云对此再次表示最诚恳的歉意。

改进措施:

经过技术复盘,腾讯云技术团队深入到每个环节,通过责任到人与流程闭环的双管齐下,相应作出如下的加强和改进措施:

首先,我们将全面审视所有的数据流程,涉及数据安全的流程自动化闭环,进一步提升我们常规运维自动化和流程化,降低人工干预。同时把全流程的数据安全校验作为系统的常开功能,不允许被关闭。

其次,针对物理硬盘静默数据错误,在当前用户访问路径数据校验自愈的基础上,我们优化现有巡检机制,通过优先巡检主副本数据块、跳过近期用户访问过的正确数据块等方法,加速发现该类错误,进行数据修复。

进一步建议:

腾讯云自2016年3月以来一直在提供免费的快照功能,可以对重要数据进行定期备份。同时出于对客户数据隐私性和安全性的考虑,客户可以自由选择开启或者不开启这一免费功能。腾讯云在这里也呼吁客户开启这一功能,进一步提升自身数据的安全性。

未来,本着对客户数据最大的敬畏,腾讯云将继续探索更科学的机制,避免类似事件再次发生。

腾讯云

2018年08月07日

以下为昨日腾讯云官方公告说法,供大家对比和参考:

近日,腾讯云用户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘,因受所在物理硬盘固件版本bug导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。

腾讯云监控到异常后,第一时间向用户告知故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。遗憾的是,虽经多方努力,最终仍有部分数据完整性校验失败。经过分析,该硬盘静默错误是在极小概率下被触发。我们随即对固件版本有bug的硬盘全部进行下线处理,确保相关隐患全部排除。

随后,腾讯云向“前沿数控”接口人伍先生说明情况并表达歉意,同时安排专人积极与接口人沟通,也在第一时间制定如下“赔偿+补偿”方案,以期将用户损失降最低。

赔偿部分:“前沿数控”在平台上(自2017年12月份开户至今)产生的实际消耗共计3569元,依据腾讯云相关服务协议、规则和行业惯例,腾讯云将按照赔偿条款中的上限以现金形式全额返还这笔费用;

补偿部分:本着帮助用户迅速恢复业务的目的,腾讯云承诺为“前沿数控”提供132900元现金或云资源的额外补偿。

无论如何,我们都希望可以尽快帮助用户恢复业务,将损失降低最低,因此提出了“赔偿+补偿”总金额达到136469元的解决方案,这其实也是其在腾讯云平台中用云金额的37倍。

不过,“前沿数控”基于自身评估就此次故障对腾讯云提出了高达11016000元的索赔要求。毫无疑问,这远远高于我们能够提供的方案。这也是此次双方目前未能达成一致的主要原因之一。

从平台角度,腾讯云极力提供持久、稳定、安全的服务。但基于云计算特性,为了杜绝概率极低的意外事故发生,我们在做好云平台数据备份保障外,也按照行业惯例在相关协议中提醒用户对自身重要数据,尤其是客户信息、程序代码、网页素材等进行数据本地备份。遗憾的是,在这次故障中,“前沿数控”也表示目前没有任何本地备份数据可以用来恢复业务。

在双方的沟通中,“前沿数控”还提出希望以“获得腾讯投资”、“腾讯官方引流”等方式得到补偿。在当前情况下,我们的确很难满足这样的要求。

作为腾讯的战略性业务,云计算凝结着我们开放技术能力的初心,也寄托着我们连接智能未来的愿景。腾讯云极度珍视自身品牌,重视用户的合理诉求,并寻求帮助用户尤其是中小规模的用户获得成长。

我们将继续与用户“前沿数控”保持建设性沟通,为最终帮助其进行业务恢复进行有诚意的努力。当然,如果最终用户倾向于寻求以法律诉讼方式解决争议,我们也将积极配合用户在法律框架下得到公平公正的解决方案。同时,我们也将适时与媒体沟通进一步进展。

最后,我们对此次故障给用户业务带来影响再次表示最诚恳的歉意。后续,我们针对云盘产品会额外实行定期强灾备措施,进一步保障用户数据的可靠性。让每一个用户放心上云,安心用云。

腾讯云

2018年8月6日


文章出处:云头条

始发于微信公众号: 黑白之道

本文来源黑白之道,经授权后由fox发布,观点不代表华盟网的立场,转载请联系原作者。

发表评论