畸形数据包导致美国遭遇 37 小时的全国性故障

华盟原创文章投稿奖励计划

美国联邦通信委员会(FCC)就2018年12月的故障批评了CenturyLink,但未给予惩罚。

畸形数据包导致美国遭遇 37 小时的全国性故障
FCC的一份新报告称,CenturyLink在2018年12月那次长达37小时的全国性故障干扰了数百万美国人的911服务,阻碍了至少886人次的911电话。
早在去年12月,FCC主席Ajit Pai称CenturyLink光纤网络的故障“完全不可接受”,誓言会彻查。FCC今天公布了调查结果,描述了CenturyLink如何未遵守本可以阻止故障的最佳实践。但Pai仍未宣布对CenturyLink给予任何惩罚。
该报告称,那次故障的波及面很广,影响了与CenturyLink连接的其他众多网络运营商,包括康卡斯特和Verizon。报告摘要称:

故障影响了依赖CenturyLink传输服务的通信服务提供商、企业客户和消费者,该传输服务将来自不同提供商的流量路由传输到全国各地。故障导致电话和宽带服务(包括911电话呼叫)大范围中断。39个州多达2200万客户受影响,其中包括29个州的约1700万客户,他们无法可靠地访问911。至少886人次的911电话未接通。

FCC称,长达37小时的故障始于12月27日,“起因是设备故障,网络配置错误加剧了该故障。”FCC称,CenturyLink估计其网络上超过1210万个电话呼叫“因此被阻或降级”。
此外,CenturyLink约110万的DSL客户在这37小时内无法使用服务。FCC称,另外260万DSL客户“可能遭遇服务降级”。
Pai今天又称故障“完全不可接受”,“通信提供商记取从这次事件中获得的教训很重要。”
但FCC没有宣布惩罚,甚至没有下令要求CenturyLink采取具体措施以升级网络。相反,FCC称它“将与利益有关方进行外联以宣传最佳实践,并与其他主要传输提供商联络,讨论网络实践”,并“向小型提供商提供援助,帮助确保我们国家的通信网络保持稳健、可靠、有弹性。”FCC称会发布一份公告,“提醒公司采取行业认可的最佳实践”。
虽然FCC在废除网络中立规则时解除了宽带管制,不过仍监管CenturyLink等运营商的固话网络,对普通运营商拥有Title II监管权。
FCC专员Jessica Rosenworcel称,报告应早点完成;报告应附有“避免重蹈覆辙的行动计划。这个大问题没有这样的行动计划。”
根本原因
FCC的报告称,问题始于12月27日上午,当时“科罗拉多州丹佛市节点的一个交换模块自发地生成了四个畸形管理数据包”。
CenturyLink和提供该节点的供应商Infinera告诉FCC,“他们不知道怎么或为何生成了畸形数据包。”
FCC报告解释,畸形数据库“通常因表明数据包无效的特点而立即被丢弃”,但此事件中没有被立即丢弃:

在此事件中,畸形数据包包括通常生成的有效网络管理数据包的片段。每个畸形数据包都有导致故障的四个属性:

  • 广播目标地址,这意味着数据包被指令发往所有联网的设备;

  • 有效的头部和有效的校验和;

  • 没有到期失效时间,这意味着数据包不会因很早前创建而被丢弃; 

  • 大于64字节的大小。

FCC称,交换模块将这些畸形数据包“作为网络管理指令发送到线路模块”,这些数据包“传送到所有联网的节点”。接收到数据包的每个节点随后“将数据包转播到所有的联网节点”。
报告继续称:

每个联网的节点继续通过专有管理信道将畸形数据包转播到与之连接的每个节点,因为数据包看起来有效,又没有到期失效时间。这个过程无限重复。 

畸形数据包的不断传输导致没完没了的反馈循环,因而消耗了受影响节点的处理能力,这进而破坏了节点保持内部同步的能力。具体来说,如果指令发送到一对线路模块,但只有一个线路模块实际接收到信息,那么发送到输出线路模块的指令就失去同步。没有这种内部同步,节点就会丧失路由传输数据的能力。由于这些节点失效,结果CenturyLink网络出现多次故障。

恢复和未来改变CenturyLink在凌晨3点56分意识到故障,到上午10点左右,“派网络工程师前往内布拉斯加州奥马哈和密苏里州堪萨斯城,直接登录到受影响的节点。”他们后查明问题出在丹佛节点上。晚上9点02分,公司“找出并撤下了生成畸形数据包的那个模块”。
但故障仍未排除,因为“畸形数据包继续复制并在网络上传输,从一节点传输到另一节点的过程中生成更多数据包,”FCC写道。午夜刚过,CenturyLink工程师“开始指令节点不再应答畸形数据包。”他们还“禁用了专有管理信道,防止进一步传输畸形数据包。”
到12月28日上午5点07分,“网络大部分”正常运行,但所有节点直到当晚11点36分才恢复正常。
即使所有节点恢复正常后,“一些客户仍遇到故障的余波,因为CenturyLink继续重置受影响的线路模块,并更换未能成功重置的线路模块”,FCC称。CenturyLink确认,到12月29日凌晨12点01分网络才“稳定下来”。
未遵循最佳实践
报告称,几个最佳实践本可以防止故障或减小负面影响。比如说,FCC称CenturyLink及其他网络运营商应禁用未使用的系统功能。
FCC写道:“在这个情况下,专有管理信道默认启用,以便需要时可以使用。虽然CenturyLink不打算使用该功能,但任由该功能未配置、启用。但任由管理信道启用给网络带来了漏洞,由于允许畸形数据包在网络上不断转播,因此导致了这起故障。”
报告还称,CenturyLink本可以采用更强大的过滤机制来防止畸形数据包传播。CenturyLink使用了“旨在仅仅应对特定风险的过滤器”。相反,CenturyLink本可以采用只允许预期流量进入的“catch-all过滤器”。
FCC称,CenturyLink还本应在其网络监控中设置“内存和处理器利用率警报”。尽管畸形数据包“迅速让节点的处理能力不堪重负”,这“没有触发”CenturyLink系统中的任何警报。
事件发生后,CenturyLink“换掉了有故障的交换模块,将其发给Infinera进行取证分析,”FCC写道。FCC称,Infinera的工程师仍无法再现问题,但涉事公司“已采取了额外措施以防止这个故障重演”。
那些额外措施包括CenturyLink禁用专有管理信道。“Infinera已禁用了CenturyLink网络上新节点的信道,并更新了节点的产品手册,建议在未使用的情况下禁用该信道,”FCC称。
报告继续称:

该服务提供商和供应商还为网络管理事件制定了网络监控计划,以更快地检测类似事件。目前,CenturyLink正在更新其节点的以太网管制器(policer),以减小将来传输畸形数据包的机会。改进的以太网管制器可迅速识别并终止无效数据包,防止传播到网络中。预计这项工作预将于2019年秋季完成。

今天CenturyLink表示“故障是生成畸形数据包的网络管理卡引起的;遗憾的是,畸形数据包在CenturyLink的传输网络上一路转播。
CenturyLink进一步表示,它“已采取诸多措施帮助防止问题再次发生,包括禁用这些畸形数据库在事件期间通过的通信信道,并加强网络监控。我们重视客户,对此事件可能造成的任何不便深表遗憾。
对康卡斯特和Verizon等运营商的影响
FCC称,故障对依赖CenturyLink长途运输网络的其他供应商产生了“连锁效应”。
FCC称,“故障可能影响康卡斯特的3552495个VoIP用户长达49小时32分钟”,康卡斯特的电话客户可能遇到“快速忙碌信号或呼叫质量下降,如果呼叫在受影响的传输网络上传输。
故障还扰乱了康卡斯特在爱达荷州转接911电话的能力。
Verizon使用CenturyLink的网络来传输其部分无线网络流量,“故障影响了Verizon Wireless在西部几个州的网络,包括多个地方出现间歇性服务问题,”FCC称。
FCC称,使用Verizon CDMA网络的上成千上万Verizon客户在故障期间无法拨打911。Verizon LTE上的911服务未受影响,“因为LTE网络不使用受影响的CenturyLink网络进行传输。

FCC称,“CenturyLink故障还对其他服务提供商造成了较小的影响。”不过,这些较小的影响波及数百万人。

文章来源:云头条


本文原创,作者:congtou,其版权均为华盟网所有。如需转载,请注明出处:https://www.77169.net/html/241552.html

发表评论