又拍云第二封故障信

关于又拍云12月5日故障的说明‏

用户发展太快?不里处理速度还是另人满意的。 补偿好像没收到哈。

尊敬的又拍云用户:
 
我们为12月5日一组作图服务器故障导致部分图片上传失败给您带来的困扰深表抱歉,为避免您对此的担忧,我们向您坦诚这次故障的具体问题,让您了解这次意外的原因。
 
因又拍云存储平台的数据量急速上涨,云处理集群的压力也快速放大。为提前缓解数据放大带来的压力,提升作图服务器集群性能,12月5日凌晨,又拍云存储更新部署了一批新的作图服务器,并开启了作图服务的CPU亲缘性绑定支持,将服务绑定到了相应的CPU核心上。这个模式在非超线程环境的服务器中运行良好。但在这批开启了超线程支持的服务器上,随着当天下午请求高峰期的到来,逐渐出现不稳定现象,导致上层proxy超时,在该集群造成雪崩效应;由于我们初期对故障的定位偏差,在进行了系统内核降级、作图服务版本回滚等几项措施之后,未能快速缓解处理该问题,直至最后关闭超线程支持。
 
在新集群出现不稳定时,我们已紧急切换到了备用集群。但由于作图请求的雪崩效应,导致后备集群一直高负载运行,期间调用图片服务集群的图片上传、缩略图处理的不稳定状况持续了一段时间。在新集群关闭超线程支持、并确认状态正常,重新接入系统后,服务逐步恢复。
 
您信任我们,将您的数据放在了又拍云存储,出现这样的问题,我们非常的不安,也非常的抱歉,一次故障意味着给您带去了巨大的损失,这个损失我们不知该如何弥补,所以我们决定向您补偿一周的流量并延长一个月的存储使用期限。同时我们将对后续服务持续优化以保证更高的稳定性,避免类似意外的再次发生。我们再次恳请您的谅解。感谢您一直以来对又拍云的支持!
 
 
杭州纬聚网络有限公司
2013.12.6

发表评论

电子邮件地址不会被公开。 必填项已用*标注