投之家 2018.7.20-0:07……投之家7月13日网站故障分析报告……2018年7月13日大约13点开始,投之家网站(https://www.touzhijia.com)及其移动端(包括iOS、Android)无法访问,故障大约持续了23.5小时。故障原因是访问压力突然增加,超出了系统的承载能力上限,最终通过对瓶颈环节进行性能优化解决了故障

投之家 2018.7.20-0:07……投之家7月13日网站故障分析报告……2018年7月13日大约13点开始,投之家网站(https://www.touzhijia.com)及其移动端(包括iOS、Android)无法访问,故障大约持续了23.5小时。故障原因是访问压力突然增加,超出了系统的承载能力上限,最终通过对瓶颈环节进行性能优化解决了故障

——

投之家7月13日网站故障分析报告

原创: 投之家技术团队 投之家客户服务(官方微信号推送) 今天

1. 故障总体描述

2018年7月13日大约13点开始,投之家网站(https://www.touzhijia.com)及其移动端(包括iOS、Android)无法访问,故障大约持续了23.5小时。故障原因是访问压力突然增加,超出了系统的承载能力上限,最终通过对瓶颈环节进行性能优化解决了故障。

2. 故障影响时长

发生时间:2018/07/13 13:00

恢复时间:2018/07/14 12:30

持续时长:约23.5小时

3. 故障影响范围

3.1 影响范围

所有用户

3.2 产品影响

投之家的PC端(https://www.touzhijia.com)以及移动端(iOS和Android)访问均提示异常。打开网站,浏览器提示504错误(注:504是一个错误代号,表示后台服务器响应超时)。

4. 技术指标分析

4.1 可用性

根据阿里云云监控的网站可用性监控指标,故障期间,网站的可用性从故障发生时刻开始往下掉,并不是一开始就完全打不开网站,而是随着访问量增大逐步下掉。

到7月13日的17:00,网站的可用性降到零。

7月13日晚上20:00,在技术团队进行了故障处理后,网站开始恢复,可用性逐渐上升,但是访问压力重新进来,在7月14日凌晨01:00再次降到零。

7月14日凌晨04:00,访问量逐渐减小,可用率再次恢复。

7月14日上午,网站性能优化生效,直到13:00完全恢复正常。

故障期间,网站的可用性如下图所示:


图1-1 阿里云对投之家首页的可用性监控曲线图

4.2 平均响应时间

投之家网站在正常运行的情况下,首页通常在200ms以内能够打开。如果访问压力增加,后台服务器无法及时处理请求,就会造成响应时间增加,最差情况是达到超时限制。

故障期间,网站的平均响应时间如下图所示:


图1-2 阿里云对投之家首页的平均响应时间监控曲线图

5. 故障处理过程

(1)7月13日上午,投之家网站,逐渐有用户反馈网站无法打开。技术人员初步定位,确认是访问量突然增加,超出系统负载能力;

(2)7月13日,约12点,投之家办公所在地的特发物业关闭公司电源,公司内网瘫痪,技术团队无法对线上故障进行快速处理,只能转移到远程办公环境;

(3)7月13日,约13点,投之家技术团队重新部署好远程环境,紧急处理网站访问问题。因失去集中办公环境和内网各种支撑系统支持,技术团队通过远程协作进行处理;

(4)7月13日,约15点,通过限制部分访问地区IP的策略,作为临时解决方案。此时网站断续可打开和下载投资协议,部分用户访问投之家会403(访问受限),部分用户则访问正常;

(5)7月13日,约20点,由于访问压力太大,预计短时间无法开发实现太复杂的优化方案,经过技术团队内部讨论,决定暂时限制移动端APP访问,这样用户会通过PC来访问,然后我们就可以集中精力在PC访问路径上做性能优化,从而快速解决这个问题。经过分析,已经确定性能压力集中在个人中心的投资记录这个页面上,通过该页面可以看到投资记录列表,并下载投资协议。由于投资记录页要展示的信息较多,实时调用了后端多个微服务,导致成为了性能瓶颈。平时流量正常的时候,这个问题并没有暴露出来;

(6)7月14日,凌晨,对持续暴增的负载访问请求瓶颈进行了初步的优化后,网站PC端初步恢复。主要优化措施是减少个人中心投资记录展示页的每页展示记录条数,从每页展示15条降低为展示5条,并对承担前端负载的node.js模块进行扩容,进程数从4*2修改成8*3;

(7)7月14日,上午,对存在性能瓶颈的个人中心投资记录页面,从前端和后台都配合做了数据碎片缓存,由后端微服务每隔N分钟对每个用户生成投资记录列表,写入到分布式缓存系统redis集群,前端模块原来从微服务读取投资记录列表,改为从redis集群读取数据。策略上线后,性能问题解决。同时将部分地区IP限制访问的临时策略取消,网站恢复访问。

投之家技术团队

2018/07/19

【呃,不是已经关门了么,高管已做鸟兽散。。这技术团队向谁汇报工作呢。。】


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注