前言
笔者所在的公司是一家快速发展的互联网电商公司,在保证业务快速稳定发展的同时,对于系统稳定性、可用性和扩展性的要求,也在不断提高。特别是互联网电商企业每年的两次大考:618&双11,更是对服务的三大特性有更多的要求。
在大促活动开启之前,无论是前期的核心业务梳理、线上流量评估、场景建模,还是测试实施阶段的监控分析、调优验证,乃至线上的容量规划,每个环节都需要做很多工作。且这些工作都需要运维、开发、测试、产品甚至数据分析团队的协同配合,才能保质高效的完成。全链路压测,作为电商大促的稳定性保障利器,也在不断的迭代演进。这篇文章,为大家介绍下全链路压测在我司的落地和实践演进史。当然,其中的某些敏感部分已脱敏,请谅解。
落地
挑战
去年双十一,为了应对零点的峰值流量冲击,我们在八月下旬启动了第一次全链路压测。由于是从零开始,因此单独的搭建了一套和生产1:1的环境。2个月的时间,环境成本就高达几百万。从项目KO到双十一活动开始,第一次双十一大促,我们面临着下面几点挑战。
核心链路梳理
电商业务本身比较复杂,且当前阶段我们微服务架构下,各个服务间依赖高,调用关系复杂,且没有较为清晰的链路梳理。所以,面临的第一个挑战,就是从错综复杂的系统中梳理出核心业务链路。