V咖分享会第二十三期-大数据下的数据清洗质量保证-下

2022-04-07 11:07:39 浏览数 (3)

跟着芒果一起好好学习,天天向上~

在上周日我们举办了V咖分享会第二十三期的分享,这是分享是这次由大咖策风小k-k神给大家分享的“大数据下的数据清洗质量保证”,传授他在多年测试职业生涯过程中实践经验的。现在就由芒果为大家整理这次分享会的知识,本次整理内容包含我们的V咖k神的分享内容,部分提问及回复。想要提问或者观看完整问题解答的小伙伴,请积极参与到我们分享会中来,我们的分享会每两周就有一次哟~

因为本次的分享时间超过30分钟,所以分为上下部分给大家介绍,这是第二部分内容:

分享人:策风小k

软件测试专家,互联网资深测试讲师,IBM认证工程师,中国高智商协会会员。

从事软件测试9年,现就职于杭州某大数据分析公司,负责质量管理平台的构建设计。TestOps推动者,擅长接口自动化测试、性能测试,爱好广泛,诙谐幽默。。

分享主题:大数据下的数据清洗质量保证

保障数据清洗的质量和效率

1.了解数据清洗到底干了哪些事儿

2.数据清洗规则在常规测试手段上的难点

3.数据工厂如何体现在数据清洗测试上

4.流程化的数据清洗校验策略

分享内容部分PPT:

答疑与讨论:

策风小k:

这边给贴个严格策略和宽松策略的案例:

干勾鱼:

验证清洗表的数据,用的什么自动化工具呀

策风小k:

@干勾鱼 一般建议这块独立开发校验脚本

可以借助一些json比对工具

但是在整个用例设计管理和调用上 最好是独立开发一个后段框架。这个有兴趣后面单独找我可以聊下方案

leon:

清洗算法测完以后,需不需要和开发根据原数据清洗完的结果数据做对比?

策风小k:

@leon 原数据全部自己构造 要比对的,但这个过程会在自动化断言中完成

@leon 因为我们每条用例只对一个jsonpath下的某字段按照规则设计用例

leon:

[语音]

策风小k:

[语音]

Eric:

金融领域测试过程测试数据准备比较耗时,有没有比较好的方法

策风小k:

[语音]

干勾鱼:

清洗表的数据一般根据业务表计算出来的,我们看的是最终的结果值,用json对比工具,咋对比呀

策风小k:

[语音]

这个可以参考一下

策风小k:

还有些朋友可以通过部署jacoco方式,把自动化代码覆盖率给顺带做了

策风小k:

就这种平台化管理各个应用的覆盖率

方便补充用例

目前可能各位只能做全量覆盖率的统计,我这边开发了增量代码覆盖率统计,你们也可以研究一下。

需要修改jacoco源码探针的逻辑

增量代码覆盖对版本迭代覆盖率的统计有好处

leon:

我们原数据也是有些不完整的,数据算法开发人员就是在这份数据上开发的

这种情况是不是只能测试这边自己mock数据来测试开发的清洗算法?

策风小k:

@leon 原始数据不完整其实还是应该做好监控 及时做增量补充

张刚强:

@策风小k 你发的是你们自己开发的testops测试平台吗,

肯肯:

还是厉害的!这几天我也要做公司的数据清洗了头疼

策风小k:

@张刚强 嗯是的。这个是自己开发的平台

张刚强:

不错,可以多学习下,最近我们公司也在开发

策风小k:

可以,除了用例管理,覆盖率查看,还可以部署监控 都可以加进去,总的来讲是一套质量管理平台,后续CICD自动化监控环节,都可以走这套

张刚强:

嗯,考虑接口全链路压测也可以做,用httprunner locust结合

策风小k:

张刚强:

权重可以配比

集成的grafama

策风小k:

嗯,是的。常规的influxdb grafama都可以配套去用,细的可以配合开发打埋点监控对接上。

0 人点赞