何小锋
京东商城基础架构部首席架构师
京东技术11.11基础架构峰会讲师
十九年一线研发经验,热爱技术,追求卓越。2011年加入京东,多次作为京东6·18和11.11大促的核心备战人员,在弹性计算、中间件、大并发分布式系统等方面积累了丰富的实战经验。目前在京东商城基础架构部门负责计算平台的相关工作,在11月国家会议中心举办的京东技术——基础架构峰会上详细向大家分享了京东在数据挖掘中的案例和经验,今天我们对话何小锋,一起回顾这场分享中的核心技术点。
1
您现在主要负责什么工作?
目前在京东商城基础架构部负责计算平台和商品数据挖掘,更好地提升用户体验。首先会基于JDOS来搭建实时计算平台,可以对Flink、Spark和Storm等集群进行调度,整合存储和中间件,形成一套完善的计算体系。在此基础上可以支持商品数据挖掘,监控预警,风控等等场景
比如说通过技术手段处理商家商品中的一些不合规的内容。举一个比较突出的例子,一些服饰商品在售卖时,我们会发现标题堆砌很多无关的信息词汇,商家在一件白衣服的标题上会写上黑色、红色、绿色……就为了吸引流量,利用了SEO的技术在用户检索时把流量带入店铺,这样就给用户带来不好的用户体验。在进行数据的挖掘和清洗以后,把标题信息修改成符合规定的,对商家上传的图片进行识别,商品就是一件白色的衣服,那么标题就不能有其他的颜色的词汇堆砌。
还会利用商品的评价数据,将有价值的商品评论筛选出来呈现给用户,形成商品印象,用户购买产品的时候直接能够用来参考,同时也形成标签提供给搜索。
2
进行数据挖掘主要采用哪些核心技术?
用的比较多的就是流式计算框架以及机器学习和自然语言处理等这两年比较前沿的技术,线上数据检测的准确性能达到98%以上,修正的商品信息数量接近20亿。今后还会利用已经修正好的信息去优化搜索索引,提高它的准确度。
3
接下来会着重进行哪些技术研究?
接下来会继续加强技术平台和商品数据挖掘,在计算上会去加强针对图片的识别和实时数据的计算能力,在目前开源的计算框架上进行深度定制,以满足大规模计算的业务需求。
通过商品数据挖掘,建立商品的知识库,进行商品语义推理。比如用户需要一件冬天穿的上衣,在搜索框可能会输入“冬天上衣”,但是一些商品类似羽绒服可能并没有在商品信息中标入“冬天的上衣”,结果用户得不到全面的想要的结果。通过挖掘出的数据挖掘用户真正的需求,理解用户的意图,使得搜索结果更加准确,从而提升用户甚至是商家的产品体验。
4
您对知识图谱技术发展的看法?
可以说利用机器学习技术来构建知识图谱和进行数据挖掘是这两年业内都比较看重的,这两年大家也都在研究这项技术。知识图谱是一个基石,搭建过程是非常辛苦的事情,只有把这项最基础的数据搭建好,上层的应用才能更聪明,更能理解用户意图。