跨领域深度学习模型一直是近几年推荐系统主要研究方向之一, 本文探讨一种个人客户画像构建的新思路, 并讨论对应的基于个人行为事件的跨领域统一推荐模型。
1
基于个人客户画像推荐
为方便读者理解,摘抄部分前文[2]内容。目前业界的个人画像主要在机构内部数据结合外部数据基础上构建。如对原始数据进行特征提取,得到如下客户特征:
图一 (来源[2])
在实施过程中可以为个人客户画像中每个人打上几千个各类标签。再结合具体的推荐场景如股票购买概率预测模型[3]中特征要求,应用于具体推荐模型中。实践中一般还使用特征选择模型来决定哪些特征适用具体场景。并且由于很多关键属性缺失,还需要一些数据挖掘模型用于特征推断,比方逻辑回归,决策树,标签传递等。
2
特征体系能完全标记人的行为吗?
什么是特征,“那个被选作确切的同一性和差异性之场所的结构,就是被称作特性。” [1]特征是为了差异更是为了相似性,福柯认为相似性与特征(符号)是必然联系,因为相似性是建立在对这些特征(符号)的记录和辨认上。而且他一直强调相似性的重要:“直到16世纪末,相似性在西方文化知识中一直起着创建者的作用。”[1]“产生于特殊事件的一般归纳,或者不如说科学的种类、逻辑和所有抽象观念,都是借助相似性而形成。”[1]同样,相似性在模式识别、分类、监督学习、非监督学习等机器学习概念中的有着同样的重要性。
进一步而言,特征体系是系统研究相似性,标识个体与分类的合理的、必然的途径。福柯对体系的定义是“选择一组确定的和相对有限的特征,其恒定和变换能在任何自身呈现的个体中得到研究” [1],他在认可这一途径的同时也指出该方法的不足。书中举了个例子:“中国某部百科全书中动物可以划分为:1属皇帝所有,2有芬芳的香味,3驯顺的,4乳猪,5鳗螈,6传说中的,7自由走动的狗。。。”他在惊叹如此分类的想象力的同时也指出“体系在展开过程中是任意的” [1],“有可能把方法凭经验而限定的从外部强加的修正应用于一般特性:被人们认为对一个种群来说重要的一个特征,很可能只是另一些动物的特殊性” [1]。让我们回顾上一部分中客户特征分类以及特征,似乎还比较合乎常理,但似乎也有些随意。前文[2]也试图从行为金融学相关观点应用于个人金融画像特征提取,但不足以根本解决这个问题。
福柯大师也意识到“特征的确立,既是容易的,又是困难的。” [1],“为了确立起所有的同一与差异,将有必要考虑在一个描述中可能被提及的每一个特征。这是一毫无止境的任务。” [1]而且他还意识到特征“都是在相互联系,相互混合并且或许能相互转换” [1]。现在,我们非常容易理解这些特征之间的这种关系。认为基因和特征存在映射关系的话,在遗传算法中,会通过一系列的遗传算子来确认后代,包括交叉算子、变异算子这些都可以导致基因相互联系与转换,从而导致特征同样变化。
而且人的行为更是动态的,情景的,那可想而知构建合理的特征体系作为客户画像的难度。那我们是不是可以试试其他途径呢?
3
基于个人行为事件的客户画像
“每个插曲,每一个决心,每一种不合时宜的行动,都象征着唐吉坷德”[1]
如果塞万提斯不是用那么一部伟大的长篇巨著描写唐吉坷德的总总境遇,而是用一堆特征来标记。哪怕他是塞万提斯,哪怕他用8888个特征标记唐吉坷德,难道我们能比现在更感受到那样的一个唐吉坷德吗?如果要狗尾续貂一部《唐吉坷德游中国》,难道不是原著中那些事件的描述比8888个特征更能预测唐吉坷德游骑士在中国游中的种种行为吗?
接下来让我们试着忘记特征体系,是否可以尝试只通过那些在时间轴上,在特定场景下的总总事件来构建客户画像呢?
假设已合法的收集个人行为数据。一行样本数据包括,客户编号,事件类型,该类事件环境,事件行为的描述(当然还是可能需要用特征标识)等。那么我们将得到如下数据。
4
跨领域统一推荐模型
接下来,探讨基于个人行为事件的客户画像构建跨领域统一推荐模型。我们假设这些事件是独立,正样本是历史上不同客户在各领域已发生事件。通过深度学习,得到在转换函数用于预测在新的场景下,不同客户发生指定事件的概率。
该框架不同于以往跨领域深度学习模型中样本数据,不再基于客户特征画像体系,而是用事件轴上的系列事件标记客户,并用于深度学习预测当前事件发生概率。
5
总结
本文以福柯《词与物》[1]中立场讨论了个人客户画像特征体系构建中的问题,充分认识到构建完善客户画像体系的复杂性。并从书中得到启发,探讨不再基于特征体系客户画像,而是用事件轴上的系列事件标记客户,并通过跨领域统一推荐深度学习模型预测事件发生概率。
参考文献
[1] 米歇尔•福柯, 莫伟民 译.词与物 [M].上海三联书店. 2002.、
[2] 袁峻峰. 人格量化-个人金融画像探索[OL]. 蚂蚁金服评论. 2016-03-07.
[3] 袁峻峰. 大数据下客户金融产品购买概率预测[OL]. 大数据文摘,量化派 等(公众号). 2016-02-19.
作者简介
袁峻峰,花名观妙,蚂蚁金服人工智能部,复旦金融学硕士,FRM金融风险管理师。10年以上从事金融IT相关领域工作经验:国内银行间市场金融产品(包括衍生产品)的量化分析、市场风险管理以及相关系统实现。目前从事并关注于金融领域机器学习相关主题与应用,欢迎探讨, 邮箱yuanjunfeng_fr@163.com。