上期我们分享了jupyter notebook几个好用的插件 超好用的jupyter notebook5个常用插件,最近很多朋友问到关于用户画像的问题,似乎大家对此都很感兴趣,今天我们就来聊一聊到底什么是用户画像,它的作用是什么以及如何通过数据挖掘的方法做出准确的用户画像。
1.什么是用户画像
用户画像简单地说是刻画用户的一组标签的集合,包括用户的基本属性标签,例如年龄、性别、职业、收入等;兴趣偏好标签,例如喜欢游戏,美食、社交等,用户已安装的APP列表,例如微信、微博、知乎、今日头条等。以及地理位置标签,例如用户的常住地、GPS定位地址等。这些标签集合可以抽象出用户的大致轮廓,对于我们后续的精准营销和用户分析,是非常有帮助的。
2.用户画像的作用是什么
用户画像可以用于广告精准投放、个性化推荐、用户分析以及智能搜索等方面,提升用户体验与ROI。简单地说,用户画像让我们掌握用户的基本特点,并能根据用户画像特点进行有针对性的营销推荐。
3.如何通过数据挖掘的方法做出比较准确的用户画像
既然用户画像是一组标签的集合,那么数据挖掘的重点就是要提取有效标签用于准确描绘用户,可以挖掘的具体标签维度大致可以分为用户的基本属性标签、用户兴趣标签、地理位置标签等几个方面。
用户的基本属性标签一般来说是相对固定的,一段时间内是保持不变的,例如性别、年龄、职业等;
用户的兴趣标签一般是根据用户的行为来提取,例如用户经常点击某种视频或者某款产品,我们可以对用户打上对应的兴趣标签,但兴趣标签一般是有时效性的,用户的行为时间间隔越长,兴趣标签的有效性越低,所以通常我们对兴趣标签会加上行为权重和衰减因子等加以控制。
地理位置标签主要是通过用户上网请求ip、上网时间以及使用时长等对用户所处物理地址进行判断,例如是用户家的地址,公司地址,还是其他地址等。每种标签都可以使用不同的方法进行挖掘和处理。
目前使用数据挖掘得到标签的方法通常包括对数据进行统计分析,例如对各项标签进行组合或者重新计算。利用自然语言处理(NLP)技术对标签进行加工和处理,例如使用TF-IDF、TextRank等技术进行词频统计,进而加工得到可用标签。还可以使用机器学习的方法对标签进行预测,常用的模型算法包括LR、SVM、GBDT、XGBoost等。具体就是通过已有的部分真实标签,例如性别,对缺失标签的样本进行模型训练和预测,得到预测标签后再进行标签验证。当然也可以使用无监督学习的方法对标签进行预测,具体做法就不再展开。
4.标签评价指标
标签的评价指标主要包括标签的准确性与覆盖率,标签的准确率越高,标签质量越好,一般我们认为标签的准确率在80%以上为可用。另外标签的覆盖率越高,标签的可用性也越高。但标签的准确性与覆盖率一般是互相制约的,需要我们根据业务情况具体去调整和平衡。