本文首先介绍标签包含哪些常见实体类型以及ID类型,即标签的主体包含什么,用什么ID表达;其次详细介绍了几种标签的分类方法:按生产方式划分、按时效性划分以及按标签所属维度划分。
标签实体及ID类型
画像标签需要绑定到实体上面,用户、商品、直播、视频等都可以作为画像的实体。画像标签借助实体进行表达,比如用户的性别、年龄标签;商品的售价、种类、货源地标签;直播的分类、开播时间段标签;视频的风格、视频时长分段标签等,每一个标签都用于描述某个具体实体。
实体可以通过不同的ID类型进行指代,用户可以通过系统给每个用户分配的UserId来指代,也可以通过用户使用的设备ID来指代;商品可以通过系统分配的商品ID来指代,也可以通过商品自带的条形码来指代;直播可以通过直播ID来指代,视频可以通过视频ID来指代。本书主要针对用户这一实体进行介绍,可以用来表达用户实体的ID种类比较多,表3-1给出了常见的用户实体ID类型。
表3-1 常见的用户实体ID类型
ID类型 | 解释 | 是否变动 | 支持设备 | 主要劣势 |
---|---|---|---|---|
IMEI | 用于在互联网上识别每一部独立的移动通信设备,相当于移动电话的身份证,是基于硬件的不可重置的永久标识符 | 否 | AndroidIOS | 多卡手机有多个IMEI,与用户之间存在多对一的关系,维护成本较高。读取IMEI权限要求严格。Android 10以后版本需要授权并有严格限制,后续有获取不到IMEI的风险;IOS 5版本以后已被禁止获取 |
ANDROID_ID | Android设备里不依赖硬件的一种半永久标识符 | 是 | Android | Android设备专有,系统重置或者刷机后会改变。且不能保证ANDROID_ID唯一。在 Android 8.0以后,签名不同的 App所获取的ANDROID_ID不一样 |
IDFA | IOS设备广告标识符,半永久标识符 | 是 | IOS | IOS设备特有的广告标识符,可以通过刷机或者重置广告标识码进行改变 |
GAID | 基于Google服务框架的Android设备广告标识符,半永久标识符 | 是 | Android | Android设备特有的广告标识符,可以通过刷机或者重置广告标识码进行改变。依托Google服务框架,在国内使用较少 |
OAID | 随着获取IMEI等Android设备唯一标识被限制,移动安全联盟提出的一种Android设备的广告标识符 | 是 | Android | 国内还在推广应用中,仅支持国内Android设备,之前的老设备获取不到OAID |
DeviceId | 设备标识的统称,一般都是汇总各类设备ID及指纹信息后合计生成的一个设备唯一标识 | 是 | 任意设备 | 业界没有统一的生成策略,不同App之间DeviceId很难保持相同 |
UserId | 注册用户分配的唯一ID | 否 | AndroidIOS | 登录后才可以获取到UserId。很多工具类应用无须用户登录,无法获取到UserId。不同应用之间UserId不同。比如某用户在A应用上的UserId是100,在B应用上的应用是200 |
IMEI可以精准标识一个用户,但是出于数据安全考虑业界已不再支持获取IMEI;ANDROID_ID即使在同一设备下,不同应用获取到的也不相同,所以也无法广泛使用;IDFA和GAID是应用在IOS和Android上的广告标识符,但是由于GAID依托于Google服务框架,在国内的使用较少。为了实现广告跟踪,国内提出了OAID,目前已经在推广使用中,未来国内使用趋势是使用IOS IDFA和Android OAID来满足用户的广告跟踪需求。
DeviceID和UserId偏具体业务概念,不同的应用开发方,其DeviceID的制定策略不同,不同应用间很难打通。UserId是用户登录后系统分配的唯一标识,也只限于当前应用内使用。本书用户画像的开发思路适用任何ID类型,但是为了表达通畅且更有针对性,之后章节主要介绍的是用户这一实体,并且以UserId和DeviceID作为ID类型来描述,其中UserId是数字类型,DeviceId为字符串类型,DeviceID的生成方式不在本书介绍范围内。
标签分类方式
本节主要介绍3种标签分类方式:按照生产方式、按照时效性和按照标签所属维度。本节最后给出了一个实际的标签体系分类示例。
1. 按照生产方式分类
标签按生产方式可以分为统计类、规则类、挖掘类和导入类标签。
统计类标签指的是在指定时间范围内统计出的指标类标签,比如最近一天的App使用时长、最近一次使用App距今天数、最近30天登录次数、最近半年点赞数、最近一年关注用户数等。规则类标签是基于已有数据按照一定的规则生产的标签,一般都是非指标类标签,比如观看直播后有送礼行为用户可以定义为直播消费高潜用户,晚上喜欢使用App且使用时间超过一小时的用户可以定义为夜间主流用户。统计类标签和规则类标签实现难度不高,主要基于大数据技术实现,其重点在于标签口径的定义、标签生产脚本的编写和标签数据的监控。
挖掘类标签是借助算法能力,从用户历史行为数据中挖掘出的具有业务价值的标签,比如用户的兴趣爱好、用户的购买意向、用户的职业等。这些标签无法从用户的行为数据中直接统计获取到,需要通过算法模型来拟合用户数据并挖掘其倾向性。挖掘类标签的生产流程较长,涉及数据准备、特征工程、模型训练与评估、模型上线等环节,其生产周期长且产出效率低。随着时间推移,算法特征数据分布发生变化,模型需要重新训练来保证标签数据质量。
导入类标签是用户通过数据导入的方式自行构建的标签,比如用户问卷调研结果中反馈正向的用户可以导入到画像平台作为“问卷正向用户”;运营人员将某次运营活动中表现良好的用户上传画像平台构建“某活动优质用户”标签。导入类标签主要依赖工程能力,将用户导入数据落盘到存储引擎中,后续处理过程和使用方式与其他类型标签一致。
2. 按时效性分类
标签按照时效性可以分为离线标签和实时标签。
离线标签是基于离线数据计算出的标签。离线数据是历史某段时间已经产生的数据,与当前时刻的业务数据存在时间上的差异。“当天是否登录”标签是每日更新的标签,比如当前是T日,该标签最新数据只能表达T-1日用户是否登录情况,因为T日尚未结束,需要等到T 1日才可以产出T日的标签数据。“最近一小时点赞次数”标签属于小时更新标签,假如当前是12点多,该标签最多可统计出11点到12点的数据情况,当前时刻用户的实时点赞次数无法通过该标签获取到。离线标签满足不了时效性的要求,但基于现有的大数据技术可以便捷地生产标签数据,而且也方便进行历史数据回溯和重新计算。目前业界大部分标签都是离线标签,基本可以满足大部分业务需求。
实时标签能够弥补离线标签在时效性上的不足,可以给出基于用户最新数据的标签数值。比如“实时当日评论数”标签,可以基于用户的评论行为实时统计出指定用户当日的评论次数;比如“实时用户地理位置”标签,可以使用用户授权上报的位置信息计算用户最新的地理位置信息。实时标签的产出依赖实时数据流,消费数据流并进行数据统计的技术实现难度不大,但是数据回溯以及数据重算比较困难,因为需要找回历史数据并重新消费统计,这将提高工程难度并增加资源开销。当标签涉及的窗口周期较长且标签生产逻辑复杂时不适合生成实时标签,比如“实时最近一周互关好友数”,该标签涉及一周的实时数据且涉及双向的关注关系,统计逻辑复杂且维护成本较高,此时可以考虑使用离线标签替代。
3. 按照所属维度分类
标签按照所属维度可以划分为基础属性、生产行为、消费行为、用户行为、设备信息、风控信息等分类。
基础属性包含的标签主要是用户的属性信息。如性别、教育程度、年龄段、婚育情况、用户兴趣等标签,代表的是用户基本属性,与用户在应用上的使用行为无关。基础属性直接反馈用户本身的信息,在画像平台中使用频率较高,属于画像平台最重要的一类标签数据。
生产行为主要指用户在当前应用下与生产动作相关的标签。如短视频下的每日上传视频数、生产视频时间段偏好、生产视频使用的魔法表情等;新闻资讯应用的每日生产文章数、当日文章被评论数、当日文章被点赞数等。生产行为标签需要结合应用业务特点定义出“生产”相关的标签。
消费行为与生产行为类似,需要结合当前应用特点定义出与“消费”相关的动作行为。短视频下的每日浏览视频数、每日点赞数、每日评论数、每日进入直播间数、每日送礼数等都可以作为消费类行为标签。新闻资讯应用下每日浏览文章数、每日点赞文章数、每日观看文字数、每日浏览文章分类等标签可以作为消费行为标签。
如果业务中无法明确定义消费和生产行为,或者除了生产和消费之外,还包含其他一些常见行为,可以统一划分到用户行为标签分类。用户行为主要包含用户常见的行为类标签,如当日是否登录、最近一次登录距今天数、用户活跃时间段、用户在线时长、用户分享次数等。在社交类应用中的各种行为标签,也可以划分到该种类下,如当日关注数、当日取关数、近一周涨粉数等标签。
与用户所使用的设备相关的标签信息可以划分到设备信息分类,如设备的操作系统类型、当前App版本、设备所使用的网络类型、设备的价格区间、设备屏幕尺寸、设备品牌等,这些信息与设备紧密相关,可以反馈出用户使用应用时的硬件环境。
风控信息主要包含与业务风险相关的标签,比如很多应用下的是否作弊用户标签,金融类应用所使用的用户风险等级、用户是否黑灰产、用户历史被封禁次数、用户被举报次数等标签。基于风控信息可以判断用户是否有业务风险,为了避免业务损失可以在各类环节中根据风控标签数值做合理的过滤与处理。
以上只是一种比较通用的按照维度进行标签划分的方式,标签如何分类要结合应用的实际业务场景来制定。不同的实体类型对应的分类的维度也不相同,以淘宝为例,如果为商品实体构建标签体系,其所属维度划分方式可以分为:基础属性、供货信息、商家信息、市场信息等。
4. 标签分类示例
以上小节介绍了标签的3种分类方式,本小节以短视频业务场景为例给出一个具体标签体系分类示例,其具体内容如表3-2所示。
表3-2 短视频领域标签体系分类示例
标签名称 | 标签值示例 | 所属维度 | 离线/实时 | 生产方式 |
---|---|---|---|---|
性别 | 男、女 | 基础属性 | 离线 | 统计 |
年龄段 | 小于18、18-30、30-60、大于60 | 基础属性 | 离线 | 统计 |
常住省 | 山东、河南、福建 | 基础属性 | 离线 | 统计 |
是否男性高粉 | 是、否 | 基础属性 | 离线 | 规则 |
用户学历 | 专科、本科、研究生 | 基础属性 | 离线 | 挖掘 |
婚育状态 | 已婚已育、已婚未育 | 基础属性 | 离线 | 挖掘 |
是否某调研活跃用户 | 是、否 | 用户行为 | 离线 | 导入 |
实时地域 | 山东济南、河南郑州 | 基础属性 | 实时 | 统计 |
生产视频数 | 1、2、3、4 | 生产行为 | 离线 | 统计 |
开播次数 | 1、2、3、4 | 生产行为 | 离线 | 统计 |
当日视频被点赞数 | 1、2、3、4 | 生产行为 | 离线 | 统计 |
是否高产高质用户 | 是、否 | 生产行为 | 离线 | 规则 |
生产意向 | 弱、中、强 | 生产行为 | 离线 | 挖掘 |
当日视频被评论数 | 1、2、3、4 | 生产行为 | 实时 | 统计 |
观看视频时长 | 10、20、30、40 | 消费行为 | 离线 | 统计 |
点赞次数 | 1、2、3、4 | 消费行为 | 离线 | 统计 |
近一周平均在线时长 | 1、5、10、20 | 消费行为 | 离线 | 统计 |
是否高活爱分享用户 | 是、否 | 消费行为 | 离线 | 规则 |
当日新增评论数 | 1、2、3、4 | 消费行为 | 实时 | 统计 |
日活地域 | 山东、河南 | 用户行为 | 离线 | 统计 |
是否日活用户 | 是、否 | 用户行为 | 离线 | 统计 |
注册时间 | 2022-06-01 | 用户行为 | 离线 | 统计 |
是否高活女性 | 是、否 | 用户行为 | 离线 | 规则 |
是否作弊用户 | 是、否 | 用户行为 | 离线 | 挖掘 |
生命周期 | 新手、成长、成熟、流失 | 用户行为 | 离线 | 挖掘 |
是否被封禁 | 是、否 | 用户行为 | 离线 | 实时 |
操作系统 | Android、IOS | 设备信息 | 离线 | 统计 |
设备价格 | 1000-2000、2000-4000 | 设备信息 | 离线 | 统计 |
手机品牌 | HUAWEI、VIVO、IPhone | 设备信息 | 离线 | 统计 |
是否Android高端机 | 是、否 | 设备信息 | 离线 | 规则 |
手机型号 | HUAWEIP20、IPhone13 | 设备信息 | 离线 | 统计 |
Android版本 | 8.0.0、8.0.1 | 设备信息 | 离线 | 统计 |
当日被举报数 | 1、2、3、4 | 风控信息 | 离线 | 统计 |
近一个月是否被封禁 | 是、否 | 风控信息 | 离线 | 统计 |
近一周是否有评论敏感词 | 是、否 | 风控信息 | 离线 | 统计 |
是否黑灰产用户 | 是、否 | 风控信息 | 离线 | 挖掘 |
当日被举报次数 | 1、2、3、4 | 风控信息 | 实时 | 统计 |
本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。