题图:Photo by Karsten Würth on Unsplash
前言
这是我对上一份工作的一个记录,不一定能提供到一些有效的增量信息,请随缘观看。
注意:从实习到离职的完整时间仅有一年半,对整个行业的了解还是偏片面的,所以下面的描述在客观事实上不一定是完全准确的,仅保证主观上没有刻意误导,有误导的地方也写出来
背景介绍
前司是一家在广州市的一家科技相关的公司,我在里面的 Title 是数据分析师,我所在的部门可以简单的分为两个组,一个是 DPI,一个是 DMP,我在 DPI,都是与运营商数据有关的。
先说背景,前公司和某运营商有合作,可以从那边合法的拿到基站、家庭带宽的上网行为日志等数据
上网行为日志:可以简单的理解为手机等设备请求了什么网站,访问了什么图片、视频的一个记录,从开始 DNS 解析到建立 TCP 连接到响应 HTTP 请求到断开连接。
对我们来说,有用的其实只有 HTTP 请求的数据,别的数据没多大意义,或者说用处不大。
HTTP 协议的请求,可以获取到域名 (Host) 和 Uri、User Agent。 HTTPS 协议的请求,只能通过别的方式推算出 Host(不一定准确)
HTTPS 确实是会比 HTTP 安全,下图这个例子不太准确,但是用来理解倒是挺方便的。
那会做的事情就是先进行测试(抓包),然后总结出口径,提单拿数据回来。如果发现数据/口径不对,那就得重来。
- 举一个简单例子,比如想知道拼多多的日活,我们对拼多多这个 App 进行测试(抓包),测试出
*.pinduoduo.com、*.yangkeduo.com
这样的 Host 是拼多多的,访问了这些 Host 就是访问了拼多多。那么从某运营商那边可以拿到访问了符合这些特征的数据(数据包括但不限于 uv、pv、用户画像、用户年龄层次、设备型号、性别)。
上面这种是针对于整个应用的,可以获取到某一个或者某一类 App 的数据,或者用某一个或者某一类 App 的用户的数据(网购用户、手游用户、传奇类游戏用户、看车的用户),找到买房意向、买车意向、氪金意向的用户。
- 某些情况下 (http),我们能够做到监测用户在应用里面的某种行为,比如说付费、点赞、评论、搜索之类的。
- 我们还可以拿到栅格人流的数据 (基站),就是说某一个小区/广场/园区的数据。先画个格子,然后拿相关的数据。
下面是关于前公司 DPI、DMP 的描述。
DPI
DPI (Deep Packet Inspection), 是一种基于数据包的深度检测技术,针对不同的网络应用层载荷(例如 HTTP、DNS 等)进行深度检测。
举个例子,假如微信这个应用使用的域名是:wx.qq.com,且只有微信在用,那么就可以统计出微信的日活跃用户数、月活跃用户数。 如果加上位置、时间等数据,那就可以统计出什么时候、什么地方用微信的人有多少。
这就是运营商数据,所谓的上帝视角能做的事情,但我仍认为这个上帝有点残废。
难点
- 以字节系的应用举例,只凭借一个 Host 很难区分哪些是抖音的流量包,哪些是抖音火山版的流量包,哪些是今日头条、西瓜视频的流量包。
- 一些应用/小程序,本身使用的就是 SDK / 现成的服务,没有自己的域名、服务器,无法检测。
- http 转 https 的趋势是大势。而 https 的话,DPI 玩不来,而且很难玩出新花样。
- 数据的可信度,对结果的解释。
案例
总体来说,不外乎是想知道自身的数据,想知道竞对的数据,想知道行业/行业 Top 几的数据,数据采购。
- 大公司事业部/部门之间的数据不互通,要起来麻烦,于是找第三方;
- 某应用想知道某某应用上全部功能菜单的打开率;
- 某研究院想知道整个行业 Top5 的应用关于某一个类别的观看、跳转数据;
- 某数据公司采购运营商数据做补充。
以上的案例,人工添加了一些误导性的描述,但总体意思是对的。
尝试过的方向
- 小程序榜单,对标阿拉丁,结果是阿拉丁热度下降。
- 直播数据平台,对标胖球数据、飞瓜数据等,结果是胖球数据团队被抓进去了(21年9月份的事情)。
- 物联网设备的统计/榜单,没有下文。
- 长视频的统计/榜单,没有下文。
- 广告平台的监测,没有下文。
DMP
DMP (Data Management Platform),数据管理平台,用于收集分析大数据,并将其连接到营销手段的平台。
根据某些方式 / 算法来打标签、画用户画像,从而划分人群(孕妇/宝妈/氪金大佬),然后对合适的用户进行营销(发短信/推送广告)
个人认为,这算是大数据营销,不算是精准营销。好的营销是把合适的商品/信息在合适的时间推给了合适的用户。
案例:某传奇类应用的短信推广;教培的短信推广。
难点:谁还看短信啊;政策风险。
数据源
除了运营商数据之外,还有爬虫数据、卫星数据、GPS数据、电力数据、SDK数据、手机厂商数据、内部数据、路由器数据、信用卡数据、邮件数据等数据,具体请看下图。
数据源
这里补充描述一下 SDK 数据的细节
SDK 数据:主要是为开发者/企业提供现成的服务,类似数据统计、数据分析、消息推送等。
在安卓手机上能看见某些应用疯狂的拉起/唤醒别的应用,主观上可能不是开发者/企业想这么做的,而是使用到的 SDK 为了某些目的做的。
相关补充
思维导图:
播客:
国内的另类数据行业(节目的 Host 在国外,懂的都懂): https://www.xiaoyuzhoufm.com/episode/60728f85b3b59ee30e7c13a8
对话行业资深从业者:金融另类数据究竟为何另类: https://www.xiaoyuzhoufm.com/episode/61b352ef32e9f3c7418aeb84
文章:
如何通过“先行数据”辅助投资决策
大数据及相关技术在投资研究中的应用——另类数据的发展: https://www.weiyangx.com/362558.html
网站:
https://alternativedata.org/alternative-data/
图片:
alternativedata.org 整理的 Alternative Data Stack
Alternative Data Stack
书:
The Book of Alternative Data