“
“钱多事少离家近,位高权重责任轻,睡觉睡到自然醒,数钱数到手抽筋”, 这样的工作真的存在吗?快随本文数据侠,一起搜罗吧~
本文转自公众号城市数据团(ID:metrodatateam)
前几天学姐来找我:“我想换一个工作。你用数据帮我看看什么行业好?”
我说:“好呀。学姐你对工作有什么要求呢?”
学姐说:“钱多事少离家近。”
虽然我不相信有这样好的工作,但看看总没有坏处嘛。于是我打开电脑,开始对行业一项一项进行筛选。
第一项,钱多。这个容易。根据《上海统计年鉴2017》,各行业平均年收入如下图所示:
根据上图,可将20个行业大项分为四类:
1、收入超高(20万以上):金融业; 2、收入较高(10-20万):水电气生产供应业、采矿业、信息服务业、卫生和社会工作产业、公共管理业、科研服务业; 3、收入中等(5-10万):交运仓储业、文化体育娱乐业、商务服务业、批发零售业、公共设施管理业、房地产业、制造业; 4、收入较低(5万以下):建筑业、住宿餐饮业、农林牧渔业、教育业。
显然,在“钱多”的标准下,金融、水电气生产供应、采矿、信息服务等都是不错的选择。
第二项,事少。数据论证有点麻烦,姑且跳过吧。
第三项,离家近。由于学姐不肯透露她住在哪里,我只好假设学姐住在上海各地的概率与上海人口总体分布概率相同。然后,我以人口密度最高处(市中心)为原点,绘制出各个行业企业的密度衰减曲线。
上图中,离市中心距离为0处的企业密度越高,说明该行业在市中心的密集度越高。假如学姐从事了该行业的工作,那么工作地点离学姐家近的概率也越高。(学姐明确表示:一些行业她没有进入渠道(如水电气生产和供应),另一些行业她没有能力从事(如农业、卫生),因此,图中只保留了像学姐这样的大多数普通人有一定选择空间的10个行业大类;其中,信息服务业和科研服务业进行了合并。)
根据上图,从行业密集(离家近概率)的角度,我们再次将行业分为四类:
1、行业聚集度极高(离家近概率很大):金融业、住宿餐饮业; 2、行业聚集度较高(离家近概率较大):商务服务业、房地产业、文化体育娱乐业; 3、行业聚集度一般(离家近概率一般):批发零售业、信息服务业、交运仓储业; 4、行业聚集度较低(离家近概率较低):制造业、建筑业。
我指着图说:“学姐,同时符合钱多和离家两个要求的只有金融了。次优的选择是信息科技服务业,钱多,但离市中心不算近;商务服务、文化娱乐的距离比较适中,但收入就不算太高了。”
学姐皱眉思考了片刻:“金融虽然很好,但据说加班很厉害。我可不想把美好的青春年华都奉献给工作。你再帮我看看哪些行业不加班吧。”
我叹了口气,看来“事少”的研究是逃不掉了。
怎么衡量“事少”呢?从常识来看,事少的行业应该符合以下表现中的至少一个:上班晚、下班早、工作时间短。而为了找到大家都在什么时候上下班,我不得不搬出了前几天 延华智能 提供的建筑用电量数据。
(图片说明:这是一张“城市呼吸”图。图中白金色线条代表道路和来往人流,柱子代表建筑,红色柱子为我们的样本建筑。用电量越大的时刻,红色越深。每一天随着时间的变化,人来人往,灯亮灯灭。)
我们的建筑样本全部位于上海市黄浦区。用电数据为2017年全年、每隔15分钟记录一次的用电量。其中,我们用于研究的是办公建筑(写字楼),样本数量约100个。(由于样本数量、抽样规则和推算方法的不完善,我们的结论与实际情况将存在一定偏差。不过,依然不失为一次有趣的尝试。)
从时间上看,写字楼用电具有明显的周期性规律:
可以看到,写字楼的三个周期规律为:
1、季节周期:用电量与气温高度相关。4-6月和9-11月的用电量相对稳定,在最热的7-8月和最冷的12-1月,用电量有显著增加。
2、节假日周期:以年为周期,春节、国庆等法定节日用电量减少;以星期为周期,周末用电量为工作日的1/2-2/3。
3、天周期:每天的零点到6点用电量处于低谷,从7点开始用电量飙升,于10点达到最高峰,其后缓慢下降,下午5点开始剧烈下降。
根据上述规律,我们制定如下研究思路:
1、基于写字楼用电量设计工作状态指标;
2、通过地址匹配找到入驻各幢写字楼的企业,并进一步计算行业结构;
3、用回归模型对各行业的工作状态进行模拟。
由于时间序列上的用电量绝对值不仅仅由工作用电决定,还受到基础用电、气温等多重因素的影响(本文最后的彩蛋有更为具体的解释),为了减少这些干扰,我们将用电量处理为相对值,并由此引申出上班时间、下班时间、工作时长的概念:
上图中:
1、相对用电量 = (当前时间分段用电量-当日分段用电量最小值) / (当日分段用电量最大值-当日分段用电量最小值)
2、上班时间为相对用电量第一次达到最高峰值70%的时刻,下班时间为相对用电量最后一次达到最高峰值70%的时刻,工作时长为下班时间与上班时间之差。
3、每幢写字楼的上下班时间和工作时长各不相同。总体水平为8:30上班,6:00下班,工作时长9.5小时(含午休)。
接下来,我们要找到每幢写字楼里都有哪些企业。我们以 启信宝 提供的企业经营地址,与写字楼地址进行了匹配,从而获得了写字楼中企业的规模和行业信息。
现在,我们可以展开回归分析了。以行业结构(某行业占该写字楼中所有企业的比例)为自变量,以工作时长、上班时间、下班时间为因变量,标准化处理后进行三次回归分析,模型的平均误差在5%左右,R2介于0.7-0.8。
根据回归系数的大小,我们对各行业的工作状况进行了推算:
(图片说明:回归系数反映的是各行业对 工作时长/上下班时间 的贡献大小和方向。本图是根据系数大小的推算结果,不能等同于 工作时长/上下班时间 的排名。)
根据上图,从“事少”的角度,我们再次将行业分类:
1、早起早归型:批发零售业、信息技术服务业、交运仓储业 2、晚起晚归型:建筑业 3、起早贪黑型:商务服务业、住宿餐饮业、房地产业 4、正常型:金融业、制造业、文化体育娱乐业
至此,我们可以从“钱多事少离家近”三个角度给出十大行业的综合排名了:
1、金融:收入超高-离家近概率很大-工作状态普通; 2、信息科技服务业:收入较高-离家近概率一般-早起早归; 3、文化体育娱乐业:收入中等-离家近概率较大-工作状态普通; 4、商务服务业:收入中等-离家近概率较大-起早贪黑; 5、房地产业:收入中等-离家近概率较大-起早贪黑; 6、交运仓储业:收入中等-离家近概率一般-早起早归; 7、批发零售业:收入中等-离家近概率一般-早起早归; 8、制造业:收入中等-离家近概率较低-工作状态普通 9、住宿餐饮业:收入较低-离家近概率很大-起早贪黑。 10、建筑业:收入较低-离家近概率较低-晚起晚归。
看着这个榜单,我恍然大悟:“居然真的有钱多事少离家近的工作呀!……唉,学姐你去哪?”
“买两本CFA教程。”
▍彩蛋:一年之中,何时加班最疯狂?
学姐走后,我觉得这个小研究做得还不过瘾。不妨顺便用这组数据再看一看,大家都在什么时候加班多,什么时候休假多?
个人的加班或休假行为很难在用电数据层面体现。但群体的加班或休假将使得用电发生相应变化:
1、大量员工休假→在岗员工数量减少→工作用电量减少
2、大量员工加班→夜间用电比例增加→工作用电量增加
由此可以推知,工作用电量是衡量员工工作状态的重要指标。然而,工作用电只是建筑用电的一部分。因此,需要从建筑用电量中剥离出工作用电量,再判断其数值是否处于合理区间。
一般来说,办公建筑用电可以粗略分为三个部分:基础用电、空调用电和工作用电。
- 基础用电。办公楼正常运转的基础消耗,如通风用电、电梯用电、走廊灯光用电等。
- 假设每日基础耗电量是一个常数,以β表示。
- 空调暖气用电。温度偏离适宜温度越远,空调需求量越大。
- 空调暖气用电量与气温(t)有显著相关性,空调积温指数(T)是一种常见的测算方法,T=max(thigh-27,0) max(10-tavg,0)。该部分用电量与空调积温指数呈线性相关,假设其形式为α1T。(参考文献:chenqin《上海用电量一年降了30多亿度,其实原因很简单》。)
- 理想状态下的工作用电。假设一年中员工数量没有大规模变动,则工作日的正常工作时间内(8-18点)、正常工作强度下为一个常数,表示为α2。
- 设定一个虚拟变量W,工作日W=1,节假日W=0,则每日的常规工作耗电量为α2W。
由此可以构建回归方程:e = β α1T α2W ε
上式中,e表示每日总用电量,β表示基础用电,α1T表示空调用电,α2W表示理想状态下的工作用电;ε表示回归模型的残差,也就是预测用电量与实际用电量的差值,(α2W ε)近似代表实际的工作用电量。
若实际用电量小于预测用电量(ε<0),很可能意味着在岗员工数量较少、大量员工处于休假状态;若实际用电量大于预测用电量(ε>0),则有着员工数量增加、工作时间延长、工作强度增大等多种可能,需要进一步验证。
接下来,我们采用线性回归,求出β、 α1、α2三个参数的值(模型的平均误差为9.5%,R2为84.4%)。将参数值代入到方程中,将可以分别模拟得到每日的各项用电量及总用电量,并从而得到预测用电量与实际用电量的残差ε。如下图所示:
上图中,黑色实线表示实际用电总量,深蓝色区域表示预测基础用电量、天蓝色区域表示预测空调用电量,浅蓝色区域表示理想工作用电量,绿色区域表示超额工作用电量(实际值高于预测值,ε>0),橙色区域表示不足工作用电量(实际值低于预测值,ε<0)。
图中橙色和绿色区域为选择性展示,实质为A与B的交集。A:实际用电量与预测用电量的差值大于平均误差水平的日期。B:使用随机森林模型进行每天每小时用电量预测,其中全天用电量偏低(橙)/或夜间用电量比例偏高(绿)的日期;该部分方法本文中不再展开。
由图可知,用电超额的时段(绿色),也就是大家最可能在疯狂加班的时段,可以分为两类:
1、第一类零星分布在3月、5月、6月、9月的许多周末。
2.、第二类集中分布在6月中下旬、8月到9月中旬。
而用电不足的时段(橙色),则可以分为三类:
1、第一类为春节前两周、春节后一周,此类用电不足主要是因为员工数量不足;这反映出春节前提前休假、春节后推后上班,是较为普遍的做法。
2、第二类用电不足时段分布在清明节-劳动节、以及国庆节后;这两个时段是一年中不需要开空调、气候最为适宜的时节,也是旅游度假的最好时机。
3、第三类则零散分布在某些工作日的周四、周五,原因嘛,大家都懂的……
本文的行业榜单和加班/休假时间分布,与你的认知是否相符呢?欢迎给本文留言交流。
注: 本文仅为作者观点,不代表DT财经立场。
作者 | 若木、团支书
题图 | 视觉中国
▍数据侠门派
本文数据侠来自城市数据团,他们关注生活在城市中的个人,致力于用市民的生活轨迹,数字化地描绘城市生活、揭示城市问题。