kaggle共享单车数据分析,第一部分2020.7.22

2022-08-11 18:02:00 浏览数 (1)

复现-kaggle共享单车数据分析python和fine BI方法,第一部分2020.7.22

网址:https://mp.weixin.qq.com/s/Bvswod0Pxw7wqpel-HSBAQ

https://zhuanlan.zhihu.com/p/115544067

https://www.cnblogs.com/xxstudyshare/p/12789150.html

https://www.sohu.com/a/284341148_120045139

数据集来源:https://www.kaggle.com/pronto/cycle-share-dataset

准备:注册kaggle帐号,下载数据集。解压后46M,28万条数据。

Python部分

1、数据导入:提示错误%matplotlib inline,是在使用jupyter notebook 或者 jupyter qtconsole的时候,才会经常用到%matplotlib,而我们在spyder或者pycharm实际运行代码的时候,可以直接注释掉这一句,也是可以运行成功的。

'./trip.csv'

CSV文件放在py文件夹中,不需要写前地址。

2、查看数据

3、数据清洗

4、数据分析

从箱线图中可以得出,共享单车使用高峰分别是早上8点和下午5点,此时间段正好是早晚上下班高峰

从箱线图中可以得出,工作日平均使用量高于非工作日

从箱线图中可以看出,6月-8月共享单车使用量较高,12月-次年2月共享单车使用量较低

会员占比为63.3%,非会员占比为36.7%

男性使用共享单车数量占比最大,达到77.4%

使用共享单车中30-40岁的用户最多,其次是20-30岁。

温度在50-80华氏度,共享单车需求量最大,这个判断存疑,温度,湿度存在正态分布。

湿度在30-70需求量最大,湿度过高会抑制共享单车需求量

能见度大于3,共享单车使用数量之间差别不大,但能见度小于3会影响单车的使用率。

fine BI部分

1、整理数据,数据很卡,需要尽量极简数据。

2、订单编号与行程时间(秒)

2015.4左右以后的行程时间没有超过28400秒,8小时,是后台限制了骑行时间不超过8小时?

抽样局部数据看,行程时间在60-3000秒,1-50分钟之间,超过50分钟的较少。

看完整数据,行程时间基本在50分钟内,超过3小时的很少。

工作日平均使用量高于非工作日

非会员双休比会员多,会员工作日比非会员多,说明非会员双休体验共享单车,工作日还是其他出行方式?

男性比女性骑行多,双休非会员可能没填信息。

确实非会员是没填性别的,男性是女性4倍。

会员年龄与性别,1987年是人数高峰,也怀疑填年龄是否存在默认年龄是1987年,男女其他都是高峰。

骑行日期月份与骑行数量

0 人点赞