复现-kaggle共享单车数据分析python和fine BI方法,第一部分2020.7.22
网址:https://mp.weixin.qq.com/s/Bvswod0Pxw7wqpel-HSBAQ
https://zhuanlan.zhihu.com/p/115544067
https://www.cnblogs.com/xxstudyshare/p/12789150.html
https://www.sohu.com/a/284341148_120045139
数据集来源:https://www.kaggle.com/pronto/cycle-share-dataset
准备:注册kaggle帐号,下载数据集。解压后46M,28万条数据。
Python部分
1、数据导入:提示错误%matplotlib inline,是在使用jupyter notebook 或者 jupyter qtconsole的时候,才会经常用到%matplotlib,而我们在spyder或者pycharm实际运行代码的时候,可以直接注释掉这一句,也是可以运行成功的。
'./trip.csv'
CSV文件放在py文件夹中,不需要写前地址。
2、查看数据
3、数据清洗
4、数据分析
从箱线图中可以得出,共享单车使用高峰分别是早上8点和下午5点,此时间段正好是早晚上下班高峰
从箱线图中可以得出,工作日平均使用量高于非工作日
从箱线图中可以看出,6月-8月共享单车使用量较高,12月-次年2月共享单车使用量较低
会员占比为63.3%,非会员占比为36.7%
男性使用共享单车数量占比最大,达到77.4%
使用共享单车中30-40岁的用户最多,其次是20-30岁。
温度在50-80华氏度,共享单车需求量最大,这个判断存疑,温度,湿度存在正态分布。
湿度在30-70需求量最大,湿度过高会抑制共享单车需求量
能见度大于3,共享单车使用数量之间差别不大,但能见度小于3会影响单车的使用率。
fine BI部分
1、整理数据,数据很卡,需要尽量极简数据。
2、订单编号与行程时间(秒)
2015.4左右以后的行程时间没有超过28400秒,8小时,是后台限制了骑行时间不超过8小时?
抽样局部数据看,行程时间在60-3000秒,1-50分钟之间,超过50分钟的较少。
看完整数据,行程时间基本在50分钟内,超过3小时的很少。
工作日平均使用量高于非工作日
非会员双休比会员多,会员工作日比非会员多,说明非会员双休体验共享单车,工作日还是其他出行方式?
男性比女性骑行多,双休非会员可能没填信息。
确实非会员是没填性别的,男性是女性4倍。
会员年龄与性别,1987年是人数高峰,也怀疑填年龄是否存在默认年龄是1987年,男女其他都是高峰。
骑行日期月份与骑行数量