数据分析能力,未来会越来越重要。之前推送过很多篇相关文章,基于此再扼要总结,广义上数据分析的学习路线,此处数据分析我延伸到建模部分,只为了从宏观上更清楚的认识,数据分析和数据建模是如何从零到上线,并应用于生产实践与指导中的。
数据分析思维贯穿始终,前几天推送过数据分析必知的 9 种思维
有了数据才能分析,数据获取方法至关重要,常见的:公司大数据平台,通过爬虫获取,第三方数据接口,公开的数据集等。爬虫常用框架Beautiful Soup,requests,urllib模块,lxml包,正则技术,html结构,对于动态网页爬取JS必不可少。
数据爬取后就要存储它,一般数据量,MongoDB,Mysql,大数据量,Hive和Spark,实时查询ES弹性数据库等。
下一步,数据预处理,包括数据转化 data transform:数据标准化、离散化等;数据清洗:异常值、缺失值、数据不均衡处理;数据集成:多个数据源规整到一起:merge,join等。
然后,数据分析,先拿excel折腾一回,函数分三类:SUM为代表聚合类、VLOOK为代表查询类、IF为代表逻辑类;数据再多的,拿Pandas分析一番,做做EDA(探索性分析),再大的使用Spark分析。
EDA后,会提出一些针对性的问题,尝试去建模,借助统计学工具,机器学习(传统的十几种常用算法)、深度学习(几个经典网络模型)开展回归、聚类分析,进而确定模型的各个参数,完成学习和建模。
得到模型上线部署后,要想业务人员看懂,还得要数据可视化,制作各种报表,这些才是对外交流的材料。
最后讲给业务人员,确保能够给他们解释清楚。应用到生产中后,业务和客户会不断反馈,然后我们再去不断迭代模型,再上线,再收到反馈,一直循环往复下去。
大概来讲,以上就是数据分析的完整过程,可能遗漏有些环节,读者们留言补充。顺便说一句,模型的可解释性挺重要,趋向简单化,更容易解释给用户,实际项目中会省去很多麻烦。