作者:Corley
源自:快学python
应作者原创版权要求,本篇文章谢绝转载
1.大数据时代的基本面
大数据产业发展现状:现在数据已经呈现出了爆炸式的增长,每一分钟可能就会有:
- 13000 个iPhone应用下载
- Twitter上发布98000 新微博
- 发出1.68亿 条Email
- 淘宝双十一10680 个新订单
- 12306出票1840 张
在大数据时代,出现了三大变革:
- 从随机样本到全量数据
- 从精确性到混杂性
- 从因果关系到相关关系
举一个典型的例子:男士到超市买尿布会顺带买一些啤酒,通过大数据分析出的结果促使超市在尿布的货架附近放一些啤酒,从而增大销量,买尿布与买啤酒之间没有因果关系,但是存在着某种相关关系。
国内大数据应用状况如下(来自CSDN):
可以看到,大数据的应用已经具有一定规模,但是还有很大的发展空间。
人才方面的需求主要包括:
- 数据分析师
- 统计分析
- 预测分析
- 流程优化
- 大数据工程师
- 平台开发
- 应用开发
- 技术支撑
- 数据架构师
- 业务理解
- 应用部署
- 架构设计
之所以要学习数据分析,是因为数据正变得越来越常见和廉价,分析可以为数据提供稀缺且附带额外价值的服务。
2.数据分析师职业前景
数据分析师需要解决的问题:
- 预估需求、分配产能 在大数据时代,更需要解读数据的能力。Q:烤箱的产能有限,该选择生产哪些种类的面包? A:列出最受欢迎的几种面包,优先生产明星商品。关键是找出明星商品,这需要统计出面包的总营业额,再算出每种面包占总营业额的相对比例,优先生产能囊括七成营业额的产品组合。这会用到统计的次数分配表和直方图,此种分析法也称为ABC分析法,如下:
- 评估行销方案成效 统计并不是分析数据就好了,从分析的结果推测该如何影响顾客的行为,并且将之拟定为具体的商业计划,并据此行动才是关键。Q:想在网上销售面包,哪一种广告比较有效? A:写出两种文案,分别广告一段时间看看成效如何。要比较广告成效,最好的方法是用统计的随机对照实验,让两种广告随机出现,一段时间后,观察哪种广告的效果比较好,再大范围运用效果比较好的广告。
- 产品品管 发现结果以及形成结果的原因之间的关系非常重要。Q:怎么从面包判断,面包师傅有没有偷工减料? A:抽查几个面包,秤秤看重量差距有没有过大。你需要先知道面包的平均重量,再对面包进行抽样,看看面包的重量是否呈现常态分布的钟形曲线?若是偏离曲线,就可能暗示面包品管有问题。如下:
一名好的数据分析师是一个好的产品规划者和行业的领跑者;在IT企业,优秀的数据分析师很有希望成为公司的高层。
数据分析师的工作流程如下:
数据分析师的三大任务:
- 分析历史
- 预测未来
- 优化选择
数据分析师要求的8项技能:
- 统计学
- 统计检验、P值、分布、估计
- 基本工具
- Python
- SQL
- 多变量微积分和线性代数
- 数据整理
- 数据可视化
- 软件工程
- 机器学习
- 数据科学家的思维
- 数据驱动
- 问题解决
数据分析师要求的三大能力:
- 统计学基础和分析工具应用
- 计算机编码能力
- 特定应用领域或行业的知识
典型的数据分析师的成长历程:
3.成为数据分析师之路
成为数据分析师的自我修养:
- 敏感
- 探究
- 细致
- 务实
数据分析师需要具备的技能如下:
- 熟悉Excel数据处理
- 数据敏感度较强
- 熟悉公司业务和行业知识
- 掌握数据分析方法
- 相关分析法
- 回归分析法
- 聚类分析法
- 判别分析法
- 主成分分析法
- 因子分析法
- 对应分析法
- 时间序列
- 对比分析法
- 分组分析法
- 交叉分析法
- 结构分析法
- 漏斗图分析法
- 综合评价分析法
- 因素分析法
- 矩阵关联分析
- 基本分析方法
- 高级分析方法
在不同行业数据分析从业人员的工作内容和职责:
- 从事数据分析的工作
- 学做日报
- 日销、库存类的表
- 产品销售预测
- 库存计算和预警
- 流量分析相关表
- 复盘
- 数据分析挖掘工作人员
- 给产品优化提供数据支持
- 验证产品改进效果
- 为高层提供邮件和报表
- 互联网 分析
- KPI指标监控
- 各种周期性报表
- 针对某一业务问题做分析报告
- 针对业务进行线下建模和分析
数据分析很重要的学科基础是数学,但是数学不好也没有关系,可以用Python来帮助学习:Python不仅是一门编程语言,而且是数据挖掘机器学习等技术的基础,方便建立自动化的工作流;Python入门不难,它对数学要求并不是太高,重要的是需要知道如何用语言表达一个算法逻辑;Python有很多封装好的工具库和命令,我要做的是用哪些数学方法解决一个问题,并构建出来。
要想快速入门Python数据分析,就要使用好Python相关的工具包:(1)Python最大的特点是拥有一个巨大而活跃的科学计算社区,采用python进行科学计算的趋势也越来越明显。(2)由于Python有不断改良的库,使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只是用Python这一种语言去构建以数据为中心的应用程序,其中:
- 常用数据分析库
- Numpy
- Scipy
- Pandas
- matplotlib
- 常用高级数据分析库
- nltk
- igraph
- scikit-learn
(3)作为一个科学计算平台,Python的能够轻松集成C、C 以及Fortran代码。
数据分析的准备工作:
- 了解数据
- 数据清洗与初步分析
- 绘图与可视化
- 数据聚合与分组处理
- 数据挖掘
数据分析与数据挖掘的常用算法:
- 线性回归
- 时间序列分析
- 分类算法
- 聚类算法
- 降维算法
学习和从事数据分析工作的方法为:
- 勤思考
- 多动手
- 多总结
结语
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对小编的支持。