Python数据分析实战(1)数据分析概述

2021-08-09 10:08:39 浏览数 (1)

作者:Corley

源自:快学python

应作者原创版权要求,本篇文章谢绝转载

1.大数据时代的基本面

大数据产业发展现状:现在数据已经呈现出了爆炸式的增长,每一分钟可能就会有:

  • 13000 个iPhone应用下载
  • Twitter上发布98000 新微博
  • 发出1.68亿 条Email
  • 淘宝双十一10680 个新订单
  • 12306出票1840 张

在大数据时代,出现了三大变革:

  • 从随机样本到全量数据
  • 从精确性到混杂性
  • 从因果关系到相关关系

举一个典型的例子:男士到超市买尿布会顺带买一些啤酒,通过大数据分析出的结果促使超市在尿布的货架附近放一些啤酒,从而增大销量,买尿布与买啤酒之间没有因果关系,但是存在着某种相关关系。

国内大数据应用状况如下(来自CSDN):

可以看到,大数据的应用已经具有一定规模,但是还有很大的发展空间。

人才方面的需求主要包括:

  • 数据分析师
    • 统计分析
    • 预测分析
    • 流程优化
  • 大数据工程师
    • 平台开发
    • 应用开发
    • 技术支撑
  • 数据架构师
    • 业务理解
    • 应用部署
    • 架构设计

之所以要学习数据分析,是因为数据正变得越来越常见和廉价,分析可以为数据提供稀缺且附带额外价值的服务。

2.数据分析师职业前景

数据分析师需要解决的问题:

  • 预估需求、分配产能 在大数据时代,更需要解读数据的能力。Q:烤箱的产能有限,该选择生产哪些种类的面包? A:列出最受欢迎的几种面包,优先生产明星商品。关键是找出明星商品,这需要统计出面包的总营业额,再算出每种面包占总营业额的相对比例,优先生产能囊括七成营业额的产品组合。这会用到统计的次数分配表和直方图,此种分析法也称为ABC分析法,如下:
  • 评估行销方案成效 统计并不是分析数据就好了,从分析的结果推测该如何影响顾客的行为,并且将之拟定为具体的商业计划,并据此行动才是关键。Q:想在网上销售面包,哪一种广告比较有效? A:写出两种文案,分别广告一段时间看看成效如何。要比较广告成效,最好的方法是用统计的随机对照实验,让两种广告随机出现,一段时间后,观察哪种广告的效果比较好,再大范围运用效果比较好的广告。
  • 产品品管 发现结果以及形成结果的原因之间的关系非常重要。Q:怎么从面包判断,面包师傅有没有偷工减料? A:抽查几个面包,秤秤看重量差距有没有过大。你需要先知道面包的平均重量,再对面包进行抽样,看看面包的重量是否呈现常态分布的钟形曲线?若是偏离曲线,就可能暗示面包品管有问题。如下:

一名好的数据分析师是一个好的产品规划者和行业的领跑者;在IT企业,优秀的数据分析师很有希望成为公司的高层。

数据分析师的工作流程如下:

数据分析师的三大任务:

  • 分析历史
  • 预测未来
  • 优化选择

数据分析师要求的8项技能:

  • 统计学
    • 统计检验、P值、分布、估计
  • 基本工具
    • Python
    • SQL
  • 多变量微积分和线性代数
  • 数据整理
  • 数据可视化
  • 软件工程
  • 机器学习
  • 数据科学家的思维
    • 数据驱动
    • 问题解决

数据分析师要求的三大能力:

  • 统计学基础和分析工具应用
  • 计算机编码能力
  • 特定应用领域或行业的知识

典型的数据分析师的成长历程:

3.成为数据分析师之路

成为数据分析师的自我修养:

  • 敏感
  • 探究
  • 细致
  • 务实

数据分析师需要具备的技能如下:

  • 熟悉Excel数据处理
  • 数据敏感度较强
  • 熟悉公司业务和行业知识
  • 掌握数据分析方法
    • 相关分析法
    • 回归分析法
    • 聚类分析法
    • 判别分析法
    • 主成分分析法
    • 因子分析法
    • 对应分析法
    • 时间序列
    • 对比分析法
    • 分组分析法
    • 交叉分析法
    • 结构分析法
    • 漏斗图分析法
    • 综合评价分析法
    • 因素分析法
    • 矩阵关联分析
    • 基本分析方法
    • 高级分析方法

在不同行业数据分析从业人员的工作内容和职责:

  • 从事数据分析的工作
    • 学做日报
    • 日销、库存类的表
    • 产品销售预测
    • 库存计算和预警
    • 流量分析相关表
    • 复盘
  • 数据分析挖掘工作人员
    • 给产品优化提供数据支持
    • 验证产品改进效果
    • 为高层提供邮件和报表
  • 互联网 分析
    • KPI指标监控
    • 各种周期性报表
    • 针对某一业务问题做分析报告
    • 针对业务进行线下建模和分析

数据分析很重要的学科基础是数学,但是数学不好也没有关系,可以用Python来帮助学习:Python不仅是一门编程语言,而且是数据挖掘机器学习等技术的基础,方便建立自动化的工作流;Python入门不难,它对数学要求并不是太高,重要的是需要知道如何用语言表达一个算法逻辑;Python有很多封装好的工具库和命令,我要做的是用哪些数学方法解决一个问题,并构建出来。

要想快速入门Python数据分析,就要使用好Python相关的工具包:(1)Python最大的特点是拥有一个巨大而活跃的科学计算社区,采用python进行科学计算的趋势也越来越明显。(2)由于Python有不断改良的库,使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只是用Python这一种语言去构建以数据为中心的应用程序,其中:

  • 常用数据分析库
    • Numpy
    • Scipy
    • Pandas
    • matplotlib
  • 常用高级数据分析库
    • nltk
    • igraph
    • scikit-learn

(3)作为一个科学计算平台,Python的能够轻松集成C、C 以及Fortran代码。

数据分析的准备工作:

  • 了解数据
  • 数据清洗与初步分析
  • 绘图与可视化
  • 数据聚合与分组处理
  • 数据挖掘

数据分析与数据挖掘的常用算法:

  • 线性回归
  • 时间序列分析
  • 分类算法
  • 聚类算法
  • 降维算法

学习和从事数据分析工作的方法为:

  • 勤思考
  • 多动手
  • 多总结

结语

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对小编的支持。

0 人点赞