马云曾说“中国正迎来从IT时代到DT时代的变革”,DT就是大数据时代。数据已成为企业的核心资产和宝贵资源,企业愈加重视和善加利用数据分析与挖掘技术。
1.1什么是数据分析与挖掘
数据分析和挖掘都是基于搜集来的数据,应用数学、统计、计算机等技术抽出数据中的有用信息,进而为决策提供依据和指导方向。
举例:应用漏斗分析法挖掘出用户体验过程中的不足之处,从而进一步改善产品的用户流程;基于RFM模型实现用户的价值分析,进而针对不同价值等级的用户采用各自的营销方案,实现精准触达。
1.2数据分析与挖掘的应用领域
有数据的地方就有用武之地:电商平台、游戏平台、社交平台、金融行业、教育行业、医疗行业、房地产、餐饮等,这些行业都需要借助数据分析和挖掘技术来指导下一步的决策方向。
应用实例:
1.2.1电商领域——发现破坏规则的害群之马
1.2.2交通出行领域——为打车平台进行私人订制
1.2.3医疗健康领域——找到最佳医疗方案
1.3数据分析与数据挖掘的区别
从广义角度来说:数据分析涵盖了数据分析与数据挖掘,是对搜集来的数据运用基础探索、统计分析、深层挖掘等方法,发现数据中有用的信息和未知的规律与模式,进而为下一步的业务决策提供理论与实践依据。
从狭义角度来说,两略有不同:
1.4数据挖掘的流程
1.5常用数据分析与挖掘工具
工欲善其事 ,必先利其器。“器”兼指两方面:软实力:对企业业务逻辑的理解、理论知识的掌握和施展工作的清醒大脑;硬实力:即对数据挖掘工具的掌握;
- R语言:奥克兰大学统计系的Robert Gentleman 和 Ross Ihaka共同开发,1993年首次面世。数据操作灵活、向量化计算高效、数据可视化效果佳、易用性和可扩展性好,优秀的数据挖掘工具。
- Python:荷兰人Guido van Rossum于1989年发明,1991年首次公开发行。简单易学的编程类工具。代码具有简洁性、易读性、易维护性的优点,第三方 模块与R语言一样丰富,在大数据时代应用日益广泛。
- Weka:由新西兰怀卡托大学计算机系Ian Written博士于1992年底研发,是公开的数据挖掘平台。其图形化界面适用于对于不擅长编程的用户。
- SAS:美国北卡罗来纳州大学开发的统计分析软件,应用广泛,包含数十个模块。
- SPSS:世界上最早的统计分析软件,斯坦福大学三个研究生在1968年研发。
以上五种工具,其中R语言、Python和Weka属于开源工具,免费下载和使用;SAS和SPSS为商业软件,需要付费。
读书笔记内容来源:刘顺祥,《从零开始学Python数据分析与挖掘》