大数据技术涉及内容庞杂,应用领域广泛,各领域和方向采用的关键技术差异性也会较大。本文从数据科学和大数据关键技术体系角度,来说说大数据的核心技术什么。
1
大数据应用的目标是普适智能
要学好大数据,首先要明确大数据应用的目标。
大数据的终极目标是利用一系列信息技术实现海量数据条件下的人类深度洞察和决策智能化,最终走向普适的人机智能融合!这不仅是传统信息化管理的扩展延伸,也是人类社会发展管理智能化的核心技术驱动力。通过大数据应用,面向过去,发现数据规律,归纳已知;面向未来,挖掘数据趋势,预测未知。
国外大数据企业关系图
2
从大数据版图看数据科学关键技术
数据科学可以理解为一个跨多学科领域的,从数据中获取知识的科学方法,技术和系统集合,其目标是从数据中提取出有价值的信息,它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,人工智能,深度学习,数据可视化,数据挖掘,数据仓库,以及高性能计算等。图灵奖得主Jim Gray把数据科学喻为科学的“第四范式”(经验、理论、计算和数据驱动),并断言因为信息技术的影响和数据的泛滥增长,未来不管什么领域的科学问题都将由数据所驱动。
典型的数据科学过程
大数据时代,需要智能预测和分析支持了,所以核心技术离不开机器学习、数据挖掘、人工智能等,另外还需考虑海量数据的分布式存储管理和机器学习算法并行处理,所以数据的大规模增长客观上促进了DT技术生态的繁荣与发展,包括大数据采集、数据预处理、分布式存储、NOSQL数据库、多模式计算、多模态计算、数据仓库、数据挖掘、机器学习、人工智能、深度学习、并行计算、可视化等各种技术范畴和不同的层面。
大数据时代的技术和产品也正处于优胜劣汰的过程。下面我们来看2017版的大数据版图:
国外和国内中关村大数据产业版图
上述大数据版图基本涵盖了国外大数据相关技术和产业链(国内中关村版的大数据技术和企业还是太少,多是传统信息技术企业在凑数)。
大数据产业链从数据源--〉开源技术--〉基础设施--〉分析计算--〉行业应用到产品落地,每个链条环节和下辖的细分内容都涉及大量数据分析技术。
学习大数据首先要搞清楚的问题:
(1)机器学习:
机器学习是大数据处理承上启下的关键技术,机器学习往上是深度学习、人工智能,机器学习往下是数据挖掘和统计学习。核心目标是通过函数映射、数据训练、最优化求解、模型评估等一系列算法实现让计算机拥有对数据进行自动分类和预测的功能。 大数据处理要智能化,机器学习是核心的核心。
(2)数据挖掘:
数据挖掘核心技术来自于机器学习领域,数据挖掘的提法比机器学习要早,应用范围要广,数据挖掘和机器学习是大数据分析的核心技术,互为支撑,为大数据处理提供相关模型和算法,而模型和算法是大数据处理的关键。
(3)人工智能:
AI的终极目标是机器智能化拟人化,机器能完成和人一样的工作,能够处理种种复杂的问题。
人工智能与机器学习的关系,两者的相当一部分技术、算法都是重合的,深度学习在计算机视觉和棋牌走步等领域取得了巨大的成功,但深度学习在现阶段还不能实现类脑计算,最多达到仿生层面,情感,记忆,认知,经验等人类独有能力机器在短期难以达到。
(4)其它大数据处理基础技术:
大数据基础技术包括计算机科学相关如编程、机器学习的理论基础、商业分析与理解、数据管理等。这些理论与技术是为大数据的基础管理、机器学习和应用决策等多个方面服务的。
数据科学的技术维度
所以怎么从点到面,构建大数据领域完整的知识结构和分析能力至关重要,某方面的技术和语言只是工具而已。
首先要搞清楚大数据产业链的情况,接下来要明确大数据技术栈也就是相关技术体系,最后定下学习目标和应用方向,每个方向所用技术有较大差异,需要找准学习的兴趣点和切入点。
上面这个大数据技术栈和学习路线图,可以说是一个大数据学习的总纲,专业性很强,值得初学者深入研究和理解。
大数据学习,需要结合自己的兴趣或工作需求,找一个点猛扎进去,掌握这个点的相关技术,深入理解其分析的流程、应用和评价等环节,搞透彻一个点之后,再以点带面,举一反三,逐步覆盖大数据各个领域,从而构建完整的知识结构和技术能力体系,这才是大数据学习的最佳路径。