大数据的出现催生出产业人才缺口瓶颈,在大数据挖掘项目的实施方面,被调查公司普遍缺乏相关的技术能力。75%以上的公司表示在人员和培训方面存在障碍,会大数据挖掘技术的人才很热门,但是比较难找而且昂贵,会 Hadoop 技术的数据挖掘人才更是奇缺。
虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来,特别是有实践经验的大数据分析人才更是各企业争夺的热门。为了满足日益增长的大数据分析人才需求,很多大学开始尝试开设不同程度的大数据分析课程。“大数据分析”作为大数据时代的核心技术,必将成为高校数学与统计学专业的重要课程之一。
目前高校大数据教学的主要困境:教师资源严重不足、尚未建立起合理的大数据教学体系、实践教学平台搭建困难、大数据实践应用案例缺乏、学生缺少实战机会……如何解决高校面临的这类难题,已经成为高校厄待解决的主要问题之一。
波若高校大数据实训教学平台流程:
交互式学习模式
提供体系完整、简单易用的在线教学课堂;以基础知识学习,在线视频教学、习题、线上测试、评估等为主线的方法,确保学生在短时间内掌握大数据课程知识及数据分析技能。
大数据实战及案例分析
提供实战案例数据,包括网站流量数据、汽车数据、房屋交易数据、电商商品数据、搜索引擎等多种业务数据,数据超过100T,按周期更新数据内容。
真机实验实训
实验训练体系设计成各模块相对独立的形式,各模块交互式实验任务、大数据实验机、实际项目上机操作,通过多方位的训练,最灵活的、渐进式的掌握大数据生态体系。
充分支撑科研工作
提供行业数据及案例解剖用于基础研究,提供数据分析方案及流程,提供数据更新接口,可以对行业数据进行挖掘分析,按需求生成数据报表,为科研工作提供数据支持。
波若高校大数据实训教学平台之大数据挖掘建模平台
波若数据挖掘平台是一套基于Hadoop架构的大数据挖掘建模平台,能满足有大数据挖掘需求的师生利用图形化的界面进行大数据分析。
MLP主要主要包括:云数据挖掘引擎、调度系统、主机监控系统、云平台监控系统、云数据挖掘算法库等,具体如下:
1.云数据挖掘引擎
(1)挖掘引擎:云分类引擎、云聚类引擎、云关联规则引擎、云智能推荐引擎等等
(2)调度系统:包括作业调度、作业监控和作业管理
(3)主机监控系统:主要用来采集集群中主机的 cpu、memory、disk、proces、network 等相关数据,并采用图形化的方式展示。
(4)云平台监控系统:主要用来监控云计算平台的运行指标,可以实时监控云平台的运行情况,子节点运行情况,用来为系统增加/删除/更新节点提供知道依据。它主要包括:1)分布式文件系统监控;2)作业监控;3)云平台管理等功能
2.云数据挖掘算法库
(1)分类算法:基于并行计算的分类算法,如:
a.朴素贝叶斯、贝叶斯网络
b.随机森林
c.神经网络
d.模糊神经网络
e.支持向量机
(2)聚类算法:基于并行计算的聚类算法,如:
a.K-Means 算法
b.Canopy 算法
c.Fuzzy K-Means 算法
d.Mean Shift 算法
(3)关联规则:基于并行计算的关联规则算法,如:
a.二项集关联规则
b.推荐器算法
(4)智能推荐:基于并行计算的智能推荐算法,如:
a.基于用户的协同过滤算法
b.基于内容的协同过滤算法