【实战】手把手教你数据分析实操--以在线教育为例!

2020-03-13 13:42:24 浏览数 (1)

一. 熟悉数据集

数据来源于kaggle上关于2012-2016年Harvard and MIT两校在edX开设在线课程情况的研究。该数据集中共有290个在线课程的数据,字段信息23个,可大致分为4类:

1.课程相关字段

代码语言:javascript复制
Institution课程机构
Course Number课程编号
Launch Date上线日期
Course Title课程名称
Instructors讲师
Course Subject课程主题
Year 课程持续时长(年)
Honor Code Certificates是否提供认证

2.数量相关字段:

代码语言:javascript复制
Participants (Course Content Accessed) 学生数
Audited (> 50% Course Content Accessed) 完成 50%课程人数
Certified获得认证人数
Total Course Hours (Thousands)总计课程时长(千)
Median Hours for Certification获得认证的小时数的中位数

3.百分比相关字段:

代码语言:javascript复制
% Audited 完成 50%课程人数占比
�rtified 认证人数占比
% Certified of > 50
% Course Content Accessed 认证人数在完成50%课程人数中占比
% Play Video 播放视频人数占比
% Posted in Forum 粘贴到论坛占比
% Grade Higher Than Zero分数高于0的百分比

4.学生信息相关字段:

代码语言:javascript复制
Median age用户年龄中位数
% Male男性占比% Female女性占比
% Bachelor's degree or higher学生学士学历或以上占比

根据在线教育行业业务指标可提取相关字段,制成脑图,如下所示。

二. 提出问题

对这些数据做描述性统计分析也可以获取一些有价值的信息,首先提出问题:

1. 两院校课程分布如何?

2. 两院校学生分布如何?

3. 两院校学生课程完成情况如何?

三. 数据清洗

1. 选择子集

由于数据所含字段较多,根据分析所需对其他无关数据进行隐藏,选择相关数据另存到新的工作表中,方便进行下一步操作。

2. 列名重命名

此数据中列名为英文,将其改为中文。

3. 删除重复值

对课程名称进行操作删除重复值,发现同一课程名称但上线日期不同,应为有效数据,予以保留。

4. 处理缺失值

对数据区域进行空值的定位查找,发现无缺失值,每一列计数项均一致。

5. 一致性处理、排序、处理异常值

本数据较为规范,无需进行额外操作,可直接进行下一步分析。

四. 构建模型

1. 两院校课程主要包括为哪几类,各比例如何?

2. 两院校哪些课程较受欢迎,学生数较多?

3. 两院校课程学生男女比例如何?

4. 两院校课程学生完成情况如何?

5. 课程持续时长不同是否会影响学生完成情况?

五. 数据分析可视化

1.利用数据透视表,对两校课程进行分析,如图1所示,两校课程分为四类:

  • Computer Science(计算机科学
  • Government, Health, and Social Science(政府、卫生和社会科学)
  • Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
  • Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)

其中人文、设计、宗教和教育类和科学、技术、工程和数学类课程较多。

图1 各主题课程数量分布条形图

进一步对Harvard和MIT的课程进行分析,结果如图2、图3所示,Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大。

图2 HarvardX各类主题课程分布饼图

图3 MITx各类主题课程分布饼图

2. 以学生数为依据,将对两校课程分布进行降序排序并取排名前十,如表1所示, Harvard的在线课程《Introduction to Computer Science》和MIT的在线课程《Introduction to Computer Science and Programming》学生数较多,均为计算机科学类课程,并且连续4年开课均较受欢迎。

3.计算出每一课程男性、女性的学生数,以课程主题为依据制作数据透视表并制成饼图,如图4、图5所示,发现男性对计算机科学类和科学、技术、工程和数学类课程较感兴趣,女性对政府、卫生和社会科学类和人文、设计、宗教和教育类课程更感兴趣,即男性偏好理工类课程,女性偏好人文类课程。

图4 各类课程男性学生分布饼图

图5各类课程女性学生分布饼图

4.通过建立数据透视表,发现总计共有将近450万学生参与在线课程,24多万学生获得认证,进一步筛选剔除不提供课程认证的课程数据,如表3所示,发现Harvard完成 50%课程人数占该校学生数的17.43%,完成学习获得认证人数仅占5.14%。MIT完成 50%课程人数占该校学生数的15.89%,完成学习获得认证人数仅占5.82%。在缺乏同类平台数据情况对比,进行该数据来看,在线课程学习人数较多,但最后完成课程并获得认证的比例较少。

5.筛选出提供认证的课程,对课程持续时间这列数据进行文本属性转换,建立数据透视表并制条形图,如图6所示,发现课程持续时间为2年和3年是在获得认证人数中占比较高。

图6不同课程持续时长中获得认证人数占比条形图

六、结论

通过以上分析,可以得出一些比较有意思的结论:

1.Harvard和MIT两校的在线课程均有四类:

  • Computer Science(计算机科学)
  • Government, Health, and Social Science(政府、卫生和社会科学)
  • Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
  • Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)

其中Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大,两校风格有差异,即Harvard的在线课程偏人文类,而MIT在线课程偏理工类。

对于学生来说,可以根据课程类型在相应学校中进行选择。

2.根据两校在线课程中学生人数发现,有关计算机科学的课程较受欢迎。这也与目前计算机科学在社会发展中重要性有关,响应当下发展趋势,计算机科学人才需求量大。且在网络学习中,计算机科学课程较容易开展授课。

3.根据男女学生的课程偏好来看,男性偏好理工类课程,女性偏好人文类课程。学校可以结合自身特色,开展相应类型课程以扩大学生群体。

4.从完成50%课程和获得认证人数分析来看,相较于线下课程,线上课程的进行在学习结果上较不可控,课程持续时间为2年和3年是在获得认证人数中占比较高,这可能与学习者自身的自律性、课程本身的趣味性和学习监督相关,课程持续时间过长也可能影响最终结果。若想提升在线课程的学习成果,可以从以下几个方面着手:

  • 提升课程趣味性以提升学生学习兴趣;
  • 设置阶段性奖励或认证,帮助学习者获得成功体验以便更愿意坚持;
  • 课程持续时长不宜过长,根据具体课程进行设计调整;
  • 课程期间设置开课提醒,加强课程出勤率;
  • 对学习成果设置多种方式检测,更易获得认证。

0 人点赞