一. 熟悉数据集
数据来源于kaggle上关于2012-2016年Harvard and MIT两校在edX开设在线课程情况的研究。该数据集中共有290个在线课程的数据,字段信息23个,可大致分为4类:
1.课程相关字段
代码语言:javascript复制Institution课程机构
Course Number课程编号
Launch Date上线日期
Course Title课程名称
Instructors讲师
Course Subject课程主题
Year 课程持续时长(年)
Honor Code Certificates是否提供认证
2.数量相关字段:
代码语言:javascript复制Participants (Course Content Accessed) 学生数
Audited (> 50% Course Content Accessed) 完成 50%课程人数
Certified获得认证人数
Total Course Hours (Thousands)总计课程时长(千)
Median Hours for Certification获得认证的小时数的中位数
3.百分比相关字段:
代码语言:javascript复制% Audited 完成 50%课程人数占比
�rtified 认证人数占比
% Certified of > 50
% Course Content Accessed 认证人数在完成50%课程人数中占比
% Play Video 播放视频人数占比
% Posted in Forum 粘贴到论坛占比
% Grade Higher Than Zero分数高于0的百分比
4.学生信息相关字段:
代码语言:javascript复制Median age用户年龄中位数
% Male男性占比% Female女性占比
% Bachelor's degree or higher学生学士学历或以上占比
根据在线教育行业业务指标可提取相关字段,制成脑图,如下所示。
二. 提出问题
对这些数据做描述性统计分析也可以获取一些有价值的信息,首先提出问题:
1. 两院校课程分布如何?
2. 两院校学生分布如何?
3. 两院校学生课程完成情况如何?
三. 数据清洗
1. 选择子集
由于数据所含字段较多,根据分析所需对其他无关数据进行隐藏,选择相关数据另存到新的工作表中,方便进行下一步操作。
2. 列名重命名
此数据中列名为英文,将其改为中文。
3. 删除重复值
对课程名称进行操作删除重复值,发现同一课程名称但上线日期不同,应为有效数据,予以保留。
4. 处理缺失值
对数据区域进行空值的定位查找,发现无缺失值,每一列计数项均一致。
5. 一致性处理、排序、处理异常值
本数据较为规范,无需进行额外操作,可直接进行下一步分析。
四. 构建模型
1. 两院校课程主要包括为哪几类,各比例如何?
2. 两院校哪些课程较受欢迎,学生数较多?
3. 两院校课程学生男女比例如何?
4. 两院校课程学生完成情况如何?
5. 课程持续时长不同是否会影响学生完成情况?
五. 数据分析可视化
1.利用数据透视表,对两校课程进行分析,如图1所示,两校课程分为四类:
- Computer Science(计算机科学
- Government, Health, and Social Science(政府、卫生和社会科学)
- Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
- Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)
其中人文、设计、宗教和教育类和科学、技术、工程和数学类课程较多。
图1 各主题课程数量分布条形图
进一步对Harvard和MIT的课程进行分析,结果如图2、图3所示,Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大。
图2 HarvardX各类主题课程分布饼图
图3 MITx各类主题课程分布饼图
2. 以学生数为依据,将对两校课程分布进行降序排序并取排名前十,如表1所示, Harvard的在线课程《Introduction to Computer Science》和MIT的在线课程《Introduction to Computer Science and Programming》学生数较多,均为计算机科学类课程,并且连续4年开课均较受欢迎。
3.计算出每一课程男性、女性的学生数,以课程主题为依据制作数据透视表并制成饼图,如图4、图5所示,发现男性对计算机科学类和科学、技术、工程和数学类课程较感兴趣,女性对政府、卫生和社会科学类和人文、设计、宗教和教育类课程更感兴趣,即男性偏好理工类课程,女性偏好人文类课程。
图4 各类课程男性学生分布饼图
图5各类课程女性学生分布饼图
4.通过建立数据透视表,发现总计共有将近450万学生参与在线课程,24多万学生获得认证,进一步筛选剔除不提供课程认证的课程数据,如表3所示,发现Harvard完成 50%课程人数占该校学生数的17.43%,完成学习获得认证人数仅占5.14%。MIT完成 50%课程人数占该校学生数的15.89%,完成学习获得认证人数仅占5.82%。在缺乏同类平台数据情况对比,进行该数据来看,在线课程学习人数较多,但最后完成课程并获得认证的比例较少。
5.筛选出提供认证的课程,对课程持续时间这列数据进行文本属性转换,建立数据透视表并制条形图,如图6所示,发现课程持续时间为2年和3年是在获得认证人数中占比较高。
图6不同课程持续时长中获得认证人数占比条形图
六、结论
通过以上分析,可以得出一些比较有意思的结论:
1.Harvard和MIT两校的在线课程均有四类:
- Computer Science(计算机科学)
- Government, Health, and Social Science(政府、卫生和社会科学)
- Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
- Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)
其中Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大,两校风格有差异,即Harvard的在线课程偏人文类,而MIT在线课程偏理工类。
对于学生来说,可以根据课程类型在相应学校中进行选择。
2.根据两校在线课程中学生人数发现,有关计算机科学的课程较受欢迎。这也与目前计算机科学在社会发展中重要性有关,响应当下发展趋势,计算机科学人才需求量大。且在网络学习中,计算机科学课程较容易开展授课。
3.根据男女学生的课程偏好来看,男性偏好理工类课程,女性偏好人文类课程。学校可以结合自身特色,开展相应类型课程以扩大学生群体。
4.从完成50%课程和获得认证人数分析来看,相较于线下课程,线上课程的进行在学习结果上较不可控,课程持续时间为2年和3年是在获得认证人数中占比较高,这可能与学习者自身的自律性、课程本身的趣味性和学习监督相关,课程持续时间过长也可能影响最终结果。若想提升在线课程的学习成果,可以从以下几个方面着手:
- 提升课程趣味性以提升学生学习兴趣;
- 设置阶段性奖励或认证,帮助学习者获得成功体验以便更愿意坚持;
- 课程持续时长不宜过长,根据具体课程进行设计调整;
- 课程期间设置开课提醒,加强课程出勤率;
- 对学习成果设置多种方式检测,更易获得认证。