从网易云音乐的歌单、亚马逊的商品到抖音的短视频,机器学习主导的推荐系统改变了用户浏览习惯;iphone x 在刘海中祭出3D结构光,人脸识别AI便在移动终端迅速蔓延……
自从Alpha围棋占据人类棋类智力顶峰以来,机器大有在各个领域大放异彩的趋势,Google Assistant 在某些方面看起来毫不逊色于人类,那个几年前看起来还模糊不清的未来已经来临,这是关于人工智能和机器学习的时代。
机器学习火了人工智能产品,也带火了创造它们的攻城狮们。机器学习方向的人才异常抢手也是业内常态,“批发价20K起” 毫不夸张。
很多人跃跃欲试,但入行并不能仅靠浮躁的情绪和一腔热血,对机器学习的体系及应用有整体的把握,在这个基础上深入各个技能分支,有计划地系统学习,效率要高得多。
对于机器学习或者很多AI方向的职位而言,核心技能无非是“数据特征 算法模型”,当然我们还可以细分来看,算法与特征,需要掌握的技能有哪些。
数据特征:
- 数据清洗:消除数据噪音,归一化、正则化、采样
- 数据标注:做出统一化、高质量的数据,提升机器学习效果
- 特征工程:特征选取方法、降维方法、多个特征融合
算法模型技能:
- 主流监督/无监督学习算法:原理以及适用性,生成和调用
- 模型优化:调参、加约束条件、模型替换、多模型融合
- 运行优化:处理数据集的效率,掌握更高效的技巧、框架和工具(如spark)
当然,基础技能是必备的
- 编程/工具:Python基础及第三方库/框架,后续可以上spark/hadoop
- 数学基础:微积分、概率统计、线性代数
所以神秘的AI攻城狮们的工作看起来也并不可怕,比如使用成熟的框架和工具,运行已有算法,训练业务数据,获得工作模型并不断调优,应用到企业产品。
高效学习
针对机器学习的职业技能和知识框架,DC学院推出了一门非常完善的《机器学习》体系课程,几乎可以学到机器学习所有的主干知识,并深入到细枝末节。即便你没什么基础,也能很快上手,并独立完成实际项目。
这门课之所以如此体系且全面,一方面是因为机器学习本身的体系十分庞大,当然只是教sklearn调个模型显然不是在认真讲机器学习。
另一方面,比如学习路径的设计、知识点难易度的把握,案例的选取,内容的深入程度等细节都做了大量延伸和重点打磨。
比自己去完成一个机器学习项目更难的是,如何让课程适合更多的人(特别是没有什么基础的同学),既要易于理解,也要兼顾深度。
所以课程框架清晰,以结果为导向,目的就是去掌握那部分核心技能,并在实际的案例中输出结果。比如系统的微积分和概率论不必回炉重学,Python编程更是如此,掌握最需要的那部分,效率更高。
相信对于每一个想要学习机器学习的人来说,大纲里的内容多少都有了解,不多赘述,今天我们以问答的形式来做课程介绍。
- ❶ -
Q:这门课大概的学习思路是怎样的?
要回答你这个问题,我们得先来了解一个机器学习项目的实现流程是怎样的。
点击可查看高清大图
当我们拿到一堆数据,并且明确需要解决的问题,或者需要预测的数据的时候,我们就应该想到要按怎样的思路去解决问题了。
1. 进行数据清洗,初步的特征选择
2. 选择合适的模型进行训练
3. 做更深入的特征工程
4. 调节模型的各种参数
5. 对模型进行优化/融合等处理
最终我们要得到比较理想的结果,让这个模型在不同的数据中依然效果不俗。
其实我们学习整体的框架就基于这个流程,其中涉及到大量算法原理及使用、模型选择思路、特征工程、集成学习等等内容,这是一个完整的机器学习实践流程。
除此之外,课程还会涉及时间序列、强化学习、深度学习的知识,让你可以处理更多样化的数据以及应用场景。
- ❷ -
Q:学习这门课需要先补充哪些基础?
这个问题是被问及最多的,机器学习这门技术有太多的诱惑,且不说改变世界、追求技术这样的空洞言论,只是动辄20K的月薪,就足够有说服力。
基础是必须的,但只要你有基本数学基础(学过大学数学:微积分线性代数概率统计),那就没有问题,数学功底越好越有优势。
我们也在课程中补充了必备的数学基础,微积分、现代、概率统计都有涉及,一般不被重视的信息论和优化理论,都有专门的课程讲解。
数学基础固然重要,但是并不建议花费太多时间去刷数学书,这是南辕北辙,最好的办法还是直接学习机器学习算法与应用,到了看不懂的地方再去补充相应的数学知识,这样效率会高很多。
编程基础呢?你需要掌握Python的基础知识,比如基本的数据类型,编程规范,语句以及函数,以及机器学习中必备的第三方库等等。
这些东西你可以在短时间内看文档/课程掌握。而课程中也会教你用Numpy/Pandas/Sklearn等工具进行数据处理与模型训练,不必担心。
- ❸ -
Q:课程会涉及哪些算法的讲解?
问这个问题就知道你一定是有点基础了。课程主要从监督学习和无监督学习两个方向进行划分,时下主流的算法模型均会涉及。
监督学习部分:线性回归、逻辑回归、KNN、SVM、朴素贝叶斯。
无监督学习部分:k均值、层次聚类、密度聚类、EM。
当然我们还会回归统计学,了解统计学习的本质,比如非常重要的极大似然估计、偏倚方差分解、贝叶斯估计、参数化方法等等。
总之,算法这个部分是重头戏,从统计学习到主流的机器学习方法,都有涉及。每个算法后面都会有案例配合具体的数据集进行实践,会用才是硬道理。
当然除了基本的理解和应用,我们会尽量把常用的算法,深入原理讲解推导的过程。这样,不但可以增加你对于实现过程的理解,也便于后续进行模型的优化。
- ❹ -
Q:是否有足够的案例和项目?
当然有,还是手把手的那种!
除了每个算法后附带的针对性实践案例,每章都设置了体系完整的实战项目,更加偏向真实应用。
比如我们会尽量利用真实的数据集,更加系统化的实践,让你学习具体的知识点的同时,熟悉机器学习的基本套路,并能够举一反三,把这些套路应用到更多的问题中去。
具体的案例老师都会详细讲解,细化到每一个操作,案例的思路、实现过程以及全部的代码我们都会分享出来,通过jupyter notebook的形式,下载后你可以直接在你本地的环境中运行。
课程中将包含但不限于以下案例/项目:
- ❺ -
Q:用一章来讲特征工程,真有那么重要?
在机器学习/数据挖掘领域有一句经典的话:数据与特征工程决定了机器学习的上限,而算法与模型不过是逼近这个上限而已。
算法与模型不过是实现机器学习的第一步,相当于我们掌握了基本实现方式,但是真正要获得好的效果,还要进行很多的内部优化,特征工程则是重中之重。
事实上所有机器学习算法的成功,都在于你怎么样去展示这些数据,由此可见特征工程在实际的机器学习中的重要性。
事实上在很多数据挖掘竞赛中,大家使用的模型大同小异(比如大部分人会直接祭出XGBoost,然后数据全部往上面怼就完事),但高下之分很大程度上源于特征工程。
除了基本的数据清洗(缺失值/异常值处理,数据归一化、多项式特征生成)以及特征选择方法(Filter、Wrapper、Embedded),还会涉及降维(PCA&LDA)的方法。从单个特征的处理到多个特征的融合,你都可以轻松解决。
算法的使用往往是招式的修炼,而特征工程才是真正的内功。
- ❻ -
Q:深度学习和强化学习会讲到什么程度?
深度学习作为机器学习的一个重要分支,也是处理很多问题的好方式,课程中会介绍几种常用的神经网络(CNN、RNN),并通过 Keras 框架来实现深度学习。
具体的呢,主要通过猫狗分类的案例,来梳理一个完整的深度学习流程,并借此掌握 Keras 框架。
当然深度学习不止如此,通过课程你可以掌握深度学习实现的基本套路,但这个东西是需要你花更多的精力去做更深入的学习,才能达到更好地效果。
而强化学习呢,主要是让你去了解机器学习自我提升的思想,强大如 AlphaGo ,是通过怎样方式进行自我学习的。而这,也是真正迈向人工智能的基石。
- ❼ -
Q:学完我能达到什么样的水平?
就喜欢你这样有觉悟的,但说实话,没有人能够保证。
如果你稍微认点真,一套课程下来,独立完成基本的机器学习项目没有问题的。绝大部分的数据挖掘竞赛,你都能够通过学到的知识,跑个模型,取得还不错的成绩。不过要进入TOP排名,老铁还需努力。
更重要的是,课程中提供的特征工程、模型筛选、集成学习、调参、优化技巧,才是你形成核心竞争力的关键。
千万不要认为课程中关于算法的推导没什么卵用,你要是觉得调个包、找两个特征就能忽悠面试官,那对方会分分钟教你做人。
所以课程教你的不仅是套路,还有更多的内功,以及学习、泛化的方法。天高任鸟飞,课程够深入,只要你愿意学,就有无限可能。
Q:另外,我还想问……?
算了,别问了,相关信息都给你说了吧:
- 录播课程,随时上课,你有绝对的学习自主权。
- 总共60个课时,每课时20-60分钟不等,讲懂为止。
- 主讲老师是华科教授,技术好,各种深入浅出,还送两助教。
- 学习群老师即时答疑,专治各种不会。
- 课后资料里,案例代码,实现思路、重点笔记、拓展阅读全部都熬好了,直接服用即可。
- 匹配针对性数据竞赛,实时训练,还可以查看真实排名。
- Python 3.6,不解释,只用最新的。
- 爱过~约~就是现在~