【斯坦福21秋季:实用机器学习中文版】2021.12.15

2022-09-22 11:15:23 浏览数 (1)

1、大纲:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144

2、

3、

4、在数据分析、人工智能中不同岗位的工作内容。

5、

6、数据清洗花费时间还是最多的。

7、数据采集

8、

9、

10、无中生有的训练数据:GAN生成虚拟人像,虚拟物品、变化图片、语句翻译再翻译回来。

11、

12、网页爬虫

13、数据标注:标注不太准确的,先跑一遍机器,再发一个人识别,匹配正误。

14、

15、弱监督学习:专家的特征工程,写容易识别的标记,正则表达式、情绪、字数。多个平台API投票。

16、

17、机器学习介绍:监督学习:在有标号的数据上训练一个模型,任务就是去预测这个标号【自监督学习,产生标号,标号来源于数据的本身(字嵌入、BERT)】;

18、半监督学习:有一些标好的数据,还有大部分没有标好的数据,在这里有两个任务:【像监督学习一样学习一个模型去预测标号,但尽量使用未标注的信息;将没有标注的数据的标号给预测出来(自训练)】;

19、无监督学习:整个数据是没有标号的,任务也不是去预测一个标号(聚类算法、估计分布(GAN));

20、强化学习:模型跟环境进行交互,从环境中获取观测点之后进行学习,再做一些行为重新获取反馈(更像是人类的学习方式);

21、强化学习也是非常难的一块,讨论比较多的还是监督学习和无监督学习

22、

23、监督学习组成部分:

24、模型(Model):通过输入预测输出;

25、损失函数(Loss):用于衡量模型预测出来的值与真实之间的差距;

26、目标(Objective):在训练训练时,优化函数:

27、优化(Optimization):在模型中没有指定的参数(刻意学习的参数),在实际数据中填上值,使得能最小化损失;

28、

29、监督学习的分类:

30、决策树(Decision Trees):用树来做决定;

31、线性模型(Liner methds):做决策时做决策的东西是根据输入的线性组合;

32、核方法(Kernel machines):用核函数来衡量两个样本间特征的相似度;

33、神经网络(Neural network):用多层的神经网络来学习一个特征表示,使得能在之后接的一个线性方法里会有一个很好的表示。

34、

35、

36、决策树:可以做分类,可以做回归。机器学习中可以解释的模型。上手的第一个算法模型。

37、

38、好处:

39、可以解释(可以让人看到对数据处理的过程)【常用于银行业保险业】;

40、可以处理数值类和类别类的特征;

41、算法结果不错,不用调参,可以解释。

42、坏处:

43、不稳定(数据产生一定的噪音之后,整棵树构建出的样子可能会不一样)【使用集成学习 (ensemble learning)可以解决】

44、数据过于复杂会生成过于复杂的树,会导致过拟合【把决策树的枝剪掉一些(在训练时觉得太复杂了就停下来,或在训练之后把特往下的节点给剪掉)】

45、大量的判断语句(太顺序化),不太好并行【在性能上会吃亏】 决策树的升级:随机森林、Boosting、梯度树提升树算法(残差)

46、线性模型

47、

48、随机梯度下降SGD

49、

50、BP神经网络算法

51、全量梯度下降法

52、BGD批量梯度下降法:样本过多,学习时间长,消耗大量内存

53、SGD随机梯度下降法:损失函数波动剧烈

54、

55、多层感知机:代替人工提取特征。算力要大1万~百万倍。

56、多层感知机MLP、卷积神经网络CNN、循环神经网络RNN、概率神经网络PNN

57、

58、W全连接层

59、激活函数

60、卷积神经网络CNN

61、

62、全连接层变为卷积层

63、循环神经网络RNN:自然语言处理

64、

65、LSTM、GRU

66、双向RNN,深度RNN

67、

68、模型的选择:

69、表格:MLP、树

70、图片、音频:CNN、TF向量

71、自然语言处理:RNN、TF

72、

73、模型评估:准确率、精度、召回率、F1精度和召回、AUC、ROC

74、商业上的平衡:延迟、点击率、用户体验、

75、

76、过拟合、欠拟合

77、训练、泛化

78、

79、模型复杂度和数据复杂度、因果复杂度尽量匹配

80、

81、好的模型:有一点点过拟合!!!

82、欠拟合和过拟合距离要小

83、

84、选择深度10的模型可能是最好的

85、

86、数据复杂度和模型复杂度的匹配

87、随机、K折、留一

88、时间序列的验证很玄学

89、

90、模型验证:交叉验证

91、不要给训练集看验证集的题目:)!!!!!

92、

93、方差、偏差

94、回归问题可以用最小MSE(均方误差)来实现

95、

96、刚开始模型过于简单可能学不到真实数据所要表达的内容,这时的偏差的平方会很大,随着模型的逐渐复杂,模型可能可以学到所想表达的信息,所以偏差的平方逐渐变小;

97、随着模型变得越来越复杂,能够拟合的东西就越大,这样模型可能会过多的关注于噪音(数据还是那些数据 数据复杂度低),所以方差会变得越来越大;

98、泛化误差 = 数据本身的噪音,但是数据本身没有变化,应该是个常数;但是加上了偏差和方差,最后就会导致最后的泛化误差曲线就会跟图中的蓝线一样

99、

100、我的任务是减小泛化误差,那我们需要减小偏差、方差、噪声

101、减小偏差:偏差很大,说明模型复杂度可能不够,可以使用一个模型复杂度高一点的模型(在神经网络中可以 增加层数 增加隐藏层单元个数(宽度));也可使用【Boosting;Stacking】

102、减小方差:方差太大可能代表你的模型过于复杂,我们可以是用一个简单点的模型,或者是使用正则化(使用L2,L1正则项,限制住每个模型能够学习的范围);也可使用【Bagging;Stacking】

103、降低噪声:在统计学习中,这个是不可以降低的误差,但是在真实的场景,这是来自于数据采集,可以通过更精确的数据采集,更干净的数据来使得噪声降低

104、集成学习:使用多个模型来提升性能【上面提到的Boosting;Stacking;Bagging;后面的小节会说】

0 人点赞