1、大纲:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
2、
3、
4、在数据分析、人工智能中不同岗位的工作内容。
5、
6、数据清洗花费时间还是最多的。
7、数据采集
8、
9、
10、无中生有的训练数据:GAN生成虚拟人像,虚拟物品、变化图片、语句翻译再翻译回来。
11、
12、网页爬虫
13、数据标注:标注不太准确的,先跑一遍机器,再发一个人识别,匹配正误。
14、
15、弱监督学习:专家的特征工程,写容易识别的标记,正则表达式、情绪、字数。多个平台API投票。
16、
17、机器学习介绍:监督学习:在有标号的数据上训练一个模型,任务就是去预测这个标号【自监督学习,产生标号,标号来源于数据的本身(字嵌入、BERT)】;
18、半监督学习:有一些标好的数据,还有大部分没有标好的数据,在这里有两个任务:【像监督学习一样学习一个模型去预测标号,但尽量使用未标注的信息;将没有标注的数据的标号给预测出来(自训练)】;
19、无监督学习:整个数据是没有标号的,任务也不是去预测一个标号(聚类算法、估计分布(GAN));
20、强化学习:模型跟环境进行交互,从环境中获取观测点之后进行学习,再做一些行为重新获取反馈(更像是人类的学习方式);
21、强化学习也是非常难的一块,讨论比较多的还是监督学习和无监督学习
22、
23、监督学习组成部分:
24、模型(Model):通过输入预测输出;
25、损失函数(Loss):用于衡量模型预测出来的值与真实之间的差距;
26、目标(Objective):在训练训练时,优化函数:
27、优化(Optimization):在模型中没有指定的参数(刻意学习的参数),在实际数据中填上值,使得能最小化损失;
28、
29、监督学习的分类:
30、决策树(Decision Trees):用树来做决定;
31、线性模型(Liner methds):做决策时做决策的东西是根据输入的线性组合;
32、核方法(Kernel machines):用核函数来衡量两个样本间特征的相似度;
33、神经网络(Neural network):用多层的神经网络来学习一个特征表示,使得能在之后接的一个线性方法里会有一个很好的表示。
34、
35、
36、决策树:可以做分类,可以做回归。机器学习中可以解释的模型。上手的第一个算法模型。
37、
38、好处:
39、可以解释(可以让人看到对数据处理的过程)【常用于银行业保险业】;
40、可以处理数值类和类别类的特征;
41、算法结果不错,不用调参,可以解释。
42、坏处:
43、不稳定(数据产生一定的噪音之后,整棵树构建出的样子可能会不一样)【使用集成学习 (ensemble learning)可以解决】
44、数据过于复杂会生成过于复杂的树,会导致过拟合【把决策树的枝剪掉一些(在训练时觉得太复杂了就停下来,或在训练之后把特往下的节点给剪掉)】
45、大量的判断语句(太顺序化),不太好并行【在性能上会吃亏】 决策树的升级:随机森林、Boosting、梯度树提升树算法(残差)
46、线性模型
47、
48、随机梯度下降SGD
49、
50、BP神经网络算法
51、全量梯度下降法
52、BGD批量梯度下降法:样本过多,学习时间长,消耗大量内存
53、SGD随机梯度下降法:损失函数波动剧烈
54、
55、多层感知机:代替人工提取特征。算力要大1万~百万倍。
56、多层感知机MLP、卷积神经网络CNN、循环神经网络RNN、概率神经网络PNN
57、
58、W全连接层
59、激活函数
60、卷积神经网络CNN
61、
62、全连接层变为卷积层
63、循环神经网络RNN:自然语言处理
64、
65、LSTM、GRU
66、双向RNN,深度RNN
67、
68、模型的选择:
69、表格:MLP、树
70、图片、音频:CNN、TF向量
71、自然语言处理:RNN、TF
72、
73、模型评估:准确率、精度、召回率、F1精度和召回、AUC、ROC
74、商业上的平衡:延迟、点击率、用户体验、
75、
76、过拟合、欠拟合
77、训练、泛化
78、
79、模型复杂度和数据复杂度、因果复杂度尽量匹配
80、
81、好的模型:有一点点过拟合!!!
82、欠拟合和过拟合距离要小
83、
84、选择深度10的模型可能是最好的
85、
86、数据复杂度和模型复杂度的匹配
87、随机、K折、留一
88、时间序列的验证很玄学
89、
90、模型验证:交叉验证
91、不要给训练集看验证集的题目:)!!!!!
92、
93、方差、偏差
94、回归问题可以用最小MSE(均方误差)来实现
95、
96、刚开始模型过于简单可能学不到真实数据所要表达的内容,这时的偏差的平方会很大,随着模型的逐渐复杂,模型可能可以学到所想表达的信息,所以偏差的平方逐渐变小;
97、随着模型变得越来越复杂,能够拟合的东西就越大,这样模型可能会过多的关注于噪音(数据还是那些数据 数据复杂度低),所以方差会变得越来越大;
98、泛化误差 = 数据本身的噪音,但是数据本身没有变化,应该是个常数;但是加上了偏差和方差,最后就会导致最后的泛化误差曲线就会跟图中的蓝线一样
99、
100、我的任务是减小泛化误差,那我们需要减小偏差、方差、噪声
101、减小偏差:偏差很大,说明模型复杂度可能不够,可以使用一个模型复杂度高一点的模型(在神经网络中可以 增加层数 增加隐藏层单元个数(宽度));也可使用【Boosting;Stacking】
102、减小方差:方差太大可能代表你的模型过于复杂,我们可以是用一个简单点的模型,或者是使用正则化(使用L2,L1正则项,限制住每个模型能够学习的范围);也可使用【Bagging;Stacking】
103、降低噪声:在统计学习中,这个是不可以降低的误差,但是在真实的场景,这是来自于数据采集,可以通过更精确的数据采集,更干净的数据来使得噪声降低
104、集成学习:使用多个模型来提升性能【上面提到的Boosting;Stacking;Bagging;后面的小节会说】