深度学习基础知识题库大全

2020-08-13 14:46:24 浏览数 (1)

1、梯度下降算法的正确步骤是什么?

a.计算预测值和真实值之间的误差

b.重复迭代,直至得到网络权重的最佳值

c.把输入传入网络,得到输出值

d.用随机值初始化权重和偏差

e.对每一个产生误差的神经元,调整相应的(权重)值以减小误差

A.abcde B.edcba C.cbaed D.dcaeb

解析:正确答案D,考查知识点-深度学习。

2、已知:

- 大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。

- 每一个神经元都有输入、处理函数和输出。

- 神经元组合起来形成了网络,可以拟合任何函数。

- 为了得到最佳的神经网络,我们用梯度下降方法不断更新模型

给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?

A.加入更多层,使神经网络的深度增加

B.有维度更高的数据

C.当这是一个图形识别的问题时

D.以上都不正确

解析:正确答案A,更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型,目前如果有超过2层的隐层,那么也可以及叫做深度模型。

3、训练CNN时,可以对输入进行旋转、平移、缩放(增强数据)等预处理提高模型泛化能力。这么说是对,还是不对?

A.对 B.不对

解析:。如寒sir所说,训练CNN时,可以进行这些操作。当然也不一定是必须的,只是data augmentation扩充数据后,模型有更多数据训练,泛化能力可能会变强。

4、下面哪项操作能实现跟神经网络中Dropout的类似效果?

A.Boosting B.Bagging C.Stacking D.Mapping

解析:正确答案B。Dropout可以认为是一种极端的Bagging,每一个模型都在单独的数据上训练,同时,通过和其他模型对应参数的共享,从而实现模型参数的高度正则化。

5、下列哪一项在神经网络中引入了非线性

A.随机梯度下降

B.修正线性单元(ReLU)

C.卷积函数

D.以上都不正确

解析:正确答案B。修正线性单元是非线性的激活函数

6.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵 A,B,C 的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m < n < p < q,以下计算顺序效率最高的是()

A、 (AB)C B、 AC(B) C、 A(BC) D、 所以效率都相同

正确答案是:A

首先,根据简单的矩阵知识,因为 A*B , A 的列数必须和 B 的行数相等。因此,可以排除 B 选项, 然后,再看 A 、 C 选项。在 A 选项中,m∗n 的矩阵 A 和n∗p的矩阵 B 的乘积,得到 m∗p的矩阵 A*B ,而 A∗B的每个元素需要 n 次乘法和 n-1 次加法,忽略加法,共需要 m∗n∗p次乘法运算。同样情况分析 A*B 之后再乘以 C 时的情况,共需要 m∗p∗q次乘法运算。因此, A 选项 (AB)C 需要的乘法次数是 m∗n∗p m∗p∗q 。同理分析, C 选项 A (BC) 需要的乘法次数是 n∗p∗q m∗n∗q。

7.输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小

A、 95

B、 96

C、 97

D、 98

正确答案是:C

首先我们应该知道卷积或者池化后大小的计算公式,其中,padding指的是向外扩展的边缘大小,而stride则是步长,即每次移动的长度。 这样一来就容易多了,首先长宽一般大,所以我们只需要计算一个维度即可,这样,经过第一次卷积后的大小为: 本题 (200-5 2*1)/2 1 为99.5,取99;经过第一次池化后的大小为: (99-3)/1 1 为97;经过第二次卷积后的大小为: (97-3 2*1)/1 1 为97

8.神经网络模型(Neural Network)因受人类大脑的启发而得名

神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?

A、 每个神经元可以有一个输入和一个输出

B、 每个神经元可以有多个输入和一个输出

C、 每个神经元可以有一个输入和多个输出

D、 每个神经元可以有多个输入和多个输出

E、 上述都正确

正确答案是:E

答案:(E)每个神经元可以有一个或多个输入,和一个或多个输出。

9. 如果我们用了一个过大的学习速率会发生什么?

A、神经网络会收敛

B、不好说

C、都不对

D、神经网络不会收敛

正确答案是:D

学习率过大,会使得迭代时,越过最低点。

10. 在一个神经网络中,下面哪种方法可以用来处理过拟合

A、Dropout B、分批归一化(Batch Normalization) C、正则化(regularization) D、都可以

正确答案是:D

解析:

都可以。对于选项C,分批归一化处理过拟合的原理,是因为同一个数据在不同批中被归一化后的值会有差别,相当于做了data augmentatio。

11. 批规范化(Batch Normalization)的好处都有啥?

A、让每一层的输入的范围都大致固定 B、它将权重的归一化平均值和标准差 C、它是一种非常有效的反向传播(BP)方法 D、这些均不是

正确答案是:A

12. 下列哪个神经网络结构会发生权重共享

A、卷积神经网络 B、循环神经网络 C、全连接神经网络 D、选项A和B

正确答案是:D

13. 下列哪个函数不可以做激活函数

A、y = tanh(x) B、y = sin(x) C、y = max(x,0) D、y = 2x

正确答案是:D

解析:

线性函数不能作为激活函数

14. 假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法,比如说主成分分析法(PCA)来替代这个隐藏层。

那么,这两者的输出效果是一样的吗?

A、是

B、否

正确答案是:B

解析:

PCA 提取的是数据分布方差比较大的方向,隐藏层可以提取有预测能力的特征

15. 下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。

从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。造成这一现象的可能原因是什么?

A、即使增加卷积核的数量,只有少部分的核会被用作预测 B、当卷积核数量增加时,神经网络的预测能力(Power)会降低 C、当卷积核数量增加时,导致过拟合 D、以上都不正确

正确答案是:C

解析:

网络规模过大时,就可能学到数据中的噪声,导致过拟合

16. 假设你需要调整超参数来最小化代价函数(cost function),会使用下列哪项技术?

A、穷举搜索 B、随机搜索 C、Bayesian优化 D、都可以

正确答案是:D 17. 在感知机中(Perceptron)的任务顺序是什么?

1、随机初始化感知机的权重 2、去到数据集的下一批(batch) 3、如果预测值和输出不一致,则调整权重 4、对一个输入样本,计算输出值

A、 1, 2, 3, 4

B、 4, 3, 2, 1 C、 3, 1, 2, 4 D、 1, 4, 3, 2

正确答案是:D

18. 构建一个神经网络,将前一层的输出和它自身作为输入

下列哪一种架构有反馈连接?

A、循环神经网络

B、卷积神经网络 C、限制玻尔兹曼机 D、都不是

正确答案是:A

19. 如果增加多层感知机(Multilayer Perceptron)的隐藏层层数,分类误差便会减小。这种陈述正确还是错误?

A、正确 B、错误

正确答案是:B

解析:

并不总是正确。层数增加可能导致过拟合,从而可能引起错误增加。

20. 下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)

A、隐藏层层数增加,模型能力增加

B、Dropout的比例增加,模型能力增加 C、学习率增加,模型能力增加 D、都不正确

正确答案是:A

解析:

A是对的,其它选项不确定

21. 在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?

A、学习率(learning rate)太低 B、正则参数太高 C、陷入局部最小值 D、以上都有可能

正确答案是:D

22. 深度学习与机器学习算法之间的区别在于,后者过程中无需进行特征提取工作,也就是说,我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是:

A、正确的

B、错误的

正确答案是: B

解析:

正好相反,深度学习可以自行完成特征提取过程而机器学习需要人工来处理特征内容。

23. 下列哪一项属于特征学习算法(representation learning algorithm)?

A、K近邻算法

B、随机森林

C、神经网络

D、都不属于

正确答案是:C

解析:

神经网络会将数据转化为更适合解决目标问题的形式,我们把这种过程叫做特征学习。

24. 提升卷积核(convolutional kernel)的大小会显著提升卷积神经网络的性能,这种说法是

A、正确的

B、错误的

正确答案是: B

解析:

卷积核的大小是一个超参数(hyperparameter),也就意味着改变它既有可能提高亦有可能降低模型的表现。

25. 阅读以下文字: 假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置。

A、除去神经网络中的最后一层,冻结所有层然后重新训练

B、对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层

C、使用新的数据集重新训练模型

D、所有答案均不对

正确答案是: B

26. 假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少?

A、218x218x5

B、217x217x8

C、217x217x3

D、220x220x5

正确答案是:A

27. 假设我们有一个使用ReLU激活函数(ReLU activation function)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNOR function)吗?

A、可以

B、不好说

C、不一定

D、不能

正确答案是:D

解析:

使用ReLU激活函数的神经网络是能够模拟出同或函数的。

但如果ReLU激活函数被线性函数所替代之后,神经网络将失去模拟非线性函数的能力。

28. 下列的哪种方法可以用来降低深度学习模型的过拟合问题

1 增加更多的数据

2 使用数据扩增技术(data augmentation)

3 使用归纳性更好的架构

4 正规化数据

5 降低架构的复杂度

A、1 4 5

B、1 2 3

C、1 3 4 5

D、所有项目都有用

正确答案是:D

解析:

上面所有的技术都会对降低过拟合有所帮助

29.下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的?

A、第一隐藏层对应D,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应A

B、第一隐藏层对应A,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应D

C、第一隐藏层对应A,第二隐藏层对应B,第三隐藏层对应C,第四隐藏层对应D

D、第一隐藏层对应B,第二隐藏层对应D,第三隐藏层对应C,第四隐藏层对应A

正确答案是:A

解析:

由于反向传播算法进入起始层,学习能力降低,这就是梯度消失。换言之,梯度消失是梯度在前向传播中逐渐减为0, 按照图标题所说, 四条曲线是4个隐藏层的学习曲线, 那么第一层梯度最高(损失函数曲线下降明显), 最后一层梯度几乎为零(损失函数曲线变成平直线). 所以D是第一层, A是最后一层。

30.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络

A、把除了最后一层外所有的层都冻结,重新训练最后一层

B、对新数据重新训练整个模型

C、只对最后几层进行调参(fine tune)

D、对每一层模型进行评估,选择其中的少数来用

正确答案是:C

解析:

如果有个预先训练好的神经网络, 就相当于网络各参数有个很靠谱的先验代替随机初始化. 若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布, 而新数据采样自完全相同的分布), 则冻结前面所有层而重新训练最后一层即可; 但一般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验网络不足以完全拟合新数据时, 可以冻结大部分前层网络, 只对最后几层进行训练调参(这也称之为fine tune)。

31.在选择神经网络的深度时,下面哪些参数需要考虑?

1 神经网络的类型(如MLP,CNN)

2 输入数据

3 计算能力(硬件和软件能力决定)

4 学习速率

5 映射的输出函数

A、1,2,4,5

B、2,3,4,5

C、都需要考虑

D、1,3,4,5

正确答案是:C

解析:

所有上述因素对于选择神经网络模型的深度都是重要的。特征抽取所需分层越多, 输入数据维度越高, 映射的输出函数非线性越复杂, 所需深度就越深. 另外为了达到最佳效果, 增加深度所带来的参数量增加, 也需要考虑硬件计算能力和学习速率以设计合理的训练时间。

32.当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?

A、随机梯度下降法(Stochastic Gradient Descent)

B、不知道

C、整批梯度下降法(Full Batch Gradient Descent)

D、都不是

正确答案是:A

解析:

梯度下降法分随机梯度下降(每次用一个样本)、小批量梯度下降法(每次用一小批样本算出总损失, 因而反向传播的梯度折中)、全批量梯度下降法则一次性使用全部样本。这三个方法, 对于全体样本的损失函数曲面来说, 梯度指向一个比一个准确. 但是在工程应用中,受到内存/磁盘IO的吞吐性能制约, 若要最小化梯度下降的实际运算时间, 需要在梯度方向准确性和数据传输性能之间取得最好的平衡. 所以, 对于数据过大以至于无法在RAM中同时处理时, RAM每次只能装一个样本, 那么只能选随机梯度下降法。

33.当在卷积神经网络中加入RAM (pooling layer)时,变换的不变性会被保留,是吗?

A、不知道

B、看情况

C、是

D、否

正确答案是:C

解析:

池化算法比如取最大值/取平均值等, 都是输入数据旋转后结果不变, 所以多层叠加后也有这种不变性。

34、基于二次准则函数的H-K算法较之于感知器算法的优点是()?

A、 计算量小

B、 可以判别问题是否线性可分

C、 其解完全适用于非线性可分的情况

正确答案是:B

解析:

HK算法思想很朴实,就是在最小均方误差准则下求得权矢量.

他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。

来源:@刘炫320,链接:http://blog.csdn.net/column/details/16442.html

35、在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?

A、搜索每个可能的权重和偏差组合,直到得到最佳值

B、赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重

C、随机赋值,听天由命

D、以上都不正确的

正确答案是:B

解析:

答案:(B)

选项B是对梯度下降的描述。

36、神经网络模型(Neural Network)因受人类大脑的启发而得名

神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?

37.下图所示的网络用于训练识别字符H和T,如下所示

A、

B、

C、

D、 可能是A或B,取决于神经网络的权重设置

正确答案是:D

解析:

不知道神经网络的权重和偏差是什么,则无法判定它将会给出什么样的输出。

38.在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?

A、

B、

C、

正确答案是:B

解析:

这是鞍点(Saddle Point)的梯度下降的经典例子。另,本题来源于:https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/

39.混沌度(Perplexity)是一种常见的应用在使用深度学习处理NLP问题过程中的评估技术,关于混沌度,哪种说法是正确的?

A、混沌度没什么影响

B、混沌度越低越好

C、混沌度越高越好

D、混沌度对于结果的影响不一定

正确答案是: B

40. 线性方程 (y = mx c) 可以说是一种神经元吗?

A无可奉告

B 否

C 是

D 一派胡言

正确答案是: C

41. 使用两个简单的输入h1和h2, 最终的等式是

A. (h1 AND NOT h2) OR (NOT h1 AND h2) B. (h1 OR NOT h2) AND (NOT h1 OR h2)

C. (h1 AND h2) OR (h1 OR h2) D. None of these

答案:(A)

42. 卷积神经网络可以对一个输入完成不同种类的变换(旋转或缩放),这个表述正确吗?

A正确 B错误

答案:(B)数据预处理(也就是旋转、缩放)步骤在把数据传入神经网络之前是必要的,神经网络自己不能完成这些变换。

43. 训练神经网络过程中,损失函数在一些时期(Epoch)不再减小, 原因可能是:

1.学习率(Learning rate)太低2.正则参数太大3.卡在了局部最小值

哪些是可能的原因?

A. 1 and 2 B. 2 and 3 C. 1 and 3 D. 都不是

答案:(D) 以上原因都可能造成这个结果。

44. 训练好的三层卷积神经网络的精确度(Accuracy)vs 参数数量(比如特征核的数量)的图示如下; 从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个阈值,然后开始降低。这一现象的可能是什么原因是造成的?

A即便核数量(number of kernels)增加,只有一部分核被用于预测

B当核数量增加,神经网络的预测功效(Power)降低

C当核数量增加,其相关性增加,导致过拟合

D以上都不正确

答案:(C) 如C选项指出的那样,可能的原因是核之间的相关性。

45. 使用降维技术的网络与隐层网络总是有相同的输出吗?

  A.是 B.否

  答案:(B)因为PCA用于相关特征而隐层用于有预测能力的特征

46. 可以用神经网络对函数(y=1/x)建模吗?A.是B.否

  答案:(A) 选项A是正确的,因为激活函数可以是互反函数

47. 我们不是想要绝对零误差,而是设置一个称为贝叶斯(bayes)误差(我们希望实现的误差)的度量。使用贝叶斯(bayes)误差的原因是什么?

A.输入变量可能不包含有关输出变量的完整信息B.系统(创建输入-输出映射)可以是随机的 C.有限的训练数据D.所有 答案:(D)想在现实中实现准确的预测,是一个神话,所以我们的希望应该放在实现一个“可实现的结果”上。

48. 在监督学习任务中,输出层中的神经元的数量应该与类的数量(其中类的数量大于2)匹配。对或错?A.正确B.错误 答案:(B)

它取决于输出编码。如果是独热编码(one-hot encoding) 则正确。但是你可以有两个输出囊括四个类,并用二进制值表示出来(00,01,10,11)。

49. Y = ax^2 bx c(二次多项式)这个方程可以用具有线性阈值的单个隐层的神经网络表示吗? A.是B.否 答案:(B)答案为否。因为简单来说,有一个线性阈值限制神经网络就会使它成为一个相应的线性变换函数。

50神经网络中的死神经元(dead unit)是什么?

A.在训练任何其它相邻单元时,不会更新的单元B.没有完全响应任何训练模式的单元

C.产生最大平方误差的单元D.以上均不符合 答案:(A)

51. 假设在ImageNet数据集(对象识别数据集)上训练卷积神经网络。然后给这个训练模型一个完全白色的图像作为输入。这个输入的输出概率对于所有类都是相等的。对或错?

A.正确 B.错误

答案:(B)将存在一些不为白色像素激活的神经元作为输入,所以类不会相等。

52. 当数据太大而不能同时在RAM中处理时,哪种梯度技术更有优势?

  A.全批量梯度下降(Full Batch Gradient Descent )

B.随机梯度下降(Stochastic Gradient Descent) 答案:(B)

53.从上往下ABCD,下列哪项正确?

  A.隐藏层1对应于D,隐藏层2对应于C,隐藏层3对应于B,隐藏层4对应于A

  B.隐藏层1对应于A,隐藏层2对应于B,隐藏层3对应于C,隐藏层4对应于D

答案:(A)这是对消失梯度描述的问题。由于反向传播算法进入起始层,学习能力降低。

54. 对于分类任务,我们不是将神经网络中的随机权重初始化,而是将所有权重设为零。下列哪项是正确的?

  A.没有任何问题,神经网络模型将正常训练

  B.神经网络模型可以训练,但所有的神经元最终将识别同样的事情

  C.神经网络模型不会进行训练,因为没有净梯度变化

D.这些均不会发生 答案:(B)

55. 开始时有一个停滞期,这是因为神经网络在进入全局最小值之前陷入局部最小值。为了避免这种情况,下面的哪个策略有效?

  A.增加参数的数量,因为网络不会卡在局部最小值处

  B.在开始时把学习率降低10倍,然后使用梯度下降加速算子(momentum)

  C.抖动学习速率,即改变几个时期的学习速率

  D.以上均不是

答案:(C)选项C可以将陷于局部最小值的神经网络提取出来。

56. 假设在训练时,你遇到这个问题。在几次迭代后,错误突然增加。您确定数据一定有问题。您将数据描绘出来,找到了原始数据有点偏离,这可能是导致出现问题的地方。你将如何应对这个挑战?

A.归一化B.应用PCA然后归一化C.对数据进行对数变换D.以上这些都不符合

答案:(B)首先您将相关的数据去掉,然后将其置零。

57. 影响神经网络的深度选择的因素:

神经网络的类型,例如:多层感知机(Multi-Layer Perceptrons, MLP),卷积神经网络(Convolutional Neural Networks, CNN)。输入数据。计算能力,即硬件和软件能力。学习率。输出函数映射。

31增加卷积核的大小对于改进卷积神经网络的效果是必要的吗? 否(要考虑数据集)

32. 感知机的正确顺序

1. 随机初始化感知机权重

2. 进入下一批数据集

3. 如果预测与输出不符,则调整权重

4. 对于采样输入,计算输出

怎样的顺序是正确的? 1, 4, 3, 2

32、下面哪个描述可以最好的描述early stopping?A

A在每一个训练epoch后在测试集上模拟网络,当归一化误差(generalization error)减小时停止训练

B 一种更快的后向传播方式,像是"Quickprop"算法

C 在权重值更新时上加一个动量项(momentum term),使训练能够更快地收敛

D 训练网络知道误差函数出现一个局部最小值

0 人点赞