计算机视觉中的细节问题(二)

2022-09-04 21:21:50 浏览数 (1)

(1)photometric distortions的含义:

指的是在输入卷积神经网络之前对数据进行预处理的操作,比如改变亮度、饱和度等。

(2)MSE、MAE的含义:

MSE(Mean Square Error)均方误差,MSE是真实值与预测值的差值的平方然后求和平均。通过平方的形式便于求导,所以常被用作线性回归的损失函数。MAE(Mean Absolute Error)平均绝对误差。是绝对误差的平均值。可以更好地反映预测值误差的实际情况。

(3)图像金字塔与特征金字塔:

在目标检测或语义分割中图像金字塔指的是直接对图像进行上采样而形成的层级结构,由于计算量大的原因这种方法现在已经被抛弃了。特征金字塔主要是通过CNN的层来形成的特征,广泛的使用在目标检测中。

(4)RGBA的含义:

  • R:红色值。正整数 | 百分数
  • G:绿色值。正整数 | 百分数
  • B:蓝色值。正整数 | 百分数
  • A:Alpha透明度。取值0~1之间。(颜色的透明度)

(5)目标检测中样本的难度是如何区分的:

数量大的样本一般是简单样本,数量小的样本一般是难样本。

(6)什么是机器学习模型的容量:

通俗地讲,模型的容量是指它拟合各种函数的能力。

(7)张量秩的含义:

标量:秩为零的张量(只有大小,没有方向,由1(3^0)部分组成); 向量:秩为一的张量(有大小和一个方向,由3(3^1)部分组成); Dyad:秩为2的张量(有大小和两个方向,由9(3^2)部分组成); Triad:秩为3的张量(有大小和三个方向,由27(3^3)部分组成); 这样,张量和标量、向量……之间似乎有一一对应关系。但是,标量不是张量,虽然秩为0的张量是标量;同样的,向量不是张量,虽然秩为1的张量是向量;dyad不是张量,但秩为2的张量是dyad(矩阵)。

(8)目标检测中样本的难度是如何区分的:

根据IoU来区分,一般小于0.3为负样本,0.3到0.5为难样本,大于0.5为正样本。

0 人点赞