目标检测
- rcnn:根据颜色等特征,将图像分为许多小区域(一般情况下颜色相同的都是一类物体)
- 合并区域,然后进行区域内的物体检测 即到卷积中进行预测(每个框一个卷积网络)
- 缺点:找到的框太多
- fast-rcnn:整张图片卷积得到特征图
- 图片映射到特征图,
- faster-rcnn:RPN 层,根据标注中框的位置,让卷积网络自己学习框应该在哪 (在特征图上提取框)
- 怎么学习?
- 有基数128,256,512,3种方式
- 对于一个像素点生成9个框,以他为中心
- 128*256,256*128,128*128
- 256*512,512*256,256*256
- 512*512,512*1024,1024*512
- 怎么学习?
数据
- 或获途径
- Benchmark是一个行业的基准(数据库,论文,源码,结果)。 face benchmark或MPII Human Pose Dataset
- 论文
- 论坛或者交流社区 如thinkface
- 处理
- 正样本:裁剪,根据标注把目标裁剪出来,例如人脸,可使用opencv工具
- 负样本:随便选择的框,可与正样本重叠,但不能太多 这个比例 成为 inception open union (Iou) 一般为0.3,小于0.3为负样本 大于0.7为正样本(当做遮蔽的数据),中间的舍弃
- 根据不同框架数据集格式生成数据集
训练
- Input Image 227*227*3
- Conv1
- num_output=96 特征图数量
- kernel_size=11 卷积核大小
- stride=4 滑动步长
- input:55*55*96
- relu
- Pool
- kernel_size=3,
- stride=2
- input:27*27*96
- 经过多层卷积,,激活,池化,(偶尔还有规范化)
- 全连接层 4096*1
- 激活
- drop
- 全连接分类n*1