毕业设计:基于CNN的图像分类算法

2020-02-18 15:22:41 浏览数 (1)

近年来人工智能越来越火,好像本科毕设不搞人工智能都很丢人似的。但是普通本科生对于这个领域的了解显然很少,基本也就是做做数据搜集、数据标注、工程实现、调调参的工作。

不过这也不错,可以为以后硕士深造埋下伏笔,创造兴趣,打好基础。所以如果不读硕的同学建议不要选这方面的题目。

这次我介绍的毕设题目是:基于卷积神经网络的图像分类算法的工程实现。先说一下电脑配置和环境依赖版本。

代码语言:javascript复制
联想T480
8G内存
2G显存
MX150显卡(支持GPU加速)
torch 1.3.1
cuda 10.2

我们首先选择LeNet-5这个卷积神经网络的鼻祖来当做baseline。该网络发表于1998年,当年广泛应用于美国银行的数字识别。

当我们跑模型的时候,首先要选择一个简单并通用的网络来当做baseline,即知道这个问题的下限在哪里。这样方便以后我们选择更复杂更通用的模型来持续优化效果。

数据集是这样的。近五千张船舶图片。船舶种类丰富,包括帆船、渔船、木舟、游轮、货船、工作船、军舰等。拍摄角度包括航拍、红外图像、可见光图像、船上拍摄、船舶加海天背景等。其中军舰图像占50%,其他图像占50%。该毕设问题即解决,区分军舰和其他船舶的问题。

图像大致如下:

others.4.jpg

others.604.jpg

warship.214.jpg

transport.21.jpg

working.23.jpg

small.378.jpg

这是个二分类的问题。

接下来介绍LeNet-5的网络结构,如图。

LeNet-5

这里先介绍一个公式:

代码语言:javascript复制
N = (W - F   2P)/ S      1
W 输入矩阵大小
F  卷积层、池化层的核大小
P  填充大小
S  移动步长
N  输出矩阵大小

先贴上该网络的pytorch的代码实现。

代码语言:javascript复制
class LeNet(BasicModule):
    def __init__(self, num_classes=2):

        super(LeNet, self).__init__()
        self.model_name = 'LeNet'

        self.conv1 = nn.Conv2d(3, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 53 * 53, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, num_classes)

    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(x.size()[0], -1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

在原始论文中,网络结构如此。卷积层1 池化层2 卷积层3 池化层4 全连接层5、6、7。一共七层网络。原始论文中,图片大小为33232,即长宽为32的三通道图片。

而在本实验中,因为原始图片本身很大,在这里我统一设置成了3224224的图片。因此在网络中,最后一个池化层和全连接成对接的时候,需要注意大小

原始论文为:

代码语言:javascript复制
self.fc1 = nn.Linear(16 * 5 * 5, 120)

我改为了:

代码语言:javascript复制
self.fc1 = nn.Linear(16 * 53 * 53, 120)

可根据上面的公式自行计算。

根据不同参数,我进行了九次实验,在验证集上的表现如下:

Figure_1.png

有两条线明显效果很差,我们把它们排除,再看一下其他七次实现的情况。

Figure_2.png

从这里可以清楚的看到七次实验,验证集上的变化情况。

一般调参,重要的参数无非是batch_size、学习率。从该曲线可以看出,当batch_size为32,学习率为0.001时,正确率最高。

随后在测试集上表现如下:

image.png

0 人点赞