毕业设计:基于CNN的图像分类算法

近年来人工智能越来越火，好像本科毕设不搞人工智能都很丢人似的。但是普通本科生对于这个领域的了解显然很少，基本也就是做做数据搜集、数据标注、工程实现、调调参的工作。

不过这也不错，可以为以后硕士深造埋下伏笔，创造兴趣，打好基础。所以如果不读硕的同学建议不要选这方面的题目。

这次我介绍的毕设题目是：基于卷积神经网络的图像分类算法的工程实现。先说一下电脑配置和环境依赖版本。

代码语言：javascript复制

联想T480
8G内存
2G显存
MX150显卡（支持GPU加速）
torch 1.3.1
cuda 10.2

我们首先选择LeNet-5这个卷积神经网络的鼻祖来当做baseline。该网络发表于1998年，当年广泛应用于美国银行的数字识别。

当我们跑模型的时候，首先要选择一个简单并通用的网络来当做baseline，即知道这个问题的下限在哪里。这样方便以后我们选择更复杂更通用的模型来持续优化效果。

数据集是这样的。近五千张船舶图片。船舶种类丰富，包括帆船、渔船、木舟、游轮、货船、工作船、军舰等。拍摄角度包括航拍、红外图像、可见光图像、船上拍摄、船舶加海天背景等。其中军舰图像占50%，其他图像占50%。该毕设问题即解决，区分军舰和其他船舶的问题。

图像大致如下：

others.4.jpg

others.604.jpg

warship.214.jpg

transport.21.jpg

working.23.jpg

small.378.jpg

这是个二分类的问题。

接下来介绍LeNet-5的网络结构，如图。

LeNet-5

这里先介绍一个公式:

代码语言：javascript复制

N = （W - F   2P）/ S      1
W 输入矩阵大小
F  卷积层、池化层的核大小
P  填充大小
S  移动步长
N  输出矩阵大小

先贴上该网络的pytorch的代码实现。

代码语言：javascript复制

class LeNet(BasicModule):
    def __init__(self, num_classes=2):

        super(LeNet, self).__init__()
        self.model_name = 'LeNet'

        self.conv1 = nn.Conv2d(3, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 53 * 53, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, num_classes)

    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(x.size()[0], -1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

在原始论文中，网络结构如此。卷积层1 池化层2 卷积层3 池化层4 全连接层5、6、7。一共七层网络。原始论文中，图片大小为33232，即长宽为32的三通道图片。

而在本实验中，因为原始图片本身很大，在这里我统一设置成了3224224的图片。因此在网络中，最后一个池化层和全连接成对接的时候，需要注意大小。

原始论文为：

代码语言：javascript复制