当谈到基于CNN的深度学习例子时,图像分类是最常见的任务之一。CNN(卷积神经网络)在图像处理任务中表现出色,能够自动学习图像的特征表示。以下是一个基于CNN的图像分类示例,并给每一行添加了注释:
代码语言:javascript复制import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
# 设置随机种子,以便结果可复现
torch.manual_seed(42)
# 加载并预处理数据集
transform = transforms.Compose([
transforms.ToTensor(), # 将图像转换为张量
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 归一化
])
trainset = torchvision.datasets.CIFAR10(root=‘./data’, train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=32, shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(root=‘./data’, train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=32, shuffle=False, num_workers=2)
# 定义CNN模型
class CNN(nn.Module):
def init(self):
super(CNN, self).init()
self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1) # 输入通道数为3,输出通道数为16,卷积核大小为3,步长为1,填充为1
self.relu = nn.ReLU() # ReLU激活函数
self.pool = nn.MaxPool2d(kernel_size=2, stride=2) # 最大池化层,池化核大小为2,步长为2
self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1) # 输入通道数为16,输出通道数为32,卷积核大小为3,步长为1,填充为1
self.fc1 = nn.Linear(32 8 8, 128) # 全连接层,输入大小为3288,输出大小为128
self.fc2 = nn.Linear(128, 10) # 全连接层,输入大小为128,输出大小为10(类别数)
def forward(self, x):
x = self.relu(self.conv1(x))
x = self.pool(x)
x = self.relu(self.conv2(x))
x = self.pool(x)
x = x.view(x.size(0), -1)
x = self.relu(self.fc1(x))
x = self.fc2(x)
return x
# 实例化模型和损失函数
net = CNN()
criterion = nn.CrossEntropyLoss() # 交叉熵损失函数
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) # 随机梯度下降优化器
# 训练模型
for epoch in range(10): # 进行10个epoch的训练
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
inputs, labels = data
optimizer.zero_grad()
# 前向传播、反向传播、优化
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
running_loss = loss.item()
if i % 2000 1999:
print(f‘[{epoch 1}, {i 1}] loss: {running_loss / 2000:.3f}’)
running_loss = 0.0
print(‘Finished training’)
# 在测试集上评估模型
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs.data, 1) # 获取每个样本预测的类别索引
total = labels.size(0)
correct = (predicted labels).sum().item()
print(f‘Accuracy on the test set: {100 * correct / total:.2f}%’)
在这个例子中,我们使用了PyTorch来构建和训练一个简单的CNN模型进行CIFAR-10图像分类任务。
首先,我们使用torchvision
模块加载CIFAR-10数据集,并进行了预处理(将图像转换为张量并进行归一化)。
然后,我们定义了一个简单的CNN模型。该模型由两个卷积层(带有ReLU激活函数和池化操作)和两个全连接层组成。
接下来,我们实例化了损失函数(交叉熵损失)和优化器(随机梯度下降)。
然后,我们使用训练集进行模型训练。在每个epoch中,我们通过前向传播计算输出、计算损失、反向传播和优化来更新模型的参数。
最后,我们在测试集上评估训练好的模型,并计算分类准确率。
这个基于CNN的图像分类例子展示了如何使用深度学习来解决实际问题。通过构建一个CNN模型并对其进行训练,我们能够对图像进行分类,并获得模型在测试集上的准确率评估。
下面是代码每部分分段介绍。
代码语言:javascript复制import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
# 设置随机种子,以便结果可复现
torch.manual_seed(42)
# 加载并预处理数据集
transform = transforms.Compose([
transforms.ToTensor(), # 将图像转换为张量
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 归一化
])
trainset = torchvision.datasets.CIFAR10(root=‘./data’, train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=32, shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(root=‘./data’, train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=32, shuffle=False, num_workers=2)
首先,我们导入必要的库和模块,包括PyTorch、torchvision和torchvision.transforms。然后,我们设置了随机种子,以确保结果的可重现性。
接下来,我们定义了一个数据预处理的管道transform
。在这个例子中,我们将图像转换为张量,并进行归一化处理。
然后,我们使用torchvision.datasets.CIFAR10
加载CIFAR-10数据集,通过设置root
指定数据集的存储路径,train=True
表示加载训练集,download=True
表示如果数据集不存在,则下载数据集。我们还传入了之前定义的数据预处理管道transform
。
通过torch.utils.data.DataLoader
,我们创建了训练集和测试集的数据加载器。batch_size
参数指定每个批次的样本数量,shuffle=True
表示在每个epoch中打乱数据,num_workers
表示用于数据加载的线程数。
# 定义CNN模型
class CNN(nn.Module):
def init(self):
super(CNN, self).init()
self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1) # 输入通道数为3,输出通道数为16,卷积核大小为3,步长为1,填充为1
self.relu = nn.ReLU() # ReLU激活函数
self.pool = nn.MaxPool2d(kernel_size=2, stride=2) # 最大池化层,池化核大小为2,步长为2
self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1) # 输入通道数为16,输出通道数为32,卷积核大小为3,步长为1,填充为1
self.fc1 = nn.Linear(32 8 8, 128) # 全连接层,输入大小为3288,输出大小为128
self.fc2 = nn.Linear(128, 10) # 全连接层,输入大小为128,输出大小为10(类别数)
def forward(self, x):
x = self.relu(self.conv1(x))
x = self.pool(x)
x = self.relu(self.conv2(x))
x = self.pool(x)
x = x.view(x.size(0), -1)
x = self.relu(self.fc1(x))
x = self.fc2(x)
return x
我们定义了一个简单的CNN模型。这个CNN模型包含了两个卷积层(conv1
和conv2
),每个卷积层后面都跟着一个ReLU激活函数和一个最大池化层(pool
)。最后,我们有两个全连接层(fc1
和fc2
)。
在init
方法中,我们定义了模型的各个层次和参数。每个卷积层的参数包括输入通道数、输出通道数、卷积核大小、步长和填充。每个全连接层的参数包括输入大小和输出大小。
在forward
方法中,我们定义了模型的前向传播过程。我们使用ReLU激活函数来引入非线性性,使用最大池化层来降低特征图的尺寸。通过view
方法,我们将特征图展平成一维向量,以便传递给全连接层。最后一层是一个全连接层,输出的大小为类别数(在这个例子中为10)。
# 实例化模型和损失函数
net = CNN()
criterion = nn.CrossEntropyLoss() # 交叉熵损失函数
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9) # 随机梯度下降优化器
我们实例化了之前定义的CNN模型,并定义了损失函数和优化器。在这个例子中,我们使用交叉熵损失函数和随机梯度下降(SGD)优化器。
代码语言:javascript复制# 训练模型
for epoch in range(10): # 进行10个epoch的训练
running_loss = 0.0
for i, data in enumerate(trainloader, 0):
inputs, labels = data
optimizer.zero_grad()
# 前向传播、反向传播、优化
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
running_loss = loss.item()
if i % 2000 1999:
print(f‘[{epoch 1}, {i 1}] loss: {running_loss / 2000:.3f}’)
running_loss = 0.0
print(‘Finished training’)
在训练阶段,我们使用训练集进行模型的训练。我们遍历数据加载器中的每个批次,将输入数据和标签加载到设备上。然后,我们将梯度缓存清零(通过optimizer.zero_grad()
),执行前向传播、反向传播和优化步骤。损失函数用于计算输出和标签之间的损失,并通过反向传播计算梯度。优化器根据梯度更新模型的参数。我们还计算并打印出每个epoch的平均损失。
# 在测试集上评估模型
correct = 0
total = 0
with torch.no_grad():
for data in testloader:
images, labels = data
outputs = net(images)
_, predicted = torch.max(outputs.data, 1) # 获取每个样本预测的类别索引
total = labels.size(0)
correct = (predicted labels).sum().item()
print(f‘Accuracy on the test set: {100 * correct / total:.2f}%’)
在测试阶段,我们使用测试集对训练好的模型进行评估。对于每个样本,我们计算模型的输出并找到最高分数对应的类别索引。然后,我们将预测结果与真实标签进行比较,计算分类正确的样本数。最后,我们计算并打印出模型在测试集上的准确率。
这个基于CNN的图像分类例子展示了如何使用深度学习来解决实际问题。通过构建一个CNN模型并对其进行训练,我们能够对图像进行分类,并获得模型在测试集上的准确率评估。