OpenCV 教程 02: OpenCV 的核心操作

在本文中，你将学习图像的基本操作，如像素编辑、几何变换、代码优化、一些数学工具等。

图像的基本操作

学习读取和编辑像素值，使用图像 ROI 和其他基本操作。主要是以下四点：

访问像素值并修改它们
访问图像属性
设置感兴趣区域 (ROI)
拆分和合并图像

本节中几乎所有的操作都主要与 Numpy 相关，而不是 OpenCV。使用 OpenCV 编写更好的优化代码需要良好的 Numpy 知识。

访问像素值并修改它们

代码语言：javascript复制

>>> import numpy as np
>>> import cv2 as cv
>>> img = cv.imread('messi5.jpg')

接下来就可以通过其行和列坐标访问像素值。对于 BGR 图像，它返回一个包含蓝色、绿色、红色值的数组。对于灰度图像，只返回相应的强度：

代码语言：javascript复制

>>> px = img[100,100] #访问坐标（100，100）处的像素值
>>> print( px ) #打印出来的是BGR，也就是蓝、绿、红、对应的值
[157 166 200]
# #访问B通道像素值，那么传入索引 0，相应的访问 R 通道，就是 2
>>> blue = img[100,100,0]
>>> print( blue )
157
>>> red = img[100,100,2]
>>> print( red )
200

我们可以直接修改某一坐标的像素值：

代码语言：javascript复制

>>> img[100,100] = [255,255,255]
>>> print( img[100,100] )
[255 255 255]

Numpy 是一个用于快速数组计算的优化库。因此，简单地访问每个像素值并对其进行修改将非常慢，上述代码仅用于演示，不是推荐的做法。

更优雅的访问并修改像素的做法是这样的：

代码语言：javascript复制

# 访问坐标10，10 出的 R 值
>>> img.item(10,10,2)
59
# 修改坐标10，10 出的 R 值
>>> img.itemset((10,10,2),100)
>>> img.item(10,10,2)
100

访问图像属性

获取图片的形状：

代码语言：javascript复制

>>> print( img.shape )
(342, 548, 3)

342 是高，也就是有多少行像素值，548 是宽，也就是有多少列像素值，而 3 代表 3 通道，表示这是个彩色图而不是灰度图。如果是灰度图，那么返回的结果只有高和宽。

获取总的像素数：342*548*3 = 562248

代码语言：javascript复制

>>> print( img.size )
562248

获取图片的数据类型：

代码语言：javascript复制

>>> print( img.dtype )
uint8

因为像素的最大值就是 255，因此，8 位够用了。

设置感兴趣区域 ROI(ROI-Region of Interest)

有时，我们将不得不使用某些图像区域。比如，对于图像中的眼睛检测，首先对整个图像进行人脸检测。当获得人脸时，我们只选择人脸区域并在其中搜索眼睛，而不是搜索整个图像。它提高了准确性（因为眼睛总是在脸）和性能（因为我们在一个小区域内搜索）。

使用 Numpy 索引来获得 ROI。在这里，我选择了球并将其复制到图像中的另一个区域：

代码语言：javascript复制

>>> ball = img[280:340, 330:390]
>>> img[273:333, 100:160] = ball

效果图如下：

拆分和合并图像

有时你需要单独处理图像的 B、G、R 通道。在这种情况下，你需要将 BGR 图像拆分为单个通道。在其他情况下，你可能需要加入这些单独的频道来创建 BGR 图像。你可以通过以下方式简单地做到这一点：

代码语言：javascript复制

>>> b,g,r = cv.split(img)
>>> img = cv.merge((b,g,r))

但是，cv.split 效率没有下面使用索引的方式高：

代码语言：javascript复制

>>> b = img[:,:,0]

修改也可以用索引，比如你想把所有的红色值设为 0:

代码语言：javascript复制

>>> img[:,:,2] = 0

有时候，我们想为图片加上边框，比如相框，可以使用 cv.copyMakeBorder()。但它在卷积运算、零填充等方面有更多应用。此函数采用以下参数：

下面是一个示例代码，演示了所有这些边框类型，以便你可以更好地理解：

代码语言：javascript复制

import cv2 as cv
import numpy as np
from matplotlib import pyplot as plt
BLUE = [255,0,0]
img1 = cv.imread('opencv-logo.png')
replicate = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_REPLICATE)
reflect = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_REFLECT)
reflect101 = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_REFLECT_101)
wrap = cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_WRAP)
constant= cv.copyMakeBorder(img1,10,10,10,10,cv.BORDER_CONSTANT,value=BLUE)
plt.subplot(231),plt.imshow(img1,'gray'),plt.title('ORIGINAL')
plt.subplot(232),plt.imshow(replicate,'gray'),plt.title('REPLICATE')
plt.subplot(233),plt.imshow(reflect,'gray'),plt.title('REFLECT')
plt.subplot(234),plt.imshow(reflect101,'gray'),plt.title('REFLECT_101')
plt.subplot(235),plt.imshow(wrap,'gray'),plt.title('WRAP')
plt.subplot(236),plt.imshow(constant,'gray'),plt.title('CONSTANT')
plt.show()

效果如下所示：

图像的算术运算

对图像执行算术运算，如加法、减法、按位运算等。主要使用这些函数：cv.add()、cv.addWeighted() 等。

图片加法

你可以使用 OpenCV 函数 cv.add() 或简单地通过 numpy 操作 res = img1 img2 添加两个图像。两个图像应该具有相同的深度和类型，或者第二个图像可以只是一个标量值。

OpenCV 加法和 Numpy 加法是有区别的。OpenCV 加法是饱和运算，而 Numpy 加法是模运算。

代码语言：javascript复制

>>> x = np.uint8([250])
>>> y = np.uint8([10])
>>> print( cv.add(x,y) ) # 250 10 = 260 => 255
[[255]]
>>> print( x y )          # 250 10 = 260 % 256 = 4
[4]

图片混合

这也是图像添加，但为图像赋予不同的权重，以便给人一种混合或透明的感觉。根据以下等式添加图像：

α 从 0→1。。在这里我们把两张图像混合在一起。第一张图片的权重为 0.7，第二张图片的权重为 0.3。cv.addWeighted() 将以下等式应用于图像，这里 γ 是 0。

代码语言：javascript复制

img1 = cv.imread('ml.png')
img2 = cv.imread('opencv-logo.png')
dst = cv.addWeighted(img1,0.7,img2,0.3,0)
cv.imshow('dst',dst)
cv.waitKey(0)
cv.destroyAllWindows()

效果如下：

位运算

这包括按位与、或、非和异或运算。它们在提取图像的任何部分（我们将在接下来的章节中看到）、定义和使用非矩形 ROI 等时非常有用。下面我们将看到一个如何更改图像特定区域的示例。

比如将 OpenCV logo 放在图像上方。如果我添加两个图像，它会改变颜色。如果我混合它们，我会得到透明的效果。但我希望它是不透明的。如果它是一个矩形区域，我可以使用 ROI。但是 OpenCV 标志不是一个矩形。因此，你可以使用按位运算来完成，如下所示：

代码语言：javascript复制

# 读取两个图片
img1 = cv.imread('messi5.jpg')
img2 = cv.imread('opencv-logo-white.png')
# 我想把 logo 放左上角，因此创建一个 ROI
rows,cols,channels = img2.shape
roi = img1[0:rows, 0:cols]

# 现在创建一个 logo 蒙版并创建其反向蒙版 
img2gray = cv.cvtColor(img2,cv.COLOR_BGR2GRAY)
ret, mask = cv.threshold(img2gray, 10, 255, cv.THRESH_BINARY)
mask_inv = cv.bitwise_not(mask)

# 现在将 ROI 中的 logo 区域涂黑
img1_bg = cv.bitwise_and(roi,roi,mask = mask_inv)

# 从 logo 图像中仅获取 logo 区域
img2_fg = cv.bitwise_and(img2,img2,mask = mask)


# 放置 logo
dst = cv.add(img1_bg,img2_fg)
img1[0:rows, 0:cols ] = dst


cv.imshow('res',img1)
cv.waitKey(0)
cv.destroyAllWindows()

效果图：

性能测试和改进

获得解决方案很重要。但是以最快的方式获得它更重要。

在图像处理中，由于你每秒处理大量操作，因此你的代码不仅要提供正确的解决方案，而且还要以最快的方式提供解决方案，这是必须的。接下来，我们看一下如何衡量代码的性能和一些提高代码性能的技巧。

会用到这些函数：cv.getTickCount、cv.getTickFrequency 等。

除了 OpenCV，Python 还提供了一个模块 time，有助于测量执行时间。另一个模块 profile 有助于获得关于代码的详细报告，例如代码中每个函数花费了多少时间，函数被调用了多少次等。

使用 OpenCV 测量性能

cv.getTickCount 函数返回从机器开启的那一刻到调用此函数的那一刻的时钟周期数。因此，如果你在函数执行之前和之后调用它，你将获得用于执行函数的时钟周期数。

cv.getTickFrequency 函数返回时钟周期的频率，或每秒的时钟周期数。因此，要以秒为单位查找执行时间，你可以执行以下操作：

代码语言：javascript复制

e1 = cv.getTickCount()
# 这里放置你的代码
e2 = cv.getTickCount()
time = (e2 - e1)/ cv.getTickFrequency()

通过以下示例进行演示。下面的例子应用了中值过滤，核的大小从 5 到 49 不等:

代码语言：javascript复制

img1 = cv.imread('messi5.jpg')
e1 = cv.getTickCount()
for i in range(5,49,2):
    img1 = cv.medianBlur(img1,i)
e2 = cv.getTickCount()
t = (e2 - e1)/cv.getTickFrequency()
print( t )
# 0.521107655 seconds

你也可以使用 time 模块来计时

OpenCV 中的默认优化

许多 OpenCV 函数都使用 SSE2、AVX 等进行了优化。它还包含未优化的代码。因此，如果我们的系统支持这些功能，我们应该利用它们（几乎所有现代处理器都支持它们）。编译时默认启用。所以 OpenCV 如果启用则运行优化的代码，否则运行未优化的代码。你可以使用 cv.useOptimized() 检查它是否启用/禁用，并使用 cv.setUseOptimized() 启用/禁用它。让我们看一个简单的例子。

代码语言：javascript复制

# 检查优化是否启用
In [5]: cv.useOptimized()
Out[5]: True
In [6]: %timeit res = cv.medianBlur(img,49)
10 loops, best of 3: 34.9 ms per loop
# 禁用优化
In [7]: cv.setUseOptimized(False)
In [8]: cv.useOptimized()
Out[8]: False
In [9]: %timeit res = cv.medianBlur(img,49)
10 loops, best of 3: 64.1 ms per loop

在 IPython 中测试时间

代码语言：javascript复制

In [10]: x = 5
In [11]: %timeit y=x**2
10000000 loops, best of 3: 73 ns per loop
In [12]: %timeit y=x*x
10000000 loops, best of 3: 58.3 ns per loop
In [15]: z = np.uint8([5])
In [17]: %timeit y=z*z
1000000 loops, best of 3: 1.25 us per loop
In [19]: %timeit y=np.square(z)
1000000 loops, best of 3: 1.16 us per loop