第十章 图像处理

1. 10.1图像处理简介

ppt page 1:

大家好,接下来给大家讲解第10章图像处理第1节,本节内容是图像处理简介

 

ppt page 2:

本节的内容有:

1. 数字图像处理基础

2. 机器学习的图像处理简介

 

ppt page 3:

本小节学习目标

理解数字图像处理基础

理解图像处理的应用场景

 

ppt page 4

首先,我们先来介绍一下数字图像处理的基础知识

图像的感知和获取     

数字图像的采集过程是使用大量的光敏传感器构成阵列以获取图像。成像的质量由传感器的单元数,尺寸和传感性能决定

 

ppt page 5

图像数字化

多数传感器的输出是连续的电压波形,图像数字化是将连续色调的图像转换为计算机能够处理的数字影像的过程。

图像数字化包括两种处理过程:采样和量化。

 

ppt page 6

采样

将空间上连续的图像变换成离散点的操作。

     采样是按照某种时间间隔或空间间隔,采集模拟信号的过程,即离散化。

     图像数字化的采样过程是将空间上连续的图像变化为离散的点。

     采样的效果由传感器的采样间隔和采样孔径决定。

 

ppt page 7

分辨率

采样后得到离散图像的尺寸称为图像分辨率。分辨率是数字图像中采样点的多少,它决定了图像可辨别的最小细节。

宽(width)——水平方向的细节数

高(height)——垂直方向的细节数

例如:

一副640*480分辨率的图像——这幅图像是由640*480=307200个点组成。

一副1920*1080分辨率的图像——这幅图像是由1920*1080= 2073600个点组成。

 

ppt page 8

不同分辨率采样的效果

采样间隔越小,所得图像像素数越多,空间分辨率高,图像质量好,但数据量大。

      (a)~(f)展示了lena图的分辨率从512x512依次降低到8x8的图像效果。

 

ppt page 9

6.量化

经采样图像被分割成空间上离散的像素,但其灰度是连续的,还不能用计算机进行处理,需要经过量化。

量化:将像素灰度转换成离散的整数值的过程,是将采集到的模拟信号归到有限个信号等级上的过程,即信号值等级有限化。

数字图像处理的量化过程将采样点的传感器信号转换成离散的整数值。

 

ppt page 10

灰度级

灰度级(depth)表征了每个采样点的传感器输出中可分辨的最小变化。

     通常是2的整数次幂。用m级或者n位来表示灰度级。图像数据的灰度级越多视觉效果就越好。计算机中最常用的是8位图像。

一副8位的图像,表示每个采样点有2^8=256级。从最暗到最亮,可以分辨256个级别。

一副32级的灰度图像,每个采样点从最暗到最亮,可以分辨32个级别。

 

ppt page 11

不同灰度级量化的效果

量化等级越多,所得图像层次越丰富,灰度分辨率高,图像质量好,但数据量大。

     (a)~(f)展示了lena图的灰度级从256级依次降低到4级的图像效果。

 

ppt page 12

数字图像的表示

取样和量化后的数字图像结果在数学上表示为一个矩阵,使用数学符号矩阵I或者函数f(x,y)来表示一副数字图像,如下面式子所示

 

矩阵的宽和高对应了图像分辨率的宽和高。

矩阵中每个元素记录了该采样点传感器信号量化后的强度。对于灰度图像,其强度是一个0到灰度级的整数。

 

ppt page 13

像素

数字图像中的每一个采样点,被称之为像素(pixel)。像素可以由它在图像中的位置坐标(x,y)来描述。

      对于一副M N分辨率的数字图像,通常我们把左上角的像素记为原点(0,0)。水平方向的坐标范围是[0,M-1],垂直方向的坐标范围是[0,N-1]

      像素的数据维度被称为通道(Channel)。

 

ppt page 14

灰度图

 

单通道记录了像素点的亮度信息,例如8位的图像,0表示最暗(黑色),255表示最亮(白色),如下图所示。

一个灰度图最终会转成一个记录灰度值的数字矩阵

 

ppt page 15

彩色图像 - RGB

为了表征彩色图像,我们需要使用多通道数字图像。最普遍的方式是使用RGB颜色空间。RGB颜色空间中每个像素点有三个维度,分别记录在红(red)、绿(green)、蓝(blue)三原色分量上的亮度。

例如

按照(r,g,b) 的方式:

(255,0,0)         纯红

(124,252,0)     草坪绿

(135,206,235  天蓝色

 

 

ppt page 16

彩色图像 - HSV

另一种常用的颜色空间是HSV,该颜色空间可以用一个圆锥来表示。HSV表示色相(hue)、饱和度(saturation)和亮度(value)。H表示颜色的相位角(hue),取值范围是0360度;S表示颜色的饱和度(saturation),范围从01,它表示成所选颜色的纯度和该颜色最大的纯度之间的比率;V表示色彩的明亮程度(value),范围从01

HSV类似的颜色空间还有:

• HSL(L: lightness)

• HIS(I: intensity)

 

ppt page 17

其他颜色空间

还有以下颜色空间,这些并不常用,大家只需了解一下即可

 

ppt page 18

颜色空间变化

在计算机视觉中,尤其是颜色识别相关的算法设计中,各种颜色空间经常混合使用。RGBHSVYUV等常见颜色空间可以通过计算公式实现相互转化,这个过程叫做颜色空间变化。颜色变换的计算公式比较复杂,通常图像处理库会提供颜色空间变化的API给用户调用。

 

ppt page 19

为了方便计算,在不关心颜色的处理场景中,经常将多通道的彩色图像转为单通道的灰度图像,这个过程叫做灰度化。对于BGR图像,常见的灰度化思路有三种:

最大值法: = max⁡(,,)

平均值法: = (++)/3

加权平均值法: = 0.11 + 0.59 + 0.30

灰度化的操作也可以直接调用图像处理库的API完成。

 

ppt page 20:

图像处理是计算机应用的一个重要场景,常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等,只有具备的图像处理能力,才能让计算机模拟人的视觉机理,通过对图像中的纹理、颜色等信息进行建模、变形、分割等处理,让计算机具备感知和理解图像的能力,使得计算机拥有视觉系统

机器学习在图像处理方面的应用就是通过机器学习,让计算机能够具备更强大的图像处理能力和更高准确度的模式识别能力,具有更强大的视觉系统

使用机器学习进行图像处理的技术已成功应用于图像修复、物体识别、物体检测、图像问答和人脸识别等领域

1、 图像修复。

传统的针对图像处理的研究方法主要基于数学和物理知识。由于深度学习近些年的发展,越来越多的图形学研究者将机器学习的方法应用到图像处理领域,特别是在图像编辑和图像生成方面已经获得一定的成就。

图像修复是图像编辑和图像生成领域的一个典型问题,通俗来讲,图像修复就是针对一张被挖了洞的图片,利用图片中的其他信息将洞补上的过程。

对于图片修复问题,核心思想就是利用图像本身的冗余性,利用图像已知部分的信息来补全未知部分。修复的流程分为两大步骤,首先选择待修补的像素,然后进行搜索补全。在选择待修补像素时,对于补全区域边界的像素依次计算补全的优先度,然后选择优先度高的进行修补。也就是说,选择周围像素可信度高以及图像梯度变化剧烈的位置进行优先补全,在搜索补全时,对于补全像素,使用周围小的像素块,然后在图上已知部分搜索所有像素块,找到最相似的像素块,使用它们补全未知部分,这样不断迭代,对图像进行修复。

这种方式在实际实施的过程中,存在两个问题,一是如果图像已知部分找不到相似的像素块,算法将无法进行;二就搜索相似的像素块时,计算复杂度非常高,算法运行效率低。

为了有效解决这两个问题,对算法进行了改造。一方面,当在图像已知部分找不到相似像素块时,从互联网上存在的大量图片中寻找素材;另一方面,针对逐步补全效率低的问题,采取直接从其他图像中抠出完整的一块来补填补的方法。

随着神经网络算法的崛起,针对图像修复问题也引入了机器学习方法的来进行解决。通常,利用卷积神经网络来学习图像中的高准确度特征,利用特征来指导图像缺失部分的生成。通过将大数据和图像高准确度特征组合起来,使图像修复得到极大的完善

 

ppt page 4:

2、图像物体识别与检测。

在图像处理中,很重要的一个应用领域就是识别、检测图像中的物体和景物等。图像物体识别是指对一张图片进行分析,识别出这张图片中包含的物体。图像物体检测指的是检测物体出现在图像中的什么地方,一般需要将物体以外接矩形框的形式显示出来。

图像物体识别与检测在实际生活中有着广泛的应用,例如交通领域的交通场景物体识别、车辆计数、逆行检测、车牌监测与识别;安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等;互联网领域的基于内容的图像检索,相册自动归类等。

由于卷积神经网络在模式识别方面具有较强的表现能力,因此,图像物体识别与检测方面的算法也多在卷积神经网络的基础上进行改进,常用的算法如下

1) DPM

DPM(Deformable Parts Model)是一种非常成功的目标检测算法,是21世纪初最常使用的检测算法,是众多分类器、分割、人体姿态和行为分类的重要组成部分。它的整体设计思路是:首先计算梯度方向的直方图,然后通过SVM训练得到物体的梯度模型,最后使用这种模型进行分类检测,由于在计算过程中使用的是传统的滑动窗口方法,因此计算量非常大

2) OverFeat

该算法是Alex-Net算法的改进版,它使用图像缩放和窗口滑动的方法,在一个卷积网络中同时完成物体识别、定位和检测三个任务。

3) DeepID-Net

该算法是一种卷积神经网络模型,将输入的图片分解到一个160维的向量。然后在这个160维的向量上,套用各种现成的分类器,即可得到结果。目前,该算法主要用于人脸识别。

4) RCNN

RCNN算法使用聚类的方法,对图像进行分组,得到含多个候选框的层次组,然后判断这些候选框中的任何一个是否对应着一个具体对象。整个计算过程是:首先使用Selective Search从原始图片中提取2000个候选框,然后将候选框缩放成固定大小,最后使用CNN和全连接层进行分类

5) Fast RCNN

顾名思义,该算法是RCNN算法的改进版,去掉了RCNN算法中的重复计算,并微调了候选框的位置,解决了RCNN算法训练慢的问题。主要变化是引入了感兴趣区域池化,整个计算过程是:首先将原图通过CNN提取特征,然后提取候选框,并将候选框投影到特征图上,池化采样成固定大小,最后经过两个全连接已经进行分类与微调

6) Faster RCNN

该算法也主要用于解决RCNN算法训练慢的问题,它重复利用多个区域中相同的CNN结果,几乎把边框生成过程的运算降为0,整个计算过程是:首先使用CNN提取特征,然后经过卷积核为3×3×256的卷积,在每个点上预测开k个目标窗口是否是物体,并微调目标窗口的位置,从而提取候选框。对于候选框,采用与Fast RCNN同样的方式进行分类。

7) SPP-Net

该送法进空间金字塔池化引入视觉识别神经网络模型。它与RCNN算法的区别是,在全连接层输入时不再需要归一化图像尺寸,同时增加了空间金字塔池化层,每张图片只需要提取一次特征,这样提取到的特征有更好的尺度不变性,可以降低过拟合的可能性。

8) YOLO

这是一种标准化的、实时的目标检测算法,与RCNN算法最大的区别在于极大减少了读取图的次数。在RCNN算法中,需要对一张图片中划分的2000个目标窗口判断是否是物体,然后在进行物体识别。YOLO算法对物体框的选择和识别进行了组合,将原图缩放成448像素×448像素大小,然后运行单个CNN来计算物体中心是否落入单元格、物体的位置、物体的类别等。但是,若在7 × 7框架下识别的物体,当遇到大量小物体时则难以处理

9) SSD

SSD算法结合了YOLOFaster RCNN算法的优势,能够在不同层级的特征图谱中进行识别,能够覆盖更广的范围,相比于YOLO算法,两者速度接近,但SSD算法的精度更高

 

ppt page 12:

本节小结:本节主要讲解图像处理的应用场景,包括图像修复和图像物体识别与检测。本节讲到这里,谢谢大家