1.4 本书内容提要

经过多年的研究和应用,计算机视觉已有了长足的进展,而且新的理论和技术还在不断地涌现。计算机视觉的领域很广阔,作为一本介绍计算机视觉的基础教材,如何选取恰当的内容是首先要考虑的问题。另外,确定了这样一本教材后,如何根据专业和应用来选择和使用其中的章节,也是要考虑的问题。下面结合计算机视觉系统的构成和模块来介绍一下本书的内容和教学建议。

1.4.1 计算机视觉系统及模块

学习研究计算机视觉的主要目标是能建立计算机视觉系统来完成各种视觉任务。计算机视觉系统是由多个功能模块按照一定的结构组成的完成视觉任务的系统。每个模块要通过采用特定的技术和方法来完成特定的功能,各个模块之间要互相联系以保证根据一定的流程实现系统功能。

计算机视觉系统是被观察的客观场景与为感知世界而进行观察的用户之间的桥梁。为搭建这个桥梁,需要采集客观场景的图像,对其进行初步处理,提取有意义的基元或目标,对目标进行表达描述,分析目标的特性,还要进一步对2-D图像采取各种方法获取其中所含的3-D信息,从而辨识场景中的物体和恢复景物间的联系,并与先验知识或理想模型进行匹配,最后达到解释场景含义、知觉客观世界的目的。根据上述分析和讨论,我们设计了图1.4.1所示的计算机视觉系统框架,也是本书的组织框架(各方框里括号内的数字代表章,具体讨论见1.4.2小节)。

这里先从计算机视觉系统框架的角度来进行分析。首先要对客观场景采集图像,这是计算机视觉的出发点。为使图像满足进一步加工的需要,要对图像进行一定的预处理。然后,要从图像中检测基元和分割目标(基元检测常是目标分割的基础,但有些情况下也实现了目标提取的目的),以便将图像中感兴趣的部分分离出来。对感兴趣的目标要进行有效的表达和充分的描述,在此基础上还可进行目标的纹理和形状等特性分析。虽然上述各步骤有一定的顺序,但许多步骤的结果都可以给用户提供一些有用的信息,或保存下来用于更高层的加工。图1.4.1中的虚线框所表示的系统库(模型知识库、数据库)提供了数据缓冲、模型存放等可能性。利用以一些特定方式采集的图像,还可以通过计算获得有关场景的3-D信息,包括采用立体视觉的方式、三维景物恢复重建的方式、从序列图像中分析运动情况的方式。借助获得的3-D信息,可以对景物进行分类识别,再与已有的模型进行匹配,就可以理解景物的运动变化含义,并最终获得对场景感知解释的结果,实现用计算机完成视觉工作和任务的目标。

图1.4.1 计算机视觉系统框架和本书框架

1.4.2 如何学习使用本书

为了有效地进行学习,读者需要根据本教材的整体框架和包含的内容来确定所需的先修基础,了解教材中各章的概况,以及根据基础和课时选取需要的章节。

1.整体框架

计算机视觉涉及的领域很广泛,但作为教材,本书主要包括基本的内容和为进一步开展科研工作所需的基础知识。本书主要介绍计算机视觉的基本原理、基础内容、技术方法和已有成果。图1.4.1参照一般的计算机视觉系统框架体系进行了调整,同时也是本书的整体结构框架。图1.4.1中每个小方框对应本书的一章(第2章到第15章),其中括号内的数字即为章的序号。

本书的主要内容除了本章绪论外可分为两大部分(分别对应图1.4.1的左右两半)。

第一大部分包括第2章到第8章,主要对应2-D视觉(或低层与中层视觉)。第2章介绍对图像的采集,采集结果既可以直接用于接下来的处理,也可以存储起来为后期加工的输入(如第9章到第11章)。第3章介绍对图像的预处理技术,这为进一步有效加工进行准备。第5章和第6章均涉及对图像中感兴趣部分的分离,前者更基本一些,且可作为后者的预备工作。第6章是对分割后得到的目标的表达和描述,所获得的结果也可以存储起来为后期的加工服务。第7章和第8章分别对目标的纹理特性和形状特性进行分析,结果可为用户提供有用的信息。

第二大部分包括第9章到第15章,主要对应3-D视觉(或者高层视觉)。第9章使用立体视觉方式来恢复景物的深度信息,第10章使用不同景物重建方式恢复场景的3-D信息,第11章使用序列图像或视频图像中的运动信息来获取客观世界的时空信息。第12章讨论在前述基础上对景物进行识别的原理和方法。第 13 章介绍一些广义匹配技术,有些结合了知识和学习的内容。第14章概括了近年对时空行为理解方面的一些工作,侧重景物的举止姿态等。最后,第15章对场景解释进行讨论,除给出具体示例外,还结合计算机视觉的整体框架对本书进行了概括总结。

2.先修基础

从学习计算机视觉的角度来说,有3个方面的基础知识是比较重要的。

(1)数学知识:首先值得指出的是线性代数,因为图像可表示为点阵,需借助矩阵表达解释各种加工运算过程;另外,有关统计学和概率论的知识也很有用。

(2)计算机科学知识:计算机视觉要用计算机完成视觉任务,所以对计算机软件技术的掌握,对计算机结构体系的理解,以及对计算机编程方法的应用都非常重要。

(3)电子学知识:采集图像的照相机和采集视频的摄像机都是电子器件,要想快速对图像进行加工,也需要使用一定的电子设备。

以上先修基础知识对信息科学相关学科的学生都是比较基本的,而对一般的工程学科的学生来说也应该是有一定基础的。

3.各章概况

作者在编写本书中各章内容时尽量使其自成体系。在结构上,每章开始除整体内容介绍外,均有对各节的概述,在每章结束处均有“总结和复习”,其中给出了本章各节的小结和相应的参考文献介绍,并附有一些思考题和练习题(对部分题给出了解答)。

本书共分为15章。下面对各章的内容进行简单概述。

第1章为绪论,除对计算机视觉进行概括介绍外,还介绍了有关图像的基本概念和基础知识,以及相关的输入输出设备和方法,描述了图像中像素之间的基本联系,给出了计算机视觉系统的框架和本书的结构框架,概述了框架中的各个模块,并对本书的使用提出了建议。

第2章介绍图像采集方面的内容,分别介绍了采集模型(包括几何成像模型和亮度成像模型);采集装置及其性能指标,特别是空间和幅度分辨率;各种获得高维图像的成像方式以及对摄像机进行校正标定(以定量地将摄像机所拍摄的内容和3-D场景中的物体联系起来)的方法。

第3章介绍对图像的预处理手段(以提高图像质量,便于后续加工),包括对像素位置的坐标变换,对灰度进行映射(改善图像灰度的动态范围和分布),对图像的直方图进行修正以改善视觉效果,借助像素邻域的各种空域滤波技术(线性和非线性,平滑和锐化)。

第4章介绍一些基本和典型的基元检测技术。这也是一般从初级视觉到中级视觉的过渡。依次介绍了对边缘、角点、直线、圆、孔等进行基元检测的原理,方案和具体步骤,这些技术对由上述基元进行组合而得到的结合体也是有效的。

第5章介绍一些基本的目标分割技术。区分目标既可以从边界着手,也可以从区域着手。从边界出发,介绍了轮廓搜索技术和给定初始轮廓进行调整的主动轮廓模型。从区域出发,介绍了基本的取阈值分割技术,还介绍了两种有特色的取阈值方法。

第6章介绍对分割目标的表达和描述方法。因为区分目标可采取基于边界或基于区域的方法,所以分别讨论了基于边界的表达和基于区域的表达,以及基于边界的描述和基于区域的描述方法。这些表达和描述方法是互补的。

第7章介绍对目标纹理特性的分析技术。根据对纹理概念的不同理解以及实际纹理分析中的不同需求,对纹理分析的方法可分为统计法、结构法和频谱法。对各类方法的原理、基本技术和特点分别给予了说明。另外,还对有监督纹理分割和无监督纹理分割的思路和方法进行了介绍。

第8章介绍对目标形状特性的分析技术。对形状的分析应该基于形状的性质、可用的理论和技术。这里一方面用基于不同的理论技术的描述符来描述一个形状性质,另一方面考虑了借助同一种理论技术所获得的不同的描述符以刻画目标形状的不同性质。

第9章介绍用多目成像技术获取场景中物体的距离(深度)信息的立体视觉技术。首先概述了立体视觉系统的各个模块,然后具体分析了各种双目成像的模式,最后分别讨论了为获得视差而进行立体匹配的两类方法,即基于区域的方法和基于特征的方法。

第10章介绍一些利用单目(多幅或单幅)2-D图像恢复3-D目标形状信息的技术,包括借助光源移动获得多幅图像再利用光度立体学方法恢复表面朝向的方法,借助图像上的明暗分布来恢复景物形状的方法,借助表面纹理变化来确定表面指向的方法,以及根据焦距确定深度的方法。

第11章介绍对图像序列中各种运动信息的分析技术,既考虑了摄像机运动所导致的帧图像内所有的点的整体移动(也称为全局运动),也考虑了感兴趣的目标在场景中的自身运动(也称为局部运动),最后还介绍了从运动求取3-D结构和恢复景物深度的方法。

第12章介绍图像模式识别技术。这里一方面介绍统计模式识别和结构(句法)模式识别的基本原理和典型方法,包括最小距离分类器、最优统计分类器、字符串结构识别和树结构识别方法;另一方面介绍基于人工神经网络的感知机模型和基于统计学习理论的支持向量机。

第13章介绍匹配技术。匹配可理解为结合不同的、已经存在的表达而建立它们的解释之间联系的技术与过程。匹配可在不同(抽象)层次上进行。这里介绍比较抽象的,主要与图像目标或目标的性质有关的广义匹配方式和技术。

第14章介绍时空理解技术。先讨论了目前时空技术的体系和层次,然后从时空兴趣点的检测入手,分析了动态轨迹和活动路径方法,动作检测和识别方法以及动作分类和识别技术,并进而上升到对动作和活动进行高抽象层次(与语义和智能相关)建模和描述的技术。

第15章对计算机视觉的高层目标即场景解释进行讨论。先给出两个针对特定应用并采用特殊方法对场景和景物内容进行解释和理解的示例,然后对一般的计算机视觉系统模型以及计算机视觉理论框架方面的问题进行了分析和展望。

4.使用建议

本书的编写目的是成为读者学习计算机视觉基础的第一本教材,主要目标是介绍计算机视觉的基本概念、典型方法和实用技术,一方面使读者能据此解决计算机视觉应用中的具体问题,另一方面帮助读者进一步深入学习和研究。所以虽然本书的覆盖面比较大,但主要还是基础的内容。

本书的内容量比较大,可以根据教学要求、学生基础、学时数量等酌情选择。对计算机科学技术专业,如果按书的各章依次进行,可考虑将本书用于一门48~64学时的课程。对计算机应用专业,可考虑依次选取第1章、第2章、第3章、第4章、第5章、第6章、第7章、第8章、第11章用于一门36~42学时的课程。对工业自动化、机器人等领域的人员,可考虑依次选取第1章、第2章、第3章、第4章、第5章、第6章、第7章、第8章、第9章、第10章、第11章、第12章用于一门42~54学时的课程。对信息科学相关学科,可考虑依次选取第1章、第3章、第4章、第5章、第6章、第7章、第8章、第11章、第12章、第15章用于一门42~48学时的课程。以上建议是对本科高年级学生设计的,如果是研究生低年级学生,则可考虑减少5~10学时,或考虑增加一些动手实践环节。不过,如果是其他专业(非以上所列专业)的研究生,则可按以上所列专业的本科高年级学生的情况进行选取。本书对先修课程的要求不高,可参见前面“先修基础”中的介绍内容。

另外,对已经学习过《图像处理和分析教程》的研究生,可选取第1章、第2章、第9章、第10章、第11章、第12章、第13章、第14章、第15章用于一门32学时的课程。