1.2.2 关键技术
多媒体所涉及的内容与信息技术的各个方面都有一定的关系,多媒体技术现已成为计算机行业关注的热点之一,涉及的领域和技术极广。下面介绍其中的关键技术。
1.多媒体数据压缩技术
在多媒体系统中,要处理、传输、存储多媒体信息,涉及数字化的图像、音频和视频,这些媒体的表示在计算机系统中以大量的数据存在,利用数据压缩技术对多媒体信息进行压缩是十分必要的。
从多媒体信息本身来说,多媒体的数据压缩也是可能的。首先,原始的多媒体信源数据存在着大量的冗余,例如,一张图像中大面积的同一蓝色天空或绿色草地,视频中每帧之间背景变化很小等。其次,由于人的感官具有某种不敏感性,多媒体信息中存在着主观感受上的大量冗余,如人眼对边缘剧变不敏感以及对亮度信息敏感而对颜色分辨率不敏感等。基于这种不敏感性,可以对某些原非冗余的信息进行压缩,从而大幅度提高压缩比。
数据压缩方法分为无损压缩和有损压缩两大类。无损压缩利用数据的统计冗余进行压缩,可保证在数据压缩和还原过程中,多媒体信息没有任何的损耗,可完全恢复原始数据,但压缩受到数据统计冗余度的理论限制,其压缩效率通常较低,一般为2∶1~5∶1。这类方法广泛用于文本数据、程序和特殊应用场合的图像数据(如指纹图像、医学图像等)的压缩。由于压缩比的限制,仅使用无损压缩方法不可能解决图像和视频的存储及传输问题。
有损压缩方法利用了人类视觉对图像中某些频率成分不敏感的特性,采用一些高效的有限失真数据压缩算法,允许压缩过程中损失一定的信息。虽然不能完全恢复原始数据,但所损失的部分对理解原始图像的影响较小,却换来了大得多的压缩比,大幅度减少了多媒体数据中的冗余信息,其压缩效率远高于无损压缩。有损压缩广泛用于语音、图像和视频数据的压缩。
在通常情况下,数据压缩率越高,信息的损耗或失真也越大,需要进行某种折中,找到一个相对平衡点。
在多媒体应用中常用的压缩方法有统计编码(行程编码、LZW编码、哈夫曼编码、算术编码)、预测编码(差分脉冲编码调制(DPCM)、自适应差分脉冲编码调制(ADPCM))、变换编码(K-L 变换、离散余弦变换)、分析-合成编码(量化编码、小波变换编码、分形图像编码、子带编码)等。对数据压缩方法的研究还未停止,人们还在继续寻找更加有效的压缩算法,以及更快更好的软硬件实现方法。
2.多媒体软硬件平台技术
软件和硬件平台是实现多媒体系统的物质基础,涉及多媒体信息的输入、处理、存储、管理、输出和传输等各种技术和设备。在过去的研究和开发中,每一项重要的技术突破都直接影响到多媒体技术的发展与应用的进程。大容量的光盘、带多媒体功能的Windows操作系统都直接推动了多媒体技术的迅速发展。
在硬件方面,光盘驱动器、音频卡、视频卡等已经成为多媒体计算机的标准配置,计算机CPU也加入了多媒体与通信的指令系统,扫描仪、数码相机、数码摄像机、数字摄像头、视频压缩卡和彩色打印机等都普及到家庭。
在软件方面,以多媒体操作系统为基础,为用户编程开发多媒体应用系统提供丰富的多媒体开发工具,如Microsoft MDK就给用户提出了对图形、视频、声音等文件进行转换和编辑的工具。另外,为了方便多媒体节目的开发,多媒体计算机系统还提供一些直观、可视化的交互式编著工具,如动画制作软件3D Studio、多媒体节目编著工具Authorware等。
目前多媒体技术已经在向更复杂的应用体系发展,其硬件平台更加复杂,如视频点播系统、虚拟现实系统等;软件则从操作系统、多媒体素材编辑工具、多媒体创作工具到更复杂的专用软件,都更加标准化,产生了一系列多媒体软件系统。特别是在Internet发展的大潮中,多媒体软件更是得到很大的发展,同时还促进了网络的应用。
3.多媒体数据库技术
在多媒体系统中,存在着文本、图形、图像、音频、动画和视频等多媒体信息,与传统的数据库应用系统中只存在字符、数值相比扩充了很多,这需要一种新的数据库管理系统对多媒体数据进行有效管理。多媒体数据库管理系统管理着除字符、数值外的其他数据,如文本、音频、图形、图像、动画和视频等大数据量的多媒体信息,因此需要多媒体数据库管理系统(MDBMS)对多媒体数据进行有效的组织、管理和存取,并能实现对象的定义,数据的存取,数据库的运行控制,数据的组织、存储和管理,数据库的建立和维护,以及数据库在网络上的通信。
4.超文本与Web技术
多媒体系统中的媒体种类繁多且数据量巨大,各种媒体之间既有差别又有信息上的关联。处理大量多媒体信息主要有两种途径:一是利用多媒体数据库系统,以存储和检索特定的多媒体信息;二是使用超文本和超媒体,采用面向对象的信息组织和管理形式,这是管理多媒体信息的一种有效方法。
超文本和超媒体允许以事物的自然联系组织信息,实现多媒体信息之间的连接,从而构造出能真正表达客观世界的多媒体应用系统。超文本是一种新颖的文本信息管理技术,它提供的方法是建立各种媒体信息之间的网状链接结构,这种结构由节点组成。对超文本进行管理使用的系统称为超文本系统,也即浏览器,或称为导航图。若超文本中的节点数据不仅可以是文本,还可以是图像、动画、音频、视频等,则称为超媒体。
目前,最流行的超文本系统是运行在Internet上的Web系统。利用Web浏览器浏览网页实质上就是查看Web上的文档。在网页上担当链接任务的主要是超文本标记语言HTML。
5.多媒体通信与分布处理技术
多媒体通信是多媒体技术与通信技术结合的产物,多媒体系统要通过通信网络传送文本、音频、图形、图像、动画和视频等不同媒体,这些媒体对通信网络有不同的要求。文本和图像要求的平均速率较低;音频信号的传输速率不要求太高,但实时性要求高;视频则要求极高的传输速率。多媒体通信的发展要求有适合于多媒体信息的通信网,如宽带综合业务数字网(B-ISDN)、有线电视(CATV)等。
为了广泛实现信息共享,需要研究多媒体分布处理技术,包括:如何判定有效的协议,如何充分发挥分布式系统的协作性作用,如何使得系统与用户之间更容易交换信息、共享信息和同时处理信息等问题。
6.虚拟现实技术
虚拟现实又称人工现实或灵境技术,是用多媒体计算机创造现实世界的技术,其本质是人与计算机之间进行交流的方法,专业划分实际是“人机接口”的技术。虚拟现实对很多计算机应用提供了相当有效的逼真的三维交互接口,是多媒体技术发展的更高境界。
虚拟现实的定义可归纳为:利用计算机生成一种模拟环境(如飞机驾驶、分子结构世界等),通过多种传感设备使用户“投入”到该环境中,实现用户与该环境直接进行自然交互的技术。
“投入”是虚拟现实的本质。这里所谓的“模拟环境”一般是指用计算机生成的有立体感的图形,它可以是某一特定环境的表现,也可以是纯粹构想的世界。
虚拟现实有几个重要特征:
1)多感知性,即除了视觉感知外,还有听觉、触觉、运动感知,甚至可包括味觉和嗅觉,当然,目前技术尚未达到提供味觉和嗅觉的水平。
2)临场感,即用户感到存在于模拟环境中的真实程度,理想的真实程度是难辨真假。
3)交互性,指用户对模拟环境中物体的可操作程度和从环境中得到反馈的自然程度,其中也包括实时性。
4)自主性,指虚拟环境中物体依据物理规律动作的程度。
虚拟现实系统目前可分为三种:投入式、非投入式及混合式。
虚拟现实技术是在众多相关技术上发展起来的一个高度集成的技术,是计算机软硬件技术、传感技术、机器人技术、人工智能及心理学等飞速发展的结晶。同时它又是一种艺术,在很多应用场合其艺术成分往往超过技术成分,如交互的虚拟音乐会、宇宙作战游戏等。
虚拟现实技术发展了通用计算机的多媒体设备,在输入、输出方面由普通的键盘和二维鼠标发展为三维球、三维鼠标、数据手套、数据衣服和头盔显示器等。
7.智能多媒体技术
从首次提出智能多媒体概念开始,人们对智能多媒体技术的普遍关注和研究兴趣越来越高。正如将人工智能视为一种高级的智能计算那样,智能多媒体也可视为一种更加拟人化的高级智能计算。
在智能多媒体的研究中,面临以下挑战:
1)多媒体信息空间中的知识表示和推理。知识表示和推理是智能行为的基础。知识表示的首要任务在于描述丰富、复杂的自然世界。知识表示和推理是相互渗透和密不可分的,知识表示是关于推理的不完整的理论,推理必然是特定知识表示基础上的推理。
2)智能多媒体技术中的学习机制。机器学习始终是人工智能研究面临的难题,在多媒体信息空间中,更要求机器以拟人化的方式从大量形象、模糊的信息中获取知识。
3)冯·诺依曼体系与智能多媒体之间的语义鸿沟。冯·诺依曼定义的参照系与智能多媒体定义的参照系之间存在语义鸿沟,如何在冯·诺依曼体系上实现智能多媒体参照系的部分语义,如何提出有效支持智能多媒体的全新体系结构等,是智能多媒体研究亟待解决的问题。