3 科学数据资源管理的过程及关键问题探讨

信息资源管理过程是信息资源交流过程和管理过程相契合的产物。信息资源管理过程是围绕用户信息需求的产生和满足而形成的闭环系统。由信息资源、信息用户、信息技术、管理信息、经费和信息资源管理人员等要素组成的整体,其运行有赖于计划、组织、指挥、协调、控制等管理功能的实现[7]。如图1所示。

图1 信息资源管理过程

针对科学数据资源的管理,将信息资源管理过程划分为四个环节,包括需求分析环节、生产获取环节、维护环节和服务环节,如图2所示。

图2 科学数据资源管理的关键环节

由于科学数据种类多样,在需求分析环节和生产获取环节存在不同的特点和工作方式,对该阶段的研究必须结合具体的数据类型进行研究,而维护环节和服务环节则具有共性的特征,本文将针对这两个环节的关键问题进行深入研究,将有助于解决目前科技资源管理中存在的不足。

3.1 科学数据资源管理中维护阶段的关键问题

科学数据资源管理中维护阶段的关键问题主要集中在数据组织部分,科学数据唯一标识和元数据是数据组织中需要解决的首要问题。

互联网环境下的科学数据存储地址也经常发生变更,也导致很难通过文献中提供的标识信息追溯数据被引用时的原始状态,因此需要一种技术来对数据的地址进行永久性的保存,只有这样对数据本身的引用才具有参考价值。数字对象唯一标识符(DOI)的出现为数字对象的永久保存和唯一标识提供了技术支持,可以用来实现对科学数据本身的引用。

DOI在科学数据领域中的核心价值主要体现在链接和引用上。DOI是一种国际化的标识体系,有利于通过DOI技术建立资源间的国际化链接。科学数据DOI最大的价值在于建立了开放式参考数据链接系统,实现数据库(集)之间(或数据与文献之间)交叉参考链接(包括前向链接和后向链接)。科学数据DOI标识促进数据生产者的数据流量,扩大了该科学数据集的影响面,进一步提高了数据的权威性。通过数据的引用链接,能对相关联的信息进行回溯,从而提供了获取和核查数据的可能性,这是良好科学工作的一个部分(科学理论、假设、科学结论等),能将结论与数据进行匹配,为学术成果审查提供一种渠道。DOI标识有助于促进科学数据的引用,以后在发表的文章后不仅要标注所参考的文献标识,同时也要标识所引用的科学数据。通过进行科学数据引用统计得出的科学数据被引频率,是衡量科学数据价值的指标之一。

2007年3月,中国科学技术信息研究所经IDF授权成为中文信息资源领域DOI的注册代理机构,主要应用领域包括中国科技期刊链接服务和科学数据资源的管理。目前该中心已注册92万篇期刊论文,1.5万个数据集,注册量居世界第二位。

中文DOI注册中心联合中国科学院寒区旱区环境与工程研究所(西部数据中心)在科学数据DOI领域进行了有效的尝试,共同制定了西部数据中心DOI的命名规则,制定了该数据集的标准引用格式,并在其数据网站上建议用户进行使用,将有207个黑河遥感实验的数据在中文DOI平台上进行注册,用户可以IDF机构的任意节点进行查询和检索[8]

DOI命名:为该数据中心申请了独立的前缀10.3972,在后缀部分用water973标识资助项目的名称,xxxx为流水账号,ds表示数据集dataset(为了区别data-base),文档则用doc表示,元数据用met表示。

doi:10.3972/water973.xxxx.ds

数据的引用格式:<作者>,数据标题,〈数据发表单位〉, 〈发布时间〉,〈DOI〉.从这种引文格式上看,主要体现的是作者和数据标题信息、避免了诸如课题信息、数据采集单位、数据发布单位等的信息,突出了重点,避免了信息过多产生的混淆。例如,盖迎春,舒乐乐,夏传福,周梦维.黑河综合遥感联合试验:盈科绿洲荒漠站机载激光雷达与ASAR传感器同步观测数据集(2008年6月19日),中国西部环境与生态科学数据中心,2008.doi:10.3972/water973.xxxx.ds。

3.2 科学数据资源管理中服务阶段的关键问题

(1)科学数据服务方式。

信息资源的传播和服务主要包括三种形式:一是信息资源提供服务,基于信息检索的传播和服务;二是信息咨询服务,基于信息资源开发的传播和服务;三是基于现代信息网络技术的网络信息资源提供和开发服务,是前两类服务方式在网络环境中的集成与统一[7]

科学数据服务包括上述三种形式,在科学数据服务系统的具体建设过程中形成了如下服务类型:

面向主题的数据提供服务:主题导航系统和信息垂直门户。

面向用户的数据服务:数据分类定制、数据推送、数据检索和数据呼叫中心。

在具体的实现手段上,科学数据服务主要通过网络数据分发、光盘分发和移动硬盘复制三种类型,根据数据资源的类型和具体的应用,选择合适的服务方式。

(2)科学数据出版的研究。

对科学数据进行发表和引用并非新生事物,在化学、生物和晶体结构领域,很多期刊都要求在论文正式发表前必须将有关的数据公开发表。如在生物领域,很多期刊都要求作者在文章正式发表前,将基因序列数据注册到GenBank数据库中,同时要求文章在引用相关数据时,提供该数据在GenBank数据库中的登录号[9]

为科学数据资源赋予数字对象唯一标识(DOI)是进行科学数据出版的基础,只有对每一个数据对象进行唯一识别,才能有效地对其产权信息、质量信息进行认证,有助于形成科学数据领域的评价体系。

科学数据出版将有助于作者对科学数据资源进行引用,出版商能进行链接,能够在发布系统中进行集成,图书馆员能够进行科学数据资源的编目,同时科学数据资源也能对其进行产出分析等,因此只有对科学数据进行出版,使其纳入正式的出版物体系,才能为科研人员及管理人员提供标准、经过认证的数据资源。