【摘要】本文对数字图书馆建设中的几大关键技术问题进行了一般性探讨,并分析了各大关键技术内又包含的关键子技术。这对于更有效地实现传统图书馆向数字化、信息化为技术特征的现代图书馆的转变,提供了一些理论指导。
【关键词】数字图书馆;存储;网络传输;知识产权保护
1、前言
数字图书馆作为现代信息技术环境下新型图书馆,其依附的关键数字化技术,诸如:原始特色馆藏的数字化技术,信息的存储技术,数字信息网络传输技术,知识产权保护技术,为了应对数字图书馆建设的重大任务,我们有必要思考和探讨数字图书馆的几大关键技术。
2、原始特色馆藏的数字化技术
原始特色馆藏的数字化是利用当今先进的数字化技术将传统图书馆的特色馆藏转化为数字化信息,并储存在计算机存储设备里,以便提供更有效的快速检索和信息服务原始特色馆藏数字化转化选择标准必须遵循的原则为:
独特性:即要保证所建立的数据库的数据是惟一的,不重复于别的馆数据;
全面性:即在建立特色数据库时,数据收集要全面,书目数据著录要完整和全面。
根据这个原则,各图书馆有选择性地对一些特有的报刊、名人专著、名人字画、资料照片、录音录像、文学艺术作品等进行特色馆藏数字化转化。从目前来看,已有多家图书馆进行了这方面的工作,如上海图书馆的古籍善本、戏曲唱片和近代上海历史图片,辽宁省图书馆的医疗广告、张学良、东北作家、东北文献图录等,日本国立图书馆的珍善本书、明治时代图书、二战时期出版的图书、有代表性的日本政治经济杂志、向国会提交的研究报告、近代日本政治史文献。
就温州大学图书馆而言,我们可以根据自身的实际以及国内外图书馆数字信息资源建设特色化原则,从本馆馆藏中挑选出有特色和有保存价值的文献进行数字化转换,建立一些特色数据库,如特色古籍数据库、中国鞋都数据库、皮革材料数据库等。
3、信息的存储技术
随着图书馆信息量的剧增,存储规模也越来越大,信息度量单位也不断改变,从KB到MB,进而到TB,以至PB。存储这些海量信息不但要求存储设备有很大的储存容量,而且还需要大规模数据库存储和处理这些数据,这就涉及到硬件随时读取的速度、数据集中与分布存储管理方法等问题。
现在常用的存储技术有:DAS(Direct attached storage—直接连接存储)、NAS(Net Work attached storage—网络连接存储)和SAN(Storage Area Net work—存储区域网络)。
3.1、DAS(Direct attached storage—直接连接存储)
DAS是指将存储设备通过SCSI接口或光纤通道直接连接到应用服务器上。存储设备无独立的存储操作系统,被视为服务器存储器的一部分。因此,DAS中所有的存储操作都要通过服务器CPU的I/o操作来完成。
3.2、NAS(Net Work attached storage—网络连接存储)
NAS即采用以太网和SCSI的即插即用存储技术将存储设备通过标准的网络拓扑结构,连接到一群应用服务器上。存储设备实际上是一个与应用平台无关的服务器或一组专门用于存储的服务器群,不承担应用服务,通过网络接口与网络连接,实现与服务器间共享数据。存储设备有自己的CPU、内存、主板和操作系统,只是采用的是经过专门设计的直接固化在硬件里的专用操作系统。从这点看,NAS存储设备与文件服务器没有太大的区别。可以说:NAS存储设备是文件服务器存储专门化的产物,是文件服务器的延伸。
3.3、SAN(Storage Area Net work—存储区域网络)
SAN是独立于服务器网络系统之外的高速存储网络,采用高速的光纤通道作为传输媒体将存储设备与一群服务器连接。SAN把大型资料存储技术与高速资料访问技术结合在一起,服务器与存储设备之间的通信是通过光纤进行传输的。SAN网络上的服务器可以通过SAN直接访问存储设备,而无须通过局域网,使用户获得不低于100MB/S的资料系统访问速度。以FC(Fiber Channel—光纤通道)和SCSI作为存储访问协议,将存储网络化,实现了真正高速共享存储的目标。
这三种技术各有优劣,应根据具体情况选择适应自身发展的存储技术。数字信息的保存问题,国外有人称之为数字图书馆的定时炸弹(TIMEBOMB),是事关数字图书馆存亡的重要问题。因此,如何完善地存储海量多媒体信息也是数字图书馆建设的关键技术问题之一。
4、数字信息网络传输技术
作为今后主流信息的流媒体(流媒体在主要指视频、音频),由于它本身的数据量十分大,难以高密度的压缩,如若按照一般的文件传输方式,流媒体传输到目的地址后,将无法流畅、清晰的再现,很可能断断续续,画面停顿等等。所以它的传输问题,也是实现数字图书馆的关键技术之一。为了实现较好质量的流媒体实时播放,需要考虑媒体流传输的所有环节。其中,影响传输质量的三个最关键的因素是:编码和压缩的性能和效率;媒体服务器的性能;媒体流传输的质量控制。
4.1、编码和压缩的性能和效率
影响音/视频流的压缩/编码性能的因素很多,首先是压缩效率。压缩效率要求在保证一定音/视频质量的前提下,媒体流的码流速率尽量低。其次是编码的冗余性和可靠性。与普通的多媒体文件压缩编码不同的是,流媒体文件需要在网络上实时传输,因此必须考虑传输中数据丢失对解码质量的影响。为了解决这个问题,采用了一些先进的编码技术,例如错误弹性编码(Error-Resilient Encoding)。在Internet环境下,最典型的方法是多描述编码(MDC)。最后,媒体流的压缩编码还需要考虑速率调节的能力,因为网络的拥塞状况是不断变化的,流媒体的编码必须能够适应网络速率的变化。可采用可扩展的层次编码解决。
4.2、媒体服务器的性能
随着流媒体规模的扩大,流媒体服务器的性能成为制约流媒体服务扩展能力的重要因素。流媒体服务器性能的关键指标是流输出能力和能同时支持的并发请求数量。影响流媒体服务器性能的因素很多,包括CPU能力,I/0总线,存储带宽等。通常,单个流媒体服务器的并发数都在几百以内,因此,为了具有更好的性能,目前的高性能流媒体服务器都采用大规模并行处理的结构,例如采用超立方体的结构将各个流媒体服务单元连接起来。还有一种方法是采用简单的PC集群的方式,这种方式下多个PC流媒体服务器用局域网连接,前端采用内容交换/负载均衡器将流媒体服务的请求分布到各个PC媒体服务单元。后一种方式性能较前一种方式低,但是成本很低,容易实现。
4.3、媒体流传输的质量控制
这是制约流媒体性能的最重要的因素。由于流媒体传输对网络带宽、延迟。丢失率等都有很高的要求,而基于无连接的包交换IP网络对带宽资源和服务质量的控制能力都比较弱,因此,在IP网络上进行流媒体传输需要采用一些应用层的质量控制机制来解决传输中的问题。这些质量控制机制可以分为几个层次:最常用的方式是采用速率适应机制,另外一种方法是采用内容分发网络(CD)。采用CDN传输流媒体的优点主要包括三个方面;第一是通过应用层的内容分发降低了主干网络的流媒体流量,并实现了基于应用层的组播仿真(即利用主机构建独立于网络层的逻辑组播树,并采用主机上的应用层软件进行组播转发)。第二是通过分布在网络边缘的流媒体服务器,避免了拥塞链路,提高了流媒体传输的性能和响应时间。最后,通过CDN能够有效地提高整个流媒体系统的扩展性,降低对每个流媒体服务器的性能要求。目前,利用CDN传输流媒体是大规模流媒体应用的发展趋势。
5、知识产权的保护问题
数字图书馆版权保护技术多种多样,其主要目的都是为了实现访问控制和使用控制。目前的版权保护技术主要分为三大类,即安全容器技术、数字水印技术、移动Agent技术。
5.1、安全容器技术
安全容器技术是以Inter Trust的Digibox技术为代表。Inter Trust把重要的数据和有关的商业使用规则储存在名为“数据盒”(Digibox)的加密文件里,商业规则是有关数据的价格和使用控制的内容。最新的Digibox的内容上集成了数字水印技术。
5.2、数字水印技术
数字水印技术与钞票水印相类似,这是一种将特制的不可见的标记,利用数字内嵌的方法隐藏在数字图像、声音、文档、图书、视频等数字产品中,用以证明原创作者对其作品的所有权,并作为鉴定、起诉非法侵权的证据,同时通过对水印的探测和分析保证数字信息的完整可靠性,从而成为知识产权保护和数字多媒体防伪的有效手段。
5.3、移动Agent技术
移动Agent(Mobile Agent,MA)是代码、数据和执行环境的封装,它可以在执行过程中在计算机网络中自治、有目的地迁移,并且能响应外部事件,在迁移过程中能保持其状态的一致性。移动Agent系统将是未来版权保护的一种纯技术的解决方案。
这里需要指出的是,数字图书馆的版权保护单纯依靠技术措施显然是不够的,因为通过密码破译和反向工程可以规避这些技术措施。国内外均出现了一些针对版权保护技术措施的规避行为,并引起了法律纠纷。可见,对规避版权保护技术的行为进行法律约束是十分必要的。
6、结束语
从以上分析可以看出,要建立完整而理想的数字图书馆,我们必须正确处理原始特色馆藏的数字化技术,信息的存储技术,数字信息网络传输技术,知识产权保护技术等几大关键技术问题。特别还需注意的,是这几个关键技术之间内在的联系(例如,网络传输技术中的压缩编码技术和存储技术就有关联),它们之间也存在相互制约,相互促进的关系。这些问题事关数字图书馆建设的质量、效益和影响,必须引起我们的共同关注和探讨,以便找出解决这些问题的方案和策略,从而更有效地实现传统图书馆向数字化、信息化为技术特征的现代图书馆的转变。
