当前位置:首页 >> 图情焦点 >> 正文
信息技术在古籍数字化实践中的应用
发布时间:2015/1/22 13:10:00 点击数:1150 

  古籍作为中华文化遗产的重要组成部分,具有广泛的学术价值和研究价值。在网络技术迅猛发展的今天,如何更好地利用古籍,更广泛地发挥古籍的价值,是摆在古籍工作者面前的重要课题。信息技术的发展与完善,为这一课题的解决创造了条件,古籍数字化无疑是古籍开发利用的发展趋势。古籍数字化问题实际上就是信息技术在古籍数字化实践中的应用问题。

  一、扫描技术在古籍数字化实践中的应用如何将纸质古籍转换为数字古籍,是古籍数字化首要解决的问题。扫描技术的应用能够使得传统纸质古籍快速准确地转换为数字资源。经过多年的古籍数字化实践,扫描技术是古籍大规模数字化应用的首要信息技术。

  1.扫描方式的选择。扫描仪作为古籍扫描的重要设备,其种类繁多方式各异。根据其扫描方式的不同,主要有平板扫描仪、高速扫描仪以及面向上扫描仪等。那么哪种方式的扫描仪更加适合古籍资源的扫描呢?我们在实践中发现,由于古籍存储时间较长,多数已经出现了破损现象,属于易脆、易碎、有皱褶、有裂痕资源。而且古籍的装订比较复杂,一旦拆装难以复原。所以我们认为古籍的数字化不适合采用高速扫描仪进行拆装扫描,只能采用面向上扫描仪或平板扫描仪。而面向上扫描仪和平板扫描仪二者对周围环境的依赖不同,就使得使用这两种扫描仪得到的图像存在一定的差异。我们分析认为,主要是由于页面向上扫描仪属于非接触式扫描,受周围环境的影响较大,因此扫描得到的图像文件占用空间较大,其显示效果也较差。而平板扫描仪是接触式扫描,对周围环境要求不高,操作时书页与扫描仪玻璃板紧密接触,从而保证了扫描图像的质量,同时也减少了文件的占用空间。

  那么如何选择使用这两类扫描仪呢?我们在古籍数字化实践中,首先将古籍进行分类,对于那些中缝较小或不宜按压的古籍文献,采用页面向上扫描仪,同时为避免由书页弧度产生的扫描图像变形现象,结合使用相应的图像处理软件。对于其他古籍,我们尽可能使用平板扫描仪,以便得到较高质量的图像。随着扫描技术的提高,近年来出现了零边距平板扫描仪。由于零边距扫描仪可以应对中缝更小的古籍资源,同时扫描时只需将古籍侧贴扫描仪即可,对古籍起到了一定的保护作用,极大地扩大了平板扫描仪的扫描范围,从而成为古籍扫描最佳的选择。

  二、OCR技术在古籍数字化实践中的应用

  OCR是一种计算机自动输入技术。通过扫描得到的仅仅是古籍的图像文件,无法实现检索、编辑等功能。要实现这些功能以及古籍的大规模文本输入,我们就必须将OCR技术应用到古籍数字化实践中,也只有将古籍进行OCR识别,才可以进行深层次开发利用。

  1.如何有效提高古籍识别率。如何才能有效提高古籍的识别率呢?首先,利用图像处理软件对图像文件进行亮度、对比度的调整。由于OCR的识别率很大程度上取决于图像文件的亮度与对比度,而我们在扫描时,由于古籍的特殊性,往往要对其亮度与对比度进行调整,这些参数的调整可能对OCR识别造成一定的影响,为此在OCR识别之前,利用图像处理软件对这些参数进行适当的调整,便可提高其识别率。其次,利用图像处理软件,根据字符大小对图像文件的分辨率进行调整。由于扫描古籍时,为得到高质量的图像文件,其DPI选择往往较高,而在OCR识别时,其识别率主要是与字符大小有关,字符越大分辨率应越小,反之越大。第三,利用图像处理软件对图像文件进行去污、纠偏处理。由于古籍往往存在污渍、印记等,扫描得到的图像文件有较多噪点,极大地影响了OCR的识别。而且扫描古籍时不可避免地会造成图像的倾斜,为此在OCR之前将图像文件进行去污、纠偏处理,便可以大幅提高其OCR识别率。

  三、存储技术在古籍数字化实践中的应用

  从传统的纸质古籍转变为数字古籍的那一刻起,数字资源的存储与备份就开始了,并且伴随数字资源的整个生存周期。与一般数字资源相比,古籍数字资源占用空间大,较大文件的传输,容易形成古籍数字化实践中的瓶颈。因此,组建合理的存储与备份系统十分重要,有效的存储与备份系统,不仅可以大幅提高数字化效率,也可提高数字资源的安全性。随着RAID技术的应用,存储设备在容量和传输速度上都有大幅提升,目前比较常用的有DAS、NAS和SAN系统。其中DAS系统比较适合古籍数字资源的存储,NAS和SAN系统在古籍数字资源备份方面有一定的优势。近年来随着USB传输速度的提高以及单盘容量的提升,使得USB方式成为备份古籍的新选择。近年来,随着存储与传输技术的发展,存储设备在性能提高的同时成本不断降低。由于基于CIFS/NFS协议的NAS架构和基于ISCSI协议的IPSAN架构均可以减低存储成本,但由于在传输性能方面,ISCSI协议明显要优于CIFS/NFS协议。所以我们在古籍数字化存储中,逐渐用IPSAN取代NAS作为近线存储服务器。

  总之,信息技术的发展与完善为古籍的数字化提供了重要的技术基础,古籍的数字化是大幅度提高古籍利用率和使用范围的有效方案,也是有效提升图书馆信息服务水平的物质基础。随着人们对数字化资源特别是数字化古籍需求的进一步扩大,古籍数字化必将成为保存、整理和利用古籍资源的趋势[5]。当然,古籍数字化实践中还存在诸多不足,但不能否认古籍数字化的数量和质量已经有了大幅度的提高,古籍“藏”与“用”的矛盾也已逐步缓解。相信在不久的将来,随着信息技术的进一步发展与完善,越来越多的信息技术将被应用到古籍数字化实践中,古籍数字化也必将迎来欣欣向荣的时代。

 通讯员文章排行更多>>