古籍文献全文数字化
时间:2009-8-11 16:27:13 人气指数: 【 大 中 小 】
北京天润智力专业从事纸质文献的数字化加工,将文献资源制作成符合国际标准的数字资源,进行深度数据加工和加密处理,制作成全文检索光盘供用户使用,非常适合于图书馆、出版社、期刊杂志、各类企事业单位以及个人用户。
古籍全文数据库对古籍资源的全文进行数字化处理,为读者提供全文阅读、全文检索或智能分析服务。根据全文数字化的技术处理情况,可以将其分为图像版、文字版、图文版。对图像的扫描处理我们一般采用JPEG、TIFF格式,经过OCR识别、人工校对后生成可以全文检索的双层PDF文件,既便于用户阅读、检索,又便于数据共享和传输。
1、手工录入:
将古籍的全文以键盘输入计算机,使之数字化。经过标引及系统处理,凡录入的文字都可以检索、统计,贮存空间小,检索速度快。同时,为了保证文字的准确率,我们开发了古籍自动校勘系统,对录入后的文本进行自动校对,并采用人工辅助校对的方式,经过3~5个校次,文字错误率控制在万分之一以内,达到出版水平。
2、图像扫描:
保存古籍文献的电子影像,用扫描仪等将古籍文献的文字(包括图表)以图像形式进行存储。存储为国际通用的PDF格式,版式保留完整,文字不会产生错误,且能保证文献的原始状态,同时图像文件经过技术处理后,能以较小的贮存空间存储。
3、双层PDF图文格式:
用扫描方式制成TIFF图像,然后利用OCR技术将图像形式全部识别为可检索的汉字,并将文字和图像进行对应,制作成图像在上、文字在下的双层PDF格式文件。既便于用户快速准确地查找到所需内容,又能使用户古籍的原始面貌。双层PDF特别适合于古籍数字化,异写、通假、避讳等造成的众多汉字无法完全识别,用户通过图像即可对照。
古籍书目数据库以书目内容为数字化对象,对古籍的元数据描述,内容包括书名、责任者、版本、卷数、刻印年代、藏地、版式等情况,形成机读目录格式,向用户提供结果查询。