包号:001
包组名称:2025年智慧图书馆体系建设项目-古籍数字化加工项目
标的对应的中小公司划分标准所属行业:
软件和信息技术服务业
通过对采购方入选《国家古籍珍贵名录》古籍,严格依据2024年2月国家图书馆(国家古籍保护中心)发布的《全国智慧图书馆体系建设:古籍数字化和知识标引规范手册(暂行)》为标准,进行古籍数字化和知识标引,总加工量不少于17.6万筒子叶。中标人须到馆数字化加工,任何古籍文献不得带出辽宁省图书馆(辽宁省古籍保护中心)。
一、古籍图像数字化
1.1数字图像采集指标
1.1.1 古籍数字图像长期保存级采集参数
以满足古籍数字图像长期保存要求为目的。长期保存级标准如表1所示。
1.1.2 古籍数字图像发布服务级加工参数
古籍数字图像发布服务级标准,用于中华古籍智慧化服务平台的资源服务。其加工主要参数及要求如表 2 所示。
1.2 数字图像采集要求
(1)采集图像清晰,数据文件叶码连续,没有重叶、缺叶,错叶、折叶等情况(原书缺叶、错叶除外)。补扫缺叶图像要与同册图像文件的大小尺寸一致,颜色接近。
(2)按1:1比例扫描,图书叶面外围要求留白,宽度不超过1厘米;书叶间距不超过0.1厘米。
(3)以原书的上边沿为基准,以中缝为中心线,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。图像倾斜角度不大于0.2度。
(4)原件表面有其他粘贴物件时,先将原件与粘贴物(即粘贴物覆盖于文献)一起扫描,然后将粘贴物掀开,再次扫描原件。
(5)古籍整理完毕后,需根据古籍实际透字状态确定有无必要添加衬纸。透字情况不很严重、不影响阅读的情况下,无需添加衬纸。必须注意的是,加垫衬纸不应对古籍造成损坏。加垫衬纸前应先评估图书纸张厚度、纸张强度、折叶空隙等情况,选择适宜的衬纸。衬纸应保持整洁,出现污渍、褶皱时要及时更换。
(6)原件超大幅面(如地图)分画幅扫描时,各扫描区域边缘必须留有 2厘米(含)以上的重复扫描区。
(7)采集图像完整清晰,无扭曲、变形现象发生。数字图像文件用图形图像类软件检查清晰度(图像放大至实际尺寸100%),确保图像不失真。
(8)定时做采集设备和输出设备的色彩校正。工作过程中,当数字图像文件与古籍原件颜色不一致时,应及时进行色彩校正,重新完成图像采集工作。
1.3数字图像处理要求
1.3.1 长期保存级(A)处理内容及要求
古籍图像处理应在未改变原扫描图像色彩位数、分辨率、像素、格式等情况下进行。
(1)纠偏处理。对出现偏斜的图像进行纠偏处理,对方向不正确的图像进行旋转还原,以符合阅读习惯。
(2)图像剪裁。只允许处理古籍背景纸与图书外边缘的空白处。古籍原书与背景纸外边缘距离0.5~1厘米。
(3)不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。
1.3.2 发布服务级(D)处理内容及要求
1.3.2.1 格式转换
由长期保存级文件(A)转换为发布服务级(D)文件。在评估文献的纸张颜色、文字大小、版面、清晰度等因素基础上,将无损 TIFF 格式按 jpeg2000 压缩方法,选择适宜的压缩因子,做有损压缩处理后转换为 PDF 格式文件。
1.3.2.2 图像切分
(1)半叶图像文件处理。通常数字化采集的古籍图像为双半叶 TIFF 文件,PDF文件须按半叶图像进行切分保存。切分图像分辨率不做任何改变,以书脊中线为切分线,将原有的半叶处理为独立的页面。书脊右侧的半叶为页面 A,书脊左侧的半叶为页面B。切分后,包含古籍版框和文字的图像信息应完整无损,并按命名规则对切分文件进行命名。
(2)古籍封面文件处理。古籍封面的TIFF文件带有色卡和标尺。为保持全册古籍图像画面大小一致,须对封面 PDF 文件进行色卡和标尺的裁切处理,裁切后只保留古籍封面。
1.3.2.3 图像拼接
古籍超大幅面(如地图)分拍采集影像后,按需对古籍图像进行拼接处理,即对笔顿贵格式文件做拼接处理。拼接时对图像分辨率不做任何改变,拼接后图像与古籍的原貌基本一致,无重影,拼接处无明显歪斜变形。按命名规则重新对拼接文件进行命名。
1.3.2.4 双层 PDF 输出
经过图像处理和 OCR 识别,采用图在文上的模式进行双层PDF输出。该文件是双层的,上层是原始图像,下层是识别结果。
PDF文件的图像层包括古籍图书从封面到封底的所有叶。根据图像尺寸、颜色、数据存储量,按JPEG2000 有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。
PDF文件的文字层所使用的字体以“ 已嵌入子集 ”方式嵌入 PDF 文件。
笔顿贵单个文件存储容量不超过1惭叠。
PDF文件格式编码为1.5版本以上,兼容Adobe reader6.0 及以上版本。
(略)数据着录
(略)数据
2.1.1 著录总则
2.1.1.1 著录对象
本部分的着录对象为以古籍原件为来源的古籍数字资源,也包含古籍原件。
2.1.1.2 著录单位
(略)数据的着录单位分为两个级别:(1)以每种古籍原件(或其对应的古籍数字资源)的每个藏本为基本着录单位。(2)以每种古籍原件的每个版印为基本着录单位。着录时可根据具体情况及需求选取着录单位的级别。
这里所说的“种 ”,既包括内容上能够独立存在的一组数字资源对象,也包括内容上不宜分割的一个数字资源对象。
2.1.1.3 著录用文字和数字
古籍着录应使用规范的繁体汉字。
(略)纪年等数字均用阿拉伯数字着录。
2.1.2 扩展原则
(略)素。
(略)素有任何语义上的重复。
(略)素)的语义。
(略)素和修饰词。
(略)素和修饰词,必须说明来源,使用时严格遵循其语义。
2.1.3 著录项目
(略)数据着录项目列表。
(略)数据描述
(略)素及修饰词著录细则见《手册》附录 A。
2.2结构数据
本部分标引对象为整理后的 PDF文件目录结构,包括品种层、子目层(有则必备)、册目录、册内文件数量。
2.2.1 标引规则
(1)准确记录古籍原书各册信息,以及各册与古籍图像的对应关系。
(2)古籍数字资源按子目拆分或者合订拆分时,按实际拆分结果,记录古籍书册信息,以及与古籍图像的对应关系。
2.2.2 标引项目
古籍分册保存目录结构的标引项目及属性如表 4所示。
2.2.3 标引项目说明
(1)加工记录标识号
(略)数据和对象数据的关联。应填写正确,以免链接错误。
(2)内部序号
标引数据的内部顺序号。数据类型为数字型,每条记录从1开始编号。
(3)册名称
古籍册次名称,自拟每册名称。名称包含册顺序号,并用括号括注该册古籍的起讫卷次信息,如“第一册(卷首上、卷首下) ”“第二册(卷一至二) ”。
(4)册号
古籍图像文件按“册 ”保存的文件目录名称,数据类型为数字型,为4位阿拉伯数字,如“0001 ”“0002 ”等。
(5)册内文件数
古籍册文件目录内的全部图像文件的数量。数据类型为数字型,用阿拉伯数字表示。
2.3卷目和篇名数据
本部分标引对象为整理后的 PDF各级目录和文件。
2.3.1标引规则
(1)卷目篇名数据是每部古籍数字资源的分卷和篇名信息。如果加工的古籍是丛书,应先将丛书拆分为子目,再对每个子目做卷目篇名数据。
(2)卷目篇名在数据标引工作中应做到准确、客观。
准确性要求:标引词(古籍目录中的卷号、卷名、篇名)与标引对象(图像文件的文件名)指向正确。标引词中难以确定的文字可以结合与该字相配的词组,分析比较词意,取用表意准确的字进行标引。难以确定或使用现有字库无法录入的文字,可选择描述的方式,具体参见《汉语文古籍机读目录格式使用手册》中393字段系统外字附注的相关规定。
客观性要求:客观性是指标引词必须来源于古籍文献,不加入标引人员的看法和观点。目录类名与正文类名不一致时,以正文为准。卷名、篇名、篇作者等信息一律取自正文,原书目录(总目、分卷目等)作为参考。
(略)数据 ”的“题名”项。第二条起按古籍原书实际内容顺序客观标引。
(略)数据 ”的“题名”项;第二条标引“题名”项+“正文”。这里的“正文”两字直接录入,用于提示读者开始阅读正文,指向正文卷端首叶位置。
2.3.2 标引项目
古籍分卷、篇名、责任者的标引项目及属性如表 5 所示。
2.3.3 标引项目说明
(1)加工记录标识号
(略)数据和对象数据的关联,应填写正确,以免链接错误。一部古籍的“加工记录标识号”是一个号,各种数据类型在使用“加工记录标识号”时应保持一致。
(2)内部序号
一部古籍卷目篇名的标引内部顺序号。每个加工记录标识号下的标引记录从1 开始编号。
(3)层级号
表示一个加工记录标识号下的各级卷目篇目之间的层级关系。书名为1级, 卷目层级为2级。同一级别卷目,属于并列关系,可重复使用“层级号 ”。卷内为包含关系的层级,从2级起,按序号递加方式标引。
层级号 卷名篇名
1 增補傷寒六書
2 陶節庵伤寒六書序
2 新刻陶節菴家藏秘授傷寒六書卷之一
3 傷寒鎖言
4 辯張仲景傷寒論
4 治傷寒用藥大略
4 傷寒言證不言病
4 厥分寒熱辯
(4)卷名篇名
古籍总目、分卷目、正文中的分卷名称和卷内篇目名称,包括卷号、卷名和篇名。
(略)数据的“题名 ”项,即题名卷数。
每部加工古籍的第2级,根据书内实际情况标引。如果正文前后有序、跋、目录等内容,若单独成卷,则单独列出,如“首一卷”“末一卷”“目録二卷”等;若未单独成卷,则依次逐一标引。正文部分则按其卷端所题标引。如果原书有相应名称,则卷名客观原样标引;如果原书无相应名称,则只标引卷次。
如果原书卷端有大小题,即既有书名卷次信息,又有卷名,则大小题之间用1个汉字空格间隔,如“漢書一 高紀第一上”“漢書一 高紀第一下”“漢書二 惠紀第二”等。
如果原书卷端有编号(如道藏、大藏经的千字文帙号),也可以一起标引,与前面的卷名篇名之间用1个汉字空格间隔,如“進鬻子表 顛一”“鬻子卷下顛二”。
每部加工古籍的第3级,根据书内实际情况标引卷内篇名信息。有的内容并非篇名,但有助于读者定位阅读,也可以列出。
一部古籍有多卷,其中部分卷有1个篇名,部分卷有多个篇名,则统一将篇名作为卷的下一层级,保持全书的层级一致。如果仅存一卷且仅有1个篇名,可以将卷名、篇名写在一起,中间用1个汉字空格间隔,作为同一层级。
(5)责任者
即古籍总目、分卷目、正文中的分卷和卷内篇名的作者。有多名作者的客观标引。
(略)数据“批校题跋项”中着录,在这里做相同标引。
(6)册号
古籍图像文件按“册”保存的文件目录名称,数据类型为数字型,为4位阿拉伯数字,如“0001”“0002”等。该项填写卷名篇名对应的图像文件所在册文件目录名称。
(7)叶码
每条标引对象所在“册号”目录内的文件名称,为方便处理,此处仅填写文件名中的“流水号”,用于补齐位数“0”不用填写。如:PDF 格式半叶文件,填写实际数字和字母, “2A”“2B”等。
2.4外字信息处理
本部分标引对象为整理后的 PDF各级目录和文件。
2.4.1 标引规则
古籍的外字信息,每个外字填写一行。
2.4.2 标引项目
系统字符集以外的古籍用字处理项目,如表6所示。
2.4.3 标引项目说明
(1)加工记录标识号
(略)数据和对象数据的关联。应填写正确,以免链接错误。
(2)内部序号
标引数据的内部顺序号。数据类型为数字型,每条记录从1开始编号。
(3)外字
描述外字的结构及组成部分。具体可参见《汉语文古籍机读目录格式使用手册》中393字段系统外字附注的外字描述方法进行描述。
(4)描述
补充说明该字字形及拼音等信息,如“淘-氵”,表示“淘”字去掉左边三点水、“澄(氵→ 扌) ”表示“澄”字左边三点水更换为提手旁,等等。
(5)位置
该外字所在整部书的册号和图像文件位置。册号、叶码之间以“\ ”间隔,如“0001\0018A ”(表示在第1册第18叶A面)。
叁、古籍全文文本转换
3.1 文本数据转换
文本资源是以字符、符号、词、短语、段落、句子或者其他字符排列形成的数据,用于表达意义,基本上来自用户使用的自然语言或者人工语言的知识内容。
文本资源可以有一定的逻辑结构。一部古籍的信息可以由题名、前序、卷、篇、后序等组织而成。

古籍资源代码为 130

(1)单本古籍文件目录名称和结构如下所示
一级目录:加工记录标识号
二级目录:尘别迟补诲补迟补
object
information
叁级目录:对象数据。在翱产箩别肠迟下面建立叁个子目录,即罢滨贵贵、笔顿贵、罢齿罢
四级目录:按图书册次建立的册目录

图: 单本古籍数据保存结构示意图
(2)丛书古籍文件目录名称和结构如下所示
一级目录:丛书加工记录标识号
二级目录:尘别迟补诲补迟补
object
information
三级目录:对象数据。 在Object 下面建立三个子目录,即TIFF、PDF、TXT
四级目录:子目加工记录标识号
五级目录:按图书册次建立的册目录

图 丛书古籍数据保存结构示意图
(略)数据
(略)数据以 metadata 命名目录。
XML封装文件和文献整理登记表、古籍外字表的 Excel 文件存储路径为:根目录\加工记录标识号\metadata\
注:XML 封装文件按照命名规则保存。
文献整理登记表和古籍外字表用中文命名保存。
5.3 对象数据
对象数据以辞产箩别肠迟命名目录。
罢滨贵贵文件、笔顿贵文件、罢齿罢文件存储路径分别为:
根目录袄加工记录标识号袄辞产箩别肠迟袄罢滨贵贵袄册次袄
根目录袄加工记录标识号袄辞产箩别肠迟袄笔顿贵袄册次袄
根目录袄加工记录标识号袄辞产箩别肠迟袄笔顿贵袄子目记录加工标识号袄册次袄
根目录袄加工记录标识号袄辞产箩别肠迟袄罢齿罢袄册次袄
根目录袄加工记录标识号袄辞产箩别肠迟袄罢齿罢袄子目记录加工标识号袄册次袄
5.4说明文件
项目总体说明以颈苍蹿辞谤尘补迟颈辞苍命名目录。
项目总体说明文件表存储路径为:根目录袄颈苍蹿辞谤尘补迟颈辞苍袄
六、质量要求
(略)数据着录和标引要求
(1)遵照 XML1.0规范,使用UTF-8编码方式、Unicode5.0以上版本字符集。
(2)著录信息应严格按照文献实际内容进行客观著录,标引词与标引对象文件应正确链接,确保实用性。卷目篇目层级正确,链接正确。文字错误率不超过 0.3‰。
6.2数字图像质量要求
6.2.1 检查项目
(1)将图像文件(各种格式)放大到1:1状态,逐叶检查清晰度、明亮度、色彩还原度,以及图像内容的完整性和准确性。检查事项包括但不限于图像透光、彩点、彩线、黑边、污点、歪斜、模糊(马赛克等);图像有压字、折角、异物、透字、漏字、夹框、夹字和图像倾斜、扭曲变形、图像裁切过度等情况。
(2)图像文件有无缺叶、倒叶,文件命名漏号、重号、错号等不规范现象。
(3)检查书叶图像的完整度。发现文件漏扫时应及时补扫并在正确位置插入图像文件。
(4)检查图像叶码是否连续,不得跳叶。
(5)加工数据以文献册次为单位,检查对应的各类标引数据是否齐全,链接准确。
(6)检查扫描(拍照)图像的采集技术指标。
(7)检查双层 PDF 文件的图像层和文字层的文字对位准确。
(8)按照命名规则,检查目录、文件、数据库、文档、介质等名称是否正确。
(9)检查各类说明、统计、验收等文档是否齐全。
(10)确保所有文件保存位置正确,可以有效打开和显示。
6.2.2质量标准
(1)图像完整性100%正确。不能丢失、错位。
(2)图像歪斜、压缩转换等综合错误率不超过1‰。
(3)双层笔顿贵文件的图像层和文字层的文字对位准确,反显区域与文字区域相差1毫米以内。
(4)双层 PDF 文件与TXT文件的文字内容保持一致,文字错误率不超过1‰。
6.3 全文转换质量要求
(1)文本数据的文字、版式、符号、段落顺序等,其字符综合错误率不超过1‰。
(2)文本数据文件与发布服务级 PDF 文件一一对应,叶面连续,不得跳号,不丢失文件。错误率为 0。
七、成果要求
7.1 数据内容
7.1.1 XML 文件
(略)数据、结构数据、卷目篇名。
7.1.2 对象数据
长期保存级、发布服务级数据,包括:
罢滨贵贵格式文件
笔顿贵格式文件
罢齿罢格式文件
7.1.3 文献整理登记表和外字表
文献整理登记表和外字表用 EXCEL表填写。
文献整理登记表内容包括:名录号、普查编号、索书号、题名、册数、总叶数、开本尺寸、透字、夹框、夹字、皱折、缺残叶、重叶、签条、夹纸、登记人员、登记日期、备注。
外字表的内容包括:加工记录标识号、内部序号、外字、描述、位置。
7.1.4 说明文件
项目总体说明文件用 EXCEL 表填写。
填写内容包括:
项目建设年、单位名称;
记录标识号、题名、TIFF 格式文件数量、笔顿贵格式文件数量、TXT 格式文件数量、采集分辨率/拍照像素;
备注(需要特别说明的事项)
7.2 数据标准
(1)送检数据有效,与《数据说明文件》内容和数量一致,不夹杂无关文件。
(2)着录、标引文字、符号,标引位置等信息准确,综合错误率不超过0.3‰。
(3)双层 PDF、全文文本文件的内容编码、文字识别等,综合错误率不超过1‰。
(4)数据的采集方式、技术指标、文件格式、文件命名、图像处理等综合错误率不超过1‰。
(5)成果数据中古籍图像完整,无缺失;数据类型和文件结构符合规范要求,且无坏死文件、不携带病毒,错误率为0。
(6)达到标准的数据视为合格,在规定错误率范围内检查出的数据问题由资源提交单位进行修正;超出错误率、未达到标准的数据由资源提交单位对全部数据进行整改、返工处理。
八、数据储存设备
供应商需提供不小于20罢移动存储设备,满足本项目数据提交。