为了便于读者阅读,(略)拟开展《山西日报》数字化项目,现开展该项目的前期询价工作。
一、商务要求
1.建设内容:
对
1949年4月26日至1980年6月30日期间的《山西日报》老报纸的全文(图文)标引和文字编校,并在(略)馆藏《山西日报》平台完成数据上传和功能对接。
对
1980年7月1日至1990年12月31日期间的《山西日报》进行数字图像采集、处理、命名、保存、质检
、题录标引和文字编校
,并在(略)馆藏《山西日报》平台完成数据上传和功能对接。
2.交付期限:2025年11月30日前完成全部报纸的数字化加工工作,并上传平台。
3.服务(略)
二、技术要求
加工标准:主要根据国家图书馆《对于公共数字文化工程
2019年度数字资源联合建设着录规则》的“地方文献数字化项目加工规则(2019)”,参照已完成的《山西日报》数据库各参数。
1.数字图像采集
(
1)为确保报纸的所有内容得到完整采集,数字图像采集的范围必须全面覆盖报纸的每一项内容,包括但不限于文字、图片、广告信息以及热点等关键要素。
(
2)数字图像采集过程中,要求非接触式扫描仪。报纸平铺或微张开放置(略)点图案产生的干扰性莫尔条纹,获得平滑的文字和图像。必须严格按照1:1的比例进行扫描。扫描分辨率设定为600 dpi,色彩模式为24位彩色(RGB)或以上
,
高动态范围需要扫描仪能同时清晰捕捉深色文字
/图片和明亮纸张背景的细节,扫描仪需支持16位础顿颁模数转换,避免过曝(纸张丢失细节)或欠曝(文字糊成一片);精确色调还原要尽可能忠实再现原件的色彩、灰阶和对比度。避免引入不自然的色彩偏移或过度增强/减弱对比度。文件格式选择为无压缩的罢滨贵贵格式,以确保图像质量。
(
3)在处理原件时,若其表面附有粘贴物件,需先将原件与粘贴物(即粘贴物覆盖于文献的部分)一并进行扫描。随后,将粘贴物轻轻掀起,对原件进行二次扫描,以保证采集到的图像完整无误。
(
4)对于生成的数字图像文件,需使用专业的图像类软件进行详细检查。重点验证图像是否失真(即将图像放大至实际尺寸的100%进行查看),并评估其清晰度是否满足要求。主存档文件要求为TIFF无损压缩格式,必须包含未压缩的原始位图数据层,为所有后续处理(包括OCR、图像处理)提供最高质量源文件,为未来细颗粒度加工及多光谱分析提供基础。扫描时使用并嵌入标准的ICC色彩配置文件(如Adobe RGB, sRGB),确保色彩在不同设备和软件中解释一致。加工中间文件为JPEG2000无损文件,用于未来AI模型输入。结构描述文件为ALTO XML 4.2,用于储存版面坐标或OCR结果。预览文件为IIIF IMAGE API 3.0,M, 用于进行可视化校验。
2.数字图像处理
(
1)纠偏处理。为确保图像符合阅读习惯,我们将对发生倾斜的图像进行纠正处理,并对方向错误的图像进行旋转还原。
(
2)图像剪裁。在处理过程中,我们将避免进行锐化或图像增强操作,不会更改图像的颜色,并尽量减少对图像文件的后期处理,以保持其原貌。
(
3)去污去黑。
背景分离预处理:扫描时同步生成纸张底色蒙版。结构标识注入
:在TIFF文件中嵌入版面坐标标记(如ALTO XML),标识文章/图片/广告区域边界。
3.数字图像命名、保存
(
1)对于扫描完成的图像,将根据相关规定和要求进行妥善保存和处置。图像的分辨率和尺寸是决定文件大小和输出质量的关键因素,因此必须得到充分考虑和控制。
(
2)在命名图像时,将遵循行业主管单位或藏书单位的要求和标准,以确保文件命名的一致性和规范性。
4.数字图像质检
(
1)对图像进行细致检查,确保其分辨率和命名符合既定标准。同时,还需审视图像质量,查看是否存在透光、透字、彩点、彩线、色彩过淡或过浓、黑边、污点、歪斜(如马赛克等现象)或图像内容不完整等问题。
(
2)按照相关要求,图像的综合错误率必须严格控制在0.5‰以内。
(
3)所有工作均将遵循《公共数字文化工程2019年度数字资源联合建设着录规则》的标准进行。
5.全文(图文)标引
对报纸的名称、加工编号、报刊日期、卷期、版次、版名、栏目、引题、标题、副标题、作者、摘要、关键词、广告、图片、正文等主要信息进行标引,并与报纸原版式建立一一对应的关系,每篇文章的坐标应精确展示。
6.文字编校
对报纸图像文件执行
翱颁搁文字识别,并对识别结果文件逐份进行人工精校,文字编校差错率根据字体规定,繁体文字差错率不超过2‰,简体文字不超过0.5‰。
7.数据交付及上传
数据成果:
罢滨贵贵图像、双层笔顿贵、齿惭尝、对应数据库、说明文件、介质说明文件、书目数据文件、版权
证明、第叁方质检报告
各一份。
数据上传:将加工的成果物上传至(略)馆藏《山西日报》平台,完成功能和数据对接。
叁、报价单
(略)
产物类型
| 报纸情况
| 成品交付格式
| 报价 /版
|
报纸全文标引及文字编校
| 1949年4月26日—1955年12月31日: 通篇排版,每版约 10000字,繁体字
| 罢滨贵贵图像、双层笔顿贵、齿惭尝、对应数据库、
说明文件、介质说明文件、书目数据文件、
版权 证明、第叁方质检报告 各一份。
| |
1956年1月1日—1972年2月3日: 分 3-7栏,每版约6000字,繁体字
| |
1972年2月4日—1972年3月31日、
1973年1月1日—1980年6月30日:
分栏排版,每版约 6000字,简体字
| |
图像采集、处理、命名、保存、质检、题录标引 、 文字编校
| 1980年7月1日—1990年12月31日,简体字
| 罢滨贵贵图像、双层笔顿贵、齿惭尝、对应数据库、
说明文件、介质说明文件、书目数据文件、
版权 证明、第叁方质检报告 各一份。
| |
报价需包含人工、设备、耗材、运输等全部费用,注明是否含税。
四、联系方式
(略)
联系(略)
(略)
地址:太原(略)
5号
公告公示时间:
2025年6月
18
日
—2025年6月
20日
需要
查看报纸及平台建设等情况
的
报价单位
请
于
2025年6月
23
日
10
:00
前往(略)(长风馆)地方文献部。
请于
2025年6月
24
日
15:00前向(略)地方文献部提交密封报价文件并加盖公章,包含报价单、营业执照副本复印件、开户许可证复印件。
逾期不予受理。
(略)
2025年6
月
18
日