[百道专稿] 新技术可以让旧文献复活,并得以长存。施普林格(Springer)计划将1840年以来的全部旧版书数字化,完成后SpringerLink平台的电子书数量将超过100,000种。这一工程复杂而庞大,但意义非凡。《经济学人》科技博客“巴贝奇”近日就此发表了一篇专文,内容选编如下:
施普林格(Springer)集团的历史可以追溯到1842年。当时朱利叶斯•施普林格(Julius Springer)在柏林创办了一家书店。1843年,他开始出版期刊,同年施普林格的报纸也创立了。
施普林格主要出版学术与商业图书。虽然经历了一系列兼并、收购和分拆,包括吸纳另一家具有悠久历史的荷兰公司——成立于19世纪的克鲁尔(Kluwer)学术出版社,但它对自身的历史延续依然非常重视。
和许多同行一样,目前施普林格同时出版纸质版和电子版图书,其数字图书馆的馆藏量约为50,000种,大部分是2005年数字化浪潮已基本成形后推出的。即便如此,施普林格还是决定在商业许可模式下,进一步对其保存的65,000种图书进行数字化转档。
这些存档图书的大部分都是过时的研究文献,可能只对科学史研究者有意义。但这里也还有一些珍贵的东西,比如阿尔伯特•爱因斯坦、约翰•埃克尔斯(John Eccles)爵士、鲁道夫•迪赛(Rudolf Diesel)等人的作品。其他一些具有开创性的作品,都是很久以前的纸质稿,出自于尼尔斯•玻尔、丽泽•迈特纳(Lise Meitner)、沃纳•西门子(Werner Siemens),还有其他众多科技领域的杰出人物。现在这些作品都已经被全文摘录,可供检索。目前,这项工作还在继续,与其他揭示历史科研成果的工作同步进行。英国皇家学会曾表示它们数据库中大约有24000篇超过70年历史的论文,最早的已回溯到1665年,可免费获取。(其他36000篇仍然要经过许可。)
对藏书进行扫描绝非易事。负责图书仓储计划的威廉姆斯(Thijs Willems)表示,施普林格首先必须鉴别出哪些作品是其拥有版权的,然后需要对所有的藏书记录进行调查整理。为了创建一份完整的书目清单,公司还对国家图书馆中的旧版书进行了必要的清理。他们最终整理出100,000种纸质书,语种包括英语、荷兰语还有德语,许多图书都是同一作品的不同版本。施普林格还计划从图书馆中找寻当年由于战争等原因而遗失的旧版图书。公司决定只扫描作品的最近一版,早期版本将来再作补充。
版权仍然是一个麻烦的问题。美国有明确的分界线——所有1923年以前在美国出版或注册的作品,都进入了公共领域。但其他国家的相关政策还很模糊,有些甚至都没有在法庭上讨论这方面问题。在英国,理论上即便1870年出版的图书也有可能尚在版权保护期。如果一本书在当年出版,作者刚好20岁,如果他活到100岁,那么按照作者死后70年的计算方法,版权保护期将延至2020年。尽管这种几率很小,但为了以防万一,英国出版商还是避免将1870年以前的作品纳入公共领域。
施普林格是从1995年才开始签署数字版权的。为了确保能获得扫描旧版书的权利,公司需要跟踪历史记录,并与作者谈判。威廉姆斯说,大部分作者都支持该项目,他们很高兴看到自己的作品能够得到永续。出版商还希望避免陷入“谷歌图书”那样的冲突,这家互联网巨头与相关的学术机构其实并不拥有版权。施普林格的雷•科朗(Ray Colon)认为,实际上,谷歌是希望绕开出版商、作者,还有图书馆。
科朗说,施普林格很高兴看到其他企业对该公司处于公共领域的出版物进行传播,虽然他没有透露具体哪些作品。(施普林格并没有针对这类出版物制作出高质量的数字版本,其他公司需要拿到作品的副本并自行扫描。)
还有一些非法律方面的挑战。比方说,直到1941年,德国图书的印刷字型还都是德文尖角体(Fraktur),有时误称为哥特体(Gothic)。[ Fraktur字体在1941年被希特勒的秘书马丁•鲍曼(Martin Bormann)所禁止,原因是太像犹太人的风格。] 对于现代读者来说,这种复杂的德文活字很难识别,同样对于光学字符识别软件来说,这也是非常困难的事情,需要经过机器训练才能适应。最关键的是,这种软件所采用的字典需要补充一大批已经被淘汰的单词,这些单词主要在19世纪使用。
某些活跃于德国第三帝国时期的出版商,可能还会比较关注那一时期的作品。威廉姆斯说,施普林格留存下来的那一时期的图书只有不到10本。奇怪的是,这些作品都是20世纪30年代犹太作者写的,包含种族和宗教差异方面的内容,读起来可能会感到不太舒服。尽管一般情况下,这批书不会包含在数字仓储中,但如果有机构专门订阅的话,还是会提供的。威廉姆斯说,这些图书内容并不会带来太多的冲击,传播这些内容没有违反德国“禁止反民主内容传播”的宪法规定。
施普林格对旧版作品进行的是最高精度的扫描,主要是希望避免一旦新的技术出现,一切又要重头来过。威廉姆斯和他的团队还嵌入了丰富的元数据——作者、出版日期、书本页数及其他细节——只有采取这种标准格式,数字版本才有可能持续下去。他们对插图的复制予以特别关注,毕竟这是在完成一项永久保存图书的使命。