真正的数字化敦煌还有多远?IDP三十年备忘
2024-12-03 20:00:00 法藏P.2547《开元廿九年张怀钦等勋官骑都尉告身》。资料图 “敦煌者,吾国学术之伤心史也。”1930年,陈寅恪在给陈垣新编的《敦煌劫余录》的序言中提到了这句话。尽管陈寅恪本人并不十分认同此话,但它背后所反映出的,正是当时人的一种时代情绪——敦煌遗书的流散,确是一段伤心往事。 1900年,位于敦煌莫高窟第17窟的藏经洞被发现,数年之内,洞内所藏的几万卷文书被当时的外国探险家们车载瓜分,流散至海外多个国家。从此,敦煌文书成为国际收藏机构的重要藏品,敦煌学也成为一门国际显学。 关于这一段敦煌遗书的“流散史”,人们已经耳熟能详。然而,自敦煌遗书流散之日起,人们试图使其重聚的愿望和行动就没有停止过。不论是1930年代王重民、向达等学者远赴欧陆拍摄敦煌遗书,还是此后各个收藏机构购入微缩胶卷,一代又一代的学者们都在努力让敦煌遗书重回完璧。 在这一系列的努力中,1994年成立的国际敦煌项目(International Dunhuang Project,以下简称IDP)是一个多世纪以来最引人瞩目,也是成就最大的敦煌学国际合作行动。 敦煌是沟通东西方文明的丝绸之路上的枢纽式绿洲城市,它的国际化与多元化早已被人们所熟知,而由中、英、法、德、俄、日等国专家学者组成的国际化团队,让IDP成为了一个世所罕见的文献数字化项目——各国的收藏机构将百年前从中国拿走的几万卷文书,再次拿出来扫描、上传互联网,让全世界的人们免费看到、下载。很多学者认为,IDP的国际化的精神内核,直接继承自那个千年前的沙漠绿洲。 莫高窟第323窟张骞出使西域图。这幅图由三个部分组成,居于下方的部分是故事的主体,画中一位帝王骑着高头大马,帝王的对面,持笏板跪拜者就是张骞。IC photo 2024年,IDP成立三十周年,作为IDP的发起机构,英国图书馆在馆内举办了一个展览,“丝路绿洲——古代敦煌的生活”(展期为2024年9月27日到2025年2月23日),展出了五十多件英藏的敦煌文献以及复制品。英国图书馆中文藏品首席策展人、IDP项目经理杜美乐(Mélodie Doumy)对南方周末记者说,她想要在展览中强调的是“敦煌非凡的世界性,每一件展品都是敦煌活跃思想交流的见证”。 IDP的数据库和网站还远称不上完善。经过二十多年的扫描、上传,各家机构都已经有了基数庞大的数字资源,但是和出土文献的数量相比,依然有着不小的距离。IDP数据库中不仅有敦煌文书,它还要将丝绸之路东段各遗址点出土的大量文书收罗其中。 据学者估算,仅就敦煌的汉文文献来说,英藏大约14000号,法藏3700号,俄藏18790号,中国国家图书馆藏16000号,日本及其他国家散藏5000号。中国国家图书馆古籍馆副馆长刘波向南方周末记者介绍,法藏敦煌文献已经基本数字化完毕,日本的大谷文书也基本做完,收藏数量最多的三家则还需要大量的时间与人力——中国国家图书馆完成了一半左右,英国图书馆完成了大约三分之一,俄罗斯则只完成了一小部分…… 乘着互联网的东风 任何研究工作的起点可能都是收集材料,敦煌研究也不例外。由于那段“伤心史”,敦煌文献分藏世界各地,学者们想查阅一件文书,不免有关山险阻之叹。北京大学教授荣新江2024年出版了新书《满世界寻找敦煌》,讲述的就是在还没有网络的20世纪八九十年代,他于欧洲各国和日本的图书馆里,探查一件又一件敦煌文书的故事。尽管当时国内少数图书馆已经购置了敦煌文书的微缩胶卷,但胶卷在镜头下,“很多材料看不清,有一点油污,就是一团一团的黑。”荣新江回忆。 学者们追寻敦煌遗书的努力可以上溯至20世纪初。1909年9月4日,就在伯希和获得众多敦煌文书后不久,中国学者在北京宴请伯希和,希望他将文书拍照,照片寄给中国。伯希和当场表示,敦煌卷子虽为法国政府所得,“但学问为天地公器,国内学术界如欲摄影誊写,自可照办。”伯希和归国后,履行承诺,拍得敦煌遗书照片千张左右,寄给中国。罗振玉所编《石室秘宝》《鸣沙石室佚书》等书,大多据伯希和所提供的照片编成。然而,伯希和代为拍摄照片之事因故中断,未能完成。 1930年代,北平图书馆以交换馆员的名义,分别派王重民、向达前往法国、英国收集敦煌文献。从1935年初到1939年,四年多时间里,他们陆续在巴黎、伦敦及德国的一些城市拍摄了上万张敦煌文书和吐鲁番文书的照片,他们是首批系统地收集英、法、德所藏敦煌遗书乃至西域文献的中国学者。 这批照片中,尤为珍贵的是德国藏的吐鲁番文书照片,因为有不少德藏文献在二战的柏林轰炸中被毁,这些照片成为了“孤品”。 二战后的冷战时代,分属东西方两个阵营的学者,要看到对方阵营的藏品,又变得尤其困难。直到苏联解体,让分属两个阵营的敦煌文献重新聚到一起,成为了可能。 1993年,中国国家图书馆、英国图书馆、法国国家图书馆、俄罗斯科学院东方学研究所圣彼得堡分所、柏林国家图书馆等几大收藏机构的专家学者汇聚英国萨塞克斯,倡议成立国际合作组织,以促进敦煌文献的保护与研究。第二年,国际敦煌项目正式成立,秘书处设在英国图书馆。 魏泓(Susan Whitfield)第一次来到敦煌是在1984年,当时她刚刚大学毕业,敦煌石窟的美让她深受震撼,也让她产生了从事丝绸之路学术研究的想法。1992年,已经成为年轻学者的魏泓加入了英国图书馆,她也成为了IDP的第一任项目主管。 魏泓在一篇回忆文章中说,IDP建立之初有两个主要目标:通过国际合作来加强敦煌、吐鲁番等丝路东段沿线出土物的保护工作,以及让全球学者能够更加便利地利用。当时,国际互联网还没有建立,如何“让全球学者能够更加便利地利用”,其实并没有多少实质性的进展。 但她清楚地记得,互联网技术在20世纪末突飞猛进,IDP的发展乘着这股东风,快速进入了数字文献的共享时代。1998年10月,IDP网站正式运行,当时的学者们可以在这个网站上免费检索到文献的目录信息。 短短几年间,当初倡议合作的几家收藏单位纷纷加入IDP:2001年,英国图书馆和中国国家图书馆签订协议,开始项目合作,建立中国国家图书馆IDP数字化工作室。次年,数据库及网站的中文版发布。 此后,俄罗斯科学院东方研究所圣彼得堡分所、日本龙谷大学、德国柏林勃兰登堡科学与人文科学院、中国敦煌研究院、法国国家图书馆、韩国高丽大学也加入了进来。这八个中心维护着七种文字版本的网站与数据库,世界上大部分人口都可以通过IDP网站了解丝绸之路历史与文献。如此广泛的覆盖面,在全世界的古籍文献数据库中,是独一无二的。 法国国家图书馆负责中日韩三语文献的主管人罗曼·勒夫布福尔(Romain Lefebvre)对南方周末记者说,IDP网站内不仅有敦煌文献,还有大量丝绸之路东段遗址出土的文献,IDP最重要的任务,就是“要把全世界所有收藏有敦煌及东段丝绸之路文献的机构联系起来,让它们形成合作,以增进人们对这一区域历史的了解”。所以,除了八家主要机构,还有27家其他收藏单位为IDP提供资料,比如在斯坦因的故乡,匈牙利科学院图书馆也是合作单位。 新西兰摄影师汤姆·哈金斯1956年拍摄的敦煌莫高窟第249窟壁画。视觉中国 超高清图片有必要吗? 2024年4月份,各家IDP成员机构在敦煌开了一次年会。这样的会议在过去每两年开一次,这次是疫情之后的第一次年会。刘波也出席了这次会议,并报告了目前国家图书馆IDP项目的最新进展。 中国国家图书馆每天都会有新上传的图片,五年前总的上传量是18万拍,“截止到2024年4月,已经有24.3万拍。”刘波对南方周末记者说。“拍”是一个拍照的动作,也是文书照片上传数据库的单位,一个小残片至少有正反面两拍,一个长卷则可多达几十拍。在IDP数据库现有总量的60.1万拍中,国图上传的数量超过40.4%,在各合作机构中是最多的。 IDP项目的服务器结构和别的国际合作项目不太一样,7个国家合作,有7个服务器,每家各一个,然后用网络技术把它们连接在一起。比如国图上传的照片就放在国图的服务器上,英国图书馆上传的照片就放在英国的服务器上,然后在网络上相互访问。刘波觉得,由于各个国家的工作习惯都不一样,这个项目能够成功,能让各个国家合作起来,“这种特殊的后台服务器架构是非常关键的因素”。 有分必有合。数据分在各服务器,数据的规范则一定要合。IDP从一开始就建立了一套统一的工作规范,修图的时候怎么换底色,怎样调整颜色、分辨率等等,所有的合作单位都用同一个规范来做工作,都采用同样的程序,“你看英国人做的、俄罗斯人做的,还有我们做的,在数据库里面看起来都差不多。”刘波说。 以英国图书馆为例,某些残损严重的文书,在拍摄工作之前就需要非常复杂的准备工序。工作室在地下好几层的恒温室中,杜美乐介绍,工作人员首先要拆除前人施加的“痕迹”,如去除背胶、外框或某些补丁,然后,他们将文书包裹在一种柔性聚酯薄膜中,这种薄膜可以保护碎片不受环境影响,同时又不会造成翘曲或化学浸蚀。最后,才是为每份文件拍摄高分辨率的照片。 然而流程规范,有时候也意味着繁琐,拍照之后要做修图,修图之后要做拼接,拼接完了以后按一定的程序把它传到数据库里面去,《IDP项目操作规范程序》中列明的拍照、修图、拼接的流程有二十多个步骤。一个工作室顺利的话一天也只能做40拍左右。 负责拍照和修图的人员,每天都要重复一套同样的动作几十次,就这样持续几十年,“你要是做一天、两天,可能不觉得,一年一年这么做是极其枯燥的。讲起来很高大上,给学术提供很大的帮助,但是具体的工作是极其枯燥的。”刘波说,“速度就起不来,而且经费又比较有限,每个单位都是只有两三个人在做这个事情,只能把战线拉长。” 剑桥大学荣休教授、浙江大学求是讲席教授高奕睿(Imre Istvan Galambos)2002年从加州大学伯克利分校博士毕业,第一份工作就是进入英国图书馆,参与到了IDP的建设之中。他亲历了当时IDP数据库的迅猛增长,但是也开始反思为什么二十多年过去了,拍照的工作还没有做完。 现在想起来,高奕睿觉得当初的操作规范过于追求图片的精度了,“当时用尽可能高的清晰度去数字化,这样摄影的时候就非常慢,扫描一张图片需要10分钟”,而处理这个图像则需要更长的时间,如果遇到一幅长卷,可能要拍上好几天。 “当时应该用不那么高的精度先把数字化全部做好,这样的话现在所有的资源都能利用起来。我们当初扫描了那么高的精度,其实也并没有放到网络上,而是存放在图书馆,为出版用的。放在网页上的是次一级精度的。原来那么高的精度,用户也使用不了,一个图片一个G,用户下载不了。”高奕睿对南方周末记者说。 当时放在网页上的次一级的高清照片,足以为此后文书研究的另一个方向打开了方便之门。中国社会科学院考古研究所助理研究员何亦凡告诉南方周末记者,之前研究文书,很多学者是基于文献的层面,主要是要识别出文字,但现在的前沿研究,会更侧重于文书的形态、样式,即“写本的物质形态”,“所以IDP给我们呈现的高清彩图是很有帮助的”。 莫高窟数字化研究所,图为2019年该所进行164窟研究。视觉中国 高奕睿个人的学术转向也受益于此。他原本的专业是中国古文字学,在IDP工作十年,高奕睿结合敦煌文献,发展出了新的研究方向。高奕睿曾经写过一本关于西夏文的书,法国的戴仁教授(Jean-Pierre Drège)写书评指出他没有注意到西夏文书的装订方式。这个书评让他注意到古代文书的物质形态,即文书的纸张、剪裁、装订等,而敦煌文献在这方面有着大量的实例,从此他的研究方向转向了敦煌文献的物质形态的研究。 “经费上很不到家” 2024年2月20日,IDP网站迎来了最新一次的升级,新网站增强了搜索功能和对长卷的浏览能力,同时通过采集准确的用户数量,后台得知 IDP 平台的核心受众来自世界各地,其中最大的流量来自中国、英国和美国。 普林斯顿大学助理教授文欣主要关注的材料是丝绸之路出土的“世俗”文书,包括政府公文、民间契约,以及社团条例等。最新的这次网站升级,让文欣感到图片的排版更好了,而且很多长卷可以在线直接浏览了,“以前要一张一张图下载下来,然后拼接起来”。 IDP的身影也渐渐在学术论文中出现,何亦
法藏P.2547《开元廿九年张怀钦等勋官骑都尉告身》。资料图
“敦煌者,吾国学术之伤心史也。”1930年,陈寅恪在给陈垣新编的《敦煌劫余录》的序言中提到了这句话。尽管陈寅恪本人并不十分认同此话,但它背后所反映出的,正是当时人的一种时代情绪——敦煌遗书的流散,确是一段伤心往事。
1900年,位于敦煌莫高窟第17窟的藏经洞被发现,数年之内,洞内所藏的几万卷文书被当时的外国探险家们车载瓜分,流散至海外多个国家。从此,敦煌文书成为国际收藏机构的重要藏品,敦煌学也成为一门国际显学。
关于这一段敦煌遗书的“流散史”,人们已经耳熟能详。然而,自敦煌遗书流散之日起,人们试图使其重聚的愿望和行动就没有停止过。不论是1930年代王重民、向达等学者远赴欧陆拍摄敦煌遗书,还是此后各个收藏机构购入微缩胶卷,一代又一代的学者们都在努力让敦煌遗书重回完璧。
在这一系列的努力中,1994年成立的国际敦煌项目(International Dunhuang Project,以下简称IDP)是一个多世纪以来最引人瞩目,也是成就最大的敦煌学国际合作行动。
敦煌是沟通东西方文明的丝绸之路上的枢纽式绿洲城市,它的国际化与多元化早已被人们所熟知,而由中、英、法、德、俄、日等国专家学者组成的国际化团队,让IDP成为了一个世所罕见的文献数字化项目——各国的收藏机构将百年前从中国拿走的几万卷文书,再次拿出来扫描、上传互联网,让全世界的人们免费看到、下载。很多学者认为,IDP的国际化的精神内核,直接继承自那个千年前的沙漠绿洲。
莫高窟第323窟张骞出使西域图。这幅图由三个部分组成,居于下方的部分是故事的主体,画中一位帝王骑着高头大马,帝王的对面,持笏板跪拜者就是张骞。IC photo
2024年,IDP成立三十周年,作为IDP的发起机构,英国图书馆在馆内举办了一个展览,“丝路绿洲——古代敦煌的生活”(展期为2024年9月27日到2025年2月23日),展出了五十多件英藏的敦煌文献以及复制品。英国图书馆中文藏品首席策展人、IDP项目经理杜美乐(Mélodie Doumy)对南方周末记者说,她想要在展览中强调的是“敦煌非凡的世界性,每一件展品都是敦煌活跃思想交流的见证”。
IDP的数据库和网站还远称不上完善。经过二十多年的扫描、上传,各家机构都已经有了基数庞大的数字资源,但是和出土文献的数量相比,依然有着不小的距离。IDP数据库中不仅有敦煌文书,它还要将丝绸之路东段各遗址点出土的大量文书收罗其中。
据学者估算,仅就敦煌的汉文文献来说,英藏大约14000号,法藏3700号,俄藏18790号,中国国家图书馆藏16000号,日本及其他国家散藏5000号。中国国家图书馆古籍馆副馆长刘波向南方周末记者介绍,法藏敦煌文献已经基本数字化完毕,日本的大谷文书也基本做完,收藏数量最多的三家则还需要大量的时间与人力——中国国家图书馆完成了一半左右,英国图书馆完成了大约三分之一,俄罗斯则只完成了一小部分……
乘着互联网的东风
任何研究工作的起点可能都是收集材料,敦煌研究也不例外。由于那段“伤心史”,敦煌文献分藏世界各地,学者们想查阅一件文书,不免有关山险阻之叹。北京大学教授荣新江2024年出版了新书《满世界寻找敦煌》,讲述的就是在还没有网络的20世纪八九十年代,他于欧洲各国和日本的图书馆里,探查一件又一件敦煌文书的故事。尽管当时国内少数图书馆已经购置了敦煌文书的微缩胶卷,但胶卷在镜头下,“很多材料看不清,有一点油污,就是一团一团的黑。”荣新江回忆。
学者们追寻敦煌遗书的努力可以上溯至20世纪初。1909年9月4日,就在伯希和获得众多敦煌文书后不久,中国学者在北京宴请伯希和,希望他将文书拍照,照片寄给中国。伯希和当场表示,敦煌卷子虽为法国政府所得,“但学问为天地公器,国内学术界如欲摄影誊写,自可照办。”伯希和归国后,履行承诺,拍得敦煌遗书照片千张左右,寄给中国。罗振玉所编《石室秘宝》《鸣沙石室佚书》等书,大多据伯希和所提供的照片编成。然而,伯希和代为拍摄照片之事因故中断,未能完成。
1930年代,北平图书馆以交换馆员的名义,分别派王重民、向达前往法国、英国收集敦煌文献。从1935年初到1939年,四年多时间里,他们陆续在巴黎、伦敦及德国的一些城市拍摄了上万张敦煌文书和吐鲁番文书的照片,他们是首批系统地收集英、法、德所藏敦煌遗书乃至西域文献的中国学者。
这批照片中,尤为珍贵的是德国藏的吐鲁番文书照片,因为有不少德藏文献在二战的柏林轰炸中被毁,这些照片成为了“孤品”。
二战后的冷战时代,分属东西方两个阵营的学者,要看到对方阵营的藏品,又变得尤其困难。直到苏联解体,让分属两个阵营的敦煌文献重新聚到一起,成为了可能。
1993年,中国国家图书馆、英国图书馆、法国国家图书馆、俄罗斯科学院东方学研究所圣彼得堡分所、柏林国家图书馆等几大收藏机构的专家学者汇聚英国萨塞克斯,倡议成立国际合作组织,以促进敦煌文献的保护与研究。第二年,国际敦煌项目正式成立,秘书处设在英国图书馆。
魏泓(Susan Whitfield)第一次来到敦煌是在1984年,当时她刚刚大学毕业,敦煌石窟的美让她深受震撼,也让她产生了从事丝绸之路学术研究的想法。1992年,已经成为年轻学者的魏泓加入了英国图书馆,她也成为了IDP的第一任项目主管。
魏泓在一篇回忆文章中说,IDP建立之初有两个主要目标:通过国际合作来加强敦煌、吐鲁番等丝路东段沿线出土物的保护工作,以及让全球学者能够更加便利地利用。当时,国际互联网还没有建立,如何“让全球学者能够更加便利地利用”,其实并没有多少实质性的进展。
但她清楚地记得,互联网技术在20世纪末突飞猛进,IDP的发展乘着这股东风,快速进入了数字文献的共享时代。1998年10月,IDP网站正式运行,当时的学者们可以在这个网站上免费检索到文献的目录信息。
短短几年间,当初倡议合作的几家收藏单位纷纷加入IDP:2001年,英国图书馆和中国国家图书馆签订协议,开始项目合作,建立中国国家图书馆IDP数字化工作室。次年,数据库及网站的中文版发布。
此后,俄罗斯科学院东方研究所圣彼得堡分所、日本龙谷大学、德国柏林勃兰登堡科学与人文科学院、中国敦煌研究院、法国国家图书馆、韩国高丽大学也加入了进来。这八个中心维护着七种文字版本的网站与数据库,世界上大部分人口都可以通过IDP网站了解丝绸之路历史与文献。如此广泛的覆盖面,在全世界的古籍文献数据库中,是独一无二的。
法国国家图书馆负责中日韩三语文献的主管人罗曼·勒夫布福尔(Romain Lefebvre)对南方周末记者说,IDP网站内不仅有敦煌文献,还有大量丝绸之路东段遗址出土的文献,IDP最重要的任务,就是“要把全世界所有收藏有敦煌及东段丝绸之路文献的机构联系起来,让它们形成合作,以增进人们对这一区域历史的了解”。所以,除了八家主要机构,还有27家其他收藏单位为IDP提供资料,比如在斯坦因的故乡,匈牙利科学院图书馆也是合作单位。
新西兰摄影师汤姆·哈金斯1956年拍摄的敦煌莫高窟第249窟壁画。视觉中国
超高清图片有必要吗?
2024年4月份,各家IDP成员机构在敦煌开了一次年会。这样的会议在过去每两年开一次,这次是疫情之后的第一次年会。刘波也出席了这次会议,并报告了目前国家图书馆IDP项目的最新进展。
中国国家图书馆每天都会有新上传的图片,五年前总的上传量是18万拍,“截止到2024年4月,已经有24.3万拍。”刘波对南方周末记者说。“拍”是一个拍照的动作,也是文书照片上传数据库的单位,一个小残片至少有正反面两拍,一个长卷则可多达几十拍。在IDP数据库现有总量的60.1万拍中,国图上传的数量超过40.4%,在各合作机构中是最多的。
IDP项目的服务器结构和别的国际合作项目不太一样,7个国家合作,有7个服务器,每家各一个,然后用网络技术把它们连接在一起。比如国图上传的照片就放在国图的服务器上,英国图书馆上传的照片就放在英国的服务器上,然后在网络上相互访问。刘波觉得,由于各个国家的工作习惯都不一样,这个项目能够成功,能让各个国家合作起来,“这种特殊的后台服务器架构是非常关键的因素”。
有分必有合。数据分在各服务器,数据的规范则一定要合。IDP从一开始就建立了一套统一的工作规范,修图的时候怎么换底色,怎样调整颜色、分辨率等等,所有的合作单位都用同一个规范来做工作,都采用同样的程序,“你看英国人做的、俄罗斯人做的,还有我们做的,在数据库里面看起来都差不多。”刘波说。
以英国图书馆为例,某些残损严重的文书,在拍摄工作之前就需要非常复杂的准备工序。工作室在地下好几层的恒温室中,杜美乐介绍,工作人员首先要拆除前人施加的“痕迹”,如去除背胶、外框或某些补丁,然后,他们将文书包裹在一种柔性聚酯薄膜中,这种薄膜可以保护碎片不受环境影响,同时又不会造成翘曲或化学浸蚀。最后,才是为每份文件拍摄高分辨率的照片。
然而流程规范,有时候也意味着繁琐,拍照之后要做修图,修图之后要做拼接,拼接完了以后按一定的程序把它传到数据库里面去,《IDP项目操作规范程序》中列明的拍照、修图、拼接的流程有二十多个步骤。一个工作室顺利的话一天也只能做40拍左右。
负责拍照和修图的人员,每天都要重复一套同样的动作几十次,就这样持续几十年,“你要是做一天、两天,可能不觉得,一年一年这么做是极其枯燥的。讲起来很高大上,给学术提供很大的帮助,但是具体的工作是极其枯燥的。”刘波说,“速度就起不来,而且经费又比较有限,每个单位都是只有两三个人在做这个事情,只能把战线拉长。”
剑桥大学荣休教授、浙江大学求是讲席教授高奕睿(Imre Istvan Galambos)2002年从加州大学伯克利分校博士毕业,第一份工作就是进入英国图书馆,参与到了IDP的建设之中。他亲历了当时IDP数据库的迅猛增长,但是也开始反思为什么二十多年过去了,拍照的工作还没有做完。
现在想起来,高奕睿觉得当初的操作规范过于追求图片的精度了,“当时用尽可能高的清晰度去数字化,这样摄影的时候就非常慢,扫描一张图片需要10分钟”,而处理这个图像则需要更长的时间,如果遇到一幅长卷,可能要拍上好几天。
“当时应该用不那么高的精度先把数字化全部做好,这样的话现在所有的资源都能利用起来。我们当初扫描了那么高的精度,其实也并没有放到网络上,而是存放在图书馆,为出版用的。放在网页上的是次一级精度的。原来那么高的精度,用户也使用不了,一个图片一个G,用户下载不了。”高奕睿对南方周末记者说。
当时放在网页上的次一级的高清照片,足以为此后文书研究的另一个方向打开了方便之门。中国社会科学院考古研究所助理研究员何亦凡告诉南方周末记者,之前研究文书,很多学者是基于文献的层面,主要是要识别出文字,但现在的前沿研究,会更侧重于文书的形态、样式,即“写本的物质形态”,“所以IDP给我们呈现的高清彩图是很有帮助的”。
莫高窟数字化研究所,图为2019年该所进行164窟研究。视觉中国
高奕睿个人的学术转向也受益于此。他原本的专业是中国古文字学,在IDP工作十年,高奕睿结合敦煌文献,发展出了新的研究方向。高奕睿曾经写过一本关于西夏文的书,法国的戴仁教授(Jean-Pierre Drège)写书评指出他没有注意到西夏文书的装订方式。这个书评让他注意到古代文书的物质形态,即文书的纸张、剪裁、装订等,而敦煌文献在这方面有着大量的实例,从此他的研究方向转向了敦煌文献的物质形态的研究。
“经费上很不到家”
2024年2月20日,IDP网站迎来了最新一次的升级,新网站增强了搜索功能和对长卷的浏览能力,同时通过采集准确的用户数量,后台得知 IDP 平台的核心受众来自世界各地,其中最大的流量来自中国、英国和美国。
普林斯顿大学助理教授文欣主要关注的材料是丝绸之路出土的“世俗”文书,包括政府公文、民间契约,以及社团条例等。最新的这次网站升级,让文欣感到图片的排版更好了,而且很多长卷可以在线直接浏览了,“以前要一张一张图下载下来,然后拼接起来”。
IDP的身影也渐渐在学术论文中出现,何亦凡记得以前写论文的脚注,某图片的引用出处是要写到纸质图版的,某某书、第几页,“但现在有时候也会写IDP的一个文书网址,这样读者也更容易找到”。
但是也有学者感觉到,“最近IDP的更新速度好像慢下来了。”高奕睿每天都要使用这个数据库,他对数据的变化相对敏感,“在疫情之前,IDP上传新图片的速度已经大不如前。”
杜美乐向南方周末记者承认,目前网站的服务器确实出了一些问题,导致每个国家的服务器都不再能访问另外6家服务器的最新上传,“2023年10月,英国图书馆遭受网络攻击,我们的网站和部分在线系统和服务目前仍受到影响,因此我们的工作持续受到干扰。我们正在与 IDP 的伙伴合作,以恢复元数据和图像在各个 IDP 平台上顺利共享,同时继续恢复向世界各地的人们提供服务。”在此之前,7个服务器之间的相互访问是非常顺畅的。
据刘波说,目前各个国家能访问到的外国服务器上的数据停留在了2021年底,“信息同步这一块有一点滞后了”。
杜美乐没有正面回应恢复进度缓慢是否经费原因造成的,但大多数接受采访的学者都认为,目前IDP正面临着经费问题。“虽然我不是IDP系统的,但是我感觉,如果还想继续做,经费上很不到家,包括英国图书馆和中国国家图书馆,德国更没有钱。”荣新江对南方周末记者说。
德国的吐鲁番文献主要由柏林国立图书馆收藏,目前这批文献已经数字化,成为了IDP的一部分。维也纳大学教授梅勒妮·马尔灿(Melanie Malzahn)对南方周末记者说,除了吐鲁番文书,目前德藏的其他丝路文献的编目与调查工作还远远没有结束,“当时丝路上的语言有二十多种,而德国的编目工作是按照手稿类型与语言来分类的”,每一种古代语言都要找到合适的专家来做判定与释读,编目的进度因此无法快速推进。
高奕睿回忆21世纪初的十年,那时候经费充足,正好也是IDP高速发展的十年,“专职IDP的工作人员最多的时候超过10位,其中有三位全职摄影师。”他说,“法藏文献可以做完,也是因为他们拉到了钱,梅龙基金会(Mellon Foundation)资助了他们,他们的文书数量也相对较少。”
法藏P.2983《敦煌贰拾咏》,又称《敦煌廿咏》或《敦煌二十咏》,是描写和反映敦煌名胜古迹和历史人物的一组五言律诗。敦煌文献中有此组诗的文献共计有六个卷号。法藏P.2983是其中比较残损的一号。资料图
外部基金对IDP的资助主要为项目制,如前几年香港北山堂基金资助了《法华经》的保护和数字化项目,使得IDP在2017年至2022年期间,上传了近800份敦煌《法华经》的图像。而对于其他手稿、经卷,可能就需要等待其他项目的资助。
中国国家图书馆的上传进度也与外部基金的支持密切相关,刘波说,2019年之后的两年,项目的基金支持断了,上传的进度也就停滞了。但从2023年年初开始,随着新的基金会赞助的到来,上传的效率又高了起来,“重新回到了三个人的配置,一个摄影师,两个修图师。和英国图书馆相比,目前中国国家图书馆的进展较为稳定,”刘波说,“未来最大的挑战就是工作量比较大,短期内可能还看不到它能彻底做完。”
针对这种情况,荣新江提出了他个人的建议:“我特别建议中国应该把它接过来,因为中国现在热情很高涨,经费上也有。”但这个建议在具体实施上还有诸多现实的掣肘,对罗曼·勒夫布福尔来说,IDP不仅是不同文化的人群之间的合作,也是图书馆、博物馆和研究机构之间的合作,“这种合作的理念具有重要意义,为了向世界提供更丰富的文献收藏,这种合作应该继续下去。”
IDP还能做什么?
从敦煌出发向西,沿着丝绸之路,可以到达另一个中古时期的佛教重镇龟兹。龟兹也在20世纪初经历过和敦煌相仿的命运。现新疆库车地区总计有十座古龟兹佛教石窟寺院,克孜尔石窟是其中规模最大且最为著名的一处。1902、1906和1913年,德国探险队三次来到库车地区,割下并带走了大量石窟壁画。这批壁画在二战的柏林大轰炸中损失严重,二战结束后,又有一大批壁画被搬运至苏联,现藏于圣彼得堡艾尔米塔什博物馆。如今,龟兹石窟的壁画分散在全世界至少15家博物馆。
梅勒妮·马尔灿告诉南方周末记者,和IDP一样,世界各地的收藏机构也为龟兹地区的石窟壁画建立了一个跨国的数据库,即“北方丝绸之路上的库车佛教壁画”项目。这个项目依托于莱比锡大学,“丝绸之路研究本身就是跨国、跨学科的,因此只有通过国际合作才能推动知识的进步。”梅勒妮·马尔灿说。
新疆库车库木吐喇石窟窟群区第79窟壁画,位于主室坛基正壁,内容为供养人。IC photo
从某种意义上说,IDP的国际化合作模式为其他丝路上的文化遗产提供了借鉴,IDP的未来探索也将为类似项目提供宝贵的先行经验。2024年4月份的敦煌年会,除了讨论服务器的升级,与会者们还重点关注了IDP下一步该怎么走。
文欣认为未来IDP在上传文书的时候,应该对文献的出土地做更详细的标记,“最重要的就是要尽量展现文书的‘全貌’,这不单是指文书正、背面的图版,而且还要有文书出土的地点、遗址的时代,以及文书在其出土地和其他文书、文物之间的关系。”文欣对南方周末记者说,这些信息构成了一件文书的“语境”,“简单的一张照片,是无法复原这些‘语境’的。IDP提供了某些文书出土地的信息,但是这些信息对于西域文书‘语境’的重建,还不完全足够。”
另外引起学者兴趣的,是IDP未来的检索功能。到目前为止,IDP基本上还只是一个图版的数据库,但图片已经不能满足学者们的需求,很多人在期待文书的OCR(光学字符识别,将图像中的文本转化为可读取的文本)与检索。荣新江是检索功能的热情支持者,他认为现在的IDP网站不是真正的数字化,“我所理解的数字化是要真正能检索,而检索功能现在是可以做到的。”
检索的前提,是要认出文书上的字。敦煌文书大部分是佛经文献,荣新江认为这部分并没有OCR的必要,“像最近的《法华经》的项目,他们用OCR做《法华经》的文字识别,我觉得这在学术上没有太大的意义,因为《法华经》的文字我们都有,和敦煌本差异很小,何不用现有的本子做底本,稍微改几个字呢?”
而对于学术研究意义更为重大的世俗文书来说,“敦煌俗字很多,格式也不规整,又很潦草,OCR机器是拿它没有办法的。”刘波说。
既然OCR机器识别不了世俗文书,那么只能靠学者们的“火眼金睛”,于是这一百多年来敦煌学学者的研究就显得尤为重要。荣新江对南方周末记者说,几乎所有重要的敦煌文书,经过这100年的研究,都已经有了录文、论文,只不过散在各种书、期刊里面,“IDP的人找不到这些,必须得跟我们敦煌学研究者合作。我觉得这一步我们中国学者一定要作出贡献来。”
刘波虽然同意荣新江的愿景,但在他看来,这条路也是困难重重。首先是版权问题,敦煌学者人数众多,如何将他们的录文与研究收集于网络并公布,版权问题必然纷繁复杂,“就算解决了法律问题,还有一个技术问题,敦煌大量的俗字、异体字,或者生造字,这些东西很难输入电脑。”刘波说。而这还只是汉字内部的问题,更不用提其他多种西域文字的文书了。
事实上,敦煌研究院自己开发的一个数据库“敦煌遗书数据库”已经有了加载的录文,“但目前也只有一千多号的文字资料,与7万号的敦煌文献相距甚远。”荣新江说,他对数字化敦煌的前景比刘波更加乐观,“学者们合力,就可以做出一个真正的数字化的敦煌文本,这样也可以吸引学术界外的人。否则敦煌文书是按编号走的,和内容没关系,前一个号是佛经,下一个号可能就是《论语》,再下一个号又是《史记》,没有检索的话,不搞敦煌的人哪里去找?所以你要有一个数字化敦煌,大家都可以用,不光搞敦煌研究的人可以用,外面的人也可以用。