为了响应教育部跨学科人才培养战略,厦门大学历史系本学期组织数字人文系列演讲。2022年3月31日,祝平次教授做《方志中的宋代笔记》报告,同时本场讲座还特别邀请到德国马克斯普朗克研究所LoGaRT平台的工程师Calvin,为同学们答疑解惑。此次报告也是新文科“数字人文与民间历史文献学研究”的系列活动之一。
祝平次于哈佛大学东亚系取得博士学位,现任新竹清华大学中文系教授,致力于明代理学与数字人文研究。
讲座伊始,祝平次提醒我们在利用数位工具时,带着问题意识进行研究将会事半功倍。本次报告的主题是基于LoGaRT平台的研究,回答的问题是“在地方志中,宋代笔记是如何被再利用?”若不借助数据库和数字人文工具,完全在人工条件下,这样的研究工作量巨大,几乎难以完成,而LoGaRT则为研究者实现目标提供了极大的便利性。
LoGaRT平台由德国马克斯普朗克科学史研究所的团队开发而成。该团队致力于以跨学科理论为导向的科学史研究,包括历史数据的数字化和研究工具的开发等,其重要成果之一即是LoGaRT平台。该平台集检索和分析为一体,最大特点是对已数字化的方志进行整体化分析。使用者可以利用平台内置的爱如生“中国方志库”和部分哈佛燕京图书馆藏珍稀方志等元数据进行跨方志、跨时间和跨地域地搜集并标记资料。在文本转化为数据的过程中,学者还可以使用统计和LGMAP等功能,将数据进一步输出为可视化界面,全面掌握数据的概况。祝平次指出,我们在利用方志时,要将其视为文献集,它的最大特点是收录和引用了其他文献,其中就包括了大量的宋代笔记。因此,笔记和方志存在交集。正是因为这两类文献内部存在联系,才有可能利用数位工具进行比较分析。
在授课过程中,祝平次从“地方志编码、图像分析、统计分析、检索功能、结果举例及注意事项”六个步骤为我们依次讲解了如何借助LoGaRT平台进行方志中的宋代笔研究。
第一,祝平次认为通过为每一条资料赋予识别码,对标题和内容等进行标记并转换成表格后,就可以作进一步分析。同时祝教授借助数据,为我们展示了该平台导出csv格式后的表格情况,其中包括了所有方志的地域、成书年份、门类、作者等整体性概况的信息。
第二,祝平次将《全宋笔记》中的472种笔记书名置于LoGaRT系统中进行比对,得出数万条资料。他将其绘制成一张热点图,以此来观察不同方志在不同地区分布的密度情况。此外,他还借助《中国历代人物传记资料库》(CBDB)绘制了宋代人物地理分布的热点图,将前后两张热点图进行比较。
第三,祝平次采用表格统计分析得出:宋代笔记中,名称出现频率最高的方志归属于湖南和苏杭等地区,不过湖南是通志,而苏州、杭州是府志。此外,祝教授提醒我们在进行数位人文分析时,要注意数量关系,还要注意由谁充当分母的问题。
第四,祝平次利用《中国哲学电子书计划》(CText)文本分析平台里的寻找相似文本功能,将方志内容输入到该平台中,以6个字词为检索单位,以此来确认方志会重复使用到的史料。
第五,祝平次对分析结果进行了举例,他以洪迈的《夷坚志》和《容斋随笔》为个案,统计出这两种笔记在方志门类的分布状况,探究方志引用这两种笔记的情况,并绘制不同地区引用这两本笔记的方志地理分布图及引用次数热点图,进而呈现两种笔记的地理分布。
第六,祝平次还总结了数位研究时的注意事项。一方面,使用商业数据库时,应注意文献的底本,必须以传统的版本学为研究基础。另一方面,要了解检索的门类和比对的方法,重复操作,找出所需的内容。
讲授之余,祝平次指导卢映辉同学带领大家实际操作了LoGaRT平台,感受书籍、页面、章节、排序和图表展示等各项功能,让同学们对该平台的使用有了更直观的了解。
讲座尾声,祝平次和Calvin积极与在场师生进行互动。滕辉提问:“LoGaRT平台‘页面’里的默认‘名称’排序是按照时间顺序吗?”Calvin回应:“LoGaRT平台“页面”隐藏了很多选项,需要研究者在‘呈现字段’里调出,选择‘书籍年代/版本年代’,便可以看到按书籍/版本年代的排序。黄向春和卢映辉提问:“契约文书如何进行标记?”祝平次回应:“第一,以Markus等半自动的辅助工具为例,它利用语法规则,找出人名出现的位置,进行匹配。契约有固定的格套,可以与工程师进行合作,写出符合需求的正则表达式,匹配标签,最后人工作进一步精准的筛选。第二,要做好数位人文计划。”江韵琳提问:“首页栏里的标记主题具体是如何操作?比如‘城市周边的山水环境’。”Calvin回应:“LoGaRT平台“标记主题”展示的是与马普所合作过的学者们的研究主题,他们标记好的标签可以直接为我们所用。以《襄阳府志》里的“水利”篇为例,打开后右边展示的是操作栏。LoGaRT平台的标记功能分为手动和半自动,学者在阅读文本时候,可以选定文本的内容,直接标记出各种标签,待阅读一定量的文本,找出标签的文本规则后,可以使用正则表达式批量进行标记。亦或在操作栏里套用已有学者标记好的标签规则,直接找出特定的内容。此外,平台提供预览标记好的表格元数据,支持输出csv等格式,方便后续工具的进一步加工。
撰稿人&硕士研究生钟俊南