讲座纪要:面向中国历史的数字人文研究方法与资源

    2019年11月20日上午,科技史与文化遗产研究院于北京科技大学冶金楼616室举办了科学技术史学术论坛的第213讲——“面向中国历史的数字人文研究方法与资源”。本次讲座邀请到中国历代人物传记资料库高级项目经理、北京大学中国古代史中心访问学者、清华大学统计中心访问学者王宏甦老师前来主讲。我院部分师生参加了此次讲座。

 

一.主讲嘉宾介绍      
    本次讲座主讲人王宏甦先生是中国历代人物传记资料库高级项目经理、北京大学中国古代史中心访问学者、清华大学统计中心访问学者。工作期间开发了OCR结果辅助校对系统、API自动生成工具、Digital Materials cross catalogue query system、KML path generator等工具。      
 
二.讲座内容      
(一)中国历代人物传记资料库(CBDB)      
1.中国历代人物传记资料库(CBDB)概况      

    讲座伊始,王宏甦老师用贺知章《回乡偶书》中迁徙的概念引出本次讲座的主题--数字人文。他从数据库包含的时间信息、数据种类以及数据库的使用方法三个角度对CBDB的具体情况详加说明。从时间上看,数据库中收录的宋代数据完备性最高,明代数据数量最多,对研究宋明两个朝代的学者很有参考价值;从数据种类上看,数据库包含人物数量、传记地址、亲属关系、职官、著作等信息,通过拆分表格、关系数据库-代码表、数据表,可以批量查询指定人物的社会关系;从数据库的使用方法上看,数据库包含离线查询系统、在线查询系统和在线录入系统三个方面。此外,中国历代人物传记资料库和北京邮电大学合作建立了开源录入系统,与上海图书馆建立了关联数据。


 

2.方法论

    王宏甦老师从群体传记学、GIS地理信息系统和SNA社会网络分析三个方面介绍了数字人文研究方法使用的方法论。群体传记学是透过对一群历史人物的生平所做的集体性的研究,探讨其共同背景特征。其方法是先建立一个研究范围,然后就此提出一组相同的问题 ── 包括出生、死亡、婚姻、家庭、社会出身、经济地位、居住地、教育、个人财富与?碓础⒅耙怠⒆诮獭⒒吕?等方面。然后,将此研究范围中所有人物的各类信息加以罗列、组合,通过对这些信息的考察找出具有显著意义的变量。研究者可以检测这些信息的内在相关性,及其与其他行为形式或行动形式的相关性。CBDB通过对一群历史行为人的生平做集体性的研究,探讨这群历史人物共享的背景特征。其方法是先建立一个研究范围,然后就此提出一组相同的问题。例如录入各地地方志数据,建立热力图,可以研究省志和县志互抄的情况,并且可以进一步探讨不同地区官员迁移情况。      
    利用GIS地理信息系统,CBDB实现了中国历代人物传记资料库与地理信息系统的结合。它的核心在于把信息作为图层放在地图上,便于进行分析对比。地理信息系统可以帮助研究者从大量传记资料中归纳一定模式。从中国历史研究的观点而言,中国历史地理信息系统项目(CHGIS)提供了自公元前221年至1911年间行政区划体系的资料,及1820年和1911年时不具行政功能的主要市政资料库。利用ArcGIS或MapInfo(甚至Google Earth)等GIS软件,可以将中国历代人物传记资料库和中国历史地理信息系统项目的资料整合在一起。      
    社会网络分析(Social network analysis, SNA)是历史学家斯通(Lawrence Stone)关于群体传记学方法论讨论的例子之一。Access版本的社会网络分析可以从CBDB导出数据,然后在免费软件Pajek里进行可视化和分析。王宏?d老师以朱熹四代弟子图谱为例,揭示其逐渐衰减的趋势,对于这种与朱子学逐渐占据主流正统地位的历史相悖反的现象,强调了数据库只是对数据进行处理,对数据的解读仍然需要依靠人文学者。      
(二)资源      
    王宏甦老师在讲座的第二大部分介绍了开放的数据资源、文本库和使用资源的平台及工具。      
    开放的数据资源主要包括中国历代人物传记资料库、明清妇女著作(MQWW)和明清人物传记资料库等;文本库包含中国哲学书电子化计划(Ctext)、Kanseki Repository、佛学规范资料库(DDBC)和1000rooms等。其中,王老师详细介绍了中国哲学书电子化计划(Ctext)检索方法的含义,N-gram是一种计算机分词方法,可以把文本中的常用词按频率排列,Regex正则表达式用于模糊检索,Replace则用于替换信息。值得一提的是,中国哲学书电子化计划(Ctext)收录了部分质量不高的文本,但这些文本可以帮助检索者快速寻找所需信息在某本书中的位置,有助于实现知识发现,拓宽我们的视野。平台及工具包括Markus、Docusky、台湾“中研院”数位人文研究平台和GIS地理信息系统等,在中国大陆可以开放使用的平台有搜韵、书格等。此外,使用StanfordNLP、THUNLP、ckiptagger、“中研院”分词、“中研院”平衡语料库、Jieba分词、龙泉寺的标点系统、北师大的标点系统可以实现自然语言处理。最后,王宏甦老师还介绍了“中国历史研究的网络基础设施”国际研讨会,介绍了当前数据库与学术研究的状况。      


    王宏甦老师呼吁人文学者建立起自己的数据库,也希望人文学者可以解读数据“暴力组合”背后反映的问题,将数字人文的研究方法合理的融入自己的研究中。在提问环节,大家就数据库中历史人文英文名的翻译依据、区块链技术能否运用于史料解读等问题展开讨论。

 

 

 撰  稿:陆瑞婷      
摄影人:李京玲        
审  稿:岳丽媛      

 

(责任编辑:admin)