AI时代文化遗产可信智慧数据生成——机遇、挑战、有效方法

2025618日,北京科技大学科技史与文化遗产研究院联合北京博物馆学会于逸夫科技馆206会议室举办专题讲座,邀请美国肯特州立大学教授、现任国际知识组织学会(ISKO)董事会理事、国际联盟iSchools数字人文课程委员会(iDHCC)主席曾蕾教授“AI时代文化遗产可信智慧数据生成——机遇、挑战、有效方法为主题,揭示了人工智能技术如何重塑文化遗产的数字化保护与研究范式。

一、从大数据到智慧数据

与传统大数据相比,智慧数据最大的特点在于价值,其旨在过滤掉噪声数据,产生有价值的数据。智慧数据强调数据的可信性、情境化、相关性和可预测性。最终,不是在于你拥有多少数据,而是在于你如何很好地使用这些数据。曾蕾教授阐释了智慧数据的核心价值——“能够从任何规模的可信、情境化、相关切题的数据中获得重大洞察力

她指出,大数据的“5V”特征(规模、速度、多样性、易变性、真实性)在文化遗产领域表现得尤为突出。例如,哈佛大学艺术博物馆通过AI工具已为38.3万件艺术品生成6544万条机器描述标签,涵盖物体识别、面部分析等维度,这些数据正在揭示计算机如何感知《维特鲁威人》这样的经典作品,甚至能推断画作中人物的年龄与情绪。

二、多元场景下的AI实践:从壁画到3D文物的跨维度探索

面对文献中非结构化数据的处理难题,曾蕾教授展示了日本KuroNet项目的突破——通过深度学习OCR技术,该项目实现了对古代“kuzushiji”(草体字)的多字符识别。美国医学图书馆自2022年起,MEDLINE索引的所有期刊均通过AI自动标引完成,标引时间从145天压缩至24小时,机器学习正在改写学术数据处理的效率天花板。

在图像领域,克利夫兰艺术博物馆的ArtLens AI工具让观众通过手机与藏品互动,而MoMA博物馆(纽约现代艺术博物馆)则用AI3万张历史展览照片与在线藏品库关联,原本沉睡在档案中的展览记忆,如今能以可视化方式重现场景。欧盟委员会于2023年通过的EREKA3D项目旨在建立欧洲文化遗产共同数据空间,其构建的智能平台可存储、管理3D文化遗产资产。

在一些意想不到的领域,AI带来了更具有突破性的尝试——英国、欧洲的科学家、历史学家、人工智能专家联手开展的“Odeuropa”项目通过AI筛选七种语言的历史文本,结合图像中的芳香物品识别,试图重现16世纪欧洲的气味。当计算机能理解《花镜》中梅兰竹菊的视觉符号,也能解析古画中隐含的嗅觉信息,文化遗产的数字表达将进入全感官时代。

三、挑战与启示:可信数据生成的技术伦理与未来路径

尽管AI带来了前所未有的机遇,曾蕾教授也强调了我们目前所面临的潜在挑战。一方面,非结构化数据转化为结构化数据时,如何AI标注的可信度如何保证?例如,使用OpenCalais工具对一件元青花梅瓶进行关键词标注,AI工具无可避免的犯了望文生义的分析错误。因此,曾蕾教授指出,我们应关注数字人文研究中的数据伦理AI应服务于人类定义的目标,而非替代人文洞察。以上海图书馆开放数据平台为例,其构建的中文知识组织系统(KOS)整合了人名、地理、古籍刻工等知识库,这种人智协同的模式,才是文化遗产智慧数据生成的可持续路径。

此外,文化遗产资料(从无结构到有结构数据)如何能采用AI赋能的数字技术来生产可信的智慧数据,并揭示未知的知识?曾蕾教授指出,文化遗产保护领域需要关注AI赋能的可信度、准确度和道德观,并有效管理这些挑战。

曾蕾教授的讲座给大家带来了关于AI在文化遗产领域应用的全新认识,在北京博物馆学会副会长祁庆国老师的主持下,北京科技大学黄明玉副教授介绍了中国文物分类主题词表的工作进展,来自国家博物馆、首都博物馆、社科院大学等十余家单位的二十多位专家分享了相关的科研项目进展、经验和问题。AI已经为我们带来了新的可能性和挑战,而AI在文化遗产领域的未来,正是亟待我们探索的未知的未知