
数字人文与东亚文明:东亚数字人文学术交流会
时间:2025-01-19 来源:中国人民大学澳门赌场在线门户主页 浏览量:
2025年1月10日,中国人民大学中华文明研究院联合中国人民大学数字人文研究院、中国人民大学澳门赌场在线门户主页 举办“数字人文与东亚文明”中韩数字人文学术交流会。来自檀国大学、国立木浦大学、中国人民大学、北京师范大学、及中华书局的老师们参与会议。
会议伊始,中国人民大学中华文明研究院、历史学院院长朱浒老师及檀国大学汉文教育研究所所长、教授金愚正老师发表致辞。朱浒老师表示,当前人文学科的建设需要面对新时代、新科技的挑战。数字人文学科的建设对于开拓传统人文学科的新视野、新思路有重要作用,只有打破学科壁垒、重塑学科面貌,人文学科才能得到新的发展。金愚正老师表示,数字人文学科的建设是包括汉文研究在内的所有人文学科的共同课题,期待中韩两国数字人文工作者通过不断增进对彼此的了解。
金愚正老师首先介绍了檀国大学汉文教育研究所的研究成果。金愚正老师指出,汉字在东亚各国的文字中有不同的书写规范,字体统一性的缺乏对韩国学者研究汉字造成了一定的阻碍。随着数字化转型时代的到来,以光学字符识别(OCR)技术为代表的数字技术处理技术得到了更加广泛的运用。檀国大学汉文教育研究所在2022年开始研发面向个人用户的汉字OCR模型,主要目的为构建“韩国历代汉字字形字典数据库”。由檀国大学汉文教育研究所开发的模型可以从文献图片中将单个汉字分割、识别和数据化,并与字典信息相关联。
“汉字研究”是东亚学术圈的独立的学科之一,同时也是东亚人文学研究的基础知识。然而,在使用韩文的韩国,汉字的研究相对较少。金愚正老师认为,OCR技术在汉字识别领域的应用有助于推动韩国汉字研究的发展。
来自国立木浦大学的郑性勋老师展示了韩国古代汉文文献词汇数据构建及词汇匹配工具开发情况。当前国立木浦大学的研究团队正在开展运用基于人工智能的数据处理技术实现汉文化知识信息结构化的研究,为利用数字分析工具开展实际的人文科学研究提供新的视角。郑性勋老师重点分享了建设词汇匹配工具的方法。研究人员对不同来源的词汇数据进行了规范化再加工和补充,并按照含义属性对词汇进行分类,在此基础上进行匹配工具的建设。匹配工具以句子为单位,对句中词汇进行半自动分析并输出结果,其结果可以用三种方式下载。
来自北京师范大学的李国英老师分享了对汉文古籍数字化的展望。AI时代的技术发展速度快,古籍数字化也必然受其影响。当前汉文古籍的数字化处理面临着数据量少、数据质量差的问题,其中汉字的统一编码是古籍数字化的前提。当前汉字数据库建设的主要目标是对中国国家标准收录的字,从国家需要的角度进行全面系统的整理。李国英老师阐述了数据库项目汉字整理和数字化的具体步骤,并希望用5年左右的时间对汉字进行分类,找出在社会应用中最急迫需要的汉字,为AI时代古籍数字化提供底层、基础的数据资源。
国家图书馆的马学良老师以近期与中国人民大学合作开展的中国古代《大学》文献整理汇编工作切入,介绍了《大学》文献的整理与出版状况。国家图书馆从上世纪80年代开始就开始了大规模的古籍整理与影印工作,在此背景下,当今的古籍的整理影印应向专业化、精细化、集成化的方向发展。马学良老师介绍了《大学》在历史上的地位变迁,指出《大学》文本在中华文化中的重要意义及整理工作的相对缺位是选择《大学》作为整理对象的重要原因。《大学》文献整理汇编将分为宋元编、明代编、清代编、民国编和海外编推出,目前明代编已经集齐全部底本,预计将在今年产出成果。
在中场休息时间,中韩双方老师互相赠送礼品。韩方老师向中方赠送由檀国大学汉文教育研究所出版的《韩国汉字字典》,字典收录了只在韩国使用的汉字,梳理其音义。中方老师向韩方赠送中国人民大学特色纪念品。
在下半场会议中,中国人民大学的夏宸溥老师以自己参与指导的“人类早期刻绘符号与文明起源”创新项目为例,介绍了中国人民大学数字人文人才培养工作的现状。“人类早期刻绘符号与文明起源”创新项目旨在改变这一现状,建立早期文明刻绘符号数据库,对散落在各地的符号进行整合和数字化处理。团队成员以良渚文化刻符为对象,开展了跨学科研究,制作了网页版数据库。未来项目组计划引入机器学习的符号分类功能,对相似的符号进行自动类聚,为研究者拓展研究思路,并与收藏刻符的博物馆开展深度合作,借助高精度的照相和测量设备制作刻符器物的三维全景图片,对刻符的含义及刻符与文字的关系做进一步探讨。
中华书局古联公司的朱翠萍老师介绍了公司作为数字化企业,在数字人文人才培养中扮演的角色。当前数字人文人才培养呈现出从自发培养到自觉培养、从精英化培养培养到通识专业化培养、从研究型人才培养到研究职业复合型人才培养的特点。同时,数字人文人才培养仍面临缺乏权威教材及师资力量、缺乏资金和平台、学科融合不够充分等问题。针对上述问题,古籍出版者应秉持弘扬传统学术的宗旨,推动教材编写和出版,搭建教师培训平台和实验室,并参与其他辅助材料的准备。中华书局古联公司的洪涛老师表示,当前的数字人文基础设施的建设仍处在追赶时代变化的阶段,数字出版企业希望同学术界在利用数字人文技术产产出学术成果方面进行更加密切的合作。
中国人民大学数字人文研究院的严承希老师介绍了数字人文视角下古籍数字化工作现状与未来设想。在建设古籍知识库的过程中,以机器学习和人工智能技术赋能的工具起到了自动化抽取和标注关键信息的重要作用。新开发的数字人文自动标注系统借助深度学习模型,实现了较为准确的自动识别、标点和标注实体的功能,并且可以支持句子级别的标注。在关键词检索领域,知识库平台可以运用大语言模型技术和检索增强生成技术,对与查询词大幅相关的词条进行提示,或以图谱的形式给出与查询词最相关的词汇及词汇间的关系。
本次“数字人文与东亚文明”中韩数字人文学术交流会为中韩两国的数字人文工作者搭建了交流与合作的平台,展示了数字人文在东亚文明研究中的无限潜力与广阔前景。
排版 | 吴梦阳