北师大:训练出“AI太炎”古汉语大语言模型,能够高质量完成古典文献释读

时间:2025-03-31 20:41:00

3月31日,教育部举行新闻发布会介绍深入贯彻落实《教育强国建设规划纲要(2024—2035年)》,推进语言文字信息化发展情况。

会上,北京师范大学党委常委、副校长康震介绍,当前,世界范围内的人工智能技术创新态势和竞争格局加速形成,正在深刻地影响教育的深层次变革。北京师范大学积极探索大语言模型赋能教育教学的关键举措和有效做法,助力教育强国建设。

北京师范大学党委常委、副校长康震

第一,全方位建设关键领域语料库。推动中国特色大语言模型建设离不开大规模高质量的中文语料数据库、数据集。北京师范大学长期致力于数字化赋能关键学科领域研究,建设了通用汉字全息数据库、历代碑刻与手写文字属性资源库、甲骨文拓片资源库等专业数字资源库。研发了中华大字符集、甲骨文小篆字库与国际编码,创建了汉字全息资源应用系统、数字化《说文解字》研究与应用平台、历代碑刻与手写文字数字典藏系统等大型的数字化平台,形成了具有创新性、专业性、权威性特点的语言文字学研究新格局。

第二,全流程自主研发大语言模型。为积极应对以大语言模型为代表的人工智能技术对教育变革带来的新机遇、新挑战,北京师范大学依托文学院、国际中文教育学院、人工智能学院建设的系列大语言模型,取得突出成效。中国文字整理与规范研究中心发挥古籍整理智能化关键技术优势,针对古汉语信息处理任务“低资源”“富知识”的特点,以解决领域知识学习需求为核心任务,使用1.8B(18亿)参数量,训练出理解力强、准确率高、应用场景丰富的“AI太炎”古汉语大语言模型。

据悉,该模型坚持自主可控和安全可信的技术路线,在确保语料来源安全、语料内容安全、语料标注安全、模型安全等基础上,能够高质量完成古典文献释读,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务。该大语言模型处于同领域国际领先地位,受到学界、产业界的好评。截至目前,该模型已广泛应用于海内外的学术科研、基础教育、编辑出版等多个领域,辅助古籍整理、语言研究、语文教育、辞书编纂等应用场景任务。

第三,全融入打造智慧教育新生态。北京师范大学深入推进教育数字化战略,强化科技教育和人文教育协同。一是构建“五方协同、四维融合”的体系,着力打造数智化赋能教育教学新生态。二是探索数智化赋能教育教学新模式。学校“创新‘AI+’课堂教学智能评测”案例入选首批“人工智能+高等教育”应用场景典型案例。三是深化自主开发平台应用。今年新学期,北京师范大学基于本地化部署DeepSeek-R1模型,利用培养方案、教学手册、教学大纲等语料,为本硕博学生共计9958门课程自主研发情景化的智能助教平台。

康震介绍,下一步,北京师范大学将持续推动学科交叉融合和协同创新,强化有组织科研,加快培养复合型人才,推进国家关键领域语料库和智能化关键技术研发,探索大语言模型创新应用新范式。

红星新闻首席记者 吴阳

编辑 杨珒 责编 官莉