破解通假字、異體字智能識別困局 國內(nèi)首個秦簡數(shù)據(jù)庫建成@湖南日報頭版

楊元崇   湖南日報   2025-04-21 06:53:48

湖南日報4月20日訊(全媒體記者 楊元崇)吉首大學(xué)今日宣布,由該校陳炳權(quán)教授團隊研發(fā)的國內(nèi)首個系統(tǒng)性秦簡數(shù)據(jù)庫正式建成。該數(shù)據(jù)庫歷時6年攻關(guān),整合湖南、湖北等5省市出土秦簡資源,收錄17269張高清文本圖像,標注115996個字符,涵蓋2847個古文字類別,首次實現(xiàn)秦簡文獻的標準化數(shù)字集成。

針對秦簡字跡模糊、殘損等研究瓶頸,團隊開發(fā)專業(yè)標注系統(tǒng),突破通假字、異體字智能識別技術(shù)。數(shù)據(jù)庫采用現(xiàn)代漢字聲母排序體系,構(gòu)建類《新華字典》智能檢索功能,支持通過拼音聲母精準定位文字圖像及上下文語義。目前已系統(tǒng)完成里耶秦簡、云夢秦簡等全國主要出土文獻的數(shù)字化處理,并與考古機構(gòu)、出版社建立“邊建邊發(fā)布”協(xié)同更新機制,數(shù)據(jù)經(jīng)人工采集、專家校準等7道標準化流程驗證。

秦簡作為記錄秦代政治經(jīng)濟的一手文獻,其數(shù)字化長期受制于文字辨識困難。該數(shù)據(jù)庫通過深度學(xué)習(xí)技術(shù)對模糊字跡進行圖像增強與語義重建,經(jīng)第三方檢測,字符釋讀準確率達專業(yè)研究標準,已支撐國家自然科學(xué)基金項目2項、發(fā)明專利7項,并培養(yǎng)12名文博數(shù)字化骨干人才。

原載于湖南日報2025年4月21日01版

責編:萬枝典

一審:胡澤匯

二審:彭彭

三審:文鳳雛

來源:湖南日報

版權(quán)作品,未經(jīng)授權(quán)嚴禁轉(zhuǎn)載。湖湘情懷,黨媒立場,登錄華聲在線官網(wǎng)www.voc.com.cn或“新湖南”客戶端,領(lǐng)先一步獲取權(quán)威資訊。轉(zhuǎn)載須注明來源、原標題、著作者名,不得變更核心內(nèi)容。

我要問