摘 要: [目的/ 意義] 通過對民間文學(xué)文本數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別, 有助于民間文學(xué)資料的深度描述和展示, 為構(gòu)建完整的長白山非遺知識(shí)體系夯實(shí)根基。[方法/ 過程] 本研究提出了基于多任務(wù)聯(lián)合學(xué)習(xí)(BERT-BiG?RU-MHA-CRF)的長白山非遺民間文學(xué)實(shí)體抽取模型, 引入雙向門控循環(huán)單元BiGRU 更好地處理實(shí)體在句子中的長序列依賴性, 解決梯度消失問題; 再聯(lián)合多頭自注意力機(jī)制MHA 加強(qiáng)對關(guān)鍵實(shí)體的注意力權(quán)重分配, 從而獲得更好的實(shí)體識(shí)別結(jié)果。[結(jié)果/ 結(jié)論] 通過對比BERT-CRF、BERT-BiLSTM-CRF 主流多任務(wù)聯(lián)合學(xué)習(xí)基準(zhǔn)模型, 本模型對民間文學(xué)命名實(shí)體識(shí)別的準(zhǔn)確率均為最優(yōu), 其精確率達(dá)86.76%。本研究初步實(shí)現(xiàn)了對民間文學(xué)文本的精準(zhǔn)實(shí)體識(shí)別, 有利于對民間文學(xué)資料進(jìn)行深入分析和知識(shí)挖掘, 有助于保護(hù)和傳承長白山文化記憶。
關(guān)鍵詞: 數(shù)字人文; 多任務(wù)聯(lián)合學(xué)習(xí); 預(yù)訓(xùn)練模型; 長白山文化; 民間文學(xué); 實(shí)體識(shí)別
DOI:10.3969 / j.issn.1008-0821.2025.05.003
〔中圖分類號(hào)〕TP391. 1; G250. 2 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2025) 05-0015-09
長白山非遺資源是中國文化的重要組成部分,是吉林省獨(dú)有的標(biāo)志性文化。長白山文化的內(nèi)涵豐富、外延廣闊, 做好長白山文化資源的數(shù)智化開發(fā)、保護(hù)、研究與傳承, 對于實(shí)現(xiàn)吉林文化的繁榮發(fā)展、推動(dòng)?xùn)|北全面振興具有重要的意義。國務(wù)院辦公廳印發(fā)的《“十四五” 文物保護(hù)和科技創(chuàng)新規(guī)劃》中,明確提出加強(qiáng)對非物質(zhì)文化遺產(chǎn)的保護(hù)與傳承。在當(dāng)前信息時(shí)代的高速發(fā)展階段, 如何利用人工智能技術(shù)整合長白山非遺資源, 探索非遺資源在當(dāng)代知識(shí)普及、文化展示、社會(huì)教育等數(shù)智化傳播行為中潛在的巨大價(jià)值, 存在一定挑戰(zhàn)性。
近年來, 越來越多的國內(nèi)外數(shù)字人文研究學(xué)者通過應(yīng)用計(jì)算、統(tǒng)計(jì)等數(shù)據(jù)處理與分析方法, 在如考古學(xué)、文史學(xué)、語言學(xué)、音樂學(xué)等其他的人文學(xué)科領(lǐng)域進(jìn)行跨學(xué)科研究。自然語言處理(NaturalLanguage Processing)是人工智能領(lǐng)域的主要研究方向, 探索如何運(yùn)用計(jì)算技術(shù)(算法)理解和處理人類自然語言文本, 形成結(jié)構(gòu)化的數(shù)據(jù)和知識(shí), 是數(shù)字人文研究的關(guān)鍵技術(shù)支撐。當(dāng)前數(shù)字人文的研究涉及多種自然語言處理任務(wù), 如情感分析[1] 、文本分類[2] 、實(shí)體識(shí)別[3] 、機(jī)器翻譯[4] 和詞性標(biāo)注[5]等。聚焦到非物質(zhì)文化遺產(chǎn)的數(shù)字化開發(fā)與利用研究方面, Barros C 等[6] 以無監(jiān)督的方式預(yù)訓(xùn)練了一個(gè)詞嵌入算法, 用于自動(dòng)解析墨西哥早期殖民的歷史文本和特定地名, 探索歷史語料庫中隱藏的關(guān)聯(lián)事件和故事內(nèi)涵; 胡昊天等[7] 利用RoBERTa 模型構(gòu)建出了基于國家級(jí)非物質(zhì)文化遺產(chǎn)項(xiàng)目申報(bào)文本知識(shí)庫, 為我國非遺文本自動(dòng)分詞方面的研究提供了參考。林立濤等[8] 和吳夢成等[9] 分別對典籍中的動(dòng)物和植物實(shí)體進(jìn)行了命名實(shí)體識(shí)別研究, 為古籍知識(shí)組織提供了新的思路。然而, 針對長白山地區(qū)民間文學(xué)的實(shí)體抽取研究仍相對缺乏深入探討。
民間文學(xué)作為非物質(zhì)文化遺產(chǎn)的重要組成部分,由數(shù)代人民收集和整理而成, 是勞動(dòng)人民集體智慧的結(jié)晶。在非遺資源的智慧化傳承過程中, 對民間文學(xué)資料的描述和展示等步驟涉及相關(guān)實(shí)體概念和特定術(shù)語等, 對其實(shí)體的抽取是構(gòu)建完整的非遺知識(shí)圖譜和知識(shí)庫的關(guān)鍵根基[10] 。民間文學(xué)中的特定術(shù)語構(gòu)成、類別等將決定非物質(zhì)文化遺產(chǎn)資源及后續(xù)研究的深度[11] , 其語言表達(dá)靈活、地域特色鮮明、實(shí)體類別多樣等特點(diǎn)使得傳統(tǒng)實(shí)體抽取方法難以滿足當(dāng)前需求。
基于上述內(nèi)容的啟發(fā), 本研究以長白山非遺資源中的民間文學(xué)為數(shù)據(jù)源, 運(yùn)用自然語言處理中的深度學(xué)習(xí)和預(yù)訓(xùn)練模型等多任務(wù)聯(lián)合學(xué)習(xí)的方法,構(gòu)建基于BERT-BiGRU-MHA-CRF 的長白山非遺民間文化命名實(shí)體識(shí)別模型, 充分發(fā)揮雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, 簡稱BiG?RU)和多頭自注意力機(jī)制(Multi-head Attention, 簡稱MHA)的獨(dú)特優(yōu)勢, 在優(yōu)化了Dropout 層和池化層的同時(shí), 有效避免梯度消失、爆炸等問題, 并運(yùn)用五折交叉驗(yàn)證(5-Fold Cross-validation)的模型訓(xùn)練與評(píng)估方法, 提高了整個(gè)模型的準(zhǔn)確性和穩(wěn)健性,實(shí)現(xiàn)了對長白山地區(qū)民間文學(xué)文本集的高效命名實(shí)體抽取。同時(shí), 對比當(dāng)前主流聯(lián)合學(xué)習(xí)實(shí)體抽取方法, 如BERT-CRF、BERT-BiLSTM-CRF 對本數(shù)據(jù)集的命名實(shí)體識(shí)別的效果, 來驗(yàn)證本研究所提方法的先進(jìn)性和有效性。最后, 本模型的提出有助于民間文學(xué)關(guān)鍵詞的詞表構(gòu)建與畫像的可視化呈現(xiàn), 為民間文學(xué)工作者在各民族民間文化搶救工作中提供有力支持。
1 相關(guān)研究
1. 1 實(shí)體抽取相關(guān)研究進(jìn)展
目前, 自然語言處理領(lǐng)域下的主流信息抽取方法發(fā)展歷程主要從基于規(guī)則的抽取方法、基于傳統(tǒng)的機(jī)器學(xué)習(xí)模型、到基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,演變到多任務(wù)聯(lián)合學(xué)習(xí)模型開發(fā), 再到當(dāng)前基于大語言模型的抽取方法, 相關(guān)研究取得了顯著的進(jìn)展。例如, 在學(xué)術(shù)文獻(xiàn)實(shí)體識(shí)別方面, 章成志等[12] 對比了多種混合模型在學(xué)術(shù)文獻(xiàn)全文中的方法實(shí)體細(xì)粒度抽取效果, 發(fā)現(xiàn)SciBERT+CRF 模型在性能上最為優(yōu)越, 為特定領(lǐng)域的科研方法選擇提供了參考;張穎怡等[13] 研究了基于ChatGPT 的多視角學(xué)術(shù)論文實(shí)體識(shí)別方法, 證明了該方法在F1 值上顯著優(yōu)于傳統(tǒng)的少量樣本訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型, 且在不同學(xué)科領(lǐng)域的學(xué)術(shù)論文數(shù)據(jù)集上表現(xiàn)穩(wěn)定; Wei X 等[14]提出了一個(gè)兩階段的基于ChatGPT 的信息抽取工具Chat IE, 用于命名實(shí)體識(shí)別、關(guān)系抽取和事件抽取任務(wù)。在典籍方面的實(shí)體抽取研究中, 以南京農(nóng)業(yè)大學(xué)為代表的研究團(tuán)隊(duì)分別利用基于SikuRoB?ERTa 預(yù)訓(xùn)練模型和深度學(xué)習(xí)的自然語言處理技術(shù)對典籍動(dòng)物[8] 、先秦典籍植物[9] 、古代中醫(yī)醫(yī)學(xué)文獻(xiàn)[15] 、古代農(nóng)作物時(shí)間分布特征[16] 等實(shí)體識(shí)別任務(wù)進(jìn)行深入的探討與分析, 形成了完整的典籍知識(shí)組織與知識(shí)挖掘研究體系。此外, 以吉林大學(xué)為代表的研究團(tuán)隊(duì)運(yùn)用混合深度學(xué)習(xí)方法構(gòu)建了面向藏醫(yī)古籍的實(shí)體命名識(shí)別抽取模型[17] , 彌補(bǔ)了藏醫(yī)古籍的知識(shí)組織開發(fā)不足的現(xiàn)狀, 并實(shí)現(xiàn)了藏醫(yī)古籍深層次的知識(shí)發(fā)現(xiàn)[18] 。雖然大規(guī)模語言模型在復(fù)雜垂直領(lǐng)域的實(shí)體抽取任務(wù)中展現(xiàn)出強(qiáng)大的潛能, 但是如何有效利用大模型并權(quán)衡性能、成本和可解釋性仍是未來研究的重要方向。
1. 2 非遺資源實(shí)體抽取研究現(xiàn)狀
針對非遺資源的實(shí)體抽取的相關(guān)研究, 以南京大學(xué)為代表的研究團(tuán)隊(duì)通過融合自然語言處理技術(shù),在中國民歌情感識(shí)別[19] 、古典詩歌意象術(shù)語抽?。郏玻埃?、非遺陶瓷工藝術(shù)語抽取[21] 等非物質(zhì)文化遺產(chǎn)項(xiàng)目中進(jìn)行語料的術(shù)語抽取及新詞發(fā)現(xiàn), 形成獨(dú)特的術(shù)語庫, 以便后續(xù)數(shù)字人文領(lǐng)域內(nèi)相關(guān)研究的開展與理論實(shí)踐[22] 。在文學(xué)領(lǐng)域的實(shí)體抽取相關(guān)研究中,賈玉祥等[23] 提出, 融入篇章信息的命名實(shí)體識(shí)別模型, 對金庸小說中的四類實(shí)體進(jìn)行高效識(shí)別, 體現(xiàn)了人文領(lǐng)域?qū)嶓w識(shí)別的研究應(yīng)用價(jià)值; Barros C 等[24]利用有監(jiān)督機(jī)器學(xué)習(xí)的二元分類任務(wù), 對童話故事中的人物角色進(jìn)行實(shí)體識(shí)別; 郭順利等[25] 基于BERTBiLSTM-CRF 模型和改進(jìn)的Apriori 算法實(shí)現(xiàn)了對游記文本的關(guān)聯(lián)知識(shí)挖掘及聚合。
然而, 當(dāng)前在文學(xué)領(lǐng)域命名實(shí)體識(shí)別的研究尚未形成完整體系, 研究力度相對薄弱, 主要原因在于高質(zhì)量的訓(xùn)練語料以及算力資源匱乏等。以往傳統(tǒng)的民間文學(xué)工作者多數(shù)通過傳統(tǒng)閱讀和手頭分析的方法對民間文學(xué)進(jìn)行分析, 大部分研究存在主觀判定的問題, 缺乏全面、客觀、條理的數(shù)據(jù)和文本分析, 導(dǎo)致出現(xiàn)對民間文學(xué)語義理解不深入、文化價(jià)值挖掘不到位等情況。目前普遍流行的實(shí)體識(shí)別算法對民間文學(xué)文本中的部分俗語、方言、特定地名、虛擬神話人名等實(shí)體的識(shí)別不夠精準(zhǔn), 難以有效解決民間文學(xué)語言復(fù)雜性所帶來的研究瓶頸。對于像民間文學(xué)這樣的口述歷史, 其獨(dú)特的敘事方式客觀上造成了高質(zhì)量訓(xùn)練語料的不足, 導(dǎo)致現(xiàn)有的命名實(shí)體識(shí)別模型對民間文學(xué)實(shí)體的高效準(zhǔn)確識(shí)別存在一定的挑戰(zhàn)。同時(shí), 當(dāng)前對口述歷史資源進(jìn)行知識(shí)組織的相關(guān)研究[26] 大多運(yùn)用傳統(tǒng)的知識(shí)圖譜構(gòu)建流程, 無法全面地挖掘、分析目標(biāo)語料的深層次價(jià)值。
1. 3 相關(guān)研究評(píng)述
綜上所述, 雖然大部分?jǐn)?shù)字人文相關(guān)研究(如古籍、中醫(yī)等方面)證實(shí)了多任務(wù)聯(lián)合學(xué)習(xí)在各自特定領(lǐng)域的實(shí)體識(shí)別任務(wù)中發(fā)揮了潛在的優(yōu)勢, 但是此類研究多數(shù)基于傳統(tǒng)CNN 模型聯(lián)合長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)的方法, 實(shí)體識(shí)別效果仍有較大的提升空間。在模型訓(xùn)練方面, 大多數(shù)研究都按照傳統(tǒng)的8 ∶1 ∶1的比例隨機(jī)劃分訓(xùn)練集、驗(yàn)證集和測試集, 影響最終模型的識(shí)別效果。為了解決單一卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶(LSTM)網(wǎng)絡(luò)在提取文本特征時(shí)無法確定文本中每個(gè)實(shí)體的重要性以及時(shí)間復(fù)雜度高的問題, 彌補(bǔ)當(dāng)前研究鑒于民間文學(xué)領(lǐng)域命名實(shí)體識(shí)別研究領(lǐng)域的不足, 本研究旨在融合雙向門控循環(huán)單元(BiGRU)和多頭自注意力機(jī)制(MHA)構(gòu)建專屬民間文學(xué)命名實(shí)體識(shí)別模型,同時(shí)運(yùn)用五折交叉驗(yàn)證的模型訓(xùn)練與評(píng)估方法, 有利于高效精準(zhǔn)識(shí)別民間文學(xué)文本中的實(shí)體, 有利于對民間文學(xué)資料進(jìn)行深入分析和知識(shí)挖掘, 有利于進(jìn)一步完善口述歷史資源體系, 保護(hù)和傳承東北文化記憶。
2 研究方法
2. 1 研究框架
本研究旨在為民間文化機(jī)構(gòu)開展文化遺產(chǎn)資源智慧性保護(hù)與傳承工作提供決策支持, 提取長白山非遺資源內(nèi)容中潛藏的中華文化元素、符號(hào)和標(biāo)識(shí),為今后開展文化遺產(chǎn)數(shù)據(jù)開發(fā)利用工作提供可參考路徑。在此基礎(chǔ)上提出了本研究框架, 包括民俗文本語料處理、BERT-BiGRU-MHA-CRF 模型、實(shí)體識(shí)別模型評(píng)估3 個(gè)模塊。
2. 2 模型提出
作為口述歷史資源的一種, 民間文學(xué)通常包含獨(dú)特的語言和結(jié)構(gòu)特征[27] , 其故事情節(jié)往往跨越多個(gè)句子, 存在較長的語義跨度, 且包含大量特定的人物、地名、物品等實(shí)體類別, 要求模型能夠處理長距離的上下文依賴關(guān)系, 并有效識(shí)別各類實(shí)體。相比于傳統(tǒng)的LSTM, GRU 在處理長序列時(shí)表現(xiàn)更佳, 能更好地捕獲長距離依賴, 雙向GRU 可以同時(shí)考慮前后文信息, 這對于識(shí)別跨句子出現(xiàn)的實(shí)體(如人名、地名等)尤為重要。因此, 本研究針對民間文學(xué)內(nèi)容的特殊性, 提出了有針對性的命名實(shí)體識(shí)別方法, 即基于BERT-BiGRU-MHA-CRF 的長白山非遺民間文學(xué)領(lǐng)域的實(shí)體抽取模型。通過融合基于BERT 的雙向循環(huán)單元BiGRU 和多頭自注意力機(jī)制MHA 的模型, 以提高實(shí)體抽取的高效性與準(zhǔn)確性。為此, 本研究所提出的方法解決了短文本實(shí)體識(shí)別向量化的挑戰(zhàn)。與只考慮單向信息的傳統(tǒng)語言模型不同, 所提出的BERT 模型是一種雙向建模語言模型, 同時(shí)捕捉上下文中的信息, 使得生成的詞向量更富語義。此外, BiGRU-MHA 網(wǎng)絡(luò)層有效過濾了有限文本空間內(nèi)的重要信息, 并為過濾后的詞向量分配不同的權(quán)重, 以增強(qiáng)其“關(guān)注力”,這樣的融合共同提高了命名實(shí)體識(shí)別模型的性能。
BERT-BiGRU-MHA-CRF 模型的架構(gòu)如圖2 所示, 分為輸入層、BERT 編碼層、BiGRU 層、Multihead-ATT 層、全連接層、CRF 層和輸出層。①在輸入層中, 輸入句子中的每個(gè)詞都通過嵌入函數(shù)轉(zhuǎn)為詞向量, 其中原始詞向量代表BERT 的輸入。②在BERT 編碼層中, 原始詞向量通過雙流自我關(guān)注進(jìn)行處理, 并在兩個(gè)通道中同時(shí)計(jì)算向量: 內(nèi)容流和查詢流。由于查詢流包含位置信息, 因此在預(yù)測過程中用作BERT 的輸出。③BiGRU 層用于提取深層實(shí)體特征, 它包含前向和后向的GRU。通過BiG?RU, 詞向量可以更全面地學(xué)習(xí)上下文之間的關(guān)系并進(jìn)行語義編碼。④Multi-head-ATT 層為不同的詞向量分配對應(yīng)的概率權(quán)重, 以進(jìn)一步提取文本特征并突出文本的關(guān)鍵信息。⑤全連接層將前層(卷積、池化等層) 計(jì)算得到的特征空間映射樣本標(biāo)記空間。⑥最后, 輸出層是一個(gè)CRF 連接層, 并使用Softmax 函數(shù)提供命名實(shí)體識(shí)別結(jié)果。接下來, 筆者將討論BERT-BiGRU-MHA-CRF 模型主要模塊在民間文學(xué)領(lǐng)域的優(yōu)勢所在。
1) BERT[28] 。深度預(yù)訓(xùn)練語言模型是一種基于大規(guī)模無監(jiān)督語料, 通過自監(jiān)督的方式訓(xùn)練而得到的含有語料中詞法、句法、上下文信息的語義表示模型?;冢拢牛遥?是一種只需要提取輸入文本序列的語義關(guān)系的預(yù)訓(xùn)練模型, 因此其優(yōu)勢在于模型的主要結(jié)構(gòu)由Transformer 的編碼器組成。本研究使用的是12 層BERT BASE 模型, 由12 個(gè)編碼器的堆棧構(gòu)成。此外, Transformer 是基于注意力機(jī)制的深度網(wǎng)絡(luò), 有助于后續(xù)多頭自注意層的文本處理。
2) BiGRU[29] 。門控循環(huán)單元(GRU)是一種輕量級(jí)的循環(huán)神經(jīng)網(wǎng)絡(luò), 由于其內(nèi)部的門結(jié)構(gòu)而與其他神經(jīng)網(wǎng)絡(luò)有所不同。BiGRU 的核心引入了門控機(jī)制來動(dòng)態(tài)控制信息流, 通過更新門和重置門的協(xié)同作用, 在建模長距離依賴關(guān)系方面具有獨(dú)特的優(yōu)勢。這種獨(dú)特的結(jié)構(gòu)使網(wǎng)絡(luò)能夠確定民間文學(xué)各實(shí)體間的相關(guān)性, 既促進(jìn)了網(wǎng)絡(luò)內(nèi)的有效數(shù)據(jù)傳輸,也有效地控制了冗余信息。本研究利用雙向門控循環(huán)單元(BiGRU)有助于提取更有效的實(shí)體特征, 這些特征可以通過隱藏層并使用注意力機(jī)制關(guān)注當(dāng)前和先前的狀態(tài), 為重要信息提供不同的權(quán)重, 從而增強(qiáng)對重要信息的“關(guān)注”, 進(jìn)而提高詞向量的質(zhì)量和命名實(shí)體判斷的準(zhǔn)確性。
3) Multi-head ATT[30] 。多頭自注意力機(jī)制是傳統(tǒng)注意力機(jī)制的改進(jìn), 減少了對外部信息的依賴,更擅長捕獲數(shù)據(jù)信息的內(nèi)部關(guān)聯(lián)。展開來講, MHA機(jī)制首先將輸入序列映射為多個(gè)子空間, 然后分別應(yīng)用自注意力機(jī)制學(xué)習(xí)序列中不同位置的相關(guān)性,最后將多個(gè)子空間的輸出拼接起來形成最終的特征表示。本文通過引入自注意力機(jī)制層來重新分配經(jīng)Bi-GRU 處理的輸出向量的權(quán)重。這種方法可以有效避免Bi-GRU 層的輸出向量直接傳遞到全連接層而導(dǎo)致的特征信息浪費(fèi), 并間接提高模型捕獲關(guān)鍵信息的能力, 提高模型的預(yù)測效率。因此, 本研究利用多頭自注意力機(jī)制, 關(guān)注民間文學(xué)本身中的重要的實(shí)體或組合, 有助于提高模型的性能。
4) CRF[31] 。條件隨機(jī)場是一種判別概率模型。CRF 具有強(qiáng)大的推理能力, 可以充分利用上下文信息, 通過相鄰標(biāo)簽之間的關(guān)系得到最優(yōu)的預(yù)測序列。本文將CRF 層與BiGRU-MHA 層相連接, 結(jié)合BiG?RU-MHA 獲取信息的優(yōu)勢, 獲得更好的預(yù)測序列。
2. 3 數(shù)據(jù)來源與預(yù)處理
中國民間故事集成通過全國范圍普查, 遵循“科學(xué)性、全面性、代表性” 的編纂原則, 基本能夠全面反映中國民間故事狀況, 具有一定的權(quán)威性。鑒于長白山在我國境內(nèi)的行政區(qū)劃隸屬吉林省內(nèi),本研究以《中國民間故事集成———吉林卷》為數(shù)據(jù)來源, 彰顯獨(dú)具北方民族特色的長白山區(qū)域文化[32] 。該數(shù)據(jù)集是中國民間文學(xué)集成全國編輯委員會(huì)、中國民間文學(xué)集成吉林卷編輯委員會(huì)編纂的地方志。該故事集成囊括長白山民間文學(xué)集合, 具有全面性和科學(xué)性。本研究通過對《中國民間故事集成———吉林卷》的電子掃描版進(jìn)行OCR 文本識(shí)別, 形成原始語料庫, 并進(jìn)行專業(yè)人工校對, 剔除錯(cuò)字、重復(fù)字詞、無關(guān)格式等, 確保高質(zhì)量的語料構(gòu)建, 為模型高效訓(xùn)練夯實(shí)基礎(chǔ)。經(jīng)篩查, 共收集了289 篇有關(guān)長白山地區(qū)的民間文學(xué)。
2. 4 實(shí)體類別定義與標(biāo)注
以民間文學(xué)為文本數(shù)據(jù)的命名實(shí)體是具有特定意義的實(shí)體, 主要包括人物、地點(diǎn)、組織、專有名詞等?!吨袊耖g故事集成》中常見的文學(xué)類別, 多數(shù)由神話、傳說、人物傳記、動(dòng)植物傳說等構(gòu)成。民間文學(xué)作品篇幅簡短, 各類實(shí)體的表述如人物集合、親屬稱謂、籠統(tǒng)地點(diǎn)、物品統(tǒng)稱等均在實(shí)體標(biāo)注的范圍, 以確保對故事內(nèi)容當(dāng)中關(guān)鍵實(shí)體的提取。鑒于當(dāng)前民間文學(xué)研究領(lǐng)域尚未形成專有的實(shí)體詞表可供參考, 為此筆者邀請了在數(shù)字人文領(lǐng)域內(nèi)從事民間文學(xué)研究的3 位專家。專家A 和B 均是某知名大學(xué)數(shù)字人文領(lǐng)域的專家, 在非遺資源開發(fā)與利用方面的研究有超過15 年的經(jīng)驗(yàn), 專家C 是省級(jí)民間文學(xué)學(xué)會(huì)主席, 曾主持多個(gè)國家級(jí)社科基金,多以民間文學(xué)研究領(lǐng)域?yàn)橹?。這3 位專家的多元背景確保了實(shí)體類別定義的全面性和準(zhǔn)確性。通過與3 位專家進(jìn)行實(shí)體類別的討論, 總結(jié)了民間文學(xué)特有的命名實(shí)體類別, 即人物、地點(diǎn)、物品、動(dòng)物、植物5 種專有實(shí)體類別, 如表1 所示。根據(jù)本研究所提出的民間文學(xué)實(shí)體類別, 在開源文本標(biāo)注平臺(tái)針對預(yù)處理過的語料進(jìn)行人工高質(zhì)量標(biāo)注。為確保數(shù)據(jù)標(biāo)注的質(zhì)量, 首先, 對3 位全日制信息資源管理碩士研究生進(jìn)行了標(biāo)注前培訓(xùn), 確保充分理解標(biāo)注規(guī)則與要求; 其次, 采取雙重預(yù)標(biāo)注方式, 對前10 篇文本進(jìn)行獨(dú)立標(biāo)注, 然后進(jìn)行對比, 對于存在分歧的標(biāo)注, 由上述3 位專家進(jìn)行審核和最終決策;第三, 以修訂后的標(biāo)注規(guī)范為依據(jù), 進(jìn)行剩余文本的正式標(biāo)注; 最后, 依據(jù)標(biāo)注工具所提供的一致性檢驗(yàn)功能, 得出本次數(shù)據(jù)的標(biāo)注一致性(CohensKappa 系數(shù))均達(dá)到了0. 85 以上, 確保了標(biāo)注數(shù)據(jù)的高質(zhì)量。
本研究團(tuán)隊(duì)進(jìn)行為期15 天的標(biāo)注與校對任務(wù),標(biāo)簽體系采用序列標(biāo)注集合{B,I,E,S,O}來識(shí)別民間文學(xué)實(shí)體, 最終共標(biāo)注了14 787個(gè)有效實(shí)體, 其中人物實(shí)體5 923個(gè), 地點(diǎn)實(shí)體2 289個(gè), 物品實(shí)體2 796個(gè), 動(dòng)物實(shí)體2 515個(gè), 植物實(shí)體1 264個(gè), 形成了長白山民間文學(xué)標(biāo)注語料庫。
3 實(shí)驗(yàn)與結(jié)果分析
3. 1 實(shí) 驗(yàn)
3. 1. 1 實(shí)驗(yàn)設(shè)定
實(shí)驗(yàn)基于遠(yuǎn)程A800 服務(wù)器運(yùn)行, 其操作系統(tǒng)為Ubuntu20. 04."5 LTS, GPU 為NVIDIA GeForceRTX 3090, 顯存為24GB, 開發(fā)語言為Python3. 8,基于Pytorch 框架開發(fā)。在長白山民間文學(xué)實(shí)體抽取實(shí)驗(yàn)中, 選取BERT-CRF 和BERT-BiLSTM-CRF 模型作為基線模型, 本模型的關(guān)鍵超參數(shù)設(shè)置數(shù)值如表2 所示。不同于傳統(tǒng)的模型數(shù)據(jù)集訓(xùn)練方式, 即按照8 ∶1 ∶1的比例隨機(jī)劃分訓(xùn)練集、驗(yàn)證集和測試集來進(jìn)行模型的訓(xùn)練, 本次實(shí)驗(yàn)的訓(xùn)練方式運(yùn)用五折交叉驗(yàn)證[33](5-Fold Cross-validation)評(píng)估方法,將原始民間文學(xué)文本數(shù)據(jù)集分成5 個(gè)相等大小的子集(或折疊), 利用4 個(gè)子集作為訓(xùn)練集訓(xùn)練模型,而剩下的1 個(gè)子集用于測試模型。通過5 次重復(fù)訓(xùn)練, 每次選擇不同的1 個(gè)子集作為測試集, 其余的作為訓(xùn)練集。最后, 將5 次的性能評(píng)估結(jié)果取平均值以得到最終評(píng)估結(jié)果, 從而高效評(píng)估模型的性能和泛化能力。
3. 1. 2 基準(zhǔn)模型選擇
為驗(yàn)證本研究所提出的模型在長白山非遺民間文學(xué)文本集中對各類實(shí)體知識(shí)的準(zhǔn)確性和有效性,選取了以下主流模型BERT-CRF 和BERT-BiLSTMCRF進(jìn)行對比實(shí)驗(yàn)。①BERT-CRF 模型: 此模型架構(gòu)由1 個(gè)BERT 模型和1 個(gè)token 分類器組成, 通過BERT 編碼進(jìn)行語義信息的輸入, 再通過線性CRF 用于從非結(jié)構(gòu)化文本數(shù)據(jù)中識(shí)別和提取命名實(shí)體。②BERT-BiLSTM-CRF 模型[34] : 此模型首先將預(yù)先訓(xùn)練好的語言模型用作BiLSTM-CRF 模型的詞嵌入層, 然后使用帶有CRF 層的BiLSTM 層對原文進(jìn)行標(biāo)記, 進(jìn)而得到預(yù)測的實(shí)體分割結(jié)果, 最后利用監(jiān)督學(xué)習(xí)方法對分詞結(jié)果進(jìn)行迭代學(xué)習(xí), 從而提高模型的性能, 獲得準(zhǔn)確的分詞結(jié)果。
3. 1. 3 測評(píng)指標(biāo)選擇
在命名實(shí)體識(shí)別中最常用的指標(biāo)是準(zhǔn)確率、精確度、召回率和F1 分?jǐn)?shù)。其中, 準(zhǔn)確率最為簡單直觀, 是指正確預(yù)測的實(shí)例數(shù)與實(shí)例總數(shù)之比。精確度是指預(yù)測正確的實(shí)體數(shù)與預(yù)測實(shí)體總數(shù)之比。召回率是指正確預(yù)測的實(shí)體數(shù)量與所有實(shí)體總數(shù)的比率。F1 分?jǐn)?shù)是準(zhǔn)確率和召回率的調(diào)和平均值。在這4 個(gè)指標(biāo)中, 精確度會(huì)遇到各類型實(shí)例比例不均的情況, 這將導(dǎo)致精確度容易受到大比例實(shí)例的影響。因此, 本研究在長白山非遺民間文學(xué)資源實(shí)體抽取模型的評(píng)價(jià)指標(biāo)中選擇精確度(P)、召回率(R)和F1 分?jǐn)?shù)作為評(píng)價(jià)模型的指標(biāo), 如式(1) 所示:
其中, Tp 表示為正確預(yù)測的實(shí)體數(shù)量, Fp 表示為錯(cuò)誤預(yù)測的實(shí)體數(shù)量, FN 表示實(shí)際上屬于這個(gè)實(shí)體類別但被預(yù)測為不屬于這個(gè)實(shí)體類別的數(shù)量。
3. 2 結(jié)果分析
3. 2. 1 各模型整體實(shí)體識(shí)別效果分析
對比模型評(píng)估結(jié)果, 各模型在長白山非遺民間文學(xué)領(lǐng)域的命名實(shí)體識(shí)別預(yù)測任務(wù)中表現(xiàn)出不同的識(shí)別性能, 如表3 所示。在民間文學(xué)實(shí)體識(shí)別任務(wù)中, 本研究所運(yùn)用的多任務(wù)聯(lián)合學(xué)習(xí)模型在精確率P、召回率R 和F1 值分別達(dá)到86. 76%、84. 07%和85. 39%, 表明本模型的綜合性能均優(yōu)于其他兩種模型。與僅使用CRF 相比, BiLSTM-CRF 模型和BiGRU-CRF 模型的識(shí)別效果得到了大幅度提升。這是因?yàn)椋拢椋蹋樱裕停茫遥?模型和BiGRU-CRF 模型都屬于雙向循環(huán)神經(jīng)網(wǎng)絡(luò), 能夠同時(shí)從輸入序列的兩端出發(fā)來捕捉上下文信息, 學(xué)習(xí)整個(gè)句子的特征, 從而識(shí)別出更多的實(shí)體。此外, 基于BiGRU-CRF 模型在引入多頭自注意力機(jī)制后, 對比BiLSTM-CRF 模型, 其準(zhǔn)確率和召回率得到了明顯的提高, 整體F1值提升了8. 73%。因此, 在本模型引入自注意力機(jī)制后, 對文本實(shí)體關(guān)鍵特征的強(qiáng)化, 使得準(zhǔn)確率、召回率和F1 值得到了大幅度的提升, 可以使下級(jí)識(shí)別任務(wù)表現(xiàn)得更好, 體現(xiàn)出本模型的優(yōu)勢所在。
3. 2. 2 各模型對不同實(shí)體類型識(shí)別效果分析
在對比完各模型的整體識(shí)別結(jié)果之后, 分析各模型對不同實(shí)體類別的識(shí)別效果也至關(guān)重要。由表4可得出, 本模型在各個(gè)實(shí)體類別上的識(shí)別效果, 即精確度、召回率和F1 值均高于其他兩個(gè)模型, 證實(shí)了本模型的高效實(shí)體識(shí)別效果。在細(xì)粒度的效果分析下, 本模型在“人物” 實(shí)體類別上的預(yù)測效果最佳, 其F1 值為75 42%。其次是“物品” 類別,其F1 值為72. 78%。主要原因在于單個(gè)民間文學(xué)的構(gòu)成以人物和物品居多, 其他實(shí)體類別的占比相對較低, 導(dǎo)致其他實(shí)體類別的實(shí)體數(shù)量偏少, 存在降低實(shí)體分類能力。
3. 2. 3 最優(yōu)模型的錯(cuò)誤識(shí)別實(shí)例分析
1) 實(shí)體邊界識(shí)別錯(cuò)誤
例句1: 原文: “長白山天池是朝鮮族的圣地”。
錯(cuò)誤識(shí)別: [長白山]: 地點(diǎn); [天池]: 地點(diǎn)
正確識(shí)別: [長白山天池]: 地點(diǎn)
在例句1 中, 模型將“長白山” 和“天池” 錯(cuò)誤地分割為兩個(gè)獨(dú)立的地點(diǎn)實(shí)體, 未能識(shí)別它們共同構(gòu)成一個(gè)完整的地名。
2) 實(shí)體類別混淆
例句2: 原文: “黃郎中說: 你光知道江里三寶有三花, 鳊花、鯽花和鱉花”。
錯(cuò)誤識(shí)別: [鳊花]植物; [鯽花]植物; [鱉花]植物
正確識(shí)別: [鳊花]動(dòng)物; [鯽花]動(dòng)物; [鱉花]動(dòng)物
在例句2 中, 模型將帶有花的詞語錯(cuò)誤地歸類為植物類別, 未能準(zhǔn)確識(shí)別其作為當(dāng)?shù)靥厣聂~類品種。
3) 罕見實(shí)體識(shí)別失敗
例句3: 原文: “他到哪兒, 哪疙瘩棒槌就多”。
錯(cuò)誤識(shí)別: 未識(shí)別出任何實(shí)體
正確識(shí)別: [棒槌]植物
在例句3 中, 模型未能識(shí)別出“棒槌” 這一在長白山民間文學(xué)中人參的別稱, 該實(shí)體在通用文學(xué)作品中是相對比較罕見的植物實(shí)體。
基于以上的錯(cuò)誤識(shí)別實(shí)例分析, 本研究提出了以下改進(jìn)建議: 首先, 在優(yōu)化實(shí)體邊界的識(shí)別過程中, 可通過引入基于規(guī)則的后處理步驟, 如利用地名詞典輔助校正地名實(shí)體的邊界, 并在預(yù)訓(xùn)練階段加入更多此類樣本來增強(qiáng)模型對復(fù)合地名的學(xué)習(xí);其次, 在改進(jìn)實(shí)體類別的分類方面, 構(gòu)建特定領(lǐng)域(如長白山民間文學(xué))的實(shí)體詞典, 輔助模型識(shí)別罕見或地區(qū)特色專有實(shí)體; 最后, 引入上下文語義深度理解, 進(jìn)一步優(yōu)化注意力機(jī)制, 使模型能更好地捕捉長距離語義依賴, 從而理解實(shí)體在整個(gè)故事情節(jié)中的角色和屬性。
3. 2. 4 綜合結(jié)果分析
從以上結(jié)果分析來看, 基于BiGRU 的本模型在所有實(shí)體類別上的F1 值都高于采用BiLSTM 的基準(zhǔn)模型, 證實(shí)了BiGRU 在建模長距離依賴關(guān)系方面的優(yōu)勢。其主要原因在于, 在民間文學(xué)命名實(shí)體識(shí)別任務(wù)中, 故事情節(jié)往往跨越多個(gè)句子, 存在較長的語義跨度。BiGRU 的機(jī)理恰好能夠處理這種長距離的上下文依賴關(guān)系。例如, 在識(shí)別人物實(shí)體的過程中, 人名可能在前后多個(gè)句子中多次出現(xiàn),BiGRU 通過更好地利用這些跨句子的上下文線索,準(zhǔn)確地將分散出現(xiàn)的人名歸類為同一個(gè)實(shí)體。類似地, 對于識(shí)別物品、動(dòng)物、植物等實(shí)體類別, BiG?RU 也能夠挖掘相隔較遠(yuǎn)的上下文詞之間的語義聯(lián)系, 提高識(shí)別的準(zhǔn)確性。特別是對于人物、地點(diǎn)等在故事中頻繁出現(xiàn)、語義跨度大的實(shí)體類別, BiG?RU 的識(shí)別性能提升更為顯著。這表明BiGRU 能夠更好地適應(yīng)民間文學(xué)的語言特點(diǎn), 充分挖掘上下文信息, 提高命名實(shí)體識(shí)別的整體性能。相比之下,BiLSTM 雖然也能捕獲雙向的上下文信息, 但在處理長序列時(shí)容易出現(xiàn)梯度消失的問題, 導(dǎo)致難以建模長期依賴關(guān)系。同時(shí), BiLSTM 對前后信息的利用效率相對較低, 容易受到近距離上下文的主導(dǎo), 而忽略了距離較遠(yuǎn)的關(guān)鍵信息。這可能是導(dǎo)致BiL?STM 在處理長篇民間故事時(shí)識(shí)別性能不如BiGRU的主要原因。
本模型加入多頭自我注意力機(jī)制MHA, 重點(diǎn)關(guān)注故事語句本身包含的重要的命名實(shí)體或組合, 從多個(gè)角度提取實(shí)體的判別性特征, 有助于提高整體模型的擬合能力。以地點(diǎn)實(shí)體為例, 地名通常與特定的方位詞、場景描述等緊密相連。MHA 機(jī)制優(yōu)勢在于自動(dòng)關(guān)注圍繞實(shí)體的上下文詞, 減輕無關(guān)詞的干擾, 從而提高地點(diǎn)實(shí)體的識(shí)別準(zhǔn)確率。相比之下, 傳統(tǒng)的注意力機(jī)制缺乏對不同角度特征的考慮, 容易受到數(shù)據(jù)噪聲的影響。因此, 本研究選用BERT-BiGRU-MHA-CRF 作為長白山民間文學(xué)實(shí)體抽取任務(wù)的模型。
綜上所述, BiGRU 和MHA 的融合使得本模型能夠在雙向序列特征提取和自適應(yīng)權(quán)重分配這兩個(gè)方面實(shí)現(xiàn)傳統(tǒng)多任務(wù)聯(lián)合模型的優(yōu)化, 極大地提升了對民間文學(xué)文本中各類實(shí)體的識(shí)別能力。特別是對于語義復(fù)雜, 上下文依賴性強(qiáng)的人物、地點(diǎn)等實(shí)體類別, 展現(xiàn)出了明顯的性能優(yōu)勢, 通過這些細(xì)粒度的結(jié)果分析進(jìn)一步驗(yàn)證了本文模型的有效性和先進(jìn)性。
4 結(jié) 論
在數(shù)字時(shí)代, 借助新興的數(shù)字技術(shù)實(shí)現(xiàn)文化數(shù)據(jù)資源的創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展, 已經(jīng)成為凝聚民族認(rèn)同、繁榮學(xué)術(shù)研究、促進(jìn)文化傳播、助推產(chǎn)業(yè)升級(jí)、構(gòu)建人類命運(yùn)共同體的重大戰(zhàn)略需求。本研究通過構(gòu)建基于BERT-BiGRU-MHA-CRF 的長白山非遺民間文學(xué)領(lǐng)域?qū)嶓w抽取模型, 在實(shí)驗(yàn)階段對比以BiLSTM 為主的多任務(wù)聯(lián)合學(xué)習(xí)模型, 證實(shí)了以BiGRU-MHA 為主的模型的先進(jìn)性、高效性、準(zhǔn)確性, 以更好地處理長序列依賴性和有效避免梯度消失的問題。本模型通過精準(zhǔn)識(shí)別民間文學(xué)中的人物、地點(diǎn)、物品、動(dòng)植物等關(guān)鍵實(shí)體要素, 為挖掘長白山地區(qū)豐富的民間文學(xué)資源奠定了基礎(chǔ)。在實(shí)踐應(yīng)用方面, 通過系統(tǒng)梳理這些散落在民間故事中的文化元素, 可以更全面地認(rèn)識(shí)和理解長白山獨(dú)特的地域文化特色, 為文旅資源的創(chuàng)新性開發(fā)利用提供素材和靈感, 以促進(jìn)文旅產(chǎn)業(yè)與其他產(chǎn)業(yè)的深度融合[35] 。同時(shí), 也為未來文化工作, 如民間文學(xué)文化領(lǐng)域?qū)I(yè)術(shù)語庫的構(gòu)建、文化領(lǐng)域內(nèi)專業(yè)信息檢索、文化領(lǐng)域內(nèi)知識(shí)整合等提供了路徑指南。在接下來的研究中, 筆者會(huì)增加相關(guān)高質(zhì)量民間文學(xué)數(shù)據(jù), 繼續(xù)訓(xùn)練實(shí)體識(shí)別模型, 從而達(dá)到更精準(zhǔn)的識(shí)別效果; 重點(diǎn)持續(xù)關(guān)注在長白山地區(qū)不同非遺資源的知識(shí)組織與知識(shí)挖掘的方法探討與理論實(shí)踐, 為全面振興東北、保護(hù)和傳承長白山文化作出相應(yīng)的貢獻(xiàn)。
參考文獻(xiàn)
[1] Tunca S, Sezen B, Wilk V. An Exploratory Content and Senti?ment Analysis of the Guardian Metaverse Articles Using Leximancerand Natural Language Processing [J]. Journal of Big Data, 2023,10 (1): 82.
[2] 秦賀然, 劉瀏, 李斌, 等. 融入實(shí)體特征的典籍自動(dòng)分類研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3 (9): 68-76.
[3] Erdmann A, Wrisley D J, Allen B, et al. Practical, Efficient,and Customizable Active Learning for Named Entity Recognition inthe Digital Humanities [C] / / Proceedings of the 2019 Conferenceof the North. Minneapolis, Minnesota. Stroudsburg, PA, USA:Association for Computational Linguistics, 2019: 2223-2234.
[4] Li L, Tayir T, Han Y F, et al. Multimodality Information Fusionfor Automated Machine Translation [J]. Information Fusion, 2023,91: 352-363.
[5] Tian Y H, Song Y, Xia F, et al. Improving Chinese Word Seg?mentation With Wordhood Memory Networks [C] / / Proceedings ofthe 58th Annual Meeting of the Association for Computational Lin?guistics. Online. Stroudsburg, PA, USA: Association for Compu?tational Linguistics, 2020: 8274-8285.
[6] Barros C, Vicente M, Lloret E. Tackling the Challenge of Compu?tational Identification of Characters in Fictional Narratives [C] / /2019 IEEE International Conference on Cognitive Computing( IC?CC). July 8-13, 2019, Milan, Italy. IEEE, 2019: 122-129.
[7] 胡昊天, 鄧三鴻, 張逸勤, 等. 數(shù)字人文視角下的非物質(zhì)文化遺產(chǎn)文本自動(dòng)分詞及應(yīng)用研究[J]. 圖書館雜志, 2022, 41 (8):76-83.
[8] 林立濤, 王東波, 劉江峰, 等. 數(shù)字人文視域下典籍動(dòng)物命名實(shí)體識(shí)別研究———以SikuBERT 預(yù)訓(xùn)練模型為例[J]. 圖書館論壇, 2022, 42 (10): 42-50.
[9] 吳夢成, 林立濤, 齊月, 等. 數(shù)字人文視域下先秦典籍植物知識(shí)挖掘與組織研究[J]. 圖書情報(bào)工作, 2023, 67 (12): 103-113.
[10] 潘曉蝶. 人工智能與文化數(shù)字化戰(zhàn)略雙向驅(qū)動(dòng)的檔案文化遺產(chǎn)開發(fā)研究[J]. 山西檔案, 2024 (2): 158-160.
[11] 白潔, 馬嘉悅. 檔案記憶觀下非物質(zhì)文化遺產(chǎn)檔案化保護(hù)研究[J]. 山西檔案, 2022 (6): 74-80.
[12] 章成志, 謝雨欣, 張恒. 學(xué)術(shù)文獻(xiàn)全文內(nèi)容中的方法實(shí)體細(xì)粒度抽取及演化分析研究[J]. 情報(bào)學(xué)報(bào), 2023, 42 (8): 952-966.
[13] 張穎怡, 章成志, 周毅, 等. 基于ChatGPT 的多視角學(xué)術(shù)論文實(shí)體識(shí)別: 性能測評(píng)與可用性研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023, 7 (9): 12-24.
[14] Wei X, Cui X, Cheng N, et al. Zero-shot Information ExtractionVia Chatting with Chatgpt [EB/ OL]. [2025-02-20]. https: / /arxiv.org/ abs/2302.10205.
[15] 謝靖, 劉江峰, 王東波. 古代中國醫(yī)學(xué)文獻(xiàn)的命名實(shí)體識(shí)別研究———以Flat-lattice 增強(qiáng)的SikuBERT 預(yù)訓(xùn)練模型為例[J]. 圖書館論壇, 2022, 42 (10): 51-60.
[16] 崔斌, 王東波, 黃水清. 基于典籍文本的農(nóng)作物時(shí)間分布及演化特征研究———以《食貨志》為例[J]. 圖書情報(bào)工作, 2021,65 (14): 90-100.
[17] 劉佳, 邊俊伊. 基于混合深度學(xué)習(xí)的藏醫(yī)古籍命名實(shí)體識(shí)別研究[J]. 現(xiàn)代情報(bào), 2023, 43 (11): 37-46.
[18] 沈旺, 梁世豪, 李昕娛, 等. 數(shù)字人文視角下藏醫(yī)學(xué)古籍知識(shí)發(fā)現(xiàn)研究———以《四部醫(yī)典》為例[J]. 現(xiàn)代情報(bào), 2023, 43(11): 21-36.
[19] 趙萌, 王昊, 李曉敏. 中國民歌多情感識(shí)別及情感變化規(guī)律分析研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7 (7): 111-124.
[20] 張衛(wèi), 王昊, 李曉敏, 等. 數(shù)字人文視角下古詩意象知識(shí)抽取及其文化圖式構(gòu)建研究[J]. 圖書情報(bào)工作, 2022, 66 (24):104-117.
[21] 汪琳, 王昊, 李曉敏, 等. 融合學(xué)習(xí)擴(kuò)展的非遺陶瓷工藝領(lǐng)域術(shù)語庫構(gòu)建及應(yīng)用[J]. 圖書館論壇, 2024, 44 (2): 66-78.
[22] 張海, 陳宇軒, 王東波. 信息資源管理領(lǐng)域數(shù)字人文研究特征、研究體系及構(gòu)建路徑[J]. 情報(bào)理論與實(shí)踐, 2024, 47 (2):70-76.
[23] 賈玉祥, 晁睿, 昝紅英, 等. 融入篇章信息的文學(xué)作品命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2023, 37 (11): 100-109.
[24] Barros C, Vicente M, Lloret E. Tackling the Challenge of Compu?tational Identification of Characters in Fictional Narratives [ C] / /2019 IEEE International Conference on Cognitive Computing(ICCC).IEEE, 2019: 122-129.
[25] 郭順利, 蘇新寧, 房旭輝. 融合NER 和Apriori 算法的游記文本關(guān)聯(lián)知識(shí)挖掘及推薦服務(wù)研究[ J]. 現(xiàn)代情報(bào), 2023, 43(11): 123-134.
[26] 王阮, 鄧君. 數(shù)字人文視域下口述記憶資源知識(shí)圖譜構(gòu)建研究[J]. 現(xiàn)代情報(bào), 2022, 42 (2): 22-33.
[27] Lwin S M. Using Folktales for Language Teaching [J]. The Eng?lish Teacher, 2015, 44 (2): 74-83.
[28] Devlin J. Bert: Pre-training of Deep Bidirectional Transformersfor Language Understanding [EB/ OL]. [2025-02-20] https: / /arxiv.org/ abs/1810.04805.
[29] Dey R, Salem F M. Gate-Variants of Gated Recurrent Unit(GRU)Neural Networks [C] / /2017 IEEE 60th International Midwest Sympo?sium on Circuits and Systems(MWSCAS). IEEE, 2017: 1597-1600.
[30] Tao C Y, Gao S, Shang M Y, et al. Get the Point of My Utter?ance! Learning Towards Effective Responses with Multi-Head Atten?tion Mechanism [C] / / Proceedings of the Twenty-Seventh Interna?tional Joint Conference on Artificial Intelligence. July 13-19, 2018.Stockholm, Sweden. California: International Joint Conferences onArtificial Intelligence Organization, 2018: 4418-4424.
[31] Zheng S, Jayasumana S, Romera-Paredes B, et al. ConditionalRandom Fields as Recurrent Neural Networks [C] / / Proceedings ofthe IEEE International Conference on Computer Vision, 2015: 1529-1537.
[32] 劉厚生. 長白山文化的界定及其他[J]. 中國邊疆史地研究,2003, 13 (4): 71-75.
[33] Wong T T, Yeh P Y. Reliable Accuracy Estimates From K-FoldCross Validation [ J]. IEEE Transactions on Knowledge and DataEngineering, 2020, 32 (8): 1586-1594.
[34] Liu Y F, Wei S Q, Huang H J, et al. Naming Entity Recognitionof Citrus Pests and Diseases Based on the BERT-BiLSTM-CRF Model[J]. Expert Systems with Applications, 2023, 234: 121103.
[35] 尹良鑫. 數(shù)字人文視域下鄉(xiāng)村檔案文化建設(shè): 生成邏輯、價(jià)值體現(xiàn)與路徑選擇[J]. 山西檔案, 2023 (4): 110-116.
(責(zé)任編輯: 楊豐僑)
基金項(xiàng)目: 國家社會(huì)科學(xué)基金項(xiàng)目“面向數(shù)字人文的檔案文獻(xiàn)數(shù)據(jù)組織與知識(shí)發(fā)現(xiàn)研究” (項(xiàng)目編號(hào): 19BTQ094)。