摘 要: [目的/ 意義] 中醫(yī)文本中包含了大量領(lǐng)域相關(guān)知識, 可為準(zhǔn)確診斷和有效的疾病防治提供指導(dǎo)。本文對中醫(yī)文本命名實體識別(NER)研究進行系統(tǒng)性綜述。[方法/ 過程] 從中醫(yī)文本的特征出發(fā), 探討了中醫(yī)文本NER 在知識體系、語料構(gòu)建和技術(shù)算法層次面臨的挑戰(zhàn); 梳理中醫(yī)文本NER 語料構(gòu)建中可用的術(shù)語標(biāo)準(zhǔn)、實體類型和標(biāo)注原則與方法; 歸納中醫(yī)文本NER 技術(shù)的一般框架、常用方法和近期趨勢, 并總結(jié)評估指標(biāo)。[結(jié)果/ 結(jié)論] 建議未來研究可從以下方向開展: 在語料層面制定標(biāo)注規(guī)范并構(gòu)建高質(zhì)量數(shù)據(jù)集, 在算法層面探索針對小樣本問題的數(shù)據(jù)優(yōu)化、針對復(fù)雜實體的識別模型和增強模型解釋性, 以提高中醫(yī)NER 的效果。
關(guān)鍵詞: 命名實體識別; 中醫(yī); 深度學(xué)習(xí); 自然語言處理; 綜述
DOI:10.3969 / j.issn.1008-0821.2025.02.001
〔中圖分類號〕G250. 2; TP291. 1 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2025) 02-0004-13
中醫(yī)學(xué)是在中華幾千年的歷史長河中形成的獨具特色的醫(yī)學(xué)體系, 對中華民族的繁衍昌盛起到積極作用。信息技術(shù)的發(fā)展推動了中醫(yī)知識的現(xiàn)代化應(yīng)用。隨著對中醫(yī)知識深度研究的需求日益增長,命名實體識別技術(shù)(NER)越來越多的應(yīng)用于中醫(yī)文本挖掘。
中醫(yī)文本NER 屬于領(lǐng)域NER 范疇。不同領(lǐng)域的文本通常包含特定的專業(yè)術(shù)語、實體類型和上下文信息, 因此領(lǐng)域NER 需要根據(jù)這些特征進行模型的優(yōu)化, 以提高實體識別的準(zhǔn)確性。中醫(yī)文本不僅涉及傳統(tǒng)醫(yī)學(xué)知識, 還融合了哲學(xué)、文化和歷史背景。同時, 中醫(yī)文本常以古文或半文言文形式呈現(xiàn), 其語法結(jié)構(gòu)與現(xiàn)代漢語有顯著差異。由于缺乏標(biāo)準(zhǔn)化的術(shù)語規(guī)范, 不同文獻(xiàn)可能對同一概念有不同的表達(dá)。此外, 中醫(yī)領(lǐng)域的高質(zhì)量標(biāo)注數(shù)據(jù)相對稀缺。這些因素共同導(dǎo)致了中醫(yī)文本NER 研究面臨諸多挑戰(zhàn)。中醫(yī)NER 是典型的交叉課題, 受到中醫(yī)藥、計算機、數(shù)字人文等多領(lǐng)域?qū)W者的關(guān)注,積累了較多的研究成果。在其發(fā)展過程中, 不乏一些從不同視角進行歸納總結(jié)的綜述性論文, 例如,中醫(yī)術(shù)語研究文獻(xiàn)計量分析[1] 、實體抽取在中醫(yī)藥領(lǐng)域的應(yīng)用綜述[2] 、中醫(yī)癥狀信息抽取研究進展[3]等。然而, 當(dāng)前中醫(yī)文本NER 缺乏系統(tǒng)性綜述, 這阻礙了研究人員對已有工作的全面理解和對未來研究方向的把握。本文旨在填補這一空白, 為該領(lǐng)域的發(fā)展提供有價值的參考。
本文在分析中醫(yī)文本特征的基礎(chǔ)上, 提出中醫(yī)文本NER 在知識體系、語料構(gòu)建和技術(shù)算法層次的研究挑戰(zhàn); 系統(tǒng)性地梳理中醫(yī)文本NER 語料構(gòu)建中的術(shù)語標(biāo)準(zhǔn)、實體類型和標(biāo)注原則與方法; 從基于詞典和規(guī)則的模式匹配方法、基于統(tǒng)計原理的機器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法3 個方面介紹中醫(yī)文本NER 的技術(shù)發(fā)展歷程, 并詳細(xì)介紹基于深度學(xué)習(xí)的中醫(yī)文本NER 方法的一般框架和3 種主流架構(gòu); 最后, 基于研究現(xiàn)狀, 對未來發(fā)展進行展望, 以期為該領(lǐng)域的進一步研究提供參考。
1 中醫(yī)文本特征及命名實體識別挑戰(zhàn)
中醫(yī)文本形式多樣, 不同類型的文本具有共同之處, 也不乏差異性。本節(jié)首先梳理不同類型中醫(yī)文本的通用特征, 然后針對典型的中醫(yī)文本形式進行各自特征的剖析, 最后提出中醫(yī)文本NER 的挑戰(zhàn)。
1. 1 中醫(yī)文本通用特征
中醫(yī)文本具有抽象性、經(jīng)濟性和復(fù)雜性等特點。中醫(yī)包含的部分概念無法對應(yīng)到客觀世界的具體事物, 且常使用隱喻、象征等修辭手法。例如, “臟腑” 并不僅僅指現(xiàn)代醫(yī)學(xué)的某個具體器官, 而是涵蓋了人體內(nèi)臟的功能、相互關(guān)系以及與外界環(huán)境的互動等多個層面的系統(tǒng)概念[4] 。這種獨特的表達(dá)方式使中醫(yī)文本較為抽象且模糊, 常常給人深奧晦澀之感。中醫(yī)語言的經(jīng)濟性與其抽象性是高度一致的。中醫(yī)行文傾向于刪繁去冗, 省略某些詞句的情況比比皆是?!吨貜V補注黃帝內(nèi)經(jīng)素問》序認(rèn)為: “其文簡, 其意博, 其理奧, 其趣深。” 凸顯的就是中醫(yī)語言的經(jīng)濟性。這種經(jīng)濟性使其信息密度較高, 某些字、詞甚至句子的語義極度依賴于上下文語境。
此外, 中醫(yī)語言的字詞含義在其發(fā)展歷程中不斷擴充, 經(jīng)常存在一詞多義和多詞一義的現(xiàn)象, 同名異物和同物異名情況也較為普遍。中醫(yī)用語繼承了古漢語的特點, 保留了較多生僻字和通假字。這些特征使中醫(yī)語言具有高度的復(fù)雜性。
1. 2 不同類型中醫(yī)文本的特征
1.2. 1 中醫(yī)診療文本
中醫(yī)診療文本是中醫(yī)臨床實踐的重要記錄形式。中醫(yī)診療文本的內(nèi)容較為完整、有相對穩(wěn)定的結(jié)構(gòu)、要素結(jié)構(gòu)也相對簡單。在內(nèi)容上, 診療文本力求簡明, 只記錄關(guān)鍵信息, 如重要的癥狀、診斷等。在語言上, 診療文本古今漢語混用情況十分常見, 具有敘事性強、口語化重等特點[5] 。
1.2.2 中醫(yī)古代文獻(xiàn)
在各類中醫(yī)文本中, 中醫(yī)古代文獻(xiàn)的書寫風(fēng)格最為晦澀難懂。中醫(yī)古代文獻(xiàn)使用的古漢語在詞匯、句法和語法結(jié)構(gòu)上與現(xiàn)代漢語存在顯著差異。此類文獻(xiàn)另一顯著特征是流傳版本繁多, 呈現(xiàn)出同書異本、同書異名同版、同書異名異版等繁雜現(xiàn)象。一般認(rèn)為, 應(yīng)選擇底本優(yōu)良且經(jīng)過專家校注的權(quán)威版本, 以保障數(shù)據(jù)標(biāo)注和語料庫的建設(shè)質(zhì)量。
1.2.3 中醫(yī)科技文獻(xiàn)
中醫(yī)科技文獻(xiàn)包括專利、學(xué)術(shù)論文和專著等形式。在結(jié)構(gòu)上, 中醫(yī)科技文獻(xiàn)通常遵循一定的研究框架, 其結(jié)構(gòu)嚴(yán)謹(jǐn)、邏輯清晰, 系統(tǒng)性記錄了研究背景、方法、過程和結(jié)果等部分。在語言上, 中醫(yī)科技文獻(xiàn)可能同時使用傳統(tǒng)醫(yī)學(xué)和現(xiàn)代醫(yī)學(xué)專業(yè)術(shù)語, 且不少文獻(xiàn)包括大量的數(shù)據(jù)。
1.2.4 網(wǎng)絡(luò)開放資源
網(wǎng)絡(luò)開放中醫(yī)資源來自于各醫(yī)療機構(gòu)、研究機構(gòu)和普通公眾, 相關(guān)文本語言風(fēng)格多樣化, 不可一概而論。例如, 社交媒體中的數(shù)據(jù)信息密度極低,而在線問診數(shù)據(jù)則更為專業(yè)化。隨著中醫(yī)藥國際化的推進, 還出現(xiàn)了多語言的中醫(yī)文本。這些資源不僅為公眾提供了學(xué)習(xí)中醫(yī)藥知識的平臺, 也為研究人員提供了豐富的數(shù)據(jù)來源。
1.3 中醫(yī)文本命名實體識別挑戰(zhàn)
1.3.1 知識體系層次
中醫(yī)知識體系是一個錯綜復(fù)雜的系統(tǒng), 融合了古代哲學(xué)思想、自然科學(xué)理論以及長期的實踐經(jīng)驗。中醫(yī)基于陰陽五行學(xué)說闡釋人體與自然之間的和諧關(guān)系, 以臟腑經(jīng)絡(luò)理論為核心, 構(gòu)建了生理病理模型。從縱向來看, 中醫(yī)學(xué)不斷演化, 知識體系也隨之?dāng)U展。中醫(yī)學(xué)深刻的哲學(xué)內(nèi)涵、精細(xì)的理論架構(gòu)以及不斷發(fā)展使其知識體系呈現(xiàn)高度的復(fù)雜性, 是中醫(yī)文本NER 研究在知識體系層次面臨的重要挑戰(zhàn)。
1.3.2 語料構(gòu)建層次
語料庫建設(shè)是中醫(yī)藥領(lǐng)域的一項重要工作, 取得了顯著的研究成果。然而, 由于資源私有化、數(shù)據(jù)孤島等問題, 相關(guān)資源以個案形式分散分布, 尚未整合成一個全面的語料庫系統(tǒng), 難以滿足大規(guī)模數(shù)據(jù)驅(qū)動的中醫(yī)文本NER 需求。此外, 中醫(yī)領(lǐng)域長期以來面臨術(shù)語規(guī)范化不足的問題。相關(guān)術(shù)語標(biāo)準(zhǔn)無法覆蓋所有的實體, 仍有許多實體缺乏明確的規(guī)范名稱。在實際應(yīng)用中, 標(biāo)準(zhǔn)的實施和推廣面臨困難, 也制約了語料庫建設(shè)的進程。受限于上述多種現(xiàn)實因素, 高質(zhì)量的中醫(yī)語料庫依舊相對稀缺, 直接限制了中醫(yī)文本NER 模型的效果。
1.3.3 技術(shù)算法層次
中醫(yī)文本中常存在實體嵌套、實體序列分散和實體過長等現(xiàn)象, 導(dǎo)致實體邊界較為模糊。實體嵌套情況要求NER 算法具備層次化的區(qū)分能力, 例如, “麻黃桂枝湯” 中同時包含方劑名“麻黃桂枝湯”, 又包含藥物名“麻黃” 和“桂枝”, 識別結(jié)果應(yīng)根據(jù)需要精準(zhǔn)把握不同層級實體的邊界。實體序列分散問題則需要算法具備足夠的上下文信息利用能力。例如, 在“脈沉無力” 中, 算法應(yīng)識別出“脈沉” 和“脈無力” 兩個獨立實體。上述問題對中醫(yī)NER 算法的語義理解能力提出了極高的要求。
2 中醫(yī)文本命名實體識別語料構(gòu)建
2.1 中醫(yī)文本命名實體識別術(shù)語標(biāo)準(zhǔn)
構(gòu)建高質(zhì)量的中醫(yī)語料庫, 可以為NER 模型提供豐富的訓(xùn)練數(shù)據(jù)。中醫(yī)術(shù)語規(guī)范化是中醫(yī)藥標(biāo)準(zhǔn)化的基礎(chǔ)性工作。本節(jié)對中醫(yī)文本NER 可參考的現(xiàn)行術(shù)語標(biāo)準(zhǔn)進行總結(jié), 如表1 所示。在實際應(yīng)用中, 應(yīng)優(yōu)先以法典與國家標(biāo)準(zhǔn)為參照, 其次以行業(yè)標(biāo)準(zhǔn)、工具書與教材為準(zhǔn)。現(xiàn)有標(biāo)準(zhǔn)所收錄的詞,原則上不應(yīng)進行切分。
2.2 中醫(yī)文本命名實體識別實體類型
中醫(yī)文本NER 的實體類型劃分以中醫(yī)理論為基礎(chǔ), 圍繞辨證論治的核心思想展開。相關(guān)研究中包含的實體類型, 主要包括疾病、癥狀、治法、方劑、藥物等, 如表2 所示。此外, 部分研究抽取了中醫(yī)認(rèn)知方法、陰陽五行、運氣學(xué)說等基礎(chǔ)理論相關(guān)的實體。針對中醫(yī)文本中蘊含的民俗、倫理觀念及文化內(nèi)涵等人文相關(guān)實體的研究則相對較少。
不同研究者往往根據(jù)各自的背景和需求, 采用不同的實體分類體系。這一方面是由于中醫(yī)文本具有多種類型, 不同類型文本中包含的實體本身就存在較大差異。例如, 針灸多涉及經(jīng)絡(luò)、腧穴等特定術(shù)語, 而本草則主要涉及性味歸經(jīng)等。另一方面,即便是對同一類中醫(yī)文本, 不同學(xué)者在實體類型劃分上也存在差異, 特別是在實體的粒度的選擇上。如表3 所示, 同樣是針對中醫(yī)古籍《神農(nóng)本草經(jīng)》的命名實體識別, 各研究選擇的實體類型存在顯著的差異。這一差異主要源于中醫(yī)領(lǐng)域缺乏公認(rèn)的、系統(tǒng)化的實體標(biāo)準(zhǔn)。NER 方法可以在沒有實體標(biāo)準(zhǔn)的情況下開發(fā)和實現(xiàn), 這允許研究者根據(jù)需求進行快速迭代和靈活調(diào)整。然而, 缺乏實體標(biāo)準(zhǔn)使不同數(shù)據(jù)集和標(biāo)注方案之間不可融合, 導(dǎo)致了知識的孤島化與碎片化問題, 阻礙了模型之間的遷移。同時, 研究者在進行模型評估時, 無法采用一致的標(biāo)準(zhǔn)進行算法比較, 影響了研究的可重復(fù)性。
2. 3 中醫(yī)文本命名實體識別實體標(biāo)注
2. 3. 1 標(biāo)注原則
命名實體標(biāo)注應(yīng)遵循可分性、不可分性和一致性等原則, 保障標(biāo)注的準(zhǔn)確性和可靠性??煞中栽瓌t指的是具備相對獨立語義的詞組應(yīng)作為獨立的實體進行標(biāo)注。例如, “清熱解毒” 是中藥常用治療方法, 其含義可以拆分為“清熱” 和“解毒” 兩個部分。不可分性原則強調(diào)某些專業(yè)術(shù)語和組合詞應(yīng)視為不可分割的整體。諸如《黃帝內(nèi)經(jīng)》和《神農(nóng)本草經(jīng)》等篇章名, 作為中醫(yī)領(lǐng)域廣為接受的專業(yè)術(shù)語, 在NER 過程中不應(yīng)被拆分。由兩個或多個構(gòu)詞要素組成的組合詞, 如方劑名“四時加減柴胡飲子” 和證型名“陰虛陽亢證” 等, 拆分將導(dǎo)致概念的喪失, 無法準(zhǔn)確傳達(dá)其所承載的專業(yè)知識。因此,必須確保它們在標(biāo)注和識別過程中的完整性。此外,應(yīng)確保同一個實體在不同上下文中被一致地標(biāo)注。一致性原則涵蓋了多個方面, 包括實體定義的一致性、標(biāo)注規(guī)則的一致性和上下文應(yīng)用的一致性等。
2.3.2 標(biāo)注方法
目前, 中醫(yī)文本NER 標(biāo)注方法與通用領(lǐng)域NER的標(biāo)注方法大致相同, 主要包括BIO、BIOS、BMES、BIESO 等。其中, 最常使用的是BIO 和BIOS 標(biāo)注。各標(biāo)注方法的具體含義總結(jié)如表4 所示。
3 中醫(yī)文本命名實體識別方法
中醫(yī)文本NER 技術(shù)沿著通用領(lǐng)域NER 技術(shù)的發(fā)展路線演進, 經(jīng)歷了基于詞典和規(guī)則的模式匹配方法、基于統(tǒng)計原理的傳統(tǒng)機器學(xué)習(xí)方法和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法等發(fā)展階段。
3.1 傳統(tǒng)方法
3.1.1 基于詞典和規(guī)則的模式匹配方法
在早期階段, 中醫(yī)文本NER 主要依賴于構(gòu)建預(yù)定義的專業(yè)詞典和規(guī)則進行模式匹配。領(lǐng)域詞典包含的是準(zhǔn)確的已知知識, 為NER 提供了可靠的參考依據(jù)?;谝?guī)則的方法在分析文本規(guī)律的基礎(chǔ)上, 制定規(guī)則集, 利用最大匹配算法[10] 、正則表達(dá)式[11] 等進行實體抽取。模式匹配方法展現(xiàn)出了較高的準(zhǔn)確率, 但其局限性也不容忽視。領(lǐng)域詞典需要不斷更新和完善, 以適應(yīng)新出現(xiàn)的術(shù)語和概念,對于未登錄實體的識別效果往往不佳。規(guī)則的制定依賴于領(lǐng)域?qū)<业慕?jīng)驗, 在自由文本處理方面的能力相對較弱, 且可擴展性有限。隨著中醫(yī)文本數(shù)據(jù)的不斷增加和多樣化, 單純依靠詞典和規(guī)則的方法難以滿足實際應(yīng)用的需求。
盡管存在這些問題, 基于詞典和規(guī)則的模式匹配方法具有可解釋性強、易于理解的優(yōu)點。對于規(guī)模較小且結(jié)構(gòu)化程度較高的中醫(yī)文本, 該方法具有簡單、準(zhǔn)確的優(yōu)勢。當(dāng)前, 一種新的研究范式是詞典、規(guī)則與深度學(xué)習(xí)技術(shù)相結(jié)合, 在語料準(zhǔn)備階段,利用詞典與規(guī)則進行自動標(biāo)注, 有效減少了人工標(biāo)注的工作量, 且提升了標(biāo)注的準(zhǔn)確性。
3.1.2 基于統(tǒng)計原理的傳統(tǒng)機器學(xué)習(xí)方法
基于統(tǒng)計原理的傳統(tǒng)機器學(xué)習(xí)方法是基于概率性的非確定性模型, 依賴于數(shù)據(jù)的統(tǒng)計學(xué)特征進行預(yù)測。該方法的核心是特征工程, 通過構(gòu)造特征模板進行文本特征提取, 然后由機器學(xué)習(xí)模型預(yù)測命名實體的概率。機器學(xué)習(xí)算法能夠從數(shù)據(jù)中自動學(xué)習(xí)特征, 往往比基于詞典和規(guī)則的確定性信息抽取模型效果要好。在中醫(yī)文本NER 任務(wù)中常用的統(tǒng)計機器學(xué)習(xí)方法包括條件隨機場(CRF)、隱馬爾科夫模型(HMM)、支持向量機(SVM)、最大熵模型(ME)等。2009 年, 王世昆等[12] 率先提出基于CRF的中醫(yī)文本NER 方法, 在醫(yī)案數(shù)據(jù)上效果明顯優(yōu)于ME 和SVM 方法。自此, CRF 成為這一時期中醫(yī)文本NER 的主流模型, 應(yīng)用到網(wǎng)絡(luò)信息[13] 和古籍[14]等多種文本。
在文本規(guī)模相對有限的情況下, 機器學(xué)習(xí)模型往往能取得較好的效果。機器學(xué)習(xí)算法的首要問題在于特征工程的復(fù)雜性, 設(shè)計恰當(dāng)?shù)奶卣饕詮脑紨?shù)據(jù)中有效提取代表性信息是一大挑戰(zhàn)。此外, 機器學(xué)習(xí)模型的泛化能力有限, 在面對未見過的數(shù)據(jù)時, 模型表現(xiàn)可能會大幅下降。
3.2 深度學(xué)習(xí)方法
基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法突破了傳統(tǒng)機器學(xué)習(xí)算法的局限性, 能夠有效的利用深層次語義信息。本節(jié)首先介紹基于深度學(xué)習(xí)的中醫(yī)文本NER模型的一般框架; 隨后分別詳細(xì)探討3 種架構(gòu): 基于序列標(biāo)注的方法、基于跨度的方法和基于大語言模型的方法。
3.2.1 基于深度學(xué)習(xí)的中醫(yī)文本NER 模型的一般框架
基于深度學(xué)習(xí)的NER 模型通常由3 個主要部分構(gòu)成: 嵌入層(Embedding Layer)、編碼層(En?coding Layer)和預(yù)測層(Prediction Layer), 其總體架構(gòu)如圖1 所示。
1) 嵌入層: 主要任務(wù)是將原始文本轉(zhuǎn)化為可供模型處理的低維稠密表示。嵌入向量的生成方法主要分為兩類: 基于特征的實現(xiàn)和基于微調(diào)的實現(xiàn)。在基于特征的實現(xiàn)中, 嵌入向量在模型訓(xùn)練期間中不參與參數(shù)更新, 如One-hot、Word2Vec 和GloVe等?;谖⒄{(diào)的方法使用上下文相關(guān)的嵌入表示,在訓(xùn)練模型過程中不斷優(yōu)化參數(shù), 動態(tài)調(diào)整表示向量, 其典型代表是BERT 嵌入。BERT 基于Trans?former 架構(gòu), 通過自注意力機制捕捉序列中的長距離依賴關(guān)系, 能夠有效捕捉語言的上下文信息和語義特征。
BERT 等通用預(yù)訓(xùn)練模型得到的文本嵌入結(jié)果攜帶的是通用語料中的語義信息, 難以充分理解中醫(yī)領(lǐng)域的專業(yè)術(shù)語。近年來, 構(gòu)建更為貼近中醫(yī)領(lǐng)域的預(yù)訓(xùn)練模型逐漸受到重視。謝靖等[15] 使用基于繁體《四庫全書》的SikuBERT 和SikuRoBERTa,以Flat-Lattice Transformer(FLAT)結(jié)構(gòu)為微調(diào)模型,驗證了基于古文的預(yù)訓(xùn)練模型在中醫(yī)NER 任務(wù)中明顯優(yōu)于通用BERT 模型。更進一步的, 直接利用中醫(yī)領(lǐng)域數(shù)據(jù)訓(xùn)練模型, 能更有效捕捉中醫(yī)文本中獨特的語義信息。王亞強等[16] 構(gòu)建了中醫(yī)臨床記錄語料庫, 對MC-BERT 進行領(lǐng)域微調(diào), 驗證了專有預(yù)訓(xùn)練模型對中醫(yī)文本NER 效果的提升作用。
2) 編碼層: 編碼層對嵌入層輸出的向量進行處理, 捕捉輸入序列中的上下文信息。常見模型包括多卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)等。BiLSTM 網(wǎng)絡(luò)在中醫(yī)NER 任務(wù)中得到最為廣泛的應(yīng)用。BiLSTM由兩個LSTM 層組成, 同時捕捉序列的正向和反向信息, 通過門控機制保留長距離依賴關(guān)系, 能克服傳統(tǒng)RNN 在處理長期依賴時存在的梯度消失問題。然而, BiLSTM 在局部特征建模上的能力往往不如CNN。Ma Y 等[17] 認(rèn)為, 古代中醫(yī)文本中一些知識的表達(dá)式是以短語的形式呈現(xiàn)出來的, 且缺乏完整的語法結(jié)構(gòu), 在構(gòu)建中醫(yī)古籍NER 模型時應(yīng)該同時考慮輸入文本的上下文語義特征和局部語義特征,增強模型的語義判別能力。
近年來, 除了基于CNN 和RNN 的編碼方法外,還涌現(xiàn)了一些新的方法。例如, 基于條件生成對抗網(wǎng)絡(luò)(cGAN)的NER 模型能夠應(yīng)對中醫(yī)NER 標(biāo)注數(shù)據(jù)較少的問題[18] 。該模型通過改進的U-Net 結(jié)構(gòu), 從單詞、句子、段落和章節(jié)中提取多粒度的語法和語義特征, 并通過跳躍連接結(jié)合低層和高層特征, 增強了生成過程中的特征表達(dá)。
3) 預(yù)測層: 負(fù)責(zé)將經(jīng)過編碼處理后的特征映射到具體的實體類別。中醫(yī)文本NER 最常采用CRF作為邏輯回歸層, 在標(biāo)簽之間建立關(guān)聯(lián)性約束, 保證預(yù)測標(biāo)簽的合理性, 使模型生成全局最優(yōu)序列標(biāo)注[19] 。此外, 預(yù)測層還可以結(jié)合多種模型優(yōu)化策略。Zhao Z 等[20] 提出的基于動態(tài)優(yōu)化的集成學(xué)習(xí)方法根據(jù)預(yù)測損失調(diào)整模型集成學(xué)習(xí)的實體類別和融合權(quán)重, 并在實體稀疏時減少參數(shù)更新的幅度, 防止模型受到非實體信息的不當(dāng)干擾。Feng Y 等[21] 提出的ANeTCM 模型將序列標(biāo)注轉(zhuǎn)換為機器閱讀理解任務(wù), 結(jié)合門控線性單元(GLU)提高模型的特征學(xué)習(xí)能力, 在預(yù)測層利用正態(tài)分布來調(diào)整樣本的權(quán)值, 以解決實體類的不平衡問題。
3.2.2 基于序列標(biāo)注的方法
基于序列標(biāo)注的NER 方法根據(jù)上下文為輸入序列中的每個元素分配一個標(biāo)簽, 表示其是否屬于某個實體及其在實體中的位置。BERT-BiLSTM-CRF是應(yīng)用最為廣泛的基于序列標(biāo)注NER 架構(gòu)。該方法通過BERT 將輸入文本轉(zhuǎn)換為嵌入向量, 使用BiLSTM 進行編碼, 通過全連接層進行分類, 最后利用CRF 最大化標(biāo)簽序列的聯(lián)合概率。部分研究基于這一架構(gòu)進行算法的局部改進。Hou J 等[22] 提出的Dyn-AttNet 模型引入了動態(tài)注意力和并行結(jié)構(gòu)。針對中醫(yī)領(lǐng)域存在的生僻詞識別率較低的問題,Jin Z 等[23] 提出的TCMKG-LSTM-CRF 模型利用知識圖譜信息進行增強學(xué)習(xí), 引入知識注意力向量模型, 增強模型學(xué)習(xí)和識別生僻詞的能力。此外, 還有結(jié)合殘差網(wǎng)絡(luò)和歸一化模型的BERT-BiLSTMCRF醫(yī)案癥狀及藥物實體抽取模型[24] 、基于自適應(yīng)詞嵌入RoBERTa-WWM-BiLSTM-CRF 的名中醫(yī)臨床病例NER 模型[25] 等。
基于序列標(biāo)注的NER 模型能夠充分利用上下文信息, 識別準(zhǔn)確性較高, 并且適用于多種文本類型, 具有較好的通用性。這種方法存在的問題是在處理長文本、復(fù)雜邊界實體和類型不平衡等問題方面可能受到挑戰(zhàn)。
3.2.3 基于跨度的方法
基于跨度的NER 方法將實體識別視為一個跨度分類任務(wù)。具體而言, 該方法通過定義最長跨度L 或使用某種策略生成可變長度跨度, 列舉所有可能的文本跨度(即連續(xù)的字符序列), 生成候選實體。對每個跨度進行特征提取, 生成表示向量。在解碼階段, 利用跨度分類器預(yù)測跨度的實體類別。基于跨度的方法沒有明確的邊界監(jiān)督, 可能導(dǎo)致邊界信息利用不足的問題。Xu W 等[26] 在跨度內(nèi)部的詞嵌入基礎(chǔ)上, 將跨度的起始和結(jié)束位置的隱藏特征作為顯式特征加入到跨度表示中; 同時, 使用BiLSTM捕捉跨度上下文信息增強特征表示; 最后使用多關(guān)系圖卷積網(wǎng)絡(luò)(CompGCN)進行跨度預(yù)測。
基于跨度的模型適應(yīng)性較強, 能夠靈活處理嵌套實體等復(fù)雜實體類型。然而, 枚舉所有可能的跨度復(fù)雜性較高, 導(dǎo)致大量低質(zhì)量候選跨度, 從而需要較多的計算資源來訓(xùn)練高性能的分類器。
3.2.4 基于大語言模型的方法
大語言模型(LLM)對NLP 的發(fā)展產(chǎn)生了深遠(yuǎn)的影響。大語言模型的語義理解和常識推理能力較強,有助于充分分析上下文信息, 從而更準(zhǔn)確的進行實體抽取。大語言模型在NER 中的應(yīng)用仍然處于探索階段。張穎怡等[27] 的研究表明, 基于ChatGPT的學(xué)術(shù)論文實體識別F1 值高于由少量樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型。鮑彤等[28] 在MSRA 等常用數(shù)據(jù)集上測評了ChatGPT 的信息抽取能力, 結(jié)果其在NER 中的表現(xiàn)不及GlyceBERT 和ERNIE3. 0 模型,表明ChatGPT 在典型的中文信息抽取任務(wù)上還有很大改進空間。
在中醫(yī)NER 研究中, 李盼飛等[29] 調(diào)用文言一心API 進行了醫(yī)案命名實體的自動化抽取, 對結(jié)果進行了初步探索, 但并未進行系統(tǒng)的效果評價。何宇浩等[30] 則對比了CasRel、GPLinker 與GPTs 在抽取《中華醫(yī)方》中“太陽病” 方劑名、書名、中藥名和劑量實體上的效果, 結(jié)果顯示, ChatGPT4. 0的表現(xiàn)最佳, 其綜合F1 值達(dá)到97. 48%。在大語言模型的研究熱潮下, 許多研究團隊、機構(gòu)和企業(yè)相繼推出了一系列中醫(yī)領(lǐng)域?qū)S玫拇笳Z言模型, 如“岐黃問道·大模型” “神農(nóng)中醫(yī)藥大模型” “本草”等。盡管這些模型在中醫(yī)NER 中尚未有公開的研究成果, 但它們?nèi)匀徽宫F(xiàn)出巨大的潛力, 有望在中醫(yī)知識抽取上實現(xiàn)更高的效率。
LLM 可減少人工標(biāo)注語料的工作, 并且無需繁瑣的訓(xùn)練過程和大量的計算資源。在使用時ChatG?PT 等LLM 時, 用戶主要通過設(shè)計提示詞(Prompt)來發(fā)出指令, 引導(dǎo)模型關(guān)注特定的實體類型。提示詞的優(yōu)劣直接影響到模型的性能, 如何設(shè)計出合適的提示詞是LLM 產(chǎn)生高質(zhì)量回答的關(guān)鍵。
3. 3 中醫(yī)文本NER 研究熱點
3. 3. 1 多特征融合模型
多特征融合模型是近年中醫(yī)文本NER 研究的主要方向之一, 相關(guān)研究如表5 所示。多特征融合模型在字符的基礎(chǔ)上, 以詞匯、拼音和形態(tài)學(xué)特征等作為補充, 從模型底層減少中醫(yī)語義信息的丟失。由于現(xiàn)有的分詞技術(shù)對中醫(yī)文本的處理效果不佳,中醫(yī)文本NER 通常以字作為基本的標(biāo)記單元, 避免分詞帶來的歧義性問題。詞匯增強的算法引入高質(zhì)量的領(lǐng)域詞典, 彌補基于字符向量的特征可能會導(dǎo)致文本序列中蘊含的詞匯語義信息丟失的缺陷。詞匯增強方法主要有適應(yīng)嵌入和動態(tài)框架兩種范式。適應(yīng)嵌入范式僅在嵌入層對詞匯信息進行自適應(yīng)嵌入, 不改變模型本身的結(jié)構(gòu), 典型代表為基于Soft-Lexicon 的詞典匹配方法[46] 。動態(tài)框架范式則通常需要設(shè)計相應(yīng)的模型結(jié)構(gòu), 以融入詞匯信息,典型代表為Lattice LSTM。Lattice LSTM 在基于字的LSTM 模型上加入了詞匯輸入單元, 可以有效地利用詞的先驗知識[31] 。受到Lattice LSTM 和Trans?former 的啟發(fā), Flat-Lattice Transformer 構(gòu)建位置編碼重構(gòu)原有的Lattice 結(jié)構(gòu)。葉青等[32] 采用Flat-Lattice Transformer 模型融合了字、詞和跨度特征,提高了模型對邊界模糊實體的處理能力。
此外, 漢語作為象形文字, 其字形具有一定的規(guī)律性。具有相似偏旁或部首的漢字在語義上往往存在一定的相關(guān)性, 例如, 帶有“艸” 或“木” 部首的字通常與本草相關(guān)(“芝” “藿” 等), 而“疒”部首的字一般與疾病相關(guān)(“瘧” “痛” 等)。融合字形特征, 能夠使具有關(guān)聯(lián)的字符在向量空間中更為接近。胡為等[33] 通過融合漢字筆畫、部首和詞根等字形特征為字符賦予更豐富的語義特征, 相比以往方法F1 值提高了3.0%。
3.3.2 面向低資源問題的模型
目前的中醫(yī)文本NER 方法仍然對大規(guī)模的標(biāo)記訓(xùn)練數(shù)據(jù)有很強的依賴性。中醫(yī)領(lǐng)域的公開語料庫較少。因此, 解決低資源環(huán)境下的中醫(yī)文本NER問題具有一定的挑戰(zhàn)性。通用領(lǐng)域解決這一問題的主流方法是遷移學(xué)習(xí), 利用源域中已有的知識來幫助目標(biāo)域的學(xué)習(xí)任務(wù)。中醫(yī)文本與通用文本之間存在顯著的差異, 增大了將其他領(lǐng)域知識遷移到中醫(yī)NER 任務(wù)的難度, 因此基于遷移學(xué)習(xí)的中醫(yī)文本NER 研究較少。目前, 低資源環(huán)境下的中醫(yī)文本NER 相關(guān)研究主要包括數(shù)據(jù)增強、半監(jiān)督學(xué)習(xí)和遠(yuǎn)程監(jiān)督學(xué)習(xí)等方法。
數(shù)據(jù)增強在原始數(shù)據(jù)集的基礎(chǔ)上, 通過同義詞替換、變換語序、隨機刪除、添加擾動等方法生成更多的訓(xùn)練樣本。楊延云等[41] 采用EDA 數(shù)據(jù)增強方法進行數(shù)據(jù)擴充, 結(jié)合半監(jiān)督自訓(xùn)練學(xué)習(xí), 解決中醫(yī)文本NER 標(biāo)注數(shù)據(jù)集較小的問題。Zhao Z 等[42]設(shè)計了一系列采樣和數(shù)據(jù)增強策略, 以緩解實體不平衡帶來的挑戰(zhàn)。遠(yuǎn)程監(jiān)督方法利用領(lǐng)域?qū)嶓w詞典和原始文本來自動生成“銀標(biāo)準(zhǔn)” 數(shù)據(jù)集(Silver Stand?ard Datasets), 可以快速獲得大規(guī)模標(biāo)注數(shù)據(jù), 解決“黃金標(biāo)準(zhǔn)” 數(shù)據(jù)集(Gold Standard Datasets) 標(biāo)注成本較高的問題。遠(yuǎn)程監(jiān)督方法最關(guān)鍵的問題是假陰性樣本的存在。Jia Q 等[43] 將遠(yuǎn)程監(jiān)督中醫(yī)文本NER 任務(wù)視作跨度檢測任務(wù), 提出了一種針對銀標(biāo)準(zhǔn)數(shù)據(jù)集的負(fù)采樣策略。在訓(xùn)練階段, 該方法在每個周期隨機選擇一定數(shù)量的非實體文本作為負(fù)樣本,通過標(biāo)簽平滑減少假陰樣本對訓(xùn)練的不良影響。
3.4 評價指標(biāo)
中醫(yī)文本NER 的評價指標(biāo)主要包括準(zhǔn)確率、精確率、召回率和F1 均值。假定TP 表示模型成功識別的標(biāo)記實體(真正例); TN 表示模型未識別的非標(biāo)記實體(真負(fù)例); FP 表示模型錯誤識別的非標(biāo)記實體(假正例); FN 表示模型未識別的標(biāo)記實體(假負(fù)例)。則評價各指標(biāo)的定義如下:
準(zhǔn)確率指模型正確識別的實體數(shù)占所有實體總數(shù)的比例, 即式(1):
Accuracy = TP+TN/TP+TN+FP+FN (1)
精確率指模型正確識別的實體數(shù)占識別實體總數(shù)的比例, 即式(2):
Precision = TP/TP+FP (2)
召回率指模型正確識別的實體數(shù)占標(biāo)記實體總數(shù)的比例, 即式(3):
Recall = TP/TP+FN (3)
F1 均值兼顧準(zhǔn)確率和召回率之間的平衡, 即式(4):
F1=2×Precision×Recall/Precision+Recall (4)
各指標(biāo)越接近于1, 表示NER 模型的識別性能越好。
4 討論與展望
深度學(xué)習(xí)算法的不斷發(fā)展提升了中醫(yī)文本NER的效果。然而, 中醫(yī)文本NER 依然面臨許多挑戰(zhàn)?;谶@些分析, 我們建議未來研究可以從下述幾個方面展開。
4.1 語料庫建設(shè)
中醫(yī)藥領(lǐng)域可用于NER 及其相關(guān)任務(wù)的高質(zhì)量標(biāo)注數(shù)據(jù)集相對匱乏, 相關(guān)研究通常依賴于自行標(biāo)注的小規(guī)模數(shù)據(jù)集進行封閉訓(xùn)練。新的NER 研究往往需要重建語料庫, 導(dǎo)致模型缺乏可比性、可移植性和通用性。解決這一問題需要制定標(biāo)注規(guī)范, 并構(gòu)建高質(zhì)量數(shù)據(jù)集。
1) 制定標(biāo)注規(guī)范。缺乏統(tǒng)一的標(biāo)注規(guī)范已成為制約領(lǐng)域數(shù)據(jù)遷移與融合的關(guān)鍵因素。制定公認(rèn)的、系統(tǒng)化的實體規(guī)范, 需要構(gòu)建中醫(yī)術(shù)語映射字典, 確保標(biāo)注的一致性。相應(yīng)的, 需合理的設(shè)計嵌套實體、不連續(xù)實體等復(fù)雜問題的標(biāo)注方案, 增強NER 模型在真實場景中的適應(yīng)性和魯棒性。一種可能的方案是在標(biāo)注上突破單一參數(shù), 構(gòu)建多層次的標(biāo)注結(jié)構(gòu)。這不僅應(yīng)包括兼容粗細(xì)粒度的分層標(biāo)注,還可結(jié)合詞性、句法功能與短語規(guī)則, 利用多層次信息約束實體識別過程[44] 。
2) 構(gòu)建高質(zhì)量標(biāo)注數(shù)據(jù)集。深度學(xué)習(xí)模型,特別是監(jiān)督學(xué)習(xí)模型, 需要大規(guī)模、高質(zhì)量的標(biāo)注數(shù)據(jù)集, 構(gòu)建普遍認(rèn)可的標(biāo)準(zhǔn)數(shù)據(jù)集的重要性程度不言而喻。生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)集構(gòu)建方式具有較強的參考價值。生物醫(yī)學(xué)領(lǐng)域擁有豐富的公開資源,如CCKS 數(shù)據(jù)集、CLUENER 數(shù)據(jù)集、NCBI-Disease數(shù)據(jù)集以及瑞金醫(yī)院糖尿病數(shù)據(jù)集等。這些數(shù)據(jù)集大多源于自然語言處理測評比賽任務(wù), 由專業(yè)團隊進行數(shù)據(jù)的整理與標(biāo)注, 確保了數(shù)據(jù)的可靠性。相關(guān)數(shù)據(jù)集覆蓋多種類型的實體, 例如, CHIP 數(shù)據(jù)集支持嵌套實體的標(biāo)注, 而ShARe 數(shù)據(jù)集則面向非連續(xù)實體的識別。相較而言, 中醫(yī)NER 數(shù)據(jù)集的數(shù)量和質(zhì)量均顯著不足。2020 年, 中醫(yī)藥天池大數(shù)據(jù)競賽發(fā)布了中醫(yī)藥說明書實體識別數(shù)據(jù)集,共包含1 997份藥品說明書, 涵蓋藥品、藥物成分、疾病、癥狀等13 類實體。未來中醫(yī)NER 研究將依托高質(zhì)量的標(biāo)注數(shù)據(jù)集, 進一步推動中醫(yī)藥信息化的發(fā)展。
4. 2 小樣本學(xué)習(xí)中的數(shù)據(jù)優(yōu)化
在數(shù)據(jù)有限的情況下, 利用數(shù)據(jù)優(yōu)化技術(shù)能夠提升模型的學(xué)習(xí)能力和泛化性能。
1) 基于GPT 的數(shù)據(jù)增強。GPT 模型的發(fā)展為數(shù)據(jù)增強提供了一種新的解決方案。GPT 模型能夠?qū)斎胛谋具M行修改或重構(gòu), 生成符合上下文邏輯的新樣本。2023 年, Dai H 等[45] 提出, 基于GPT的增強算法AugGPT, 將訓(xùn)練樣本中的每個句子重述為多個概念相似但語義不同的樣本, 該方法在測試精度和增強樣本分布方面優(yōu)于最先進的文本數(shù)據(jù)增強方法。2024 年, 許欽亞等[46] 應(yīng)用ChatGPT 對學(xué)術(shù)論文語步數(shù)據(jù)進行增強, 提出GPT 數(shù)據(jù)增強提示工程的角色設(shè)定與任務(wù)描述、任務(wù)要求描述、制定返回格式、設(shè)置任務(wù)示例和輸入與評估六大步驟。基于GPT 的數(shù)據(jù)增強是未來中醫(yī)NER 數(shù)據(jù)增強研究的一個可能方向。
2) 主動學(xué)習(xí)。主動學(xué)習(xí)算法通過選擇價值密度最高的數(shù)據(jù)樣本, 篩選合適的候選集, 再進行人工標(biāo)記, 減少所需標(biāo)注數(shù)據(jù)量, 降低標(biāo)注成本。標(biāo)注后的數(shù)據(jù)通過增量或重新學(xué)習(xí)的方式融入模型,再循環(huán)往復(fù)中提高模型的學(xué)習(xí)效果。Li T 等[47] 提出一個對抗性的主動學(xué)習(xí)框架來選擇最有價值的標(biāo)注實例, 結(jié)合LSTM、BiLSTM 和注意力機制進行網(wǎng)絡(luò)安全文本中的命名實體檢測, 以較低的標(biāo)注成本增強了模型的效果。Tran V 等[48] 使用基于實例的上下文和內(nèi)容的多樣性來選擇信息最為豐富的實例,結(jié)合自學(xué)習(xí)算法篩選高度可靠的實例, 在Twitter 數(shù)據(jù)集NER 中取得了較好的效果。這些研究證實了主動學(xué)習(xí)的有效性, 主動學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合可能是降低中醫(yī)NER 數(shù)據(jù)標(biāo)注成本的一種可行方案。
4.3 針對復(fù)雜實體的識別模型
中醫(yī)NER 中嵌套實體、非連續(xù)實體和易混淆實體等復(fù)雜實體依然是主要的挑戰(zhàn)。
1) 嵌套實體。嵌套實體是命名實體中的一種特殊現(xiàn)象, 指某個實體內(nèi)部包含另一個實體的情況。假設(shè)輸入文本序列X = {x1,x2,…,xn }, 其中xi 是序列中的第i 個字, n 為序列的長度。對于非嵌套命名實體而言, 每個字對應(yīng)一個實體標(biāo)簽, 標(biāo)簽集合可表示為Y ={y1,y2,…,yn }。與此不同的是, 嵌套實體中每個字可能對應(yīng)多個標(biāo)簽, 標(biāo)簽集合可表示為Y ={{y11,y21,…,ym1 },{y12,y22,…,ym2 },…,{y1n ,y2n ,…,ymn}}, 其中, n 為序列的長度, m 為嵌套的層數(shù)。嵌套實體的嵌套結(jié)構(gòu)復(fù)雜多變, 嵌套顆粒度和嵌套層數(shù)缺乏規(guī)律性, 例如, “麻黃桂枝湯” 由多個非嵌套實體“麻黃” 和“桂枝” 并列構(gòu)詞, 而“杏子湯” 則是非嵌套實體“杏子” 的擴展。嵌套實體包含的內(nèi)部實體之間還可能存在依賴關(guān)系。因此, 嵌套實體的識別難度較大, 需要改進現(xiàn)有模型以提高識別準(zhǔn)確率。嵌套命名實體識別是各領(lǐng)域信息抽取任務(wù)的一個研究熱點, 其他領(lǐng)域相關(guān)研究提出了基于超圖表示[49] 、狀態(tài)轉(zhuǎn)換[50] 、二部平面圖[51]等多種方法。Xu H 等[52] 設(shè)計了針對中醫(yī)NER 的兩層標(biāo)注策略, 對中醫(yī)嵌套命名實體識別做出了探索。未來的研究需要在現(xiàn)有模型的基礎(chǔ)上進行改進, 更好地支持知識庫構(gòu)建等后續(xù)工作。
2) 非連續(xù)實體。非連續(xù)實體是指在文本中由不相鄰的字或詞組成的實體。傳統(tǒng)的BIO 等標(biāo)注規(guī)范無法有效支持非連續(xù)命名實體識別。針對這一問題, Tang B 等[53] 提出了BIOHD 標(biāo)注法, 該方法在BIO 的基礎(chǔ)上增加了HB、HI、DB、DI 4 種標(biāo)簽,以表示不規(guī)則實體。其中HB 和HI 用于標(biāo)注重疊實體, DB 和DI 則用于標(biāo)注非連續(xù)實體, DB 表示非連續(xù)實體的首字, DI 表示不連續(xù)實體的中間和尾部字。這一創(chuàng)新使非連續(xù)實體識別更為清晰和精確。Dai X 等[54] 提出一種端對端的基于轉(zhuǎn)移的神經(jīng)編碼模型, 并利用專門的行動和注意力機制來確定特定跨度是否是非連續(xù)實體的組成部分, 該方法能夠在不犧牲連續(xù)實體識別準(zhǔn)確性的前提下有效的識別不連續(xù)實體, 對后續(xù)研究產(chǎn)生了極大的影響。中醫(yī)非連續(xù)實體識別的研究較為缺乏, 尤其是超圖等新興方法的有效性尚待驗證。因此, 未來研究應(yīng)聚焦于這一領(lǐng)域, 以探索更有效的識別策略。
3) 易混淆實體。中醫(yī)文本中不同實體的識別效果差異顯著, 相對而言, 藥物、部位的識別率較高,而癥狀、病名及病癥等實體的識別精度較低。中醫(yī)疾病術(shù)語往往散落在癥狀詞中, 且部分實體既可表示疾病, 又可作為癥狀。這種模糊性大大增加了模型的識別難度, 需要高度的上下文理解能力才能做出區(qū)分。癥狀詞的表述極為豐富, 在與不同的程度詞結(jié)合后, 表述更為復(fù)雜。此外, 這些實體兼有上述的嵌套、不連續(xù)等復(fù)雜現(xiàn)象, 實體邊界不清, 極大地影響了識別的精度。針對中醫(yī)易混淆命名實體的識別, 需要建立更為統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和有效的標(biāo)注策略, 同時增強模型對上下文信息的理解能力。
4.4 增強模型解釋性
深度學(xué)習(xí)方法的“黑箱” 性質(zhì)限制了相關(guān)人員對模型內(nèi)部工作過程的理解。在臨床診斷和治療的現(xiàn)實過程中, 錯誤的決定可能會產(chǎn)生非常嚴(yán)重的后果。模型的可解釋性關(guān)系到模型結(jié)果的可信度,是確保其在實際應(yīng)用中被采用的關(guān)鍵因素。因此,提升中醫(yī)NER 模型的可解釋性是未來的一個研究重點。這需要從規(guī)則制定、內(nèi)部模塊解釋、歸因解釋和實例分析等多個角度對模型進行解構(gòu)。同時,也要制定科學(xué)的評價指標(biāo), 衡量不同類型模型的解釋程度。
5 結(jié) 語
中醫(yī)命名實體識別為中醫(yī)知識組織和智慧醫(yī)療奠定了基礎(chǔ)。由于中醫(yī)文本固有的抽象性、經(jīng)濟性和復(fù)雜性等特征, 中醫(yī)文本NER 面臨知識體系復(fù)雜、語料庫稀缺和技術(shù)算法效果有待提升等挑戰(zhàn)。中醫(yī)文本NER 技術(shù)經(jīng)歷了從基于詞典和規(guī)則的模式匹配方法、基于統(tǒng)計原理的機器學(xué)習(xí)方法和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法的發(fā)展路徑。目前, 中醫(yī)文本NER 的主流方法是基于BERT-BiLSTM-CRF 的序列標(biāo)注方法, 基于跨度的方法也有一定的研究。近年來, 基于大語言模型的中醫(yī)文本NER 技術(shù)展現(xiàn)了一定的潛力。此外, 中醫(yī)領(lǐng)域的專有預(yù)訓(xùn)練模型、融合字詞和字形等特征的融合模型和面向低資源問題的模型取得了不錯的效果。未來的中醫(yī)文本NER研究需要著重處理中醫(yī)語料資源匱乏問題, 制定統(tǒng)一的語料標(biāo)注規(guī)范, 構(gòu)建高質(zhì)量中醫(yī)標(biāo)注數(shù)據(jù)集;同時, 小樣本學(xué)習(xí)中的數(shù)據(jù)優(yōu)化、針對復(fù)雜問題的識別模型和深度學(xué)習(xí)模型的解釋性研究可能成為新的技術(shù)發(fā)展趨勢。
參考文獻(xiàn)
[1] 劉麗莉, 李明, 羅曉蘭, 等. 基于自然語言處理智能技術(shù)的中醫(yī)術(shù)語研究文獻(xiàn)計量分析[J]. 上海中醫(yī)藥雜志, 2024, 58 (7):1-6, 14.
[2] 孔靜靜, 于琦, 李敬華, 等. 實體抽取綜述及其在中醫(yī)藥領(lǐng)域的應(yīng)用[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2022, 24 (8): 2957-2963.
[3] 易鈞匯, 查青林. 中醫(yī)癥狀信息抽取研究綜述[J]. 計算機工程與應(yīng)用, 2023, 59 (17): 35-47.
[4] 李虹. 中醫(yī)語言的特點及其對中醫(yī)英語表達(dá)的影響[ J]. 上海中醫(yī)藥大學(xué)學(xué)報, 2006, (1): 69-71.
[5] 丁有偉, 郭坤, 胡孔法, 等. 一種面向中醫(yī)電子病歷的實體抽取算法[J]. 軟件導(dǎo)刊, 2021, 20 (12): 99-104.
[6] 張藝品, 關(guān)貝, 呂蔭潤, 等. 深度學(xué)習(xí)基礎(chǔ)上的中醫(yī)實體抽取方法研究[J]. 醫(yī)學(xué)信息學(xué)雜志, 2019, 40 (2): 58-63.
[7] 佟琳, 張華敏, 佟旭, 等. 基于命名實體識別的《神農(nóng)本草經(jīng)》知識圖譜構(gòu)建及可視化分析[J]. 中國中醫(yī)藥信息雜志, 2024,31 (8): 37-43.
[8] 周嘉瑋, 王坤, 吳雨璐, 等. 基于BiLSTM-CRF 的《神農(nóng)本草經(jīng)》命名實體識別研究[J]. 成都中醫(yī)藥大學(xué)學(xué)報, 2024, 47(3): 54-59.
[9] 馬月坤, 吳國仲. 基于特征增強的中醫(yī)本草命名實體識別方法[J]. 河北大學(xué)學(xué)報(自然科學(xué)版), 2024, 44 (2): 199-207.
[10] Wang Y, Yu Z, Jiang Y, et al. A Framework and its EmpiricalStudy of Automatic Diagnosis of Traditional Chinese Medicine Utili?zing Raw Free-Text Clinical Records [ J]. Journal of BiomedicalInformatics, 2012, 45 (2): 210-223.
[11] 鄧宇, 張振銘, 陳橙, 等. 基于正則表達(dá)式的中醫(yī)醫(yī)案術(shù)語抽取方法研究[J]. 湖南中醫(yī)雜志, 2023, 39 (5): 202-207.
[12] 王世昆, 李紹滋, 陳彤生. 基于條件隨機場的中醫(yī)命名實體識別[J]. 廈門大學(xué)學(xué)報(自然科學(xué)版), 2009, 48 (3): 359-364.
[13] 王莉軍, 李旭婕, 劉志輝, 等. 基于開放信息源的實體挖掘方法研究[J]. 情報科學(xué), 2019, 37 (8): 139-144.
[14] 李賀, 祝琳琳, 劉嘉宇, 等. 基于本體的簡帛醫(yī)藥知識組織研究[J]. 圖書情報工作, 2022, 66 (22): 16-27.
[15] 謝靖, 劉江峰, 王東波. 古代中國醫(yī)學(xué)文獻(xiàn)的命名實體識別研究———以Flat-lattice 增強的SikuBERT 預(yù)訓(xùn)練模型為例[J].圖書館論壇, 2022, 42 (10): 51-60.
[16] 王亞強, 李凱倫, 舒紅平, 等. 基于批數(shù)據(jù)過采樣的中醫(yī)臨床記錄四診描述抽取方法[ J]. 中文信息學(xué)報, 2024, 38 (2):121-131.
[17] Ma Y, Liu H, Liu Y, et al. A Named Entity Recognition Meth?od Enhanced with Lexicon Information and Text Local Feature [J].Computer Science, Medicine, 2023, 20 (3): 899-906.
[18] Ma Y, Liu Y, Zhang D, et al. A Multigranularity Text DrivenNamed Entity Recognition CGAN Model for Traditional Chinese Med?icine Literatures [J]. Computational Intelligence and Neuroscience,2022: 1495841.
[19] 李明浩, 劉忠, 姚遠(yuǎn)哲. 基于LSTM-CRF 的中醫(yī)醫(yī)案癥狀術(shù)語識別[J]. 計算機應(yīng)用, 2018, 38 (S2): 42-46.
[20] Zhao Z, Qian Y, Liu Q, et al. A Dynamic Optimization-BasedEnsemble Learning Method for Traditional Chinese Medicine NamedEntity Recognition [J]. IEEE Access, 2023, 11: 99101-99110.
[21] Feng Y, Zhou Y. ANeTCM: A Novel MRC Framework for Tradi?tional Chinese Medicine Named Entity Recognition [J]. IEEE Ac?cess, 2019, 12: 113235-113243.
[22] Hou J, Saad S, Omar, N. Enhancing Traditional Chinese MedicalNamed Entity Recognition with Dyn-Att Net: A Dynamic AttentionApproach [J]. PeerJ Computer Science, 2024, 10: e2022.
[23] Jin Z, Zhang Y, Kuang H, et al. Named Entity Recognition inTraditional Chinese Medicine Clinical Cases Combining BiLSTM -CRF with Knowledge Graph [J]. Knowledge Science, Engineeringand Management, 2019, 11775: 537-548, 2019.
[24] 王欣宇, 高曉苑, 楊濤, 等. 名老中醫(yī)診治肺癌“癥-藥” 關(guān)系自動化提取與分析模型構(gòu)建及應(yīng)用[J]. 中華中醫(yī)藥雜志, 2022,37 (11): 6297-6301.
[25] 萬澤宇, 龔慶悅, 李鐵軍, 等. 基于自適應(yīng)詞嵌入RoBERTawwm的名中醫(yī)臨床病歷命名實體識別研究[J]. 軟件導(dǎo)刊, 2022,21 (12): 58-62.
[26] Xu W, Wang L, Zhang M, et al. A Joint Entity Relation Extrac?tion Method for Document Level Traditional Chinese Medicine texts[J]. Artificial Intelligence In Medicine, 2025, 154: 192015.
[27] 張穎怡, 章成志, 周毅, 等. 基于ChatGPT 的多視角學(xué)術(shù)論文實體識別: 性能測評與可用性研究[ J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7 (9): 12-24.
[28] 鮑彤, 章成志. ChatGPT 中文信息抽取能力測評———以三種典型的抽取任務(wù)為例[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7 (9):1-11.
[29] 李盼飛, 楊小康, 白逸晨, 等. 基于大語言模型的中醫(yī)醫(yī)案命名實體抽取研究[J]. 中國中醫(yī)藥圖書情報雜志, 2024, 48(2): 108-113.
[30] 何宇浩, 李明, 羅曉蘭, 等. 基于GPTs 的中醫(yī)知識圖譜實體和關(guān)系抽取研究[J]. 上海中醫(yī)藥雜志, 2024, 58 (8): 1-6.
[31] 曾江峰, 龐雨靜, 高鵬鈺, 等. 基于Lattice LSTM 的中醫(yī)藥古文獻(xiàn)命名實體識別與應(yīng)用研究[J]. 情報工程, 2023, 9 (5):112-122.
[32] 葉青, 賴煊, 程春雷, 等. 融合詞匯增強和跨度方法的中醫(yī)藥命名實體識別[J/ OL]. 計算機工程與應(yīng)用, 1-10 [2024-08-27]. http: / / kns.cnki.net/ kcms/ detail/11.2127.tp.20240824.1025.002.html.
[33] 胡為, 劉偉, 盛威, 等. 融合字形特征的中醫(yī)醫(yī)案命名實體識別研究[J]. 計算機時代, 2023, (7): 66-69, 73.
[34] 胡為, 劉偉, 盛威, 等. TcmYiAnBERT: 基于無監(jiān)督學(xué)習(xí)的中醫(yī)醫(yī)案預(yù)訓(xùn)練模型[J]. 醫(yī)學(xué)信息學(xué)雜志, 2023, 44 (7):63-67.
[35] 楊延云, 杜建強, 聶斌, 等. 一種面向中醫(yī)文本的實體關(guān)系深度學(xué)習(xí)聯(lián)合抽取方法[J]. 計算機應(yīng)用與軟件, 2023, 40 (3):217-222, 234.
[36] 李旻哲, 殷繼彬. 融合BERT 模型與詞匯增強的中醫(yī)命名實體識別模型[J]. 計算機科學(xué), 2024, 51 (S1): 134-139.
[37] 劉彬, 肖曉霞, 鄒北驥, 等. 融合漢字部首的BERT-BiLSTMCRF中醫(yī)醫(yī)案命名實體識別模型[J]. 醫(yī)學(xué)信息學(xué)雜志, 2023,44 (6): 48-53.
[38] 張文東, 吳子煒, 宋國昌, 等. 基于SiKuBERT 與多元數(shù)據(jù)嵌入的中醫(yī)古籍命名實體識別[J]. 華南理工大學(xué)學(xué)報(自然科學(xué)版), 2024, 52 (6): 128-137.
[39] 王晰, 柯麗娟, 李海燕, 等. 基于“深度學(xué)習(xí)模型+詞典” 的針刺效應(yīng)命名實體識別研究[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2024, 26 (7): 1779-1785.
[40] 楊航, 彭葉輝, 楊偉, 等. 基于BRL 神經(jīng)網(wǎng)絡(luò)模型的名家醫(yī)案實體識別[J]. 中國實驗方劑學(xué)雜志, 2024, 30 (24): 167-173.
[41] 楊延云, 杜建強, 聶斌, 等. 融合數(shù)據(jù)增強和注意力機制的中醫(yī)實體及關(guān)系聯(lián)合抽?。郏剩荩?智能計算機與應(yīng)用, 2023, 13(8): 186-191, 196.
[42] Zhao Z, Tang Y, Cheng Z, et al. ABL-TCM: An AbductiveFramework for Named Entity Recognition in Traditional ChineseMedicine [J]. IEEE Access, 2024: 3454278.
[43] Jia Q, Zhang D, Xu H, et al. Extraction of Traditional ChineseMedicine Entity: Design of a Novel Span-Level Named Entity Rec?ognition Method With Distant Supervision [J]. JMIR Medical Infor?matics, 2021, 9 (6): e28219.
[44] 聞永毅, 王治梅. 中醫(yī)文獻(xiàn)語料庫建設(shè)與頂層設(shè)計芻議[J]. 西部中醫(yī)藥, 2018, 31 (7): 62-65.
[45] Dai H, Liu Z, Liao W, et al. AugGPT: Leveraging ChatGPTfor Text Data Augmentation [J]. arXiv: 2302.13007.
[46] 許欽亞, 薛秋紅, 錢力, 等. 融合ChatGPT 數(shù)據(jù)增強的學(xué)術(shù)論文語步識別方法研究[J]. 圖書情報工作, 2024, 68 (17):84-94.
[47] Li T, Hu Y, Ju A, et al.. Adversarial Active Learning for NamedEntity Recognition in Cybersecurity [ J]. Computers, Materials &Continua, 2021, 66 (1): 407-420.
[48] Tran V, Nguyen N, Fujita H, et al. A Combination of ActiveLearning and Self-learning for Named Entity Recognition on TwitterUsing Conditional Random Fields [J]. Knowledge-Based Systems,2017, 132 (15): 179-17.
[49] Wang B, Lu W. Neural Segmental Hypergraphs for OverlappingMention Recognition [ C] / / Proceedings of the 2018 Conferenceon Empirical Methods in Natural Language Processing, Brussels,Belgium: Association for Computational Linguistics, 2018: 204-214,
[50] Wang B, Lu W, Wang Y, et al. A Neural Transition-basedModel for Nested Mention Recognition [ C] / / Proceedings of the2018 Conference on Empirical Methods in Natural Language Process?ing, Brussels, Belgium: Association for Computational Linguistics,2018: 1011-1017.
[51] Luo Y, Zhao H. Bipartite Flat-Graph Network for Nested NamedEntity Recognition [C] / / Proceedings of the 58th Annual Meetingof the Association for Computational Linguistics, Online: Associa?tion for Computational Linguistics, 2020: 6408-6418.
[52] Xu H, Liu H, Jia Q, et al. A Nested Named Entity RecognitionMethod for Traditional Chinese Medicine Records [J].
[53] Tang B, Hu J, Wang X, et al. Recognizing Continuous and Dis?continuous Adverse Drug Reaction Mentions from Social Media U?sing LSTM-CRF [J]. Wireless Communications and Mobile Com?puting, 2018: 2379208.
[54] Dai X, Karimi S, Hachey B, et al. An Effective Transition -based Model for Discontinuous NER [C] / / Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistics,Online: Association for Computational Linguistics, 2020: 5860-5870.
(責(zé)任編輯: 郭沫含)
基金項目: 國家社會科學(xué)基金冷門絕學(xué)專項研究項目“本草典籍整理、知識組織與智慧化建設(shè)研究” (項目編號: 23VJXT024)。