劉雙巧 周璐 李彩艷 袁慧敏 張異卓 李昱達(dá) 劉錦鋼 鄭豐杰 孫燕 李宇航
摘要 目的:探索構(gòu)建適用于中醫(yī)學(xué)領(lǐng)域的分詞模型。方法:采用基于SentencePiece的無(wú)監(jiān)督學(xué)習(xí)分詞方法,提出利用出版教材、名家著作及中醫(yī)臨床病歷這3種不同類型的文獻(xiàn)構(gòu)建中醫(yī)學(xué)分詞模型;選擇中醫(yī)臨床病歷、名醫(yī)醫(yī)案作為測(cè)試集進(jìn)行模型測(cè)試。結(jié)果:中醫(yī)學(xué)分詞模型在測(cè)試集中的Kappa系數(shù)為0.79(一致性程度很高),準(zhǔn)確率為0.84,宏觀精確率為0.84,宏觀召回率為0.83,宏觀f1得分為0.83。結(jié)論:所構(gòu)建的分詞模型對(duì)于中醫(yī)學(xué)專業(yè)術(shù)語(yǔ)有著較好的切分效果,表明該方法可運(yùn)用于中醫(yī)學(xué)領(lǐng)域的分詞模型的構(gòu)建,可為進(jìn)一步地研究中醫(yī)學(xué)分詞提供方法學(xué)參考。
關(guān)鍵詞 分詞;中文分詞;分詞模型;無(wú)監(jiān)督學(xué)習(xí);無(wú)監(jiān)督分詞;SentencePiece
Research on Modeling of Traditional Chinese Medicine Word Segmentation Model Based on SentencePiece
LIU Shuangqiao,ZHOU Lu,LI Caiyan,YUAN Huimin,ZHANG Yizhuo,LI Yuda,LIU Jingang,ZHENG Fengjie,SUN Yan,LI Yuhang
(School of Traditional Chinese Medicine,Beijing University of Chinese Medicine,Beijing 100029,China)
Abstract Objective:To explore the construction of word segmentation model suitable for the field of traditional Chinese medicine (TCM).Methods:Using the unsupervised learning word segmentation method based on SentencePiece,we proposed to use 3 different types of documents,such as published textbooks,famous works and clinical medical records of TCM,to construct a word segmentation model of TCM; choosed the clinical records of TCM and medical records of famous doctors as the test set for model testing.Results:The Kappa coefficient of the word segmentation model of TCM established in this study was 0.79 (with substantial consistency),the accuracy rate was 0.84,the macro precision rate was 0.84,the macro recall rate was 0.83,and the macro f1 score was 0.83.Conclusion:The word segmentation model constructed by this study has a good segmentation effect on the terminology of TCM,indicating that this method can be applied to the construction of the word segmentation model in the field of TCM,and can provide a methodological reference for further study of TCM word segmentation.
Keywords Word segmentation; Chinese word segmentation; Word segmentation model; Unsupervised learning; Unsupervised word segmentation; Sentence piece
中圖分類號(hào):R2-03文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.issn.1673-7202.2021.06.024
中醫(yī)學(xué)發(fā)展歷程中產(chǎn)生了眾多的醫(yī)學(xué)文獻(xiàn),這些文獻(xiàn)中蘊(yùn)含著豐富的醫(yī)藥知識(shí)及臨證經(jīng)驗(yàn),如何快速有效地從這些文獻(xiàn)中提取信息并加以利用,是中醫(yī)現(xiàn)代化研究過(guò)程中面臨的一大難題。中文分詞是信息處理過(guò)程中的基礎(chǔ)與關(guān)鍵[1],詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分[2],中文分詞即是將沒(méi)有天然分隔符號(hào)(如英文的空格)的漢字序列切分成詞序列,如將“患者發(fā)熱頭痛三天”利用分詞工具切分為“患者”“發(fā)熱”“頭痛”“三天”“。”,即提取句子中的詞匯,以便于進(jìn)一步實(shí)現(xiàn)LDA主題挖掘[3]、命名實(shí)體識(shí)別[4]、信息提取[5]、文本分類[6]等研究。因此,在中醫(yī)學(xué)文獻(xiàn)挖掘研究的過(guò)程中,對(duì)其文本作分詞處理,可以為下一步研究工作打下基礎(chǔ)。
在大眾領(lǐng)域,已有多種開(kāi)源且成熟運(yùn)用的分詞工具,代表性的如結(jié)巴中文分詞[7]、語(yǔ)言技術(shù)平臺(tái)(LTP)[8]、NLPIR-ICTCLAS漢語(yǔ)分詞系統(tǒng)[9]等;除此之外,研究者們根據(jù)其研究領(lǐng)域的特色,運(yùn)用條件隨機(jī)場(chǎng)[10-11]、隱馬爾可夫模型[12]、神經(jīng)網(wǎng)絡(luò)[10-11]、N-gram模型[13]等方式,對(duì)相關(guān)的中文文本進(jìn)行切分,都取得了較好的分詞效果。然而,對(duì)于具有眾多專業(yè)術(shù)語(yǔ)的中醫(yī)學(xué)而言,大眾領(lǐng)域的分詞工具在其專業(yè)性詞匯的切分效果上存在不同的差異[14];并且也有學(xué)者發(fā)現(xiàn),由于現(xiàn)有的分詞工具對(duì)中藥、方劑名詞切分不準(zhǔn)確,會(huì)影響下游作品的質(zhì)量[15]。因此,研發(fā)適合于中醫(yī)學(xué)專業(yè)領(lǐng)域的分詞工具就顯得尤為重要了。張帆等[1]運(yùn)用層疊隱馬模型,結(jié)合中醫(yī)領(lǐng)域詞典,提高了中醫(yī)醫(yī)案文獻(xiàn)詞語(yǔ)切分的準(zhǔn)確率。許林濤等[16]則基于最大正向匹配分詞算法,在中醫(yī)臨床四診信息的詞語(yǔ)切分上,得出最大分詞數(shù)為5時(shí)的切分效果較好。付璐等[17]構(gòu)建了一個(gè)小型的清代醫(yī)籍人工分詞語(yǔ)料庫(kù),并提出中醫(yī)古籍分詞規(guī)范建議,是對(duì)中醫(yī)學(xué)分詞標(biāo)準(zhǔn)的一個(gè)探索。雖然,中醫(yī)學(xué)領(lǐng)域已有學(xué)者對(duì)中醫(yī)分詞展開(kāi)相關(guān)研究,但還沒(méi)有開(kāi)發(fā)出針對(duì)性的分詞工具。因此,本研究提出了一種基于SentencePiece的無(wú)監(jiān)督學(xué)習(xí)的分詞方法,探索構(gòu)建適用于中醫(yī)學(xué)領(lǐng)域的分詞模型,為開(kāi)發(fā)中醫(yī)學(xué)專業(yè)領(lǐng)域的分詞工具做準(zhǔn)備。
1 基于SentencePiece的無(wú)監(jiān)督學(xué)習(xí)分詞方法
SentencePiece是一種簡(jiǎn)單且獨(dú)立于語(yǔ)言的文本標(biāo)記器和去標(biāo)記器,主要用于基于神經(jīng)網(wǎng)絡(luò)的文本生成系統(tǒng),其中在神經(jīng)模型訓(xùn)練之前預(yù)先確定了詞匯量。SentencePiece集合了字節(jié)對(duì)編碼(BPE)和一元語(yǔ)言模型這2種算法,可以直接對(duì)原始語(yǔ)句進(jìn)行訓(xùn)練。其特點(diǎn)是無(wú)需預(yù)先對(duì)源數(shù)據(jù)進(jìn)行人工標(biāo)注,可實(shí)現(xiàn)對(duì)模型參數(shù)的自動(dòng)學(xué)習(xí);可直接由源數(shù)據(jù)生成詞匯表,清晰展示所學(xué)習(xí)到的詞匯;對(duì)于無(wú)空格的源數(shù)據(jù)語(yǔ)言,有較好的分詞效率;語(yǔ)言獨(dú)立,具有多個(gè)分詞模式;自動(dòng)進(jìn)行子詞正則化,運(yùn)行速度快[18]。自這種無(wú)監(jiān)督學(xué)習(xí)的分詞方法問(wèn)世以來(lái),已被成功運(yùn)用于蛋白質(zhì)序列切分[19]、機(jī)器翻譯[20]等研究,可見(jiàn),這是一種不區(qū)分語(yǔ)言類型的序列語(yǔ)言切分方法。將SentencePiece引入中醫(yī)分詞領(lǐng)域,研究構(gòu)建中醫(yī)學(xué)專業(yè)領(lǐng)域的分詞模型,可以有效地提高中醫(yī)文本的詞語(yǔ)切分效果,可為中醫(yī)分詞工具的研發(fā)提供方法學(xué)參考。
2 資料采集
2.1 資料來(lái)源 本研究所用資料來(lái)源于錄入計(jì)算機(jī)的全國(guó)中醫(yī)藥行業(yè)高等教育“十二五”規(guī)劃教材《中醫(yī)診斷學(xué)》《方劑學(xué)》《中醫(yī)內(nèi)科學(xué)》,名家著作《傷寒論詮解》《肝病證治概要》《經(jīng)方臨證指南》《傷寒論十四講》《傷寒論通俗講話》《新編傷寒論類方》《傷寒論臨證指要》和《劉渡舟臨證驗(yàn)案精選》,以及中國(guó)中醫(yī)科學(xué)院“名醫(yī)名家傳承”項(xiàng)目管理平臺(tái)[21]內(nèi)的眾多中醫(yī)臨證驗(yàn)案。
2.2 數(shù)據(jù)集 將收集的資料分為訓(xùn)練集、開(kāi)發(fā)集、測(cè)試集這3個(gè)數(shù)據(jù)集。臨證驗(yàn)案是中醫(yī)理法方藥信息的具體體現(xiàn),且中醫(yī)臨床信息記錄較為完善。因此,開(kāi)發(fā)集與測(cè)試集的資料選擇上,以醫(yī)案為主,兼顧資料的公開(kāi)性,選擇《傷寒論臨證指要》與《劉渡舟臨證驗(yàn)案精選》中的名家醫(yī)案205篇,中醫(yī)臨證驗(yàn)案173篇,共計(jì)378篇文檔,作為模型測(cè)試數(shù)據(jù),并隨機(jī)分為開(kāi)發(fā)集、測(cè)試集各189篇文檔;其余資料歸為訓(xùn)練集,做模型構(gòu)建使用。各集字?jǐn)?shù)及所占比例如表1所示。
3 實(shí)驗(yàn)方法
3.1 模型構(gòu)建 1)程序準(zhǔn)備:下載并安裝Python 3.7.0(https://www.python.org/)、SentencePiece算法包(https://pypi.org/project/sentencepiece/),構(gòu)建基于SentencePiece分詞的Python程序環(huán)境,設(shè)計(jì)將模型分詞結(jié)果保存為brat文本標(biāo)注系統(tǒng)(http://brat.nlplab.org/)的存儲(chǔ)格式,包括.txt格式文檔和對(duì)應(yīng)的.ann格式文檔。2)模型訓(xùn)練:本研究基于SentencePiece構(gòu)建中醫(yī)分詞模型,對(duì)包含出版教材、名家著作及中醫(yī)臨床病歷這3種不同類型的文獻(xiàn)所形成的數(shù)據(jù)集進(jìn)行訓(xùn)練;其中,建模參數(shù)主要參照SentencePiece所推薦的建模參數(shù),character_coverage(模型中覆蓋的字符數(shù))設(shè)置為0.999 5,model_type(訓(xùn)練使用的模型)設(shè)置為unigram,根據(jù)本研究實(shí)際情況,只調(diào)整“vocab_size(訓(xùn)練出的詞庫(kù)大?。边@一個(gè)參數(shù)值。模型訓(xùn)練包含2種方法:a.不對(duì)文本做去停用詞處理,直接以構(gòu)建的模型對(duì)未經(jīng)加工的訓(xùn)練集原始數(shù)據(jù)作模型訓(xùn)練。b.在模型訓(xùn)練之前,通過(guò)調(diào)整參數(shù),構(gòu)建多個(gè)中醫(yī)分詞模型。預(yù)先設(shè)置從1萬(wàn)詞匯量開(kāi)始,每訓(xùn)練一次增加2萬(wàn)詞匯量。根據(jù)以上2種方法,依賴訓(xùn)練集數(shù)據(jù),共訓(xùn)練出11個(gè)分詞模型,對(duì)應(yīng)生成11個(gè)可視化分詞詞匯表。3)篩選建模參數(shù):利用開(kāi)發(fā)集評(píng)價(jià)不通模型的分詞效果,篩選出最佳的建模參數(shù),共包含4個(gè)步驟。第1步:運(yùn)用不同的分詞模型,同樣不對(duì)文本進(jìn)行去停用詞處理,直接以開(kāi)發(fā)集原始數(shù)據(jù)進(jìn)行文本切分。第2步:利用brat文本標(biāo)注系統(tǒng)對(duì)分詞結(jié)果進(jìn)行校正,以形成人工分詞標(biāo)準(zhǔn)。人工校正參考文獻(xiàn)[22]中的分詞規(guī)范對(duì)模型分詞結(jié)果進(jìn)行校正,結(jié)合此次研究建模文獻(xiàn)的實(shí)際情況,對(duì)分詞規(guī)范作部分調(diào)整:對(duì)于規(guī)范中提到的以“歐陽(yáng)修”類全名稱出現(xiàn)的人名,切分為一個(gè)詞語(yǔ),若以“歐陽(yáng)某”類出現(xiàn)的人名,則切分為“歐陽(yáng)/某”;醫(yī)學(xué)專業(yè)術(shù)語(yǔ)以詞語(yǔ)能夠表達(dá)一個(gè)基本的醫(yī)學(xué)概念(如疾病、病機(jī)、癥狀、方劑、藥物、治法等)為標(biāo)準(zhǔn)進(jìn)行切分,例如“胸痹”表達(dá)一個(gè)中醫(yī)疾病概念,不進(jìn)行切分;建模文獻(xiàn)中涉及少量的醫(yī)古文內(nèi)容,由于古代漢語(yǔ)單音詞、復(fù)音詞夾雜,對(duì)于醫(yī)古文部分,以漢字表達(dá)一個(gè)詞語(yǔ)概念為標(biāo)準(zhǔn)進(jìn)行切分,如“傷于風(fēng)者”“傷”可以理解為“侵襲”“于”可以理解為“受到”,“風(fēng)”可以理解為“風(fēng)邪”,“者”為助詞,那么“傷于風(fēng)者”則切分為“傷/于/風(fēng)/者/”[22]。第3步:將開(kāi)發(fā)集各模型分詞結(jié)果與人工標(biāo)準(zhǔn)轉(zhuǎn)寫(xiě)為標(biāo)準(zhǔn)的BIOES前綴形式的數(shù)據(jù)格式(B即Begin,I即Intermediate,O即Other,E即End,S即Single)[23-24]。在本研究中,B表示切分詞匯的第一個(gè)文字,I表示切分詞匯的中間文字,O表示未被切分的文字,E表示切分詞匯的最后一個(gè)文字,S表示切分詞匯僅有一個(gè)文字。由于模型分詞是針對(duì)文本內(nèi)所有數(shù)據(jù)進(jìn)行的,所以本研究中無(wú)“O”字格式的數(shù)據(jù)。第4步:以各模型對(duì)開(kāi)發(fā)集文本分詞的準(zhǔn)確率、宏觀精確率、宏觀召回率和宏觀f1得分來(lái)評(píng)價(jià)不同參數(shù)所建模型的表現(xiàn),確定建模參數(shù),并以召回率為最終參數(shù)選擇標(biāo)準(zhǔn),優(yōu)先選擇召回率最高的模型,以使內(nèi)容獲取更為全面;同時(shí),比較其與人工校正分詞間的一致性,綜合篩選出最佳的建模參數(shù)。
3.2 模型測(cè)試 將構(gòu)建的中醫(yī)分詞模型設(shè)置為最佳的建模參數(shù),對(duì)測(cè)試集文本進(jìn)行切分,驗(yàn)證模型的有效性。文本分詞步驟同開(kāi)發(fā)集前3步,最后與人工校正結(jié)果相比較,計(jì)算模型切分詞語(yǔ)的準(zhǔn)確率、宏觀精確率、宏觀召回率、宏觀f1得分。
3.3 評(píng)價(jià)方法 本研究通過(guò)scikit-learn 0.19(https://scikit-learn.org/stable/)計(jì)算模型分詞結(jié)果的準(zhǔn)確率、宏觀精確率、宏觀召回率、宏觀f1得分,運(yùn)用IBM SPSS Statistics 26計(jì)算模型分詞結(jié)果與人工標(biāo)準(zhǔn)間的Kappa系數(shù)(Kappa系數(shù)小于0.2,說(shuō)明一致性程度較差;在0.2~0.4之間,說(shuō)明一致性程度一般;在0.4~0.6之間,說(shuō)明一致性程度中等;在0.6~0.8之間,說(shuō)明一致性程度很高;在0.8~1.0之間,說(shuō)明幾乎完全一致),比較其一致性。
4 實(shí)驗(yàn)結(jié)果
4.1 開(kāi)發(fā)集實(shí)驗(yàn)結(jié)果
4.1.1 各分詞模型一致性檢驗(yàn) 各分詞模型一致性檢驗(yàn)結(jié)果如圖1所示。結(jié)果表明,11個(gè)分詞模型中,詞匯量設(shè)置為5萬(wàn)時(shí)的分詞模型與人工校正分詞結(jié)果的一致性程度很高,提示當(dāng)“vocab_size”設(shè)置為5萬(wàn)時(shí)的分詞模型具有最好的分詞能力。
4.1.2 各分詞模型的準(zhǔn)確率、宏觀精確率、宏觀召回率、宏觀f1得分 不同分詞模型的準(zhǔn)確率、宏觀精確率、宏觀召回率、宏觀f1得分如圖2所示。縱觀11個(gè)分詞模型中,當(dāng)詞匯量設(shè)置為5萬(wàn)時(shí),分詞模型的宏觀召回率得分最高,表明該模型具有最佳的分詞效果;同時(shí),比較分詞的準(zhǔn)確率、宏觀精確率、和宏觀f1得分,亦可以看出詞匯量預(yù)設(shè)為5萬(wàn)時(shí),模型分詞效果最好,這正好與一致性檢驗(yàn)結(jié)果相呼應(yīng)。其中,該模型開(kāi)發(fā)集BIOES數(shù)據(jù)結(jié)構(gòu)切分字符數(shù)如表2所示,精確率、召回率、f1得分如表3所示。綜合4.1.1和4.1.2結(jié)果,可以看出當(dāng)模型生成的詞匯量設(shè)置為5萬(wàn)時(shí),建模模型分詞效果最好,為最佳的分詞模型。此時(shí),所建模型的最佳參數(shù)設(shè)置如表4所示。
4.2 測(cè)試集實(shí)驗(yàn)結(jié)果 利用最佳建模參數(shù)所構(gòu)建的分詞模型對(duì)測(cè)試集文本進(jìn)行切分,其準(zhǔn)確率為0.84、宏觀精確率為0.84、宏觀召回率為0.83、宏觀f1得分為0.83、Kappa系數(shù)為0.79(一致性程度很高)。結(jié)果顯示,最佳分詞模型在測(cè)試集與開(kāi)發(fā)集的分詞效果上基本相同,提示所構(gòu)建的分詞模型具有較好的分詞效果。其中,該模型在測(cè)試集上BIOES數(shù)據(jù)結(jié)構(gòu)切分字符數(shù)如表5所示,精確率、召回率、f1得分如表6所示。從這2個(gè)表格可以看出,該模型對(duì)B類、I類、E類、S類數(shù)據(jù)結(jié)構(gòu)的分詞效果同開(kāi)發(fā)集相似,都是I類數(shù)據(jù)切分效果較差,S類數(shù)據(jù)切分效果最好,將表5結(jié)果以混合矩陣圖(圖3)的形式顯示,可以清晰地展現(xiàn)出各類數(shù)據(jù)結(jié)構(gòu)間的差異。
5 討論
現(xiàn)今的中醫(yī)學(xué)知識(shí)多以非結(jié)構(gòu)化形式被存儲(chǔ)于各類型的文本中,使得這些文本成為為科研、教學(xué)以及臨證提供豐富的理論知識(shí)與實(shí)踐經(jīng)驗(yàn)的知識(shí)載體。然而,中醫(yī)學(xué)文獻(xiàn)眾多,信息龐雜,這就為知識(shí)的準(zhǔn)確提取利用帶來(lái)了難題,單純依靠人力去獲取這些有效信息便是一項(xiàng)既耗時(shí)又復(fù)雜的工程,所以,運(yùn)用計(jì)算機(jī)技術(shù)提取信息便成為當(dāng)今研究的熱點(diǎn)與難點(diǎn)。對(duì)中醫(yī)學(xué)文本進(jìn)行分詞處理,可以使計(jì)算機(jī)能夠識(shí)別相關(guān)信息,達(dá)到計(jì)算機(jī)較為精確地提取信息的目的,為L(zhǎng)DA主題挖掘、命名實(shí)體識(shí)別、信息提取、文本分類等研究提供基礎(chǔ)性的支撐。
SentencePiece是一種有效的文本分詞方法,依賴字節(jié)對(duì)編碼(BPE)和一元語(yǔ)言模型這2種算法,可以有效實(shí)現(xiàn)漢字序列的切分。本研究基于SentencePiece子詞切分算法,以出版教材、名家著作和中醫(yī)臨床病歷為模型構(gòu)建數(shù)據(jù),構(gòu)建出適合于中醫(yī)電子文本的分詞模型。運(yùn)用這種算法所構(gòu)建的中醫(yī)分詞模型,無(wú)需對(duì)文本去停用詞處理,無(wú)需加入自定義詞典,無(wú)需預(yù)先對(duì)訓(xùn)練文本進(jìn)行人工分詞,純粹依賴數(shù)據(jù)驅(qū)動(dòng),大為提升研究效率。并且,由于SentencePiece分詞方法是針對(duì)漢字序列的切分,即是針對(duì)字與字的組合的切分,因此,當(dāng)出現(xiàn)一個(gè)固定漢字組合時(shí),計(jì)算機(jī)則把這個(gè)固定組合當(dāng)做一個(gè)詞語(yǔ)來(lái)切分。例如,“處方:瓜蔞薤白半夏湯”。這句話,模型在訓(xùn)練時(shí)已經(jīng)學(xué)習(xí)到漢字“處”“方”所組成的固定詞語(yǔ)“處方”“瓜”“蔞”“薤”“白”“半”“夏”“湯”所組成的固定詞語(yǔ)“瓜蔞薤白半夏湯”,因此,計(jì)算機(jī)在分詞時(shí)會(huì)自動(dòng)將其作為一個(gè)單獨(dú)的詞語(yǔ)來(lái)切分,切分結(jié)果為:“處方/:/瓜蔞薤白半夏湯/。/”。采用這種方式構(gòu)建的中醫(yī)分詞模型,對(duì)疾病、病機(jī)、癥狀、中藥、方劑等專業(yè)醫(yī)學(xué)詞匯都具有較好的切分效果,非常適用于專業(yè)術(shù)語(yǔ)較多的醫(yī)學(xué)文本分詞,使得專業(yè)術(shù)語(yǔ)的切分結(jié)果可有效的運(yùn)用于數(shù)據(jù)提取研究工作。
就本研究而言,從文本切分的準(zhǔn)確率、宏觀精確率、宏觀召回率和宏觀f1得分看,構(gòu)建的模型在開(kāi)發(fā)集與測(cè)試集的文本分詞上,都取得了較好的分詞效果,與人工校正結(jié)果比較,都具有較強(qiáng)一致性;并且,開(kāi)發(fā)集和測(cè)試集的BIOES數(shù)據(jù)結(jié)構(gòu)的精確率、召回率和f1得分顯示,二者差距甚小,表明本研究模型成功構(gòu)建。但是,就分詞結(jié)果的BIOES數(shù)據(jù)結(jié)構(gòu)而言,以人工校正結(jié)果為參照,比較其他類別的數(shù)據(jù)結(jié)構(gòu),表5、表6中的結(jié)果顯示出S-Segment類數(shù)據(jù)切分的效果最好,其召回率達(dá)到91%,考慮為本研究以原始數(shù)據(jù)的形式進(jìn)行切分,文本中有較多的標(biāo)點(diǎn)符號(hào),模型會(huì)將其當(dāng)做一個(gè)單獨(dú)的漢字進(jìn)行切分,這就會(huì)提高模型對(duì)于S-Segment類數(shù)據(jù)的切分效果。然而,模型預(yù)測(cè)的I-Segment類數(shù)據(jù)切分效果較差,從圖3可以看出,分詞模型錯(cuò)將I-Segment類預(yù)測(cè)為8%的B-Segment類、12%的E-Segment類和6%的S-Segment類。
之所以出現(xiàn)這種情況,回顧模型分詞結(jié)果發(fā)現(xiàn),雖然此模型對(duì)于醫(yī)學(xué)專業(yè)術(shù)語(yǔ)具有較好的切分效果,但是出現(xiàn)如“胸悶心慌”“胸悶憋氣”這類無(wú)標(biāo)點(diǎn)符號(hào)或連詞分隔的醫(yī)學(xué)術(shù)語(yǔ),計(jì)算機(jī)在學(xué)習(xí)時(shí)會(huì)自動(dòng)將其作為一個(gè)詞語(yǔ)進(jìn)行切分;對(duì)于醫(yī)案中出現(xiàn)的某些藥物名稱,如“強(qiáng)的松”,當(dāng)出現(xiàn)“服強(qiáng)的松”這種漢字序列時(shí),由于計(jì)算機(jī)學(xué)習(xí)時(shí)錯(cuò)誤地將其當(dāng)做一個(gè)詞語(yǔ)來(lái)學(xué)習(xí),因此在模型分詞時(shí)不會(huì)對(duì)其切分。在非醫(yī)學(xué)術(shù)語(yǔ)的識(shí)別上,對(duì)于人名、地名或常用詞語(yǔ)等的識(shí)別,由于出現(xiàn)的頻率較低,計(jì)算機(jī)沒(méi)有學(xué)習(xí)到該類詞語(yǔ),在切分時(shí)則會(huì)將其切分為單獨(dú)的文字,例如對(duì)于劉渡舟教授的別稱“劉老”二字,計(jì)算機(jī)將其切分為2個(gè)單獨(dú)的文字“劉”和“老”;并且,依據(jù)分詞切分標(biāo)準(zhǔn)來(lái)看,分詞模型對(duì)于“某年某月某日”這種格式的時(shí)間詞語(yǔ),識(shí)別效果較差,例如“1991年5月25日”會(huì)將其切分為“1991/年/5/月/25/日/”。
分詞模型出現(xiàn)上述某類詞語(yǔ)切分不理想的現(xiàn)象,考慮為建模數(shù)據(jù)內(nèi)包含較多的醫(yī)學(xué)詞匯,所以對(duì)醫(yī)學(xué)詞匯的識(shí)別效果較好,而對(duì)人名、地名、時(shí)間詞等的識(shí)別效果較差。針對(duì)這些現(xiàn)象,1)可以增加非醫(yī)學(xué)類訓(xùn)練樣本,豐富模型學(xué)習(xí)的人名、地名、時(shí)間詞等詞匯量,例如加入諸如人民日?qǐng)?bào)這種包含較多人名、地名及時(shí)間詞等的數(shù)據(jù)樣本,以供模型學(xué)習(xí)使用,提高其識(shí)別效率;2)可以在人工校正的基礎(chǔ)上,將其作為訓(xùn)練文本,結(jié)合條件隨機(jī)場(chǎng)(CRF)、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)等方法,構(gòu)建一個(gè)有監(jiān)督學(xué)習(xí)的分詞模型,以提高模型分詞的準(zhǔn)確性。
6 結(jié)論
本研究基于SentencePiece子詞切分算法所構(gòu)建的中醫(yī)分詞模型,直接以原始數(shù)據(jù)的形式達(dá)到詞語(yǔ)切分的目的,在中醫(yī)學(xué)專業(yè)術(shù)語(yǔ)的切分上有著較大的優(yōu)勢(shì),可為中醫(yī)學(xué)分詞模型的構(gòu)建提供新的建模方法。使用這種算法所構(gòu)建的無(wú)監(jiān)督學(xué)習(xí)的中醫(yī)學(xué)分詞模型,由于對(duì)疾病、病機(jī)、癥狀、中藥、方劑等專業(yè)醫(yī)學(xué)詞匯具有較好的切分效果,其分詞結(jié)果可以有效地運(yùn)用于下一步研究過(guò)程中,并且,還可以在此基礎(chǔ)上輔助人工分詞,很大程度地節(jié)省人工分詞的時(shí)間;其次,還可以以此為基礎(chǔ),建立一個(gè)更為專業(yè)的中醫(yī)學(xué)分詞模型。此次建立的中醫(yī)分詞模型將分享于https://github.com/網(wǎng)站,名為T(mén)CM-Word Segmentation。
參考文獻(xiàn)
[1]張帆,劉曉峰,孫燕.中醫(yī)醫(yī)案文獻(xiàn)自動(dòng)分詞研究[J].中國(guó)中醫(yī)藥信息雜志,2015,22(2):38-41.
[2]朱德熙.語(yǔ)法講義[M].北京:商務(wù)印書(shū)館,1982:11.
[3]劉子晴.鄧鐵濤學(xué)術(shù)理論文獻(xiàn)傳播復(fù)雜網(wǎng)絡(luò)構(gòu)建及文本主題分析[D].廣州:廣州中醫(yī)藥大學(xué),2017.
[4]原旎,盧克治,袁玉虎,等.基于深度表示的中醫(yī)病歷癥狀表型命名實(shí)體抽取研究[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2018,20(3):355-362.
[5]梁禮鏗,黎敬波.基于最大概率法探討中醫(yī)癥狀信息提取與標(biāo)準(zhǔn)化[J].中華中醫(yī)藥雜志,2017,32(5):2159-2162.
[6]趙漢青,王志國(guó).基于機(jī)器學(xué)習(xí)的中醫(yī)學(xué)派文本分類研究[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2018,27(12):7-11.
[7]石鳳貴.基于jieba中文分詞的中文文本語(yǔ)料預(yù)處理模塊實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2020,16(14):248-251,257.
[8]Wanxiang Che,Zhenghua Li,Ting Liu.LTP:A Chinese Language Technology Platform.In Proceedings of the Coling 2010:Demonstrations[C].Beijing,China.2010.Beijing:Tsinghua University Press,2010.
[9]Zhang HP,Yu HK,Xiong D,et al.HHMM-based Chinese lexical analyzer ICTCLAS.Proceedings of the second SIGHAN workshop on Chinese language processing[C].Sapporo,Japan.2003.Stroudsburg,PA:Association for Computational Linguistics,2003.
[10]車(chē)金立,唐力偉,鄧士杰,等.基于BI-GRU-CRF模型的中文分詞法[J].火力與指揮控制,2019,44(9):66-71,77.
[11]程博,李衛(wèi)紅,童昊昕.基于BiLSTM-CRF的中文層級(jí)地址分詞[J].地球信息科學(xué)學(xué)報(bào),2019,21(8):1143-1151.
[12]蔣衛(wèi)麗,陳振華,邵黨國(guó),等.基于領(lǐng)域詞典的動(dòng)態(tài)規(guī)劃分詞算法[J].南京理工大學(xué)學(xué)報(bào),2019,43(1):63-71.
[13]鳳麗洲,楊貴軍,徐雪,等.基于N-gram的雙向匹配中文分詞方法[J].數(shù)理統(tǒng)計(jì)與管理,2020,39(4):633-643.
[14]楊海豐,陳明亮,趙臻.常用中文分詞軟件在中醫(yī)文本文獻(xiàn)研究領(lǐng)域的適用性研究[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2017,19(3):536-541.
[15]龔德山,梁文昱,張冰珠,等.命名實(shí)體識(shí)別在中藥名詞和方劑名詞識(shí)別中的應(yīng)用[J].中國(guó)藥事,2019,33(6):710-716.
[16]許林濤,葉欣欣,裴成飛,等.中文分詞模型在中醫(yī)病癥語(yǔ)義理解中的研究與應(yīng)用[J].軟件工程,2020,23(4):15-18.
[17]付璐,李思,李明正,等.以清代醫(yī)籍為例探討中醫(yī)古籍分詞規(guī)范標(biāo)準(zhǔn)[J].中華中醫(yī)藥雜志,2018,33(10):4700-4705.
[18]Kudo T,Richardson J.SentencePiece:A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing:System Demonstrations[C].Brussels,Belgium.2018.Stroudsburg,PA:Association for Computational Linguistics,2018.
[19]Wang Y,You Z H,Yang S,et al.A high efficient biological language model for predicting protein-protein interactions[J].Cells,2019,8(2):122.
[20]項(xiàng)青宇.基于子詞切分的句子級(jí)別神經(jīng)機(jī)器譯文質(zhì)量估計(jì)方法[D].南昌:江西師范大學(xué),2019.
[21]張潤(rùn)順,謝琪,李鯤,等.中國(guó)中醫(yī)科學(xué)院“名醫(yī)名家傳承”項(xiàng)目管理平臺(tái)設(shè)計(jì)及應(yīng)用[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2016,18(5):761-768.
[22]俞士汶,段慧明,朱學(xué)鋒,等.北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范[J].中文信息學(xué)報(bào),2002,16(5):49-64.
[23]Ratinov L,Roth D.Design challenges and misconceptions in named entity recognition.Proceedings of the Thirteenth Conference on Computational Natural Language Learning(CoNLL-2009)[C].Boulder,Colorado.2009.Stroudsburg,PA:Association for Computational Linguistics,2009.
[24]Legrand J,Collobert R.Recurrent Greedy Parsing with Neural Networks.Joint European Conference on Machine Learning and Knowledge Discovery in Databases[C].Nancy,F(xiàn)rance.2014.Berlin,Heidelberg:Springer,2014.
(2020-07-07收稿 責(zé)任編輯:王明)