機器學(xué)習(xí)在方劑研究中的應(yīng)用概述

2021-07-25 00:21:52高婉卿程寧李力松黃辛迪丁長松

中國中醫(yī)藥信息雜志 2021年6期

高婉卿，程寧，李力松，黃辛迪，丁長松

高婉卿1，程寧1，李力松1，黃辛迪1，丁長松1，2

1.湖南中醫(yī)藥大學(xué)，湖南長沙 410208；2.湖南省中醫(yī)藥大數(shù)據(jù)分析實驗室（丁長松），湖南長沙 410208

隨著信息技術(shù)的發(fā)展及大數(shù)據(jù)、人工智能的普及，中醫(yī)現(xiàn)代化研究得到極大發(fā)展。為探究辨證論治、組方配伍本質(zhì)規(guī)律，方劑研究成為中醫(yī)傳承與發(fā)展的重要內(nèi)容。為實現(xiàn)智能化中醫(yī)診療，根據(jù)病癥自動推薦準(zhǔn)確有效的方劑成為研究關(guān)鍵。本文對近年來機器學(xué)習(xí)在方劑領(lǐng)域中的應(yīng)用進行梳理，將聚類、支持向量機、關(guān)聯(lián)規(guī)則等傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)技術(shù)的特點及其在方劑研究中的應(yīng)用進行比較；分析機器學(xué)習(xí)在方劑研究中遇到的困境及其相應(yīng)的解決辦法；指出機器學(xué)習(xí)在方劑研究中的趨勢，并對其前景進行展望。

機器學(xué)習(xí)；中醫(yī)；方劑；客觀化；智能化；綜述

機器學(xué)習(xí)以計算機為工具模擬人類思維方式，通過學(xué)習(xí)知識和技能解決問題，在計算機視覺、自然語言處理、搜索技術(shù)、語音識別、推薦等諸多領(lǐng)域得到廣泛應(yīng)用。決策樹、聚類、關(guān)聯(lián)規(guī)則等傳統(tǒng)機器學(xué)習(xí)算法通過提取樣本的數(shù)據(jù)特征分析其內(nèi)在規(guī)律，往往適用于小樣本集。深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域中新的研究方向，將原始數(shù)據(jù)通過非線性模型映射為更高層次、更抽象的向量表示，通過足夠多的映射來學(xué)習(xí)復(fù)雜關(guān)系以解決實際問題，具有良好的泛化能力[1-2]。近年來在輔助醫(yī)療、醫(yī)學(xué)影像、藥物挖掘等方面發(fā)揮了重要作用[3]。

歷代醫(yī)家留下的海量醫(yī)案中蘊藏著醫(yī)家思想，借助信息技術(shù)對中醫(yī)臨床案例、方劑數(shù)據(jù)進行分析，挖掘其內(nèi)在組方配伍規(guī)律，是中醫(yī)傳承與發(fā)展的有效途徑。傳統(tǒng)機器學(xué)習(xí)方法因其小樣本適應(yīng)性、可解釋性已在方劑領(lǐng)域取得很多成果，而深度學(xué)習(xí)技術(shù)目前應(yīng)用雖少，但其結(jié)構(gòu)、學(xué)習(xí)方式適用于擬合中醫(yī)辨證論治、組方配伍思想，近年來在中醫(yī)面診[4]、中藥鑒定[5-6]等方面展開應(yīng)用研究。本文對機器學(xué)習(xí)在方劑研究領(lǐng)域的現(xiàn)狀進行梳理，分析目前機器學(xué)習(xí)在該領(lǐng)域開展研究所面臨的挑戰(zhàn)，并結(jié)合中醫(yī)藥數(shù)據(jù)特點提出解決思路，為機器學(xué)習(xí)技術(shù)在方劑領(lǐng)域的進一步研究提供參考和依據(jù)，也為信息技術(shù)在中醫(yī)傳承與創(chuàng)新過程中的應(yīng)用提供新思路。

1 傳統(tǒng)機器學(xué)習(xí)

1.1 聚類

聚類算法基于數(shù)據(jù)內(nèi)部結(jié)構(gòu)，通過聚類使同類型樣本具有較高相似性，不同類樣本具有明顯差異。常用于方劑與藥物研究的代表性聚類算法為K-Means[7]。

對治療某病的大量方劑進行聚類，以得到的聚類特征推測方劑治療準(zhǔn)則、組方規(guī)律。如趙新等[8]收集全國17個省市中醫(yī)藥預(yù)防新型冠狀病毒64首方，基于熵聚類得到8個常用藥物組合，使用無監(jiān)督熵層次聚類算法挖掘出7個潛在新方。裴衛(wèi)等[9]運用K-Means方法對589首中醫(yī)治療肝硬化方中涉及的257味中藥進行聚類分析，并利用復(fù)雜網(wǎng)絡(luò)對比驗證，顯示聚類中心個數(shù)為5時，類別特征區(qū)分度較高。

為研究中醫(yī)治療疾病的藥物功效、性味歸經(jīng)等特性規(guī)律，常對治療該病的中藥進行聚類，進而探究組方配伍規(guī)律。李國春等[10]采用K-Means算法對半夏瀉心湯治療慢性胃炎臨床用藥進行分析，發(fā)現(xiàn)半夏瀉心湯7味中藥藥物組合呈規(guī)律性變化，有的藥物組合以清熱作用為主，有的以補益作用為主。賈海女等[11]對治療惡性胸腔積液的127首方劑經(jīng)聚類分析，得到28個常用藥物組合及7個新方劑。為分析藥物屬性與配伍關(guān)系，金滋力等[12]采用層次分析與聚類方法將藥物屬性進行聚類，分析屬性對規(guī)律配伍的作用，結(jié)果顯示大部分禁忌配伍組合與常規(guī)藥物組合的聚類結(jié)果具有明顯差異。聚類分析主要從宏觀角度對疾病、癥狀、藥物等進行分類，偏向整體特性，結(jié)果呈現(xiàn)概括性評價，難以挖掘出具體的診療規(guī)律。聚類算法的性能在很大程度上依賴于輸入特征構(gòu)建的特征空間結(jié)構(gòu)，聚類結(jié)果需結(jié)合專業(yè)知識進行判斷，導(dǎo)致數(shù)據(jù)標(biāo)簽具有主觀性，不利于研究問題的本質(zhì)。

1.2 支持向量機

通過SVM對方劑的功能分類，分析同類方劑共有特征，以探尋中藥配伍的本質(zhì)規(guī)律。高全泉等[16]將10 000余首方劑作為實驗對象，訓(xùn)練SVM分類器以預(yù)測新藥物組合歸屬的中醫(yī)治法類別。Xie等[17]對獲取的中醫(yī)治療信息采用TF-IDF構(gòu)建特征向量，根據(jù)不同SVM分類模型對未標(biāo)注數(shù)據(jù)進行人工標(biāo)注，為后期利用神經(jīng)網(wǎng)絡(luò)預(yù)測方劑與疾病之間的關(guān)系做準(zhǔn)備工作。

通過SVM對方劑臨床使用有效性進行劃分，以預(yù)測新藥物組合是否對疾病或證候發(fā)揮作用。Wang等[18]將575首知名方劑作為正樣本、隨機組合生成1961個非常規(guī)方劑為負(fù)樣本構(gòu)成訓(xùn)練集輸入SVM分類器，該模型在測試集上得到十分理想的分類效果。金滋力等[12]采用SVM分析方劑配伍數(shù)據(jù)，對藥物配伍可行性進行預(yù)測建模，結(jié)果表明在線性SVM模型下，方劑功效預(yù)測準(zhǔn)確率均可達(dá)90%。Pan等[19]為檢驗方劑是否有效，利用SVM結(jié)構(gòu)風(fēng)險最小原則，對方劑進行初步診斷，有效降低了錯診概率。

SVM在分類性能、泛化性能上表現(xiàn)較好，然而由于SVM空間消耗主要為訓(xùn)練樣本的存儲、核矩陣的計算，借助二次規(guī)劃求解支持向量，涉及m階矩陣的計算，當(dāng)樣本數(shù)目很大時，矩陣的存儲和計算將耗費大量機器內(nèi)存和運算時間，因此在大規(guī)模訓(xùn)練樣本上難以實施。然而中醫(yī)方劑領(lǐng)域的功效分類不僅是多分類問題，更是多標(biāo)簽問題，對于該類問題的處理更為復(fù)雜。

1.3 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則從數(shù)據(jù)集中探尋當(dāng)前數(shù)據(jù)與其他數(shù)據(jù)事物或特征之間相互依存和關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則挖掘信息主要包含兩個階段：第一階段從數(shù)據(jù)集中找出所有高頻項目組；第二階段由高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則，以支持度衡量規(guī)則的普遍性，以置信度衡量規(guī)則的可靠度。常見的關(guān)聯(lián)規(guī)則算法有Apriori、FP-樹頻集算法。關(guān)聯(lián)規(guī)則算法簡單，易被接受與解釋，在探尋方劑高頻藥對、以病類方用藥研究、以證類方關(guān)聯(lián)規(guī)則挖掘中得到廣泛應(yīng)用。

高頻藥組對組方配伍、方劑功效具有重要作用。白明等[20]整理中醫(yī)古籍中相似疾病組方，使用關(guān)聯(lián)規(guī)則總結(jié)其中內(nèi)涵，尋找潛在的中藥配伍規(guī)律，得到甘草與桔梗、甘草與防風(fēng)、甘草與羌活等關(guān)聯(lián)度較高的12個藥對。季濤等[21]采用關(guān)聯(lián)規(guī)則方法探究治療消渴癥用藥特點及規(guī)律，得到出現(xiàn)頻次10次以上藥對為人參-甘草、甘草-麥冬、人參-麥冬等187對3味中藥藥對包括人參-甘草-麥冬、天花粉-麥冬-黃連、天花粉-甘草-麥冬等117對，以及高頻次的4味藥對。

以病類方即針對具體疾病，探究其用藥規(guī)律。楊艷平[22]采用關(guān)聯(lián)規(guī)則Apriori算法分析133首治療銀屑病方劑，挖掘出20個核心藥物組合、10首可用于治療銀屑病新方劑。寧江等[23]對459例尋常型銀屑病醫(yī)案涉及的358味中藥進行頻數(shù)統(tǒng)計和關(guān)聯(lián)規(guī)則分析，發(fā)現(xiàn)銀屑病遣方用藥多考慮清熱涼血、補血活血、祛風(fēng)解毒之品。劉嘉輝等[24]研究治療肝硬化用藥規(guī)律，對63個醫(yī)案中方劑藥物的功效、性味歸經(jīng)進行描述性統(tǒng)計，對高頻藥物進行關(guān)聯(lián)分析，得到5個置信度近100%的核心藥物組。

以證類方即針對具體證型，找出治療該類證的用藥規(guī)律。李欣等[25]統(tǒng)計治療尋常型銀屑病進行期血熱證的14類101味中藥，運用經(jīng)典統(tǒng)計和集對分析方法從中得到常用中藥22味。郭宏等[26]以符合標(biāo)準(zhǔn)的56例鼻鼽患者為研究對象，分析方劑中藥物的使用頻次，運用Apriori算法探討鼻鼽藥物配伍規(guī)律，挖掘出功效較強藥物，并得出鼻鼽“寒熱錯雜，虛實并見”證型中的特殊強關(guān)聯(lián)藥對。

關(guān)聯(lián)分析挖掘出的知識有限，僅考慮了并發(fā)情況，一般局限于某個術(shù)語與其他術(shù)語共現(xiàn)頻次較高的情況。然而方劑中有些中藥出現(xiàn)頻次較高，如“甘草”“大棗”等常以臣藥或佐藥的身份出現(xiàn)，但對方劑功效的影響遠(yuǎn)低于君藥，因而無法挖掘出中藥對方劑功效的真實貢獻(xiàn)度。

通過以上分析，我們可以推斷，留學(xué)生的語言能力與其語用語言能力有一定的關(guān)系，但與其社交語用能力之間關(guān)系不大。留學(xué)生的社交語用能力比其語用語言能力發(fā)展得要慢。這就要求我們在教學(xué)中加強對學(xué)生社交語用能力的培養(yǎng)。

以上論述了3種傳統(tǒng)機器學(xué)習(xí)方法在方劑領(lǐng)域應(yīng)用情況。K-Means等聚類算法具有可解釋性強、計算復(fù)雜度低的優(yōu)點，但嚴(yán)重依賴樣本的特征工程處理。SVM適用于小樣本，不易出現(xiàn)“維度災(zāi)難”，并且具有較強的魯棒性，但SVM計算復(fù)雜度較高，依賴核函數(shù)的選擇，同時也不適用于多分類任務(wù)。Apriori等關(guān)聯(lián)規(guī)則算法挖掘結(jié)果易于理解，但僅考慮樣本中事物的并發(fā)情況，強調(diào)結(jié)構(gòu)化數(shù)據(jù)。聚類、分類、回歸以及關(guān)聯(lián)分析等傳統(tǒng)機器學(xué)習(xí)方法除在方劑研究中得到廣泛應(yīng)用外，在中醫(yī)其他領(lǐng)域也取得不錯的研究成果，如中藥分類[27]、中藥識別[28]、面診識別[29]、舌象質(zhì)量評估[30]、藥物選擇[22-23，31]等。

2 深度學(xué)習(xí)

淺層神經(jīng)網(wǎng)絡(luò)主要對結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)做場景預(yù)測。在中醫(yī)藥領(lǐng)域利用神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、自適應(yīng)及非線性映射能力建立藥性特征與功效關(guān)系的關(guān)聯(lián)模型，擬合中藥屬性與功效的復(fù)雜非線性關(guān)系，以實現(xiàn)中藥藥性客觀化表示。淺層神經(jīng)網(wǎng)絡(luò)在方劑中的研究應(yīng)用方向可歸納為方劑組成與功效對應(yīng)關(guān)系、方劑與疾病對應(yīng)關(guān)系、方劑配伍非線性規(guī)律。

李偉霞等[32]對養(yǎng)血補血、活血化瘀、調(diào)經(jīng)止痛3種功效方劑進行效應(yīng)指標(biāo)的標(biāo)準(zhǔn)化整合，采用人工神經(jīng)網(wǎng)絡(luò)將所測得的主要效應(yīng)成分含量與3種功效整合效應(yīng)進行相關(guān)分析，以闡述歸芎類組方中功效效應(yīng)物質(zhì)基礎(chǔ)及成分對功效的貢獻(xiàn)度。喬少杰等[33]將模糊神經(jīng)元引入神經(jīng)網(wǎng)絡(luò)，構(gòu)建基于模糊神經(jīng)網(wǎng)絡(luò)的方劑功效約簡算法及神經(jīng)網(wǎng)絡(luò)模型EFNN，結(jié)果表明屬性約簡神經(jīng)網(wǎng)絡(luò)在方劑功效預(yù)測上具有較高的準(zhǔn)確率。郭永坤等[34]將方劑信息“量子化”處理，以方劑基本特征屬性作為輸入，方劑功效作為輸出，使用神經(jīng)網(wǎng)絡(luò)建立中藥方劑功效預(yù)測系統(tǒng)。

Xie等[17]在利用SVM分類器將方劑劃分正負(fù)樣本的基礎(chǔ)上，構(gòu)建多個淺層神經(jīng)網(wǎng)絡(luò)，將疾病與中藥分別作為網(wǎng)絡(luò)的輸入，經(jīng)詞嵌入層與全連接層將疾病與方劑中藥網(wǎng)絡(luò)輸出進行串聯(lián)，構(gòu)建疾病-方劑向量表示，并經(jīng)全連接將疾病-方劑向量表示映射到預(yù)測結(jié)果。該模型可用于探究疾病與方劑之間的關(guān)系，適宜驗證方劑對該疾病的有效性。

宋小莉等[35]對21首方劑數(shù)據(jù)構(gòu)建BP神經(jīng)網(wǎng)絡(luò)，以擬合不同配伍與蛋白酶之間的非線性映射關(guān)系。實現(xiàn)半夏瀉心湯及其類方中8味中藥配伍劑量的胃黏液分泌預(yù)測。Song等[36]利用動量法與學(xué)習(xí)速率自適應(yīng)相結(jié)合網(wǎng)絡(luò)模型建立藥味藥量與藥效學(xué)指標(biāo)的非線性映射模型，探究藥物劑量對方劑配伍規(guī)律的影響。李味味等[37]在中藥組方配伍原則基礎(chǔ)上，構(gòu)建補益類復(fù)方功效與藥物性味、歸經(jīng)關(guān)系BP神經(jīng)網(wǎng)絡(luò)模型，結(jié)果表明模型在預(yù)測補益類方劑的補氣、補血、補陰、補陽功效方面準(zhǔn)確率可達(dá)92.5%。然而，傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)存在局部最優(yōu)、過擬合及梯度擴散等問題，如在實驗中確定的性味、歸經(jīng)屬性并不能完全代表真實分類決策過程中的典型特征[36]。另外，中藥具有多種屬性，每種屬性對決策結(jié)果都具有一定影響，而淺層神經(jīng)網(wǎng)絡(luò)的分析能力有限，無法很好地擬合輸入與輸出結(jié)果之間復(fù)雜的非線性映射關(guān)系。

針對淺層神經(jīng)網(wǎng)絡(luò)表示能力有限，難以準(zhǔn)確把握中醫(yī)辨證、藥物配伍的多重非線性關(guān)系和協(xié)同關(guān)系，深度學(xué)習(xí)以有限的參數(shù)和多層網(wǎng)絡(luò)結(jié)構(gòu)模擬變量間的復(fù)雜關(guān)系，通過逐層特征變換，將原樣本特征空間變換到新的特征空間。因其復(fù)雜的非線性映射能力，深度學(xué)習(xí)的靈敏度、特異度、精度及準(zhǔn)確度都高于傳統(tǒng)機器學(xué)習(xí)。因此，深度學(xué)習(xí)方法更適用于處理中醫(yī)藥領(lǐng)域的復(fù)雜問題。

Chen等[38]將中醫(yī)古籍中收集的88味清熱中藥與45味活血中藥采用Kennard-Stone算法分為100個校準(zhǔn)樣本和33個驗證樣本，以藥性、藥味、毒性及十二歸經(jīng)中藥屬性為網(wǎng)絡(luò)輸入，卷積操作進行特征選擇，池化操作保留中藥關(guān)鍵特征，輸出中藥所屬類別，構(gòu)建基于中藥藥性理論深度信念網(wǎng)絡(luò)功效分類模型。Hu等[39]為探索舌診對方劑的相關(guān)性，構(gòu)建雙通道卷積神經(jīng)網(wǎng)絡(luò)模型，對不同舌診圖片與處方進行訓(xùn)練，主通道用于中藥處方生成，輔通道用于預(yù)測處方治療主題，以2個全連接層輸出最后的處方生成結(jié)果。Zhang等[40]基于高血壓癥狀使用深度學(xué)習(xí)中的堆疊自動編碼器將臨床案例分為5個類別，分析各類高血壓病主要方劑和常用中藥的使用規(guī)律。

當(dāng)前深度學(xué)習(xí)大部分研究主要集中于中醫(yī)舌診圖片、脈診信號處理，中醫(yī)方劑領(lǐng)域研究成果較少。辨證論治、組方配伍規(guī)律是中醫(yī)藥的重要組成部分，是中醫(yī)現(xiàn)代化的關(guān)鍵所在。深度學(xué)習(xí)技術(shù)可用來模擬方劑組成的“語義”信息，探究方劑組成與方劑功效之間的復(fù)雜關(guān)系，因此將深度學(xué)習(xí)引入方劑研究是中醫(yī)藥傳承與發(fā)展的必然方向。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)提升了基于數(shù)據(jù)特性進行具體問題建模的可行性，但對數(shù)據(jù)間隱藏特性的提取十分困難，深度學(xué)習(xí)適用于探究方劑功效間復(fù)雜關(guān)系及方劑配伍的內(nèi)在規(guī)律。值得注意的是，無論淺層神經(jīng)網(wǎng)絡(luò)還是深度學(xué)習(xí)技術(shù)，模型構(gòu)建難點在于不同問題、不同樣本需設(shè)定不同的超參數(shù)，如神經(jīng)元的個數(shù)、優(yōu)化參數(shù)、樣本批次、訓(xùn)練的輪數(shù)、學(xué)習(xí)速率等，需選擇合適的損失函數(shù)、優(yōu)化函數(shù)、激活函數(shù)。雖然深度學(xué)習(xí)以其優(yōu)越的性能已解決了中醫(yī)病例分類[41-42]、辨證分型[43]，以及中醫(yī)相關(guān)圖片信息處理如舌診、面部圖片分析病因[4，44]、中草藥識別[5-6]等諸多難題，但在方劑領(lǐng)域的應(yīng)用研究仍處于起步階段，需經(jīng)過實踐積累一定的研究經(jīng)驗。

3 面臨的挑戰(zhàn)

3.1 數(shù)據(jù)不規(guī)范

3.1.1 藥名不規(guī)范

中醫(yī)歷史悠久，不同地區(qū)、不同學(xué)派及不同時期均有其命名規(guī)則、用藥習(xí)慣。中藥存在大量“同物異名”“同名異物”現(xiàn)象?！巴锂惷奔赐粋€物種有多個不同的名字，如虎杖又稱苦杖、斑杖、地榆、大蟲杖、活血丹等；“同名異物”指同一個名字可能涵括多個不同的中藥品種，如地黃可分為鮮地黃、干地黃和熟地黃，其性味歸經(jīng)有所不同，不能一概而論，然而方劑樣本中存在大量未明確指明用藥品種的數(shù)據(jù)，導(dǎo)致研究結(jié)果存在偏差。

3.1.2 用藥劑量描述不規(guī)范

中藥在方劑中的使用劑量是確保其安全和療效的關(guān)鍵。方劑有湯劑、丸劑、散劑、丹劑等，不同類型方劑用藥劑量安全范圍有所差異，如金匱腎氣丸（干地黃240 g，山藥、山萸肉各120 g、澤瀉、茯苓、牡丹皮各90 g，桂枝、炮附子各30 g）展示劑量為整個療程用藥劑量，而通竅活血湯[赤芍3 g，川芎3 g，桃仁（研泥）9 g，紅棗7個，紅花9 g，老蔥3根，鮮姜9 g，麝香0.15 g]為湯藥劑量；數(shù)據(jù)存在古方與現(xiàn)代方混雜現(xiàn)象，如戎鹽散方（戎鹽三分，甘草半兩，蒲黃一兩，白礬三分，龍骨一兩，鹿角膠二兩）劑量單位為分、兩、錢等，而現(xiàn)代方主以“克”為單位；存在范圍用量，如化痰通腑飲中全瓜蔞3～40 g、膽星6～10 g；“個”“根”“條”等單位的使用，如通竅活血湯中的紅棗7個、老蔥3根，增加大量人工處理工作。明確方劑藥量-功效關(guān)系，是方藥研究的關(guān)鍵問題之一，以上問題為劑量信息的有效使用、方劑量化表示帶來嚴(yán)重阻礙。

3.1.3 功效術(shù)語不規(guī)范

方劑功效是研究中醫(yī)辨證論治的關(guān)鍵。方劑功效不是組成藥物功效進行簡單疊加，而是相互作用的結(jié)果[45]。方劑數(shù)據(jù)中，方劑功效表述存在大量同義不同型術(shù)語，如“祛濕”與“去濕”，“補氣養(yǎng)血”與“補氣血”；語義重復(fù)術(shù)語，如“益氣和中祛風(fēng)”與“益氣和中”或“益氣”，導(dǎo)致方劑功效標(biāo)簽高維度。另外，功效術(shù)語具有稀疏性，部分術(shù)語的正樣本個數(shù)極少，屬于極端多標(biāo)簽，進一步提升了實驗的難度。

3.2 數(shù)字化處理困難

將信息轉(zhuǎn)變?yōu)橛嬎銠C可識別的形式是數(shù)據(jù)分析的前提。然而中醫(yī)理論涉及的理論知識較多且復(fù)雜?！熬甲羰埂笔欠絼┡湮榈幕驹瓌t，等同于方劑的組方結(jié)構(gòu)，這種結(jié)構(gòu)的定義比較模糊，且無法確定結(jié)構(gòu)的影響因素，方劑的名稱、中藥品數(shù)、中藥效力及其藥性都可能產(chǎn)生影響[46]。方劑用藥藥性組合規(guī)律十分復(fù)雜，如藥性理論包括藥氣、藥味、升降浮沉、歸經(jīng)及有毒無毒等內(nèi)容，藥與藥之間存在“相須”“相使”“相畏”“相殺”“相惡”“相反”等關(guān)系。方劑數(shù)字化處理過程中必須考慮這些理論知識。在數(shù)據(jù)格式方面，方劑來源不同導(dǎo)致書寫形式不同。

3.3 數(shù)據(jù)質(zhì)量不高

深度學(xué)習(xí)需大量樣本，收集到的方劑樣本質(zhì)量并不能得到保證。首先，方劑收集來源較廣，從古書、病案、網(wǎng)絡(luò)爬蟲、文獻(xiàn)等均可獲得，但有效性并未得到統(tǒng)一的公證；其次，不同經(jīng)驗、不同用藥習(xí)慣的中醫(yī)學(xué)者對同一方劑也存有主觀意愿；一個方劑對同一疾病不同體質(zhì)患者功效不完全相同，導(dǎo)致樣本缺乏客觀性。

3.4 機器學(xué)習(xí)的局限性

①數(shù)據(jù)集角度：傳統(tǒng)的機器學(xué)習(xí)方法在小數(shù)據(jù)集上可以取得很好的效果。大數(shù)據(jù)時代，隨著中醫(yī)數(shù)據(jù)不斷整理積累，傳統(tǒng)機器學(xué)習(xí)方法并不適合處理大樣本數(shù)據(jù)。②特征選擇角度：傳統(tǒng)機器學(xué)習(xí)方法最大優(yōu)勢在于發(fā)現(xiàn)信息中的共性規(guī)律，但對一些出現(xiàn)頻次不高的中藥可從方劑中獲得的信息較少。通常需要對研究問題的領(lǐng)域知識有充分的了解，以完成合適的特征抽取工作，最后才能對模型進行設(shè)計與訓(xùn)練。③模型構(gòu)建角度：方劑數(shù)據(jù)、特征、規(guī)則的特殊性，以及當(dāng)前研究成果較少的局限性，對于模型框架、模型中各種參數(shù)的選擇需要進行不斷嘗試與改進，具有較大的工作量。④可解釋性角度：深度學(xué)習(xí)模型大多數(shù)為黑盒模型，中間過程難以解釋，不利于對組方配伍的內(nèi)在規(guī)律進行探究。

4 小結(jié)及展望

首先，大數(shù)據(jù)為機器學(xué)習(xí)提供了海量的訓(xùn)練樣本，給數(shù)據(jù)挖掘帶來了革命性進步。隨著中醫(yī)藥現(xiàn)代化研究的發(fā)展，中醫(yī)文獻(xiàn)、古籍整理，臨床案例收集工作已全面展開，中醫(yī)大數(shù)據(jù)呈線性增長。大數(shù)據(jù)與云計算技術(shù)的發(fā)展為具有模糊性、經(jīng)驗性特點的中醫(yī)藥提供了數(shù)據(jù)化的技術(shù)工具[47]，充分利用大數(shù)據(jù)促進方劑科研的發(fā)展，將為中醫(yī)藥領(lǐng)域帶來重要的革命性變化。如何讓大數(shù)據(jù)成為研究發(fā)展的優(yōu)勢，則取決于對數(shù)據(jù)的收集與處理，因此，方劑的標(biāo)準(zhǔn)化、結(jié)構(gòu)化是中醫(yī)藥大數(shù)據(jù)分析的關(guān)鍵所在。

其次，中藥復(fù)方配伍涉及藥效與物質(zhì)基礎(chǔ)之間的關(guān)系，并不是組成藥物的簡單堆砌，而是依據(jù)藥物各有所長的功用在辨證、立法的基礎(chǔ)上配伍并發(fā)揮整體增效減毒的調(diào)節(jié)作用，使各具特性的藥物組合成一個新的有機整體[48]。在遵循中醫(yī)“辨證論治”基本理論的基礎(chǔ)上，通過分析復(fù)方屬性及功效，構(gòu)建以中藥“四氣-五味-歸經(jīng)-升降沉浮-毒性-功效”等屬性為維度的多維空間量化模型。結(jié)合本體知識，針對不同問題的訓(xùn)練樣本，借助或改進傳統(tǒng)機器學(xué)習(xí)算法等挖掘復(fù)方信息，最大程度擬合其中的非線性規(guī)律，為詮釋中醫(yī)治療機理、精準(zhǔn)化醫(yī)療提供依據(jù)。

同時，方劑學(xué)研究中方證關(guān)系亦是業(yè)界關(guān)注的熱點，“法隨證立，方從法出，方以藥成”，方藥與病證關(guān)系是中醫(yī)辨證論治核心內(nèi)容。認(rèn)識方證關(guān)系的學(xué)術(shù)內(nèi)涵、總結(jié)方證規(guī)律及揭示其現(xiàn)代內(nèi)涵對于論證中醫(yī)藥學(xué)的科學(xué)性和提高臨床辨證的水平均有十分重要的意義。竇志芳等[49]認(rèn)為，可運用計算機技術(shù)來整合歸納大量文獻(xiàn)信息，用以揭示證候、方劑和方證相關(guān)的知識，建立具有中醫(yī)學(xué)特色的文獻(xiàn)挖掘信息提取技術(shù)。深度學(xué)習(xí)應(yīng)用于方證關(guān)系的研究雖仍處于初級階段，但其符合大數(shù)據(jù)分析、本質(zhì)規(guī)律研究的需求，具有巨大的發(fā)展空間。

如今，借鑒網(wǎng)絡(luò)藥理學(xué)思維解析方劑多成分、多靶標(biāo)整體調(diào)控作用原理已成為研究方劑的重要手段。網(wǎng)絡(luò)藥理學(xué)是基于“疾病-基因-靶點-藥物”相互作用網(wǎng)絡(luò)，觀察藥物對疾病網(wǎng)絡(luò)的關(guān)鍵節(jié)點或網(wǎng)絡(luò)模塊的調(diào)控效應(yīng)，從而揭示藥物系統(tǒng)作用于人體的效應(yīng)機制的藥物研究新模式。近年來，“成分-靶點-通路”研究模式已廣泛用于方劑物質(zhì)基礎(chǔ)和作用機制分析。方劑研究中，使用機器學(xué)習(xí)方法對結(jié)構(gòu)化方劑數(shù)據(jù)進行靶點預(yù)測，同時以中藥為連接點，將病證、方藥映射到生物分子網(wǎng)絡(luò)，結(jié)合網(wǎng)絡(luò)藥理學(xué)知識對預(yù)測結(jié)果進行評價與驗證。該方向有助于提升機器學(xué)習(xí)方劑研究結(jié)果可信度，實現(xiàn)中醫(yī)理論客觀化。

方劑是中醫(yī)臨床治療經(jīng)驗的有效載體，方劑用藥規(guī)律研究是中醫(yī)傳承的關(guān)鍵。研究初期，中醫(yī)領(lǐng)域中存在大量模糊數(shù)據(jù)，缺乏規(guī)范化、結(jié)構(gòu)化，可用于模型學(xué)習(xí)的樣本量較少，傳統(tǒng)機器學(xué)習(xí)方法為當(dāng)時中醫(yī)的客觀化、內(nèi)在規(guī)律的探究提供了有效途徑。聚類算法可用于探究用藥規(guī)律、生成處方，探尋癥狀、證候之間的關(guān)系；分類和回歸算法可用于疾病預(yù)測，證候癥狀、中藥方劑分類；關(guān)聯(lián)規(guī)則可通過對藥物與藥物、癥狀與癥狀、疾病與處方的關(guān)聯(lián)分析，探尋其中的關(guān)系，為中醫(yī)辨證論治、組方配伍研究做出貢獻(xiàn)。隨著方劑數(shù)據(jù)收集以及方劑研究的深入，傳統(tǒng)方法已無法全面闡釋方劑內(nèi)在規(guī)律。深度學(xué)習(xí)方法以其強大的擬合能力、良好的泛化能力對方劑組方規(guī)律、處方與功效的多標(biāo)簽對應(yīng)關(guān)系進行分析，將對中醫(yī)藥學(xué)術(shù)繼承與創(chuàng)新帶來重要意義，同時也是中醫(yī)藥現(xiàn)代化發(fā)展的必然趨勢。

[1] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7)：1527-1554.

[2] HAO X, ZHANG G, MA S. Deep learning[J]. International Journal of Semantic Computing,2016,10(3)：417-439.

[3] LI H, TIAN S, LI Y, et al. Modern deep learning in bioinformatics[J]. Journal of Molecular Cell Biology,2020,DOI：10.1093/jmcb/mjaa030.

[4] ER-YANG H, WEN G H, ZHANG S J, et al. Deep convolutional neural networks for classifying body constitution based on face image[J]. Computational & Mathematical Methods in Medicine,2017, 2017：1-9.

[5] WENG J C, HU M C, LAN K C. Recognition of easily-confused TCM herbs using deep learning[C]//Proceedings of the 8th ACM on Multimedia Systems Conference,2017.

[6] HUANG F, YU L, SHEN T, et al. Chinese herbal medicine leaves classification based on improved AlexNet convolutional neural network[C]//2019 IEEE 4th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC). Chengdu,2019.

[7]MAC QUEEN J. Some methods for classification and analysis of multivariate observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability,1967.

[8] 趙新,張林旭,路雪婧.基于數(shù)據(jù)挖掘預(yù)防新型冠狀病毒肺炎中醫(yī)方藥初探[J].中草藥,2020,51(5)：1147-1152.

[9] 裴衛(wèi),吳輝坤,李曉東,等.基于機器學(xué)習(xí)的中醫(yī)治療肝硬化組方規(guī)律研究[J].世界科學(xué)技術(shù)－中醫(yī)藥現(xiàn)代化,2017,19(6)：950-956.

[10] 李國春,戴慎.動態(tài)聚類分析在中醫(yī)方劑藥量組合規(guī)律中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2006,23(1)：63-64,67.

[11] 賈海女,張沂,周夢玲,等.基于數(shù)據(jù)挖掘分析治療惡性胸腔積液內(nèi)服處方的組方規(guī)律[J].中國醫(yī)藥導(dǎo)報,2020,17(14)：150-154.

[12] 金滋力,胡建星,金宏威,等.基于支持向量機與層次分析法的中藥方劑配伍分析[J].中國中藥雜志,2018,43(13)：2817-2823.

[13] YANG X B, LIANG Z H, ZHANG G, et al. A classification algorithm for TCM syndromes based on P-SVM[C]//2005 International Conference on Machine Learning and Cybernetics. IEEE. Guangzhou, 2005.

[14] CORTES C, VAPNIK V N. Support-vector networks[J]. Machine Learning,1995,20(3)：273-297.

[15] BORRAJO M, ROMERO R, IGLESIAS E. A linear-RBF multikernel SVM to classify big text corpora[J]. Journal Biomedicine and Biotechnology,2015,2015：1-14.

[16] 高全泉,張帆,劉曉峰,等.中醫(yī)方劑屬性特征的獲取和知識挖掘?qū)嶒瀃J].計算機工程與應(yīng)用,2011,47(28)：212-214.

[17] XIE D, PEI W, ZHU W, et al. Traditional Chinese medicine prescription mining based on abstract text[C]//2017 IEEE 19th International Conference on e-Health Networking, Applications and Services (Healthcom). IEEE. Dalian,2017.

[18] WANG J F, CAI C Z, KONG C Y, et al. A computer method for validating traditional Chinese medicine herbal prescriptions[J]. The American Journal of Chinese Medicine,2005,33(2)：281-297.

[19] PAN L Z, SONG A G, XU G Z, et al. Prescription diagnosis of upper limb rehabilitation training robot based on SVM-GDFNN[J]. Journal of Mechanical Engineering,2013,49(13)：17-23.

[20] 白明,李楊波,苗明三.基于古籍?dāng)?shù)據(jù)挖掘的中醫(yī)防治疫病用藥規(guī)律分析[J].中藥藥理與臨床,2020,36(1)：32-36.

[21] 季濤,宿樹蘭,尚爾鑫,等.基于關(guān)聯(lián)規(guī)則的中醫(yī)藥治療消渴癥的用藥規(guī)律與特點探析[J].中華中醫(yī)藥雜志,2016,31(12)：4982-4986.

[22] 楊艷平.基于數(shù)據(jù)挖掘的治療銀屑病處方用藥規(guī)律研究[J].世界中醫(yī)藥,2015,10(10)：1611-1613,1617.

[23] 寧江,曾召,盧傳堅.基于關(guān)聯(lián)規(guī)則的1979－2010年尋常型銀屑病期刊醫(yī)案用藥規(guī)律分析[J].中華中醫(yī)藥學(xué)刊,2013,31(10)：2204-2206.

[24] 劉嘉輝,呂東勇,何潔茹,等.基于數(shù)據(jù)挖掘?qū)t(yī)大師治療肝硬化用藥規(guī)律研究[J].中華中醫(yī)藥雜志,2015,30(12)：4328-4331.

[25] 李欣,李斌,李福倫,等.尋常型銀屑病進行期血熱證與方藥的相關(guān)性研究[J].中醫(yī)雜志,2012,53(10)：843-847.

[26] 郭宏,黃嘉韻,鄺艷萍.基于數(shù)據(jù)挖掘技術(shù)的郭宏治療鼻鼽用藥規(guī)律初步研究[J].中華中醫(yī)藥雜志,2017,32(3)：1332-1335.

[27] RUAN C, WANG Y, ZHANG Y, et al. THCluster：herb supplements categorization for precision traditional Chinese medicine[C]// 2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE. Beijing,2017.

[28] CHEN Y J, LIU Y Y, ZHAO G Z, et al. Chinese traditional medicine recognition by support vector machine (SVM) terahertz spectrum[J]. Spectroscopy & Spectral Analysis,2009,29(9)：2346.

[29] ZHANG J, ZHANG P, ZHUO L. Fuzzy support vector machine based on color modeling for facial complexion recognition in traditional Chinese medicine[J]. Chinese Journal of Electronics, 2016,25(3)：474-480.

[30] ZHANG X, ZHANG X F, WANG B C, et al. An assessment method of tongue image quality in traditional Chinese medicine[C]//2016 9th International Congress on Image and Signal Processing, Bio Medical Engineering and Informatics (CISP-BMEI). IEEE. Datong, 2016.

[31] 吳元勝,張冰,袁娟娜,等.基于關(guān)聯(lián)規(guī)則的當(dāng)代銀屑病醫(yī)案藥-癥數(shù)據(jù)挖掘分析[J].時珍國醫(yī)國藥,2012,23(11)：2890-2892.

[32] 李偉霞,唐于平,尚爾鑫,等.基于人工神經(jīng)網(wǎng)絡(luò)的當(dāng)歸-川芎藥對整體功效與化學(xué)物質(zhì)關(guān)聯(lián)性分析[J].中國中藥雜志,2012,37(19)：2935- 2942.

[33] 喬少杰,唐常杰,韓楠,等.基于模糊神經(jīng)網(wǎng)絡(luò)的方劑功效約簡算法[J].四川大學(xué)學(xué)報(工程科學(xué)版),2008,40(2)：107-111.

[34] 郭永坤,章新友,劉莉萍,等.基于神經(jīng)網(wǎng)絡(luò)的中藥方劑功效預(yù)測系統(tǒng)研究[J].時珍國醫(yī)國藥,2019,30(2)：493-495.

[35] 宋小莉,牛欣,司銀楚.基于BP神經(jīng)網(wǎng)絡(luò)的半夏瀉心湯及其類方配伍模型研究[J].中華中醫(yī)藥雜志,2005,20(6)：383-384.

[36] SONG X L, NIU X, SI Y C, et al. Application of artificial neural network in compatibility modeling ofdecoction[J]. Chinese Clinical Pharmacology and Therapeutics,2005,10(1)：104- 107.

[37] 李味味,章新友,仵倚,等.基于BP神經(jīng)網(wǎng)絡(luò)中藥復(fù)方功效的預(yù)測研究[J].中醫(yī)藥導(dǎo)報,2016,22(6)：38-41.

[38] CHEN Z, CAO Y, HE S, et al. Development of models for classification of action between heat-clearing herbs and blood-activating stasis-resolving herbs based on theory of traditional Chinese medicine[J]. Chinese Medicine,2018,13(1)：12.

[39] HU Y, WEN G, LIAO H, et al. Automatic construction of Chinese herbal prescriptions from tongue images using CNNs and auxiliary latent therapy topics[J]. IEEE Transactions on Cybernetics,2019,4：1-14.

[40] ZHANG Q, BAI C, CHEN Z, et al. Smart Chinese medicine for hypertension treatment with a deep learning model[J]. Journal of Network and Computer Applications,2019,129：1-8.

[41] LIANG Y, YIN Z, WEI B, et al. Traditional Chinese medicine clinical records classification using knowledge-powered document embedding[C]//IEEE International Conference on Bioinformatics & Biomedicine. Shenzhen,2017.

[42] SONG Z, XIE Y, HUANG W, et al. Classification of traditional Chinese medicine cases based on character-level bert and deep learning[C]//2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC). Chongqing,2019.

[43] HU Q, YU T, LI J, et al. End-to-End syndrome differentiation of Yin deficiency and Yang deficiency in traditional Chinese medicine[J]. Computer Methods and Programs in Biomedicine,2019, 174：9-15.

[44] HUO C M, ZHENG H, SU H Y, et al. Tongue shape classification integrating image preprocessing and Convolution Neural Network[C]//Intelligent Robot Systems. Wuhan,2017.

[45] 彭京,唐常杰,曾濤,等.基于神經(jīng)網(wǎng)絡(luò)和屬性距離矩陣的中藥方劑功效歸約算法[J].四川大學(xué)學(xué)報(工程科學(xué)版),2006,38(1)：92-97.

[46] 王燁燃.方劑組方法則研究[D].哈爾濱：黑龍江中醫(yī)藥大學(xué),2010.

[47] 黃欣榮,張艷朋.大數(shù)據(jù)技術(shù)與中醫(yī)現(xiàn)代化[J].中醫(yī)雜志,2014, 55(19)：1621-1625.

[48] 麥藍(lán)尹,李怡萱,陳勇,等.基于數(shù)理統(tǒng)計方法學(xué)的中藥復(fù)方配伍研究進展[J].中國中藥雜志,2014,39(10)：1749-1756.

[49] 竇志芳,郭蕾,張俊龍,等.將數(shù)據(jù)挖掘技術(shù)引入方證對應(yīng)研究的思考[J].光明中醫(yī),2007,22(5)：3-6.

Review of Application of Machine Learning in Study onTCMPrescriptions

GAO Wanqing1, CHENG Ning1, LI Lisong1, HUANG Xindi1, DING Changsong1,2

With the rapid development of information technology and popularization of big data and artificial intelligence, the research on objectification and modernization of TCM has made great progress. In order to explore the essential law of syndrome differentiation and treatment, essence law of prescription compatibility and prescription research have become an important research content of TCM inheritance and development. The key to realize intelligent diagnosis and treatment of TCM is recommend accurate and effective prescriptions according to the symptoms automatically. This article sorted out the application of machine learning in the field of prescriptions in recent years, and compared the characteristics of traditional machine learning methods and deep learning techniques such as clustering, support vector machines, association rules, and their applications in prescription research; analyzed the difficulties encountered by machine learning in the research of prescriptions and the corresponding solutions; pointed out the trend of machine learning in the research of prescriptions, and look forward to its prospects.

machine learning; TCM; prescription;objectification; intellectualization; review

R2-05

1005-5304(2021)06-0131-07

10.19879/j.cnki.1005-5304.202011013

國家重點研發(fā)計劃（2017YFC1703306）；湖南省中醫(yī)藥科研計劃重點課題（2020002）；湖南省自然科學(xué)基金（2018JJ2301）；湖南省重點研發(fā)計劃（2017SK2111）

2020-11-01）

2020-11-10；編輯：華強）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機器學(xué)習(xí)在方劑研究中的應(yīng)用概述

1 傳統(tǒng)機器學(xué)習(xí)

1.1 聚類

1.2 支持向量機

1.3 關(guān)聯(lián)規(guī)則

2 深度學(xué)習(xí)

3 面臨的挑戰(zhàn)

3.1 數(shù)據(jù)不規(guī)范

3.2 數(shù)字化處理困難

3.3 數(shù)據(jù)質(zhì)量不高

3.4 機器學(xué)習(xí)的局限性

4 小結(jié)及展望