劉 麗,付先軍,李學(xué)博,王振國(guó)**
(1. 山東中醫(yī)藥大學(xué)中醫(yī)文獻(xiàn)與文化研究院 濟(jì)南 250355;2. 山東中醫(yī)藥大學(xué)管理學(xué)院 濟(jì)南 250355;3. 山東中醫(yī)藥大學(xué)中醫(yī)藥經(jīng)典理論教育部重點(diǎn)實(shí)驗(yàn)室 濟(jì)南 250355)
中醫(yī)承載著中國(guó)古代人民同疾病作斗爭(zhēng)的經(jīng)驗(yàn)和理論知識(shí),在防治疾病和重大疫病中發(fā)揮了重要作用,為中華民族的繁衍生息、日益強(qiáng)盛作出了卓越的貢獻(xiàn)[1]。近百年來(lái),中醫(yī)藥領(lǐng)域雖取得了或多或少的成績(jī),但少有突破,在相當(dāng)長(zhǎng)的一段時(shí)間里,中醫(yī)似乎仍停留在哲學(xué)思辨、經(jīng)驗(yàn)的層面,其理論特別是對(duì)應(yīng)的概念不能用現(xiàn)代語(yǔ)言來(lái)描述[2],嚴(yán)重妨礙了中醫(yī)的價(jià)值實(shí)現(xiàn)。數(shù)據(jù)挖掘(Data Mining,DM)是為解決“數(shù)據(jù)豐富,知識(shí)貧乏”狀況而興起的邊緣學(xué)科之一,是從海量數(shù)據(jù)中獲取知識(shí)的可靠技術(shù)[3]?;ヂ?lián)網(wǎng)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的日趨完善,特別是近年來(lái)人工智能技術(shù)的興起,為中醫(yī)藥的傳承和創(chuàng)新提供了新的契機(jī)。數(shù)據(jù)挖掘技術(shù)是中醫(yī)藥在保持自身獨(dú)特性的基礎(chǔ)上贏得廣泛認(rèn)同的重要手段,可以為中醫(yī)藥的合理性提供依據(jù)。
本文采用文獻(xiàn)計(jì)量學(xué)方法對(duì)CNKI 數(shù)據(jù)庫(kù)2005-2019年公開(kāi)發(fā)表的、在中醫(yī)藥領(lǐng)域使用數(shù)據(jù)挖掘技術(shù)的相關(guān)文獻(xiàn)進(jìn)行分析,旨在明確我國(guó)中醫(yī)藥數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀、研究范圍及研究熱點(diǎn),為進(jìn)一步開(kāi)展研究提供參考依據(jù)。
在CNKI 中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)中,以“(SU = 中醫(yī)OR SU = 中藥)AND(SU = 數(shù)據(jù)挖掘OR SU = 數(shù)據(jù)分析)”構(gòu)建檢索式進(jìn)行主題檢索,截止至2019年11月,刪除與學(xué)術(shù)研究無(wú)關(guān)的信息(如發(fā)刊詞、卷首語(yǔ)及新聞、消息等),最終獲得2005-2019年的全部期刊文獻(xiàn),共計(jì)1894篇。
對(duì)全部文獻(xiàn)選取標(biāo)題、作者、單位、文獻(xiàn)來(lái)源、發(fā)表時(shí)間、關(guān)鍵詞、摘要等信息存入MySQL 數(shù)據(jù)庫(kù),使用Python 語(yǔ)言pandas 包進(jìn)行數(shù)據(jù)建模與計(jì)算分析,使用Matplotlib 軟件包以及Gephi 軟件進(jìn)行可視化分析。Gephi 提供對(duì)數(shù)據(jù)的各種操作和顯示,包括對(duì)圖中節(jié)點(diǎn)、邊和標(biāo)簽的調(diào)整、顏色變換以及大小的調(diào)節(jié);實(shí)時(shí)的布局算法可以對(duì)數(shù)據(jù)進(jìn)行各種各樣的布局[4]。
為了便于展示和研究,本文根據(jù)研究形式的變化分為2 個(gè)時(shí)間段進(jìn)行統(tǒng)計(jì)(圖1)。2005-2014年10年里發(fā)文量總體上逐漸增多,以綜述、理論研究為主,平均每年發(fā)表69篇,共計(jì)692篇,占總發(fā)文量的36.46%。2015-2019年5年里發(fā)文量迅速上升,以醫(yī)案分析為主,共計(jì)1206篇,占總發(fā)文量的63.54%。
圖1 2005-2019年CNKI中醫(yī)藥數(shù)據(jù)挖掘文獻(xiàn)年份分布
全部1894 篇有效文獻(xiàn)涉及1518 位第一作者,人均發(fā)文1.25 篇,其中發(fā)文最多的是北京中醫(yī)藥大學(xué)的吳嘉瑞,共18 篇;第二是遼寧中醫(yī)藥大學(xué)的劉廣,共8篇;第三是中國(guó)中醫(yī)科學(xué)院的王一戰(zhàn),共7篇。根據(jù)普賴斯公式N = 0.749(N 為核心作者的最少發(fā)文量,nmax為核心作者的最高發(fā)文量,0.749 為常數(shù)),在本研究中nmax為18,經(jīng)計(jì)算N≈3.18,則候選的核心作者群中作者最少發(fā)文數(shù)量N 值超過(guò)3 篇,即發(fā)表4 篇及以上文獻(xiàn)的25位作者為該研究的核心作者。
將每位作者近15年的發(fā)文數(shù)量進(jìn)行統(tǒng)計(jì),選擇發(fā)文量前30的作者(圖2),顏色越深表示發(fā)文量越多,反之則越少。圖中表明,大多數(shù)作者在近5年開(kāi)始該領(lǐng)域的研究,研究成果也集中出現(xiàn)在2015年以后,并在2017年達(dá)到最高。之前的研究成果比較分散且沒(méi)有延續(xù)性,近年來(lái)在該領(lǐng)域已經(jīng)不再活躍。
圖2 2005-2019年作者發(fā)文時(shí)間熱力圖
使用Python 中的pandas包將發(fā)文量前100的作者構(gòu)建共現(xiàn)矩陣,導(dǎo)入Gephi軟件生成作者共現(xiàn)網(wǎng)絡(luò)(圖3)。共現(xiàn)網(wǎng)絡(luò)中,作者結(jié)點(diǎn)之間的連線代表其合作關(guān)系,線條越粗表示合作越頻繁,在該研究領(lǐng)域合作就越密切,多位合作密切的作者在學(xué)術(shù)研究上形成了相對(duì)穩(wěn)定的研究團(tuán)隊(duì)。這些研究團(tuán)隊(duì)大多以某位學(xué)者為核心,相互合作進(jìn)行科學(xué)研究和論文的發(fā)表,同時(shí)也存在少量以個(gè)人為紐帶的團(tuán)隊(duì)間合作。在這些團(tuán)隊(duì)中,用藥規(guī)律的研究最為普遍,主要是通過(guò)借助數(shù)據(jù)挖掘和分析軟件對(duì)名醫(yī)的臨床處方或真實(shí)世界的臨床信息進(jìn)行分析。
圖3 2005-2019年CNKI發(fā)文作者共現(xiàn)網(wǎng)絡(luò)
中國(guó)中醫(yī)科學(xué)院是團(tuán)隊(duì)內(nèi)部合作最為頻繁且合作發(fā)文最多的團(tuán)體,去除團(tuán)隊(duì)合作重復(fù)統(tǒng)計(jì)共發(fā)文70篇,其中包括以劉保延為核心的廣安門醫(yī)院、以崔蒙為核心的中醫(yī)藥信息研究所、以楊洪軍為核心的中藥研究所和以范吉平為核心的眼科醫(yī)院。除用藥規(guī)律研究外,劉保延團(tuán)隊(duì)還涉及中藥數(shù)據(jù)規(guī)范化處理、中醫(yī)臨床數(shù)據(jù)倉(cāng)庫(kù)的建立以及臨床信息平臺(tái)等方面,楊洪軍團(tuán)隊(duì)研究開(kāi)發(fā)了中醫(yī)傳承輔助平臺(tái)和中藥整合藥理學(xué)計(jì)算平臺(tái),都是數(shù)據(jù)挖掘技術(shù)與中醫(yī)藥的更深層結(jié)合。以劉健為核心的安徽中醫(yī)藥大學(xué)團(tuán)隊(duì)將數(shù)據(jù)挖掘技術(shù)與臨床工作相結(jié)合,做了大量關(guān)節(jié)炎的用藥規(guī)律分析,同時(shí)對(duì)當(dāng)?shù)匦掳册t(yī)學(xué)也進(jìn)行了一定的研究。北京中醫(yī)藥大學(xué)的2 個(gè)團(tuán)隊(duì)中,以張冰為核心的團(tuán)隊(duì)把將數(shù)據(jù)挖掘方法應(yīng)用于中藥研究,以王偉為核心的團(tuán)隊(duì)的研究則擅于結(jié)合心血管疾病。此外,以段金廒為首的南京中醫(yī)藥大學(xué),以蔡永敏為首的河南中醫(yī)藥大學(xué),以王振國(guó)為首的山東中醫(yī)藥大學(xué)等都是發(fā)文較多的團(tuán)隊(duì)。上述團(tuán)隊(duì)或與自身研究領(lǐng)域相結(jié)合,或從古籍醫(yī)案中探尋規(guī)律。從總體上來(lái)看,各個(gè)團(tuán)隊(duì)進(jìn)行最多的還是用藥規(guī)律的研究,方法主要采用關(guān)聯(lián)規(guī)則、聚類分析、因子分析等幾種,僅有少量研究涉及更復(fù)雜的數(shù)據(jù)挖掘技術(shù)和算法。這說(shuō)明,在中醫(yī)藥數(shù)據(jù)挖掘與分析的研究中,研究范圍相對(duì)狹窄,而研究方法也較為局限。
圖4 2005-2019年CNKI發(fā)文最多的10個(gè)單位
全部文獻(xiàn)共使用8102個(gè)關(guān)鍵詞,去除重復(fù)后共計(jì)2899 個(gè)。將關(guān)鍵詞按詞頻排序,去除主題詞“數(shù)據(jù)挖掘”“數(shù)據(jù)分析”“中醫(yī)”“中藥”,并將同義的關(guān)鍵詞進(jìn)行標(biāo)準(zhǔn)化,合并為頻次更高的。
頻次前10 位的關(guān)鍵詞依次是用藥規(guī)律、關(guān)聯(lián)規(guī)則、中醫(yī)傳承輔助平臺(tái)、聚類分析、組方規(guī)律、中醫(yī)證候、名老中醫(yī)、醫(yī)案、名醫(yī)經(jīng)驗(yàn)、方劑(表1)。
表1 2005-2019年高頻關(guān)鍵詞前10位
相對(duì)于高頻關(guān)鍵詞,雖然低頻關(guān)鍵詞出現(xiàn)頻率較低但總體數(shù)量龐大,同樣能夠反映研究的趨勢(shì),具有很重要的研究意義。由于算法是數(shù)據(jù)挖掘與數(shù)據(jù)分析的核心,本文對(duì)算法相關(guān)的低頻關(guān)鍵詞進(jìn)行了統(tǒng)計(jì)與分析,結(jié)果發(fā)現(xiàn):傳統(tǒng)經(jīng)典的數(shù)據(jù)挖掘算法貝葉斯網(wǎng)絡(luò),支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)算法、粗糙集算法、頻繁項(xiàng)集在2005-2019統(tǒng)計(jì)區(qū)間內(nèi)出現(xiàn)次數(shù)較多,且按年份均勻分布,即幾乎每年都會(huì)有相關(guān)論文發(fā)表,相關(guān)研究幾乎沒(méi)有間斷;回歸分析、無(wú)監(jiān)督數(shù)據(jù)挖掘、無(wú)尺度網(wǎng)絡(luò)、隨機(jī)森林、關(guān)聯(lián)網(wǎng)絡(luò)、貝葉斯方法、改進(jìn)最小角回歸、BB-NNF 算法、TCMA 算法、KNN 算法、Aitchison 出現(xiàn)小于2 次且均在2016年以前;文本挖掘、熵聚類、softmax 回歸、K-means、Spearman 相關(guān)分析、TF-IDF 算法在2015年以后特別是2019年的論文中出現(xiàn),原因主要與人工智能的發(fā)展以及自然語(yǔ)言處理領(lǐng)域逐漸火熱相關(guān),同時(shí)也帶動(dòng)了經(jīng)典機(jī)器學(xué)習(xí)算法的使用。
將全部關(guān)鍵詞按照出現(xiàn)的頻次進(jìn)行排序,取前30個(gè)關(guān)鍵詞,使用Python 中的pandas 科學(xué)計(jì)算包進(jìn)行關(guān)鍵詞共現(xiàn)矩陣的構(gòu)建,將共現(xiàn)矩陣導(dǎo)入Gephi 軟件生成關(guān)鍵詞共現(xiàn)圖譜(圖5)。該圖中,連接2個(gè)關(guān)鍵詞的邊的粗細(xì)代表共現(xiàn)頻次的高低,連線越粗表示2 個(gè)關(guān)鍵詞共現(xiàn)次數(shù)越多,反之越少。關(guān)鍵詞的共現(xiàn)代表2個(gè)關(guān)鍵詞出現(xiàn)在同一篇文章的頻次,反映了關(guān)鍵詞之間關(guān)聯(lián)程度的高低,關(guān)聯(lián)程度越高的關(guān)鍵詞在研究?jī)?nèi)容上更具相關(guān)性。關(guān)鍵詞的共現(xiàn)分析能夠準(zhǔn)確反映中醫(yī)藥數(shù)據(jù)挖掘研究中研究?jī)?nèi)容、研究方法和研究工具之間的關(guān)聯(lián)關(guān)系。從共現(xiàn)的頻次來(lái)看,數(shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則、聚類分析兩兩高度相關(guān),表明關(guān)聯(lián)規(guī)則分析和聚類分析是數(shù)據(jù)挖掘中最常使用的技術(shù)且經(jīng)常同時(shí)使用;數(shù)據(jù)挖掘與用藥規(guī)律、中醫(yī)傳承輔助平臺(tái)的兩兩相關(guān),說(shuō)明借助中醫(yī)傳承輔助平臺(tái)進(jìn)行用藥規(guī)律研究非常普遍。
圖5 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜
2010-2019 共10年來(lái)發(fā)文量整體呈上升趨勢(shì),中醫(yī)藥和數(shù)據(jù)挖掘技術(shù)漸漸深入結(jié)合。將近10年內(nèi)頻數(shù)前30位的的關(guān)鍵詞全部提取,按年份對(duì)每個(gè)關(guān)鍵詞的頻數(shù)進(jìn)行切片統(tǒng)計(jì),得到年份-關(guān)鍵詞熱力圖(圖6)。在該圖中,關(guān)鍵詞頻數(shù)的高低由顏色的深淺來(lái)表示,顏色越深表示關(guān)鍵詞出現(xiàn)的頻數(shù)越高,反之,則越低??v向表示某關(guān)鍵詞在時(shí)間維度上的變化趨勢(shì);從圖的橫向看,左側(cè)顏色較深,說(shuō)明左側(cè)的關(guān)鍵詞為近10年的高頻關(guān)鍵詞,排在前5位的是用藥規(guī)律、關(guān)聯(lián)規(guī)則、中醫(yī)傳承輔助平臺(tái)、聚類分析和組方規(guī)律。
圖6 2010-2019年年份-關(guān)鍵詞熱力圖
2012年以來(lái)用藥規(guī)律的研究越來(lái)越多,逐漸成為熱度的中心;關(guān)聯(lián)規(guī)則和聚類分析在10年里一直被廣泛使用,關(guān)聯(lián)規(guī)則的熱度在2017年達(dá)到巔峰后略有下降,聚類分析的熱度近年來(lái)開(kāi)始上升且略低于關(guān)聯(lián)規(guī)則,這兩者是進(jìn)行數(shù)據(jù)挖掘的最常用方法;中醫(yī)傳承輔助平臺(tái)是進(jìn)行用藥規(guī)律分析的重要工具,自應(yīng)用以來(lái)都保持了較高水平的熱度;2015年,用藥規(guī)律、關(guān)聯(lián)規(guī)則、中醫(yī)傳承輔助平臺(tái)、聚類分析、組方規(guī)律、配伍規(guī)律和名老中醫(yī)的熱度都出現(xiàn)了明顯的增長(zhǎng),一個(gè)以用藥規(guī)律和組方規(guī)律研究為核心,以中醫(yī)傳承輔助平臺(tái)為工具,以關(guān)聯(lián)規(guī)則挖掘和聚類分析為主要方法,以傳承中醫(yī)經(jīng)驗(yàn)為目標(biāo)的中醫(yī)藥研究方法已形成雛形。
相關(guān)研究的1894 篇文章發(fā)布在337種期刊上,其中載文量最多的是《中國(guó)中醫(yī)藥信息雜志》(表2)。載文量前10的期刊累計(jì)發(fā)表530篇,占總數(shù)的27.98%。
表2 2005-2019年載文量前10位的期刊分布
從文章被引的角度,對(duì)全部文章的被引數(shù)量進(jìn)行排序,分析排名前50位的文章特點(diǎn)。首先從被引最多的前10位文章內(nèi)容來(lái)看(表3),其中與“中醫(yī)傳承輔助平臺(tái)”相關(guān)的論文達(dá)到了4篇。其次,從被引次數(shù)最多的前50位論文的類別來(lái)看,其中名老中醫(yī)經(jīng)驗(yàn)研究共9篇,中藥相關(guān)研究共7篇,組方規(guī)律研究共3篇,中醫(yī)藥信息系統(tǒng)與中醫(yī)藥臨床研究各2篇。
表3 2005-2019年被引量前10位的論文分布
高被引論文一般是研究領(lǐng)域內(nèi)的熱點(diǎn)問(wèn)題和基礎(chǔ)問(wèn)題。從“中醫(yī)傳承輔助平臺(tái)”被引次數(shù)最多可以看出,目前中醫(yī)藥領(lǐng)域,一方面在研究者逐漸的有了將數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法與工具應(yīng)用到傳統(tǒng)的中醫(yī)藥領(lǐng)域的需求;另一方面受到編程以及數(shù)據(jù)分析能力欠缺的限制,研究者很難憑借自身的知識(shí)儲(chǔ)備與能力完成研究任務(wù)?!爸嗅t(yī)傳承輔助平臺(tái)”軟件正好可以彌補(bǔ)兩者之間的差距,將中醫(yī)藥常用的分析方法固化到軟件系統(tǒng)中,使用者無(wú)需具備數(shù)據(jù)分析的知識(shí)就可以進(jìn)行數(shù)據(jù)分析。因此,在此工具的基礎(chǔ)上,節(jié)省了研究者學(xué)習(xí)數(shù)據(jù)分析知識(shí)的時(shí)間,產(chǎn)生了大量的中醫(yī)藥數(shù)據(jù)挖掘與數(shù)據(jù)分析的論文。但同時(shí),也反映出中醫(yī)藥數(shù)據(jù)挖掘領(lǐng)域目前過(guò)多的依賴現(xiàn)成的數(shù)據(jù)分析工具,存在創(chuàng)新性不足的問(wèn)題。
2005年以前,受限于中醫(yī)藥數(shù)據(jù)的積累和計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域一直處于探索階段。徐慧[5]闡述了中醫(yī)文獻(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)的設(shè)計(jì)方法;李永健等[6]總結(jié)了聚類分析在中醫(yī)藥研究中的應(yīng)用,涉及體質(zhì)與辨證、文獻(xiàn)研究、醫(yī)療機(jī)構(gòu)評(píng)價(jià)和中藥研究,提出聚類分析是中醫(yī)藥學(xué)研究中開(kāi)展數(shù)量化工作的基石,將為中醫(yī)藥科研活動(dòng)逐步從傳統(tǒng)的以定性描述為主的方式向定量研究的方式過(guò)渡打好基礎(chǔ)。李文林等[7]提出數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域中的應(yīng)用包括中藥藥性理論研究、中醫(yī)證候規(guī)范化、中醫(yī)動(dòng)物模型研究、中醫(yī)方劑研究和中醫(yī)普效關(guān)系研究5個(gè)方面。
2005-2014年間,該領(lǐng)域的文獻(xiàn)以綜述為主,實(shí)驗(yàn)研究較少,但是學(xué)者們開(kāi)始重視數(shù)據(jù)挖掘技術(shù)并做出了大量總結(jié)和展望。2007年前后,關(guān)聯(lián)規(guī)則算法開(kāi)始較多的運(yùn)用到中醫(yī)藥領(lǐng)域,主要集中在方劑研究中,常用的算法有Apriori 算法和FP-growth 算法。2012年,楊洪軍等[8]設(shè)計(jì)開(kāi)發(fā)了中醫(yī)傳承輔助系統(tǒng),旨在輔助名老中醫(yī)經(jīng)驗(yàn)傳承、醫(yī)師個(gè)體經(jīng)驗(yàn)總結(jié)、青年醫(yī)師學(xué)習(xí)以及新藥處方發(fā)現(xiàn)等。此后,基于此平臺(tái)的用藥規(guī)律研究開(kāi)始逐年增多。
從2015年起,中醫(yī)藥數(shù)據(jù)挖掘的相關(guān)文章快速增加,熱點(diǎn)越來(lái)越集中在用藥規(guī)律方面。數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥研究中的具體應(yīng)用涉及中藥方劑研究、中醫(yī)診斷、證候研究、針灸等方面[9]。中醫(yī)藥在傳承中產(chǎn)生了大量數(shù)據(jù),從大量數(shù)據(jù)中提取有價(jià)值的信息成為中醫(yī)藥信息化的重要任務(wù)。隨著數(shù)據(jù)挖掘技術(shù)在其他行業(yè)的有效使用,越來(lái)越多的研究者把它用在中醫(yī)藥領(lǐng)域,力求尋找到有效的結(jié)合點(diǎn),更深入、更科學(xué)的發(fā)掘中醫(yī)藥的潛在價(jià)值。
2010-2019年年份-關(guān)鍵詞熱力圖表明,用藥規(guī)律分析是目前中醫(yī)藥數(shù)據(jù)挖掘中最熱門的研究,由于數(shù)據(jù)來(lái)源廣、數(shù)據(jù)結(jié)構(gòu)化程度較高,方劑研究一直是中醫(yī)藥數(shù)據(jù)挖掘的核心內(nèi)容。中醫(yī)藥領(lǐng)域的研究者普遍在數(shù)據(jù)挖掘與分析技術(shù)的掌握上存在相當(dāng)大的難度,使得其非常依賴前人的研究思路與研究方法,造成了目前中醫(yī)藥數(shù)據(jù)挖掘的研究中研究方法、研究技術(shù)相對(duì)單一的情況。以用藥規(guī)律分析為例,僅有少部分研究者通過(guò)Microsoft Office Excel、SPSS、R 語(yǔ)言和Python 語(yǔ)言等平臺(tái)進(jìn)行研究;大量研究者選擇使用中醫(yī)傳承輔助平臺(tái)軟件,該平臺(tái)將一般統(tǒng)計(jì)法、文本挖掘、關(guān)聯(lián)規(guī)則、復(fù)雜系統(tǒng)熵方法等挖掘分析方法加以集成[10],成為進(jìn)行用藥規(guī)律研究的重要工具。后人的研究基本沿襲了前人的研究思路與方法,雖然模式化的研究降低了中醫(yī)藥數(shù)據(jù)挖掘的門檻、縮短了研究時(shí)間,推動(dòng)著大量相關(guān)研究的出現(xiàn)并取得了一定的成果,但同時(shí)也束縛了研究范圍的拓展。中醫(yī)藥數(shù)據(jù)挖掘工具的出現(xiàn),將研究者從數(shù)據(jù)挖掘的技術(shù)細(xì)節(jié)中解脫出來(lái),專注于研究?jī)?nèi)容本身,但也容易讓研究者形成依賴,只能在工具設(shè)定的技術(shù)框架中進(jìn)行研究,不利于研究范圍的拓展和創(chuàng)新。
中醫(yī)藥是優(yōu)秀的科技資源。隨著社會(huì)的不斷進(jìn)步,中醫(yī)藥也與時(shí)俱進(jìn)尋求突破,保持著勃勃的生機(jī)與活力,具有新的時(shí)代價(jià)值。為了有效管理復(fù)雜的中醫(yī)藥大數(shù)據(jù),王蘋等[11]基于Hadoop 平臺(tái)構(gòu)建了中醫(yī)藥大數(shù)據(jù)管理模型,該平臺(tái)能夠?qū)崿F(xiàn)動(dòng)態(tài)、一體化的中醫(yī)藥大數(shù)據(jù)的采集、存儲(chǔ)、分析及應(yīng)用任務(wù)。在人工智能方面,基于大數(shù)據(jù)和類腦計(jì)算技術(shù)的中醫(yī)智能輔助診療系統(tǒng)的研發(fā)是未來(lái)中醫(yī)學(xué)發(fā)展的重要方向[12]。自然語(yǔ)言處理技術(shù)通過(guò)信息抽取、量化分析,可以將中醫(yī)文本知識(shí)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)[13],命名實(shí)體識(shí)別是自然語(yǔ)言處理中的基礎(chǔ)任務(wù),也是知識(shí)圖譜構(gòu)建過(guò)程中的重要步驟。張德政等[14]提出了基于本體的中醫(yī)核心知識(shí)圖譜表示及其構(gòu)建方法,并對(duì)中醫(yī)知識(shí)圖譜的知識(shí)獲取和應(yīng)用進(jìn)行了探索,于彤等人[15]完成了中醫(yī)養(yǎng)生知識(shí)圖譜的構(gòu)建。通過(guò)知識(shí)圖譜技術(shù),建立以知識(shí)服務(wù)為特征的,可分類檢索、開(kāi)放共享、決策支持的中醫(yī)藥數(shù)據(jù)庫(kù),是該領(lǐng)域發(fā)展的重要契機(jī)之一。培養(yǎng)同時(shí)具備中醫(yī)藥知識(shí)與數(shù)據(jù)分析技術(shù)的多學(xué)科復(fù)合型人才,增加跨學(xué)科合作,促進(jìn)中醫(yī)藥協(xié)同創(chuàng)新,才能促進(jìn)中醫(yī)藥信息化研究更加廣泛、深入。
本研究?jī)H檢索了CNKI 中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)的期刊論文,沒(méi)有納入學(xué)位論文、新聞、資料以及非公開(kāi)發(fā)表的論文,在文獻(xiàn)檢全率上存在局限性。人工智能在醫(yī)療領(lǐng)域的發(fā)展頗受矚目,自然語(yǔ)言處理和知識(shí)圖譜技術(shù)逐漸深入到中醫(yī)藥領(lǐng)域當(dāng)中,中醫(yī)藥數(shù)據(jù)挖掘技術(shù)廣度和深度取得了極大的進(jìn)步。獨(dú)特的理論體系使中醫(yī)藥現(xiàn)代化面臨著巨大的困難,數(shù)據(jù)挖掘技術(shù)是中醫(yī)藥的保持自身獨(dú)特性的基礎(chǔ)上贏得廣泛認(rèn)同的重要手段,可以為中醫(yī)藥理論的科學(xué)解釋提供有力證據(jù)。