亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合共現(xiàn)和語(yǔ)義信息的藥對(duì)提取方法研究及應(yīng)用*

        2024-04-16 13:18:24胡孔法
        關(guān)鍵詞:關(guān)聯(lián)語(yǔ)義規(guī)則

        唐 靜,楊 濤,2,朱 垚,胡孔法,4**

        (1.南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院 南京 210023;2.江蘇省中醫(yī)藥健康養(yǎng)生技術(shù)工程研究中心南京 210023;3.南京中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院 南京 210023;4.江蘇省中醫(yī)藥防治腫瘤協(xié)同創(chuàng)新中心南京 210023)

        藥對(duì),又稱對(duì)藥、兄弟藥、姊妹藥,在臨床上的構(gòu)成搭配相對(duì)固定,是中藥復(fù)方配伍中最簡(jiǎn)單、最基本和最常見的用藥形式[1]。藥對(duì)按照一定規(guī)則進(jìn)行配對(duì),例如除單藥外的“六情”理論,在臨床實(shí)踐中,將療效或性能相近的藥物聯(lián)合使用,通過(guò)相使、相須、相殺、相畏等配伍作用關(guān)系,使其達(dá)到一定的增效減毒等效用。藥對(duì),是單味中藥到方劑應(yīng)用的過(guò)渡環(huán)節(jié),是方劑配伍規(guī)律研究的切入點(diǎn),是中藥復(fù)方所含規(guī)律性特征與辨證施治的內(nèi)涵體現(xiàn)[2]。深入理解藥對(duì)之間蘊(yùn)含的配伍規(guī)律,對(duì)剖析方劑的構(gòu)成以及明確方義大有裨益,例如通過(guò)研究探析“方書之祖”張仲景方藥的對(duì)藥組合,從而得出陰陽(yáng)相配、寒熱相配、氣血相配、補(bǔ)瀉相配、散斂相配等歸類[3],掌握其使用藥對(duì)的思想方法,從而進(jìn)一步指導(dǎo)臨床實(shí)踐。不僅益于古方的挖掘應(yīng)用,更為創(chuàng)新中藥、創(chuàng)組新方奠定基礎(chǔ)并提供理論支撐。隨著現(xiàn)代醫(yī)藥學(xué)的發(fā)展,對(duì)于藥對(duì)的研究越來(lái)越深入,例如“當(dāng)歸-黃芪”“三七-丹參”等[4],也在從證明“藥對(duì)的有效性”轉(zhuǎn)為“為何有效”“如何更有效”,可見藥對(duì)所蘊(yùn)含的價(jià)值舉足輕重。

        藥對(duì)不是一成不變的,也不是每一首方劑都可使用一個(gè)藥對(duì)[4]。藥物的組配規(guī)律仍會(huì)有新的發(fā)現(xiàn),如何利用現(xiàn)代技術(shù)快速篩選出潛在藥對(duì),如何對(duì)藥對(duì)進(jìn)行多角度、深層次的分析挖掘,為藥對(duì)的提取提供方法支撐,是中醫(yī)藥傳承與今后研發(fā)的重要研究課題之一。

        目前,藥對(duì)的研究已逐漸深入,除了在理論、臨床、實(shí)驗(yàn)方面的研究,還有計(jì)算機(jī)方法的研究,例如數(shù)據(jù)挖掘技術(shù)主要針對(duì)于中醫(yī)癥狀間、用藥間的規(guī)律[5]。在方劑學(xué)中主要使用的方法有關(guān)聯(lián)規(guī)則法[6](如Apriori、Fp-growth、Eclat 等)、聚類分析、分類算法等,利用文獻(xiàn)和數(shù)據(jù)庫(kù)數(shù)據(jù),例如《傷寒論》、臨床門診數(shù)據(jù)等,挖掘潛在的藥對(duì)或藥物組合,在病-證-癥-方-藥、復(fù)方配伍規(guī)律、類方等研究中有著廣泛前景。劉娟等[7]運(yùn)用關(guān)聯(lián)規(guī)則的方法將源自《中醫(yī)大辭典》中的1046首脾胃方,從數(shù)據(jù)關(guān)聯(lián)層面證實(shí)了例如“白術(shù)-茯苓”等已知藥對(duì)的常用性,并發(fā)現(xiàn)了未知藥對(duì)“陳皮-山楂”等,為探索臨床研究發(fā)展之路提供思路。曾珉等[8]、甘德成等[9]、姜平等[10]、張偉健等[11]基于關(guān)聯(lián)規(guī)則和聚類分析等算法對(duì)核心藥物組合與組方規(guī)律進(jìn)行分析,獲得新的關(guān)鍵組方思路,從而探尋疾病治療的用藥規(guī)律;姚鑒玲等[12]提出一種融合組合賦權(quán)、聚類、決策、評(píng)價(jià)等算法用于配方設(shè)計(jì)及評(píng)價(jià);Wang 等[13]通過(guò)利用SVM 對(duì)方劑效果進(jìn)行了分類預(yù)測(cè),從而證實(shí)“君臣佐使”的方劑結(jié)構(gòu)與藥物間的關(guān)聯(lián);又或是基于中醫(yī)藥類傳承平臺(tái)對(duì)藥對(duì)進(jìn)行提取[14]等。

        目前研究者對(duì)中藥配伍規(guī)律挖掘方法的選擇上具有局限,研究模式相似,多利用關(guān)聯(lián)規(guī)則算法進(jìn)行核心用藥的挖掘,或是對(duì)高頻藥物進(jìn)行聚類分析其類別功效等。然而,關(guān)聯(lián)規(guī)則分析結(jié)果存在大量冗余規(guī)則,聚類算法未能全面考慮藥物重要特性對(duì)方劑的影響,分類算法對(duì)于歸納方劑蘊(yùn)含知識(shí)存在不適用問(wèn)題[15]等??紤]到方劑數(shù)據(jù)所蘊(yùn)含的不單是統(tǒng)計(jì)規(guī)律,更應(yīng)結(jié)合文本語(yǔ)義特征進(jìn)行分析,例如方劑中各藥物間的排序、文本語(yǔ)義間的關(guān)系。

        語(yǔ)義信息,也稱意義信息,在維基百科中,語(yǔ)義信息是指有意義的數(shù)據(jù)提供的信息,關(guān)注的是詞、短語(yǔ)、符號(hào)等之間的關(guān)系;在自然語(yǔ)言處理中,即上下文信息,也就是指一個(gè)詞與其周圍詞之間的關(guān)聯(lián)。對(duì)語(yǔ)義信息的計(jì)算,即解釋自然語(yǔ)言句子各部分(詞、詞組、句子、段落、篇章)的含義。處方數(shù)據(jù)并非屬于嚴(yán)格的語(yǔ)義范疇,有著索引、語(yǔ)調(diào)、情態(tài)(《語(yǔ)言學(xué)綱要》);處方數(shù)據(jù)由索引(藥物)構(gòu)成,通過(guò)研究詞與詞之間的關(guān)系,研究文本的語(yǔ)義信息,即中藥處方中每味藥物之間的關(guān)系。語(yǔ)義具有領(lǐng)域性特征,不屬于任何領(lǐng)域的語(yǔ)義是不存在的[16],已經(jīng)學(xué)習(xí)到人類語(yǔ)言含義的系統(tǒng)可以做一些諸如回答有關(guān)世界事物的問(wèn)題,即通過(guò)學(xué)習(xí)一些將意義反映到語(yǔ)言形式中的知識(shí),可以使系統(tǒng)具有解答相關(guān)領(lǐng)域問(wèn)題的能力[17]。中藥方劑文本是名老中醫(yī)將經(jīng)驗(yàn)以語(yǔ)言文本形式反映的知識(shí),有著巨大的價(jià)值,也存在著相關(guān)領(lǐng)域的語(yǔ)義特征。如果忽視對(duì)方劑內(nèi)部語(yǔ)義或詞序信息的考量,會(huì)錯(cuò)失一些重要信息。丁侃[16]在梳理歸納中醫(yī)古籍知識(shí)時(shí)考慮到語(yǔ)義異構(gòu),運(yùn)用中醫(yī)語(yǔ)義元數(shù)據(jù)描述知識(shí)單元內(nèi)容特征,同時(shí),語(yǔ)義也具有表達(dá)性。通過(guò)引入語(yǔ)義維度,可以在語(yǔ)義空間上表示藥物詞語(yǔ),方便計(jì)算機(jī)處理,除此以外還可以為后續(xù)研究提供便利,例如:對(duì)詞語(yǔ)維度進(jìn)行降維,在一定程度上可以減少噪音、方便可視化觀察詞語(yǔ)間的關(guān)系等。目前在圖像的識(shí)別與多目標(biāo)跟蹤、自然語(yǔ)言處理的命名實(shí)體識(shí)別等有著較為廣闊地應(yīng)用,例如衡紅軍等[18]對(duì)文本進(jìn)行編碼標(biāo)記,通過(guò)語(yǔ)義特征與句法特征等對(duì)語(yǔ)句關(guān)系的客體位置做出預(yù)測(cè)標(biāo)記,從而完成了三元組的提取。

        鑒于此,本文提出一種在詞頻分析的基礎(chǔ)上,從語(yǔ)義角度對(duì)潛在藥對(duì)做進(jìn)一步篩選的算法。引入語(yǔ)義維度,將處方中每味藥物作為一個(gè)詞,使用自然語(yǔ)言處理過(guò)程中的詞嵌入技術(shù),能夠?qū)⑺幬镌~文本映射到語(yǔ)義向量空間,用向量的形式表示藥物詞匯,向量中也包含詞與詞之間的關(guān)系,用以研究文本的語(yǔ)義信息,即中藥處方中每味藥物之間的關(guān)系。以條件概率作為篩選藥對(duì)的依據(jù)之一,同時(shí)結(jié)合方劑中藥物間的語(yǔ)義信息,以語(yǔ)義相似度為另一評(píng)價(jià)指標(biāo),對(duì)潛在候選藥對(duì)進(jìn)一步篩選提供依據(jù)。

        1 融合共現(xiàn)和語(yǔ)義信息的藥對(duì)提取算法

        1.1 相關(guān)定義

        1.1.1 向量?jī)?nèi)積

        向量的內(nèi)積,也被稱為向量的數(shù)量積,或點(diǎn)乘。對(duì)兩個(gè)向量做點(diǎn)乘運(yùn)算,即對(duì)兩向量的對(duì)應(yīng)位先相乘后求和。利用點(diǎn)積可計(jì)算對(duì)應(yīng)余弦值,點(diǎn)積及余弦值一般可用于相似性度量。一般訓(xùn)練時(shí)使用內(nèi)積作為相似度可以保留詞的頻率信息。對(duì)于n維向量的內(nèi)積定義如下:

        1.1.2 共現(xiàn)概率比

        共現(xiàn)是指單詞i 與單詞j 在一定范圍內(nèi)共同出現(xiàn)的次數(shù)。共現(xiàn)概率是指單詞j 出現(xiàn)在單詞i 上下文的概率。共現(xiàn)概率比是指共現(xiàn)概率的比率[19],其定義如下:

        式(2)中:ω ∈Rd表示d 維詞向量,∈Rd表示單詞i 與單詞j 的上下文詞向量;式(3)中:Pij為單詞j 出現(xiàn)在單詞i 上下文的概率。同時(shí)共現(xiàn)概率比的值是有一定規(guī)律的,且該規(guī)律可通過(guò)詞向量呈現(xiàn)[19-20],對(duì)上述共現(xiàn)概率比進(jìn)行向量差分與點(diǎn)積表示可得:

        因此共現(xiàn)概率矩陣中所蘊(yùn)含的信息可以通過(guò)詞向量表示,即該值能夠反應(yīng)詞向量之間的相關(guān)性見表1。

        1.2 算法流程

        掃描規(guī)范化的方劑數(shù)據(jù)集,每一行作為一條獨(dú)立的處方數(shù)據(jù)文本輸入,同時(shí)輸入的還有最小出現(xiàn)頻次counts、維度vector、閾值min1、min2,min1 主要采用條件概率的方法初步篩選藥對(duì),min2 主要是基于語(yǔ)義信息用于語(yǔ)義相關(guān)的藥對(duì)提取。根據(jù)輸入數(shù)據(jù)集統(tǒng)計(jì)任意兩味藥物共同出現(xiàn)的次數(shù),沒(méi)有則記為“0”,有則進(jìn)行累加操作,以此構(gòu)建協(xié)同共現(xiàn)矩陣來(lái)計(jì)算藥物間的條件概率見圖1a。因考慮到篩選藥對(duì)的雙向關(guān)聯(lián)程度,故以藥物雙方各自為條件,將兩條件概率采用乘法計(jì)算方式獲取雙向的關(guān)聯(lián)信息,并以min1為界篩選出潛在候選藥對(duì)。與此同時(shí),構(gòu)建基于窗口的詞-上下文協(xié)同矩陣并與上述協(xié)同矩陣取共現(xiàn)交集,并構(gòu)建字典、生成詞向量,此時(shí)各藥物可由數(shù)字化向量進(jìn)行表示見圖1b;以藥物向量之間的內(nèi)積計(jì)算其相似度并將結(jié)果進(jìn)行排序,以min2為界篩選出候選藥對(duì)并與前者篩選結(jié)果取交集,篩選出相同的藥物組合作為潛在藥對(duì)。算法核心步驟如下表2所示。

        圖1 算法示意圖

        表2 算法核心步驟

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 數(shù)據(jù)來(lái)源及數(shù)據(jù)預(yù)處理

        本文肺癌臨床數(shù)據(jù)來(lái)源于由國(guó)醫(yī)大師周仲瑛傳承工作室提供的周仲瑛教授門診診治肺癌患者的處方用藥數(shù)據(jù)。按照數(shù)據(jù)預(yù)處理步驟,參照《中華本草》《中國(guó)藥典》等對(duì)處方數(shù)據(jù)中的中藥名稱進(jìn)行規(guī)范化處理,例如:糾正錯(cuò)別字、統(tǒng)一藥物名稱等。經(jīng)處理共得到1090條處方數(shù)據(jù),371味中藥,處理后的數(shù)據(jù)每一行作為一條處方記錄,每條記錄中不同藥物以空格間隔。

        2.2 實(shí)驗(yàn)設(shè)置

        為了驗(yàn)證本文所提算法的有效性及實(shí)用性,將本算法提取結(jié)果與經(jīng)典的數(shù)據(jù)挖掘算法Apriori 進(jìn)行比較。

        ①按照2.2 中算法流程進(jìn)行實(shí)驗(yàn),構(gòu)建共現(xiàn)矩陣計(jì)算任意兩味藥物間的條件概率,以此獲得兩者間的關(guān)聯(lián)關(guān)系從而篩選出潛在候選藥對(duì);通過(guò)設(shè)置不同的配置參數(shù),例如最小頻次counts、維數(shù)vector 以及閾值參數(shù)min1、min2 觀察不同參數(shù)下結(jié)果數(shù)量的變化,選擇合適的參數(shù)篩選出潛在藥對(duì)。②利用Apriori 算法提取潛在的藥物關(guān)聯(lián)規(guī)則,為保證實(shí)驗(yàn)的對(duì)照與均衡性原則,Apriori 算法的參數(shù)設(shè)置與①中提及的最小頻次counts 有關(guān),因此會(huì)依照counts 結(jié)果設(shè)置該算法的最小支持度。③最后結(jié)合中醫(yī)理論總結(jié)上述發(fā)現(xiàn)的潛在藥對(duì)并評(píng)價(jià)實(shí)驗(yàn)結(jié)果。

        2.3 實(shí)驗(yàn)結(jié)果

        2.3.1 融合共現(xiàn)和語(yǔ)義信息的藥對(duì)提取算法實(shí)驗(yàn)結(jié)果

        (1)設(shè)定閾值min1 自0.0 至1.0,步長(zhǎng)0.1,并以min1 的閾值區(qū)間作為橫坐標(biāo),初步篩選的藥對(duì)數(shù)作為縱坐標(biāo),得到以閾值min1為指標(biāo)的藥對(duì)分布情況見圖2a;考慮到語(yǔ)義信息提取藥對(duì)時(shí),各變量對(duì)結(jié)果的影響,諸如藥物出現(xiàn)的最小頻次數(shù)目、生成語(yǔ)義向量的維度大小等因素,本算法采用固定詞向量方法計(jì)算藥物向量(原始方法是通過(guò)在共現(xiàn)矩陣中隨機(jī)采集一批非零詞對(duì)作為訓(xùn)練數(shù)據(jù)進(jìn)行初始化詞向量,存有一定的隨機(jī)性與不可復(fù)現(xiàn)性),以相似度≥90%,即min2=0.9 為例,以選取頻次數(shù)目及維度大小盡可能小、且篩選結(jié)果趨于穩(wěn)定為原則,以初步篩選藥對(duì)數(shù)作為縱坐標(biāo),以藥物語(yǔ)義維度作為橫坐標(biāo),得到基于語(yǔ)義信息的藥對(duì)數(shù)目變化情況見圖2b。

        圖2 實(shí)驗(yàn)閾值設(shè)置

        從圖2a可以看出:采用條件概率的方法初步篩選藥對(duì)時(shí),隨著閾值區(qū)間的增大,對(duì)應(yīng)的潛在候選藥對(duì)數(shù)量急劇減小,在區(qū)間[0.4,0.5)間內(nèi)所擁有的藥對(duì)數(shù)達(dá)58對(duì),且后續(xù)區(qū)間的曲率變化逐漸平緩,截至區(qū)間[0.4,1.0)擁有的藥對(duì)數(shù)達(dá)到147對(duì)。從圖2b可以看出:當(dāng)最小頻次為1、3、4時(shí),在維度為450時(shí)初步篩選結(jié)果仍有波動(dòng);當(dāng)最小頻次為5時(shí)篩選的結(jié)果與最小頻次為3和4時(shí)的結(jié)果在數(shù)量上差距不大,且從250維開始篩選結(jié)果也是趨于穩(wěn)定的狀態(tài)。由此將上述相結(jié)合進(jìn)一步進(jìn)行篩選,可以得到融合共現(xiàn)與語(yǔ)義信息的不同語(yǔ)義閾值區(qū)間上的藥對(duì)分布情況見圖2c;從圖2c 可以看出:在語(yǔ)義相似度區(qū)間[50%,60%)內(nèi)得到的結(jié)果占目前已出現(xiàn)結(jié)果的比例較高,截至區(qū)間[50%,100%)擁有的藥對(duì)數(shù)達(dá)到88 對(duì),以上述閾值區(qū)間分布作為橫縱坐標(biāo)軸,以區(qū)間內(nèi)篩選藥對(duì)的數(shù)量為豎軸,可以得到藥對(duì)的分布情況見圖3,圖中節(jié)點(diǎn)大小表示為數(shù)量大小各截面代表含義如圖示所示。圖3 中從2 個(gè)不同視野觀察藥對(duì)分布區(qū)間并將藥對(duì)出現(xiàn)位置投射至底面便于觀察,從中可以看出以語(yǔ)義相似度50%為截面能夠獲得大部分結(jié)果藥對(duì),故從包含藥對(duì)數(shù)量層面考慮,推薦使用語(yǔ)義相似度50%作為min2的參數(shù)。

        圖3 藥對(duì)分布

        綜上,通過(guò)設(shè)置配置參數(shù)最小頻次counts=5、維數(shù)vector=250、閾值min1=0.4、min2=0.5,計(jì)算藥物之間的相似度,并與前者候選藥對(duì)結(jié)合評(píng)判,總結(jié)可以得到潛在藥對(duì)結(jié)果共88對(duì)。

        (2)按上述算法流程進(jìn)行實(shí)驗(yàn),篩選得出潛在藥對(duì),例如“北沙參-南沙參”“炒麥芽-炒谷芽”“焦神曲-焦山楂”等,前20項(xiàng)見表3。為了直觀展示篩選結(jié)果繪制了藥物網(wǎng)絡(luò)圖見圖4a 及經(jīng)PCA 降維后的3 維藥物散點(diǎn)圖見圖5a,圖中結(jié)點(diǎn)顏色由藍(lán)至紅表示藥物的頻次,頻次越高越偏紅,越低越偏藍(lán)。

        圖4 藥對(duì)網(wǎng)絡(luò)圖

        表3 潛在藥對(duì)Top20(加入語(yǔ)義信息)

        為了實(shí)驗(yàn)的完整性與直觀比較進(jìn)行消融實(shí)驗(yàn)。只考慮基于統(tǒng)計(jì)學(xué)習(xí)理論條件概率的方法進(jìn)行實(shí)驗(yàn),前20 項(xiàng)結(jié)果見表4,對(duì)應(yīng)藥物網(wǎng)絡(luò)圖見圖4b,在考慮到藥對(duì)相互之間的關(guān)聯(lián)關(guān)系后篩選得到147對(duì)藥對(duì)信息,提取的信息均為藥對(duì)信息,但篩選數(shù)量仍較多,依舊需進(jìn)一步人工篩選研究對(duì)象。同時(shí)以藥物在各藥方中出現(xiàn)的位置為維度信息,構(gòu)建藥物向量,同樣經(jīng)PCA降維后形成的散點(diǎn)圖見圖5b。

        (3)為了實(shí)驗(yàn)的準(zhǔn)確性,請(qǐng)國(guó)醫(yī)大師周仲瑛傳承工作室專家對(duì)最終藥對(duì)篩選結(jié)果進(jìn)行藥對(duì)標(biāo)引,根據(jù)標(biāo)引結(jié)果,以閾值區(qū)間作為橫坐標(biāo),以區(qū)間內(nèi)“是藥對(duì)”的比率作為豎軸,得到累計(jì)區(qū)間“是藥對(duì)”比率見圖6a。同時(shí)對(duì)結(jié)果標(biāo)注,分布見圖6b,標(biāo)注原則為:“確實(shí)藥對(duì)”,即按照周老同類相須理論與異類相使理論標(biāo)引;“同方藥組”,即參照異類相使關(guān)系;“共現(xiàn)藥物”,即同類相須部分是周老按照現(xiàn)代藥理研究劃歸同類的藥物。從圖6a 可以看出,在語(yǔ)義相似度區(qū)間[90%,100%)內(nèi)得到“是藥對(duì)”的結(jié)果準(zhǔn)確性比例較高,隨著語(yǔ)義相似度區(qū)間的擴(kuò)大,有發(fā)現(xiàn)新的藥對(duì),但準(zhǔn)確率逐步下降。故從準(zhǔn)確率層面考慮,推薦使用語(yǔ)義相似度90%作為min2的參數(shù),總結(jié)可以得到潛在藥對(duì)結(jié)果共33對(duì),其中是藥對(duì)占有23對(duì)。

        圖6 藥對(duì)結(jié)果

        此外,從圖6b 可以看出,“是藥對(duì)”中“同方藥組”在語(yǔ)義高閾值區(qū)間出現(xiàn)頻次較多,此為方劑中的藥對(duì),例如四君子湯中的白術(shù)、茯苓、甘草等組合;“確實(shí)藥對(duì)”“共現(xiàn)藥物”在區(qū)間[90%,100%)也占有一定比率。例如由女貞子與墨旱蓮組成的二至丸,黃連與吳茱萸構(gòu)成的左金丸等均為“確實(shí)藥對(duì)”;而“共現(xiàn)藥對(duì)”是周老所使用的不同抗腫瘤藥物,例如澤漆與山慈菇、太子參與南沙參、北沙參等,為后續(xù)進(jìn)一步研究周老用藥配伍規(guī)律可做參考。

        2.3.2 Apriori算法實(shí)驗(yàn)結(jié)果

        為保證本實(shí)驗(yàn)使用數(shù)據(jù)頻次的一致性,設(shè)置最小支持度為0.0045,僅考慮“1-項(xiàng)集”,得到關(guān)聯(lián)規(guī)則共12 766 條。設(shè)定置信度自0.0 至1.0,步長(zhǎng)0.1,并以置信度的閾值區(qū)間作為橫坐標(biāo),得到的關(guān)聯(lián)規(guī)則數(shù)作為縱坐標(biāo),得到關(guān)聯(lián)規(guī)則分布情況見圖7;以支持度與置信度分布為第一第二順序,位于前10 的關(guān)聯(lián)規(guī)則見表5。由于關(guān)聯(lián)規(guī)則存在由前項(xiàng)指向后項(xiàng)的方向關(guān)系,故繪制網(wǎng)絡(luò)圖時(shí)采用帶有箭頭指向的有向圖見圖8。

        圖7 關(guān)聯(lián)規(guī)則分布情況

        圖8 Apriori藥對(duì)網(wǎng)絡(luò)圖 (min Sup=0.045)

        表5 Apriori算法關(guān)聯(lián)規(guī)則藥對(duì)提取結(jié)果(Top10)(min Sup=0.0045)

        從圖7 與圖8 可以看出:在保障頻次范圍區(qū)間的同時(shí),Apriori 算法所挖掘出的關(guān)聯(lián)規(guī)則數(shù)量較多,若增設(shè)置信度的條件為(0.9,1.0]仍有380 條關(guān)系,若擴(kuò)大置信度范圍,所含關(guān)聯(lián)規(guī)則數(shù)將成倍增長(zhǎng),且需要人工比對(duì)整理;對(duì)于大樣本數(shù)據(jù),整體網(wǎng)絡(luò)復(fù)雜,不便于后續(xù)研究的觀察與分析。

        2.4 結(jié)果分析及討論

        從詞頻角度出發(fā)雖然考慮到了藥物兩兩之間的雙向關(guān)聯(lián)關(guān)系,但面對(duì)全新的數(shù)據(jù)往往會(huì)篩選出大量的潛在候選藥對(duì)(使用本文數(shù)據(jù)篩選出147對(duì))。通過(guò)前20項(xiàng)結(jié)果與處方詞頻信息比對(duì)可知:若單從詞頻共現(xiàn)角度考慮,得出的結(jié)果容易受到小樣本的影響,存在數(shù)據(jù)偏倚??紤]此因素并結(jié)合大數(shù)定律,在加入語(yǔ)義信息時(shí)從相對(duì)合適的角度設(shè)置最小詞頻以減少小樣本概率的發(fā)生,同時(shí)可以縮減潛在藥對(duì)范圍。由于每味藥對(duì)應(yīng)眾多化學(xué)成分、靶點(diǎn)信息等,在確立需要進(jìn)一步研究的藥對(duì)后,也需要一定的時(shí)間精力進(jìn)行研究證明其有效性、安全性等,因此結(jié)合語(yǔ)義角度進(jìn)行分析,合理地縮小潛在藥對(duì)的范圍是很有必要的。在藥物數(shù)量上,加入語(yǔ)義信息的篩選結(jié)果涉及藥物更少。臨床處方往往有章可循,在處方中,各味藥物由于在治療用途和方劑構(gòu)成、劑型上發(fā)揮的作用各異,通常會(huì)依據(jù)其作用性質(zhì)按序排列,比如:君藥、臣藥、佐藥、矯味藥、賦型藥等,故藥物之間的順序也存在著一定的聯(lián)系。在中醫(yī)處方數(shù)據(jù)中訓(xùn)練生成藥物詞向量,使得詞向量獲得適用于本數(shù)據(jù)的領(lǐng)域知識(shí),即每一味藥使用一定維數(shù)的向量表示,通過(guò)基于統(tǒng)計(jì)的文本相似度計(jì)算,以此表示藥物之間的相似度,最終得到的共現(xiàn)結(jié)果具有詞頻與語(yǔ)義上的相似性。

        從繪制的散點(diǎn)圖對(duì)比可知:通過(guò)降維后的散點(diǎn)圖對(duì)比可知加入語(yǔ)義信息后藥物的分布比不加語(yǔ)義信息的分布更均勻,未加入語(yǔ)義信息的藥物分布聚集情況更明顯。且通過(guò)旋轉(zhuǎn)角度,發(fā)現(xiàn)加入語(yǔ)義信息的藥物分布在特定視角中存在可切分的范圍劃分。

        與經(jīng)典的關(guān)聯(lián)分析算法比較可知:①關(guān)聯(lián)規(guī)則的挖掘依賴于設(shè)置的支持度,即與藥物出現(xiàn)頻次數(shù)目有關(guān),本實(shí)驗(yàn)使用數(shù)據(jù)的頻次區(qū)間為[5,977],區(qū)間跨度大;當(dāng)頻次設(shè)置較低時(shí),會(huì)有大量頻繁項(xiàng)集產(chǎn)生,在保持較低頻次時(shí),各置信區(qū)間的結(jié)果數(shù)目最低有380條,與本文算法提取效果對(duì)比明顯;當(dāng)頻次設(shè)置較高時(shí),雖然得到結(jié)果數(shù)目會(huì)減少,但是對(duì)于低頻藥物,例如:炒麥芽(頻次36)、炒谷芽(頻次33)、烏梅肉(頻次7)、胡黃連(頻次5)等藥物可能會(huì)被排除,不參與關(guān)聯(lián)規(guī)則分析。對(duì)于頻次跨度較大的數(shù)據(jù),如何合理地設(shè)置支持度、置信度等參數(shù)需要人工調(diào)節(jié)比對(duì)。②關(guān)聯(lián)規(guī)則結(jié)果存在冗余且輸出為單向關(guān)系,如“南沙參→北沙參”“北沙參→南沙參”等,需要消耗大量的人工匹配整理時(shí)間。而若實(shí)驗(yàn)結(jié)果中存在A→B 卻未存在B→A 的規(guī)則,對(duì)其結(jié)果也缺乏一定的可解釋性,無(wú)法在關(guān)聯(lián)規(guī)則層面確切說(shuō)明其身為藥對(duì)的價(jià)值,反而帶來(lái)一定的局限性。此外,通過(guò)繪制對(duì)應(yīng)的網(wǎng)絡(luò)圖發(fā)現(xiàn)從可視化角度,此算法結(jié)果涉及結(jié)點(diǎn)多且無(wú)法直接看出藥物間的關(guān)系。通過(guò)上述對(duì)比,本文算法包含的頻次范圍更為寬泛,且考慮到藥物間雙向關(guān)聯(lián)程度與藥物文本語(yǔ)義間的相似度,從不同維度保證藥對(duì)的有效提取。

        肺癌是原發(fā)性支氣管癌的簡(jiǎn)稱,周老認(rèn)為肺癌的主要病機(jī)為痰瘀郁肺,治療大法以抗癌祛毒為基礎(chǔ),消癌解毒、化痰消瘀、益氣養(yǎng)陰[21]。藥對(duì)使用基于一定規(guī)則的兩味藥物,從而達(dá)到一定的增效減毒等效用,例如:白花蛇舌草的作用是清熱解毒,在臨床上經(jīng)常與山慈菇等中藥相配用以抗腫瘤;當(dāng)痰毒明顯,當(dāng)化痰解毒,例如:山慈菇、炙僵蠶等。肺癌早期病位在肺,亦影響他臟,致脾胃功能不佳,故治療時(shí)須調(diào)護(hù)脾胃。麥芽性味甘,平;歸于脾、胃經(jīng)。谷芽性味甘,溫;歸于脾、胃經(jīng)。炒麥芽益氣消食;炒谷芽偏于消食,用于不饑食少。兩者皆有行氣消食,健脾開胃之效。雖然使用頻次較少但亦為有效藥對(duì)。

        綜上所述,將詞頻與詞向量結(jié)合考慮兩兩藥物相互作用關(guān)系的同時(shí),也從整體處方入手,探尋文本層面藥對(duì)之間的作用關(guān)系,能夠有效地縮小篩選研究潛在藥對(duì)的范圍。此外,本文在實(shí)驗(yàn)時(shí)暫未討論Windows 窗口參數(shù)設(shè)置情況,Windows 的取值影響著中心詞與周圍詞之間的共現(xiàn)頻次,而中心詞與周圍詞之間位置的關(guān)鍵是處方中各藥物的順序。相同藥對(duì)在不同處方中的位置關(guān)系非一成不變,因此也影響著語(yǔ)義相似度。同時(shí)面對(duì)復(fù)雜處方,處方中藥物的順序與中心詞周圍半徑的設(shè)置也有著重要研究?jī)r(jià)值,后續(xù)會(huì)進(jìn)一步開展相關(guān)實(shí)驗(yàn)工作。

        3 結(jié)語(yǔ)

        本文通過(guò)對(duì)藥對(duì)篩選的意義以及對(duì)以往數(shù)據(jù)挖掘方法的分析,發(fā)現(xiàn)常用的關(guān)聯(lián)規(guī)則、聚類分析等方法的不足,提出了一種基于詞頻結(jié)合語(yǔ)義信息的新型藥對(duì)發(fā)現(xiàn)算法,在詞頻層面確認(rèn)潛在候選藥對(duì)的范圍,即其區(qū)分度不大的情況下,從另一層面語(yǔ)義信息考慮,進(jìn)一步縮小范圍,從而篩選出潛在藥對(duì)以此進(jìn)行更進(jìn)一步的研究。本算法具有原理簡(jiǎn)單、易于實(shí)現(xiàn)等特點(diǎn),本算法的提出可以為挖掘出大量潛在藥對(duì)的進(jìn)一步篩選提供思路,提高中藥藥對(duì)研究的效率,同時(shí)為挖掘用藥規(guī)律提供方法學(xué)參考。

        猜你喜歡
        關(guān)聯(lián)語(yǔ)義規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨(dú)的規(guī)則和演變
        語(yǔ)言與語(yǔ)義
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产精品亚洲在线播放| 无码人妻精品一区二区| 国产男女无遮挡猛进猛出| 97人人超碰国产精品最新o| 欧美日韩国产专区| 亚洲素人日韩av中文字幕| 亚洲综合中文日韩字幕| 色婷婷久久精品一区二区| 成人无码av免费网站| 一本色道久久88综合日韩精品| 亚洲va中文字幕无码| 日韩AV无码一区二区三不卡| 伊人久久婷婷综合五月97色| 国产av剧情精品麻豆| 国产成人精品一区二区20p| 免费看又色又爽又黄的国产软件| 欧美mv日韩mv国产网站| 人妻无码aⅴ中文系列久久免费| 国产男女乱婬真视频免费| 一区二区三区四区亚洲免费| 妺妺窝人体色www看人体| 国产免费一区二区三区在线观看| 日韩Va亚洲va欧美Ⅴa久久| 成人国产精品三上悠亚久久| 日韩一区国产二区欧美三区| 日日碰狠狠丁香久燥| 91人妻无码成人精品一区91 | 亚洲无人区一码二码国产内射| www国产亚洲精品| 色www视频永久免费| 国内揄拍国内精品少妇国语| 国产伦码精品一区二区| 中文字幕综合一区二区三区| 又色又爽又黄的视频软件app| 亚洲精品毛片一区二区三区 | 97久久草草超级碰碰碰| 国产精品偷伦视频免费手机播放| 一区二区av日韩免费| 尤物蜜桃视频一区二区三区 | 国产真实伦在线观看| 亚洲欧美日韩精品高清|