劉 鵬,寧鵬飛
(內(nèi)蒙古醫(yī)科大學(xué),內(nèi)蒙古 呼和浩特 010000)
信息技術(shù)的發(fā)展不但打破了用戶獲得醫(yī)學(xué)信息的時空限制,并且使可供利用的醫(yī)學(xué)資源特性信息更加豐富[1]??茖W(xué)和技術(shù)的發(fā)展在信息數(shù)據(jù)全球化的背景下,信息聚類在很多領(lǐng)域都有廣泛的應(yīng)用,但是,當前方法在去噪過程中無法保存有效信息,細節(jié)信息流失現(xiàn)象較為嚴重,導(dǎo)致Jaccard系數(shù)與F1系數(shù)偏低,即聚類效果并不理想[2-3]。醫(yī)學(xué)信息用戶需要熟悉網(wǎng)絡(luò)學(xué)術(shù)信息資源的分布特征與價值,并且要掌握這些資源的聚類技巧,才能通過醫(yī)學(xué)資源特定信息的聚類實現(xiàn)自己的研究工作,因此對海量醫(yī)學(xué)資源特定信息進行聚類處理具有重要意義[4]。
文獻[5]提出基于信息共識的醫(yī)學(xué)資源特定信息聚類方法,該方法利用CDIM方法獲得初始聚集,通過參數(shù)方法初始化處理初始聚集,在簇標簽信息間關(guān)系的基礎(chǔ)上構(gòu)建信息共識,利用文本分類器將簇標簽分配給構(gòu)建的共識,通過訓(xùn)練文本分類器實現(xiàn)醫(yī)學(xué)資源特性信息的聚類,該方法沒有對醫(yī)學(xué)資源特定信息進行去噪處理,導(dǎo)致Jaccard系數(shù)較低。文獻[6]提出基于需求功能語義的醫(yī)學(xué)資源特定信息聚類方法,該方法在服務(wù)需求中利用自然語言處理技術(shù)提取有用功能信息集,根據(jù)獲取的信息集對服務(wù)功能語義對應(yīng)的相似度進行計算,在相似度計算結(jié)果的基礎(chǔ)上通過k-means算法實現(xiàn)海量醫(yī)學(xué)資源特定信息的聚類,該方法在去噪過程中無法保留細節(jié)信息,導(dǎo)致Jaccard系數(shù)較低。文獻[7]提出基于分量屬性近鄰傳播的醫(yī)學(xué)資源特定信息聚類方法,該方法首先運用動態(tài)時間彎曲法計算多變量時間序列的總距離,將獲得多種數(shù)據(jù)時間的整體距離通過近鄰傳播的方式進行分類,并結(jié)合多種序列數(shù)據(jù)下存在的聯(lián)系及初始時間數(shù)據(jù)的顯示關(guān)系實現(xiàn)醫(yī)學(xué)資源特定信息的聚類,該方法在分類過程中無法保留有效信息,導(dǎo)致F1系數(shù)較低。
為了解決存在的問題,提出基于VSM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型,通過對醫(yī)學(xué)資源信息進行信息預(yù)處理及特征提取,在VSM的基礎(chǔ)上建立醫(yī)學(xué)資源特定信息優(yōu)化聚類模型,以幫助用戶提高對海量醫(yī)學(xué)資源特定信息的聚類與應(yīng)用能力。
現(xiàn)實生活中每個數(shù)據(jù)集的結(jié)構(gòu)都較為復(fù)雜,降維處理后的低維數(shù)據(jù)和原高維數(shù)據(jù)都盡量滿足相同的流形結(jié)構(gòu)時,建立基于VSM的海量醫(yī)學(xué)資源特定信息降維目標函數(shù)。降維目標函數(shù)利用半監(jiān)督醫(yī)學(xué)資源特定信息與無標記數(shù)據(jù)中隱含的醫(yī)學(xué)資源信息來維持全局流形和局部流形[8]。通過CSDDR算法分別定義全局和局部流形,標量Qg主要用于表示醫(yī)學(xué)資源中全部的樣本全局流形結(jié)構(gòu),通過正負約束對設(shè)定的目標函數(shù)進行調(diào)整,標量Qg的計算公式如下
(1)
(2)
式中,nc為正約束對的數(shù)量。正負約束的貢獻值分別用α與β來調(diào)整。在計算投影距離時,為了降低不同醫(yī)療資源之間的差距,首先需要降低相同類型醫(yī)療資源的距離,增加不同類型醫(yī)療資源的距離。結(jié)合先驗知識可知,通常情況下,負約束的樣本距離更加接近期望值[9]。因此一般會取α=1與β>1,當α的值過大時,數(shù)據(jù)樣本距離聚類越來越近,數(shù)據(jù)樣本特征性質(zhì)產(chǎn)生負面影響,此時聚類中心存在明顯偏移或者錯誤識別噪聲點的現(xiàn)象等。
利用先驗信息中所包含的全局流形信息與未標記的信息樣本中隱含的局部結(jié)構(gòu)流形信息,來獲得詳細流形信息。因此,刻畫樣本局部結(jié)構(gòu)流形時,用Ql來定義標量。對各個樣本點xi分別求其k-最近鄰點集合(KNi)和k-最遠鄰點集合(KFi),并根據(jù)其余樣本點xj∈KNi或xj∈KFi對目標函數(shù)進行調(diào)整。
(3)
(4)
式中,y與δ的取值主要用于調(diào)整醫(yī)學(xué)資源特定信息的貢獻值,一般δ的取值距離更加接近期望值,因此,定義y=1與δ>1。對于數(shù)量k值可通過不同的數(shù)據(jù)集與不同的先驗約束進行具體調(diào)整:k取值偏小時,1/k值變大,增加了Ql在降維目標函數(shù)中的影響度;k取值偏大時,醫(yī)學(xué)資源信息的選取準確度會降低。
未標記醫(yī)學(xué)信息樣本中除了局部結(jié)構(gòu)流形信息以外,其它隱含的醫(yī)學(xué)特定信息也可以為目標函數(shù)所用[10],將全部未標記樣本用標量Qu來定義
(5)
結(jié)合上述數(shù)據(jù),具體醫(yī)學(xué)資源特定信息降維目標函數(shù)的表達式如下
J(w)=Qu+AQg+BQi
(6)
式中,通過參數(shù)A可以對Qg在整個醫(yī)學(xué)特定信息目標函數(shù)中的貢獻作出調(diào)整,Qi在目標函數(shù)中的貢獻度可通過參數(shù)B進行調(diào)整。通過上述分析可知,可以利用普通矩陣特征值求解問題代替降維目標函數(shù)的求解問題,上式中,L為一個對稱矩陣,其表達式如下
L=Lu+ALg+BLl
(7)
矩陣L的主要作用是降低信息特征值與對應(yīng)特征向量出現(xiàn)虛數(shù)的幾率。通過矩陣L減少了醫(yī)療資源特定低維信息Y中存在的虛數(shù)
Y=WTX
(8)
所提方法利用標記醫(yī)學(xué)資源信息與無標記醫(yī)學(xué)資源信息樣本中所包含的信息,設(shè)置降維目標函數(shù)的參數(shù)值,建立降維矩陣,利用降維矩陣實現(xiàn)海量醫(yī)學(xué)資源特定信息的降維處理,獲得原醫(yī)療資源特定信息的最佳低維表示。
基于VSM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型通過基于小波變換模極大值與閾值決策相融合的去噪方法對醫(yī)學(xué)資源特定信息進行去噪處理,具體步驟如下:
使用小波變換或者小波包變換對含醫(yī)學(xué)信息含噪信號進行離散,獲取不同尺度的系數(shù),即醫(yī)學(xué)特定信息信號通過小波分解后,獲得不同尺度中的高通分量。
1)在小波變換過程中,計算小波在不同尺度中的模極大值。將各個尺度上的小波變換模極大值進行計算。
2)對各個尺度上小波模極大值系數(shù)的功率進行計算。
3)設(shè)Pj(x)代表的是小波模極大值系數(shù)在不同尺度中對應(yīng)的功率,其計算公式如下
(9)
式中,j=1,2,…。低尺度下,功率Pj(x)主要由噪聲控制,隨尺度的變大,噪聲變換模極大值逐漸變小,而信號變換模極大值逐漸變大,所以功率會因為噪聲的影響快速降低,將最小時對應(yīng)的尺度jm作為尺度取舍的一個閾點。基于VSM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型為了提高小波系數(shù)閾值處理結(jié)果,將尺度jm作為分界點處理小波系數(shù)。
4)對于最大尺度的細節(jié)信號,由于信噪比高,有用信號的能量增加,其占主要部分,為了避免除去過多的有用信號,閾值的選取不能太大。結(jié)合以上分析,通過下式確定閾值tJ
(10)
式中,σJ為信號在最大尺度上的方差,N為信號的距離。
5)對于尺度j=jm+1,jm+2,…,J-1,信噪比越高,閾值也應(yīng)該提高,通過下式確定閾值tj
(11)
式中:σ為信號在最大尺度上的方差。由于尺度j的變大,tj的值逐漸變小,可知噪聲在小波變換的各個尺度上有著相同的傳播特性。
6)對尺度j=1,2,…,jm,噪聲的能量越高,信噪比越低,因此選用Donoho廣義閾值,計算方式如下
(12)
醫(yī)學(xué)資源信息中通常含有大量的數(shù)據(jù),每個信息對數(shù)據(jù)分類都有著不同的作用,如果將整體的數(shù)據(jù)都進行計算,那么計算量會大幅度增加,所以將通過特征提取實現(xiàn)信息聚類。通過選擇對醫(yī)學(xué)數(shù)據(jù)區(qū)分度大的項作為數(shù)據(jù)的特征進行分類,可以降低計算量的同時優(yōu)化聚類效果?;赩SM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型采用改進互信息的特征提取方法,選取數(shù)據(jù)條和類別互信息較大的前部分數(shù)據(jù)作為醫(yī)學(xué)資源特定信息的特征。
設(shè)RMI(T,Ci)代表的是數(shù)據(jù)條和類別的互信息,計算方法如下
(13)
式中:P(T|Ci)表示此數(shù)據(jù)條在Ci類別中出現(xiàn)的概率;P(T)為類別Ci中出現(xiàn)詞條T的概率;R(i)為特征提取修正因子,該值計算方式如下
(14)
式中:N(i)表示Ci類別中出現(xiàn)的總數(shù)據(jù)條數(shù),R(i)表示Ci類別的數(shù)據(jù)量在全部數(shù)據(jù)集中所占的比值。
在醫(yī)學(xué)資源信息分類中,向量空間模型(VSM)是常用的信息表示形式,每種醫(yī)學(xué)資源信息都屬于一個特定領(lǐng)域,該領(lǐng)域可以通過該類別的醫(yī)學(xué)資源信息進行描述,上述領(lǐng)域通常由一些核心概念構(gòu)成,在該類醫(yī)學(xué)資源信息中上述核心概念中存在的詞將會反復(fù)出現(xiàn)。所有的核心概念與分類的影響都是相輔相成的,如果一項數(shù)據(jù)中出現(xiàn)一種數(shù)據(jù)類別的多種核心概念,那么這些數(shù)據(jù)之間將出現(xiàn)相互證明的情況,從而該數(shù)據(jù)屬于該類別的可能性會增加。
用CoreWord(Ci)來表示類別Ci的核心概念,即CoreWord(Ci)由兩部分組成:
1)訓(xùn)練樣本中段落首尾句和標題中存在的名詞,計算名詞對應(yīng)的權(quán)值Rt。
2)當名詞在訓(xùn)練樣本中出現(xiàn)的頻率大于設(shè)定的閾值時,該詞即為權(quán)值。
海量醫(yī)學(xué)資源特定信息的標題和段落的首尾句相比于資源的其它部分更能體現(xiàn)資源的主題,對于這些部分出現(xiàn)的概念在信息處理中應(yīng)賦予更高的權(quán)重。對信息Ti進行分類,首先對醫(yī)學(xué)資源信息標題和文本中的段首和段尾句進行分詞得到一組詞WORDSn=[w1,w2,…wm],同類的文檔是通過一組概念來體現(xiàn)的,此部分詞是互相交叉的并不是相對獨立的,如果一個類A的核心概念詞是由詞a來體現(xiàn)的,那么a∈CoreWord(A);如果詞a、詞b都是屬于A的核心概念詞,并出現(xiàn)在信息Ti中,則在信息Ti中a∈Ti,b∈Ti,此時屬于信息A的得分分別為Sa,Sb;如果在信息Ti中詞a、詞b同時出現(xiàn),則該信息屬于A的得分Sab>Sa+Sb,此時a、b的激勵效應(yīng)可以用Sab-Sa-Sb對應(yīng)的部分進行表示。
通常情況下數(shù)據(jù)條的權(quán)值偏小,多于兩種數(shù)據(jù)之間的激勵效應(yīng)可以忽略。
所提方法運用文本向量與類特征向量在VSM的基礎(chǔ)上構(gòu)建醫(yī)學(xué)資源特定信息優(yōu)化聚類模型
Score(TiCj)=s×V(Ti,Cj)+k×Cos(Ti,Ci)
(15)
式中:s,k代表權(quán)重,s+k=1。共有m種醫(yī)學(xué)信息類別。通過上述聚類模型實現(xiàn)海量醫(yī)學(xué)資源特定信息的聚類。
為了驗證基于VSM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型的整體有效性,需要對基于VSM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型進行相關(guān)實驗。本次測試的實驗環(huán)境為:開發(fā)環(huán)境:VS2010;開發(fā)語言:C#(.NETFramework3.5);分詞系統(tǒng):NLPIR/ICTCLAS2014;數(shù)據(jù)庫:SQL Server2005。
將分類實驗中的已知分類與聚類算法運行后的結(jié)果相似度進行比較,通過參數(shù)計算兩者之間的相似程度,本次實驗通過Jaccard系數(shù)與F1系數(shù)進行測試。當Jaccard系數(shù)與F1系數(shù)的值越大時,表明聚類結(jié)果越接近數(shù)據(jù)集合原有的類別系統(tǒng),即聚類結(jié)果的質(zhì)量越好。Jaccard系數(shù)與F1系數(shù)公式分別如下
(16)
(17)
采用基于VSM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型(方法1)、基于需求功能語義的醫(yī)學(xué)資源特定信息聚類方法(方法2)和基于分量屬性近鄰傳播的醫(yī)學(xué)資源特定信息聚類方法(方法3)進行測試,Jaccard系數(shù)測試結(jié)果如圖1所示。
圖1 Jaccard系數(shù)測試結(jié)果
由圖1可知,在多次實驗中方法1的Jaccard系數(shù)較大,證明此方法的聚類運行結(jié)果更接近數(shù)據(jù)集合原有的類別系統(tǒng),即聚類結(jié)果的質(zhì)量更好。方法2與方法3的Jaccard系數(shù)偏小,即聚類結(jié)果的質(zhì)量較低。因為方法1融合小波變換模極大值與閾值決策方法對醫(yī)學(xué)資源特定信息進行去噪處理,經(jīng)過去噪處理的優(yōu)化獲得干凈與真實的數(shù)據(jù),提高了Jaccard系數(shù)。
分別采用方法1、方法2、方法3通過F1系數(shù)進行測試,測試結(jié)果如2所示。
分析圖2中數(shù)據(jù)可知,在多次測試中方法1的F1值均高于方法2與方法3的數(shù)據(jù),因為方法1在去噪過程中通過選取合適的閾值,保留醫(yī)學(xué)資源特定信息的有效信息和細節(jié)信息,根據(jù)保留的信息提取海量資源特定信息的特征,提高F1系數(shù),進而實現(xiàn)資源的高質(zhì)量聚類。
圖2 F1系數(shù)測試結(jié)果
網(wǎng)絡(luò)醫(yī)學(xué)資源特定信息分類組織的無序性和信息聚類的差異性,對醫(yī)學(xué)信息用戶的聚類能力和技術(shù)提出了更新的要求。對此問題提出了基于VSM的海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型方法,對海量醫(yī)學(xué)資源特定信息進行預(yù)處理,提取信息特征,根據(jù)信息特征構(gòu)建信息聚類模型,完成醫(yī)學(xué)資源特定信息的聚類,該方法有效地解決了當前方法中存在的問題,為海量醫(yī)學(xué)資源特定信息處理工作提供了相關(guān)依據(jù)。在未來的研究中,可以對海量醫(yī)學(xué)資源特定信息優(yōu)化聚類模型做更加深入的研究。