劉利民,張 勇
(1. 桂林電子科技大學(xué)計(jì)算機(jī)工程學(xué)院,廣西 北海 536000;2. 成都中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,四川 成都 610075)
多標(biāo)簽數(shù)據(jù)挖掘工作的開(kāi)展,要求更高性能的挖掘算法[1,2]。當(dāng)前提出的數(shù)據(jù)挖掘算法,面對(duì)多標(biāo)簽數(shù)據(jù)無(wú)法展現(xiàn)較好的處理能力。有學(xué)者提出以鄰近算法為核心的數(shù)據(jù)挖掘算法,提取數(shù)據(jù)特征項(xiàng),并計(jì)算該特征項(xiàng)的信息熵。基于線性斜率算法設(shè)計(jì)降維方法,處理由信息熵構(gòu)成的空間信號(hào),便于后續(xù)數(shù)據(jù)挖掘效率提升。但是,該方法可行性較差。有學(xué)者以協(xié)同過(guò)濾技術(shù)為核心,集成多種來(lái)源的數(shù)據(jù)信息,建立分層評(píng)分矩陣并在隨機(jī)梯度下降法的作用下獲取評(píng)分結(jié)果,依托于預(yù)測(cè)評(píng)分獲取協(xié)同過(guò)濾挖掘結(jié)果[3,4]。但是,該數(shù)據(jù)挖掘算法加速比較低。除此之外,文獻(xiàn)[5]針對(duì)待挖掘數(shù)據(jù)進(jìn)行分析,結(jié)合連續(xù)模板匹配技術(shù)處理大數(shù)據(jù)信息。針對(duì)高維融合數(shù)據(jù)提取數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,在模糊卷積神經(jīng)網(wǎng)絡(luò)的作用下,實(shí)現(xiàn)大數(shù)據(jù)的分類挖掘。但是,該方法的數(shù)據(jù)挖掘效率較低。針對(duì)上述問(wèn)題,本文提出了結(jié)合SECI模型與屬性分類模式的挖掘算法,針對(duì)多標(biāo)簽數(shù)據(jù)進(jìn)行分析可知,通常情況下,除了數(shù)據(jù)表面所顯示的信息外,數(shù)據(jù)內(nèi)往往包含更重要的隱性知識(shí)。在數(shù)據(jù)挖掘過(guò)程中,顯性知識(shí)與隱性知識(shí)相結(jié)合,對(duì)數(shù)據(jù)挖掘結(jié)果影響巨大。文中以將多標(biāo)簽數(shù)據(jù)內(nèi)包含的隱性知識(shí)顯性化為主要目的,提出以SECI理論為基礎(chǔ)的數(shù)據(jù)轉(zhuǎn)化模型。將多標(biāo)簽數(shù)據(jù)中的隱性知識(shí)提取出來(lái),選取合適的數(shù)據(jù)特征。所謂的屬性分類,指的是按照待挖掘數(shù)據(jù)的基礎(chǔ)表分析數(shù)據(jù)屬性,根據(jù)屬性關(guān)系生成數(shù)據(jù)挖掘規(guī)則,在屬性分類規(guī)則的作用下,完成多標(biāo)簽數(shù)據(jù)挖掘。最后,通過(guò)實(shí)時(shí)交互獲取所需的數(shù)據(jù)挖掘結(jié)果。
針對(duì)多標(biāo)簽數(shù)據(jù)進(jìn)行分析可知,通常情況下,除了數(shù)據(jù)表面所顯示的信息外,數(shù)據(jù)內(nèi)往往包含更重要的隱性知識(shí)[6]。在數(shù)據(jù)挖掘的過(guò)程中,顯性知識(shí)與隱性知識(shí)相結(jié)合,對(duì)數(shù)據(jù)挖掘結(jié)果影響巨大。以將多標(biāo)簽數(shù)據(jù)內(nèi)包含的隱性知識(shí)顯性化為主要目的,提出以SECI理論為基礎(chǔ)的數(shù)據(jù)轉(zhuǎn)化模型。
隱性知識(shí)的顯性化轉(zhuǎn)變,主要包括四個(gè)環(huán)節(jié),分別是社會(huì)化、外部化、組合化以及內(nèi)部化。SECI知識(shí)轉(zhuǎn)換結(jié)構(gòu)如圖1所示,針對(duì)上述四個(gè)過(guò)程生成獨(dú)立的場(chǎng),作為知識(shí)動(dòng)態(tài)轉(zhuǎn)換和創(chuàng)新的環(huán)境基礎(chǔ)。
圖1 SECI知識(shí)轉(zhuǎn)化結(jié)構(gòu)
根據(jù)圖1可知,多標(biāo)簽數(shù)據(jù)的知識(shí)轉(zhuǎn)化過(guò)程中,創(chuàng)始場(chǎng)主要負(fù)責(zé)個(gè)體的主觀意愿交流,實(shí)現(xiàn)個(gè)體之間情感的一致性;對(duì)話場(chǎng)的功能在于通過(guò)交往活動(dòng),促進(jìn)知識(shí)的明晰化;練習(xí)場(chǎng)的作用是依托于數(shù)據(jù)顯性知識(shí),提升自身隱性知識(shí);再結(jié)合系統(tǒng)化場(chǎng),共同完成知識(shí)轉(zhuǎn)換。
針對(duì)多標(biāo)簽數(shù)據(jù)進(jìn)行隱性知識(shí)轉(zhuǎn)化,所需的具體模型如圖2所示。以社會(huì)化過(guò)程為核心,融合原有和新吸收的隱性知識(shí),并針對(duì)新生成的隱性知識(shí)進(jìn)行互動(dòng)。在語(yǔ)言化處理后,得到呈現(xiàn)出來(lái)的隱性多標(biāo)簽數(shù)據(jù)。
圖2 多標(biāo)簽數(shù)據(jù)轉(zhuǎn)換SECI模型
根據(jù)圖2可知,社會(huì)化模式與其它模式相結(jié)合前,需要進(jìn)行多次循環(huán),實(shí)現(xiàn)隱性、顯性知識(shí)之間的轉(zhuǎn)化。上述模型的應(yīng)用需要注意的一點(diǎn)是,選擇性內(nèi)化運(yùn)行時(shí)部分顯性知識(shí)無(wú)法完成內(nèi)化處理,則該部分知識(shí)會(huì)返回至組合化模式內(nèi),等待該次處理結(jié)束后,再一次進(jìn)行數(shù)據(jù)知識(shí)轉(zhuǎn)換。
多標(biāo)簽數(shù)據(jù)的隱性數(shù)據(jù)顯性化處理后,文中依托于Relief F算法提取出多標(biāo)簽數(shù)據(jù)特征[7]。從待挖掘處理的多標(biāo)簽數(shù)據(jù)中隨機(jī)選取樣本,并尋找該樣本的近鄰樣本,通過(guò)計(jì)算多個(gè)樣本點(diǎn)的特征權(quán)重,獲取特征權(quán)重排序結(jié)果[8]。最后,設(shè)置合理的閾值提取數(shù)據(jù)特征。針對(duì)特征冗余問(wèn)題,文中采用互信息方法度量提取特征的冗余性,互信息的計(jì)算公式為
I(X,Y)=H(X)+H(Y)-H(XY)
(1)
式中,X、Y表示向量,H表示信息熵,I表示互信息。根據(jù)計(jì)算結(jié)果,獲取兩個(gè)向量之間的相關(guān)性。通常情況下,式(1)計(jì)算結(jié)果越大,表明變量之間的關(guān)聯(lián)性越強(qiáng)。然后,依托于信息熵處理補(bǔ)償互信息內(nèi)部分屬性信息。對(duì)補(bǔ)償后的互信息進(jìn)行標(biāo)準(zhǔn)化處理,得到
(2)
式中,s表示標(biāo)準(zhǔn)化互信息。根據(jù)式(2)得出的標(biāo)準(zhǔn)化互信息,得到數(shù)據(jù)特征向量間的冗余度,計(jì)算公式為
R(Xα,Xβ)=I(Xα,Xβ)
(3)
式中,R表示特征冗余度,Xα、Xβ表示特征向量。以式(3)為核心,推理出單個(gè)數(shù)據(jù)特征與特征集合的冗余度,計(jì)算公式為
(4)
式中,δ表示特征集合,|δ|表示特征集合中特征個(gè)數(shù),X0表示特征集合內(nèi)隨機(jī)選取的特征項(xiàng)。結(jié)合式(1)與式(4)推導(dǎo)出特征子集冗余度計(jì)算公式為
(5)
針對(duì)冗余度計(jì)算公式進(jìn)行標(biāo)準(zhǔn)化處理,得到
(6)
為了提取出冗余性較低的特征,并將其應(yīng)用于數(shù)據(jù)挖掘過(guò)程中,促進(jìn)數(shù)據(jù)挖掘效率。文中利用Relief F算法提取出多標(biāo)簽數(shù)據(jù)特征,輸出有效的多標(biāo)簽特征子集[9]。基于冗余度計(jì)算結(jié)果,結(jié)合MML-RF算法,識(shí)別出特征子集中包含的無(wú)效項(xiàng)。建立多標(biāo)簽數(shù)據(jù)特征評(píng)價(jià)規(guī)則,進(jìn)行去冗余處理,保留與類標(biāo)簽相符的特征項(xiàng),實(shí)現(xiàn)特征子集的更新。為了降低多標(biāo)簽數(shù)據(jù)特征冗余度,建立式(7)所示的評(píng)價(jià)準(zhǔn)則公式
(7)
式中,φ表示評(píng)價(jià)矩陣,e表示類標(biāo)簽,W表示特征權(quán)值,W(δ)表示MML-RF算法運(yùn)行后特征子集權(quán)值和,Rδ(δ)表示冗余度標(biāo)準(zhǔn)化處理結(jié)果。
將式(6)與式(7)相結(jié)合,生成最終特征判別公式
(8)
實(shí)際應(yīng)用過(guò)程中,得到評(píng)分排序處理后的特征子集,并獲取每個(gè)特征的權(quán)重向量值,經(jīng)過(guò)權(quán)重閾值選取符合權(quán)重要求的特征項(xiàng),獲取多標(biāo)簽數(shù)據(jù)特征的初步篩選。
然后,通過(guò)序列的方式遍歷特征子集的每個(gè)特征項(xiàng),每遍歷一次,將集合中表現(xiàn)最差的特征項(xiàng)去除,并分析特征移除后特征子集的總體性能,所應(yīng)用的評(píng)估方法如式(7)所示。
最后,為了數(shù)據(jù)挖掘算法的局部最優(yōu)化現(xiàn)象出來(lái),在特征提取過(guò)程中添加容忍度概念,設(shè)置多標(biāo)簽數(shù)據(jù)挖掘算法的特征子集最低評(píng)分界限,確保多標(biāo)簽數(shù)據(jù)特征提取結(jié)果的合理性。
待挖掘的多標(biāo)簽數(shù)據(jù)樣本存在多維特點(diǎn),文中根據(jù)特征提取結(jié)果,設(shè)計(jì)屬性分類挖掘模式[10]。通過(guò)屬性分類法,得到最佳數(shù)據(jù)挖掘結(jié)果。屬性分類挖掘模式的應(yīng)用,需要基于數(shù)據(jù)特征類別和樣本容量,按照屬性分類理論計(jì)算出數(shù)據(jù)挖掘的最終類別。文中建立的屬性分類挖掘模式設(shè)計(jì)的原則是高類聚以及低耦合,數(shù)據(jù)挖掘的約束條件包括兩條,一條是最小類內(nèi)距離平方和,另一條則是最大類間距離平方和[11]。
基于多標(biāo)簽數(shù)據(jù)的屬性進(jìn)行深入挖掘時(shí),按照有序樣本的維數(shù),得到隨機(jī)選取樣本類型的類內(nèi)距離平方和計(jì)算公式
(9)
類平均向量計(jì)算公式為
(10)
式中,m表示數(shù)據(jù)樣本維數(shù)。根據(jù)樣本數(shù)量與樣本類別數(shù)量,樣本劃分結(jié)果表示為
?=(Mi1,Mi1+1,…,Mi2-1)+(Mi2,Mi2+1,…,Mi3-1)
+…+(Mig,Mig+1,…,Mn)
(11)
式中,?表示待挖掘數(shù)據(jù)樣本集,g表示類別數(shù)量,n表示樣本向量數(shù)。
當(dāng)樣本向量數(shù)的距離平方和相同時(shí),該計(jì)算結(jié)果與類間與類內(nèi)距離平方和一致。當(dāng)平方和計(jì)算結(jié)果最小時(shí),可以得到多標(biāo)簽數(shù)據(jù)最佳挖掘結(jié)果[12,13]。數(shù)據(jù)挖掘過(guò)程中,類內(nèi)距離平方和誤差函數(shù)計(jì)算公式為
(12)
式中,E表示平方和誤差。并有
(13)
最后,針對(duì)較分散的樣本數(shù)據(jù),為了提升數(shù)據(jù)挖掘效率,采用極差變換法生成式(14)所示的數(shù)據(jù)形式調(diào)整公式:
(14)
多標(biāo)簽數(shù)據(jù)按照屬性分類模式挖掘結(jié)束后,文中結(jié)合MVC模式建立挖掘結(jié)果交互界面,實(shí)時(shí)更新數(shù)據(jù)挖掘要求,保證輸出數(shù)據(jù)挖掘結(jié)果符合需求。MVC模式主要由控制器、模型和視圖三個(gè)軟件部分構(gòu)成[14]。其中,Model結(jié)構(gòu)是數(shù)據(jù)挖掘結(jié)果交互的主要環(huán)節(jié),實(shí)現(xiàn)數(shù)據(jù)挖掘結(jié)果的保存和調(diào)用??紤]到數(shù)據(jù)挖掘算法的實(shí)現(xiàn)是以數(shù)據(jù)為基礎(chǔ),交互界面地設(shè)計(jì)應(yīng)用View頁(yè)面視圖處理HTM文件,將算法運(yùn)行結(jié)果以各種形式直觀表現(xiàn)出來(lái)[15]。
此外,文中對(duì)MVC模式稍作改進(jìn),添加了View Model結(jié)構(gòu),充當(dāng)數(shù)據(jù)對(duì)象轉(zhuǎn)化的中轉(zhuǎn)站,保證Model層內(nèi)的數(shù)據(jù)合理轉(zhuǎn)化,并與頁(yè)面視圖結(jié)構(gòu)相連接,進(jìn)行數(shù)據(jù)挖掘結(jié)果實(shí)時(shí)交互,改進(jìn)后的MVVM設(shè)計(jì)模式如圖3所示。
圖3 MVVM設(shè)計(jì)模式
根據(jù)圖3所示的設(shè)計(jì)模式,完成數(shù)據(jù)挖掘算法實(shí)現(xiàn)過(guò)程中前端、后端分離。其中,前端應(yīng)用Vue框架實(shí)現(xiàn),生成漸進(jìn)式數(shù)據(jù)驅(qū)動(dòng)結(jié)構(gòu),將數(shù)據(jù)挖掘結(jié)果傳遞至圖表組件庫(kù),建立直觀且生動(dòng)的可視化圖表,保證用戶快速理解數(shù)據(jù)挖掘結(jié)果。
而后端業(yè)務(wù)邏輯則應(yīng)用Django框架完成,通過(guò)Get和Post組件與前端顯示結(jié)果進(jìn)行交互。依托于強(qiáng)大的后臺(tái)數(shù)據(jù)庫(kù)功能,將文中所設(shè)計(jì)的數(shù)據(jù)挖掘算法部署到計(jì)算結(jié)內(nèi),便于后續(xù)應(yīng)用。并在后端接口連接一個(gè)Mongo DB分布式數(shù)據(jù)庫(kù),在數(shù)據(jù)挖掘處理過(guò)程中發(fā)揮海量數(shù)據(jù)便捷獲取、有效存儲(chǔ)的性能,確保數(shù)據(jù)挖掘效率的提升。
為了驗(yàn)證文中設(shè)計(jì)算法的可行性,進(jìn)行仿真。本次仿真采用Windows操作系統(tǒng),應(yīng)用MATLAB仿真軟件設(shè)計(jì)仿真環(huán)境,明確文中設(shè)計(jì)數(shù)據(jù)挖掘算法的優(yōu)越性。
為保證實(shí)驗(yàn)的順利進(jìn)行,在仿真環(huán)境內(nèi),設(shè)置實(shí)驗(yàn)參數(shù)如表1所示。
表1 實(shí)驗(yàn)參數(shù)
利用上述試驗(yàn)參數(shù),展開(kāi)后續(xù)多標(biāo)簽數(shù)據(jù)挖掘算法仿真測(cè)試。
仿真所應(yīng)用的數(shù)據(jù)取自某通信企業(yè),匯總企業(yè)內(nèi)近六個(gè)月多標(biāo)簽樣本數(shù)據(jù),所采集的數(shù)據(jù)中包含2萬(wàn)余條用戶通話數(shù)據(jù),以及20多萬(wàn)條交互信息。數(shù)據(jù)采集后進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,將處理后的數(shù)據(jù)作為挖掘?qū)ο髮?dǎo)入MATLAB仿真環(huán)境中,獲取圖4所示的原始數(shù)據(jù)分布圖。
圖4 實(shí)驗(yàn)數(shù)據(jù)分布圖
根據(jù)圖4可知,原始數(shù)據(jù)中主要包含3類數(shù)據(jù)。針對(duì)上述實(shí)驗(yàn)數(shù)據(jù),應(yīng)用文中提出的基于SECI模型與屬性分類算法進(jìn)行數(shù)據(jù)挖掘,獲取仿真結(jié)果。
MATLAB仿真環(huán)境中,應(yīng)用文中設(shè)計(jì)算法得出圖5所示的數(shù)據(jù)挖掘結(jié)果。
圖5 數(shù)據(jù)挖掘結(jié)果
根據(jù)圖5可知,文中設(shè)計(jì)算法應(yīng)用后,實(shí)現(xiàn)了多標(biāo)簽數(shù)據(jù)的精準(zhǔn)挖掘,將原始分布較為混亂的數(shù)據(jù),按照數(shù)據(jù)清晰地聚類,表明了所提出挖掘算法的有效性。
為了更加直觀地呈現(xiàn)出仿真結(jié)果,同樣在MATLAB仿真環(huán)境中,針對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行挖掘處理。文中將實(shí)驗(yàn)判斷指標(biāo)選定為加速比,明確數(shù)據(jù)挖掘算法運(yùn)行過(guò)程中,隨著數(shù)據(jù)處理規(guī)模不斷增長(zhǎng)算法處理能力變化。通過(guò)了解可知,數(shù)據(jù)挖掘算法的加速比越高,表明所提出挖掘算法的數(shù)據(jù)處理能力更強(qiáng)。在仿真環(huán)境中,多次運(yùn)行文中設(shè)計(jì)數(shù)據(jù)挖掘算法與其它三種算法,得到圖6所示的不同算法的加速比對(duì)比圖。
圖6 不同算法的數(shù)據(jù)挖掘時(shí)間對(duì)比圖
根據(jù)圖6所示的對(duì)比圖可知,傳統(tǒng)算法得到的仿真結(jié)果,與理想曲線具有較大偏差。挖掘時(shí)間完全偏離了理想曲線。綜上所述,處理相同的待挖掘數(shù)據(jù)量時(shí),傳統(tǒng)算法所需要的時(shí)間遠(yuǎn)高于理想時(shí)間。文中提出的數(shù)據(jù)挖掘算法運(yùn)行時(shí),雖然數(shù)據(jù)挖掘時(shí)間會(huì)隨著數(shù)據(jù)量增長(zhǎng)而提升,但是,數(shù)據(jù)挖掘仿真結(jié)果極為接近理想曲線,表現(xiàn)出線性增長(zhǎng)特點(diǎn)。
數(shù)據(jù)挖掘算法的加速比計(jì)算公式為
(15)
式中,p表示待挖掘數(shù)據(jù)量,λ表示算法加速比,T表示數(shù)據(jù)挖掘所需時(shí)間。結(jié)合式(15)與圖6可知,文中設(shè)計(jì)算法受到SECI數(shù)據(jù)轉(zhuǎn)換模型與屬性分類挖掘模式的共同影響,有效提升了數(shù)據(jù)處理的加速比。
文中針對(duì)多標(biāo)簽數(shù)據(jù),建立SECI模型與屬性分類模式相結(jié)合的數(shù)據(jù)挖掘算法。根據(jù)轉(zhuǎn)化而來(lái)的隱性數(shù)據(jù)知識(shí)進(jìn)行特征提取,結(jié)合數(shù)據(jù)屬性分類模式達(dá)到挖掘的目的。針對(duì)文中設(shè)計(jì)的數(shù)據(jù)挖掘算法進(jìn)行仿真,驗(yàn)證結(jié)果顯示所提出挖掘算法應(yīng)用屬性分類挖掘模式,將多標(biāo)簽數(shù)據(jù)的本質(zhì)特征直觀體現(xiàn)出來(lái),有效提升數(shù)據(jù)挖掘加速比。考慮到數(shù)據(jù)挖掘所涉及的學(xué)科和技術(shù)較多,面對(duì)不同的場(chǎng)景需要合理選定數(shù)據(jù)挖掘技術(shù)。文中設(shè)計(jì)的數(shù)據(jù)挖掘算法未來(lái)的改善方向,可以針對(duì)數(shù)據(jù)挖掘算法的通用性進(jìn)行研究。