郭紅建,陳一飛,梅軼群
(南京審計(jì)大學(xué)信息工程學(xué)院,江蘇 南京 211815)
當(dāng)前數(shù)據(jù)挖掘領(lǐng)域發(fā)展迅速,其面臨的問題與挑戰(zhàn)也越來越多。多媒體時代的到來,全球各地的用戶通過多種載體模式交流和獲取信息,但是在數(shù)據(jù)挖掘時經(jīng)常會碰見高維數(shù)據(jù)[1],這些高維數(shù)據(jù)中包含冗余、空間維度復(fù)雜的信息,挖掘其中并獲取自己想要的信息較為困難[2],導(dǎo)致時間、資金和精力的巨大損失。因此,如何有效地從高維數(shù)據(jù)中提取到想要的信息成為研究的重點(diǎn)。
目前相關(guān)學(xué)著已經(jīng)提出了很多經(jīng)典的文本挖掘方法,例如:黃文秀等人[3]提出一種基于改進(jìn)的k最鄰近算法的海量數(shù)據(jù)挖掘方法。以文本大數(shù)據(jù)集合為樣本集,確定密集樣本的分布區(qū)域,并對其精準(zhǔn)劃分,使文本數(shù)據(jù)分布更加均衡。基于此,利用改進(jìn)的k最鄰近算法對處理后的文本大數(shù)據(jù)分類,完成文本的挖掘。但是該方法在挖掘文本前,會將數(shù)據(jù)對象進(jìn)行相似編碼,數(shù)據(jù)對象需要迭代幾百次,步驟復(fù)雜,運(yùn)行效率低。牛奉高等人[4]提出一種基于加權(quán)網(wǎng)絡(luò)改進(jìn)的短文本相似性挖掘方法。首先,在語義網(wǎng)范圍內(nèi)對文本共現(xiàn)頻次實(shí)現(xiàn)加權(quán),針對短文本的權(quán)重識別效率偏低的問題,計(jì)算短文本中每個詞語的加權(quán)復(fù)雜網(wǎng)絡(luò)綜合特征值,并通過聚類處理最終得到文本挖掘結(jié)果。但此方法對初始數(shù)據(jù)點(diǎn)較為敏感,易出現(xiàn)劇烈合并錯亂的現(xiàn)象,風(fēng)險較大,其次,在處理高維數(shù)據(jù)時,目標(biāo)函數(shù)運(yùn)算過程中會發(fā)生收斂的狀況,導(dǎo)致算法結(jié)果不精準(zhǔn)。
為此,提出一種基于高維聚類算法的文本大數(shù)據(jù)挖掘方法。通過等距離特征映射算法[5]將多維數(shù)據(jù)轉(zhuǎn)換到低維空間中,得到全局最小值,降低了空間的維數(shù)。并在傳統(tǒng)的模糊聚類方法上作出改進(jìn),為減少獨(dú)立數(shù)據(jù)對聚類中心的影響,從數(shù)據(jù)類型的隸屬性上提高權(quán)值系數(shù)[6];以信息熵作為衡量聚類項(xiàng)目的標(biāo)準(zhǔn);通過密度函數(shù)提取原始聚類中心[7],當(dāng)平均信息熵達(dá)到做小數(shù)值時,此時的聚類中心為最佳聚類數(shù),聚類技術(shù)的操作有效,精度準(zhǔn)確。
等距離特征映射算法能夠在保證多維數(shù)據(jù)的幾何特征不變條件下,將多維數(shù)據(jù)轉(zhuǎn)換到低維空間中。通過計(jì)算數(shù)據(jù)節(jié)點(diǎn)間距離,保證在最小損失原始信息的同時降低數(shù)據(jù)維數(shù)。構(gòu)建鄰居圖、嵌入維層得到全局距離最小值,對于距離相近的兩個點(diǎn),用空間最短距離表示;對于距離較遠(yuǎn)的兩個點(diǎn),用相鄰的空間最長距離表示。
第一步建立鄰居圖G,Y表示輸入空間,I,J表示輸入空間內(nèi)的任意兩個點(diǎn),M表示距離的流形,通過一個獨(dú)立的點(diǎn)連接所有相鄰的點(diǎn)。
第二步計(jì)算鄰居圖G中最短直徑空間距離dG(I,J),推導(dǎo)出流形M里所有相對兩點(diǎn)之間的測量距離dM(I,J)。當(dāng)I,J兩點(diǎn)相連時,可以描述為dY(I,J);當(dāng)I,J兩點(diǎn)不相連時,則dG(I,J)=∞。對于K=(1,2,…,N)的任意數(shù)值,使用min{dG(I,J),dG(I,K)+dG(K,J)}來替換輸入dG(I,J)。最后用DG=dG(I,J)數(shù)值矩陣描述鄰居圖G中點(diǎn)對之間的最短距離。
第三步嵌入d維,憑借圖距離矩陣[8]DG=dG(I,J),在d維度的空間Y內(nèi),空間Y可以最大限度的保證數(shù)據(jù)流形的幾何特征。
在Y的坐標(biāo)向量yi內(nèi),通過誤差函數(shù)[9]降低兩點(diǎn)之間測量距離的錯誤率。
(1)
式中,L2代表矩陣模式,將距離轉(zhuǎn)換為內(nèi)積,DY代表{dy(I,J)}的矩陣,DG代表{dG(I,J)}的矩陣,基于上述在保證原本數(shù)據(jù)的幾何特性前提下,得到了全局的最小數(shù)值,降低了原始高維大數(shù)據(jù)空間的維數(shù)。
編程模型[10]是一種并行計(jì)算模型,由于降維后數(shù)據(jù)內(nèi)會包含一部分用戶隱私信息,這部分信息被加密了,很難提取其特征和文本數(shù)據(jù)挖掘,難以保證挖掘結(jié)果的F1值,為此,憑借編程模型中的匯編程序與再生產(chǎn)兩個過程,實(shí)現(xiàn)對加密大數(shù)據(jù)關(guān)鍵特征映射估計(jì)。
匯編程序函數(shù)將(密鑰中心,估計(jì)值)作為輸入,通過一系列的處理,將新的(密鑰中心,估計(jì)值)作為輸出,具體操作過程如圖1所示:
圖1 映射任務(wù)執(zhí)行過程
在生產(chǎn)函數(shù)將密鑰中心作為輸入,經(jīng)處理后,輸出結(jié)果最終形成最佳估計(jì)值,具體操作過程如圖2所示:
圖2 導(dǎo)出任務(wù)執(zhí)行過程
為更好地提取大數(shù)據(jù)內(nèi)關(guān)鍵特征,以便獲得最佳文本聚類中心,對其相空間重建[11],避免在特征提取時破壞降維后的數(shù)據(jù)特征。
設(shè)定{q1,q2,…,qN}為一維空間序列,重建的相空間為:
(2)
r≥2a+1
(3)
其中,r代表嵌入維數(shù),a代表奇異吸引子的維度,ε代表時延,當(dāng)發(fā)生r≥2a+1的情況,就會破壞數(shù)據(jù)內(nèi)的幾何結(jié)構(gòu)特征。
關(guān)聯(lián)維[12]可以描述數(shù)據(jù)在多維空間中稀疏濃密程度。在大數(shù)據(jù)相空間重新構(gòu)造的基礎(chǔ)上,使用關(guān)聯(lián)維提取相空間矢量,通過兩個矢量[13]的最高限度分量差計(jì)算兩個矢量之間的距離,建立公式如下
|QI-QJ|=max1≤δ≤r|QIδ-QJδ|
(4)
其中,δ表示常數(shù)。將I,J兩點(diǎn)間隔低于正數(shù)l的矢量作為關(guān)聯(lián)矢量,在重建空間中發(fā)現(xiàn)h點(diǎn),那么在h2組內(nèi)的占比為關(guān)聯(lián)積分,H表示海維賽德函數(shù),計(jì)算出矢量對數(shù)。
(5)
(6)
關(guān)聯(lián)積分Sh(l)在發(fā)生l=0的狀態(tài)下與l有關(guān)聯(lián),描述公式如下
(7)
式中,C表示為關(guān)聯(lián)維數(shù),基于此可選取合理正數(shù)l,近似值為
(8)
在空間內(nèi)數(shù)據(jù)樣本相對應(yīng)的關(guān)聯(lián)度低、分布散亂、不集中,不同數(shù)據(jù)樣本點(diǎn)數(shù)值與實(shí)際數(shù)值之間存在大幅度偏差,σI表示點(diǎn)I序列分解的標(biāo)準(zhǔn)差,z表示倍頻因子,重新組建的空間分布XI關(guān)系
(9)
在提取的特征樣本中,若XI數(shù)值較大,說明數(shù)據(jù)特征樣本分布稀疏,關(guān)聯(lián)性低;若XI數(shù)值較小,說明數(shù)據(jù)特征樣本分布密集,關(guān)聯(lián)性高。通過重建空間分布關(guān)系能夠識別不同信息類型特征集合。
(10)
得到樣本點(diǎn)密集程度后,提取樣本中均方根測量距離的二分之一,計(jì)算公式如下
(11)
其中,樣本點(diǎn)xi的分布越密集,說明Fi數(shù)值越大,使Fi=max(Fi,i=1,2,…,N),計(jì)算改進(jìn)后的初始數(shù)據(jù)聚類中心的密度函數(shù)描述為:
(12)
聚類的分類越完善,任意數(shù)據(jù)點(diǎn)在其聚類上的歸屬感越高,所提方法使用信息熵為衡量聚類數(shù)目,迭代中轉(zhuǎn)換聚類中心,更改聚類數(shù),當(dāng)平均信息熵轉(zhuǎn)換到最小數(shù)值,其相對的聚類項(xiàng)目為最有效。uij代表在i空間類別的j數(shù)據(jù)樣本的聚類程度,B代表聚類中心數(shù)量,最小值的平均信息熵?所對應(yīng)的聚類數(shù)量為最優(yōu)。平均信息熵的計(jì)算公式如下:
(13)
為了實(shí)現(xiàn)最佳聚類結(jié)果,基于數(shù)據(jù)類型隸屬度提高權(quán)值系數(shù),改進(jìn)隸屬度[15]可以將聚類中心范圍變大,計(jì)算公式如下
(14)
當(dāng)y等于1時,表示Nij=uij;當(dāng)uij等于0時,表示Nij=0;當(dāng)uij等于1時,表示Nij=1。在聚類算法迭代中,隸屬度數(shù)值降低導(dǎo)致數(shù)據(jù)對象對聚類中心的影響范圍變小。當(dāng)y數(shù)值越大,隸屬度的上下浮動越低,聚類結(jié)果精準(zhǔn)清晰;相反,當(dāng)y數(shù)值越小,隸屬度的上下浮動越高,聚類結(jié)果收斂且不精準(zhǔn)。
為實(shí)現(xiàn)文本的最終挖掘,需優(yōu)化聚類數(shù)目以及模糊加權(quán)系數(shù)的不足,在數(shù)據(jù)對象本身增加一個隸屬權(quán)值Nij,使相應(yīng)數(shù)據(jù)中,隸屬度高的特征可以提升對聚類挖掘中心的影響程度,隸屬度低的特征可以減少對聚類中心的影響程度,算法步驟如下:
1)初始化聚類數(shù)c=2,對其迭代,當(dāng)?shù)螖?shù)為b=0,提取指數(shù)權(quán)重?cái)?shù)值m。
2)計(jì)算數(shù)據(jù)的隸屬度:
(15)
3)通過對隸屬度的改進(jìn),降低對聚類中心的影響。
4)更新聚類中心:
(16)
文本聚類算法的性能受多因素影響,為證明提出聚類算法的文本挖掘有效性。使用自建源代碼文件夾檢驗(yàn),此文件夾含有視頻數(shù)據(jù)、聲音數(shù)據(jù)、圖像數(shù)據(jù)、代碼模式數(shù)據(jù)、文本數(shù)據(jù)。分析每個源程序數(shù)據(jù)信息,完成大數(shù)據(jù)問卷的總列表,建立實(shí)驗(yàn)軟件環(huán)境如圖3所示。
圖3 實(shí)驗(yàn)的軟件環(huán)境
由圖3可以得出,此實(shí)驗(yàn)軟件環(huán)境的主體界面含有菜單欄、頁面顯示、查詢列表、關(guān)鍵詞語提取。通過輸入關(guān)鍵字,可清晰查詢到文本聚類算法相對應(yīng)的功能函數(shù)。
在文本挖掘過程中,選定指標(biāo)來驗(yàn)證所提方法的挖掘性能。評價挖掘可描述為混淆矩陣,TP表示被挖掘出的文本數(shù)據(jù),FP表示被挖掘的非文本數(shù)據(jù),FN表示未被挖掘的文本數(shù)據(jù),TN表示未被挖掘的非文本數(shù)據(jù)。
1)查準(zhǔn)率為文本被正確挖掘出的數(shù)量與預(yù)測文本數(shù)據(jù)數(shù)量的比值,準(zhǔn)確率計(jì)算公式為
(17)
2)查全率為文本被正確挖掘出的數(shù)量與實(shí)際文本數(shù)據(jù)數(shù)量的比值,查全率計(jì)算公式為:
(18)
3)F1值表示查準(zhǔn)率與查全率之間的調(diào)和平均值,因?yàn)槎呃锩娲嬖诜蔷€性關(guān)系,會存在查準(zhǔn)率高但查全率低的情況。通過計(jì)算得到的F1值越大,代表查準(zhǔn)率與查全率之間不一致結(jié)果越小,計(jì)算過程為
(19)
實(shí)驗(yàn)選取文獻(xiàn)[3]提出的基于改進(jìn)的k最鄰近算法的海量數(shù)據(jù)挖掘方法和文獻(xiàn)[4]提出的基于加權(quán)網(wǎng)絡(luò)改進(jìn)的短文本相似性挖掘方法作為實(shí)驗(yàn)對照組,與所提方法的指標(biāo)測試結(jié)果相比較,三種方法挖掘結(jié)果的調(diào)和平均指標(biāo)F1值如圖4所示。
圖4 不同方法挖掘結(jié)果準(zhǔn)確率對比
圖4中能夠看出,基于改進(jìn)的k最鄰近算法的海量數(shù)據(jù)挖掘方法的F1值在0.90到0.94之間;基于加權(quán)網(wǎng)絡(luò)改進(jìn)的短文本相似性挖掘方法的F1值雖然波動更為平穩(wěn),但是F1值總體較低;所提方法F1值隨著實(shí)驗(yàn)次數(shù)增加出現(xiàn)小幅度的波動,但是可穩(wěn)定在0.96到1之間,證明所提方法的數(shù)據(jù)挖掘精準(zhǔn)。
將采集的5組實(shí)驗(yàn)數(shù)據(jù)放置在降維后的空間內(nèi),深度數(shù)據(jù)聚類。不同方法的文本聚類結(jié)果如圖5所示。
圖5 不同方法的文本數(shù)據(jù)聚類結(jié)果
分析圖5可知,由于視頻數(shù)據(jù)集與圖像數(shù)據(jù)集相似度高,文獻(xiàn)方法在聚類過程中會出現(xiàn)錯分的問題,且使代碼模式數(shù)據(jù)、文本數(shù)據(jù)聚類中心過近,難以明確挖掘各類數(shù)據(jù)信息。應(yīng)用所提方法完成本文聚類處理時,不僅聚類邊界清晰,而且相似點(diǎn)的聚類中心距離最遠(yuǎn),最大程度避免了后期發(fā)生數(shù)據(jù)挖掘錯誤的情況。
本文將多維數(shù)據(jù)轉(zhuǎn)換到低維空間后提取數(shù)據(jù)的關(guān)鍵特征信息,利用改進(jìn)模糊聚類方法對大數(shù)據(jù)環(huán)境下文本信息挖掘,得到文本數(shù)據(jù)的特征向量,使用密度函數(shù)得到聚類中心,輸出最終挖掘結(jié)果。通過實(shí)驗(yàn)證明了本次研究對文本數(shù)據(jù)挖掘?qū)嶋H應(yīng)用具有重要意義。