摘要:本文為解決傳統(tǒng)文本譜聚類算法聚類純度低的問題,提出了基于稀疏子空間聚類的文本譜聚類算法研究。通過提取文本譜特征,設(shè)計文本譜低維數(shù)據(jù)稀疏地線性表示矩陣,融合文本譜低維數(shù)據(jù)特征,構(gòu)建文本譜特征向量稀疏子聚類空間,實現(xiàn)文本譜聚類算法。設(shè)計實例分析,結(jié)果表明,設(shè)計聚類算法的聚類純度明顯高于傳統(tǒng)聚類算法。
關(guān)鍵詞:稀疏子空間聚類;文本譜;聚類算法
文本譜聚類算法的研究意義是為了找尋蘊藏在算法中文本數(shù)據(jù)的結(jié)構(gòu),并依據(jù)其共有的特性,將具有同樣性質(zhì)的數(shù)據(jù)進行歸類處理??紤]到文本譜聚類對于提高文本譜信息特征挖掘具有十分關(guān)鍵的作用。目前我國常用的文本譜聚類算法是在K-means算法的基礎(chǔ)上衍生而成,通過擴展文本數(shù)據(jù)在空間中的向量,聚類文本譜信息[1]。盡管傳統(tǒng)的聚類算法能夠取得一定的研究成果,但經(jīng)常會由于對文本譜數(shù)據(jù)的可視化觀察能力差,無法識別出復雜的文本譜聚類形狀,導致出現(xiàn)聚類純度低的問題,針對文本譜數(shù)據(jù)信息的聚類效果不盡理想。基于此,針對文本譜聚類算法的優(yōu)化設(shè)計是十分有必要的。
1 稀疏子空間聚類
稀疏子空間聚類又稱SSC算法,作為一種先進的聚類算法,其根本原理是通過同一子空間的低維數(shù)據(jù)稀疏地線性表示高維數(shù)據(jù),從而得到全新的稀疏系數(shù)矩陣,實現(xiàn)數(shù)據(jù)空間聚類[2,3]。稀疏子空間聚類過程中,最主要的流程即為稀疏表示,將基于稀疏子空間聚類的數(shù)據(jù)稀疏表示矩陣,應(yīng)用在文本譜聚類算法的優(yōu)化設(shè)計中,設(shè)計基于稀疏子空間聚類的文本譜聚類算法,稀疏子空間聚類基本框架如圖1所示。
2 文本譜聚類算法
2.1 文本譜預處理
本文提出的文本譜預處理共分為兩部分,分別為:文本譜特征表示以及文本譜特征提取[4]。文本譜特征表示的具體流程為:首先,采集文本譜數(shù)據(jù)中描述性特征的元數(shù)據(jù)和語義性特征元數(shù)據(jù);而后,基于稀疏子空間聚類非結(jié)構(gòu)化表示元數(shù)據(jù),此過程可通過計算方程式表示,設(shè)基于稀疏子空間聚類非結(jié)構(gòu)化表示的目標函數(shù)為m,如公式(1)所示。
ω==tf(i,d)
(1)
在公式(1)中,t指的是文本譜中的詞向量;f指的是文本譜中子空間的個數(shù),為實數(shù);i指的是i詞匯在文本譜中出現(xiàn)的次數(shù);d指的是文本譜中元數(shù)據(jù)的高維特征權(quán)重。通過公式(1),得到非結(jié)構(gòu)化處理后的文本譜數(shù)據(jù)。采用稀疏子空間聚類中的稀疏表示技巧,通過同一子空間的低維數(shù)據(jù)表示文本譜特征?;谙∈枳涌臻g聚類非結(jié)構(gòu)化表示文本譜特征后,可提取文本譜特征,為文本譜聚類提供基礎(chǔ)數(shù)據(jù)。
2.2 設(shè)計文本譜低維數(shù)據(jù)稀疏地線性表示矩陣
在完成文本譜預處理后,基于稀疏子空間聚類通過同一子空間的低維數(shù)據(jù)稀疏地線性表示高維數(shù)據(jù),設(shè)計文本譜低維數(shù)據(jù)稀疏地線性表示矩陣。首先,本文采用稀疏子空間聚類正則化處理文本譜數(shù)據(jù),設(shè)操作后得到的正則化文本譜數(shù)據(jù)為C,考慮到正則化文本譜數(shù)據(jù)中的高維特征可達數(shù)十萬維,為提高文本譜聚類的純度,還需要運用稀疏子空間聚類中的全局稀疏最優(yōu)化模型,凸松弛處理文本譜低維數(shù)據(jù),剔除文本譜低維數(shù)據(jù)中的奇異點。設(shè)使用全局稀疏最優(yōu)化模型凸松弛處理文本譜低維數(shù)據(jù)的表達式為s,則運用稀疏子空間聚類算法,得出的s的計算公式,如公式(2)所示。
在公式(2)中,a指的是文本譜聚類空間的稀疏奇異值。基于稀疏子空間聚類算法無需提前掌握數(shù)據(jù)子空間個數(shù)和維數(shù)的前提,凸松弛處理文本譜低維數(shù)據(jù)后,可直接設(shè)計文本譜低維數(shù)據(jù)稀疏地線性表示矩陣。
以上述公式為依據(jù),設(shè)文本譜低維數(shù)據(jù)稀疏地線性正則化表示矩陣為r,則r的計算公式,如公式(3)所示。
在公式(3)中,s指的是文本譜低維數(shù)據(jù)標簽與空間聚類子區(qū)域標簽的對應(yīng)約束關(guān)系;v指的是文本譜低維數(shù)據(jù)標簽與空間聚類子區(qū)域標簽的對應(yīng)函數(shù)關(guān)系;T指的是不同子空間的文本譜數(shù)據(jù)低維權(quán)重。通過設(shè)計文本譜低維數(shù)據(jù)稀疏地線性表示矩陣,融合文本譜低維數(shù)據(jù)特征,提高文本譜低維數(shù)據(jù)稀疏地線性表示精度,使同一類別的文本譜數(shù)據(jù)維數(shù)區(qū)域很容易被聚類到一起,進而確保文本譜聚類純度。本文通過稀疏子空間聚類算法中的ADMM機制,仿射文本譜低維空間的數(shù)據(jù)點,完成文本譜低維數(shù)據(jù)稀疏地線性表示矩陣求解,提高對文本譜數(shù)據(jù)的可視化觀察能力。
2.3 構(gòu)建文本譜特征向量稀疏子聚類空間
在設(shè)計文本譜低維數(shù)據(jù)稀疏地線性表示矩陣的基礎(chǔ)上,為解決文本譜聚類過程中,特征向量長短差距大的問題,通過相似度定義的方式歸一化處理文本譜特征向量。設(shè)歸一化處理文本譜特征向量方程式為E,則其計算公式,如公式(4)所示。
在公式(4)中,M指的是文本譜特征向量的字符長度;N指的是文本譜數(shù)據(jù)的語義特征;x(Zj)指的是文本譜數(shù)據(jù)在稀疏子空間的投影距離;z指的是文本譜數(shù)據(jù)在稀疏子空間的橫坐標;j指的是文本譜數(shù)據(jù)在稀疏子空間的縱坐標。通過公式(4),歸一化處理文本譜特征向量后,構(gòu)建文本譜特征向量稀疏子聚類空間?;谙∈枳涌臻g聚類建立的文本譜特征向量稀疏子聚類空間中間層,主要負責數(shù)據(jù)挖掘聚類迭代調(diào)度管理,使用稀疏子空間聚類算法,縮短特征向量之間的長短差距,進而提高文本譜聚類純度。通過構(gòu)建的文本譜特征向量稀疏子聚類空間,在此空間中執(zhí)行文本譜聚類操作,操作流程如圖2所示。
2.4實現(xiàn)文本譜聚類算法
在文本譜特征向量稀疏子聚類空間中,選擇一個可以準確評價文本譜聚類算法的指標。在文本譜聚類迭代過程中,隨著聚類中心的數(shù)目不斷減少,各個聚類中心的位置也會隨之發(fā)生變化。這時需運用稀疏子空間聚類建立數(shù)據(jù)挖掘聚類數(shù)據(jù)庫,將聚類中心的位置整合數(shù)據(jù)的形式存儲在數(shù)據(jù)庫中。通過數(shù)據(jù)挖掘聚類數(shù)據(jù)庫,將大量類型相同的文本譜數(shù)據(jù)挖掘聚類構(gòu)成同構(gòu)數(shù)據(jù)庫,實現(xiàn)文本譜聚類算法。再通過文本譜聚類迭代過程不斷地位移,最后通過計算余弦相似度的方式,保證聚類中心的坐標能夠非常接近真實的聚類中心。設(shè)文本譜聚類算法的余弦相似度為q,則q的計算公式,如公式(5)所示。
g= cos(pi,pj)
(5)
在公式(5)中,p指的是兩文本譜特征向量夾角的余弦值。求得本譜聚類算法的余弦相似度后,利用余弦相似度實現(xiàn)文本譜聚類算法,得到最終的文本譜聚類結(jié)果。
3 實例分析
3.1實驗準備
本文通過實例分析的形式測試基于稀疏子空間聚類的文本譜聚類算法應(yīng)用的時效性,此次實驗內(nèi)容為選擇Terwqsder文本譜數(shù)據(jù)集作為此次實驗的研究對象。
實驗軟環(huán)境包括:Weapectll.2.1軟件,本次實驗測試指標為聚類純度,聚類純度能夠?qū)ξ谋咀V數(shù)據(jù)的可視化觀察能力,聚類純度越高證明該聚類算法的聚類觀察能力越高。首先,采用本文提出的觀察能力對文本譜數(shù)據(jù)執(zhí)行聚類操作,通過Weapect11.2.1軟件獲取該算法下的聚類純度,設(shè)置其為實驗組;再使用傳統(tǒng)的聚類算法執(zhí)行聚類操作,將得到的聚類純度記為對照組。
3.2 實驗結(jié)果與分析
根據(jù)上述設(shè)計的實例分析,統(tǒng)計實驗結(jié)果,如圖3所示。
通過圖3可得出如下的結(jié)論,本文設(shè)計聚類算法的聚類純度明顯高于傳統(tǒng)聚類算法,聚類算法對文本譜數(shù)據(jù)的可視化觀察能力更強。因此,基于稀疏子空間聚類的文本譜聚類算法可以最大限度的提高文本譜聚類純度,實現(xiàn)基于稀疏子空間聚類的文本譜聚類。
4 結(jié)束語
通過基于稀疏子空間聚類的文本譜聚類算法研究,希望能夠在提高文本譜聚類純度的同時,提高文本譜聚類精度。在后期的發(fā)展中,應(yīng)加大本文設(shè)計聚類算法在文本譜聚類中的應(yīng)用?;诖舜窝芯繒r間有限,雖然取得了一定的研究成果,但對于該算法研究還不足,今后還要對其進行進一步研究,為文本譜聚類算法的進一步優(yōu)化提供參考依據(jù)。通過實例分析結(jié)果表明,本文設(shè)計的聚類算法在提高文本譜聚類純度方面中的具體優(yōu)勢已經(jīng)顯現(xiàn)出來,有必要在現(xiàn)實中廣泛投入使用。
參考文獻
[1]劉玉馨,何光輝.k近鄰約束的稀疏子空間聚類[J].計算機工程與應(yīng)用,2019,55 (03):39-45.
[2]榮光李,黃尉,基于子空間追蹤算法的稀疏子空間聚類[J].合肥工業(yè)大學學報(自然科學版),2019,42 (07):999-1004.
[3]陳智平,陳曉云,簡彩仁.非線性多視角子空間聚類方法[J].福州大學學報(自然科學版),2020,48 (01):7-13.
[4]馬盈倉,楊小飛,續(xù)秋霞等,基于k-近鄰與局部相似度的稀疏子空間聚類[J].計算機工程與應(yīng)用,2020,56 (04):99-108.
作者簡介
原虹(1981-),女,山西省臨猗縣人。碩士學位,講師。研究方向為計算機應(yīng)用、數(shù)據(jù)挖掘。