于紅
(吉林省琿春市敬信鎮(zhèn)衛(wèi)生院,吉林延邊,133300)
隨著網(wǎng)絡(luò)化、信息化的發(fā)展,檔案因關(guān)聯(lián)內(nèi)容多樣、涉及范圍廣,數(shù)據(jù)量和規(guī)模面臨著規(guī)模化的遞增發(fā)展趨勢(shì),并以文本形式存儲(chǔ)于計(jì)算機(jī)上,而此時(shí),以往的人工分類(lèi)、歸檔已經(jīng)無(wú)法適從,亟待進(jìn)行分類(lèi)方法的變革。而文本聚類(lèi)作為一種文本處理方法,其目的是將存在某種語(yǔ)義或主題關(guān)聯(lián)的數(shù)據(jù)集依照某種結(jié)構(gòu)予以分類(lèi),劃歸為不同的聚類(lèi),而K-means算法作為應(yīng)用最廣泛的文本聚類(lèi)方法,具有運(yùn)算簡(jiǎn)便、收斂速率快等優(yōu)點(diǎn),但也存在易于陷入局部最優(yōu)解的缺點(diǎn),而以往多將PSO 與之融合,但并未解決問(wèn)題。而GWO 算法作為一種新型的群智能算法,與PSO 相比搜索能力更強(qiáng)、收斂速度更快,可滿足海量檔案數(shù)據(jù)快速分類(lèi)的需求,為此,本文結(jié)合該算法的優(yōu)勢(shì),著眼于檔案數(shù)據(jù)分類(lèi)的準(zhǔn)確性、效率性,借鑒以往研究來(lái)對(duì)GWO 算法進(jìn)行優(yōu)化,以化解PSO、K-means 算法早熟收斂、局部最優(yōu)解問(wèn)題,以此提升檔案數(shù)據(jù)分類(lèi)的準(zhǔn)確性,而后,引入FastText 深度學(xué)習(xí)模型,通過(guò)分類(lèi)訓(xùn)練實(shí)現(xiàn)檔案數(shù)據(jù)的全自動(dòng)分類(lèi),實(shí)現(xiàn)檔案數(shù)據(jù)分類(lèi)的高效性。
PSO 是文本聚類(lèi)最常用的方法,但檔案數(shù)據(jù)的海量性使其搜索空間維數(shù)過(guò)稿,且特征稀疏下種群差異縮小,易于陷入局部最優(yōu)解,且經(jīng)過(guò)多方研究未找到有效解決方法,影響了分類(lèi)的準(zhǔn)確性。而灰狼優(yōu)化算法(Grey Wolf Optimizer,GWO)是基于灰狼捕食獵物活動(dòng)而設(shè)計(jì)的一種新型群智能優(yōu)化算法,其因搜索能力、收斂性能較強(qiáng),且參數(shù)運(yùn)算少、易于實(shí)現(xiàn)而被推廣應(yīng)用[1],但是,在迭代逐漸增加時(shí),因種群多樣性減弱,個(gè)體差異縮減,易產(chǎn)生早收斂問(wèn)題,后期易于陷入局部最優(yōu)解,影響文本聚類(lèi)的準(zhǔn)確性。為解決上述問(wèn)題,優(yōu)化檔案數(shù)據(jù)分類(lèi)的可靠性,本文對(duì)該算法進(jìn)行如下改進(jìn)。
改進(jìn)1:免疫克隆操作,為實(shí)現(xiàn)種群中個(gè)體的優(yōu)選,將對(duì)精英個(gè)體進(jìn)行克隆與變異操作以構(gòu)建新種群,而后,從新種群中選出適應(yīng)度更優(yōu)的個(gè)體進(jìn)行迭代,直至免疫克隆選擇達(dá)到最大迭代次數(shù)[2],具體的操作步驟如下:
依據(jù)適應(yīng)度函數(shù)從灰狼種群中優(yōu)選出m 個(gè)個(gè)體組成精英種群;而后,對(duì)該種群中全部個(gè)體進(jìn)行克隆,組建Nc大小的臨時(shí)種群T,如此即可保證精英種群中各個(gè)個(gè)體均匹配一定數(shù)量的克隆體[3]:
而后,通過(guò)下式對(duì)種群中所有個(gè)體的高頻變異,來(lái)獲取精英個(gè)體附近最優(yōu)的候選解:
改進(jìn)2:以改進(jìn)DE 算法更新個(gè)體,因DE 算法利用種群中隨機(jī)選取的個(gè)體構(gòu)造差分量,而后,以最優(yōu)個(gè)體作為目標(biāo)向量進(jìn)行交叉融合生成后代,以依據(jù)適應(yīng)度值進(jìn)行個(gè)體更新生成新種群,但是,因?yàn)榉N群個(gè)體的聚類(lèi)中心排序完全隨機(jī),而在個(gè)體間進(jìn)行自我尋優(yōu)和全局尋優(yōu)交叉操作時(shí),不同簇類(lèi)上差異較大的聚類(lèi)中心會(huì)在出現(xiàn)在同一維度上,如此,個(gè)體將無(wú)法獲得有效的搜索經(jīng)驗(yàn),彼此間的學(xué)習(xí)效果也將受到影響,甚至?xí)x全局最優(yōu)解的搜索方向,陷入局部最優(yōu)解。故而,本文將針對(duì)個(gè)體間學(xué)習(xí)與更新中,種群個(gè)體的聚類(lèi)中心向量排序隨機(jī)對(duì)其的負(fù)面影響,設(shè)計(jì)一種自適應(yīng)調(diào)整排序方法,也即基于個(gè)體間相似度排序,盡量將相似度最高的聚類(lèi)中心排列在同一維度,以個(gè)體ix、x j為例,該方法構(gòu)建過(guò)程如下。
結(jié)合上述方法,在優(yōu)化文本聚類(lèi)準(zhǔn)確性基礎(chǔ)上,為實(shí)現(xiàn)檔案數(shù)據(jù)的快速分類(lèi),本文引入FastText 深度學(xué)習(xí)模型,其旨在協(xié)助創(chuàng)建文本表達(dá)和分類(lèi)的可伸縮解決方案的資料庫(kù),主要由輸入層Inputlayer、隱藏層hidder layer、輸出層out layer 等構(gòu)成,整體結(jié)構(gòu)如圖1 所示。
圖1 FastText 深度學(xué)習(xí)模型的結(jié)構(gòu)
結(jié)合上圖,輸入層是添加文本n-gram 特征的詞語(yǔ)詞向量,可準(zhǔn)確表征存在矢量特征的詞語(yǔ)語(yǔ)義,以確保語(yǔ)義表達(dá)的準(zhǔn)確性;而隱藏層則用于各個(gè)詞向量均值的求解,并使用優(yōu)化器和梯度下降算法完成權(quán)重參數(shù)的更新,而后,進(jìn)一步計(jì)算出損失函數(shù)及與對(duì)應(yīng)的分類(lèi),通過(guò)輸出層輸出分類(lèi)概率,完成檔案數(shù)據(jù)的快速分類(lèi)。與其他分類(lèi)方法不同的是,F(xiàn)astText 利用分層分類(lèi)器將檔案數(shù)據(jù)的不同分類(lèi)整合為樹(shù)形結(jié)構(gòu),且為優(yōu)化分類(lèi)效率,其引入Softmax 分層技術(shù),利用Huffman 編碼進(jìn)行文本數(shù)據(jù)標(biāo)簽的編碼,以提升分類(lèi)模型訓(xùn)練的效率,具體,F(xiàn)astText 分類(lèi)模型訓(xùn)練的步驟如下:
首先,對(duì)檔案的文本數(shù)據(jù)A 進(jìn)行分詞、去停用詞的預(yù)處理,并增添標(biāo)簽于每行結(jié)尾,初始化詞語(yǔ)向量;同時(shí),設(shè)置選取損失函數(shù)LOSS、分類(lèi)訓(xùn)練的學(xué)習(xí)率為lr,并選定文本輸出對(duì)應(yīng)的類(lèi)別;而后,利用梯度下降算法完成各個(gè)詞語(yǔ)向量權(quán)重的計(jì)算,并據(jù)此,在分類(lèi)訓(xùn)練過(guò)程中實(shí)時(shí)更新詞向量數(shù)據(jù)、標(biāo)簽數(shù)據(jù)的權(quán)值,進(jìn)行分類(lèi)模型的訓(xùn)練,以實(shí)現(xiàn)檔案數(shù)據(jù)全自動(dòng)分類(lèi)。
檔案數(shù)據(jù)的海量性、高速更新性,使得其歸類(lèi)管理面臨諸多難題,而且,多領(lǐng)域、不同描述的多模態(tài)數(shù)據(jù),更是增加了其聚類(lèi)分析的維度和運(yùn)算量,且PSO 固有的局部最優(yōu)問(wèn)題也無(wú)法得到根本解決。為此,上述研究借鑒免疫克隆與DE 算法個(gè)體更新的優(yōu)勢(shì)性,通過(guò)對(duì)GWO 算法進(jìn)行改進(jìn),來(lái)實(shí)現(xiàn)可靠的文本聚類(lèi);同時(shí),利用FastText 深度學(xué)習(xí)模型來(lái)進(jìn)行權(quán)自動(dòng)分類(lèi)設(shè)計(jì),由此從準(zhǔn)確性、效率上雙重驅(qū)動(dòng)檔案數(shù)據(jù)分類(lèi)優(yōu)化發(fā)展。