亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

特征加權(quán)的CLSVSM

2021-05-27 07:12:26牛奉高

計算機與現(xiàn)代化 2021年5期

牛奉高，閆濤

(山西大學數(shù)學科學學院,山西太原 030006)

0 引言

近幾年，大數(shù)據(jù)觀念深入人心，由于信息量的急劇增長，豐富的文本資源在給人們提供巨大便利的同時，數(shù)量巨大和種類繁多也帶來存儲處理和有效檢索的困擾。傳統(tǒng)的文本信息檢索方法雖然提高了不同文本的辨識度且起到了一定的分類作用，但是并沒有挖掘文本之間內(nèi)在的語義聯(lián)系，耗時長且檢索效率不高，其數(shù)據(jù)化表示和存儲尤其是復(fù)雜數(shù)據(jù)的處理也成為了人們關(guān)注的焦點。因此，學者們不斷地深入剖析文本間的關(guān)系，提高文本資源檢索[1]、聚合的效率，同時跟上文本信息更新的大步伐，保證信息處理的時效性。

在文本向量空間發(fā)展領(lǐng)域內(nèi)，Salton等[2]于1975年首次提出了以向量空間模型(VSM)來表示文本，基于布爾權(quán)重，只分析關(guān)鍵詞是否存在于文本中，文本特征詞之間兩兩獨立存在，彼此無關(guān)聯(lián)，并未進一步分析其內(nèi)在聯(lián)系；文獻[3]中廣義空間向量模型(GVSM)引入關(guān)鍵詞之間的共現(xiàn)信息，但是并不能更深層次表達出來；在此之后，Song等[4]提出了語義向量空間，雖然引入了語義信息，但是聚類結(jié)果不太明顯，且建立過程較為復(fù)雜；Song等[5]為以TF-IDF構(gòu)建的向量空間的相似度設(shè)置閾值，大于閾值的挑選出來，其詞權(quán)重為所有相關(guān)元素的平均權(quán)重，不僅有效地降低了特征向量的維數(shù)，同時將語義信息整合到文本使用語義詞典，從而更好地表達文本的信息。肖志軍等[6]和白秋產(chǎn)等[7]分別利用知網(wǎng)將文本表示為義原空間向量和概念空間向量,但只是把詞語用知網(wǎng)中的義原或概念表示,沒有考慮詞語在文本中所占的比重；李智星[8]利用CSA(簡明語義分析)計算每個術(shù)語和每個概念之間的關(guān)系，對詞頻進行類別概念信息加權(quán)，最終構(gòu)建了文本向量；唐明偉等[9]提出了基于領(lǐng)域本體的語義向量空間模型，大大地提高了文本檢索效率；Mikolov等[10]提出了Continuous Bag-of-Words Model和Continuous Skip-gram Model，用于學習詞的分布表示以減小計算復(fù)雜度，使用更多的數(shù)據(jù)集和高維度的詞向量會有更高的準確率，但是同時也耗費更多的時間，分布語義模型[11]被廣泛運用；牛奉高等[12]提出了共現(xiàn)潛在語義向量空間模型(CLSVSM)，該模型充分提取關(guān)鍵詞與文本之間的語義信息，并且對VSM進行改進，引入最大共現(xiàn)強度作為模型權(quán)重，以更好地分析關(guān)鍵詞與文本之間的共現(xiàn)關(guān)系[13]，并進行了大量的文本聚類驗證實驗，實驗驗證了此模型明顯優(yōu)于VSM；文獻[14]在CLSVSM基礎(chǔ)上，基于潛在語義分析(LSA)的思想構(gòu)建了語義核(CLSVSM_K),不僅降低了共現(xiàn)矩陣的維度,而且合并了文本特征詞之間的同義信息。

眾所周知，文本詞頻分析法是文獻計量學[15]領(lǐng)域常見的方法，它是傳統(tǒng)的文本內(nèi)容分析法[16]。而關(guān)鍵詞是與文本內(nèi)容和主題密切相關(guān)的、極具代表性的專業(yè)術(shù)語，且對文本主題的說明作用很大，用關(guān)鍵詞構(gòu)建詞向量表示文本已是很常見[17-19]。以詞頻表達文本信息雖然反映了特征項與文本的顯在關(guān)系，但沒有考慮其潛在語義關(guān)系，且有的關(guān)鍵詞對文本表示效果不太好，甚至屬于冗余信息，從而影響聚類效果。隨著維數(shù)增加，數(shù)據(jù)維數(shù)增多且稠密很容易造成維數(shù)災(zāi)難[20-21]。因此，如何有效地剔除冗余信息，更好地進行特征選擇[22]，從而達到稀疏降噪效果，這些問題有待解決。實際上，關(guān)鍵詞之間是存在共現(xiàn)關(guān)系的，CLSVSM很好地反映了文本的共現(xiàn)潛在語義信息，但是沒有結(jié)合特征項在文本中的詞頻信息。另外，對詞頻賦予IDF權(quán)重最終構(gòu)建TF-IDF模型[23]對于文獻的聚類效果更好，因此，為共現(xiàn)強度賦予詞頻權(quán)重是一個值得討論的問題。

本文基于CLSVSM引入關(guān)鍵詞詞頻信息，構(gòu)建詞頻CLSVSM，再將詞頻作為權(quán)重賦于共現(xiàn)強度，也就是說，當某一個關(guān)鍵詞與其他關(guān)鍵詞存在共現(xiàn)關(guān)系且該關(guān)鍵詞作為內(nèi)容出現(xiàn)在該文本中時，在共現(xiàn)強度基礎(chǔ)上賦予在該文本的詞頻權(quán)重，這樣可以減小文獻詞頻信息冗余特征項，最終構(gòu)建特征加權(quán)的CLSVSM。

1 對比模型介紹

1.1 VSM

首先，以關(guān)鍵詞為特征項，以每篇文獻為空間向量，引入布爾權(quán)重，即某一特征項存在于某篇文獻則賦值為1，否則賦值為0，構(gòu)建VSM為：

di=(ai1,ai2,…,aim)T∈RD,i=1,…,n

(1)

可得篇-詞矩陣A=(aij)n×m。該矩陣的行代表文獻，列代表關(guān)鍵詞，也就是以關(guān)鍵詞是否出現(xiàn)于文獻來表示文獻信息，這也是構(gòu)建CLSVSM的基礎(chǔ)模型。

1.2 S_VSM

當人們想要了解一篇文本的主要內(nèi)容時，除了詞語是否存在于文本中這一信息外，還可以著眼于關(guān)鍵詞在該篇文本中的存在量來分析。以詞頻作為權(quán)重，可以更多地聯(lián)系關(guān)鍵詞與文本的相關(guān)關(guān)系。在此，從所有文本中提取的關(guān)鍵詞形成詞語集合，統(tǒng)計關(guān)鍵詞頻數(shù)ni，其中nij表示第j個關(guān)鍵詞在第i篇文檔中出現(xiàn)的次數(shù)。需要注意的是，不僅僅是某篇文本關(guān)鍵詞的出現(xiàn)頻數(shù)，屬于其他文本的關(guān)鍵詞出現(xiàn)于該文獻中，但不是該篇文本的關(guān)鍵詞也要賦予詞頻權(quán)重，因為其反映了該文本的內(nèi)容信息。將關(guān)鍵詞頻數(shù)進行歸一化：

(2)

進而構(gòu)建文本向量：

di=(ei1,ei2,…,eim)T∈RD,i=1,…,n

(3)

由上述向量集可構(gòu)成文本頻數(shù)向量空間E=(eij)m×n，其中eij表示第j個關(guān)鍵詞在第i篇文檔出現(xiàn)的頻率，緊密地將關(guān)鍵詞與文檔內(nèi)容聯(lián)系在一起。

VSM是基于關(guān)鍵詞在文本中的布爾權(quán)重構(gòu)建的空間向量，即表示一個詞語既是該文本的關(guān)鍵詞同時也存在于該文本中，現(xiàn)在將關(guān)鍵詞在文本中所占布爾權(quán)重用相應(yīng)的詞頻權(quán)重來重新估計，從而構(gòu)建S_VSM：

Γ:diΓ(di)=(fi1,fi2,…,fim)T∈RD

(4)

其中，

(5)

1.3 TF-IDF模型

TF-IDF是一種常見的統(tǒng)計方法，用于衡量關(guān)鍵詞對文本集或者語料庫中一篇文獻的重要程度。TF-IDF實際是TF·IDF,TF就是指該詞在文本中的詞頻(Term Frequency)，而IDF是指逆向文件頻率(Inverse Document Frequency)，也就是在詞頻上賦予IDF，以TF-IDF重新估計詞頻來對文本重新表示的過程。

顯然，對頻數(shù)歸一化，那么eij表示第j個關(guān)鍵詞在第i篇文本中出現(xiàn)的頻率，也就是TF。而IDF則定義為：

(6)

其中，|D|表示文件集中文本總數(shù)，|{j:ti∈dj}|表示包含關(guān)鍵詞ti的文本數(shù)。TF-IDF是一種相對高效常見的加權(quán)技術(shù)。最終在詞頻向量空間的基礎(chǔ)上，為詞頻權(quán)重賦予相應(yīng)的逆文檔頻率構(gòu)建了TF-IDF模型。其向量空間為：

di=(xi1,xi2,…,xim)T∈RD,i=1,…,n

(7)

其中，xij=eij·idfij。

1.4 共現(xiàn)潛在語義向量空間模型(CLSVSM)

本節(jié)基于文獻[6]對CLSVSM構(gòu)建步驟進行簡單介紹。

基于VSM構(gòu)建共現(xiàn)矩陣：

C=AT·A=(cij)m×m

(8)

C中元素表示對應(yīng)任意2個關(guān)鍵詞在同一篇文獻出現(xiàn)的總次數(shù)。而與之對應(yīng)的矩陣為：

(9)

上述矩陣為共現(xiàn)強度矩陣，其元素表示對應(yīng)第i個關(guān)鍵詞和第j個關(guān)鍵詞出現(xiàn)于同一篇文獻的概率。

最后，以Ii1={j|aij=1}為選取指標，將關(guān)鍵詞共現(xiàn)信息引入向量空間模型中，從而構(gòu)建CLSVSM：

φ:diφ(di)=(qi1,qi2,qi3,…,qim)T∈RD

(10)

其中：

(11)

公式(11)中，bjt表示第j篇文檔的第t個關(guān)鍵詞的共現(xiàn)強度。

在該模型中，當aij=0時，表示第j個關(guān)鍵詞不存在于第i篇文檔，此時通過選擇指標篩選出存在于該文檔的其他關(guān)鍵詞，由共現(xiàn)強度矩陣可知第j個關(guān)鍵詞與存在于該文檔關(guān)鍵詞的共現(xiàn)強度關(guān)系，選取其中最大共現(xiàn)強度關(guān)系來抽象表示第j個關(guān)鍵詞與第i篇文檔的關(guān)系。

1.5 Word2vec文本模型

文獻[24]對Word2vec進行了簡單介紹，它使用一層神經(jīng)網(wǎng)絡(luò)將one-hot(獨熱編碼)形式的詞向量映射到分布式形式的詞向量,把詞與詞之間的相似度用作某個模型的特征(分析)將one-hot形式的詞向量轉(zhuǎn)化為Word2vec形式；它將文本特征項轉(zhuǎn)換成向量形式，可以把對文本內(nèi)容的處理簡化為向量空間中的向量運算，計算出向量空間上的相似度，來表示文本語義上的相似度。

通過Word2vec計算出特征詞之間的相似度矩陣：

Matrix=Matrix(zij)

(12)

上述矩陣為余弦相似度矩陣，其元素zij表示對應(yīng)第i個關(guān)鍵詞和第j個關(guān)鍵詞的相關(guān)性，取值范圍為0～1之間，值越大表示2個詞關(guān)聯(lián)度越高。以Ii1={j|aij=1}為選取指標，將zij引入向量空間模型中，從而構(gòu)建Word2vec文本模型：

ν:diν(di)=(ki1,ki2,ki3,…,kim)T∈RD

(13)

其中，

(14)

構(gòu)建模型方法同CLSVSM一致，將詞共現(xiàn)強度用詞相似度重新估計，最終構(gòu)建該文本模型。

2 新模型構(gòu)建

2.1 詞頻CLSVSM

在構(gòu)建該模型時，對于之前已經(jīng)構(gòu)建的CLSVSM，文本與關(guān)鍵詞的關(guān)系通過共現(xiàn)信息表示，為了進一步分析二者的關(guān)系，本文以關(guān)鍵詞在文本中出現(xiàn)的頻率來估計共現(xiàn)權(quán)重，也就是說，當一篇文本中的關(guān)鍵詞與該篇文本存在潛在語義關(guān)系時，則以關(guān)鍵詞在該文本所占的詞頻權(quán)重來重新估計共現(xiàn)權(quán)重，而當二者無潛在語義關(guān)系時，不予以重新估計。通過對CLSVSM進行詞頻補充可得：

τ:diτ(di)=(ωi1,ωi2,ωi3,…,ωim)T∈RD

(15)

其中,

(16)

相比CLSVSM,該模型結(jié)合了兩兩關(guān)鍵詞之間的共現(xiàn)信息以及關(guān)鍵詞出現(xiàn)于文本的相關(guān)信息，使權(quán)重代表了更多的信息，優(yōu)化文本表示。其中，會出現(xiàn)下列幾種情況。當qij=0，ωij=0時，表明第j個關(guān)鍵詞與第i篇文本無共現(xiàn)關(guān)系；當qij≠0，ωij≠0時，表明第j個關(guān)鍵詞既與第i篇文本的關(guān)鍵詞存在共現(xiàn)關(guān)系，而且也存在于該文本中；當qij≠0，ωij=0時，表明第j個關(guān)鍵詞既與第i篇文本的關(guān)鍵詞存在共現(xiàn)關(guān)系，但是不存在于該文本中。該模型旨在共現(xiàn)潛在語義信息基礎(chǔ)上引入詞頻信息，也就是將其當成詞頻引入的基本條件。相比CLSVSM而言，在存在共現(xiàn)潛在語義關(guān)系的基礎(chǔ)上引入詞頻信息，也是剔除冗余共現(xiàn)信息的過程，當引入的詞頻權(quán)重為0時，表示雖然該關(guān)鍵詞體現(xiàn)了文本潛在語義信息但是并不存在于該文本，因此對該文本表示的重要性也下降，將該共現(xiàn)信息予以剔除。而相比詞頻信息表示模型，更是基于共現(xiàn)關(guān)系的去噪過程，因為當關(guān)鍵詞與文本無共現(xiàn)潛在語義關(guān)系時，其詞頻信息對文本的信息表達和重要性就下降，為了防止對文本聚類造成不利影響，將其視為文本表達的冗余信息予以剔除，也就是將能夠顯著代表文本的詞頻信息挖掘出來，最終僅在部分特征項(這些詞頻特征項在共現(xiàn)條件下被選擇)上構(gòu)建模型。這樣既能保持文本聚類性能良好，又不會因為數(shù)據(jù)的冗雜和數(shù)量龐大而造成存儲上的較大負擔，大大降低了計算復(fù)雜度。

2.2 特征加權(quán)的CLSVSM

如果單獨地以關(guān)鍵詞的詞頻信息來估計共現(xiàn)信息，是基于共現(xiàn)關(guān)系來選擇詞頻特征項來表示文本，并沒有深層次地挖掘關(guān)鍵詞之間潛在語義關(guān)系對詞頻的影響。但事實上，共現(xiàn)潛在語義關(guān)系強弱對特征項表達文本信息有著很大的影響，甚至是不可忽略的。因此，為了更好地平衡詞頻信息和共現(xiàn)潛在語義信息的關(guān)系，以及證明二者的影響關(guān)系，基于上述詞頻CLSVSM，本文對已經(jīng)篩選的詞頻特征項進行重新估計，為詞頻權(quán)重賦予相應(yīng)的關(guān)鍵詞共現(xiàn)強度，這樣選擇出來的特征項既表達了文獻的詞頻信息，又表達了文本的共現(xiàn)潛在語義信息，最終構(gòu)建出特征加權(quán)的CLSVSM為：

σ:diσ(di)=(ti1,ti2,ti3,…,tim)T∈Rm

(17)

其中：

(18)

該模型是基于經(jīng)典向量空間模型權(quán)重構(gòu)建思想[9]，它為IDF權(quán)重賦予詞頻而重新估計關(guān)鍵詞在文本中的重要性，會優(yōu)化聚類效果。然而，關(guān)鍵詞共現(xiàn)信息與詞頻信息都對文本表示有較大影響，當一個關(guān)鍵詞詞頻權(quán)重高而共現(xiàn)權(quán)重低時，說明這個關(guān)鍵詞對文本重要程度也不會偏高；而有的詞在某一篇文本中，雖然詞頻權(quán)重低，但是共現(xiàn)權(quán)重高，那么它對于該文本同樣重要；所以，二者忽略其一對文本的表示也有很大影響。因此，對共現(xiàn)權(quán)重賦予詞頻來重新估計該關(guān)鍵詞在文本中的權(quán)重也是合理和可行的，所構(gòu)建的新權(quán)重綜合反映了文本特征項共現(xiàn)信息和詞頻信息，進而可更好地構(gòu)建文本表示模型。

該模型相比CLSVSM、詞頻CLSVSM、TF-IDF模型以及Word2vec文本模型的聚類效果都有提升，在剔除了冗余的詞頻信息和共現(xiàn)潛在語義信息的基礎(chǔ)上，可優(yōu)化文本表示的模型，提升文本聚類性能。不僅如此，還可以發(fā)現(xiàn)，關(guān)鍵詞之間的共現(xiàn)關(guān)系相比IDF而言，對詞頻權(quán)重影響更大，降低了文本分類的不確定性和混亂程度。

3 實驗及結(jié)果分析

3.1 實驗數(shù)據(jù)

本文實驗的中文數(shù)據(jù)采集于CNKI分類中信息科學下的3個學科“出版”“圖書情報與數(shù)字圖書館”“檔案及博物館”，3個學科為3個分類類別。按照文本被引頻次降序排列收集數(shù)據(jù)，總共收集978篇文本。為了更好地驗證模型，使數(shù)據(jù)在各個類別的分布不均衡，其中包含“出版”學科的278篇文本，“圖書情報與數(shù)字圖書館”學科的330篇文本以及“檔案及博物館”學科的370篇文本。先對收集的數(shù)據(jù)進行預(yù)處理，首先進行文本處理，剔除其中沒有關(guān)鍵詞的文本和不能進行分詞處理的文本，最后得到950篇文本，其中“出版”260篇、“圖書情報與數(shù)字圖書館”325篇、“檔案及博物館”365篇，1365個關(guān)鍵詞。再進行關(guān)鍵詞處理，剔除重復(fù)關(guān)鍵詞，無法統(tǒng)計在文本中頻數(shù)的關(guān)鍵詞也予以剔除，最終得到1240個關(guān)鍵詞。因此，最終獲得950篇文本，1240個關(guān)鍵詞。

本文實驗的英文數(shù)據(jù)收集于Web of Science中信息科學與圖書館科學分類下的數(shù)據(jù)，同樣為了實驗的簡單性和可信性，同中文收集方式一致，經(jīng)過簡單的數(shù)據(jù)處理，將無法下載的文本和無關(guān)鍵詞文本予以剔除，最終獲得文本總數(shù)為332篇，其中包含“計算機科學信息系統(tǒng)(computer science information system)”118篇，“計算機科學各學科間的應(yīng)用(computer science interdisciplinary applications)”52篇,“管理(management)”92篇，最終獲得了不重復(fù)文本關(guān)鍵詞1606個。

3.2 實驗評價指標

文本聚類方法很多，本實驗采用較為常見且普遍使用的direct K-means聚類算法對實驗數(shù)據(jù)聚類，而聚類效果的優(yōu)劣則一般通過熵值(Entropy)、純度(Purity)以及F(F-measure)等量化指標表示。

本文所收集的文本類別共為k類，將其記為Lj(1≤j≤k),通過算法對數(shù)據(jù)聚類之后得到了k個劃分簇，記為Zr(1≤r≤k)。設(shè)文獻總共有n篇，劃分簇Zr和文獻類Lj分別包含nj和nr篇文本，其中總共有njr篇相同的文本。評價指標熵值、純度的表達公式分別記為：

(19)

(20)

對于指標F的引入，是基于準確率(Precision)和召回率(Recall)而定義的調(diào)和平均。第i篇文本的準確率和召回率分別定義為：

(21)

(22)

采用每篇文本的準確率和召回率的均值來衡量每一次聚類效果的好壞，分別記為：

(23)

則F值定義為：

(24)

F可以看成是熵值和純度的調(diào)節(jié)指標，避免二者中的其中一項過高或者過低對實驗結(jié)果分析評價的不足。由上述公式可知三者的值域在[0,1]內(nèi)，純度和F值越趨近于1，說明文本的分類效果越好，反之則越差；而熵值越趨近于0，說明文本的分類效果越好，反之則越差。

3.3 實驗過程

本實驗先以收集的文本數(shù)據(jù)集構(gòu)建CLSVSM，然后基于文本關(guān)鍵詞在文本中的存在頻率構(gòu)建關(guān)鍵詞詞頻向量空間，在CLSVSM基礎(chǔ)上引入詞頻信息重新構(gòu)建模型，從而建立基于共現(xiàn)信息選擇重要詞頻特征項的詞頻CLSVSM，最后借鑒經(jīng)典向量空間模型構(gòu)建思想，為關(guān)鍵詞在文本中的詞頻權(quán)重賦予相應(yīng)的共現(xiàn)權(quán)重，最終獲得特征加權(quán)的CLSVSM。本實驗采用K-means聚類方法對新模型進行聚類分析，同時與各種相關(guān)模型比較聚類效果。

基于CLSVSM構(gòu)建的新模型與直接引入關(guān)鍵詞詞頻的模型聚類效果優(yōu)劣比較也是本文所關(guān)心的問題，因此為了進一步驗證關(guān)鍵詞在文本中的詞頻信息對于其共現(xiàn)信息的影響程度和結(jié)果，首先基于VSM構(gòu)建S_VSM(也就是對VSM非0特征項權(quán)重以詞頻權(quán)重重新估計)，也基于CLSVSM引入詞頻信息，同時在文本詞頻向量空間基礎(chǔ)上構(gòu)建了TF-IDF模型，目的是為了比較逆文檔頻率權(quán)重與共現(xiàn)權(quán)重對于詞頻的影響。其實，對于VSM和CLSVSM引入詞頻信息，是對于詞頻特征項的選擇，相關(guān)模型構(gòu)建更能全方位地比較，從而分析它們的差別。為了提高實驗結(jié)果的可說明性，分析各個模型的聚類效果時，分別對每個構(gòu)建的模型進行50次聚類實驗，最后以求得的熵值、純度以及F值這3個指標的平均值對聚類結(jié)果進行評價，與基于共現(xiàn)信息和文本詞頻信息所構(gòu)建的模型進行比較。

本文通過聚類實驗對構(gòu)建的文本表示模型進行驗證，另外，分析了各個模型在不同數(shù)據(jù)集上的聚類效果，驗證了詞頻在文本語義表達的積極作用，加強了模型的可解釋性。實驗流程圖如圖1所示。

圖1 實驗流程圖

3.4 實驗結(jié)果與評價

基于原始數(shù)據(jù)的實驗結(jié)果比較如表1所示。

表1 中文數(shù)據(jù)下特征加權(quán)的CLSVSM與不同模型之間的聚類結(jié)果比較

由表1中各個模型基于3個指標的比較分析可以得出，CLSVSM聚類效果優(yōu)于VSM，而本文所構(gòu)建的詞頻CLSVSM模型聚類效果優(yōu)于CLSVSM，且熵值、純度和F值標準差幾乎為0，也就意味著聚類實驗結(jié)果趨于穩(wěn)定，間接反映了詞頻CLSVSM的穩(wěn)定性高。除此之外，從表1很容易看到，CLSVSM相比Word2vec文本模型的熵值低，表明Word2vec文本模型分類混亂度較高，基于Word2vec文本模型分類文本時，文本向量表示的冗余信息較多，導致基于熵值分類效果降低。而詞頻CLSVSM熵值既低于CLSVSM也明顯低于Word2vec文本模型，尤其是相比Word2vec文本模型熵值低了0.086，說明基于共現(xiàn)信息消除冗余詞頻信息的效果是明顯的，同時詞頻CLSVSM熵值也低于CLSVSM，說明該模型也對共現(xiàn)冗余信息進行剔除，提高了聚類效果。在不改變向量空間維數(shù)的基礎(chǔ)上剔除冗余關(guān)鍵詞在該文本的詞頻和共現(xiàn)信息，大大減少了計算復(fù)雜度和數(shù)據(jù)存儲空間。TF-IDF模型相比詞頻CLSVSM，熵值降低了0.001，純度和F值分別提高了0.002和0.001。因此得出結(jié)論，僅僅引入詞頻信息所構(gòu)建的新模型不能更好地表現(xiàn)文本信息。最終構(gòu)建的特征加權(quán)的CLSVSM相比S_VSM聚類效果大大提高，就熵值而言，相比CLSVSM、90%CLSVSM_K、詞頻CLSVSM、TF-IDF模型、Word2vec文本模型，特征加權(quán)的CLSVSM熵值分別降低了0.026、0.031、0.003、0.002、0.09；在純度方面，分別提高了0.02、0.009、0.008、0.006、0.04；對于F值而言，反映的是綜合聚類效果，F(xiàn)值分別提高了0.024、0.007、0.006、0.005、0.052。因此可以看出，該模型在各個聚類指標上都優(yōu)于其他模型。也就是說，關(guān)鍵詞共現(xiàn)信息和詞頻信息相互作用綜合體現(xiàn)了關(guān)鍵詞在一篇文獻中的重要性，形成新的權(quán)重，最終的模型說明在保證聚類效果的前提下，特征加權(quán)的CLSVSM聚類效果也有較大提升。

表2 英文數(shù)據(jù)下特征加權(quán)的CLSVSM與不同模型之間的聚類結(jié)果比較

在英文文本數(shù)據(jù)中，特征加權(quán)的CLSVSM聚類效果優(yōu)于CLSVSM和Word2vec文本模型，因為在英文數(shù)據(jù)處理時，常常有多個單詞組成的詞組為關(guān)鍵詞，或者關(guān)鍵詞之間有連接符這些分詞軟件難以判別且有效提取詞頻的問題，以至于不能充分提取詞頻信息，因此將詞頻信息賦予共現(xiàn)權(quán)重來重新估計共現(xiàn)權(quán)重效果不是太好，當然英文中一詞多義的情況在此忽略。因此，從表2得出結(jié)論，詞頻CLSVSM熵值仍然比Word2vec文本模型和90%CLSVSM_K低于0.003，比CLSVSM熵值低于0.001，這表明基于潛在語義關(guān)系剔除冗余詞頻信息在英文文獻同樣適用。而特征加權(quán)的CLSVSM相比TF-IDF，在熵值和純度方面相同，而F值提高將近0.012，相比其他模型聚類效果更好。

4 結(jié)束語

本文基于共現(xiàn)潛在語義信息引入了詞頻信息，并將選擇出的詞頻權(quán)重賦予特征項共現(xiàn)權(quán)重，使關(guān)鍵詞特征項更好地表達文本語義信息，基于二者的相互影響關(guān)系更加全面地反映關(guān)鍵詞在文獻中的重要性和代表性。從大數(shù)據(jù)方面講，體現(xiàn)出了對于復(fù)雜冗余度較高數(shù)據(jù)集的稀疏除雜的重要性和必要性，從而縮小大數(shù)據(jù)在文本研究過程中的存儲容量。通過合理的實驗設(shè)計表明，基于關(guān)鍵詞潛在語義信息和詞頻信息的相互作用構(gòu)建的模型能夠提升文本聚類效果。

本文雖然構(gòu)建了特征加權(quán)的CLSVSM，但是其穩(wěn)定性還有待提高，尋求更加穩(wěn)定的文本表示模型成為需要探索的問題，因為模型聚類效果依賴關(guān)鍵詞詞頻信息是否能充分提取，對于英文文獻關(guān)鍵詞詞組詞頻信息不能很好地表達，因此模型在英文數(shù)據(jù)上聚類效果一般。