亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于句向量和卷積神經(jīng)網(wǎng)絡的文本聚類研究

2022-08-19 08:23:08賈君霞王會真

計算機工程與應用 2022年16期

賈君霞，王會真，任凱，康文

1.蘭州交通大學電子與信息工程學院，蘭州 730070

2.國電甘肅新能源有限公司，蘭州 730070

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡數(shù)據(jù)和信息資源日益增加。如何從大量文本中快速、高效地獲取相關主題下的有用信息成為網(wǎng)絡輿情的一項重要任務，文本聚類成為實現(xiàn)這一目標的重要方法之一。文本聚類需經(jīng)過文本預處理、文本表示、聚類這三個基本操作。在預處理階段，需要對原始數(shù)據(jù)分詞，去除停用詞。在文本表示階段，對文本進行文本向量化、文本特征提取。最后通過聚類的方法得到有用信息。文本聚類過程重點是通過使用合適的方法進行文本表示，以提取文本的特征，然后通過聚類方法獲取有用的信息。目前，文本表示主要有三種方法：基于向量空間文本表示模型，基于主題文本表示模型，基于神經(jīng)網(wǎng)絡的文本表示模型。

基于向量空間文本表示模型（vector space model，VSM）[1]將文本轉化為空間向量中的一個向量，每個詞對應一個維度，每一維的值就是每個詞在向量中的權重，每一維的值通過所統(tǒng)計的詞頻來計算。從而忽略了上下文詞語之間的語義關系，不會考慮不同文本中相同的詞意義可能相同。

基于主題文本表示模型（latent Dirichlet allocation，LDA）[2]考慮詞與詞之間的語義關系，通過統(tǒng)計學習的方法，把文檔劃分成不同的主題。基于主題文本表示模型進行文本表示時，盡可能用最少的詞語來表達每個主題的含義，而且力求主題的數(shù)目最少。通過主題文本表示模型得到的文本特征詞向量比較稀疏，還會忽略詞與詞之間的排列順序。

基于神經(jīng)網(wǎng)絡的文本表示模型：Bengio等人在2003年提出了一種含有三層神經(jīng)網(wǎng)絡結構的神經(jīng)網(wǎng)絡語言模型（neutral network language model，NNLM）[3]。首先，將預處理后的文本轉化成詞向量，得到的詞向量不僅維度較低而且稠密；接著，選擇一個向量空間，把詞向量映射到這個空間中，詞的語義與向量表示一一對應。Mikolov 等人在2013 年提出Word2vec 模型[4]，利用深度學習的方法對文本進行訓練，生成的詞向量可以較好地表達出詞語的含義，但忽略了上下文詞語之間的順序對文本的影響。Le等人于2014年在Word2vec的基礎上，提出了Doc2vec模型[5]。Doc2vec模型包含文本語序信息，考慮了詞語之間的語序對句子、文本的影響，使文本語義表達得更加準確。

目前，文本聚類主要使用基于神經(jīng)網(wǎng)絡的文本表示模型。孫邵穎等人在2018年針對文本聚類存在特征高維、數(shù)據(jù)稀疏等問題，提出一種基于詞向量和深度學習的文本聚類方法[6]。楊俊峰等人在2019年提出一種基于Word2vec 模型和卷積神經(jīng)網(wǎng)絡（convolutional neural networks，CNN）的文本特征提取方法用于短文本聚類[7]。上述方法中的Word2vec 模型不能直接將文本向量化，如果需要將文本向量化，則需要先進行詞語向量化，導致訓練規(guī)模增大。另一方面，沒有考慮到詞語之間的順序會不會改變句子、文本本身的含義。

針對現(xiàn)有的文本聚類模型存在文本向量稀疏，特征高維，忽略詞語之間的先后順序、語義等問題，本文提出一種基于Doc2vec 模型和CNN 的文本聚類方法。首先使用Doc2vec 模型訓練文本數(shù)據(jù)，將文本向量化，得到句向量或文本向量；然后再將文本向量矩陣作為CNN模型的輸入提取文本的深層語義特征；最后采用k-means算法進行聚類，得到有用信息。采用Doc2vec模型的好處在于得到的每個文本向量都結合了段落向量，更詳細地表達了文本的含義。再結合CNN模型，提取更深層次的文本特征，使文本內(nèi)容表達得更詳細，聚類結果更準確。

1 文本聚類

1.1 Doc2vec模型

Mikolov 等人提出的Word2vec 模型在訓練語言模型時，采用神經(jīng)網(wǎng)絡的思想。使用此模型在訓練文本語料庫的過程中，主要考慮上下文詞語間的語義關系，在目標詞前面一定數(shù)目的詞語影響著目標詞的出現(xiàn)，生成的詞向量與原來的詞一一對應。Word2vec 模型有CBOW（continuous bag of words）和Skip-Gram 兩種結構。Word2vec模型無法考慮詞與詞之間的順序對文本語義的影響以及無法直接將文本向量化，使得訓練樣本數(shù)據(jù)過多。Le 等人基于Word2vec 模型做了改進，提出了Doc2vec模型。兩者的區(qū)別在于：后者在前者的基礎上，增加了段落向量，進而可以結合上下文詞語訓練文本，得到句向量或文本向量[8-9]。

Doc2vec模型有DM（distributed memory）和DBOW（distributed bag of words）兩種模型。其中，DM 模型與Word2vec 模型的CBOW 模型相對應，都是通過上下文預測當前詞的概率。DBOW模型與Word2vec模型的Skip-Gram 模型對應，兩者都是根據(jù)現(xiàn)有的詞語來對上下文的概率做出預測[10]。本文采用Doc2vec 模型中的DM 模型，如圖1 所示。DM 模型和DBOW 模型的區(qū)別在于DM模型根據(jù)給定上下文中的模型來預測目標詞，DBOW模型根據(jù)目標詞來預測上下文概率。

圖1 DM模型Fig.1 DM model

1.2 卷積神經(jīng)網(wǎng)絡模型

卷積神經(jīng)網(wǎng)絡（CNN）是前饋神經(jīng)網(wǎng)絡，具有局部連接、權值共享及池化操作等特點[11]，因此CNN被廣泛應用于計算機視覺、自然語言處理等領域，主要包括輸入層、卷積層、池化層、全連接層和輸出層。圖2展示了卷積神經(jīng)網(wǎng)絡模型圖。

圖2 卷積神經(jīng)網(wǎng)絡模型圖Fig.2 Convolutional neural network model diagram

在卷積神經(jīng)網(wǎng)絡中，輸入層輸入文本數(shù)據(jù)，卷積層進行局部特征提取。卷積層由多個卷積核組成，卷積核由每個元素組成，這些元素與權重系數(shù)、偏差量一一對應[12]。在卷積層進行局部特征提取后，池化層通過對文本特征向量的局部區(qū)域進行下采樣操作，將最有用的特征信息保留下來，剔除特征提取過程中多余數(shù)據(jù)。池化是以相鄰局部文本感知域的統(tǒng)計特性相似為依據(jù)而進行的相鄰文本特征聚合統(tǒng)計的操作，該操作在盡可能保留有用數(shù)據(jù)的基礎上降低了網(wǎng)絡復雜度，減少了訓練時間。

在卷積神經(jīng)網(wǎng)絡中，卷積層和池化層進行特征提取，全連接層對提取的特征進行非線性組合再輸出。經(jīng)過卷積層和池化層的操作之后，輸入的文本向量已被轉化成了高信息量、深層次的文本特征向量。全連接層本身不具有特征提取的能力，而是按照輸出層的具體任務，有目的性地對深層文本特征向量矩陣進行映射，完成最終歸一化的文本特征向量輸出。

2 改進的文本聚類

文本聚類分為三個階段：第一階段是文本預處理；第二階段是文本表示；第三階段是聚類。文本表示是將文本轉換成計算機可以處理的文本信息，主要包括文本向量化和特征提取，處理過程中會出現(xiàn)文本向量稀疏、特征高維等問題，導致提取的文本特征不夠全面，不能表達文本的真正含義，影響聚類結果。因此，本文主要針對文本表示階段做出改進，提出基于Doc2vec和CNN相結合的文本特征提取方法。與其他文本聚類方法相比，本文提出的文本聚類方法不是對文本數(shù)據(jù)直接進行聚類分析得到結果，而是先對文本數(shù)據(jù)進行向量化、文本特征提取和降維，然后再進行文本聚類分析。首先，充分考慮文檔詞排列順序和語義，利用Doc2vec模型中的DM 模型把訓練數(shù)據(jù)集中的文本轉換成句向量；其次，為了解決特征維度高的問題，能夠得到用于聚類的文本特征向量，利用CNN提取文本的深層語義特征，并進行文本特征降維處理；最后，將得到的包含深層語義特征的低維文本特征向量輸入到聚類算法中得到文本聚類結果。本文改進的文本聚類總體框架如圖3所示。

2.1 文本預處理

采用python 中的requests 庫獲取搜狗新聞數(shù)據(jù)，對得到的數(shù)據(jù)進行基本操作，為后面的實驗做準備。數(shù)據(jù)的基本操作包括兩部分：第一步，分詞，將連續(xù)的文本劃分成相互獨立的詞、詞語。第二步，去除停用詞，刪除文本中“的，啊，比如”等無含義的詞語。

2.2 Doc2vec-CNN文本表示

本文提出的基于Doc2vec 模型和CNN 的文本表示方法在進行文本表示時，首先使用Doc2vec 模型中的DM 模型訓練文本數(shù)據(jù)，將文本向量化，得到句向量或文本向量；然后將文本向量矩陣作為CNN模型的輸入，進一步提取文本語義特征。使用Doc2vec-CNN文本表示模型能夠克服傳統(tǒng)文本表示存在的矩陣稀疏性、維度爆炸、難以表達語義等問題。

2.2.1 文本向量化

本文采用Doc2vec 模型中的DM 模型訓練文本，生成句向量或文本向量。首先輸入段落ID和上下文的詞語，并使用one-hot編碼將其轉化為向量，生成矩陣D和W。D中的句向量（paragraph vector）和W中的詞向量（word vector）具有相同的維數(shù)，但表示兩個不同的向量空間。然后將兩者累加或拼接，作為預測Softmax 層的輸入，也就是目標詞語的概率[13]。使用DM模型訓練文本生成的句向量和文本向量與詞向量（Word2vec）相比，不僅考慮了詞語之間的語序，而且直接將文本向量化，精簡了訓練樣本。例如對于一個包含100個詞語的文本，在把詞向量的維度、文本向量的維度同時設為600的情況下，訓練樣本的規(guī)模由原來的100×600簡化為1×600。

2.2.2 文本特征提取

本文采用CNN模型對文本進行特征提取。Doc2vec模型中的DM模型完成對語料庫的訓練后，得到一個由文本向量構成的文本向量矩陣，這個文本向量矩陣通過輸入層輸入到卷積神經(jīng)網(wǎng)絡，然后在卷積層進行局部特征提取。

卷積層中卷積核的大小，會影響文本特征提取，因此本文選取多個不同尺寸的卷積核來提取特征。為了使卷積核每次滑動過的長度剛好是一個句向量，將句向量的維度數(shù)看作是卷積核的寬度，其高度可根據(jù)需求設置成對應的值[14]。計算公式如式（1）：

其中，用ωi、β分別表示卷積核的權重矩陣、偏置，激活函數(shù)用f代表，第i行到i+m-1 行的句向量矩陣用xi,i+m-1表示。

卷積神經(jīng)網(wǎng)絡模型的卷積層只提取文本向量矩陣的局部特征，而文本向量矩陣的深層次特征需要通過池化層進一步提取以及對向量矩陣進行降維。池化層在池化時，根據(jù)不同的需求選擇不同的池化方式。目前主要有最大值池化和均值池化。本文采用最大值池化。首先，對卷積層生成的特征向量進行提取操作，得到一個最大值，用其表示最重要的文本特征，通過最大值池化獲取一個標量。然后，對寬度、高度相同的卷積核進行卷積池化操作，得到對應的標量，構成窗口大小的特征向量。

全連接層將所有的特征向量相連，得到一個完整的最終的文本特征向量，即把所有窗口下的特征向量連接成一個文本特征向量。在經(jīng)過CNN 模型訓練后，文本與文本特征向量一一對應，經(jīng)過輸出層來輸出文本特征向量，最后進行聚類分析。

2.3 聚類

本文采用k-means 聚類算法對Doc2vec-CNN 文本表示的文本特征向量進行聚類分析，獲取有用的信息。相比于其他聚類算法，k-means 聚類算法簡單且易收斂，在處理大規(guī)模的數(shù)據(jù)時，快速且高效。k-means 算法聚類分析的過程如圖4所示。

圖4 k-means聚類流程圖Fig.4 k-means clustering flowchart

如圖4 所示，判斷文本數(shù)據(jù)屬于某個主題（文本相似度）時，采用距離公式作為度量指標，通過計算文本和各主題之間的距離，將文本劃分到對應的主題中。本文采用余弦相似度作為度量指標[15]，其計算公式如式（2）：

其中，φi(φ(i,1),φ(i,2),…,φ(i,n))表示文本向量。

3 實驗結果與分析

3.1 實驗數(shù)據(jù)

本文通過python的requests庫爬取搜狗新聞數(shù)據(jù)作為實驗數(shù)據(jù)。此實驗數(shù)據(jù)共有50 000條文本數(shù)據(jù)，包含多種類別。數(shù)據(jù)預處理階段通過python 的gensim 庫中的jieba分詞將連續(xù)的文本劃分成相互獨立的詞、詞語，接著去除停用詞以及文本中無含義的詞語。最后將其處理后的結果用一個文本文件保存，一個文檔對應一行數(shù)據(jù)。訓練預處理后的數(shù)據(jù)，本文采用Doc2vec-CNN文本表示模型，需要設定各部分的參數(shù)，設定結果如表1所示。

表1 Doc2vec模型參數(shù)Table 1 Doc2vec model parameters

3.2 評價指標

文本聚類結果的好壞，通常選取準確率、召回率和F-measure指標進行評估[16]。準確率用來判斷聚類結果是否有效，在文中用字母A表示。召回率用來判斷聚類的結果是否完整，在文中用字母B表示。F-measure 是綜合評價準確率和召回率的指標。

F、A、B計算公式如下：

式中，Mi,j表示簇j中含有的類別i的數(shù)目，Mi表示這個類別i包含的文本數(shù)，Mj表示簇j中含有的全部文本類別的數(shù)目。

3.3 實驗結果與分析

在使用k-means 聚類算法進行文本特征向量聚類分析時，選取k值不同，得到的結果不同。本文設計了不同k值對聚類結果影響的實驗，選取k值為5，10，15，20。實驗結果如圖5所示，當k=10 時，聚類結果的準確率和F值最好，因此本文選取k=10 作為聚類的主題數(shù)。

圖5 不同k 值的聚類結果Fig.5 Clustering results of different k values

本文設計兩組實驗：一組是關于Word2vec和Doc2vec模型的文本聚類對比實驗，實驗結果如表2 所示；另一組是基于CNN和VSM模型、LDA模型的文本聚類對比實驗，實驗結果如表3所示。這兩組對比實驗數(shù)據(jù)均采用本文通過python爬取的搜狗新聞數(shù)據(jù)，聚類算法采用k-means，對比實驗硬件配置環(huán)境相同。

表2 Word2vec和Doc2vec模型的實驗結果Table 2 Experimental results of Word2vec and Doc2vec models

表3 不同模型的實驗結果對比Table 3 Comparison of experimental results of different models

通過表2 和表3 的實驗結果可知，在進行文本向量化時選取Doc2vec 模型，其準確率和F值指標均高于Word2vec 模型。在進行文本特征提取時，選取CNN 模型，其準確率和F值指標高于VSM、LDA模型。因此，本文將Doc2vec模型與CNN模型相結合用于文本聚類。

為了進一步驗證本文提出的Doc2vec+CNN文本表示模型是否有利于聚類，選取Doc2vec模型、Word2vec+CNN 模型、Doc2vec+LDA 模型進行對比實驗。對比實驗數(shù)據(jù)使用本文爬取的搜狗新聞數(shù)據(jù)，聚類算法采用kmeans聚類算法，選取k=10。實驗結果如表4所示。

表4 不同模型的實驗結果對比Table 4 Comparison of experimental results of different models

如表4 所示，從準確率、召回率、F值來看，本文提出的Doc2vec+CNN模型的聚類結果優(yōu)于其他模型。由于Doc2vec模型沒有忽略詞和詞之間的順序、詞和詞之間的內(nèi)容含義，可以直接對文本進行向量化，因此優(yōu)于Word2vec模型。Doc2vec模型在訓練文本時，會使得文本特征不完整，導致聚類結果的準確率較低。

Doc2vec+LDA 模型考慮了上下文之間的語義、語序關系以及文本的全局信息，但由于文本向量比較稀疏，使其準確率較低，僅為0.723。本文提出的Doc2vec+CNN模型較Doc2vec+LDA模型準確率提高了0.053，F(xiàn)值指標也提高了0.090。

Word2vec+CNN 模型雖然相對于Doc2vec 模型和Doc2vec+LDA 模型聚類結果較好，但是在文本向量化過程中，Word2vec+CNN會忽略文本上下文之間的語序關系，丟失部分上下文的語義信息。相比于Word2vec+CNN模型，本文提出的文本聚類準確率提高了0.043，達到了0.776；F值指標達到了0.780，提高了0.056。

4 結論

本文針對文本向量稀疏性，文本特征維度高，忽略上下文之間的語序、語義等問題，提出了一種基于句向量（Doc2vec）和卷積神經(jīng)網(wǎng)絡（CNN）的文本聚類模型。首先采用Doc2vec 模型中的DM 模型訓練文本數(shù)據(jù)，將文本向量化，組成文本向量矩陣；然后再將文本向量矩陣作為CNN 模型的輸入提取文本的深層語義特征；最后使用k-means 算法進行聚類，得到有用信息。本文提出的Doc2vec+CNN模型在爬取的搜狗新聞數(shù)據(jù)上進行實驗，準確率達到了0.776，F(xiàn)值指標達到了0.780，相比其他文本聚類模型均有所提高。本文提出的文本聚類模型不僅考慮了上下文的語序關系，而且通過卷積神經(jīng)網(wǎng)絡還能提取文本包含的更深層次的文本特征，最后通過聚類算法分析獲得的聚類效果更好。