亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于word2vec的網(wǎng)站主題分類研究?

2019-03-01 02:52:10程元堃

計(jì)算機(jī)與數(shù)字工程 2019年1期

程元堃蔣言程光

（1.武漢郵電科學(xué)研究院武漢 430074）（2.南京烽火軟件科技有限公司南京 210019）（3.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院南京 210019）

1 引言

互聯(lián)網(wǎng)時(shí)代的來(lái)臨伴隨著信息量的急速增長(zhǎng)，作為信息的載體，互聯(lián)網(wǎng)上每時(shí)每刻都在產(chǎn)生大量主題各異的文本，且數(shù)據(jù)量巨大。網(wǎng)站主題分類能夠自動(dòng)地將這些龐大的網(wǎng)站文本按照指定的類別進(jìn)行規(guī)范化的梳理，而對(duì)于訪問(wèn)這些海量信息的人來(lái)說(shuō)，了解信息的類別可以幫助人們更好地了解自身閱讀的偏好。

目前，國(guó)內(nèi)外對(duì)文本分類的研究十分關(guān)注，文本處理呈現(xiàn)的方式和分類器算法的選擇一直是文本分類的兩大技術(shù)難點(diǎn)及熱點(diǎn)［1］。當(dāng)前使用最廣泛文本呈現(xiàn)方法幾乎都是基于詞袋法（Bag-of-Word，BOW）。詞袋法將文本看成是若干個(gè)詞的集合，不考慮其中詞的順序和語(yǔ)法、句法、語(yǔ)義等要素，假定文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的，不依賴其他詞是否出現(xiàn)。它將一篇文本表示成為與訓(xùn)練文本單詞維度相同的向量，向量中每個(gè)位置對(duì)應(yīng)的值即是該位置對(duì)應(yīng)的詞在文本中出現(xiàn)的次數(shù)，并且伴隨著新單詞的增加，向量的維度也會(huì)相應(yīng)增加。雖然詞袋法在傳統(tǒng)的分類器上分類效果不錯(cuò)，比如：回歸模型、KNN、樸素貝葉斯分類、決策樹(shù)、支持向量機(jī)（SVM）等，但它依然不可避免地存在幾個(gè)主要問(wèn)題：1）維度較高，容易造成“維度災(zāi)難”，而且如果單詞在訓(xùn)練集中沒(méi)有出現(xiàn)，則該單詞在測(cè)試集中出現(xiàn)時(shí)就無(wú)法成為該文本的特征詞；2）訓(xùn)練生成的文本向量非常稀疏，不利于進(jìn)行一些自然語(yǔ)言處理任務(wù)；3）詞袋法僅僅就是將文本看作若干詞的集合，沒(méi)有語(yǔ)義方面的關(guān)系，詞與詞之間看作是相互獨(dú)立的［3～4］。

隨著近年來(lái)深度學(xué)習(xí)的發(fā)展，基于神經(jīng)網(wǎng)絡(luò)模型的特征詞抽取，即“詞向量”代表文本的方式越來(lái)越受到學(xué)術(shù)界的關(guān)注。Distributed representation最早由Hinton在1986年提出［5］。其基本思想是通過(guò)訓(xùn)練將每個(gè)詞映射成K維實(shí)數(shù)向量（K一般為模型中的超參數(shù)），通過(guò)詞之間的距離（比如cosine相似度、歐氏距離等）來(lái)判斷它們之間的語(yǔ)義相似度，而word2vec使用的就是這種Distributed representation的詞向量表示方式［6～8］。將詞向量應(yīng)用于自然語(yǔ)言處理非常成功，已被廣泛應(yīng)用于詞性分析、找相似詞、關(guān)鍵詞聚類與分類等。

一個(gè)中心主題突出的網(wǎng)站內(nèi)容由很多語(yǔ)義相似的詞構(gòu)成，基于此，如何將能表示詞語(yǔ)語(yǔ)義的詞向量應(yīng)用在網(wǎng)站主題類別的判斷上是技術(shù)難點(diǎn)。本文提出一種基于word2vec的網(wǎng)站主題分類方法，將詞語(yǔ)之間語(yǔ)義相似度轉(zhuǎn)化為詞向量的空間距離，并在此基礎(chǔ)上根據(jù)文本間的相似距離進(jìn)行分類。

2 模型總體方案設(shè)計(jì)

2.1 方案設(shè)計(jì)流程

整體方案分為訓(xùn)練和測(cè)試、調(diào)參兩個(gè)過(guò)程，具體實(shí)現(xiàn)過(guò)程中考慮到文本本身會(huì)存在語(yǔ)義相交的情況，需要對(duì)文本進(jìn)行邊界點(diǎn)過(guò)濾的數(shù)據(jù)預(yù)處理，本文采用DBSCAN聚類算法進(jìn)行噪音點(diǎn)去噪。詳細(xì)流程如圖1所示。

圖1 基于word2vec的主題分類過(guò)程

2.2 方案步驟

本文提出基于word2vec的網(wǎng)站主題分類的方法實(shí)現(xiàn)步驟如下：

1）基于維基百科中文語(yǔ)料庫(kù)，使用word2vec訓(xùn)練得到詞向量模型model。

2）定義網(wǎng)站主題分類的八大類別，列舉各主題特征詞樣本，在1）中獲取與特征詞相似度較高的詞作為補(bǔ)充，擴(kuò)充各主題特征詞。

3）計(jì)算各個(gè)主題特征詞的向量均值，將其作為各主題的中心詞向量，并對(duì)各主題中心詞向量進(jìn)行評(píng)估，保證主題之間余弦相似度不要太高，否則重復(fù)2）對(duì)特征詞進(jìn)行調(diào)整。

定義1 主題i的關(guān)鍵詞集合為Ci={w1,w2,…,wn}，其中wk(1≤k≤n)表示代表i類主題的某個(gè)關(guān)鍵詞，在model中獲取每個(gè)特征詞的詞向量viwk=(,,…,)，其中K表示語(yǔ)料庫(kù)中詞映射到空間向量的維度，因此，可以得到每個(gè)主題樣本的詞向量集合：

得到一個(gè)（n*K）的矩陣：

計(jì)算向量均值，得到主題i的中心詞向量：

4）對(duì)于待測(cè)網(wǎng)站文本，分詞后在model中獲取每個(gè)詞的詞向量；采用余弦相似度作為距離評(píng)估方法，使用DBSCAN聚類算法對(duì)分詞結(jié)果進(jìn)行去噪處理，得到質(zhì)量提升的特征詞集合。

5）針對(duì)每個(gè)主題的中心詞向量，計(jì)算它與特征詞集合中每個(gè)詞的詞向量的余弦相似度，最終結(jié)果取平均，作為該網(wǎng)站與各主題的余弦相似度，最終取余弦相似度最大的類別作為該網(wǎng)站的所屬主題。

定義2 待測(cè)網(wǎng)站文本內(nèi)容經(jīng)4）去噪處理后表示為T={t1,t2,…,tm}，其中tj為文本中某詞，獲取其詞向量vtj={y1,y2,…,yK}，計(jì)算詞和主題i中心詞向量VVi的余弦相似度，有

據(jù)此，得到該待測(cè)網(wǎng)站與主題i的余弦相似度：

最后，取max(dis(CiT))時(shí)i的值作為待測(cè)網(wǎng)站T最終的所屬分類主題。

3 關(guān)鍵技術(shù)

3.1 語(yǔ)料庫(kù)預(yù)處理

在維基百科數(shù)據(jù)源上下載中文版本維基百科數(shù)據(jù)，數(shù)據(jù)格式為XML。利用gensim里的維基百科處理類WikiCorpus，通過(guò)get_texts將維基里的每篇文章轉(zhuǎn)換化一行文本，并且去掉了標(biāo)點(diǎn)符號(hào)等內(nèi)容。處理后會(huì)發(fā)現(xiàn)文本存在中文繁簡(jiǎn)體情況，本文采用GitHub上的開(kāi)源中文繁簡(jiǎn)體轉(zhuǎn)換項(xiàng)目OpenCC，該項(xiàng)目翻譯準(zhǔn)確，使用方便。將文本中的繁體字轉(zhuǎn)化為簡(jiǎn)體字后，最后對(duì)文本進(jìn)行分詞。采用jieba分詞系統(tǒng)，結(jié)巴分詞基于Trie樹(shù)結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖（DAG），采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑，找出基于詞頻的最大切分組合，對(duì)于未登錄詞，采用了基于漢字成詞能力的HMM模型，使用了Viterbi算法［9］。由于中文和英文不同，單獨(dú)的字大多數(shù)并不能獨(dú)立表達(dá)意思，因此分詞過(guò)程中需過(guò)濾篩選出詞長(zhǎng)大于等于2的詞。

3.2 詞向量模型

NLP中有兩種常見(jiàn)的詞的表示方法，分別是One-hot Representation和Distributed Representati-on。One-hot Representation把每個(gè)詞表示為一個(gè)很長(zhǎng)的向量，這個(gè)向量的維度就是詞表的大小，其中絕大多數(shù)為0，只有一個(gè)維度的值為1，這個(gè)維度就代表了當(dāng)前的詞。但是在Deep Learning中一般用到的詞向量并不是上述的One-hot Representatio-n，而是用后者表示的一種低維實(shí)數(shù)向量，這種方法的優(yōu)勢(shì)在于讓語(yǔ)義上相關(guān)或者相似的詞，在距離上更近了，而且也不會(huì)造成“維度災(zāi)難”。

Word2vec使用Distributed Representation的詞向量表示，包含CBOW（Continuous bag-of-words，連續(xù)詞袋模型）和Skip-Gram兩種模型。Word2vec通過(guò)訓(xùn)練，把文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算，而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。如圖2所示通過(guò)PCA降維在二維空間中展示詞向量分布及其語(yǔ)義之間的距離關(guān)系。

本文采用基于Hierarchical Softmax算法的CBOW模型。由圖3可見(jiàn)，模型包含三層：輸入層、投影層和輸出層。CBOW模型是在已知當(dāng)前詞wt的上下文wt-2,wt-1,wt+1,wt+2的前提下預(yù)測(cè)當(dāng)前詞wt。

圖2 二維空間中的詞向量

圖3 CB OW模型

已知基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的目標(biāo)函數(shù)通常取為如下對(duì)數(shù)似然函數(shù)：

其中的關(guān)鍵是條件概率函數(shù) p(w|Context(w))的構(gòu)造。Hierarchical Softmax的基本思想是對(duì)于詞典D中的任意詞w，Huffman樹(shù)中必存在一條從根結(jié)點(diǎn)到詞w對(duì)應(yīng)結(jié)點(diǎn)的路徑Pw（且這條路徑是唯一的）。路徑Pw上存在lw-1個(gè)分支，將每個(gè)分支看做一次二分類，每一次分類就產(chǎn)生一個(gè)概率，將這些概率乘起來(lái)，就是所需的 p(w|Context(w))。因此CBOW的優(yōu)化目標(biāo)函數(shù)為

利用隨機(jī)梯度上升法對(duì)其進(jìn)行優(yōu)化。

3.3 DBSCAN聚類算法

網(wǎng)站文本經(jīng)分詞后得到一個(gè)表征該文本的詞列表，每個(gè)詞在model中有對(duì)應(yīng)的詞向量，其中部分詞與詞之間語(yǔ)義上存在偏差較大的情況，此時(shí)以余弦距離作為評(píng)估標(biāo)準(zhǔn)，對(duì)詞列表中的每個(gè)詞采用DBSCAN算法對(duì)詞向量進(jìn)行聚類，得到能夠有效表達(dá)與網(wǎng)站文本語(yǔ)義相近的詞向量聚類結(jié)果［10～13］，這樣有利于提高網(wǎng)站文本的特征詞質(zhì)量，然后再計(jì)算與各主題中心詞向量的余弦相似度，為得到良好的分類模型性能奠定基礎(chǔ)。

以體育主題為例，文本“即將于15日前往浙江參加世界女籃聯(lián)賽中國(guó)站比賽的中國(guó)女籃進(jìn)行了公開(kāi)訓(xùn)練課，小區(qū)發(fā)生群毆?！狈衷~聚類前后結(jié)果如表1所示。

表1 DBSCAN聚類效果

從表1可看出聚類前后剔除了部分語(yǔ)義和體育主題偏差較大的詞：15、小區(qū)、群毆、浙江，余下詞作為特征詞可以較好地表征文本的主題。

4 實(shí)驗(yàn)與結(jié)果評(píng)估

4.1 數(shù)據(jù)準(zhǔn)備

根據(jù)定義的八大主題通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)獲取搜狗新聞相應(yīng)的文本數(shù)據(jù)，經(jīng)過(guò)處理后得到各個(gè)主題的文檔數(shù)據(jù)；按照方案設(shè)計(jì)的步驟，列舉各主題特征詞樣本，結(jié)合詞向量model中相似度較高的詞進(jìn)一步擴(kuò)充主題特征詞，相關(guān)數(shù)據(jù)情況如表2和表3所示。

表2 測(cè)試主題網(wǎng)站

4.2 實(shí)驗(yàn)結(jié)果

本文基于word2vec和DBSCAN聚類算法對(duì)測(cè)試網(wǎng)站文本進(jìn)行實(shí)驗(yàn)，其中DBSCAN聚類算法中存在半徑Eps和MinPts（在半徑Eps內(nèi)含有點(diǎn)數(shù)目的閾值）兩個(gè)參數(shù)需要根據(jù)分類結(jié)果的正確率進(jìn)行調(diào)參。

MinPts分別設(shè)置為3和自適應(yīng)值 int（log2（len（-text_list））），len（text_list）是文本分詞后詞列表的長(zhǎng)度。

繪制MinPts兩種取值情況下分類結(jié)果正確率隨Eps變化趨勢(shì)，分別如圖4和圖5所示，由圖4和圖5可知，當(dāng)MinPts自適應(yīng)取值時(shí)的分類效果明顯好于取固定值的時(shí)候，且在Eps=0.88時(shí)，分類正確率達(dá)到了90.6%。

表3 網(wǎng)站主題特征詞

圖4 MinPts=3

圖5 MinPts=int（log2（len（text_list）））

5 結(jié)語(yǔ)

本文基于word2vec的詞向量模型實(shí)現(xiàn)了網(wǎng)站主題分類，預(yù)先定義了八大主題，通過(guò)詞頻統(tǒng)計(jì)和計(jì)算詞中心向量的方法確定各主題的特征詞及其詞向量，即各主題的中心詞向量；采用DBSCAN聚類算法對(duì)待測(cè)網(wǎng)站進(jìn)行去噪處理，提升了網(wǎng)站文本的數(shù)據(jù)質(zhì)量，最后以余弦距離作為評(píng)估標(biāo)準(zhǔn)確定待測(cè)網(wǎng)站在給定主題中的分類結(jié)果，最終分類效果較好，正確率達(dá)到了90.6%。

相較傳統(tǒng)的貝葉斯、支持向量機(jī)（SVM）等分類器模型，該方案有效避免了數(shù)據(jù)稀疏以及詞與詞之間缺乏語(yǔ)義關(guān)聯(lián)造成的建模困難等問(wèn)題，同時(shí)擴(kuò)充和篩選的特征詞如何更好地表征網(wǎng)站主題，這值得繼續(xù)研究。