亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于word2vec的網(wǎng)站主題分類研究?

        2019-03-01 02:52:10程元堃
        關(guān)鍵詞:特征詞余弦語(yǔ)義

        程元堃 蔣 言 程 光

        (1.武漢郵電科學(xué)研究院 武漢 430074)(2.南京烽火軟件科技有限公司 南京 210019)(3.東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210019)

        1 引言

        互聯(lián)網(wǎng)時(shí)代的來(lái)臨伴隨著信息量的急速增長(zhǎng),作為信息的載體,互聯(lián)網(wǎng)上每時(shí)每刻都在產(chǎn)生大量主題各異的文本,且數(shù)據(jù)量巨大。網(wǎng)站主題分類能夠自動(dòng)地將這些龐大的網(wǎng)站文本按照指定的類別進(jìn)行規(guī)范化的梳理,而對(duì)于訪問(wèn)這些海量信息的人來(lái)說(shuō),了解信息的類別可以幫助人們更好地了解自身閱讀的偏好。

        目前,國(guó)內(nèi)外對(duì)文本分類的研究十分關(guān)注,文本處理呈現(xiàn)的方式和分類器算法的選擇一直是文本分類的兩大技術(shù)難點(diǎn)及熱點(diǎn)[1]。當(dāng)前使用最廣泛文本呈現(xiàn)方法幾乎都是基于詞袋法(Bag-of-Word,BOW)。詞袋法將文本看成是若干個(gè)詞的集合,不考慮其中詞的順序和語(yǔ)法、句法、語(yǔ)義等要素,假定文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的,不依賴其他詞是否出現(xiàn)。它將一篇文本表示成為與訓(xùn)練文本單詞維度相同的向量,向量中每個(gè)位置對(duì)應(yīng)的值即是該位置對(duì)應(yīng)的詞在文本中出現(xiàn)的次數(shù),并且伴隨著新單詞的增加,向量的維度也會(huì)相應(yīng)增加。雖然詞袋法在傳統(tǒng)的分類器上分類效果不錯(cuò),比如:回歸模型、KNN、樸素貝葉斯分類、決策樹(shù)、支持向量機(jī)(SVM)等,但它依然不可避免地存在幾個(gè)主要問(wèn)題:1)維度較高,容易造成“維度災(zāi)難”,而且如果單詞在訓(xùn)練集中沒(méi)有出現(xiàn),則該單詞在測(cè)試集中出現(xiàn)時(shí)就無(wú)法成為該文本的特征詞;2)訓(xùn)練生成的文本向量非常稀疏,不利于進(jìn)行一些自然語(yǔ)言處理任務(wù);3)詞袋法僅僅就是將文本看作若干詞的集合,沒(méi)有語(yǔ)義方面的關(guān)系,詞與詞之間看作是相互獨(dú)立的[3~4]。

        隨著近年來(lái)深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)模型的特征詞抽取,即“詞向量”代表文本的方式越來(lái)越受到學(xué)術(shù)界的關(guān)注。Distributed representation最早由Hinton在1986年提出[5]。其基本思想是通過(guò)訓(xùn)練將每個(gè)詞映射成K維實(shí)數(shù)向量(K一般為模型中的超參數(shù)),通過(guò)詞之間的距離(比如cosine相似度、歐氏距離等)來(lái)判斷它們之間的語(yǔ)義相似度,而word2vec使用的就是這種Distributed representation的詞向量表示方式[6~8]。將詞向量應(yīng)用于自然語(yǔ)言處理非常成功,已被廣泛應(yīng)用于詞性分析、找相似詞、關(guān)鍵詞聚類與分類等。

        一個(gè)中心主題突出的網(wǎng)站內(nèi)容由很多語(yǔ)義相似的詞構(gòu)成,基于此,如何將能表示詞語(yǔ)語(yǔ)義的詞向量應(yīng)用在網(wǎng)站主題類別的判斷上是技術(shù)難點(diǎn)。本文提出一種基于word2vec的網(wǎng)站主題分類方法,將詞語(yǔ)之間語(yǔ)義相似度轉(zhuǎn)化為詞向量的空間距離,并在此基礎(chǔ)上根據(jù)文本間的相似距離進(jìn)行分類。

        2 模型總體方案設(shè)計(jì)

        2.1 方案設(shè)計(jì)流程

        整體方案分為訓(xùn)練和測(cè)試、調(diào)參兩個(gè)過(guò)程,具體實(shí)現(xiàn)過(guò)程中考慮到文本本身會(huì)存在語(yǔ)義相交的情況,需要對(duì)文本進(jìn)行邊界點(diǎn)過(guò)濾的數(shù)據(jù)預(yù)處理,本文采用DBSCAN聚類算法進(jìn)行噪音點(diǎn)去噪。詳細(xì)流程如圖1所示。

        圖1 基于word2vec的主題分類過(guò)程

        2.2 方案步驟

        本文提出基于word2vec的網(wǎng)站主題分類的方法實(shí)現(xiàn)步驟如下:

        1)基于維基百科中文語(yǔ)料庫(kù),使用word2vec訓(xùn)練得到詞向量模型model。

        2)定義網(wǎng)站主題分類的八大類別,列舉各主題特征詞樣本,在1)中獲取與特征詞相似度較高的詞作為補(bǔ)充,擴(kuò)充各主題特征詞。

        3)計(jì)算各個(gè)主題特征詞的向量均值,將其作為各主題的中心詞向量,并對(duì)各主題中心詞向量進(jìn)行評(píng)估,保證主題之間余弦相似度不要太高,否則重復(fù)2)對(duì)特征詞進(jìn)行調(diào)整。

        定義1 主題i的關(guān)鍵詞集合為Ci={w1,w2,…,wn},其中wk(1≤k≤n)表示代表i類主題的某個(gè)關(guān)鍵詞,在model中獲取每個(gè)特征詞的詞向量viwk=(,,…,),其中K表示語(yǔ)料庫(kù)中詞映射到空間向量的維度,因此,可以得到每個(gè)主題樣本的詞向量集合:

        得到一個(gè)(n*K)的矩陣:

        計(jì)算向量均值,得到主題i的中心詞向量:

        4)對(duì)于待測(cè)網(wǎng)站文本,分詞后在model中獲取每個(gè)詞的詞向量;采用余弦相似度作為距離評(píng)估方法,使用DBSCAN聚類算法對(duì)分詞結(jié)果進(jìn)行去噪處理,得到質(zhì)量提升的特征詞集合。

        5)針對(duì)每個(gè)主題的中心詞向量,計(jì)算它與特征詞集合中每個(gè)詞的詞向量的余弦相似度,最終結(jié)果取平均,作為該網(wǎng)站與各主題的余弦相似度,最終取余弦相似度最大的類別作為該網(wǎng)站的所屬主題。

        定義2 待測(cè)網(wǎng)站文本內(nèi)容經(jīng)4)去噪處理后表示為T={t1,t2,…,tm},其中tj為文本中某詞,獲取其詞向量vtj={y1,y2,…,yK},計(jì)算詞和主題i中心詞向量VVi的余弦相似度,有

        據(jù)此,得到該待測(cè)網(wǎng)站與主題i的余弦相似度:

        最后,取max(dis(CiT))時(shí)i的值作為待測(cè)網(wǎng)站T最終的所屬分類主題。

        3 關(guān)鍵技術(shù)

        3.1 語(yǔ)料庫(kù)預(yù)處理

        在維基百科數(shù)據(jù)源上下載中文版本維基百科數(shù)據(jù),數(shù)據(jù)格式為XML。利用gensim里的維基百科處理類WikiCorpus,通過(guò)get_texts將維基里的每篇文章轉(zhuǎn)換化一行文本,并且去掉了標(biāo)點(diǎn)符號(hào)等內(nèi)容。處理后會(huì)發(fā)現(xiàn)文本存在中文繁簡(jiǎn)體情況,本文采用GitHub上的開(kāi)源中文繁簡(jiǎn)體轉(zhuǎn)換項(xiàng)目OpenCC,該項(xiàng)目翻譯準(zhǔn)確,使用方便。將文本中的繁體字轉(zhuǎn)化為簡(jiǎn)體字后,最后對(duì)文本進(jìn)行分詞。采用jieba分詞系統(tǒng),結(jié)巴分詞基于Trie樹(shù)結(jié)構(gòu)實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG),采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合,對(duì)于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法[9]。由于中文和英文不同,單獨(dú)的字大多數(shù)并不能獨(dú)立表達(dá)意思,因此分詞過(guò)程中需過(guò)濾篩選出詞長(zhǎng)大于等于2的詞。

        3.2 詞向量模型

        NLP中有兩種常見(jiàn)的詞的表示方法,分別是One-hot Representation和Distributed Representati-on。One-hot Representation把每個(gè)詞表示為一個(gè)很長(zhǎng)的向量,這個(gè)向量的維度就是詞表的大小,其中絕大多數(shù)為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞。但是在Deep Learning中一般用到的詞向量并不是上述的One-hot Representatio-n,而是用后者表示的一種低維實(shí)數(shù)向量,這種方法的優(yōu)勢(shì)在于讓語(yǔ)義上相關(guān)或者相似的詞,在距離上更近了,而且也不會(huì)造成“維度災(zāi)難”。

        Word2vec使用Distributed Representation的詞向量表示,包含CBOW(Continuous bag-of-words,連續(xù)詞袋模型)和Skip-Gram兩種模型。Word2vec通過(guò)訓(xùn)練,把文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度。如圖2所示通過(guò)PCA降維在二維空間中展示詞向量分布及其語(yǔ)義之間的距離關(guān)系。

        本文采用基于Hierarchical Softmax算法的CBOW模型。由圖3可見(jiàn),模型包含三層:輸入層、投影層和輸出層。CBOW模型是在已知當(dāng)前詞wt的上下文wt-2,wt-1,wt+1,wt+2的前提下預(yù)測(cè)當(dāng)前詞wt。

        圖2 二維空間中的詞向量

        圖3 CB OW模型

        已知基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型的目標(biāo)函數(shù)通常取為如下對(duì)數(shù)似然函數(shù):

        其中的關(guān)鍵是條件概率函數(shù) p(w|Context(w))的構(gòu)造。Hierarchical Softmax的基本思想是對(duì)于詞典D中的任意詞w,Huffman樹(shù)中必存在一條從根結(jié)點(diǎn)到詞w對(duì)應(yīng)結(jié)點(diǎn)的路徑Pw(且這條路徑是唯一的)。路徑Pw上存在lw-1個(gè)分支,將每個(gè)分支看做一次二分類,每一次分類就產(chǎn)生一個(gè)概率,將這些概率乘起來(lái),就是所需的 p(w|Context(w))。因此CBOW的優(yōu)化目標(biāo)函數(shù)為

        利用隨機(jī)梯度上升法對(duì)其進(jìn)行優(yōu)化。

        3.3 DBSCAN聚類算法

        網(wǎng)站文本經(jīng)分詞后得到一個(gè)表征該文本的詞列表,每個(gè)詞在model中有對(duì)應(yīng)的詞向量,其中部分詞與詞之間語(yǔ)義上存在偏差較大的情況,此時(shí)以余弦距離作為評(píng)估標(biāo)準(zhǔn),對(duì)詞列表中的每個(gè)詞采用DBSCAN算法對(duì)詞向量進(jìn)行聚類,得到能夠有效表達(dá)與網(wǎng)站文本語(yǔ)義相近的詞向量聚類結(jié)果[10~13],這樣有利于提高網(wǎng)站文本的特征詞質(zhì)量,然后再計(jì)算與各主題中心詞向量的余弦相似度,為得到良好的分類模型性能奠定基礎(chǔ)。

        以體育主題為例,文本“即將于15日前往浙江參加世界女籃聯(lián)賽中國(guó)站比賽的中國(guó)女籃進(jìn)行了公開(kāi)訓(xùn)練課,小區(qū)發(fā)生群毆?!狈衷~聚類前后結(jié)果如表1所示。

        表1 DBSCAN聚類效果

        從表1可看出聚類前后剔除了部分語(yǔ)義和體育主題偏差較大的詞:15、小區(qū)、群毆、浙江,余下詞作為特征詞可以較好地表征文本的主題。

        4 實(shí)驗(yàn)與結(jié)果評(píng)估

        4.1 數(shù)據(jù)準(zhǔn)備

        根據(jù)定義的八大主題通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)獲取搜狗新聞相應(yīng)的文本數(shù)據(jù),經(jīng)過(guò)處理后得到各個(gè)主題的文檔數(shù)據(jù);按照方案設(shè)計(jì)的步驟,列舉各主題特征詞樣本,結(jié)合詞向量model中相似度較高的詞進(jìn)一步擴(kuò)充主題特征詞,相關(guān)數(shù)據(jù)情況如表2和表3所示。

        表2 測(cè)試主題網(wǎng)站

        4.2 實(shí)驗(yàn)結(jié)果

        本文基于word2vec和DBSCAN聚類算法對(duì)測(cè)試網(wǎng)站文本進(jìn)行實(shí)驗(yàn),其中DBSCAN聚類算法中存在半徑Eps和MinPts(在半徑Eps內(nèi)含有點(diǎn)數(shù)目的閾值)兩個(gè)參數(shù)需要根據(jù)分類結(jié)果的正確率進(jìn)行調(diào)參。

        MinPts分別設(shè)置為3和自適應(yīng)值 int(log2(len(-text_list))),len(text_list)是文本分詞后詞列表的長(zhǎng)度。

        繪制MinPts兩種取值情況下分類結(jié)果正確率隨Eps變化趨勢(shì),分別如圖4和圖5所示,由圖4和圖5可知,當(dāng)MinPts自適應(yīng)取值時(shí)的分類效果明顯好于取固定值的時(shí)候,且在Eps=0.88時(shí),分類正確率達(dá)到了90.6%。

        表3 網(wǎng)站主題特征詞

        圖4 MinPts=3

        圖5 MinPts=int(log2(len(text_list)))

        5 結(jié)語(yǔ)

        本文基于word2vec的詞向量模型實(shí)現(xiàn)了網(wǎng)站主題分類,預(yù)先定義了八大主題,通過(guò)詞頻統(tǒng)計(jì)和計(jì)算詞中心向量的方法確定各主題的特征詞及其詞向量,即各主題的中心詞向量;采用DBSCAN聚類算法對(duì)待測(cè)網(wǎng)站進(jìn)行去噪處理,提升了網(wǎng)站文本的數(shù)據(jù)質(zhì)量,最后以余弦距離作為評(píng)估標(biāo)準(zhǔn)確定待測(cè)網(wǎng)站在給定主題中的分類結(jié)果,最終分類效果較好,正確率達(dá)到了90.6%。

        相較傳統(tǒng)的貝葉斯、支持向量機(jī)(SVM)等分類器模型,該方案有效避免了數(shù)據(jù)稀疏以及詞與詞之間缺乏語(yǔ)義關(guān)聯(lián)造成的建模困難等問(wèn)題,同時(shí)擴(kuò)充和篩選的特征詞如何更好地表征網(wǎng)站主題,這值得繼續(xù)研究。

        猜你喜歡
        特征詞余弦語(yǔ)義
        語(yǔ)言與語(yǔ)義
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        兩個(gè)含余弦函數(shù)的三角母不等式及其推論
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        面向文本分類的特征詞選取方法研究與改進(jìn)
        認(rèn)知范疇模糊與語(yǔ)義模糊
        離散余弦小波包變換及語(yǔ)音信號(hào)壓縮感知
        国产人澡人澡澡澡人碰视频| 黄色三级一区二区三区| 日本精品一区二区在线看| 极品少妇在线观看视频| 国产亚洲一区二区精品| 久久天天躁夜夜躁狠狠85麻豆| 开心五月激情综合婷婷色| 国产精品无码不卡一区二区三区| 正在播放一区| 天堂av在线免费播放| 女同欲望一区二区三区| 亚洲一区二区三区内裤视| 六月婷婷久香在线视频| 免费中文熟妇在线影片| 漂亮人妻被强中文字幕乱码| 91九色国产老熟女视频| 丰满人妻一区二区三区视频| 国产成人一区二区三区影院动漫| 亚洲日韩图片专区小说专区| 久久精品国产久精国产69| 丰满少妇被爽的高潮喷水呻吟| 大学生粉嫩无套流白浆| 亚洲精品久久久久高潮| 久久av一区二区三区下| 国产成人精品一区二三区孕妇| 98色婷婷在线| 欧美精品v国产精品v日韩精品| 国产免费一区二区三区在线观看| 日韩人妻无码精品系列专区无遮| 亚洲国产av一区二区三区天堂| 亚洲人成77777在线播放网站 | 欧美最猛性xxxx| 欧美大黑帍在线播放| 亚洲成AV人片在一线观看| 国产免费人成视频在线| 中文字幕日韩一区二区不卡| 处破痛哭a√18成年片免费| 国产极品美女到高潮视频| 91精品国产乱码久久中文| 成人欧美一区二区三区1314| 99精品国产兔费观看久久|