亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2fea模型的文本建模方法

        2016-02-23 07:53:15韓立新夏建華
        關(guān)鍵詞:分類文本方法

        衛(wèi) 華,韓立新,夏建華

        (河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        基于Word2fea模型的文本建模方法

        衛(wèi) 華,韓立新,夏建華

        (河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        文本聚類在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中發(fā)揮著重要作用,該技術(shù)經(jīng)過(guò)多年的發(fā)展,已產(chǎn)生了一系列的理論成果。傳統(tǒng)向量空間模型的文本建模方法存在維度高、數(shù)據(jù)稀疏和缺乏語(yǔ)義信息等問(wèn)題,然而僅僅引入詞典的文本建模部分解決了語(yǔ)義問(wèn)題卻又受限于人工詞典詞量少、人工耗力大等多種問(wèn)題。文中借鑒主題模型的思想,提出一種以word2vec算法得到詞向量為基礎(chǔ),詞聚類的類別為主題,結(jié)合文本中主題的頻率、分布范圍、位置因子等特征以獲得文本在類別空間上的特征向量,完成文本建模的方法word2fea。將其與兩種文本建模方法VSM和word2vec_base進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明該方法能夠明顯提高文本分類準(zhǔn)確率。

        word2vec;文本建模;文本分類;word2fea

        0 引 言

        隨著互聯(lián)網(wǎng)信息的飛速增長(zhǎng),計(jì)算機(jī)信息處理已然進(jìn)入大數(shù)據(jù)時(shí)代。文本形式是互聯(lián)網(wǎng)信息呈現(xiàn)的主要方式,而對(duì)互聯(lián)網(wǎng)信息的挖掘主要涉及兩方面的問(wèn)題:一是文本信息的挖掘,二是文本信息的組織??梢?jiàn),文本挖掘是進(jìn)行文本信息融合的前提與基礎(chǔ)。

        文本建模是文本挖掘的基石,在文本聚類,分類,信息檢索,自動(dòng)問(wèn)答系統(tǒng),自動(dòng)摘要等場(chǎng)景中均有著重要的地位。其中最流行的是基于向量空間模型(VSM)[1],但是存在中文詞維數(shù)大,稀疏度高,同義詞、多義詞等語(yǔ)義問(wèn)題?;谠~項(xiàng)語(yǔ)義來(lái)考察文本相似度的方法利用外部詞典,如知網(wǎng)、同義詞詞林等[2-3],雖然解決了部分語(yǔ)義問(wèn)題,但又存在詞典詞數(shù)小、詞典構(gòu)建困難等問(wèn)題。在主題模型LSI、PLSI和LDA等[4-6]提出以后,以其可以發(fā)現(xiàn)潛在主題等優(yōu)勢(shì),被廣泛地用于文本主題挖掘[7-9],彌補(bǔ)了前兩種問(wèn)題的不足。然而這三種模型均需要大量訓(xùn)練樣本學(xué)習(xí),訓(xùn)練難度大并且非常耗時(shí),學(xué)習(xí)到的隱含主題有噪聲。基于word2vec模型和tf-idf進(jìn)行文本建模[10],在文本分類中,對(duì)效率和準(zhǔn)確率都有所提升,但是未考慮文本結(jié)構(gòu)特性。

        文中通過(guò)主題模型對(duì)文本進(jìn)行建模,首先通過(guò)word2vec對(duì)詞向量進(jìn)行聚類的主題分布,利用文本的上下文統(tǒng)計(jì)信息,有效降低文本向量維度,同時(shí)解決同義詞、多義詞以及錯(cuò)別字問(wèn)題。其次,針對(duì)文本結(jié)構(gòu)特性,以主題的頻率、分布范圍、位置等因素對(duì)主題進(jìn)行特征提取并進(jìn)行建模,命名為word2fea算法。在復(fù)旦中文語(yǔ)料庫(kù)進(jìn)行測(cè)試,結(jié)果表明在文本分類效果上有所提高。

        1 word2fea算法對(duì)文本建模

        1.1 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

        神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model)由Bengio于2003年提出[11],利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型的思想最早由徐偉提出[12],使用一個(gè)三層神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建語(yǔ)言模型,并且假設(shè)這種語(yǔ)言遵循n-gram語(yǔ)言模型。該模型采用的是詞向量(DistributedRepresentation),即將每個(gè)英文單詞表示成一個(gè)浮點(diǎn)向量,模型見(jiàn)圖1。

        圖1 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型結(jié)構(gòu)示意圖

        目標(biāo)是要學(xué)到的n-gram模型如式(1):

        (1)

        需要滿足的約束如公式(2)、(3):

        (2)

        (3)

        (4)

        最后使用隨機(jī)梯度下降法將模型優(yōu)化。優(yōu)化結(jié)束之后,訓(xùn)練得到詞向量,進(jìn)而得到語(yǔ)言模型。Softmax模型使得概率取值為(0,1),因此不會(huì)出現(xiàn)概率為0的情況,也就是自帶平滑,無(wú)需傳統(tǒng)n-gram模型中那些復(fù)雜的平滑算法。實(shí)驗(yàn)也表明神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型比帶有平滑算法的n-gram模型的算法效果要好。

        word2vec是Google開(kāi)源的用于計(jì)算詞向量的工具,主要有模型CBOW(ContinuousBag-Of-Wordsmodel)和Skip-gram(continuousSkip-grammodel)兩種[13],基本思想來(lái)自于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。word2vec通過(guò)對(duì)大批文本進(jìn)行訓(xùn)練,將文本中的詞轉(zhuǎn)化為N維向量空間中的詞向量,而向量空間上的相似度可以用來(lái)計(jì)算詞或文本等語(yǔ)義上的相似度。因此,word2vec輸出的詞向量可以被用來(lái)做很多與自然語(yǔ)言處理相關(guān)的工作,比如聚類、找同義詞、自動(dòng)翻譯等等。

        1.2 Skip-gram模型

        Skip-gram模型的網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖2,包括三部分:輸入層、投影層、輸出層。

        圖2 Skip-gram模型結(jié)構(gòu)示意圖

        輸入層:只含當(dāng)前樣本的中心詞w的詞向量V(w)。

        投影層:恒等投影,把V(w)投影到V(w)。

        輸出層:對(duì)應(yīng)一棵哈夫曼樹(shù),以語(yǔ)料中的詞作為葉子節(jié)點(diǎn),每個(gè)詞在語(yǔ)料中出現(xiàn)的次數(shù)作為權(quán)值構(gòu)造的哈夫曼樹(shù),在這個(gè)哈夫曼樹(shù)中,葉子節(jié)點(diǎn)數(shù)對(duì)應(yīng)這詞典中的詞數(shù)。

        1.3 word2fea文本建模方法

        word2fea的文本建模方法主要包含4部分:預(yù)處理、主題聚類、文本主題特征計(jì)算、文本向量化。其流程如圖3所示。

        圖3 word2fea文本建模算法流程圖

        首先對(duì)文本庫(kù)進(jìn)行預(yù)處理,主要包括中文分詞、去除停用詞等,分詞系統(tǒng)使用中科院的ICTCLAS[14],并將另存處理后的文本庫(kù)以一篇文檔的形式用于word2vec工具訓(xùn)練詞向量。

        在主題聚類中,采用word2vec中的Skip-gram對(duì)本文進(jìn)行詞向量訓(xùn)練,將訓(xùn)練后的詞向量使用K-means進(jìn)行聚類,聚類數(shù)K即為主題數(shù),K的取值范圍為50~400,間隔為50。經(jīng)過(guò)聚類后的詞袋即代表不同的主題。

        最后對(duì)每篇文檔進(jìn)行主題特征計(jì)算,將文本的主題特征轉(zhuǎn)化為文本向量。使用LibSVM[15]作為分類器,對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,并預(yù)測(cè)分類準(zhǔn)確率。

        1.4 文本主題特征計(jì)算

        對(duì)于主題權(quán)重的定義,唐曉麗等[10]統(tǒng)計(jì)每個(gè)詞所屬的類別,對(duì)同一類別下所有特征詞的tf-idf值求和并進(jìn)行歸一化。文中在tf-idf之外,綜合考慮文本中不同主題出現(xiàn)的頻率、范圍和位置等特征,主要從3個(gè)方面對(duì)主題權(quán)重進(jìn)行定義:

        Dt,d=loct,d+fret,d+scat,d

        (5)

        (1)主題詞語(yǔ)在文本出現(xiàn)的頻率。頻率越大表明該主題對(duì)該文本貢獻(xiàn)越大。定義式(6):

        (6)

        其中,Nt為主題t的頻次;Nd為文檔d的頻次。

        (2)主題詞語(yǔ)出現(xiàn)的范圍。若該主題詞語(yǔ)在某一類中頻繁出現(xiàn),則認(rèn)為它在此類文本中價(jià)值較大,即該主題詞語(yǔ)在此類中出現(xiàn)頻率不僅高且范圍較小。定義式(7):

        (7)

        其中,St為主題t在語(yǔ)料庫(kù)中所有出現(xiàn)的類別數(shù);Sd為語(yǔ)料庫(kù)中總的類別數(shù)。

        (3)主題詞語(yǔ)位置因子。主題詞語(yǔ)在文本出現(xiàn)的位置不同貢獻(xiàn)也有所不同,出現(xiàn)在段首和段尾中的主題詞語(yǔ)要比在內(nèi)容中的貢獻(xiàn)大。定義式(8):

        (8)

        其中,段首的權(quán)重最高為0.5,段尾為0.3,段中為0.2。

        1.5 文本向量化

        將詞向量聚類為主題后,并通過(guò)1.4為每篇文檔進(jìn)行主題特征計(jì)算,將每篇文檔主題分布的特征轉(zhuǎn)化為向量的形式如式(9):

        (9)

        其中,Doci為第i篇文檔的向量表示形式;Dti,i為第i篇文檔中主題i的權(quán)重,其中共有n個(gè)主題。

        2 實(shí)驗(yàn)設(shè)計(jì)與分析

        2.1 數(shù)據(jù)集與度量標(biāo)準(zhǔn)

        文中在中文語(yǔ)料上進(jìn)行了實(shí)驗(yàn),采用復(fù)旦中文語(yǔ)料庫(kù),挑選其中10個(gè)類別,分別是“環(huán)境”“交通”“計(jì)算機(jī)”“教育”“經(jīng)濟(jì)”“軍事”“體育”“醫(yī)藥”“藝術(shù)”“政治”,每個(gè)類別挑選200篇文本作為語(yǔ)料集,每個(gè)類均按照4:1的比例劃分,80%作為訓(xùn)練集,20%作為測(cè)試集。實(shí)驗(yàn)采用SVM分類器對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,用測(cè)試集驗(yàn)證最終分類結(jié)果,實(shí)驗(yàn)采用分類準(zhǔn)確率P作為最終的評(píng)測(cè)指標(biāo)。

        2.2 實(shí)驗(yàn)結(jié)果分析

        從圖4中可知,當(dāng)主題數(shù)選擇300時(shí),準(zhǔn)確率達(dá)到最高值。選擇最優(yōu)主題數(shù)之后就得到基于word2fea模型進(jìn)行文本建模的分類結(jié)果。從圖5中可以看出,文中方法比基于VSM和word2vec_base的分類準(zhǔn)確率有明顯提升。

        圖4 不同主題數(shù)K下的分類結(jié)果

        圖5 VSM,word2vec_base與word2fea對(duì)比結(jié)果圖

        3 結(jié)束語(yǔ)

        文中將word2vec模型應(yīng)用到文本建模中。利用了word2vec模型的詞向量高效性,加入了文本的深層語(yǔ)義知識(shí),從而使分類更加精準(zhǔn)。利用隱主題映射文本主題空間,在文本主題特征計(jì)算中,綜合考慮文本主題頻次、范圍以及位置因子,提高了分類效果。實(shí)驗(yàn)結(jié)果表明,文中所采用的方法是一種能夠有效提高文本分類準(zhǔn)確率的方法。

        由于word2vec非常容易擴(kuò)展,后續(xù)研究將在word2vec模型的基礎(chǔ)上繼續(xù)探討文本建模方法以及基于其上的文本挖掘,如文本分類、相似項(xiàng)挖掘等。

        [1]SaltonG,OthersA.Avectorspacemodelforautomaticinde-xing[J].Communications of the ACM,1975,18(10):613-620.

        [2] 李 峰,李 芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算-基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.

        [3] 梅家駒,竺一鳴,高蘊(yùn)琦,等.編纂漢語(yǔ)類義詞典的嘗試-《同義詞詞林》簡(jiǎn)介[J].辭書(shū)研究,1983(1):133-138.

        [4] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.

        [5] Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval.[s.l.]:ACM,1999:50-57.

        [6] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

        [7] 張志飛,苗奪謙,高 燦.基于LDA主題模型的短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1587-1590.

        [8] 王振振,何 明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013,40(12):229-232.

        [9] 孫昌年.基于主題模型的文本相似度計(jì)算研究與實(shí)現(xiàn)[D].合肥:安徽大學(xué),2012.

        [10] 唐曉麗,白 宇,張桂平,等.一種面向聚類的文本建模方法[J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2014,37(4):595-600.

        [11] Bengio Y,Schwenk H,Senécal Jean-Sébastien,et al.Neural probabilistic language models[J].Studies in Fuzziness & Soft Computing,2006,16(3):137-186.

        [12] Xu W,Rudnicky A.Can artificial neural network learn language models?[C]//Proc of international conference on statistical language processing.Beijing,China:[s.n.],2000.

        [13] Mikolov T.Statistical language models based on neural networks[D].Brno:Brno University of Technology,2012.

        [14] 劉 群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語(yǔ)詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421-1429.

        [15] Chang C C,Lin Chih-Jen.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems & Technology,2001,2(3):389-396.

        Text Modeling Method Based on Word2fea Model

        WEI Hua,HAN Li-xin,XIA Jian-hua

        (College of Computer and Information,Hohai University,Nanjing 211100,China)

        Text classification plays an important role in data mining and machine learning,which has produced a series of theory after years of development.The traditional text modeling method of vector space model has the problems of high dimension,sparse data,and the lack of semantic.However,the text modeling introduced the artificial dictionary is constrained by quantity of words,artificial power consumption and other problems.By referencing the idea of topic model,a text modeling method word2fea was presented which based on the model of word2vec for the topic clusters with the word vectors,meanwhile combined with the frequency,distribution and location of the topic on documents to obtain the feature of the text.Compared with two text modeling methods,VSM and word2vec_base,the experimental results show that this method can significantly improve the accuracy of text classification.

        word2vec;text modeling;text classification;word2fea

        2015-04-24

        2015-07-28

        時(shí)間:2016-01-04

        中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(2014B33014)

        衛(wèi) 華(1991-),男,碩士研究生,研究方向?yàn)樾畔z索、數(shù)據(jù)挖掘;韓立新,教授,博士生導(dǎo)師,研究方向?yàn)樾畔z索、模式識(shí)別、數(shù)據(jù)挖掘。

        http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1505.040.html

        TP301

        A

        1673-629X(2016)02-0165-03

        10.3969/j.issn.1673-629X.2016.02.037

        猜你喜歡
        分類文本方法
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        丰满少妇弄高潮了www| 亚洲中文字幕av一区二区三区人| 精品人妻av区二区三区| 亚洲免费观看视频| 97人人模人人爽人人喊电影| 日本不卡视频网站| 人妻在线中文字幕视频| 国内嫩模自拍诱惑免费视频| 十八禁在线观看视频播放免费 | 国产亚洲av看码精品永久| 久久9精品区-无套内射无码| 99re在线视频播放| 亚洲综合一区二区三区蜜臀av| 日韩中文字幕一区二区二区| 精品国产拍国产天天人| 女同亚洲女同精品| 国内自拍视频在线观看| 国产一区二区av免费在线观看| 国产xxxxx在线观看| 精品视频入口| 亚洲国产黄色在线观看| 久久精品国产成人午夜福利| 青青草原精品99久久精品66| 高清国产美女一级a毛片在线| 日本精品少妇一区二区| 亚洲av综合色区| 99久久久无码国产aaa精品| 亚洲免费观看一区二区三区| 日韩在线精品视频一区| 国产精品毛片一区二区| 男人j进女人p免费视频| 午夜视频手机在线免费观看| 久久精品国产亚洲av无码偷窥| 无遮挡边吃摸边吃奶边做 | 日韩精品一区二区三区视频| 国产精品婷婷久久爽一下| 亚洲国产精品久久亚洲精品| 色婷婷丁香综合激情| 在教室轮流澡到高潮h免费视| 日本入室强伦姧bd在线观看| 欧美视频九九一区二区|