亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于屬性主題分割的評(píng)論短文本詞向量構(gòu)建優(yōu)化算法

        2016-05-04 02:53:50李志宇周小平
        中文信息學(xué)報(bào) 2016年5期
        關(guān)鍵詞:情感模型

        李志宇,梁 循,周小平

        (中國(guó)人民大學(xué) 信息學(xué)院,北京 100872)

        基于屬性主題分割的評(píng)論短文本詞向量構(gòu)建優(yōu)化算法

        李志宇,梁 循,周小平

        (中國(guó)人民大學(xué) 信息學(xué)院,北京 100872)

        從詞向量的訓(xùn)練模式入手,研究了基于語(yǔ)料語(yǔ)句分割(BWP)算法,分隔符分割(BSP)算法以及屬性主題分割(BTP)算法三種分割情況下的詞向量訓(xùn)練結(jié)果的優(yōu)劣。研究發(fā)現(xiàn),由于評(píng)論短文本的自身特征,傳統(tǒng)的無(wú)分割(NP)訓(xùn)練方法,在詞向量訓(xùn)練結(jié)果的準(zhǔn)確率和相似度等方面與BWP算法、BSP算法以及BTP算法具有明顯的差異。通過(guò)對(duì)0.7億條評(píng)論短文本進(jìn)行詞向量構(gòu)建實(shí)驗(yàn)對(duì)比后發(fā)現(xiàn),該文所提出的BTP算法在同義詞(屬性詞)測(cè)試任務(wù)上獲得的結(jié)果是最佳的,因此BTP算法對(duì)于優(yōu)化評(píng)論短文本詞向量的訓(xùn)練,評(píng)論短文本屬性詞的抽取以及情感傾向分析等在內(nèi)的,以詞向量為基礎(chǔ)的應(yīng)用研究工作具有較為重要的實(shí)踐意義。同時(shí),該文在超大規(guī)模評(píng)論語(yǔ)料集上構(gòu)建的詞向量(開(kāi)源)對(duì)于其他商品評(píng)論文本分析的應(yīng)用任務(wù)具有較好可用性。

        在線評(píng)論;短文本;詞向量;相似度計(jì)算

        1 引言

        隨著社會(huì)化商務(wù)的發(fā)展,在線評(píng)論已經(jīng)成為了消費(fèi)者進(jìn)行網(wǎng)絡(luò)購(gòu)物的重要參考決策因素之一[1-2],同時(shí)也成為了包括計(jì)算機(jī)科學(xué)、管理科學(xué)以及情報(bào)分析等領(lǐng)域研究者在內(nèi)的重要研究對(duì)象之一。通常而言,在線評(píng)論包括微博評(píng)論、商品評(píng)論、點(diǎn)評(píng)評(píng)論等評(píng)論類(lèi)型,這里我們統(tǒng)稱為“評(píng)論短文本”。以往關(guān)于評(píng)論短文本的應(yīng)用研究主要集中在包括評(píng)論效用分析[3]、虛假評(píng)論識(shí)別[4-5]以及評(píng)論觀點(diǎn)歸納[6]等方面。然而,這些應(yīng)用研究往往都基于一個(gè)重要的語(yǔ)言模型基礎(chǔ),即統(tǒng)計(jì)語(yǔ)言模型。

        相對(duì)于常規(guī)語(yǔ)料而言,如書(shū)籍、新聞、論文、維基百科等語(yǔ)料,評(píng)論短文本的語(yǔ)言學(xué)規(guī)范非常弱,省略、轉(zhuǎn)義、縮寫(xiě)等現(xiàn)象非常普遍。如果利用傳統(tǒng)的訓(xùn)練或者學(xué)習(xí)方法對(duì)評(píng)論短文本進(jìn)行處理,效果并不理想。但從某種角度上來(lái)講,評(píng)論短文本的在文法上的不規(guī)范,恰恰是另外一種形式的規(guī)范,即評(píng)論短文本自身特征的“規(guī)范”,由于評(píng)論短文本應(yīng)用的普遍性,因此沒(méi)有必要非要將評(píng)論短文本規(guī)約到常規(guī)的語(yǔ)料形式上進(jìn)行處理,反之應(yīng)該在最大限度上保留評(píng)論短文本的語(yǔ)料特征。

        對(duì)于評(píng)論短文本的相關(guān)建模主要是從兩個(gè)角度出發(fā): 第一,利用TF-IDF,點(diǎn)互信息、信息增益等,對(duì)評(píng)論短文本進(jìn)行建模,從而分析評(píng)論之間的相似度或評(píng)論的情感傾向等;第二,通過(guò)構(gòu)建“詞向量(詞袋法)”,將評(píng)論文本詞語(yǔ)數(shù)值化。但這類(lèi)建模方式往往需要依賴于情感詞典、屬性詞典等人工構(gòu)造的相關(guān)詞典,具有較強(qiáng)的領(lǐng)域性,同時(shí)可擴(kuò)展性較差。

        隨著自然處理技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)逐步被引入到相關(guān)的文本處理技術(shù)中。2013年,谷歌研究團(tuán)隊(duì)的開(kāi)源的Word2vec詞向量構(gòu)建工具[7],引起了詞向量應(yīng)用研究熱潮,被稱為2013年最為重要的自然語(yǔ)言處理工具之一。隨后,Word2vec作為詞向量的轉(zhuǎn)換工具被用于包括短文本情感分析[8-10]以及短文本相似度計(jì)算[1, 11]等相關(guān)自然語(yǔ)言處理任務(wù)。雖然Word2vec的應(yīng)用范圍廣泛,但是研究者用其建模時(shí),往往直接按照Word2vec的模型配置: 將每一條短文本語(yǔ)料(可能包含若干短句或長(zhǎng)句)作為一個(gè)整體行進(jìn)行輸入。通常,在Word2vec的參數(shù)形式里面只考慮到了輸入向量的維度、訓(xùn)練方法以及語(yǔ)料大小對(duì)模型造成的影響,卻并沒(méi)有考慮語(yǔ)料的輸入形式對(duì)Word2vec模型訓(xùn)練結(jié)果造成的影響。我們研究發(fā)現(xiàn),不同的評(píng)論短文本輸入形式會(huì)對(duì)Word2vec的詞向量訓(xùn)練結(jié)果造成明顯的差異,因此有必要在Word2vec進(jìn)行詞向量訓(xùn)練前考慮輸入語(yǔ)料本身的特征,對(duì)語(yǔ)料進(jìn)行預(yù)處理后用以提升詞向量的訓(xùn)練結(jié)果。

        1) 通過(guò)對(duì)詞向量的訓(xùn)練算法中的訓(xùn)練層進(jìn)行改進(jìn),采用不同的訓(xùn)練模型或者不同類(lèi)型的神經(jīng)網(wǎng)絡(luò),來(lái)獲得更為精準(zhǔn)的詞向量模型。

        2) 通過(guò)在訓(xùn)練算法的輸入層對(duì)語(yǔ)料進(jìn)行預(yù)處理,提高算法訓(xùn)練的準(zhǔn)確率和召回率。

        3) 通過(guò)對(duì)詞向量的輸出層進(jìn)行后處理,提升應(yīng)用接口的準(zhǔn)確度。

        本文中,我們將集中討論如何通過(guò)第二種方式,即在輸入層如何對(duì)語(yǔ)料進(jìn)行預(yù)處理來(lái)提升詞向量模型訓(xùn)練的精度,研究包括基于整句分割模式的預(yù)處理模式、基于分隔符分割的預(yù)處理模式以及基于屬性主題分割的預(yù)處理模式對(duì)于訓(xùn)練模型的影響。在后面小節(jié)中,我們將詳細(xì)闡述這些方案,并重點(diǎn)論述基于屬性主題分割模式的預(yù)處理算法。

        2 相關(guān)研究工作與研究背景

        2.1 評(píng)論短文本的情感分析與屬性提取

        短文本(Short Text)是指那些長(zhǎng)度較短的文本形式。通常情況下,短文本的字符長(zhǎng)度不超過(guò)400,例如,Twitter/微博短文本、手機(jī)信息短文本、在線評(píng)論短文本、BBS回復(fù)轉(zhuǎn)帖短文本等[2, 12-13]。由于短文本具有字?jǐn)?shù)少、信息聚合度高以及文本語(yǔ)言不規(guī)范等特征,使得針對(duì)短文本的分析與研究產(chǎn)生了較大的困難,其中具有代表性的則是針對(duì)微博短文本和評(píng)論短文本的研究,下面將主要對(duì)評(píng)論短文本的相關(guān)研究進(jìn)行綜述。

        隨著電子商務(wù)的高速發(fā)展以及淘寶、京東、大眾點(diǎn)評(píng)等各類(lèi)含有評(píng)論短文本網(wǎng)站的興起,評(píng)論短文本已經(jīng)成為消費(fèi)者在做出購(gòu)買(mǎi)決策之前的重要參考依據(jù)[14]。目前關(guān)于評(píng)論短文本的研究主要集中在: 評(píng)論短文本的效用分析、評(píng)論短文本的真實(shí)性分析、評(píng)論短文本的決策影響分析等。但這些研究?jī)?nèi)容都會(huì)涉及兩個(gè)主題,即: 評(píng)論短文本的情感分析與評(píng)論短文本的屬性抽取。

        評(píng)論情感分析主要是對(duì)評(píng)論的情感傾向進(jìn)行分析,包含三個(gè)層次: 評(píng)論對(duì)象的屬性層次、評(píng)論對(duì)象的層次以及評(píng)論篇章層次。其主要采用的方法是將文本簡(jiǎn)化為BOW(Bag of Words)的形式,然后借助情感詞典對(duì)評(píng)論短文本的情感傾向進(jìn)行分析。其中,Word Net等情感詞典對(duì)于評(píng)論短文本的情感分析起到了重要的作用。例如,利用Word Net中詞匯之間的相互關(guān)系(距離、語(yǔ)義聯(lián)系等)來(lái)判斷詞語(yǔ)的情感傾向。但這也帶來(lái)一個(gè)重要問(wèn)題,即: Word Net按照同義詞集合組織信息,而同義詞語(yǔ)不一定具有相同的褒貶傾向,這將導(dǎo)致對(duì)詞語(yǔ)情感傾向的估計(jì)出現(xiàn)偏差[15]。換句話說(shuō),目前評(píng)論短文本情感分析存在的主要問(wèn)題是如何針對(duì)評(píng)論短文本的特征構(gòu)建情感詞之間的數(shù)值聯(lián)系,即詞向量的問(wèn)題。

        評(píng)論的屬性抽取是評(píng)論短文本分析的另外一個(gè)重要的研究?jī)?nèi)容,即如何判斷和抽取評(píng)論中涉及到的商品屬性或稱對(duì)象屬性的相互關(guān)系。例如,“衣服手感不錯(cuò)!”和“衣服摸起來(lái)不錯(cuò)!”中,詞語(yǔ)“手感”和“摸起來(lái)”都是同樣表達(dá)評(píng)論者對(duì)評(píng)價(jià)對(duì)象(衣服)的質(zhì)量屬性或者感官的判斷。因此需要在對(duì)評(píng)論短文本進(jìn)行分析時(shí),能夠成功地發(fā)現(xiàn)和評(píng)價(jià)這類(lèi)屬性的相互關(guān)系。評(píng)論短文本屬性的抽取對(duì)于評(píng)論屬性情感分析和評(píng)論總結(jié)都具有重要的作用。

        總而言之,評(píng)論短文本的分析需要依賴于對(duì)評(píng)論短文本的形式化(數(shù)學(xué)化)建模,通常而言,需要在原有文本分析技術(shù)的基礎(chǔ)上,結(jié)合短文本的自身特征進(jìn)行改進(jìn),設(shè)計(jì)出有效的短文本語(yǔ)言模型的建模方法,以提高應(yīng)用的效率和準(zhǔn)確率。

        2.2 詞向量和Word2vec

        語(yǔ)言模型是自然語(yǔ)言處理(Nature Language Processing, NLP)領(lǐng)域的一個(gè)重要的基礎(chǔ)問(wèn)題之一,它在句法分析、詞性標(biāo)注、信息檢索以及機(jī)器翻譯等子領(lǐng)域的相關(guān)任務(wù)中都有重要的作用。在傳統(tǒng)語(yǔ)言模型中,統(tǒng)計(jì)語(yǔ)言模型具有非常廣泛的應(yīng)用,其核心思想是利用概率來(lái)對(duì)語(yǔ)言形式進(jìn)行預(yù)測(cè)[16]。通常而言,統(tǒng)計(jì)語(yǔ)言模型都基于相應(yīng)的領(lǐng)域語(yǔ)料來(lái)進(jìn)行分析工作。一般的,用以簡(jiǎn)化統(tǒng)計(jì)語(yǔ)言模型的相關(guān)方法包括: N-gram模型、馬爾科夫模型、條件隨機(jī)場(chǎng)模型、決策樹(shù)模型等。

        隨著深度學(xué)習(xí)相關(guān)研究的逐步深入,神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域逐漸由圖像、音頻等擴(kuò)展到了自然語(yǔ)言處理領(lǐng)域,即神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM), NNLM可以看作傳統(tǒng)統(tǒng)計(jì)語(yǔ)言模型的擴(kuò)展與提升, 并于近年在ACL、COLING等相關(guān)頂級(jí)會(huì)議上取得系列進(jìn)展。NNLM具有代表意義的系統(tǒng)研究由Bengio于2003年在ANeuralProbabilisticLanguageModel一文中提出[17],在該模型中作者將每一個(gè)詞匯表示為一個(gè)固定維度的浮點(diǎn)向量,即詞向量(WordVector)。然而,NNLM中的詞向量(記為NWV)和傳統(tǒng)統(tǒng)計(jì)語(yǔ)言模型中的One-Hot Representation(OHR)有著本質(zhì)上的差異,主要體現(xiàn)在以下三點(diǎn)。

        1) OHR中的向量元素采用0,1表示,詞向量中所有的分量只有一個(gè)數(shù)值為1,其余分量全部為0,而NWV的分量由浮點(diǎn)數(shù)構(gòu)成,其取值為連續(xù)值。

        2) OHR的向量維數(shù)不固定,通常根據(jù)詞典的大小而發(fā)生改變,并且一般較為龐大,容易造成維數(shù)災(zāi)難[17],而NWV的維度通常根據(jù)具體的應(yīng)用固定在50~1 000左右,具有可接受的時(shí)間復(fù)雜度。

        3) OHR的詞向量元素并不包含統(tǒng)計(jì)語(yǔ)義或語(yǔ)法信息,通過(guò)NNLM的研究發(fā)現(xiàn),NWV通過(guò)向量間的相互計(jì)算,可以進(jìn)一步拓展或表達(dá)出相應(yīng)的語(yǔ)義和語(yǔ)法特征。

        詞向量是NNLM實(shí)現(xiàn)后的關(guān)鍵產(chǎn)物,在Bengio的工作之后,出現(xiàn)了一系列關(guān)于詞向量的實(shí)現(xiàn)與構(gòu)建的相關(guān)工作,包括Tomas Mikolov[18-19]、Google的Word2Vec[7]等。其中Google于2013年開(kāi)源的Word2vec作為重要的詞向量訓(xùn)練工具,在情感分析、屬性抽取等領(lǐng)域,取得了一系列的應(yīng)用成果[11, 20-21],同時(shí),詞向量訓(xùn)練的好壞對(duì)于提升應(yīng)用成果的性能具有重要的意義。但通常情況下,即使采用相同的Word2vec工具,不同類(lèi)型或大小的語(yǔ)料庫(kù)以及不同的向量維度都會(huì)對(duì)詞向量的訓(xùn)練結(jié)果好壞造成影響。

        因此,本文主要從探討Word2vec訓(xùn)練詞向量的優(yōu)化方式入手,重點(diǎn)研究了不同的中文語(yǔ)料的預(yù)處理策略對(duì)于詞向量訓(xùn)練結(jié)果的優(yōu)化程度,特別的是對(duì)中文評(píng)論短文本——這一類(lèi)重要的自然語(yǔ)言處理語(yǔ)料。本文主要貢獻(xiàn)在于: 首先,我們提出基于屬性主題分割的短文本評(píng)論語(yǔ)料預(yù)處理算法,對(duì)比實(shí)驗(yàn)結(jié)果表明,該算法對(duì)于改善詞向量的訓(xùn)練結(jié)果具有明顯的提升效果;其次,我們獲取了0.7億條評(píng)論短文本數(shù)據(jù),通過(guò)詞向量模型的訓(xùn)練,并優(yōu)化后得到了具備較高精度的詞向量庫(kù)(開(kāi)源),該詞向量對(duì)于其他與在線商品評(píng)論相關(guān)的(例如,評(píng)論情感分析、評(píng)論屬性抽取等)自然語(yǔ)言處理任務(wù)具有重要的參考意義;最后,我們給其他領(lǐng)域關(guān)于詞向量的訓(xùn)練優(yōu)化研究提供了一定的參考思路: 即針對(duì)特定的處理語(yǔ)料設(shè)計(jì)相關(guān)的預(yù)處理策略或許能夠顯著提升詞向量的訓(xùn)練效果。

        3 拆分詞嵌入的評(píng)論短文本分割模式

        3.1 基于完整句的分割模式(Based on Whole for Partition, BWP)

        完整句子是指以句號(hào)、感嘆號(hào)、省略號(hào)、問(wèn)號(hào)以及分號(hào)分割后組成的句子形式[22-23]。通常情況下,我們認(rèn)為一個(gè)句子的結(jié)束是一種觀點(diǎn)、態(tài)度和說(shuō)明內(nèi)容的結(jié)束。對(duì)于評(píng)論短文本而言,一條評(píng)論通常包含幾個(gè)帶有完整句分隔符的句子,這些句子表達(dá)的觀點(diǎn)既有可能相似,也有可能不同。換句話說(shuō),這些句子之間既有可能存在邏輯之間的聯(lián)系性,也有可能是相互獨(dú)立的。因此,當(dāng)這些句子在語(yǔ)法上或觀點(diǎn)上是相互獨(dú)立,甚至截然相反時(shí),如果將這些句子作為一個(gè)整體輸入,用以詞向量的訓(xùn)練,將會(huì)給訓(xùn)練模型帶來(lái)較大的誤差。

        基于完整句的分割模式是指利用以句號(hào)、感嘆號(hào)、省略號(hào)、問(wèn)號(hào)以及分號(hào)作為完整句的指示分割符,對(duì)一條評(píng)論中的句子進(jìn)行拆分。同時(shí)考慮到評(píng)論文本的統(tǒng)計(jì)信息(表1),當(dāng)不含完整句分隔符的評(píng)論語(yǔ)句的連續(xù)字符長(zhǎng)度達(dá)到23時(shí),我們將進(jìn)行人工截?cái)?,自?dòng)將該句劃分為一個(gè)整句。

        3.2 基于分隔符的分割模式(Based on Separator for Partition, BSP)

        相比于傳統(tǒng)的文本語(yǔ)料,評(píng)論短文本在句點(diǎn)符號(hào)的使用上更加的隨意,內(nèi)容上也更加豐富和自由,包括含有各種表情符號(hào)、縮寫(xiě)、拼寫(xiě)錯(cuò)誤以及不規(guī)范的斷句符等。如圖1所示,該圖為淘寶商城某商品評(píng)論頁(yè)面的截圖。可以看到,對(duì)于評(píng) 論 短 文 本 而言,其觀點(diǎn)句通常在一個(gè)分隔符之內(nèi)進(jìn)行表達(dá),并且長(zhǎng)度更“短”,同時(shí)在語(yǔ)法規(guī)范上也表現(xiàn)得尤為不足。

        圖1 評(píng)論短文本案例截圖

        如圖2所示,對(duì)于評(píng)論“寶貝做工不錯(cuò),物流速度馬馬虎虎!客服態(tài)度很好!”而言,這是一種典型的評(píng)論短文本的出現(xiàn)方式,即: 觀點(diǎn)句1+觀點(diǎn)句2+…+觀點(diǎn)句n。但觀點(diǎn)句之間很有可能存在修飾詞不兼容(即觀點(diǎn)句1的修飾詞不能用于觀點(diǎn)句2的情況)以及觀點(diǎn)句情感極性相反的情況。 如果采用前文所述的BWP分割方式,由于消費(fèi)者撰寫(xiě)評(píng)論時(shí)使用符號(hào)的不規(guī)范,極有可能造成不同的意義、類(lèi)型和觀點(diǎn)的語(yǔ)句被分割到同一個(gè)訓(xùn)練語(yǔ)句中,從而增大模型訓(xùn)練的誤差。因此,這也就是我們?cè)趯?shí)驗(yàn)對(duì)照中使用第二種分割方法,即分隔符分割法。

        圖2 基于分隔符分割模式與原始非分割方法的對(duì)比例圖

        基于分隔符分割的策略,目的是將這些觀點(diǎn)句利用分隔符進(jìn)行拆分。通常而言,評(píng)論短文本中的分隔符包括: (。)、(,)、(;)、(、)、(空格)、(!)、(~)、(#)、(…)、(*)、(: )、(-)、(?)、(“)、(”)、(+),、(-)以及(常見(jiàn)表情符號(hào))等,同時(shí),如果以上符號(hào)在評(píng)論短文本中存在西文格式,將同樣認(rèn)為是評(píng)論文本分隔符。

        3.3 基于屬性主題的分割模式(Based on Topic for Partition, BTP)

        在研究中我們發(fā)現(xiàn),雖然基于BSP分割能夠?qū)⒑胁煌揎椃筒煌瑢傩杂^點(diǎn)的評(píng)論語(yǔ)句進(jìn)行分割,以保證訓(xùn)練算法在這類(lèi)評(píng)論上的穩(wěn)定性,但BSP分割法卻無(wú)法對(duì)評(píng)論中存在相互聯(lián)系的,甚至是同類(lèi)的評(píng)論語(yǔ)句進(jìn)行合并。因此,在BSP的基礎(chǔ)上,我們提出了基于屬性主題的分割算法。

        如圖3所示,BTP算法在BSP的基礎(chǔ)上,考慮了一條評(píng)論中,被分隔符分割的評(píng)論句子之間的在主題上的相互聯(lián)系。采用BSP對(duì)評(píng)論文本進(jìn)行預(yù)處理后,利用詞向量訓(xùn)練算法進(jìn)行訓(xùn)練,得到初始的詞向量模型,然后利用該初始詞向量模型對(duì)BSP分割進(jìn)行重構(gòu),合并屬性主題相關(guān)的句子,在保證不同類(lèi)型觀點(diǎn)句得到有效分割的同時(shí),保證了同類(lèi)型觀點(diǎn)句的關(guān)聯(lián)性,具體算法流程如算法1所示。

        圖3 基于屬性主題的詞嵌入分割模型

        算法1的核心思想: 首先通過(guò)分隔符對(duì)評(píng)論進(jìn)行整體拆分,然后利用BSP訓(xùn)練得到的詞向量來(lái)計(jì)算相鄰的每個(gè)最短分割候選句之間的屬性相關(guān)度。其中,一條最短分割候選句的屬性特征由短句中的名詞詞向量(或者數(shù)個(gè)名詞詞向量的均值)替代,如果候選短句不包含名詞,則用形容詞替代。最后,接著使用類(lèi)似層次聚類(lèi)的方式,對(duì)最短候選句進(jìn)行逐項(xiàng)合并,直至滿足退出要求,然后返回分割結(jié)果進(jìn)行BTP模型的詞向量訓(xùn)練。

        算法1:基于屬性主題切割的詞嵌入訓(xùn)練算法(BTP)輸入:Ms=Wx,Vx(){},C=R1,R2,R3,…,Ri{},Ri=P1,P2,P3,…,Pj{},Pj=W1,W2,W3,…,Wx{}/?Ms:基于分隔(S)符切割訓(xùn)練的詞向量結(jié)果,Wx為詞語(yǔ),Vx為該詞語(yǔ)對(duì)應(yīng)的詞向量;C:已經(jīng)經(jīng)過(guò)預(yù)處理的評(píng)論語(yǔ)料庫(kù);Ri:對(duì)于每一條已處理評(píng)論,由j個(gè)分隔句組成;Pj:對(duì)于每個(gè)分隔句,由x個(gè)詞語(yǔ)組成;?/輸出:MT={(Wx,Vx)} /?基于屬性主題(T)切割訓(xùn)練的詞向量結(jié)果?/1 forRiinCdo:2 Sentence=[],Vector=[]/?初始化分割結(jié)果,詞向量臨查詢結(jié)果列表?/3 m=0,n=0/?始化指針?/4 forPjinRido:5 forWxinPjdo:6 ifWxisNounthen:7 Vector[m][n]=WxfindvecMs()[]/?查詢?cè)撛~對(duì)應(yīng)MS模型中對(duì)應(yīng)的向量?/8 n+=19 else:10 Continue11 end12 Sentence[m]=Pj/?將查詢得到的詞對(duì)應(yīng)的分隔句存入結(jié)果列表?/13 m+=114 end

        15 while Merge[index]inMerge>0.5&&Len(Merge)>3do:/?只要已被處理的分隔句矩陣中存在任一兩行的屬性主題相似性的概率大于0.5,同時(shí)剩下有待被合并的行數(shù)大于3組,則合并計(jì)算繼續(xù)進(jìn)行?/16forindex1=0;index1+=1;index10.5then:19 Vector[index2]=Vector[index2]+Vector[index2?1] /?合并相似的屬性主題的特征向量?/20 Delete(Vector[index2?1])21 Sentence[index2]=Sentence[index2]+Sentence[index2?1] /?合并相似屬性主題的分隔句?/22 Delete(Sentence[index2?1])23 end24 Word2vec_Train(Sentence) /?將分隔完成的主題相似性句子傳入詞向量訓(xùn)練模型?/25 end26 returnMT={(Wx,Vx)}/?返回訓(xùn)練結(jié)果?/

        4 實(shí)驗(yàn)數(shù)據(jù)

        4.1 數(shù)據(jù)描述

        本文的實(shí)驗(yàn)數(shù)據(jù)集來(lái)自天貓商城的評(píng)論短文本數(shù)據(jù),主要字段包括: 商品ID、評(píng)論者昵稱、初次評(píng)論內(nèi)容、初次評(píng)論時(shí)間、追加評(píng)論內(nèi)容、追加評(píng)論時(shí)間、評(píng)論相對(duì)位置、評(píng)論者信譽(yù)、評(píng)論商品ID、評(píng)論商家ID以及商家回復(fù)。其中文本內(nèi)容包括消費(fèi)者的初次評(píng)論數(shù)據(jù)、追加評(píng)論數(shù)據(jù)以及商家的回復(fù)數(shù)據(jù)三個(gè)部分,總計(jì)評(píng)論數(shù)目為72 152 543條,約40GB。主要涉及領(lǐng)域包含: 服裝、食品、美妝、母嬰、數(shù)碼、箱包、家電、運(yùn)戶,共計(jì)八大領(lǐng)域的82個(gè)子領(lǐng)域。數(shù)據(jù)集的相關(guān)基本統(tǒng)計(jì)信息如表1所示。

        表1 數(shù)據(jù)集基本信息

        續(xù)表

        4.2 數(shù)據(jù)清洗

        由于數(shù)據(jù)量巨大,因此數(shù)據(jù)清洗是本次實(shí)驗(yàn)的重要工作之一。本次實(shí)驗(yàn)過(guò)程中,為了提高數(shù)據(jù)的讀取和操作性能,我們將評(píng)論數(shù)據(jù)存儲(chǔ)在當(dāng)前流行的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)之一的Mongodb[24]中,其性能為普通SQL數(shù)據(jù)庫(kù)性能的十倍以上,大大地縮短了實(shí)驗(yàn)的時(shí)間消耗。其中,數(shù)據(jù)清洗的核心步驟包括重復(fù)評(píng)論/無(wú)關(guān)評(píng)論的刪除、分詞、停用詞的刪除以及繁簡(jiǎn)體的合并操作。

        圖4 數(shù)據(jù)清洗流程圖

        5 實(shí)驗(yàn)與分析

        5.1 性能評(píng)估

        5.1.1 標(biāo)準(zhǔn)測(cè)試集

        5.1.2 評(píng)價(jià)指標(biāo)

        在信息檢索,模式識(shí)別,機(jī)器翻譯等領(lǐng)域,有兩類(lèi)最為常用的算法評(píng)價(jià)指標(biāo),即: 準(zhǔn)確率(Precision Rate)和召回率(Recall Rate)。本文將參考準(zhǔn)確率和召回率的評(píng)價(jià)方式,構(gòu)建模型的評(píng)價(jià)指標(biāo),為便于說(shuō)明,做出如下假設(shè):

        ? 評(píng)價(jià)指標(biāo)1: 平均相似度(S)

        對(duì)于標(biāo)準(zhǔn)測(cè)試詞對(duì)St中的查詢?cè)~Qi,用其相似詞構(gòu)建評(píng)價(jià)詞對(duì)為:

        (1)

        (2)

        ? 評(píng)價(jià)指標(biāo)2: 平均召回率

        標(biāo)準(zhǔn)測(cè)試詞對(duì)集S=(Qi|{sim1,sim2,sim3,…,simn}),查詢?cè)~Qi在模型X中的前n個(gè)最相似結(jié)果為:T=(Qi|{Tsim1,Tsim2,Tsim3,…,Tsimn}),那么對(duì)于查詢?cè)~Qi,模型X的召回率如式(3)所示。

        (3)

        (4)

        5.2 結(jié)果分析

        為了驗(yàn)證和對(duì)比實(shí)驗(yàn)結(jié)果,本文的實(shí)驗(yàn)基于MAC OS X 10.10.4操作系統(tǒng),Intel Core i7 4850Q 處理器(四核八線程),16GB內(nèi)存,512GB SSD存儲(chǔ)系統(tǒng),并采用Python語(yǔ)言進(jìn)行實(shí)現(xiàn)。由于Word2vec的基礎(chǔ)模型包含Skip-Gram以及CBOW兩類(lèi),因此本文所有對(duì)比實(shí)驗(yàn)同時(shí)在這兩種類(lèi)型的基礎(chǔ)模型上進(jìn)行,具體的原始訓(xùn)練模型介紹可以參見(jiàn)Word2Vec的源碼及其相關(guān)論文,此處不再詳述。最后,本實(shí)驗(yàn)針對(duì)不同的詞向量的維度從50~500之間逐漸遞增選取,增加縱向?qū)Ρ葘?shí)驗(yàn)。

        5.2.1 時(shí)間效率對(duì)比分析

        如圖5所示,通過(guò)對(duì)比發(fā)現(xiàn),Skip-gram模型的處理時(shí)間對(duì)于不同大小的詞向量維度的敏感度較大,隨著詞向量維度的增加,NP_Skip以及BSP_Skip模型的時(shí)間消耗增長(zhǎng)幅度均大于CBOW模型的增長(zhǎng)幅度。而NP模型與BSP模型在Skip-gram以及CBOW模型上的時(shí)間效率表現(xiàn)存在相互交叉的情況,因此并沒(méi)有表現(xiàn)出明顯的差異??紤]到無(wú)論是NP_Skip模型、NP_CBOW模型、BSP_Skip模型還是BSP_CBOW模型的單機(jī)訓(xùn)練時(shí)間均在[2,5]小時(shí)之間,因此,其實(shí)際意義上的時(shí)間開(kāi)銷(xiāo)(已經(jīng)是0.7億條評(píng)論大數(shù)據(jù))均在可接受的范圍內(nèi),所以并沒(méi)有必要在時(shí)間效率上對(duì)上述模型進(jìn)行不同的區(qū)分和優(yōu)劣對(duì)比。

        圖5 BSP算法與原始訓(xùn)練算法基于不同詞向量維度的時(shí)間效率對(duì)比

        5.2.2 評(píng)價(jià)指標(biāo)對(duì)比分析

        ? 平均召回率(R)

        如表2所示,以直線下劃線作為該模型的最好成績(jī),對(duì)比BTP模型與NP模型,在Skip_gram+Herarchical softmax(SGH)和CBOW+Herarchical softmax(CBH)實(shí)驗(yàn)上的平均召回率分別提升了23%和17%,其中,SGH_NP,CBH_NP最大召回率分別小于SGH_BTP,CBH_BTP的最小召回率,由此可以看出BTP語(yǔ)料預(yù)處理策略對(duì)于提升Word2vec訓(xùn)練結(jié)果的召回率具有顯著效果。同時(shí),我們可以發(fā)現(xiàn),由于短評(píng)論語(yǔ)料通常字符數(shù)較小,并且斷句符存在大量的不規(guī)范使用情況。因此,從NP模型到BWP模型的提升效果(2.3%,0.3%)遠(yuǎn)不如BWP模型到BSP模型的提升效果(12.3%,9.9%)以及BSP到BTP的提升效果(8.4%,7.6%)。

        表2 模型實(shí)驗(yàn)結(jié)果對(duì)比

        ? 平均相似度(S)

        由于不同的向量維度數(shù)會(huì)導(dǎo)致向量的分散程度不同: 一般的,向量維數(shù)越大,在總詞語(yǔ)數(shù)目固定的情況下,同義(屬性)詞間的分散程度越大,相似度越小(縱向)。因此平均相似度只能作為詞向量訓(xùn)練好壞的一個(gè)相對(duì)參照指標(biāo),即: 作橫向?qū)Ρ取R员?中波浪下劃線標(biāo)注的50維度上的結(jié)果為例,對(duì)于召回相同的詞語(yǔ),其相似度越高,表示同義詞(屬性詞)之間的穩(wěn)定性越高,因此在不同的環(huán)境下其應(yīng)用的可拓展性也就越高。從表 2中可以看到,無(wú)論是對(duì)于Skip_gram模型還是CBOW模型,在不同詞向量維度上,BTP模型的穩(wěn)定性都是最高的,但相對(duì)于BSP預(yù)處理模型來(lái)說(shuō),BTP模型的提升程度卻并不十分明顯,因此如果在不考慮召回率的情況下,可以任選BTP或者BSP模型作為評(píng)論語(yǔ)料的預(yù)處理策略。

        5.2.3 查詢樣例對(duì)比分析

        為了能夠?qū)υ寄P?NP)和BTP優(yōu)化后模型產(chǎn)生的詞向量的結(jié)果產(chǎn)生一個(gè)具體的認(rèn)識(shí)和對(duì)比,我們選取了兩個(gè)具有代表性的詞匯“EMS”(屬性詞)以及“差評(píng)”(形容詞,觀點(diǎn)詞),查詢了它們?cè)贜P詞向量(200維)以及BTP詞向量(200維)中的前20個(gè)最相似的結(jié)果,如表 3和表 4所示。

        表3 查詢?cè)~“EMS”在NP模型和BTP模型上的對(duì)比結(jié)果

        表4 查詢?cè)~“差評(píng)”在NP模型和BTP模型上的對(duì)比結(jié)果

        通過(guò)表3可以發(fā)現(xiàn): BTP模型的預(yù)處理策略能夠有效的發(fā)現(xiàn)屬性詞的相似詞及其變異,甚至是錯(cuò)誤的拼寫(xiě)詞。例如,SGH_BTP模型中的“ESM、MES”(誤輸入)、“ems、EMs”(大小寫(xiě)變形)等。同時(shí)可以發(fā)現(xiàn),BTP模型的屬性詞召回率明顯高于NP模型。通過(guò)表4可以發(fā)現(xiàn): BTP模型對(duì)于同義詞的召回率同樣較好,而NP模型中甚至出現(xiàn)了較多將查詢?cè)~的被修飾詞判定為相似詞的情況,例如,真想(差評(píng)),堅(jiān)決(差評(píng))等。但同時(shí)也需要看到,對(duì)于NP模型和BTP模型都出現(xiàn)了查詢?cè)~的反義詞被判定為相似詞的情況,這種誤判需要在后續(xù)的研究中進(jìn)一步優(yōu)化。

        6 結(jié)論

        Word2vec詞向量訓(xùn)練的優(yōu)化問(wèn)題不僅僅需要考慮訓(xùn)練算法的內(nèi)部結(jié)構(gòu),對(duì)于不同類(lèi)型的訓(xùn)練語(yǔ)料的預(yù)處理同樣值得思考。本文針對(duì)評(píng)論短文本在Word2vec詞向量訓(xùn)練中存在的問(wèn)題,結(jié)合評(píng)論短文本的自身特征提出了基于屬性主題分割的語(yǔ)料預(yù)處理算法BTP。基于0.7億條大規(guī)模評(píng)論短文本的實(shí)驗(yàn)表明,BTP算法的預(yù)處理策略對(duì)于提升詞向量模型的訓(xùn)練結(jié)果具有顯著意義。本文針對(duì)評(píng)論短文本的大規(guī)模詞向量訓(xùn)練結(jié)果對(duì)于其他關(guān)于包括評(píng)論短文本情感分析、評(píng)論短文本屬性特征提取(聚類(lèi))等的應(yīng)用都具有較大的參考意義。

        [1] Yuan Y, He L, Peng L, et al. A New Study Based on Word2vec and Cluster for Document Categorization[J]. Journal of Computational Information Systems, 2014, 10: 9301-9308.

        [2] 張劍峰, 夏云慶, 姚建民. 微博文本處理研究綜述[J]. 中文信息學(xué)報(bào), 2012, 26(4): 21-27.

        [3] 楊銘, 祁巍, 閆相斌, 等. 在線商品評(píng)論的效用分析研究[J]. 管理科學(xué)學(xué)報(bào), 2012, 15(5): 65-75.

        [4] 陳燕方, 李志宇. 基于評(píng)論產(chǎn)品屬性情感傾向評(píng)估的虛假評(píng)論識(shí)別研究[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2014, 9: 81-90.

        [5] 任亞峰, 尹蘭, 姬東鴻. 基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J]. 計(jì)算機(jī)科學(xué)與探索, 2014, 8(3): 313-320.

        [6] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2: 1-135.

        [7] Mikolov T. Word2vec project[CP].2013, https://code.google.com/p/word2vec/.

        [8] Xue B, Fu C, Shaobin Z. A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec[C]//Proceedings of the 2014 IEEE International Congress on, 2014: 358-363.

        [9] Tang D, Wei F, Yang N, et al. Learning sentiment-specific word embedding for twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014: 1555-1565.

        [10] Godin F, Vandersmissen B, Jalalvand A, et al. Alleviating Manual Feature Engineering for Part-of-Speech Tagging of Twitter Microposts using Distributed Word Representations[C]//Proceedings of NIPS 2014Workshop on Modern Machine Learning and Natural Language Processing (NIPS 2014), 2014: 1-5.

        [11] Ghiyasian B, Guo Y F. Sentiment Analysis Using SemiSupervised Recursive Autoencoders and Support Vector Machines[EB/OL],Stanford.edu,2014: 1-5.

        [12] 張林, 錢(qián)冠群, 樊衛(wèi)國(guó), 等. 輕型評(píng)論的情感分析研究[J]. 軟件學(xué)報(bào), 2014, 12: 2790-2807.

        [13] 周泓, 劉金嶺, 王新功. 基于短文本信息流的回顧式話題識(shí)別模型[J]. 中文信息學(xué)報(bào), 2015, 291: 015.

        [14] 鄭小平. 在線評(píng)論對(duì)網(wǎng)絡(luò)消費(fèi)者購(gòu)買(mǎi)決策影響的實(shí)證研究[D].中國(guó)人民大學(xué)碩士學(xué)位論文,2008.

        [15] 張紫瓊, 葉強(qiáng), 李一軍. 互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述[J]. 管理科學(xué)學(xué)報(bào), 2010, 13(6): 84-96.

        [16] 邢永康, 馬少平. 統(tǒng)計(jì)語(yǔ)言模型綜述[J]. 計(jì)算機(jī)科學(xué), 2003, 30(9): 22-26.

        [17] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. The Journal of Machine Learning Research, 2003, 3: 1137-1155.

        [18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems, 2013: 3111-3119.

        [19] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781[DBOL], 2013: 1-16.

        [20] Zhang W, Xu W, Chen G, et al. A Feature Extraction Method Based on Word Embedding for Word Similarity Computing[C]//Proceedings of the Natural Language Processing and Chinese Computing, 2014: 160-167.

        [21] Iyyer M, Enns P, Boyd-Graber J, et al. Political ideology detection using recursive neural networks[C]//Proceedings of the Association for Computational Linguistics, 2014: 1-11.

        [22] 黃建傳. 漢語(yǔ)標(biāo)點(diǎn)句統(tǒng)計(jì)分析[D]. 北京語(yǔ)言大學(xué)碩士學(xué)位論文, 2008.

        [23] 何玉. 基于核心詞擴(kuò)展的文本分類(lèi)[D]. 華中科技大學(xué)碩士學(xué)位論文, 2006.

        [24] Banker K. MongoDB in action[M]. Manning Publications, 2011.

        Improving the Word2vec on Short Text by Topic: Partition

        LI Zhiyu, LIANG Xun, ZHOU Xiaopin

        (School of Information,Renmin University of China, Beijing 100872,China)

        We propose a method for Word2vec training on the short review textsby a partition according to the topic. We examine three kinds of partition methods, i.e. Based on Whole-review (BWP), Based on sentence-Separator (BSP) and Based on Topic(BTP), to improve the result of Word2vec training. Our findings suggest that there is a big difference on accuracy and similarity rates between the None Partition Model (NP) and BWP, BSP, BTP, due to the characteristic of the review short text. Experiment on various models and vector dimensions demonstrate that the result of word vector trained by Word2vec model has been greatly enhanced by BTP.

        online review; short text; word vector; similarity calculation

        李志宇(1991—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,網(wǎng)絡(luò)結(jié)構(gòu)嵌入,社會(huì)網(wǎng)絡(luò)分析。E?mail:zhiyulee@ruc.edu.cn梁循(1965—),通信作者,博士生導(dǎo)師,教授,主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算,機(jī)器學(xué)習(xí)。E?mail:xliang@ruc.eud.cn周小平(1985—),博士研究生,主要研究領(lǐng)域?yàn)樯鐣?huì)網(wǎng)絡(luò)分析,網(wǎng)絡(luò)隱私保護(hù)。E?mail:zhouxiaoping@bucea.edu.cn

        1003-0077(2016)05-0101-10

        2015-06-03 定稿日期: 2015-10-15

        國(guó)家自然科學(xué)基金(71531012、71271211);京東商城電子商務(wù)研究項(xiàng)目(413313012);北京市自然科學(xué)基金(4132067);中國(guó)人民大學(xué)品牌計(jì)劃(10XNI029);中國(guó)人民大學(xué)2015年度拔尖創(chuàng)新人才培育資助計(jì)劃成果

        TP

        A

        猜你喜歡
        情感模型
        一半模型
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        被情感操縱的人有多可悲
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        3D打印中的模型分割與打包
        情感移植
        自拍情爱视频在线观看| 国产精品天堂| 亚洲综合色婷婷久久| 久久精品国产亚洲av热东京热| 久久亚洲道色综合久久| 精东天美麻豆果冻传媒mv| 久久久久这里只有精品网| 人成视频在线观看免费播放| 国产国拍精品亚洲av在线观看| 大屁股人妻女教师撅着屁股| 亚洲最大av网站在线观看| 国产精品人妻一区二区三区四| 一道久在线无码加勒比| 亚洲国产成人影院在线播放| 日韩好片一区二区在线看| 国产h视频在线观看网站免费 | 一区二区三区日本在线| 黑人老外3p爽粗大免费看视频| 亚洲成人色区| 午夜国产一区二区三区精品不卡| 国产三级精品三级在专区中文| 日韩乱码人妻无码系列中文字幕| 97se亚洲精品一区| 在线观看av国产自拍| 亚洲av手机在线观看| 成人网站在线进入爽爽爽| 国产微拍精品一区二区| 亚洲精品国产精品av| 日韩亚洲无吗av一区二区| 4hu四虎永久在线观看| 国产精品九九热| 国产精品国产三级国产专播| 国产a级三级三级三级| 少妇太爽了在线观看| 亚洲一区二区高清在线| 国产手机在线观看一区二区三区 | 国产精品对白交换视频| 日韩精品视频在线一二三| 2020国产在视频线自在拍| 国产精品无码av天天爽| 久久亚洲午夜牛牛影视|