亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的文本情感分析并行化算法

2019-07-11 07:09:16翟東海侯佳林劉月

西南交通大學(xué)學(xué)報(bào) 2019年3期

翟東海，侯佳林，劉月

（西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院，四川成都 611756）

文本情感分析是利用計(jì)算機(jī)技術(shù)對(duì)“人們關(guān)于產(chǎn)品、服務(wù)、事件等實(shí)體的評(píng)論”等文本進(jìn)行分析處理以獲得其表達(dá)的主觀情感信息的過(guò)程.其主要包括：情感信息分類(lèi)、情感信息抽取、情感分析技術(shù)應(yīng)用等[1-3].傳統(tǒng)的情感分析方法包括支持向量機(jī)、條件隨機(jī)場(chǎng)、信息熵等，且均采用詞袋模型.如文獻(xiàn)[4]采用SVM （support vector machine）對(duì)句子進(jìn)行情感識(shí)別及分類(lèi).但這種淺層模型在處理海量數(shù)據(jù)時(shí)通常存在著數(shù)據(jù)稀疏性以及數(shù)據(jù)維度高等問(wèn)題.Geoffrey Hinton 等[5-6]于2006年提出的深度學(xué)習(xí)模型為解決這些問(wèn)題提供了新思路.當(dāng)前，在文本情感分析任務(wù)上應(yīng)用較多的神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)（CNN）、基于序列的模型（RNN）和樹(shù)型結(jié)構(gòu)模型（RAE）等.如文獻(xiàn)[7]采用CNN 進(jìn)行情感極性分類(lèi)；文獻(xiàn)[8]采用雙向序列模型（BLSTM）進(jìn)行中文文本分類(lèi)研究.因樹(shù)形結(jié)構(gòu)模型（如深度學(xué)習(xí)中的遞歸自編碼算法）在文本特征提取、情感分析中表現(xiàn)優(yōu)異，受到了學(xué)者們的廣泛關(guān)注，如文獻(xiàn)[9-11]都是遞歸自編碼算法的典型應(yīng)用范例.

神經(jīng)網(wǎng)絡(luò)模型雖然能夠極大程度地學(xué)習(xí)到文本內(nèi)容所隱含的語(yǔ)義信息，顯著提高分類(lèi)的準(zhǔn)確率，但深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)耗時(shí)、收斂慢的問(wèn)題也逐漸受到了研究者們的關(guān)注.文獻(xiàn)[12]通過(guò)開(kāi)發(fā)新的計(jì)算框架DistBelief 來(lái)實(shí)現(xiàn)大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練；文獻(xiàn)[13]中使用GPU 來(lái)訓(xùn)練深度玻爾茲曼機(jī)，但GPU因受內(nèi)存所限，數(shù)據(jù)量大時(shí)效果也不太理想.

隨著并行計(jì)算的興起，在處理大規(guī)模數(shù)據(jù)、復(fù)雜計(jì)算時(shí)，研究人員往往向其尋求幫助.Berkeley AMP lab 的Spark[14]、谷歌的TensorFlow[15]、微軟的Dryad[16]以及谷歌的MapReduce[17]都是該領(lǐng)域內(nèi)的佼佼者.而MapReduce 框架以其較強(qiáng)的可擴(kuò)展性、良好的可用性、較好的容錯(cuò)能力，成為研究者關(guān)注的熱點(diǎn)[18].在諸多MapReduce 的實(shí)現(xiàn)中，Apache Hadoo 因良好的開(kāi)源性深受業(yè)界青睞.因此，利用Apache Hadoop中的MapReduce 并行計(jì)算框架對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化加速也吸引了諸多學(xué)者的研究興趣.神經(jīng)網(wǎng)絡(luò)的并行化加速是在分布式集群上，用多個(gè)集群節(jié)點(diǎn)同時(shí)對(duì)一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行并行化處理，以提高此網(wǎng)絡(luò)的訓(xùn)練速度.網(wǎng)絡(luò)的并行化方式分為兩種：節(jié)點(diǎn)并行化和數(shù)據(jù)并行化.但由于開(kāi)發(fā)者對(duì)MapReduce 框架的底層實(shí)現(xiàn)并不清楚，因此開(kāi)發(fā)者不能明確地將某項(xiàng)任務(wù)交由某個(gè)節(jié)點(diǎn)處理.且對(duì)海量數(shù)據(jù)集的節(jié)點(diǎn)并行化處理會(huì)使得I/O 開(kāi)銷(xiāo)過(guò)大.因此，在MapReduce 框架中采用的是數(shù)據(jù)并行方式來(lái)加速網(wǎng)絡(luò)訓(xùn)練.文獻(xiàn)[19-21]皆是基于Hadoop 中的MapReduce 所做的不同并行化處理的例子，證明了利用MapReduce可以有效加快網(wǎng)絡(luò)訓(xùn)練速度，從而大大縮短神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間.

本文針對(duì)Socher 等提出的Semi-Supervised 文本情感分析算法[9]，使用開(kāi)源Hadoop 中的MapReduce并行框架提出并行優(yōu)化策略，綜合利用集群節(jié)點(diǎn)的計(jì)算資源，使其在處理大規(guī)模文本時(shí)更加高效.

1 相關(guān)工作

1.1 MapReduce

Google 提出的MapReduce 以其優(yōu)越的整合計(jì)算節(jié)點(diǎn)的能力所著稱(chēng)，此處對(duì)其做簡(jiǎn)要介紹.MapReduce 采用“分而治之”的思想，通過(guò)主節(jié)點(diǎn)調(diào)度，將任務(wù)分配到其下的子節(jié)點(diǎn)中，并行處理后輸出最終結(jié)果.總的來(lái)說(shuō)，MapReduce 是通過(guò)用戶編寫(xiě)Map 函數(shù)和Reduce 函數(shù)來(lái)實(shí)現(xiàn)結(jié)果計(jì)算的，用戶只需關(guān)注這兩個(gè)函數(shù)的編寫(xiě)，其他的問(wèn)題，諸如容錯(cuò)、負(fù)載均衡、調(diào)度都交給框架處理.在MapReduce中，一個(gè)任務(wù)首先被分成許多輸入鍵值對(duì)＜kin，vin＞，然后在Map 函數(shù)作用下生成中間結(jié)果＜kmid，vmid＞，這些中間結(jié)果存放于內(nèi)存之中.接著，這些中間結(jié)果將作為Reduce 函數(shù)的輸入，根據(jù)Reduce 中的用戶邏輯輸出最終結(jié)果＜kout，vout＞.其流程如圖1所示，圖中：M為數(shù)據(jù)存儲(chǔ)數(shù)；m為中間結(jié)果鍵值對(duì)數(shù)目.

圖1 MapReduce 工作流程Fig.1 Workflow chart of MapReduce

1.2 Semi-Supervised RAE 文本情感分析

1.2.1 用詞向量表示詞語(yǔ)

不同于以往的詞袋模型[22]，Semi-Supervised RAE用詞向量表示詞語(yǔ)并作為神經(jīng)網(wǎng)絡(luò)的輸入，如（0，1，0，0）表示“大學(xué)生”，（1，1，0，1）表示“教師”.若一個(gè)句子x含m個(gè)詞，則第k個(gè)詞為xk，1 ≤k≤m.將詞xk以標(biāo)準(zhǔn)正態(tài)分布的形式映射到n維實(shí)向量空間上，可表示為xk∈Rn.所有詞的詞向量存儲(chǔ)在一個(gè)詞嵌入矩陣L∈Rn×|V|中，V為詞匯表的大小.則xk的向量表示為

式中：bk為一個(gè)維度為詞表大小、值為0 或1 的二值向量，除了第k個(gè)索引之外的所有位置都是0.

1.2.2 有監(jiān)督遞歸自編碼

在獲取句子的低維向量表示時(shí)，傳統(tǒng)的自編碼方法需要將句子的樹(shù)形結(jié)構(gòu)作為先驗(yàn)知識(shí)，這種編碼方法稱(chēng)為有監(jiān)督遞歸自編碼.假設(shè)一個(gè)句子用向量表示為x= (x1,x2,···,xm)，已知子節(jié)點(diǎn)c1、c2的輸入詞向量為x1、x2，則父節(jié)點(diǎn)pi的計(jì)算方法為

式中：i=1 ,2,···；C= [c1；c2]表示c1、c2的詞向量拼接矩陣；f(·)為網(wǎng)絡(luò)的激活函數(shù)；wfi和bfi分別為計(jì)算父節(jié)點(diǎn)時(shí)的權(quán)重和偏置參數(shù).

為了測(cè)試父節(jié)點(diǎn)對(duì)子節(jié)點(diǎn)的表示能力，在各父節(jié)點(diǎn)上添加其對(duì)應(yīng)子節(jié)點(diǎn)的重構(gòu)層（圖2），根據(jù)原始節(jié)點(diǎn)與重構(gòu)節(jié)點(diǎn)的差值來(lái)表示誤差.

圖2 有監(jiān)督遞歸自編碼結(jié)構(gòu)Fig.2 Structure of supervised RAE

重構(gòu)節(jié)點(diǎn)計(jì)算方法為

式中：j=1 ,2,···；C′=[c′1；c′2]為c1、c2的重構(gòu)節(jié)點(diǎn)c′1、c′2的詞向量拼接矩陣；brj為偏置項(xiàng)；wrj為權(quán)重參數(shù)矩陣.

詞向量采用歐式距離計(jì)算重構(gòu)誤差，即

1.2.3 無(wú)監(jiān)督遞歸自編碼

通常情況下，句子的樹(shù)形結(jié)構(gòu)往往未知，這種需要自主學(xué)習(xí)樹(shù)形結(jié)構(gòu)的自編碼方法稱(chēng)為無(wú)監(jiān)督遞歸自編碼.樹(shù)形結(jié)構(gòu)預(yù)測(cè)過(guò)程的優(yōu)化目標(biāo)函數(shù)為

式中：Rθ(x)為句子x的最優(yōu)樹(shù)型結(jié)構(gòu)模型，θ為參數(shù)集；集合A（x）為句子x所有可能的樹(shù)形結(jié)構(gòu)集合；y為其中的一種結(jié)構(gòu)；s為計(jì)算過(guò)程中非終端節(jié)點(diǎn)的三元結(jié)構(gòu)（由2 個(gè)子節(jié)點(diǎn)cs1、cs2和1 個(gè)父節(jié)點(diǎn)Ps組成）；Cs=[cs1,cs2]；T（y）為這種三元結(jié)構(gòu)的檢索函數(shù).

不同詞語(yǔ)對(duì)句子整體含義的貢獻(xiàn)度不同，為了體現(xiàn)這種差異在計(jì)算重構(gòu)誤差時(shí)給不同的詞語(yǔ)賦予不同的權(quán)重，

式中：n1、n2為當(dāng)前子節(jié)點(diǎn)c1、c2下面的詞數(shù).

為了防止遞歸自編碼算法在不斷迭代減小重構(gòu)誤差時(shí)計(jì)算出的父節(jié)點(diǎn)過(guò)小，為后續(xù)計(jì)算造成不必要的麻煩，此處對(duì)式（2）進(jìn)行歸一化處理：

1.2.4 半監(jiān)督遞歸自編碼

得到句子的向量表示后，為計(jì)算整體語(yǔ)句的情感傾向，在網(wǎng)絡(luò)結(jié)構(gòu)上增加softmax（·）分類(lèi)器：

式中：l為當(dāng)前的情感種類(lèi)；wl為參數(shù)矩陣.

若有K種情感，則d∈RK，且分類(lèi)層交叉熵誤差計(jì)算方法為

式中：t為標(biāo)簽的分布；tk為第k種情感的標(biāo)簽分布；dk為條件概率，且

因此，半監(jiān)督遞歸自編碼在數(shù)據(jù)集上的優(yōu)化目標(biāo)函數(shù)為

式中：N為訓(xùn)練數(shù)據(jù)集大??；λ為L(zhǎng)2正則項(xiàng)系數(shù)；

并且，此時(shí)每個(gè)非終端節(jié)點(diǎn)的誤差變?yōu)橹貥?gòu)誤差與交叉熵誤差的加權(quán)和為

式中：α為權(quán)衡重構(gòu)誤差和交叉熵誤差的調(diào)節(jié)參數(shù).

采用L-BFGS （limited-memory Broyden-Fletcher-Goldfarb-Shanno）算法求解優(yōu)化目標(biāo)函數(shù)式（11）的最優(yōu)解，其中所用的梯度為

式中：θ= {wfi，bfi，wrj，brj，wl，L}.

2 Semi-Supervised RAE 模型的并行化

在使用Semi-Supervised RAE 算法進(jìn)行文本情感分析時(shí)，往往需要先根據(jù)訓(xùn)練數(shù)據(jù)集，訓(xùn)練出較好的模型，然后再將此模型應(yīng)用于情感分析.因此，針對(duì)Semi-Supervised RAE 模型的并行化也將分為兩步：首先是針對(duì)大量訓(xùn)練數(shù)據(jù)集的并行化研究，當(dāng)模型訓(xùn)練好后，利用其并調(diào)用相應(yīng)的并行化算法，進(jìn)行測(cè)試數(shù)據(jù)集的文本情感分析.

2.1 大量訓(xùn)練數(shù)據(jù)集情況下

在Semi-Supervised RAE 的訓(xùn)練階段，通過(guò)貪心算法構(gòu)建句子的最優(yōu)樹(shù)結(jié)構(gòu)以獲得該語(yǔ)句的向量編碼，接著通過(guò)優(yōu)化目標(biāo)函數(shù)式（11）迭代得到最優(yōu)的參數(shù)集，為獲得最佳文本情感分析結(jié)果做好準(zhǔn)備.

本文采用MapReduce 并行框架來(lái)加快訓(xùn)練速度以便解決原模型在大數(shù)據(jù)量的情況下訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題.首先對(duì)總的訓(xùn)練數(shù)據(jù)集進(jìn)行分塊，并將每一個(gè)數(shù)據(jù)塊分派給不同的Map 節(jié)點(diǎn).利用這些數(shù)據(jù)塊，Map 節(jié)點(diǎn)依次計(jì)算相應(yīng)數(shù)據(jù)塊中每一個(gè)句子x的最優(yōu)樹(shù)結(jié)構(gòu)，并計(jì)算相應(yīng)句子的誤差，直至數(shù)據(jù)塊中所有語(yǔ)句誤差計(jì)算完畢并暫存在緩沖區(qū).Reduce階段，節(jié)點(diǎn)累加緩沖區(qū)的塊誤差來(lái)計(jì)算得到這個(gè)數(shù)據(jù)集的誤差和并利用L-BFGS 算法求出最優(yōu)參數(shù)集.算法整體流程如圖3所示.該算法的主要計(jì)算量集中于Map 階段，為了克服并行化后神經(jīng)網(wǎng)絡(luò)出現(xiàn)弱化現(xiàn)象[19]，集群只設(shè)置了一個(gè)Reduce 節(jié)點(diǎn)如圖3所示，圖中Nt為訓(xùn)練數(shù)據(jù)集合塊數(shù).

2.2 大量測(cè)試數(shù)據(jù)集情況下

當(dāng)模型訓(xùn)練好后，本文針對(duì)測(cè)試數(shù)據(jù)集較大情況下測(cè)試結(jié)果輸出慢的特點(diǎn)，也設(shè)計(jì)了相應(yīng)的并行化算法.首先，將測(cè)試數(shù)據(jù)集分塊，用訓(xùn)練階段得到的最優(yōu)參數(shù)集來(lái)初始化節(jié)點(diǎn).在Map 階段，求出每條語(yǔ)句的向量表示，并輸出到緩沖區(qū).在Reduce 階段，softmax（·）分類(lèi)器利用每條語(yǔ)句的向量表示輸出句子ID 及其情感標(biāo)簽，算法流程如圖4所示，圖中，Nc為測(cè)試數(shù)據(jù)集合塊數(shù).

圖3 大量訓(xùn)練集并行化算法Fig.3 Parallel Computing based on a big training dataset

圖4 大量測(cè)試集并行化算法Fig.4 Parallel Computing based on a big test datasets

3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)中用到的節(jié)點(diǎn)皆為AMD 雙核2.5 GHz 處理器，內(nèi)存4 GB.節(jié)點(diǎn)操作系統(tǒng)為Ubuntu14.04，Hadoop版本為1.0.2，Java 版本為1.6.0_33.此次實(shí)驗(yàn)中，詞向量選用100 維，算法最大迭代次數(shù)為1 000，權(quán)衡重構(gòu)誤差和交叉熵誤差的調(diào)節(jié)參數(shù)α設(shè)為0.2.

為了克服現(xiàn)有的情感分析語(yǔ)料庫(kù)數(shù)據(jù)量較小[23-24]的問(wèn)題，本文采用爬蟲(chóng)程序從美國(guó)亞馬遜購(gòu)物網(wǎng)站上抓取了12 萬(wàn)條商品評(píng)論數(shù)據(jù)，構(gòu)建了兩個(gè)語(yǔ)料庫(kù)AmazonCorpus2 和AmazonCorpus10，用以測(cè)試并行化后的加速效果.此外，Movie Reviews（MR）[25]數(shù)據(jù)集也用于本文實(shí)例驗(yàn)證中，以分析算法分類(lèi)準(zhǔn)確率時(shí)與原算法作對(duì)比（如表1所示）.

表1 語(yǔ)料庫(kù)信息Tab.1 Corpus information

根據(jù)商品質(zhì)量的優(yōu)劣，美國(guó)亞馬遜購(gòu)物網(wǎng)站將用戶對(duì)商品的評(píng)分設(shè)置為1～5 級(jí).為了便于情感分析與模型訓(xùn)練，在本文制作的語(yǔ)料庫(kù)中將1～5 級(jí)轉(zhuǎn)化為負(fù)面、中性、正面3 類(lèi)評(píng)價(jià)，轉(zhuǎn)換規(guī)則如下：1～2 級(jí)評(píng)分為負(fù)面評(píng)價(jià)記為-1，3 級(jí)評(píng)分為中性評(píng)價(jià)記為0，4～5 級(jí)評(píng)分為正面評(píng)價(jià)記為1.

MR 數(shù)據(jù)集僅被分為兩類(lèi)，即正面評(píng)價(jià)記為1，和負(fù)面評(píng)價(jià)記為 -1.詳情如表2、3 所示.

表2 AmazonCorpus 語(yǔ)料庫(kù)樣例Tab.2 Samples of the AmazonCorpus

表3 MR 語(yǔ)料庫(kù)樣例Tab.3 Samples of the MR corpus

3.1 算法分類(lèi)精確度分析

此處選用MR 和AmazonCorpus2 兩個(gè)語(yǔ)料庫(kù)，將并行化算法與原始模型及兩個(gè)在情感分析任務(wù)上應(yīng)用較為廣泛的baseline 模型——CNN 和BLSTM做精確度對(duì)比試驗(yàn).試驗(yàn)時(shí)，并行化訓(xùn)練算法的Map節(jié)點(diǎn)設(shè)為3，Reduce 節(jié)點(diǎn)為1，試驗(yàn)結(jié)果如表4所示.從表4中可看出，并行化算法和原始算法擁有幾乎相同的精確度（精確度 = 預(yù)測(cè)正確樣本量/樣本總量），均高于CNN 和BLSTM 模型，但并行化算法訓(xùn)練時(shí)間遠(yuǎn)小于其它算法的訓(xùn)練時(shí)間.這是因?yàn)镃NN雖然具有較強(qiáng)的捕獲局部特征的能力，但它忽略了文本的上下文語(yǔ)義及結(jié)構(gòu)特征，使得模型的訓(xùn)練效果容易收斂到局部最小值而非全局最小值.而B(niǎo)LSTM通過(guò)一個(gè)正向LSTM 和一個(gè)反向LSTM 來(lái)學(xué)習(xí)文本的上下文語(yǔ)義特征的同時(shí)引入了較多的冗余特征信息，這些冗余信息會(huì)影響模型的精確度；且LSTM 內(nèi)部的門(mén)結(jié)構(gòu)和記憶單元使得模型的時(shí)間復(fù)雜度較大.

表4 算法精確度對(duì)比表Tab.4 Accuracy comparison of algorithms

3.2 算法執(zhí)行效率分析

對(duì)于并行化算法的執(zhí)行效率，此處分別針對(duì)并行化訓(xùn)練算法和并行化測(cè)試算法進(jìn)行分析.首先，用AmazonCorpus10 語(yǔ)料庫(kù)進(jìn)行并行化訓(xùn)練算法的仿真.集群節(jié)點(diǎn)個(gè)數(shù)分別為1、2 （1 個(gè)Mapper，1 個(gè)Reducer）、3 （2 個(gè)Mapper，1 個(gè)Reducer）、5 （4 個(gè)Mapper，1 個(gè)Reducer）、9 （8 個(gè)Mapper，1 個(gè)Reducer）、17（16 個(gè)Mapper，1 個(gè)Reducer），33 （32 個(gè)Mapper，1 個(gè)Reducer），節(jié)點(diǎn)個(gè)數(shù)為1 時(shí)，表示原始算法的訓(xùn)練；其余集群中Reduce 節(jié)點(diǎn)個(gè)數(shù)均為1.實(shí)驗(yàn)結(jié)果如圖5所示.

圖5 不同節(jié)點(diǎn)并行化訓(xùn)練時(shí)間對(duì)比Fig.5 Parallel training time comparison among different nodes

從圖5可得，當(dāng)集群中節(jié)點(diǎn)個(gè)數(shù)為2 時(shí)，并行化算法沒(méi)有原始算法效率高，其原因主要是節(jié)點(diǎn)初始化、任務(wù)調(diào)度及算法迭代時(shí)更新參數(shù)集均需要消耗一定量的時(shí)間.但隨著節(jié)點(diǎn)逐漸增多，耗時(shí)量幾乎線性下降，說(shuō)明并行化算法效果良好.當(dāng)節(jié)點(diǎn)增加到9 個(gè)以后，耗時(shí)量下降變緩，說(shuō)明訓(xùn)練時(shí)間受節(jié)點(diǎn)數(shù)量的制約開(kāi)始減弱，此時(shí)算法瓶頸已不再為Map 節(jié)點(diǎn)個(gè)數(shù).

其次，利用上述AmazonCorpus10 語(yǔ)料庫(kù)的訓(xùn)練得到的參數(shù)集來(lái)初始化“并行化測(cè)試算法”.測(cè)試集是在AmazonCorpus2 語(yǔ)料庫(kù)的基礎(chǔ)上，對(duì)其數(shù)據(jù)量作20、40、80、160 倍擴(kuò)展的大數(shù)據(jù)集，即本次測(cè)試的數(shù)據(jù)量為40、80、160、320 萬(wàn)條語(yǔ)句.針對(duì)這些數(shù)據(jù)，分別選擇1、3、4、6、10、18，34 個(gè)節(jié)點(diǎn)對(duì)其做并行化，其中節(jié)點(diǎn)個(gè)數(shù)為1 表示原始算法，其余集群中Reduce 節(jié)點(diǎn)個(gè)數(shù)均為2，實(shí)驗(yàn)結(jié)果如圖6所示.

圖6 不同數(shù)據(jù)量測(cè)試時(shí)間對(duì)比Fig.6 Test time comparison among different data volumes

從圖6可得出，當(dāng)數(shù)據(jù)量增大時(shí)，并行化測(cè)試算法可大大縮短數(shù)據(jù)集的執(zhí)行時(shí)間，如在語(yǔ)句數(shù)據(jù)量為40 萬(wàn)條時(shí)，34 個(gè)節(jié)點(diǎn)所需執(zhí)行時(shí)間約是原始算法的1/10.但數(shù)據(jù)量較大時(shí)，增加Map 節(jié)點(diǎn)個(gè)數(shù)，算法加速效果逐漸變?nèi)?，這種情況在語(yǔ)句數(shù)據(jù)量為320 萬(wàn)條時(shí)較為明顯.通過(guò)對(duì)集群節(jié)點(diǎn)計(jì)算量分析可知，此時(shí)影響算法效率的主要因素是Reduce 節(jié)點(diǎn)個(gè)數(shù).

為了進(jìn)一步探索Reduce 節(jié)點(diǎn)個(gè)數(shù)對(duì)加速效果的影響，此次在Map 節(jié)點(diǎn)為8、16、32 個(gè)時(shí)，通過(guò)增加Reduce 節(jié)點(diǎn)個(gè)數(shù)，分別測(cè)量語(yǔ)句數(shù)據(jù)量為320、640、1 280 萬(wàn) 條（AmazonCorpus2 語(yǔ) 料庫(kù) 作160、320、640 倍擴(kuò)展）時(shí)的并行化算法加速效果.實(shí)驗(yàn)結(jié)果如圖7所示.

從圖7、8、9 中可明顯得出，當(dāng)Map 節(jié)點(diǎn)達(dá)到一定量后，增加Reduce 節(jié)點(diǎn)個(gè)數(shù)，可顯著提高算法執(zhí)行效率.如圖7中Map 節(jié)點(diǎn)為32 時(shí)，相同語(yǔ)句數(shù)據(jù)量Reduce 節(jié)點(diǎn)個(gè)數(shù)為5 時(shí)的測(cè)試時(shí)間約是2 時(shí)的一半，可見(jiàn)當(dāng)Map 節(jié)點(diǎn)足夠多時(shí)，適當(dāng)增加Reduce節(jié)點(diǎn)個(gè)數(shù)可以提高算法的執(zhí)行效率.

圖8 640 萬(wàn)條語(yǔ)句數(shù)據(jù)量加速效果對(duì)比Fig.8 Acceleration effect comparison on 6.4 million data

圖9 1 280 萬(wàn)條語(yǔ)句數(shù)據(jù)量加速效果對(duì)比Fig.9 Acceleration effect comparison on 12.8 million data

4 結(jié)束語(yǔ)

本文基于MapReduce 并行化可擴(kuò)展計(jì)算框架提出了半監(jiān)督遞歸自編碼文本情感分析模型的優(yōu)化算法：針對(duì)模型在大訓(xùn)練數(shù)據(jù)集上收斂速度緩慢的問(wèn)題，本文優(yōu)化算法首先采用“分而治之”的思想對(duì)數(shù)據(jù)集做分塊處理后輸入Map 節(jié)點(diǎn)計(jì)算塊誤差，接著將塊誤差輸出到緩沖區(qū)中匯總，而Reduce 節(jié)點(diǎn)先利用塊誤差計(jì)算出優(yōu)化目標(biāo)函數(shù)，然后調(diào)用LBFGS 算法更新模型參數(shù)集，迭代上述訓(xùn)練過(guò)程直至目標(biāo)函數(shù)收斂，從而得到模型最優(yōu)參數(shù)集；針對(duì)模型在大測(cè)試數(shù)據(jù)集上測(cè)試結(jié)果輸出緩慢的問(wèn)題，本文優(yōu)化算法在利用最優(yōu)參數(shù)集初始化模型后，在Map 節(jié)點(diǎn)中計(jì)算出各句子的向量表示，并存儲(chǔ)于緩沖區(qū)中.然后Reduce 節(jié)點(diǎn)中的分類(lèi)器利用緩沖區(qū)中的向量表示計(jì)算各語(yǔ)句的情感標(biāo)簽.從實(shí)驗(yàn)結(jié)果可得出，本文算法明顯提高了原始算法的運(yùn)行效率.然而本文算法也有不足之處，如在訓(xùn)練階段，并行化算法中Reduce 節(jié)點(diǎn)一次最多只能運(yùn)行一個(gè)，這將成為大規(guī)模并行訓(xùn)練時(shí)算法的瓶頸；在測(cè)試階段，當(dāng)數(shù)據(jù)量大時(shí)Reduce 節(jié)點(diǎn)個(gè)數(shù)的選擇也直接影響了算法的效率，此時(shí)急需一種有效的調(diào)節(jié)機(jī)制，能夠均衡當(dāng)前集群中的Reduce 節(jié)點(diǎn)個(gè)數(shù)，以上這些都將成為今后進(jìn)一步研究的重點(diǎn).