亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的文本情感分析并行化算法

        2019-07-11 07:09:16翟東海侯佳林劉月
        關(guān)鍵詞:數(shù)據(jù)量個(gè)數(shù)向量

        翟東海 ,侯佳林 ,劉月

        (西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756)

        文本情感分析是利用計(jì)算機(jī)技術(shù)對(duì)“人們關(guān)于產(chǎn)品、服務(wù)、事件等實(shí)體的評(píng)論”等文本進(jìn)行分析處理以獲得其表達(dá)的主觀情感信息的過(guò)程.其主要包括:情感信息分類(lèi)、情感信息抽取、情感分析技術(shù)應(yīng)用等[1-3].傳統(tǒng)的情感分析方法包括支持向量機(jī)、條件隨機(jī)場(chǎng)、信息熵等,且均采用詞袋模型.如文獻(xiàn)[4]采用SVM (support vector machine)對(duì)句子進(jìn)行情感識(shí)別及分類(lèi).但這種淺層模型在處理海量數(shù)據(jù)時(shí)通常存在著數(shù)據(jù)稀疏性以及數(shù)據(jù)維度高等問(wèn)題.Geoffrey Hinton 等[5-6]于2006年提出的深度學(xué)習(xí)模型為解決這些問(wèn)題提供了新思路.當(dāng)前,在文本情感分析任務(wù)上應(yīng)用較多的神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、基于序列的模型(RNN)和樹(shù)型結(jié)構(gòu)模型(RAE)等.如文獻(xiàn)[7]采用CNN 進(jìn)行情感極性分類(lèi);文獻(xiàn)[8]采用雙向序列模型(BLSTM)進(jìn)行中文文本分類(lèi)研究.因樹(shù)形結(jié)構(gòu)模型(如深度學(xué)習(xí)中的遞歸自編碼算法)在文本特征提取、情感分析中表現(xiàn)優(yōu)異,受到了學(xué)者們的廣泛關(guān)注,如文獻(xiàn)[9-11]都是遞歸自編碼算法的典型應(yīng)用范例.

        神經(jīng)網(wǎng)絡(luò)模型雖然能夠極大程度地學(xué)習(xí)到文本內(nèi)容所隱含的語(yǔ)義信息,顯著提高分類(lèi)的準(zhǔn)確率,但深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)耗時(shí)、收斂慢的問(wèn)題也逐漸受到了研究者們的關(guān)注.文獻(xiàn)[12]通過(guò)開(kāi)發(fā)新的計(jì)算框架DistBelief 來(lái)實(shí)現(xiàn)大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;文獻(xiàn)[13]中使用GPU 來(lái)訓(xùn)練深度玻爾茲曼機(jī),但GPU因受內(nèi)存所限,數(shù)據(jù)量大時(shí)效果也不太理想.

        隨著并行計(jì)算的興起,在處理大規(guī)模數(shù)據(jù)、復(fù)雜計(jì)算時(shí),研究人員往往向其尋求幫助.Berkeley AMP lab 的Spark[14]、谷歌的TensorFlow[15]、微軟的Dryad[16]以及谷歌的MapReduce[17]都是該領(lǐng)域內(nèi)的佼佼者.而MapReduce 框架以其較強(qiáng)的可擴(kuò)展性、良好的可用性、較好的容錯(cuò)能力,成為研究者關(guān)注的熱點(diǎn)[18].在諸多MapReduce 的實(shí)現(xiàn)中,Apache Hadoo 因良好的開(kāi)源性深受業(yè)界青睞.因此,利用Apache Hadoop中的MapReduce 并行計(jì)算框架對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化加速也吸引了諸多學(xué)者的研究興趣.神經(jīng)網(wǎng)絡(luò)的并行化加速是在分布式集群上,用多個(gè)集群節(jié)點(diǎn)同時(shí)對(duì)一個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行并行化處理,以提高此網(wǎng)絡(luò)的訓(xùn)練速度.網(wǎng)絡(luò)的并行化方式分為兩種:節(jié)點(diǎn)并行化和數(shù)據(jù)并行化.但由于開(kāi)發(fā)者對(duì)MapReduce 框架的底層實(shí)現(xiàn)并不清楚,因此開(kāi)發(fā)者不能明確地將某項(xiàng)任務(wù)交由某個(gè)節(jié)點(diǎn)處理.且對(duì)海量數(shù)據(jù)集的節(jié)點(diǎn)并行化處理會(huì)使得I/O 開(kāi)銷(xiāo)過(guò)大.因此,在MapReduce 框架中采用的是數(shù)據(jù)并行方式來(lái)加速網(wǎng)絡(luò)訓(xùn)練.文獻(xiàn)[19-21]皆是基于Hadoop 中的MapReduce 所做的不同并行化處理的例子,證明了利用MapReduce可以有效加快網(wǎng)絡(luò)訓(xùn)練速度,從而大大縮短神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間.

        本文針對(duì)Socher 等提出的Semi-Supervised 文本情感分析算法[9],使用開(kāi)源Hadoop 中的MapReduce并行框架提出并行優(yōu)化策略,綜合利用集群節(jié)點(diǎn)的計(jì)算資源,使其在處理大規(guī)模文本時(shí)更加高效.

        1 相關(guān)工作

        1.1 MapReduce

        Google 提出的MapReduce 以其優(yōu)越的整合計(jì)算節(jié)點(diǎn)的能力所著稱(chēng),此處對(duì)其做簡(jiǎn)要介紹.MapReduce 采用“分而治之”的思想,通過(guò)主節(jié)點(diǎn)調(diào)度,將任務(wù)分配到其下的子節(jié)點(diǎn)中,并行處理后輸出最終結(jié)果.總的來(lái)說(shuō),MapReduce 是通過(guò)用戶編寫(xiě)Map 函數(shù)和Reduce 函數(shù)來(lái)實(shí)現(xiàn)結(jié)果計(jì)算的,用戶只需關(guān)注這兩個(gè)函數(shù)的編寫(xiě),其他的問(wèn)題,諸如容錯(cuò)、負(fù)載均衡、調(diào)度都交給框架處理.在MapReduce中,一個(gè)任務(wù)首先被分成許多輸入鍵值對(duì)<kin,vin>,然后在Map 函數(shù)作用下生成中間結(jié)果<kmid,vmid>,這些中間結(jié)果存放于內(nèi)存之中.接著,這些中間結(jié)果將作為Reduce 函數(shù)的輸入,根據(jù)Reduce 中的用戶邏輯輸出最終結(jié)果<kout,vout>.其流程如圖1所示,圖中:M為數(shù)據(jù)存儲(chǔ)數(shù);m為中間結(jié)果鍵值對(duì)數(shù)目.

        圖1 MapReduce 工作流程Fig.1 Workflow chart of MapReduce

        1.2 Semi-Supervised RAE 文本情感分析

        1.2.1 用詞向量表示詞語(yǔ)

        不同于以往的詞袋模型[22],Semi-Supervised RAE用詞向量表示詞語(yǔ)并作為神經(jīng)網(wǎng)絡(luò)的輸入,如(0,1,0,0)表示“大學(xué)生”,(1,1,0,1)表示“教師”.若一個(gè)句子x含m個(gè)詞,則第k個(gè)詞為xk,1 ≤k≤m.將詞xk以標(biāo)準(zhǔn)正態(tài)分布的形式映射到n維實(shí)向量空間上,可表示為xk∈Rn.所有詞的詞向量存儲(chǔ)在一個(gè)詞嵌入矩陣L∈Rn×|V|中,V為詞匯表的大小.則xk的向量表示為

        式中:bk為一個(gè)維度為詞表大小、值為0 或1 的二值向量,除了第k個(gè)索引之外的所有位置都是0.

        1.2.2 有監(jiān)督遞歸自編碼

        在獲取句子的低維向量表示時(shí),傳統(tǒng)的自編碼方法需要將句子的樹(shù)形結(jié)構(gòu)作為先驗(yàn)知識(shí),這種編碼方法稱(chēng)為有監(jiān)督遞歸自編碼.假設(shè)一個(gè)句子用向量表示為x= (x1,x2,···,xm),已知子節(jié)點(diǎn)c1、c2的輸入詞向量為x1、x2,則父節(jié)點(diǎn)pi的計(jì)算方法為

        式中:i=1 ,2,···;C= [c1;c2]表示c1、c2的詞向量拼接矩陣;f(·)為 網(wǎng)絡(luò)的激活函數(shù);wfi和bfi分別為計(jì)算父節(jié)點(diǎn)時(shí)的權(quán)重和偏置參數(shù).

        為了測(cè)試父節(jié)點(diǎn)對(duì)子節(jié)點(diǎn)的表示能力,在各父節(jié)點(diǎn)上添加其對(duì)應(yīng)子節(jié)點(diǎn)的重構(gòu)層(圖2),根據(jù)原始節(jié)點(diǎn)與重構(gòu)節(jié)點(diǎn)的差值來(lái)表示誤差.

        圖2 有監(jiān)督遞歸自編碼結(jié)構(gòu)Fig.2 Structure of supervised RAE

        重構(gòu)節(jié)點(diǎn)計(jì)算方法為

        式中:j=1 ,2,···;C′=[c′1;c′2]為c1、c2的重構(gòu)節(jié)點(diǎn)c′1、c′2的詞向量拼接矩陣;brj為偏置項(xiàng);wrj為權(quán)重參數(shù)矩陣.

        詞向量采用歐式距離計(jì)算重構(gòu)誤差,即

        1.2.3 無(wú)監(jiān)督遞歸自編碼

        通常情況下,句子的樹(shù)形結(jié)構(gòu)往往未知,這種需要自主學(xué)習(xí)樹(shù)形結(jié)構(gòu)的自編碼方法稱(chēng)為無(wú)監(jiān)督遞歸自編碼.樹(shù)形結(jié)構(gòu)預(yù)測(cè)過(guò)程的優(yōu)化目標(biāo)函數(shù)為

        式中:Rθ(x)為句子x的最優(yōu)樹(shù)型結(jié)構(gòu)模型,θ為參數(shù)集;集合A(x)為句子x所有可能的樹(shù)形結(jié)構(gòu)集合;y為其中的一種結(jié)構(gòu);s為計(jì)算過(guò)程中非終端節(jié)點(diǎn)的三元結(jié)構(gòu)(由2 個(gè)子節(jié)點(diǎn)cs1、cs2和1 個(gè)父節(jié)點(diǎn)Ps組成);Cs=[cs1,cs2];T(y)為這種三元結(jié)構(gòu)的檢索函數(shù).

        不同詞語(yǔ)對(duì)句子整體含義的貢獻(xiàn)度不同,為了體現(xiàn)這種差異在計(jì)算重構(gòu)誤差時(shí)給不同的詞語(yǔ)賦予不同的權(quán)重,

        式中:n1、n2為當(dāng)前子節(jié)點(diǎn)c1、c2下面的詞數(shù).

        為了防止遞歸自編碼算法在不斷迭代減小重構(gòu)誤差時(shí)計(jì)算出的父節(jié)點(diǎn)過(guò)小,為后續(xù)計(jì)算造成不必要的麻煩,此處對(duì)式(2)進(jìn)行歸一化處理:

        1.2.4 半監(jiān)督遞歸自編碼

        得到句子的向量表示后,為計(jì)算整體語(yǔ)句的情感傾向,在網(wǎng)絡(luò)結(jié)構(gòu)上增加softmax(·)分類(lèi)器:

        式中:l為當(dāng)前的情感種類(lèi);wl為參數(shù)矩陣.

        若有K種情感,則d∈RK,且分類(lèi)層交叉熵誤差計(jì)算方法為

        式中:t為標(biāo)簽的分布;tk為第k種情感的標(biāo)簽分布;dk為條件概率,且

        因此,半監(jiān)督遞歸自編碼在數(shù)據(jù)集上的優(yōu)化目標(biāo)函數(shù)為

        式中:N為訓(xùn)練數(shù)據(jù)集大??;λ為L(zhǎng)2正則項(xiàng)系數(shù);

        并且,此時(shí)每個(gè)非終端節(jié)點(diǎn)的誤差變?yōu)橹貥?gòu)誤差與交叉熵誤差的加權(quán)和為

        式中:α為權(quán)衡重構(gòu)誤差和交叉熵誤差的調(diào)節(jié)參數(shù).

        采用L-BFGS (limited-memory Broyden-Fletcher-Goldfarb-Shanno)算法求解優(yōu)化目標(biāo)函數(shù)式(11)的最優(yōu)解,其中所用的梯度為

        式中:θ= {wfi,bfi,wrj,brj,wl,L}.

        2 Semi-Supervised RAE 模型的并行化

        在使用Semi-Supervised RAE 算法進(jìn)行文本情感分析時(shí),往往需要先根據(jù)訓(xùn)練數(shù)據(jù)集,訓(xùn)練出較好的模型,然后再將此模型應(yīng)用于情感分析.因此,針對(duì)Semi-Supervised RAE 模型的并行化也將分為兩步:首先是針對(duì)大量訓(xùn)練數(shù)據(jù)集的并行化研究,當(dāng)模型訓(xùn)練好后,利用其并調(diào)用相應(yīng)的并行化算法,進(jìn)行測(cè)試數(shù)據(jù)集的文本情感分析.

        2.1 大量訓(xùn)練數(shù)據(jù)集情況下

        在Semi-Supervised RAE 的訓(xùn)練階段,通過(guò)貪心算法構(gòu)建句子的最優(yōu)樹(shù)結(jié)構(gòu)以獲得該語(yǔ)句的向量編碼,接著通過(guò)優(yōu)化目標(biāo)函數(shù)式(11)迭代得到最優(yōu)的參數(shù)集,為獲得最佳文本情感分析結(jié)果做好準(zhǔn)備.

        本文采用MapReduce 并行框架來(lái)加快訓(xùn)練速度以便解決原模型在大數(shù)據(jù)量的情況下訓(xùn)練時(shí)間過(guò)長(zhǎng)的問(wèn)題.首先對(duì)總的訓(xùn)練數(shù)據(jù)集進(jìn)行分塊,并將每一個(gè)數(shù)據(jù)塊分派給不同的Map 節(jié)點(diǎn).利用這些數(shù)據(jù)塊,Map 節(jié)點(diǎn)依次計(jì)算相應(yīng)數(shù)據(jù)塊中每一個(gè)句子x的最優(yōu)樹(shù)結(jié)構(gòu),并計(jì)算相應(yīng)句子的誤差,直至數(shù)據(jù)塊中所有語(yǔ)句誤差計(jì)算完畢并暫存在緩沖區(qū).Reduce階段,節(jié)點(diǎn)累加緩沖區(qū)的塊誤差來(lái)計(jì)算得到這個(gè)數(shù)據(jù)集的誤差和并利用L-BFGS 算法求出最優(yōu)參數(shù)集.算法整體流程如圖3所示.該算法的主要計(jì)算量集中于Map 階段,為了克服并行化后神經(jīng)網(wǎng)絡(luò)出現(xiàn)弱化現(xiàn)象[19],集群只設(shè)置了一個(gè)Reduce 節(jié)點(diǎn)如圖3所示,圖中Nt為訓(xùn)練數(shù)據(jù)集合塊數(shù).

        2.2 大量測(cè)試數(shù)據(jù)集情況下

        當(dāng)模型訓(xùn)練好后,本文針對(duì)測(cè)試數(shù)據(jù)集較大情況下測(cè)試結(jié)果輸出慢的特點(diǎn),也設(shè)計(jì)了相應(yīng)的并行化算法.首先,將測(cè)試數(shù)據(jù)集分塊,用訓(xùn)練階段得到的最優(yōu)參數(shù)集來(lái)初始化節(jié)點(diǎn).在Map 階段,求出每條語(yǔ)句的向量表示,并輸出到緩沖區(qū).在Reduce 階段,softmax(·)分類(lèi)器利用每條語(yǔ)句的向量表示輸出句子ID 及其情感標(biāo)簽,算法流程如圖4所示,圖中,Nc為測(cè)試數(shù)據(jù)集合塊數(shù).

        圖3 大量訓(xùn)練集并行化算法Fig.3 Parallel Computing based on a big training dataset

        圖4 大量測(cè)試集并行化算法Fig.4 Parallel Computing based on a big test datasets

        3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)中用到的節(jié)點(diǎn)皆為AMD 雙核2.5 GHz 處理器,內(nèi)存4 GB.節(jié)點(diǎn)操作系統(tǒng)為Ubuntu14.04,Hadoop版本為1.0.2,Java 版本為1.6.0_33.此次實(shí)驗(yàn)中,詞向量選用100 維,算法最大迭代次數(shù)為1 000,權(quán)衡重構(gòu)誤差和交叉熵誤差的調(diào)節(jié)參數(shù)α設(shè)為0.2.

        為了克服現(xiàn)有的情感分析語(yǔ)料庫(kù)數(shù)據(jù)量較小[23-24]的問(wèn)題,本文采用爬蟲(chóng)程序從美國(guó)亞馬遜購(gòu)物網(wǎng)站上抓取了12 萬(wàn)條商品評(píng)論數(shù)據(jù),構(gòu)建了兩個(gè)語(yǔ)料庫(kù)AmazonCorpus2 和AmazonCorpus10,用以測(cè)試并行化后的加速效果.此外,Movie Reviews(MR)[25]數(shù)據(jù)集也用于本文實(shí)例驗(yàn)證中,以分析算法分類(lèi)準(zhǔn)確率時(shí)與原算法作對(duì)比(如表1所示).

        表1 語(yǔ)料庫(kù)信息Tab.1 Corpus information

        根據(jù)商品質(zhì)量的優(yōu)劣,美國(guó)亞馬遜購(gòu)物網(wǎng)站將用戶對(duì)商品的評(píng)分設(shè)置為1~5 級(jí).為了便于情感分析與模型訓(xùn)練,在本文制作的語(yǔ)料庫(kù)中將1~5 級(jí)轉(zhuǎn)化為負(fù)面、中性、正面3 類(lèi)評(píng)價(jià),轉(zhuǎn)換規(guī)則如下:1~2 級(jí)評(píng)分為負(fù)面評(píng)價(jià)記為-1,3 級(jí)評(píng)分為中性評(píng)價(jià)記為0,4~5 級(jí)評(píng)分為正面評(píng)價(jià)記為1.

        MR 數(shù)據(jù)集僅被分為兩類(lèi),即正面評(píng)價(jià)記為1,和負(fù)面評(píng)價(jià)記為 -1.詳情如表2、3 所示.

        表2 AmazonCorpus 語(yǔ)料庫(kù)樣例Tab.2 Samples of the AmazonCorpus

        表3 MR 語(yǔ)料庫(kù)樣例Tab.3 Samples of the MR corpus

        3.1 算法分類(lèi)精確度分析

        此處選用MR 和AmazonCorpus2 兩個(gè)語(yǔ)料庫(kù),將并行化算法與原始模型及兩個(gè)在情感分析任務(wù)上應(yīng)用較為廣泛的baseline 模型——CNN 和BLSTM做精確度對(duì)比試驗(yàn).試驗(yàn)時(shí),并行化訓(xùn)練算法的Map節(jié)點(diǎn)設(shè)為3,Reduce 節(jié)點(diǎn)為1,試驗(yàn)結(jié)果如表4所示.從表4中可看出,并行化算法和原始算法擁有幾乎相同的精確度(精確度 = 預(yù)測(cè)正確樣本量/樣本總量),均高于CNN 和BLSTM 模型,但并行化算法訓(xùn)練時(shí)間遠(yuǎn)小于其它算法的訓(xùn)練時(shí)間.這是因?yàn)镃NN雖然具有較強(qiáng)的捕獲局部特征的能力,但它忽略了文本的上下文語(yǔ)義及結(jié)構(gòu)特征,使得模型的訓(xùn)練效果容易收斂到局部最小值而非全局最小值.而B(niǎo)LSTM通過(guò)一個(gè)正向LSTM 和一個(gè)反向LSTM 來(lái)學(xué)習(xí)文本的上下文語(yǔ)義特征的同時(shí)引入了較多的冗余特征信息,這些冗余信息會(huì)影響模型的精確度;且LSTM 內(nèi)部的門(mén)結(jié)構(gòu)和記憶單元使得模型的時(shí)間復(fù)雜度較大.

        表4 算法精確度對(duì)比表Tab.4 Accuracy comparison of algorithms

        3.2 算法執(zhí)行效率分析

        對(duì)于并行化算法的執(zhí)行效率,此處分別針對(duì)并行化訓(xùn)練算法和并行化測(cè)試算法進(jìn)行分析.首先,用AmazonCorpus10 語(yǔ)料庫(kù)進(jìn)行并行化訓(xùn)練算法的仿真.集群節(jié)點(diǎn)個(gè)數(shù)分別為1、2 (1 個(gè)Mapper,1 個(gè)Reducer)、3 (2 個(gè)Mapper,1 個(gè)Reducer)、5 (4 個(gè)Mapper,1 個(gè)Reducer)、9 (8 個(gè)Mapper,1 個(gè)Reducer)、17(16 個(gè)Mapper,1 個(gè)Reducer),33 (32 個(gè)Mapper,1 個(gè)Reducer),節(jié)點(diǎn)個(gè)數(shù)為1 時(shí),表示原始算法的訓(xùn)練;其余集群中Reduce 節(jié)點(diǎn)個(gè)數(shù)均為1.實(shí)驗(yàn)結(jié)果如圖5所示.

        圖5 不同節(jié)點(diǎn)并行化訓(xùn)練時(shí)間對(duì)比Fig.5 Parallel training time comparison among different nodes

        從圖5可得,當(dāng)集群中節(jié)點(diǎn)個(gè)數(shù)為2 時(shí),并行化算法沒(méi)有原始算法效率高,其原因主要是節(jié)點(diǎn)初始化、任務(wù)調(diào)度及算法迭代時(shí)更新參數(shù)集均需要消耗一定量的時(shí)間.但隨著節(jié)點(diǎn)逐漸增多,耗時(shí)量幾乎線性下降,說(shuō)明并行化算法效果良好.當(dāng)節(jié)點(diǎn)增加到9 個(gè)以后,耗時(shí)量下降變緩,說(shuō)明訓(xùn)練時(shí)間受節(jié)點(diǎn)數(shù)量的制約開(kāi)始減弱,此時(shí)算法瓶頸已不再為Map 節(jié)點(diǎn)個(gè)數(shù).

        其次,利用上述AmazonCorpus10 語(yǔ)料庫(kù)的訓(xùn)練得到的參數(shù)集來(lái)初始化“并行化測(cè)試算法”.測(cè)試集是在AmazonCorpus2 語(yǔ)料庫(kù)的基礎(chǔ)上,對(duì)其數(shù)據(jù)量作20、40、80、160 倍擴(kuò)展的大數(shù)據(jù)集,即本次測(cè)試的數(shù)據(jù)量為40、80、160、320 萬(wàn)條語(yǔ)句.針對(duì)這些數(shù)據(jù),分別選擇1、3、4、6、10、18,34 個(gè)節(jié)點(diǎn)對(duì)其做并行化,其中節(jié)點(diǎn)個(gè)數(shù)為1 表示原始算法,其余集群中Reduce 節(jié)點(diǎn)個(gè)數(shù)均為2,實(shí)驗(yàn)結(jié)果如圖6所示.

        圖6 不同數(shù)據(jù)量測(cè)試時(shí)間對(duì)比Fig.6 Test time comparison among different data volumes

        從圖6可得出,當(dāng)數(shù)據(jù)量增大時(shí),并行化測(cè)試算法可大大縮短數(shù)據(jù)集的執(zhí)行時(shí)間,如在語(yǔ)句數(shù)據(jù)量為40 萬(wàn)條時(shí),34 個(gè)節(jié)點(diǎn)所需執(zhí)行時(shí)間約是原始算法的1/10.但數(shù)據(jù)量較大時(shí),增加Map 節(jié)點(diǎn)個(gè)數(shù),算法加速效果逐漸變?nèi)?,這種情況在語(yǔ)句數(shù)據(jù)量為320 萬(wàn)條時(shí)較為明顯.通過(guò)對(duì)集群節(jié)點(diǎn)計(jì)算量分析可知,此時(shí)影響算法效率的主要因素是Reduce 節(jié)點(diǎn)個(gè)數(shù).

        為了進(jìn)一步探索Reduce 節(jié)點(diǎn)個(gè)數(shù)對(duì)加速效果的影響,此次在Map 節(jié)點(diǎn)為8、16、32 個(gè)時(shí),通過(guò)增加Reduce 節(jié)點(diǎn)個(gè)數(shù),分別測(cè)量語(yǔ)句數(shù)據(jù)量為320、640、1 280 萬(wàn) 條(AmazonCorpus2 語(yǔ) 料 庫(kù) 作160、320、640 倍擴(kuò)展)時(shí)的并行化算法加速效果.實(shí)驗(yàn)結(jié)果如圖7所示.

        從圖7、8、9 中可明顯得出,當(dāng)Map 節(jié)點(diǎn)達(dá)到一定量后,增加Reduce 節(jié)點(diǎn)個(gè)數(shù),可顯著提高算法執(zhí)行效率.如圖7中Map 節(jié)點(diǎn)為32 時(shí),相同語(yǔ)句數(shù)據(jù)量Reduce 節(jié)點(diǎn)個(gè)數(shù)為5 時(shí)的測(cè)試時(shí)間約是2 時(shí)的一半,可見(jiàn)當(dāng)Map 節(jié)點(diǎn)足夠多時(shí),適當(dāng)增加Reduce節(jié)點(diǎn)個(gè)數(shù)可以提高算法的執(zhí)行效率.

        圖8 640 萬(wàn)條語(yǔ)句數(shù)據(jù)量加速效果對(duì)比Fig.8 Acceleration effect comparison on 6.4 million data

        圖9 1 280 萬(wàn)條語(yǔ)句數(shù)據(jù)量加速效果對(duì)比Fig.9 Acceleration effect comparison on 12.8 million data

        4 結(jié)束語(yǔ)

        本文基于MapReduce 并行化可擴(kuò)展計(jì)算框架提出了半監(jiān)督遞歸自編碼文本情感分析模型的優(yōu)化算法:針對(duì)模型在大訓(xùn)練數(shù)據(jù)集上收斂速度緩慢的問(wèn)題,本文優(yōu)化算法首先采用“分而治之”的思想對(duì)數(shù)據(jù)集做分塊處理后輸入Map 節(jié)點(diǎn)計(jì)算塊誤差,接著將塊誤差輸出到緩沖區(qū)中匯總,而Reduce 節(jié)點(diǎn)先利用塊誤差計(jì)算出優(yōu)化目標(biāo)函數(shù),然后調(diào)用LBFGS 算法更新模型參數(shù)集,迭代上述訓(xùn)練過(guò)程直至目標(biāo)函數(shù)收斂,從而得到模型最優(yōu)參數(shù)集;針對(duì)模型在大測(cè)試數(shù)據(jù)集上測(cè)試結(jié)果輸出緩慢的問(wèn)題,本文優(yōu)化算法在利用最優(yōu)參數(shù)集初始化模型后,在Map 節(jié)點(diǎn)中計(jì)算出各句子的向量表示,并存儲(chǔ)于緩沖區(qū)中.然后Reduce 節(jié)點(diǎn)中的分類(lèi)器利用緩沖區(qū)中的向量表示計(jì)算各語(yǔ)句的情感標(biāo)簽.從實(shí)驗(yàn)結(jié)果可得出,本文算法明顯提高了原始算法的運(yùn)行效率.然而本文算法也有不足之處,如在訓(xùn)練階段,并行化算法中Reduce 節(jié)點(diǎn)一次最多只能運(yùn)行一個(gè),這將成為大規(guī)模并行訓(xùn)練時(shí)算法的瓶頸;在測(cè)試階段,當(dāng)數(shù)據(jù)量大時(shí)Reduce 節(jié)點(diǎn)個(gè)數(shù)的選擇也直接影響了算法的效率,此時(shí)急需一種有效的調(diào)節(jié)機(jī)制,能夠均衡當(dāng)前集群中的Reduce 節(jié)點(diǎn)個(gè)數(shù),以上這些都將成為今后進(jìn)一步研究的重點(diǎn).

        猜你喜歡
        數(shù)據(jù)量個(gè)數(shù)向量
        向量的分解
        怎樣數(shù)出小正方體的個(gè)數(shù)
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計(jì)算Lyapunov指數(shù)的模糊C均值聚類(lèi)小數(shù)據(jù)量法
        聚焦“向量與三角”創(chuàng)新題
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        等腰三角形個(gè)數(shù)探索
        怎樣數(shù)出小木塊的個(gè)數(shù)
        怎樣數(shù)出小正方體的個(gè)數(shù)
        亚洲精品成人一区二区三区| 中文无码久久精品| 激情五月天在线观看视频| 校园春色人妻激情高清中文字幕 | 大陆成人精品自拍视频在线观看| 国产人妻熟女高跟丝袜| 国产女人精品视频国产灰线| 多毛小伙内射老太婆| 国产精品久线在线观看| 日本阿v网站在线观看中文| 偷亚洲偷国产欧美高清| 亚洲一区二区女优av| 久久免费精品日本久久中文字幕| 免费a级毛片在线播放| 亚瑟国产精品久久| 亚洲日韩乱码中文无码蜜桃臀| 国模少妇无码一区二区三区| 视频一区中文字幕日韩| 亚洲女同一区二区三区| 情爱偷拍视频一区二区| 极品少妇hdxx麻豆hdxx| 国内成+人 亚洲+欧美+综合在线 | 免费又黄又爽又色的视频| 少妇高潮无套内谢麻豆传| 国产成人av大片大片在线播放| 久久精品国产亚洲av蜜臀| 99久久国产亚洲综合精品| 狠狠躁夜夜躁人人爽天天不卡| 女同在线视频一区二区| 中文字幕一区二区三区四区| 国产a在亚洲线播放| 97在线观看播放| 精品日韩欧美一区二区在线播放 | 中文字幕人妻被公喝醉在线| 区一区二区三区四视频在线观看| 999精品无码a片在线1级| 中文字幕人妻熟在线影院| 国产农村妇女高潮大叫| 自拍视频国产在线观看| 亚洲一区二区三区av资源| 亚洲第一最快av网站|