亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于張量分解的分布式主題分類模型①

        2018-06-14 08:49:06馬年圣卞藝杰唐明偉
        關(guān)鍵詞:張量文檔詞語(yǔ)

        馬年圣,卞藝杰,唐明偉

        1(河海大學(xué) 商學(xué)院,南京 211100)

        2(南京審計(jì)大學(xué) 管理科學(xué)與工程學(xué)院,南京 211815)

        大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)信息紛繁復(fù)雜,需要我們從眾多網(wǎng)絡(luò)數(shù)據(jù)中提取出高價(jià)值的隱含信息,挖掘出的分類信息可用于內(nèi)容推薦、針對(duì)性營(yíng)銷以及實(shí)時(shí)預(yù)測(cè)等功能.而其中主題分類又是現(xiàn)今網(wǎng)絡(luò)信息時(shí)代的一大研究熱點(diǎn),傳統(tǒng)的主題分類主要是以基本分類方法以及人工標(biāo)簽來(lái)實(shí)現(xiàn),但是人工干預(yù)過(guò)多勢(shì)必影響到最終的分類結(jié)果,這就需要我們尋求一個(gè)無(wú)監(jiān)督的方法,從文檔信息的采集到最后的結(jié)果輸出無(wú)需人工參與.

        LDA (Latent Distributed Allocation)主題模型便是一個(gè)無(wú)監(jiān)督的數(shù)據(jù)挖掘方法,該模型可從大規(guī)模數(shù)據(jù)中進(jìn)行文檔主題的抽取,能夠出色地完成挖掘文本的潛在關(guān)系、判別關(guān)聯(lián)性等工作,顯著提高信息的分類及利用效率.LDA模型參數(shù)計(jì)算的空間以及時(shí)間復(fù)雜度較高,并且對(duì)軟硬件需求也提出高要求,所以模型參數(shù)求解優(yōu)化一直是研究熱點(diǎn).Blei等人采用“變分推斷-EM”算法進(jìn)行LDA模型參數(shù)計(jì)算,在單機(jī)模式下,隨機(jī)變分推斷快速而準(zhǔn)確,但是在分布式計(jì)算中因交互過(guò)高而顯疲態(tài)[1];批量變分推斷具有很高的交互效率,但在計(jì)算E-step時(shí)并行效率差強(qiáng)人意[2];馬爾可夫鏈在分布式同步和異步計(jì)算方面體現(xiàn)出較好的移植性,但其計(jì)算效率過(guò)低還有待優(yōu)化[3];唐曉波等人采用熱度進(jìn)行模型參數(shù)計(jì)算的優(yōu)化,通過(guò)求解微博的熱度來(lái)實(shí)現(xiàn)信息的分類工作,其結(jié)果也更加直觀,但是其熱度的計(jì)算方法比較單一,并不適用于其他的網(wǎng)絡(luò)數(shù)據(jù)的分類工作[4].

        而在LDA模型的針對(duì)性使用方案方面也進(jìn)行了大量研究,Ramage等人提出Labeled LDA模型進(jìn)行有監(jiān)督的主題分類,在主題建模中添加文檔的標(biāo)簽,克服了原始模型強(qiáng)制分配主題的缺陷,但是也使得計(jì)算量翻倍增加[5];桂思思等人融入多時(shí)間節(jié)點(diǎn)函數(shù)進(jìn)行用戶興趣的預(yù)測(cè),但是時(shí)間差值的確定比較主觀,偏差不可避免[6];關(guān)鵬等人采用生命周期理論同主題模型結(jié)合,能夠展現(xiàn)所觀察文本的隨時(shí)間所發(fā)生的變化,然而參數(shù)的計(jì)算沒(méi)有改進(jìn)為適合生命周期理論的方法[7].

        上述國(guó)內(nèi)外對(duì)于LDA主題模型的改進(jìn)都針對(duì)特定的數(shù)據(jù)分類,而在處理數(shù)據(jù)量大、維度較高的網(wǎng)絡(luò)信息時(shí)效率、準(zhǔn)確性等問(wèn)題便凸顯出來(lái),且上述研究大部分都是單機(jī)下進(jìn)行實(shí)驗(yàn),平臺(tái)移植性較差.LDA主題模型涵蓋了大量的數(shù)據(jù)以及變量,構(gòu)成了高維數(shù)據(jù)問(wèn)題,在時(shí)間軸上產(chǎn)生了大量的多元數(shù)據(jù),其中也包含很多數(shù)據(jù)噪聲,而張量分解方法能夠通過(guò)數(shù)據(jù)降維以及張量近似的方法來(lái)優(yōu)化計(jì)算.本文通過(guò)隨機(jī)奇異值分解和白化變換將主題模型參數(shù)計(jì)算轉(zhuǎn)化為三階張量的CP分解,加之以ALS算法以及數(shù)據(jù)處理技術(shù),極大地提高了并行化和準(zhǔn)確性,可達(dá)到更高的收斂率以及抗干擾性.本文實(shí)驗(yàn)在Spark集群上進(jìn)行,充分發(fā)揮Spark作為輕量級(jí)大數(shù)據(jù)處理框架的特點(diǎn),及其大規(guī)模數(shù)據(jù)的計(jì)算效率明顯優(yōu)于Hadoop的特性.改進(jìn)后的LDA計(jì)算模型適用于大數(shù)據(jù)時(shí)代復(fù)雜且高維的信息特點(diǎn),能夠出色地完成巨量網(wǎng)絡(luò)信息的分類工作,適用于搜索引擎、文本解讀、信息推送等數(shù)據(jù)應(yīng)用領(lǐng)域.

        1 相關(guān)基礎(chǔ)理論

        在國(guó)內(nèi)外學(xué)者的討論當(dāng)中,LDA主題模型暴露出其不足的方面,單機(jī)模式下,模型訓(xùn)練時(shí)間長(zhǎng),精確度不高,并且對(duì)于模型超參求解的要求較高,這些都對(duì)模型的發(fā)展應(yīng)用提出了挑戰(zhàn).現(xiàn)被廣泛使用的LDA參數(shù)求解方法有變分推斷和馬爾可夫鏈,但數(shù)據(jù)量較大的情況下,兩種方法的計(jì)算效率還是比較低下,這就需要我們采用“分治”思想,選用張量分解的方法來(lái)優(yōu)化模型參數(shù)計(jì)算,采用更高效率和精確度的降維計(jì)算方法,同時(shí)使用分布式計(jì)算模式來(lái)提升模型訓(xùn)練的效率,以適用于網(wǎng)絡(luò)大數(shù)據(jù)量文本的主題分類推薦.

        1.1 LDA主題模型

        潛在狄利克雷分布模型LDA由Blei等人于2003年提出后,便被廣泛應(yīng)用于觀點(diǎn)挖掘、主題相關(guān)性和信息檢索等領(lǐng)域[8].LDA通過(guò)對(duì)離散數(shù)據(jù)集的建模,從中提取文本隱含主題,能在海量網(wǎng)絡(luò)數(shù)據(jù)中自動(dòng)尋找信息間的語(yǔ)義主題,克服傳統(tǒng)信息檢索中文檔相似度計(jì)算方法的缺陷.LDA主題模型屬于詞袋模型,它認(rèn)為文本中包含著無(wú)序的詞語(yǔ),參數(shù)空間的規(guī)模與訓(xùn)練文檔數(shù)量無(wú)關(guān),適合處理大規(guī)模語(yǔ)料庫(kù).同時(shí)作為全概率生成模型,LDA主題模型的突出優(yōu)點(diǎn)是具有清晰的層次結(jié)構(gòu)[9],LDA是一個(gè)三層的貝葉斯框架模型,每一層都有相應(yīng)的隨機(jī)變量或者參數(shù)控制,包含詞匯、主題、文檔的三層結(jié)構(gòu),數(shù)據(jù)集中的文檔被看作是有限個(gè)隱含主題所構(gòu)成的混合分布,而相應(yīng)的每個(gè)主題也都是對(duì)應(yīng)的數(shù)據(jù)集中一組特征詞匯的混合分布,模型的概率圖如圖1所示.

        圖1 LDA主題模型概率圖

        圖1中,只有W是可觀察到的變量,其他都是隱含變量或者參數(shù).其中,φ表示“主題-詞語(yǔ)”分布,θ表示“文檔-主題”分布,α、 β分別是 θ和 φ的先驗(yàn)分布,N表示文檔的單詞總數(shù),M表示文檔的總數(shù),Z為選定的主題,由以上LDA主題模型概率圖可得到主題生成的聯(lián)合概率如公式(1)所示:

        LDA模型訓(xùn)練便是求得參數(shù) α和 β的值,使P(θ|α,β)為最大.同LSA和PLSA模型會(huì)產(chǎn)生的過(guò)擬合問(wèn)題不同,LDA主題模型采用狄利克雷分布,從而簡(jiǎn)化了模型的推導(dǎo)過(guò)程,并且具有很好的先驗(yàn)概率假設(shè),參數(shù)數(shù)量不會(huì)隨著文本數(shù)量的增長(zhǎng)而線性增長(zhǎng),泛化能力強(qiáng),在算法復(fù)雜度和展示效果方面表現(xiàn)優(yōu)越,廣泛應(yīng)用于文本的處理當(dāng)中.

        1.2 CP分解

        CP分解,即Candecomp/Parafac分解,是傳統(tǒng)矩陣分解的拓展,廣泛應(yīng)用于信號(hào)傳輸、數(shù)據(jù)分析等領(lǐng)域,它是把張量分解為一系列rank-one張量的計(jì)算過(guò)程,對(duì)于一個(gè)三階張量分解可以寫(xiě)成如下的向量和的形式:

        其中,?表示張量積運(yùn)算,R表示張量的秩公式(2)中三階張量也可寫(xiě)成如下元素乘和的等價(jià)形式:

        式中根據(jù)公式(3),CP分解便將張量表示為有限數(shù)目的rankone張量之和,分解模型如圖2所示.

        圖2 CP分解模型

        CP分解具有唯一性,其實(shí)質(zhì)上指的是張量的秩分解是唯一的,而傳統(tǒng)的矩陣分解并不是唯一的[10].目前已有多種方法可以計(jì)算CP分解,其中最簡(jiǎn)單有效的是交替最小二乘法(Alternating Least Square,ALS),也是本文所選用的張量分解方法.對(duì)于三階張量ALS的思想是找到R個(gè)rank-one張量或者一組因子矩陣來(lái)逼近如公式(4)所示:

        式中,符號(hào)⊙表示Khatri-Rao積,當(dāng)滿足一定的迭代條件時(shí),迭代終止.因?yàn)锳LS算法需多次迭代才收斂,所以我們將算法應(yīng)用到Spark平臺(tái)中進(jìn)行分布式計(jì)算,以求快速的求得全局的最優(yōu)參數(shù),減少大量的實(shí)驗(yàn)時(shí)間,這也是分布式計(jì)算在現(xiàn)今模型求解中的優(yōu)勢(shì)之處.

        2 基于張量分解的主題分類模型

        2.1 基于張量分解的LDA主題分類主體模型

        在LDA主題模型中,每篇文檔都存在著K個(gè)潛在的主題,第k個(gè)主題具有“主題-詞語(yǔ)”的條件分布概率將所有主題的條件分布概率組成矩陣為總詞匯量,則 φ便是模型求解的“主題-詞語(yǔ)”分布矩陣.而在第m篇文檔中,其混合分布的潛在話題是根據(jù)狄利克雷先驗(yàn)參數(shù)所求得,已知先驗(yàn)參數(shù)分布下,便可求得文檔m的“文檔-主題”分布矩陣

        傳統(tǒng)的LDA主題模型的參數(shù)估計(jì)方法包括變分推斷,馬爾可夫鏈等,本文采用矩量法將參數(shù)估計(jì)轉(zhuǎn)化為張量分解的方式進(jìn)行迭代.主題為的LDA主題模型可通過(guò)文本詞匯表示為張量的形式,Anandkumar等人[12]對(duì)主題模型張量的表現(xiàn)形式有如下定義.

        其中表示一個(gè)詞語(yǔ),V為文檔集中所有的詞匯,為同一篇文章的詞語(yǔ),對(duì)于詞語(yǔ)v,任意u≠v,符號(hào) ?為張量積運(yùn)算,任意的E為向量期望表示話題分布的稀疏程度,α0越小,表明文檔中隱含的主題越少.張量M2、M3通過(guò)分解可轉(zhuǎn)化為如下張量積的表現(xiàn)形式:

        其中,K為我們從文檔集中抽取的主題數(shù),通過(guò)公式(5)~(9),主題模型參數(shù)求解便可轉(zhuǎn)化為矩陣張量分解的方式.從公式(8)可以得出二階矩M2的低秩分解可求得包含 αk和 φk的子空間,而M3的張量分解可求得潛在狄利克雷先驗(yàn)分布 α以及“主題-詞語(yǔ)”分布矩陣,最終通過(guò)先驗(yàn)分布 α求解“文檔-主題”矩陣.

        在進(jìn)行M3張量分解分解前,通過(guò)數(shù)據(jù)的預(yù)處理(包括數(shù)據(jù)向量化、正交化和降維操作等)來(lái)保證模型的收斂率和抗噪聲干擾,隨機(jī)奇異值分解[13]作為高效的矩陣低秩分解手段,此處選用該方法來(lái)執(zhí)行對(duì)的正交分解,接下來(lái)利用矩量法將LDA主題模型參數(shù)估計(jì)轉(zhuǎn)化為低維下張量的CP分解,最終生成“文檔-主題”、“主題-詞語(yǔ)”矩陣.模型參數(shù)求解步驟如表(1)所示.

        模型最終會(huì)生成“文檔-主題”、“主題-詞語(yǔ)”概率分布,根據(jù)“文檔-主題”矩陣可選取概率最大的主題為該文檔的第一候選主題,而通過(guò)“主題-詞語(yǔ)”矩陣可推斷是該主題的具體含義,結(jié)合文檔中已經(jīng)得出的候選主題,便可實(shí)現(xiàn)該文檔的主題分類.

        表1 基于張量分解的主題分類模型求解步驟

        2.2 模型的關(guān)鍵技術(shù)

        2.1小節(jié)中基于張量分解的LDA主題分類模型可拆分為3個(gè)重要階段,第1階段為數(shù)據(jù)預(yù)處理,第2階段為基于ALS算法的CP分解,第3階段為主題分類計(jì)算.

        (1) 數(shù)據(jù)預(yù)處理

        網(wǎng)絡(luò)信息不同于普通文本信息,數(shù)據(jù)形式、結(jié)構(gòu)均有差異,所以預(yù)處理的首要工作便是進(jìn)行分詞等一系列操作,數(shù)據(jù)預(yù)處理完成后,需對(duì)數(shù)據(jù)進(jìn)行向量化以及降維操作,以便大量減少參數(shù)迭代時(shí)的計(jì)算量.在進(jìn)行張量形式的多維數(shù)組操作時(shí),數(shù)據(jù)維數(shù)的大小直接決定了矩陣操作的計(jì)算量大小,尤其是在處理自然語(yǔ)言這種高維數(shù)據(jù)時(shí),在內(nèi)存中進(jìn)行三階矩的存儲(chǔ)操作的運(yùn)算量都是極大的.數(shù)據(jù)稀疏化是其中一類方法,更好的則是進(jìn)行線性降維,加之以張量乘積的形式來(lái)避免直接生成張量,能夠大幅度減少計(jì)算規(guī)模,并且對(duì)于張量的操作也是高效的[14].

        在此首先進(jìn)行張量白化變換(Whitening Transformation),低秩正交分解二階矩.奇異值分解在進(jìn)行矩陣分解中表現(xiàn)出極大的優(yōu)勢(shì),但當(dāng)數(shù)據(jù)的行列數(shù)過(guò)大時(shí),奇異值分解表現(xiàn)出分解緩慢、效率低等缺點(diǎn),而隨機(jī)奇異值分解通過(guò)生成子空間進(jìn)行迭代運(yùn)算能夠加快分解工作,此處采用隨機(jī)奇異值分解進(jìn)行的分解操作[13].

        隨機(jī)奇異值分解算法可以總結(jié)為兩步計(jì)算,第一階段構(gòu)造一個(gè)正交基,其值域接近于M2,即構(gòu)造正交矩陣Q,使得第二階段將矩陣約束于K維子空間中,運(yùn)用奇異值分解來(lái)計(jì)算QTM2,求得U、Σ、Z.

        由隨機(jī)奇異值分解可得定義為白化矩陣,令則便是正交向量,證明如下:

        最后使用公式(7)可計(jì)算生成維數(shù)為K3的正交三階矩至此,便完成了M3白化以及正交化操作,即數(shù)據(jù)預(yù)處理階段結(jié)束.

        (2) 基于ALS算法的張量分解

        計(jì)算生成后,運(yùn)行基于交替最小二乘法的張量分解,ALS算法的核心是找到最接近的有限數(shù)目的rank-one之和[11],即為:

        其中,為分解的rank-one之和,交替最小二乘法是一個(gè)迭代算法,算法交替的進(jìn)行A,B,C的優(yōu)化,每一次迭代過(guò)程中,總是假定其他兩個(gè)矩陣是已知的,通過(guò)求解最小化的問(wèn)題來(lái)分解矩陣.當(dāng)B和C值固定后,可以將公式改寫(xiě)為如下形式:

        將? 帶入最小值求解中,最終基于交替最小二乘法的張量分解便轉(zhuǎn)化為如下的最優(yōu)化計(jì)算:

        其中,⊙表示Khatri-Rao積,每次迭代都進(jìn)行 λ的計(jì)算以保證特征向量每一列均為歸一化,此處采用Khatri-Rao積的偽逆矩陣形式優(yōu)化計(jì)算[15],如公式(13)所示:

        式中,?為哈達(dá)馬乘積,通過(guò)變換,僅需計(jì)算K×K的偽逆矩陣而無(wú)需計(jì)算K×K2原矩陣.ALS算法是一種批量同步并行計(jì)算模型[16],在K階并行的保證下,公式(11)中左邊的每一行均可作為獨(dú)立的一部分來(lái)進(jìn)行參數(shù)的估計(jì),并且在使用Spark計(jì)算框架進(jìn)行分析時(shí),每運(yùn)行一個(gè)ALS子程序之前可通過(guò)廣播變量同步最新估計(jì)的參數(shù)[17],進(jìn)行算法迭代時(shí)的空間需求以及每個(gè)節(jié)點(diǎn)所進(jìn)行的總交互量均為

        (3) 模型主題分類計(jì)算

        張量分解收斂后,采用反白化變換,計(jì)算原文檔集中的狄利克雷先驗(yàn)分布以及“主題-詞語(yǔ)”分布矩陣.反白化變換強(qiáng)調(diào)張量結(jié)構(gòu)的特殊性[12],通過(guò)分解后的張量數(shù)據(jù)來(lái)投影反射出LDA模型參數(shù),如下所示:

        給定CP分解后的向量線性無(wú)關(guān),標(biāo)量均大于0,則:

        ①的特征值和特征向量分別為

        ②原詞匯空間的狄利克雷先驗(yàn)參數(shù)

        ③是的穆?tīng)柵砹_斯偽逆矩陣[18],原詞匯空間的“主題-詞語(yǔ)”分布概率

        由反白化變化可推導(dǎo)出同時(shí)給定分解后的特征向量,求解矩陣使得待原詞匯空間參數(shù)求解后,根據(jù)原輸入文檔集和先驗(yàn)分布生成“文檔-主題”分布矩陣最后,為了更直觀的顯示以及更精準(zhǔn)的分類,將“文檔-主題”、“主題-詞語(yǔ)”矩陣進(jìn)行概率排序,在進(jìn)行文檔分類時(shí)需指定特定的分類類別,所以我們根據(jù)文檔中的重點(diǎn)主題以及主題中的重點(diǎn)詞語(yǔ),選取其中概率最高主題為該文檔的主題類別,抽取概率為前20的詞語(yǔ)作為該主題的特征詞,進(jìn)行下一步的主題分類工作.

        3 仿真實(shí)驗(yàn)

        3.1 平臺(tái)構(gòu)建

        實(shí)驗(yàn)包括模型對(duì)比和主題分布分析,實(shí)驗(yàn)數(shù)據(jù)通過(guò)WebMagic爬蟲(chóng)技術(shù)在網(wǎng)絡(luò)上自動(dòng)抓取,通過(guò)對(duì)頁(yè)面的分析來(lái)下載相應(yīng)的新聞信息文本,主要采集于各大新聞網(wǎng)站的新聞信息數(shù)據(jù),如“中國(guó)新聞網(wǎng)”、“鳳凰網(wǎng)”等,主要涉及經(jīng)濟(jì)、軍事、文化等領(lǐng)域,在進(jìn)行文本的白噪聲處理后,篩選出1800條作為原始分析數(shù)據(jù).為保證實(shí)驗(yàn)的可靠性以及可識(shí)別性,需定義停用詞表,詞表中包含常用詞、常見(jiàn)語(yǔ)氣詞、助詞等高頻率出現(xiàn)的詞語(yǔ),同時(shí)根據(jù)中文文本的特殊性,還進(jìn)行了繁簡(jiǎn)轉(zhuǎn)換,保證實(shí)驗(yàn)數(shù)據(jù)的格式統(tǒng)一,通過(guò)該停用詞典可剔除大部分的噪聲詞語(yǔ)[19].

        實(shí)驗(yàn)使用Scala作為編程語(yǔ)言,在Spark集群模式上進(jìn)行模型訓(xùn)練與預(yù)測(cè),主節(jié)點(diǎn)master進(jìn)行任務(wù)調(diào)度,從節(jié)點(diǎn)worker進(jìn)行同步的運(yùn)算.worker之間交替的計(jì)算更新的參數(shù),廣播參數(shù)至其他的節(jié)點(diǎn),最后進(jìn)行數(shù)據(jù)的同步.而master則負(fù)責(zé)檢查是否實(shí)時(shí)的檢驗(yàn)是否需要結(jié)束運(yùn)算以及負(fù)責(zé)各節(jié)點(diǎn)資源之間的調(diào)度,實(shí)驗(yàn)集群均為Centos 7系統(tǒng),每個(gè)節(jié)點(diǎn)內(nèi)存均為4 G,實(shí)驗(yàn)主要步驟如圖3所示.

        圖3 仿真實(shí)驗(yàn)步驟

        3.2 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)首先將模型訓(xùn)練時(shí)間和困惑度同基于EM算法的LDA模型進(jìn)行對(duì)比,其中,模型生成時(shí)間是體現(xiàn)模型計(jì)算是否高效的重要指標(biāo)之一,而困惑度則是衡量模型是否同原始數(shù)據(jù)相吻合的重要檢驗(yàn)標(biāo)準(zhǔn),最后通過(guò)網(wǎng)絡(luò)新聞數(shù)據(jù)的預(yù)測(cè),來(lái)說(shuō)明基于張量分解的LDA主題模型適用于網(wǎng)絡(luò)數(shù)據(jù)的分類工作.

        (1) 訓(xùn)練時(shí)間對(duì)比

        在相同運(yùn)行環(huán)境下,設(shè)置迭代次數(shù)為500次,主題數(shù)為50,將本文模型同基于EM算法的主題模型進(jìn)行訓(xùn)練對(duì)比,通過(guò)增加計(jì)算節(jié)點(diǎn)數(shù)來(lái)對(duì)比模型訓(xùn)練時(shí)間長(zhǎng)短,結(jié)果顯示基于張量分解的主題模型在時(shí)間方面顯現(xiàn)出極大的優(yōu)勢(shì),如圖4所示.

        圖4 模型時(shí)間對(duì)比圖

        從圖中可以看出,基于張量分解的主題模型在訓(xùn)練時(shí)間明顯優(yōu)于基于EM算法的LDA主題模型.增加節(jié)點(diǎn)數(shù)對(duì)于運(yùn)算時(shí)間的減少是明顯的,體現(xiàn)出Spark大數(shù)據(jù)平臺(tái)在各節(jié)點(diǎn)內(nèi)存不變的情況下,節(jié)點(diǎn)個(gè)數(shù)對(duì)于運(yùn)行時(shí)間是成反比的.兩個(gè)算法開(kāi)始增加節(jié)點(diǎn)數(shù)對(duì)于時(shí)間的優(yōu)化更是相當(dāng)顯著,但隨著節(jié)點(diǎn)數(shù)的增加,增益效果降低,同基于EM算法的LDA主題模型相比,基于張量分解的LDA模型在節(jié)點(diǎn)數(shù)增加時(shí),其計(jì)算時(shí)間下降幅度更大,表明基于張量分解的LDA主題模型對(duì)多節(jié)點(diǎn)的集群有更好的計(jì)算能力,更加表現(xiàn)出模型對(duì)于大運(yùn)算量的適應(yīng)性.

        (2) 困惑度對(duì)比

        困惑度作為文本建模中常用的評(píng)價(jià)指標(biāo),其值越小,模型對(duì)于上下文的約束能力就越強(qiáng),表明語(yǔ)言模型吻合度越好[8].其公式如下所示:

        式中,Dtest為測(cè)試文檔集,Wm為測(cè)試m文檔中觀測(cè)到的單詞,P(Wm)為模型產(chǎn)生文本W(wǎng)m的概率,Nm為文檔m的單詞數(shù).

        在相同的語(yǔ)料和參數(shù)設(shè)置下,計(jì)算基于EM算法的LDA主題模型和基于張量分解的主題模型,兩種方法困惑度隨隱含主題數(shù)目的變化情況如圖5所示.

        通過(guò)圖5可得到,隨著主題數(shù)量的不斷增加,兩個(gè)模型的困惑度都在相應(yīng)的降低,在達(dá)到最低點(diǎn)時(shí),主題抽取的個(gè)數(shù)各不相同,基于張量分解的LDA主題模型在該訓(xùn)練文檔集中主題數(shù)為50時(shí)困惑度最小.在數(shù)據(jù)量較大、主題較多時(shí),本文模型困惑度明顯低于基于EM算法的LDA主題模型.

        圖5 抽取主題數(shù)的困惑度對(duì)比

        (3) 主題分布分析

        將預(yù)處理的新聞信息通過(guò)本文LDA主題分類模型進(jìn)行訓(xùn)練,針對(duì)新聞文本的特殊性,在定義特征詞時(shí),進(jìn)行數(shù)據(jù)預(yù)處理時(shí)加入了時(shí)間等詞的停用,設(shè)置主題數(shù)為待模型預(yù)測(cè)完成后,隨機(jī)抽取三個(gè)文檔以及他們相對(duì)應(yīng)的主題進(jìn)行分析,部分結(jié)果如表2、表3所示.

        表2 topicN= 50時(shí)文檔與主題的分布概率

        表3 topicN= 50時(shí)主題與詞的分布概率

        表2可以看出,每篇文檔根據(jù)文中詞語(yǔ)的分布,不局限于單個(gè)主題,但第一個(gè)主題的概率較大,可以整體概括整篇文檔的大概主題方向.例如文檔5中主題1的概率為0.777 85,相對(duì)應(yīng),主題一中出現(xiàn)的都是企業(yè)發(fā)展類的詞匯,則主題1便為企業(yè)主題,進(jìn)一步的將文檔5便可分類到企業(yè)模塊.

        表3清晰地展現(xiàn)出不同主題其中的含義,可讀性強(qiáng),同時(shí)本文實(shí)證數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)新聞信息,從中可窺探社會(huì)熱點(diǎn).主題1涉及企業(yè)發(fā)展,其大部分的詞語(yǔ)均是企業(yè)在現(xiàn)代社會(huì)發(fā)展所重視的方面,同時(shí)也是企業(yè)發(fā)展中強(qiáng)調(diào)的高頻詞.而主題30則是經(jīng)濟(jì)類,通過(guò)各經(jīng)濟(jì)詞語(yǔ)的羅列,能夠?qū)Σ糠值慕鹑诘膶I(yè)用詞有一定的了解,可運(yùn)用于新聞定位推送,同時(shí)在新聞里出現(xiàn),更能說(shuō)明媒體以及公眾對(duì)于經(jīng)濟(jì)的關(guān)注.最后主題48則為文化產(chǎn)業(yè)電影類,新聞中能夠涉及到如下的詞語(yǔ),說(shuō)明人們?cè)诂F(xiàn)今生活高壓力下對(duì)于電影、文化的關(guān)注.以上的“主題-詞語(yǔ)”分布能夠說(shuō)明主題模型對(duì)于網(wǎng)絡(luò)數(shù)據(jù)分類的高效性,顯性地挖掘網(wǎng)絡(luò)信息中所蘊(yùn)含的內(nèi)涵,可充分適用于信息推薦、搜索引擎當(dāng)中.

        4 結(jié)論與展望

        本文將張量分解引入到LDA主題模型的訓(xùn)練中,利用矩量法將數(shù)據(jù)轉(zhuǎn)換為張量分解的計(jì)算形式,運(yùn)行基于交替最小二乘法的CP分解進(jìn)行參數(shù)迭代,最后使用網(wǎng)絡(luò)數(shù)據(jù)在大數(shù)據(jù)平臺(tái)Spark中驗(yàn)證分析,實(shí)驗(yàn)表明,基于張量分解的LDA主題模型在網(wǎng)絡(luò)數(shù)據(jù)主題、詞匯生成方面同基礎(chǔ)主題模型更有優(yōu)勢(shì),更加適用于網(wǎng)絡(luò)數(shù)據(jù)主題的分類.當(dāng)然,網(wǎng)絡(luò)數(shù)據(jù)的預(yù)處理準(zhǔn)確性有待提高,對(duì)于主題模型的原始輸入以及計(jì)算優(yōu)化是我們下一階段需要研究的內(nèi)容.

        1 Hoffman MD,Blei DM,Wang C,et al.Stochastic variational inference.Journal of Machine Learning Research,2013,14(5):1303-1347.

        2 Nallapati R,Cohen W,Lafferty J.Parallelized variational em for latent dirichlet allocation:An experimental evaluation of speed and scalability.Proceedings of 2007 Seventh IEEE International Conference on Data Mining Workshops(ICDMW 2007).Omaha,NE,USA.2007.349-354.

        3 Griffiths TL,Steyvers M.Finding scientific topics.Proceedings of the National Academy of Sciences of the United States of America,2004,101(S1):5228-5235.

        4 唐曉波,向坤.基于LDA模型和微博熱度的熱點(diǎn)挖掘.圖書(shū) 情 報(bào) 工 作 ,2014,58(5):58-63.[doi:10.11925/infotech.1003-3513.2014.05.08]

        5 Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A supervised topic model for credit attribution in multi-labeled corpora.Proceedings of 2009 Conference on Empirical Methods in Natural Language Processing.Singapore.2009.248-256.

        6 桂思思,陸偉,黃詩(shī)豪,等.融合主題模型及多時(shí)間節(jié)點(diǎn)函數(shù)的用戶興趣預(yù)測(cè)研究.現(xiàn)代圖書(shū)情報(bào)技術(shù),2015,(9):9-16.[doi:10.11925/infotech.1003-3513.2015.09.02]

        7 關(guān)鵬,王曰芬.基于LDA主題模型和生命周期理論的科學(xué)文獻(xiàn)主題挖掘.情報(bào)學(xué)報(bào),2015,34(3):286-299.

        8 Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation.Journal of Machine Learning Research,2003,3(4/5):993-1022.

        9 李湘東,胡逸泉,黃莉.采用LDA主題模型的多種類型文獻(xiàn)混合自動(dòng)分類研究.圖書(shū)館論壇,2015,35(1):74-80.

        10 Sidiropoulos ND,Bro R.On the uniqueness of multilinear decomposition of N-way arrays.Journal of Chemometrics,2000,14:229-239.[doi:10.1002/(ISSN)1099-128X]

        11 Kolda TG,Bader BW.Tensor decompositions and applications.SIAM Review,2009,51(3):455-500.[doi:10.1137/07070111X]

        12 Anandkumar A,Foster DP,Hsu D,et al.A spectral algorithm for latent dirichlet allocation.Algorithmica,2015,72(1):193-214.[doi:10.1007/s00453-014-9909-1]

        13 Halko N,Martinsson PG,Tropp JA.Finding structure with randomness:Probabilistic algorithms for constructing approximate matrix decompositions.SIAM Review,2010,53(2):217-288.

        14 Anandkumar A,Ge R,Hsu D,et al.Tensor decompositions for learning latent variable models.The Journal of Machine Learning Research,2014,15(1):2773-2832.

        15 Liu SZ,Trenkler G.Hadamard,khatri-rao,kronecker and other matrix products.International Journal of Information and Systems Sciences,2008,4(1):160-177.

        16 Valiant LG.A bridging model for parallel computation.Communications of the ACM,1990,33(8):103-111.[doi:10.1145/79173.79181]

        17 Wang YN,Tung HY,Smola A J,et al.Fast and guaranteed tensor decomposition via sketching.Proceedings of 2015 Advances in Neural Information Processing Systems (NIPS).Montreal,Canada.2015.991-999.

        18 Macausland R.The moore-penrose inverse and least squares[Thesis].Tacoma,Washington,USA:University of Puget Sound,2014.

        19 馮永,李華,鐘將,等.基于自適應(yīng)中文分詞和近似SVM的文本分類算法.計(jì)算機(jī)科學(xué),2010,37(1):251-254,293.

        猜你喜歡
        張量文檔詞語(yǔ)
        容易混淆的詞語(yǔ)
        有人一聲不吭向你扔了個(gè)文檔
        偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
        找詞語(yǔ)
        四元數(shù)張量方程A*NX=B 的通解
        詞語(yǔ)欣賞
        擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        一枚詞語(yǔ)一門(mén)靜
        欧美一级视频在线| 女人被男人躁得好爽免费视频| 亚洲色偷偷综合亚洲av伊人| 日韩人妻无码精品久久伊人| 国产亚洲精品综合一区二区| 女色av少妇一区二区三区| 亚洲色爱免费观看视频| 精品手机在线视频| 五月综合高清综合网| 青青草一级视频在线观看| 久久精品久99精品免费| 免费人妻无码不卡中文字幕系| 97精品伊人久久大香线蕉app| 欧美xxxxx精品| 久久精品一区二区三区蜜桃| 奇米影视第四色首页| 精品国产福利一区二区在线| 极品美女销魂一区二区三| av黄色在线免费观看| 国产成人精品一区二区三区视频| 欧美视频在线观看一区二区| 天堂av一区一区一区| 久久午夜精品人妻一区二区三区 | 女人被狂躁到高潮视频免费网站| 亚洲天堂免费视频| 麻豆人妻无码性色AV专区| 久久精品人妻一区二三区| 无码爆乳护士让我爽| 精品无码一区二区三区爱欲九九| 中文字幕亚洲乱亚洲乱妇| 麻豆视频在线播放观看| 天天做天天添av国产亚洲| 性色做爰片在线观看ww| 日韩免费小视频| 亚洲中文字幕一区高清在线| 精品人妻一区二区三区四区在线| 久久精品无码中文字幕| 亚洲精品美女久久久久99| 亚洲国产精品中文字幕久久| 欧洲熟妇色xxxx欧美老妇多毛 | 久久av无码精品一区二区三区|