亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向特定劃分的主題模型的設(shè)計與實(shí)現(xiàn)*

2018-07-13 08:54:22周凱文楊智慧馬會心何震瀛荊一楠王曉陽

計算機(jī)與生活 2018年7期

周凱文，楊智慧，馬會心，何震瀛，荊一楠，王曉陽

復(fù)旦大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院，上海 201203

1 引言

主題模型是文本分析中的重要研究問題之一。在2010年前，不同的主題模型層出不窮，2010年后由于神經(jīng)網(wǎng)絡(luò)概念的火爆，文本的研究中心逐漸轉(zhuǎn)移。不過主題模型由于其較好的效果以及較為簡易的實(shí)現(xiàn)在文本分類等領(lǐng)域依舊具有很強(qiáng)的生命力。不同的主題模型建模的角度各有不同，如關(guān)聯(lián)主題模型（correlated topic model，CTM）[1]就從主題之間可能存在相互關(guān)聯(lián)的角度用一個邏輯高斯分布進(jìn)行建模，動態(tài)主題模型（dynamic topic model）[2]用高斯分布建模主題的演化過程。不過這些模型依舊是從單篇文檔的角度進(jìn)行建模，而未考慮文本主題分布之間的關(guān)聯(lián)性。

同時，對于模型推斷方式的研究也層出不窮。以LDA（latent Dirichlet allocation）為例，先后就有變分貝葉斯推斷法、Gibbs采樣法、收縮Gibbs采樣法、EP（expectation propagation[3]）法以及收縮變分貝葉斯推斷等方法被提出。各種推斷方法各有利弊，整體來看，可以分為隨機(jī)的采樣法和確定性的變分推斷法兩類。變分推斷法效率高，但存在偏差；采樣法理論上可以收斂到真實(shí)的后驗分布，但收斂速度慢且難以判斷收斂性。因此在考慮推斷方法時還要權(quán)衡不同方法的利弊和模型的實(shí)際情況進(jìn)行選擇。

2016年1月，習(xí)近平總書記在重慶推動長江經(jīng)濟(jì)帶發(fā)展座談會上指出，“長江病了”，而且病得還不輕?！爱?dāng)前和今后相當(dāng)長一個時期，要把修復(fù)長江生態(tài)環(huán)境擺在壓倒性位置，共抓大保護(hù)，不搞大開發(fā)”。2018年4月視察湖北時，習(xí)近平總書記再次強(qiáng)調(diào)，“保護(hù)好長江中華民族母親河”“治好‘長江病’，要科學(xué)運(yùn)用中醫(yī)整體觀，追根溯源、診斷病因、找準(zhǔn)病根、分類施策、系統(tǒng)治療”。

將LDA應(yīng)用于分布式的環(huán)境，以處理更加龐大的文本數(shù)據(jù)規(guī)模也是針對主題模型的研究熱點(diǎn)之一，2008年提出了分布式模型推斷[4]，之后各類分布式實(shí)現(xiàn)不斷涌現(xiàn)，例如PLDA（parallel latent Dirichlet allocation）[5]分別設(shè)計并實(shí)現(xiàn)了利用MapReduce API以及MPI的分布式LDA，Spark-LDA[6]則將LDA的Gibbs采樣算法應(yīng)用于Spark框架中，這些研究成果豐富了LDA的應(yīng)用情景。

同時，對主題模型應(yīng)用的研究也有許多成果，例如2D-LDA將LDA應(yīng)用于圖像矩陣，進(jìn)行圖像的特征提取[7]，用LDA分類衛(wèi)星圖像[8]，以及在醫(yī)療、生物等領(lǐng)域也可以利用主題模型的特征提取能力對大量的數(shù)據(jù)進(jìn)行挖掘。因此主題模型的意義已經(jīng)遠(yuǎn)遠(yuǎn)超過了一個貝葉斯模型的范疇，主題也不再局限為文本的主題，而成為一個抽象的概念。

文本數(shù)據(jù)庫中的文本可以由一些結(jié)構(gòu)化的屬性劃分為一些子集，每個子集之中的文本存在共性，而這些共性是被如LDA這類假設(shè)文本間獨(dú)立的主題模型所忽略的。因此，本文針對文本數(shù)據(jù)庫的特定劃分，在主題模型中加入了子集的概念，并依據(jù)子集之中的共性對文本進(jìn)行建模。本文將這個全新的主題模型命名為DbLDA（LDAover text database）。

由于是全新的主題模型，對DbLDA的模型推斷也是本文的主要工作之一。模型近似推斷的方法有很多，本文將對幾種不同的推斷方法進(jìn)行分析，并選取一種比較合適的且較優(yōu)的方法對本文提出的模型進(jìn)行近似推斷。同時，DbLDA模型基于劃分引入了子集的概念，因此模型中也會引入更多的隨機(jī)變量，這些隨機(jī)變量在數(shù)據(jù)挖掘的角度上存在一定的意義，本文也將對此進(jìn)行分析。本文的實(shí)驗部分選取了一種語言模型評估方式，對DbLDA相比于LDA的模型效果進(jìn)行了測試，實(shí)驗還包含對模型運(yùn)行速度的測試，同時最后也對一些模型參數(shù)以及相關(guān)的模型性質(zhì)進(jìn)行了詳細(xì)的討論。

本文組織結(jié)構(gòu)如下：第1章介紹研究背景，如當(dāng)今主題模型研究成果、模型推斷方式等；第2章介紹相關(guān)工作；第3章介紹DbLDA模型，即本文提出的新的主題模型，包括相關(guān)隨機(jī)變量的意義及模型的物理意義；第4章闡述了近似推斷算法，包括現(xiàn)有近似推斷算法的介紹與比較，對DbLDA的近似推斷過程；第5章為實(shí)驗分析部分，與LDA、CTM對比，對DbLDA的模型效果進(jìn)行評估，包括對模型參數(shù)設(shè)置的討論與分析；第6章對本文工作進(jìn)行了總結(jié)。

2 相關(guān)工作

2.1 LDA主題模型

LDA是2003年由Blei等人提出的主題模型，它基于PLSA（probability latent semantic analysis）等先前的模型，結(jié)合貝葉斯網(wǎng)絡(luò)的思想，提出了如圖1所示的主題模型[9]。

根據(jù)LDA的圖模型，文本中詞的生成首先從Dirichlet先驗中生成主題分布再生成每個詞所選的主題編號，接著從同樣是由Dirichlet先驗生成的K個主題中選出相應(yīng)的主題生成一個詞[9]。需要注意的是主題是一個V維的向量，即主題是一個詞匯表上的多項分布，而主題分布是一個K維向量，表示一個主題上的多項分布。

由于加入了貝葉斯先驗，LDA的模型相較當(dāng)時的PLSA更為復(fù)雜，對模型的近似推斷工作較為復(fù)雜。

2.2 LDA近似推斷

為了進(jìn)一步探究子集大小劃分帶來的影響，重復(fù)進(jìn)行圖7中的第二組實(shí)驗，即數(shù)據(jù)集為兩個月的Reuters數(shù)據(jù)，子集大小為15天新聞文本或30天新聞文本，目的是減少隨機(jī)初始化等不穩(wěn)定因素帶來的波動，結(jié)果如圖8所示。

精武體育會的這種對外傳播是持續(xù)不斷的。例如1923年10月，又有廣高精武旅行團(tuán)乘港輪龍山號出發(fā)，轉(zhuǎn)輪前往南洋。他們“先到星架坡，以次及南洋各屬。荷屬爪哇，法屬安南等埠。沿途以滑稽舞、武化舞、劍舞、鳳舞、音樂新劇、國操、幻燈活動、精武影片等，貢獻(xiàn)于僑胞” [11]。

2.3 CTM主題模型

CTM主題模型[1]是Lafferty等人在2005年提出的主題模型，它將LDA主題模型中的先驗分布替換為邏輯高斯分布，用以建模主題之間的關(guān)聯(lián)，其生成過程如圖2所示。

19世紀(jì)末工業(yè)文明興起，機(jī)械設(shè)備的高速批量生產(chǎn)替代傳統(tǒng)緩慢手工制作，讓木地板得以普及.德式歷史建筑室內(nèi)木地板的使用非常普遍.在較高等級的居住建筑室內(nèi)使用相對高檔的鑲花木地板與邊框(Parquetry Floors and Borders)，用多種顏色的木材拼成圖案，使用木條鑲花地板或者鑲嵌細(xì)木條可以取得與石材拼花類似的效果.在一般等級的建筑室內(nèi)中，木地板的鋪裝較多采用簡單形式，直線型、人字型最為普遍，沿襲同時期同類型德國本土建筑室內(nèi)地板的鋪裝方式(圖6).

Fig.2 CTM graphic model圖2 CTM圖模型

相比LDA主題模型的生成過程，CTM將先驗分布改為邏輯高斯分布，因此建模時多出了一個參數(shù)，圖2所示的圖模型為原始論文中的圖模型（省略了對主題矩陣的平滑化處理）。在本文提出的DbLDA主題模型中，同CTM一樣利用了邏輯高斯分布進(jìn)行建模，但是建模的角度有所不同，下一節(jié)將展開分析。

3 DbLDA模型介紹

本章基于LDA的模型提出了全新的DbLDA模型，DbLDA融入了子集的概念。3.1節(jié)詳細(xì)介紹DbLDA模型，3.2節(jié)深入分析該模型及其物理意義。

3.1 生成過程及圖模型

首先，回顧一下LDA中的文本生成過程：通過從Dirichlet分布生成一個分布作為文章的主題分布，從主題分布中生成這篇文章的主題，然后從相應(yīng)的主題中生成一個單詞，從而獲得文檔中的單詞[9]，因此每篇文章的主題分布是獨(dú)立的。

基于LDA的模型，本文根據(jù)某種給定的劃分方式，加入子集的概念，例如對于一些文本數(shù)據(jù)庫，像新聞數(shù)據(jù)庫，某個時間片段中的文本的主題分布具有一定的相似性，特別是那些報告相同事件的不同新聞頻道的文本，利用時間片段的屬性就可以對數(shù)據(jù)庫進(jìn)行劃分，分成一個個的子集。因此，介紹一個新的文本數(shù)據(jù)庫上的主題模型DbLDA。

表1列出了本文提出的DbLDA所用到的所有標(biāo)識。在DbLDA中，每個文檔都來源于以下生成過程：

（1）生成主題矩陣φk～Dir(β)。

（2）對一個子集生成主題分布θs～L(Dir(α))。

（3）對子集中的文章，生成主題分布θs,d′|θs～N(θs,Σs)。

對于變分法而言，由于真實(shí)后驗不可求，變分法通過下式將問題轉(zhuǎn)化為一個最大化問題。事實(shí)（文本）的概率對數(shù)等于KL散度加上事實(shí)下界（evidence lower bound，ELBO），因此最小化KL散度是通過最大化ELBO做到的。

①選擇一個主題zs,d,n～Mult(π(θs,d′))。

②選擇一個單詞ws,d,n|zs,d,n～Mult(φk)。

谷振詣、劉壯虎認(rèn)為:“令人擔(dān)憂的不是學(xué)生的批判性思維能力，而是教師的批判性思維能力?！保?0］在創(chuàng)新創(chuàng)業(yè)教育中引入批判性思維教學(xué)模式，勢必要建立專職合理的教研體系，通過集體備課、集體培訓(xùn)有針對性的提高相關(guān)教師的批判性思維，提升其開展批判性思維教育的能力，從而提升創(chuàng)新創(chuàng)業(yè)教育的質(zhì)量。

其中L是從多項分布參數(shù)向量到自然向量的映射：

c是一個常數(shù)，因此每個多項分布參數(shù)向量對應(yīng)有一個自然參數(shù)向量族。π是從自然參數(shù)向量映射回多項分布參數(shù)向量，

Table 1 Symbols associated with DbLDA表1 和DbLDA相關(guān)的標(biāo)識