周凱文,楊智慧,馬會心,何震瀛,荊一楠,王曉陽
復(fù)旦大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203
主題模型是文本分析中的重要研究問題之一。在2010年前,不同的主題模型層出不窮,2010年后由于神經(jīng)網(wǎng)絡(luò)概念的火爆,文本的研究中心逐漸轉(zhuǎn)移。不過主題模型由于其較好的效果以及較為簡易的實(shí)現(xiàn)在文本分類等領(lǐng)域依舊具有很強(qiáng)的生命力。不同的主題模型建模的角度各有不同,如關(guān)聯(lián)主題模型(correlated topic model,CTM)[1]就從主題之間可能存在相互關(guān)聯(lián)的角度用一個邏輯高斯分布進(jìn)行建模,動態(tài)主題模型(dynamic topic model)[2]用高斯分布建模主題的演化過程。不過這些模型依舊是從單篇文檔的角度進(jìn)行建模,而未考慮文本主題分布之間的關(guān)聯(lián)性。
同時,對于模型推斷方式的研究也層出不窮。以LDA(latent Dirichlet allocation)為例,先后就有變分貝葉斯推斷法、Gibbs采樣法、收縮Gibbs采樣法、EP(expectation propagation[3])法以及收縮變分貝葉斯推斷等方法被提出。各種推斷方法各有利弊,整體來看,可以分為隨機(jī)的采樣法和確定性的變分推斷法兩類。變分推斷法效率高,但存在偏差;采樣法理論上可以收斂到真實(shí)的后驗分布,但收斂速度慢且難以判斷收斂性。因此在考慮推斷方法時還要權(quán)衡不同方法的利弊和模型的實(shí)際情況進(jìn)行選擇。
2016年1月,習(xí)近平總書記在重慶推動長江經(jīng)濟(jì)帶發(fā)展座談會上指出,“長江病了”,而且病得還不輕?!爱?dāng)前和今后相當(dāng)長一個時期,要把修復(fù)長江生態(tài)環(huán)境擺在壓倒性位置,共抓大保護(hù),不搞大開發(fā)”。2018年4月視察湖北時,習(xí)近平總書記再次強(qiáng)調(diào),“保護(hù)好長江中華民族母親河”“治好‘長江病’,要科學(xué)運(yùn)用中醫(yī)整體觀,追根溯源、診斷病因、找準(zhǔn)病根、分類施策、系統(tǒng)治療”。
將LDA應(yīng)用于分布式的環(huán)境,以處理更加龐大的文本數(shù)據(jù)規(guī)模也是針對主題模型的研究熱點(diǎn)之一,2008年提出了分布式模型推斷[4],之后各類分布式實(shí)現(xiàn)不斷涌現(xiàn),例如PLDA(parallel latent Dirichlet allocation)[5]分別設(shè)計并實(shí)現(xiàn)了利用MapReduce API以及MPI的分布式LDA,Spark-LDA[6]則將LDA的Gibbs采樣算法應(yīng)用于Spark框架中,這些研究成果豐富了LDA的應(yīng)用情景。
同時,對主題模型應(yīng)用的研究也有許多成果,例如2D-LDA將LDA應(yīng)用于圖像矩陣,進(jìn)行圖像的特征提取[7],用LDA分類衛(wèi)星圖像[8],以及在醫(yī)療、生物等領(lǐng)域也可以利用主題模型的特征提取能力對大量的數(shù)據(jù)進(jìn)行挖掘。因此主題模型的意義已經(jīng)遠(yuǎn)遠(yuǎn)超過了一個貝葉斯模型的范疇,主題也不再局限為文本的主題,而成為一個抽象的概念。
文本數(shù)據(jù)庫中的文本可以由一些結(jié)構(gòu)化的屬性劃分為一些子集,每個子集之中的文本存在共性,而這些共性是被如LDA這類假設(shè)文本間獨(dú)立的主題模型所忽略的。因此,本文針對文本數(shù)據(jù)庫的特定劃分,在主題模型中加入了子集的概念,并依據(jù)子集之中的共性對文本進(jìn)行建模。本文將這個全新的主題模型命名為DbLDA(LDAover text database)。
由于是全新的主題模型,對DbLDA的模型推斷也是本文的主要工作之一。模型近似推斷的方法有很多,本文將對幾種不同的推斷方法進(jìn)行分析,并選取一種比較合適的且較優(yōu)的方法對本文提出的模型進(jìn)行近似推斷。同時,DbLDA模型基于劃分引入了子集的概念,因此模型中也會引入更多的隨機(jī)變量,這些隨機(jī)變量在數(shù)據(jù)挖掘的角度上存在一定的意義,本文也將對此進(jìn)行分析。本文的實(shí)驗部分選取了一種語言模型評估方式,對DbLDA相比于LDA的模型效果進(jìn)行了測試,實(shí)驗還包含對模型運(yùn)行速度的測試,同時最后也對一些模型參數(shù)以及相關(guān)的模型性質(zhì)進(jìn)行了詳細(xì)的討論。
本文組織結(jié)構(gòu)如下:第1章介紹研究背景,如當(dāng)今主題模型研究成果、模型推斷方式等;第2章介紹相關(guān)工作;第3章介紹DbLDA模型,即本文提出的新的主題模型,包括相關(guān)隨機(jī)變量的意義及模型的物理意義;第4章闡述了近似推斷算法,包括現(xiàn)有近似推斷算法的介紹與比較,對DbLDA的近似推斷過程;第5章為實(shí)驗分析部分,與LDA、CTM對比,對DbLDA的模型效果進(jìn)行評估,包括對模型參數(shù)設(shè)置的討論與分析;第6章對本文工作進(jìn)行了總結(jié)。
LDA是2003年由Blei等人提出的主題模型,它基于PLSA(probability latent semantic analysis)等先前的模型,結(jié)合貝葉斯網(wǎng)絡(luò)的思想,提出了如圖1所示的主題模型[9]。
根據(jù)LDA的圖模型,文本中詞的生成首先從Dirichlet先驗中生成主題分布再生成每個詞所選的主題編號,接著從同樣是由Dirichlet先驗生成的K個主題中選出相應(yīng)的主題生成一個詞[9]。需要注意的是主題是一個V維的向量,即主題是一個詞匯表上的多項分布,而主題分布是一個K維向量,表示一個主題上的多項分布。
由于加入了貝葉斯先驗,LDA的模型相較當(dāng)時的PLSA更為復(fù)雜,對模型的近似推斷工作較為復(fù)雜。
為了進(jìn)一步探究子集大小劃分帶來的影響,重復(fù)進(jìn)行圖7中的第二組實(shí)驗,即數(shù)據(jù)集為兩個月的Reuters數(shù)據(jù),子集大小為15天新聞文本或30天新聞文本,目的是減少隨機(jī)初始化等不穩(wěn)定因素帶來的波動,結(jié)果如圖8所示。
精武體育會的這種對外傳播是持續(xù)不斷的。例如1923年10月,又有廣高精武旅行團(tuán)乘港輪龍山號出發(fā),轉(zhuǎn)輪前往南洋。他們“先到星架坡,以次及南洋各屬。荷屬爪哇,法屬安南等埠。沿途以滑稽舞、武化舞、劍舞、鳳舞、音樂新劇、國操、幻燈活動、精武影片等,貢獻(xiàn)于僑胞” [11]。
CTM主題模型[1]是Lafferty等人在2005年提出的主題模型,它將LDA主題模型中的先驗分布替換為邏輯高斯分布,用以建模主題之間的關(guān)聯(lián),其生成過程如圖2所示。
19世紀(jì)末工業(yè)文明興起,機(jī)械設(shè)備的高速批量生產(chǎn)替代傳統(tǒng)緩慢手工制作,讓木地板得以普及.德式歷史建筑室內(nèi)木地板的使用非常普遍.在較高等級的居住建筑室內(nèi)使用相對高檔的鑲花木地板與邊框(Parquetry Floors and Borders),用多種顏色的木材拼成圖案,使用木條鑲花地板或者鑲嵌細(xì)木條可以取得與石材拼花類似的效果.在一般等級的建筑室內(nèi)中,木地板的鋪裝較多采用簡單形式,直線型、人字型最為普遍,沿襲同時期同類型德國本土建筑室內(nèi)地板的鋪裝方式(圖6).
Fig.2 CTM graphic model圖2 CTM圖模型
相比LDA主題模型的生成過程,CTM將先驗分布改為邏輯高斯分布,因此建模時多出了一個參數(shù),圖2所示的圖模型為原始論文中的圖模型(省略了對主題矩陣的平滑化處理)。在本文提出的DbLDA主題模型中,同CTM一樣利用了邏輯高斯分布進(jìn)行建模,但是建模的角度有所不同,下一節(jié)將展開分析。
本章基于LDA的模型提出了全新的DbLDA模型,DbLDA融入了子集的概念。3.1節(jié)詳細(xì)介紹DbLDA模型,3.2節(jié)深入分析該模型及其物理意義。
首先,回顧一下LDA中的文本生成過程:通過從Dirichlet分布生成一個分布作為文章的主題分布,從主題分布中生成這篇文章的主題,然后從相應(yīng)的主題中生成一個單詞,從而獲得文檔中的單詞[9],因此每篇文章的主題分布是獨(dú)立的。
基于LDA的模型,本文根據(jù)某種給定的劃分方式,加入子集的概念,例如對于一些文本數(shù)據(jù)庫,像新聞數(shù)據(jù)庫,某個時間片段中的文本的主題分布具有一定的相似性,特別是那些報告相同事件的不同新聞頻道的文本,利用時間片段的屬性就可以對數(shù)據(jù)庫進(jìn)行劃分,分成一個個的子集。因此,介紹一個新的文本數(shù)據(jù)庫上的主題模型DbLDA。
表1列出了本文提出的DbLDA所用到的所有標(biāo)識。在DbLDA中,每個文檔都來源于以下生成過程:
(1)生成主題矩陣φk~Dir(β)。
(2)對一個子集生成主題分布θs~L(Dir(α))。
(3)對子集中的文章,生成主題分布θs,d′|θs~N(θs,Σs)。
對于變分法而言,由于真實(shí)后驗不可求,變分法通過下式將問題轉(zhuǎn)化為一個最大化問題。事實(shí)(文本)的概率對數(shù)等于KL散度加上事實(shí)下界(evidence lower bound,ELBO),因此最小化KL散度是通過最大化ELBO做到的。
①選擇一個主題zs,d,n~Mult(π(θs,d′))。
②選擇一個單詞ws,d,n|zs,d,n~Mult(φk)。
谷振詣、劉壯虎認(rèn)為:“令人擔(dān)憂的不是學(xué)生的批判性思維能力,而是教師的批判性思維能力?!保?0]在創(chuàng)新創(chuàng)業(yè)教育中引入批判性思維教學(xué)模式,勢必要建立專職合理的教研體系,通過集體備課、集體培訓(xùn)有針對性的提高相關(guān)教師的批判性思維,提升其開展批判性思維教育的能力,從而提升創(chuàng)新創(chuàng)業(yè)教育的質(zhì)量。
其中L是從多項分布參數(shù)向量到自然向量的映射:
c是一個常數(shù),因此每個多項分布參數(shù)向量對應(yīng)有一個自然參數(shù)向量族。π是從自然參數(shù)向量映射回多項分布參數(shù)向量,
Table 1 Symbols associated with DbLDA表1 和DbLDA相關(guān)的標(biāo)識