王 萍
【摘要】對(duì)網(wǎng)絡(luò)環(huán)境下海量的科技文獻(xiàn)數(shù)據(jù)進(jìn)行文本挖掘可以有效地提高科技文獻(xiàn)信息的可用性,發(fā)現(xiàn)隱藏的知識(shí)。LDA(Latent Dirichlet Allocation)模型是一種能夠提取文本隱含主題的非監(jiān)督學(xué)習(xí)模型。論文基于LDA模型,以三種國(guó)際教育技術(shù)期刊在2004-2008年間出版的學(xué)術(shù)文獻(xiàn)為研究對(duì)象,進(jìn)行了主題挖掘和文獻(xiàn)分析。
【關(guān)鍵詞】教育技術(shù)學(xué);科技文獻(xiàn);主題挖掘;相似度
【中圖分類號(hào)】G420 【文獻(xiàn)標(biāo)識(shí)碼】B 【論文編號(hào)】1009—8097(2009)05—0046—05
引言
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)科技文獻(xiàn)資源已經(jīng)成為知識(shí)經(jīng)濟(jì)的重要載體,提供了豐富的數(shù)字化信息資源和大量的文獻(xiàn)數(shù)據(jù)信息,包括電子期刊、電子圖書、學(xué)位論文和電子文檔等。這些電子文獻(xiàn)數(shù)據(jù)在網(wǎng)絡(luò)環(huán)境下呈指數(shù)級(jí)增長(zhǎng),成為一座巨大的知識(shí)寶庫(kù),也為文獻(xiàn)數(shù)據(jù)的管理帶來了新的挑戰(zhàn)。面對(duì)海量的、快速增長(zhǎng)的科學(xué)文獻(xiàn)數(shù)據(jù),即使是領(lǐng)域內(nèi)的專家也無法依靠手工方式從中獲取感興趣的信息。因此采用數(shù)據(jù)挖掘技術(shù)從文獻(xiàn)數(shù)據(jù)庫(kù)中快速有效的提取知識(shí)信息的需求變得非常迫切。
本文的研究是面向文獻(xiàn)數(shù)據(jù)的文本主題挖掘。文本挖掘主要使用自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)方法從海量文獻(xiàn)中有效地找到所需信息,發(fā)現(xiàn)隱藏的知識(shí)。主題挖掘是通過主題模型從未標(biāo)簽的文獻(xiàn)數(shù)據(jù)中獲得抽象的主題信息,進(jìn)而可以對(duì)主題,研究者等信息進(jìn)行進(jìn)一步的研究和分析。
文獻(xiàn)數(shù)據(jù)是在科學(xué)研究中,人們發(fā)表的論文及其相關(guān)信息。文獻(xiàn)數(shù)據(jù)包括了大量的信息,如文本信息、作者信息、引用信息、機(jī)構(gòu)信息、時(shí)間信息、社會(huì)信息等。通過對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行分析和挖掘,可以發(fā)現(xiàn)大量有用或潛在的知識(shí),能夠有效地提高研究者對(duì)科技文獻(xiàn)的整理和總結(jié),對(duì)研究領(lǐng)域的理解和把握,進(jìn)而幫助和指導(dǎo)研究者開展更加有效的科學(xué)研究工作。
在教育技術(shù)學(xué)領(lǐng)域,現(xiàn)在每年出版的國(guó)內(nèi)外教育技術(shù)學(xué)相關(guān)的專業(yè)期刊和會(huì)議論文集有數(shù)十種,但對(duì)于大規(guī)模科技文獻(xiàn)的數(shù)據(jù)分析和挖掘研究還較少。如何對(duì)這些文獻(xiàn)進(jìn)行自動(dòng)化的內(nèi)容分析,挖掘隱藏的知識(shí),提高文獻(xiàn)信息的可用性,從而幫助教育技術(shù)研究者更好地利用文獻(xiàn)資源,是本文研究的主要目標(biāo)。
一 主題模型
1主題模型概述
主題模型(Topic Models)研究的主要目標(biāo),就是可以在不需要計(jì)算機(jī)真正理解自然語(yǔ)言的情況下,提取可以被人理解的、相對(duì)穩(wěn)定的隱含語(yǔ)義結(jié)構(gòu),為大規(guī)模數(shù)據(jù)集中的文檔尋找一個(gè)相對(duì)短的描述。當(dāng)我們得到一個(gè)大規(guī)模的文本數(shù)據(jù)集或者是其他類型的離散數(shù)據(jù)集合時(shí),為了便于理解,總是希望找到這個(gè)龐大的數(shù)據(jù)集的一個(gè)簡(jiǎn)短描述和概括,來代表或是反映出整個(gè)數(shù)據(jù)集的特征信息。對(duì)文本數(shù)據(jù)來說,就是抽取出一個(gè)或幾個(gè)主題這樣的抽象概念來描述整個(gè)文本數(shù)據(jù)集。例如一組論文,如果知道它的主題主要是關(guān)于數(shù)字化學(xué)習(xí)和教學(xué)設(shè)計(jì)的,那么它所包含的論文也是和這兩個(gè)主題相關(guān)的,由此可以根據(jù)個(gè)人的需求選擇是否閱讀這些文章。
一個(gè)文本通常包括若干主題,而文本中的特定詞匯體現(xiàn)出所討論的特定主題。主題抽取模型的主要思想是:認(rèn)為一篇文檔可以理解成是由若干個(gè)主題組合形成的,而主題則可以理解成為是詞的一種概率分布。主題模型通過參數(shù)估計(jì)從文本集合中提取一個(gè)低維的多項(xiàng)式分布集合,用于捕獲詞之間的相關(guān)信息,稱為主題(Topic)。不同的模型會(huì)進(jìn)一步作不同的統(tǒng)計(jì)假設(shè),以不同的方式獲取模型參數(shù)。
2 概率生成與統(tǒng)計(jì)推斷
主題模型是一種生成式模型,可以根據(jù)主題模型所指定的一組概率程序,來創(chuàng)建出一個(gè)新的文檔。首先選擇一個(gè)文檔的主題概率分布,根據(jù)這個(gè)概率分布,每次隨機(jī)的從中選出一個(gè)主題,再根據(jù)這個(gè)主題在單詞上的概率分布,生成這個(gè)文檔的一個(gè)個(gè)單詞,這樣就可以產(chǎn)生一個(gè)新的文檔(盡管里面的詞可能不具有組成句子或更深層次語(yǔ)義的邏輯順序)。如圖1左側(cè)的概率生成過程描述了兩個(gè)主題。主題1與“教學(xué)”有關(guān),主題2與“軟件”有關(guān),每個(gè)主題中有若干詞匯,從不同的主題中選取詞,可以組成一個(gè)文檔。如文檔1是由主題1中抽樣單詞組成,文檔3是由主題2中抽樣單詞組成,文檔2則分別從主題1和主題2中抽取單詞組成。
如果有了概率生成模型,對(duì)這個(gè)生成模型進(jìn)行逆向操作可以得到主題信息。即已經(jīng)有了一些文檔的集合,需要反過來推斷這個(gè)文檔集合具體的主題概率分布以及每個(gè)主題在詞上的概率分布。圖1右側(cè)描述了統(tǒng)計(jì)推斷的過程。
二 Latent Dirichlet Allocation(LDA)模型
統(tǒng)計(jì)主題模型的思想最早來源于隱含語(yǔ)義索引(Latent Semantic Indexing,LSI),其工作原理是利用矩陣?yán)碚撝械摹捌娈愔捣纸猓⊿ingular Value Decomposition,SVD)”技術(shù),將高維度的詞匯--文檔共現(xiàn)矩陣映射到低維度的潛在語(yǔ)義空間,在該空間中,來自詞--文檔矩陣的語(yǔ)義關(guān)系被保留,同時(shí)詞用法的變異(如同義性、多義性)被抑制。Hofmann提出的概率隱含語(yǔ)義索引(Probabilistic Latent Semantic Indexing,PLSI)[1]模型將LSI擴(kuò)展到概率統(tǒng)計(jì)的框架下,通過概率模型來模擬文檔中詞的產(chǎn)生過程。它將文檔d表示為一個(gè)主題混合,文檔中每個(gè)詞作為主題混合中的一個(gè)抽樣。但是PLSI并沒有用一個(gè)概率模型來模擬文檔的產(chǎn)生,只是通過對(duì)訓(xùn)練集中的有限文檔進(jìn)行擬合,得到特定文檔的主題混合比例。這個(gè)過程導(dǎo)致PLSI模型參數(shù)隨著訓(xùn)練集中文檔數(shù)目線性增加,出現(xiàn)過度擬合現(xiàn)象,而且,對(duì)于訓(xùn)練集以外的文檔,很難分配合適的概率。
針對(duì)PLSI所存在問題,Blei等在2003年提出了Latent Dirichlet Allocation(LDA)[2],在PLSI的基礎(chǔ)上,用一個(gè)服從Dirichlet分布的K維隱含隨機(jī)變量表示文檔的主題混合比例,模擬文檔的產(chǎn)生過程。在文本的產(chǎn)生過程中,LDA首先從Dirichlet分布中抽樣產(chǎn)生一個(gè)文本特定的主題多項(xiàng)式分布;然后對(duì)這些主題反復(fù)抽樣產(chǎn)生文本中的每個(gè)詞。作為一種生成式模型,用LDA提取隱含語(yǔ)義結(jié)構(gòu)和表示文檔已經(jīng)成功的應(yīng)用到很多文本相關(guān)的領(lǐng)域。在LDA的基礎(chǔ)上,很多研究人員根據(jù)不同的應(yīng)用需求,開發(fā)了多種模型,如Author-Topic Model[3]、Pachinko Allocation Model(PAM) [4]、ToT(Topic over Time) Model[5]等。
1 LDA模型[2]
LDA是一個(gè)多層的生成式概率模型,包含文檔、主題和詞三層結(jié)構(gòu)。LDA將每個(gè)文檔表示為一個(gè)主題混合,每個(gè)主題是固定詞表上的一個(gè)多項(xiàng)式分布,這些主題被集合中的所有文檔所共享;每個(gè)文檔有一個(gè)特定的主題比例,從Dirichlet分布中抽樣產(chǎn)生。LDA的圖模型表示如圖2所示,其中的變量及含義如表1所示。
(空心點(diǎn)表示隱含變量,實(shí)心點(diǎn)表示可觀察值)
給定一個(gè)文檔集合C,包含D個(gè)文檔和W個(gè)不同的詞,D={d1,d2,…,dD},每個(gè)文檔d包含一個(gè)詞序列{w1, w2, . . . ,wN},假定主題數(shù)目固定為T,LDA模型產(chǎn)生文本的過程為:
(1)從參數(shù)為β的Dirichlet分布中,抽取 ~Dirichlet(β),i∈{1,2,…,T},其中 為一個(gè)多項(xiàng)式分布,表示基于主題 的詞分布。
(2) 一個(gè)文檔d的產(chǎn)生可以表示為以下兩個(gè)過程:
① 從參數(shù)為α的Dirichlet分布選取一個(gè)多項(xiàng)式分布θd表示文檔d中主題的組成,即θd~Dirichlet (α)
② 文檔d中的每個(gè)詞w的產(chǎn)生。
? 從多項(xiàng)式分布θd中選取一個(gè)主題z~Multinomial(θd)。
? 從多項(xiàng)式分布 中選取單詞w~Multinomial( )。
2 LDA模型的統(tǒng)計(jì)推斷
對(duì)于主題抽取的需求來說,需要對(duì)概率生成模型的逆操作,推斷給定數(shù)據(jù)集隱含變量的后驗(yàn)分布信息,包括:(1)每篇文檔的主題分布θ;(2)每個(gè)文檔集合的主題-詞分布 ;(3) 每個(gè)單詞的主題指派z。近似推理(Approximate Inference)常用的方法有:馬爾科夫鏈蒙特卡洛方法(Markov Chain Monte Carlo:MCMC)、變分法(Variational Methods)等。Gibbs抽樣算法是一種馬爾科夫鏈蒙特卡洛方法,它通過一次次的采樣來最終逼近目標(biāo)概率分布,是一種有效的推理方法。
為了獲取詞匯的概率分布,這里沒有將θ和 作為參數(shù)直接計(jì)算,而是考慮詞匯對(duì)于主題的后驗(yàn)概率p(w|z),利用Gibbs抽樣間接求得θ和 的值[6]。計(jì)算公式為:
其中,zi=j表示將詞wi分配給主題j,z-i表示所有zk(k≠i)的分配, 是分配給主題j與wi相同的詞匯個(gè)數(shù); 是分配給主題j的所有詞匯個(gè)數(shù); 是文本di中分配給主題j的詞匯個(gè)數(shù); 是di中所有被分配了主題的詞匯個(gè)數(shù);其中所有詞匯個(gè)數(shù)均不包括這次zi=j的分配。
對(duì)于每一個(gè)單一樣本,可以按下式估算θ和 的值:
其中, 表示詞匯w被分配給主題j的頻數(shù); 表示分配給主題j的所有詞數(shù); 表示文本d中分配給主題j的詞數(shù); 表示文本d所有被分配了主題的詞數(shù)。
三 基于LDA的教育技術(shù)學(xué)文獻(xiàn)主題挖掘
筆者選取了教育技術(shù)學(xué)領(lǐng)域的三種影響力較大的國(guó)際期刊《Educational Technology Research and Development》、《Education and Information Technologies》和《Journal of Educational Technology & Society》進(jìn)行了文獻(xiàn)主題挖掘。在內(nèi)容選取上,選取了2004-2008年三種期刊已發(fā)表的所有論文題目和摘要的文本數(shù)據(jù),數(shù)據(jù)集如表2所示:
1 數(shù)據(jù)集
2 主題分析
基于LDA模型,使用Gibbs抽樣法,模型參數(shù)為:α=0.6,β=0.01,主題數(shù)=80,取樣次數(shù)=3000,對(duì)數(shù)據(jù)集進(jìn)行運(yùn)算,計(jì)算出主題--詞分布和文檔--主題分布。表3是所抽取的主題示例。
文檔--主題分布反映了文獻(xiàn)內(nèi)容的特點(diǎn),即文獻(xiàn)所涉及的主題或研究層面。如期刊《Educational Technology Research and Development》2007年12月第55卷第6期的一篇論文《Toward an instructional design model based on learning objects》,其主題分布中概率值最大的三個(gè)主題為Topic 45(教學(xué)設(shè)計(jì))、Topic 59(學(xué)習(xí)對(duì)象)、Topic 71(遠(yuǎn)程教學(xué)),表明了該論文的內(nèi)容主要涉及了這三個(gè)研究層面。
四 文獻(xiàn)分析
基于文獻(xiàn)集合中提取出來的主題,可以對(duì)文獻(xiàn)進(jìn)行相似度分析。如果一些文獻(xiàn)呈現(xiàn)某些相同的主題,則其文獻(xiàn)意義間具有一定的相似度。
1 基于K-L Divergence的文獻(xiàn)相似度分析
兩個(gè)文檔d1和d2之間的相似度可以通過其主題分布θd1和θd2來進(jìn)行測(cè)量。一種常用的對(duì)概率分布之間差異進(jìn)行度量的方法是通過Kullback-Leibler Divergence,也稱為K-L散度和相對(duì)熵(Relative Entropy)。兩個(gè)概率分布p和q的Kullback-Leibler Divergence定義為: 。
K-L散度本身是非對(duì)稱性的,在很多應(yīng)用場(chǎng)合下,常使用Symmetrized K-L Divergence和Jensen-Shannon Divergence,它們具有對(duì)稱性的特點(diǎn),在實(shí)際的應(yīng)用中也有較好的效果。對(duì)稱性K-L散度(Symmetrized KL divergence)定義為: 。Jensen-Shannon Divergence定義為: ,其中,M=(p+q)/2。除此之外,對(duì)文檔相似度的計(jì)算還可以通過其他相似度計(jì)算方法,如歐幾里得距離(Euclidian Distance)、余弦相似度等方法。
筆者使用Symmetrized KL divergence,對(duì)數(shù)據(jù)集的文檔進(jìn)行了相似度分析。如期刊《Educational Technology & Society》2006年第9卷第4期的一篇論文《Web-based Tools for Designing and Developing Teaching Materials for Integration of Information Technology into Instruction》,與該論文相似度最高的文獻(xiàn)是:
通過文獻(xiàn)的相似度分析,可以為用戶進(jìn)行文獻(xiàn)推薦。文獻(xiàn)推薦能夠幫助用戶查找相關(guān)主題的文獻(xiàn),提高文獻(xiàn)查找效率和準(zhǔn)確性,從而有效地提高科技文獻(xiàn)的可用性和價(jià)值。
2 文獻(xiàn)的多維標(biāo)度分析
多維標(biāo)度MDS(Multidimensional scaling)源于心理測(cè)量學(xué)和精神物理學(xué),最早被運(yùn)用于心理測(cè)量領(lǐng)域。作為一種數(shù)據(jù)分析技術(shù),MDS通過構(gòu)建一個(gè)或多個(gè)矩陣來表示實(shí)體間的距離或相異程度,并利用各實(shí)體之間的相異性來構(gòu)造多維空間上點(diǎn)的相對(duì)坐標(biāo)圖。構(gòu)造的多維空間上的點(diǎn)與各個(gè)實(shí)體相對(duì)應(yīng),如果兩個(gè)實(shí)體越相似,則它們對(duì)應(yīng)于空間上的點(diǎn)之間的距離就越近。MDS可以有效地將高維空間中點(diǎn)際之間距離壓縮到了低維空間,并以圖形的形式直觀呈現(xiàn)研究變量之間的相似性關(guān)系,以達(dá)到簡(jiǎn)化數(shù)據(jù)、揭示數(shù)據(jù)潛在規(guī)律的目的,廣泛應(yīng)用于社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、教育學(xué)等研究領(lǐng)域,用于探索性數(shù)據(jù)分析或信息可視化。[7]
我們隨機(jī)選取數(shù)據(jù)集中的20個(gè)文檔進(jìn)行了多維標(biāo)度分析,所得到的二維空間分布圖如下所示,從該圖中我們可以得到如下信息。
(1) 相似度高的文檔(主題相近)在空間圖中距離較近。
(2) 分散在維度1(Dimension 1)與維度2(Dimension 2)兩端的文檔,在該維度上具有較大的相異性。如在維度1上,文檔20和文檔15分布處于維度兩側(cè);在維度2上,文檔0和文檔37處于維度兩側(cè)。
(3) 20個(gè)文檔中有兩個(gè)比較明顯的簇集,一個(gè)為:DOC 14、DOC 34、DOC 31、和DOC 40,另一為:DOC 5、DOC 543、DOC 524、DOC 511、DOC 539、DOC 59和DOC 529。每個(gè)簇集中的文檔在主題上具有一定的相似度。
五 結(jié)束語(yǔ)
文獻(xiàn)數(shù)據(jù)檢索和挖掘是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的研究?jī)?nèi)容之一,可以有效提高學(xué)術(shù)信息的可用性,使用戶能夠快速準(zhǔn)確地從急劇增長(zhǎng)的科技文獻(xiàn)等自由文本中獲取知識(shí),更全面的利用海量的文獻(xiàn)資源。下一步的研究將在LDA模型基礎(chǔ)上,綜合考慮文獻(xiàn)的其他要素,如作者信息、引文信息,進(jìn)行文獻(xiàn)網(wǎng)絡(luò)的整體建模,深入對(duì)科技文獻(xiàn)的分析和挖掘,并將研究結(jié)果應(yīng)用于文獻(xiàn)檢索和學(xué)術(shù)推薦系統(tǒng)。
參考文獻(xiàn)
[1] Thomas Hofmann. Probabilistic Latent Semantic Indexing [C]. Proceedings of the 22nd ACM SIGIR International Conference on Research and Development in Information Retrieval, 1999:50–57.
[2] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research[J], 2003,3:993–1022.
[3] Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, et al. Probabilistic Author-Topic Models for Information Discovery[C]. Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:306–315.
[4] Wei Li, Andrew McCallum. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations[C]. Proceedings of the 23rd International Conference on Machine Learning, 2006:577-584.
[5] X.Wang, Andrew McCallum. Topics over Time: a Non-Markov Continuous-time Model of Topical Trends[C]. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006: 424-433.
[6] Thomas L. Griffiths, Mark Steyvers. Finding Scientific Topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(Suppl. 1): 5228-5235.
[7] Ingwer Borg, Patrick Groenen. Modern Multidimensional Scaling: Theory and Applications (2nd Edition) [M]. Springer-Verlag, New York, 2005.