亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向教育技術(shù)學(xué)文獻(xiàn)數(shù)據(jù)的主題挖掘

2009-07-16 09:33:54王萍

現(xiàn)代教育技術(shù) 2009年5期

王　萍

【摘要】對(duì)網(wǎng)絡(luò)環(huán)境下海量的科技文獻(xiàn)數(shù)據(jù)進(jìn)行文本挖掘可以有效地提高科技文獻(xiàn)信息的可用性，發(fā)現(xiàn)隱藏的知識(shí)。LDA（Latent Dirichlet Allocation）模型是一種能夠提取文本隱含主題的非監(jiān)督學(xué)習(xí)模型。論文基于LDA模型，以三種國(guó)際教育技術(shù)期刊在2004-2008年間出版的學(xué)術(shù)文獻(xiàn)為研究對(duì)象，進(jìn)行了主題挖掘和文獻(xiàn)分析。

【關(guān)鍵詞】教育技術(shù)學(xué)；科技文獻(xiàn)；主題挖掘；相似度

【中圖分類號(hào)】G420 【文獻(xiàn)標(biāo)識(shí)碼】B 【論文編號(hào)】1009—8097（2009）05—0046—05

引言

隨著信息技術(shù)的發(fā)展，網(wǎng)絡(luò)科技文獻(xiàn)資源已經(jīng)成為知識(shí)經(jīng)濟(jì)的重要載體，提供了豐富的數(shù)字化信息資源和大量的文獻(xiàn)數(shù)據(jù)信息，包括電子期刊、電子圖書、學(xué)位論文和電子文檔等。這些電子文獻(xiàn)數(shù)據(jù)在網(wǎng)絡(luò)環(huán)境下呈指數(shù)級(jí)增長(zhǎng)，成為一座巨大的知識(shí)寶庫(kù)，也為文獻(xiàn)數(shù)據(jù)的管理帶來了新的挑戰(zhàn)。面對(duì)海量的、快速增長(zhǎng)的科學(xué)文獻(xiàn)數(shù)據(jù)，即使是領(lǐng)域內(nèi)的專家也無法依靠手工方式從中獲取感興趣的信息。因此采用數(shù)據(jù)挖掘技術(shù)從文獻(xiàn)數(shù)據(jù)庫(kù)中快速有效的提取知識(shí)信息的需求變得非常迫切。

本文的研究是面向文獻(xiàn)數(shù)據(jù)的文本主題挖掘。文本挖掘主要使用自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)方法從海量文獻(xiàn)中有效地找到所需信息，發(fā)現(xiàn)隱藏的知識(shí)。主題挖掘是通過主題模型從未標(biāo)簽的文獻(xiàn)數(shù)據(jù)中獲得抽象的主題信息，進(jìn)而可以對(duì)主題，研究者等信息進(jìn)行進(jìn)一步的研究和分析。

文獻(xiàn)數(shù)據(jù)是在科學(xué)研究中，人們發(fā)表的論文及其相關(guān)信息。文獻(xiàn)數(shù)據(jù)包括了大量的信息，如文本信息、作者信息、引用信息、機(jī)構(gòu)信息、時(shí)間信息、社會(huì)信息等。通過對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行分析和挖掘，可以發(fā)現(xiàn)大量有用或潛在的知識(shí)，能夠有效地提高研究者對(duì)科技文獻(xiàn)的整理和總結(jié)，對(duì)研究領(lǐng)域的理解和把握，進(jìn)而幫助和指導(dǎo)研究者開展更加有效的科學(xué)研究工作。

在教育技術(shù)學(xué)領(lǐng)域，現(xiàn)在每年出版的國(guó)內(nèi)外教育技術(shù)學(xué)相關(guān)的專業(yè)期刊和會(huì)議論文集有數(shù)十種，但對(duì)于大規(guī)模科技文獻(xiàn)的數(shù)據(jù)分析和挖掘研究還較少。如何對(duì)這些文獻(xiàn)進(jìn)行自動(dòng)化的內(nèi)容分析，挖掘隱藏的知識(shí)，提高文獻(xiàn)信息的可用性，從而幫助教育技術(shù)研究者更好地利用文獻(xiàn)資源，是本文研究的主要目標(biāo)。

一主題模型

1主題模型概述

主題模型（Topic Models）研究的主要目標(biāo)，就是可以在不需要計(jì)算機(jī)真正理解自然語(yǔ)言的情況下，提取可以被人理解的、相對(duì)穩(wěn)定的隱含語(yǔ)義結(jié)構(gòu)，為大規(guī)模數(shù)據(jù)集中的文檔尋找一個(gè)相對(duì)短的描述。當(dāng)我們得到一個(gè)大規(guī)模的文本數(shù)據(jù)集或者是其他類型的離散數(shù)據(jù)集合時(shí)，為了便于理解，總是希望找到這個(gè)龐大的數(shù)據(jù)集的一個(gè)簡(jiǎn)短描述和概括，來代表或是反映出整個(gè)數(shù)據(jù)集的特征信息。對(duì)文本數(shù)據(jù)來說，就是抽取出一個(gè)或幾個(gè)主題這樣的抽象概念來描述整個(gè)文本數(shù)據(jù)集。例如一組論文，如果知道它的主題主要是關(guān)于數(shù)字化學(xué)習(xí)和教學(xué)設(shè)計(jì)的，那么它所包含的論文也是和這兩個(gè)主題相關(guān)的，由此可以根據(jù)個(gè)人的需求選擇是否閱讀這些文章。

一個(gè)文本通常包括若干主題，而文本中的特定詞匯體現(xiàn)出所討論的特定主題。主題抽取模型的主要思想是：認(rèn)為一篇文檔可以理解成是由若干個(gè)主題組合形成的，而主題則可以理解成為是詞的一種概率分布。主題模型通過參數(shù)估計(jì)從文本集合中提取一個(gè)低維的多項(xiàng)式分布集合，用于捕獲詞之間的相關(guān)信息，稱為主題（Topic）。不同的模型會(huì)進(jìn)一步作不同的統(tǒng)計(jì)假設(shè)，以不同的方式獲取模型參數(shù)。

2 概率生成與統(tǒng)計(jì)推斷

主題模型是一種生成式模型，可以根據(jù)主題模型所指定的一組概率程序，來創(chuàng)建出一個(gè)新的文檔。首先選擇一個(gè)文檔的主題概率分布，根據(jù)這個(gè)概率分布，每次隨機(jī)的從中選出一個(gè)主題，再根據(jù)這個(gè)主題在單詞上的概率分布，生成這個(gè)文檔的一個(gè)個(gè)單詞，這樣就可以產(chǎn)生一個(gè)新的文檔（盡管里面的詞可能不具有組成句子或更深層次語(yǔ)義的邏輯順序）。如圖1左側(cè)的概率生成過程描述了兩個(gè)主題。主題1與“教學(xué)”有關(guān)，主題2與“軟件”有關(guān)，每個(gè)主題中有若干詞匯，從不同的主題中選取詞，可以組成一個(gè)文檔。如文檔1是由主題1中抽樣單詞組成，文檔3是由主題2中抽樣單詞組成，文檔2則分別從主題1和主題2中抽取單詞組成。

如果有了概率生成模型，對(duì)這個(gè)生成模型進(jìn)行逆向操作可以得到主題信息。即已經(jīng)有了一些文檔的集合，需要反過來推斷這個(gè)文檔集合具體的主題概率分布以及每個(gè)主題在詞上的概率分布。圖1右側(cè)描述了統(tǒng)計(jì)推斷的過程。

二 Latent Dirichlet Allocation(LDA)模型

統(tǒng)計(jì)主題模型的思想最早來源于隱含語(yǔ)義索引（Latent Semantic Indexing，LSI），其工作原理是利用矩陣?yán)碚撝械摹捌娈愔捣纸猓⊿ingular Value Decomposition，SVD）”技術(shù)，將高維度的詞匯--文檔共現(xiàn)矩陣映射到低維度的潛在語(yǔ)義空間，在該空間中，來自詞--文檔矩陣的語(yǔ)義關(guān)系被保留，同時(shí)詞用法的變異（如同義性、多義性）被抑制。Hofmann提出的概率隱含語(yǔ)義索引（Probabilistic Latent Semantic Indexing，PLSI）[1]模型將LSI擴(kuò)展到概率統(tǒng)計(jì)的框架下，通過概率模型來模擬文檔中詞的產(chǎn)生過程。它將文檔d表示為一個(gè)主題混合，文檔中每個(gè)詞作為主題混合中的一個(gè)抽樣。但是PLSI并沒有用一個(gè)概率模型來模擬文檔的產(chǎn)生，只是通過對(duì)訓(xùn)練集中的有限文檔進(jìn)行擬合，得到特定文檔的主題混合比例。這個(gè)過程導(dǎo)致PLSI模型參數(shù)隨著訓(xùn)練集中文檔數(shù)目線性增加，出現(xiàn)過度擬合現(xiàn)象，而且，對(duì)于訓(xùn)練集以外的文檔，很難分配合適的概率。

針對(duì)PLSI所存在問題，Blei等在2003年提出了Latent Dirichlet Allocation(LDA)[2]，在PLSI的基礎(chǔ)上，用一個(gè)服從Dirichlet分布的K維隱含隨機(jī)變量表示文檔的主題混合比例，模擬文檔的產(chǎn)生過程。在文本的產(chǎn)生過程中，LDA首先從Dirichlet分布中抽樣產(chǎn)生一個(gè)文本特定的主題多項(xiàng)式分布；然后對(duì)這些主題反復(fù)抽樣產(chǎn)生文本中的每個(gè)詞。作為一種生成式模型，用LDA提取隱含語(yǔ)義結(jié)構(gòu)和表示文檔已經(jīng)成功的應(yīng)用到很多文本相關(guān)的領(lǐng)域。在LDA的基礎(chǔ)上，很多研究人員根據(jù)不同的應(yīng)用需求，開發(fā)了多種模型,如Author-Topic Model[3]、Pachinko Allocation Model(PAM) [4]、ToT(Topic over Time) Model[5]等。

1 LDA模型[2]

LDA是一個(gè)多層的生成式概率模型，包含文檔、主題和詞三層結(jié)構(gòu)。LDA將每個(gè)文檔表示為一個(gè)主題混合，每個(gè)主題是固定詞表上的一個(gè)多項(xiàng)式分布，這些主題被集合中的所有文檔所共享；每個(gè)文檔有一個(gè)特定的主題比例，從Dirichlet分布中抽樣產(chǎn)生。LDA的圖模型表示如圖2所示，其中的變量及含義如表1所示。

（空心點(diǎn)表示隱含變量，實(shí)心點(diǎn)表示可觀察值）

給定一個(gè)文檔集合C，包含D個(gè)文檔和W個(gè)不同的詞，D={d1,d2,…,dD}，每個(gè)文檔d包含一個(gè)詞序列{w1, w2, . . . ,wN}，假定主題數(shù)目固定為T，LDA模型產(chǎn)生文本的過程為：

（1）從參數(shù)為β的Dirichlet分布中，抽取～Dirichlet(β)，i∈{1,2,…,T}，其中為一個(gè)多項(xiàng)式分布，表示基于主題的詞分布。

（2）一個(gè)文檔d的產(chǎn)生可以表示為以下兩個(gè)過程：

① 從參數(shù)為α的Dirichlet分布選取一個(gè)多項(xiàng)式分布θd表示文檔d中主題的組成，即θd～Dirichlet (α)

② 文檔d中的每個(gè)詞w的產(chǎn)生。

? 從多項(xiàng)式分布θd中選取一個(gè)主題z～Multinomial(θd)。

? 從多項(xiàng)式分布中選取單詞w～Multinomial( )。

2 LDA模型的統(tǒng)計(jì)推斷

對(duì)于主題抽取的需求來說，需要對(duì)概率生成模型的逆操作，推斷給定數(shù)據(jù)集隱含變量的后驗(yàn)分布信息，包括：（1）每篇文檔的主題分布θ；（2）每個(gè)文檔集合的主題-詞分布；（3）每個(gè)單詞的主題指派z。近似推理（Approximate Inference）常用的方法有：馬爾科夫鏈蒙特卡洛方法（Markov Chain Monte Carlo：MCMC）、變分法（Variational Methods）等。Gibbs抽樣算法是一種馬爾科夫鏈蒙特卡洛方法，它通過一次次的采樣來最終逼近目標(biāo)概率分布，是一種有效的推理方法。

為了獲取詞匯的概率分布，這里沒有將θ和作為參數(shù)直接計(jì)算，而是考慮詞匯對(duì)于主題的后驗(yàn)概率p(w|z)，利用Gibbs抽樣間接求得θ和的值[6]。計(jì)算公式為：

其中，zi=j表示將詞wi分配給主題j，z-i表示所有zk(k≠i)的分配，是分配給主題j與wi相同的詞匯個(gè)數(shù)；是分配給主題j的所有詞匯個(gè)數(shù)；是文本di中分配給主題j的詞匯個(gè)數(shù)；是di中所有被分配了主題的詞匯個(gè)數(shù)；其中所有詞匯個(gè)數(shù)均不包括這次zi=j的分配。

對(duì)于每一個(gè)單一樣本，可以按下式估算θ和的值：

其中，表示詞匯w被分配給主題j的頻數(shù)；表示分配給主題j的所有詞數(shù)；表示文本d中分配給主題j的詞數(shù)；表示文本d所有被分配了主題的詞數(shù)。

三基于LDA的教育技術(shù)學(xué)文獻(xiàn)主題挖掘

筆者選取了教育技術(shù)學(xué)領(lǐng)域的三種影響力較大的國(guó)際期刊《Educational Technology Research and Development》、《Education and Information Technologies》和《Journal of Educational Technology & Society》進(jìn)行了文獻(xiàn)主題挖掘。在內(nèi)容選取上，選取了2004-2008年三種期刊已發(fā)表的所有論文題目和摘要的文本數(shù)據(jù)，數(shù)據(jù)集如表2所示：

1 數(shù)據(jù)集

2 主題分析

基于LDA模型，使用Gibbs抽樣法，模型參數(shù)為：α=0.6，β=0.01，主題數(shù)=80，取樣次數(shù)=3000，對(duì)數(shù)據(jù)集進(jìn)行運(yùn)算，計(jì)算出主題--詞分布和文檔--主題分布。表3是所抽取的主題示例。

文檔--主題分布反映了文獻(xiàn)內(nèi)容的特點(diǎn)，即文獻(xiàn)所涉及的主題或研究層面。如期刊《Educational Technology Research and Development》2007年12月第55卷第6期的一篇論文《Toward an instructional design model based on learning objects》，其主題分布中概率值最大的三個(gè)主題為Topic 45（教學(xué)設(shè)計(jì)）、Topic 59（學(xué)習(xí)對(duì)象）、Topic 71（遠(yuǎn)程教學(xué)），表明了該論文的內(nèi)容主要涉及了這三個(gè)研究層面。

四文獻(xiàn)分析

基于文獻(xiàn)集合中提取出來的主題，可以對(duì)文獻(xiàn)進(jìn)行相似度分析。如果一些文獻(xiàn)呈現(xiàn)某些相同的主題，則其文獻(xiàn)意義間具有一定的相似度。

1 基于K-L Divergence的文獻(xiàn)相似度分析

兩個(gè)文檔d1和d2之間的相似度可以通過其主題分布θd1和θd2來進(jìn)行測(cè)量。一種常用的對(duì)概率分布之間差異進(jìn)行度量的方法是通過Kullback-Leibler Divergence，也稱為K-L散度和相對(duì)熵（Relative Entropy）。兩個(gè)概率分布p和q的Kullback-Leibler Divergence定義為：。

K-L散度本身是非對(duì)稱性的，在很多應(yīng)用場(chǎng)合下，常使用Symmetrized K-L Divergence和Jensen-Shannon Divergence，它們具有對(duì)稱性的特點(diǎn)，在實(shí)際的應(yīng)用中也有較好的效果。對(duì)稱性K-L散度（Symmetrized KL divergence）定義為：。Jensen-Shannon Divergence定義為：，其中，M=(p+q)/2。除此之外，對(duì)文檔相似度的計(jì)算還可以通過其他相似度計(jì)算方法，如歐幾里得距離（Euclidian Distance）、余弦相似度等方法。

筆者使用Symmetrized KL divergence，對(duì)數(shù)據(jù)集的文檔進(jìn)行了相似度分析。如期刊《Educational Technology & Society》2006年第9卷第4期的一篇論文《Web-based Tools for Designing and Developing Teaching Materials for Integration of Information Technology into Instruction》，與該論文相似度最高的文獻(xiàn)是：

通過文獻(xiàn)的相似度分析，可以為用戶進(jìn)行文獻(xiàn)推薦。文獻(xiàn)推薦能夠幫助用戶查找相關(guān)主題的文獻(xiàn)，提高文獻(xiàn)查找效率和準(zhǔn)確性，從而有效地提高科技文獻(xiàn)的可用性和價(jià)值。

2 文獻(xiàn)的多維標(biāo)度分析

多維標(biāo)度MDS（Multidimensional scaling）源于心理測(cè)量學(xué)和精神物理學(xué)，最早被運(yùn)用于心理測(cè)量領(lǐng)域。作為一種數(shù)據(jù)分析技術(shù)，MDS通過構(gòu)建一個(gè)或多個(gè)矩陣來表示實(shí)體間的距離或相異程度，并利用各實(shí)體之間的相異性來構(gòu)造多維空間上點(diǎn)的相對(duì)坐標(biāo)圖。構(gòu)造的多維空間上的點(diǎn)與各個(gè)實(shí)體相對(duì)應(yīng)，如果兩個(gè)實(shí)體越相似，則它們對(duì)應(yīng)于空間上的點(diǎn)之間的距離就越近。MDS可以有效地將高維空間中點(diǎn)際之間距離壓縮到了低維空間，并以圖形的形式直觀呈現(xiàn)研究變量之間的相似性關(guān)系，以達(dá)到簡(jiǎn)化數(shù)據(jù)、揭示數(shù)據(jù)潛在規(guī)律的目的，廣泛應(yīng)用于社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、教育學(xué)等研究領(lǐng)域，用于探索性數(shù)據(jù)分析或信息可視化。[7]

我們隨機(jī)選取數(shù)據(jù)集中的20個(gè)文檔進(jìn)行了多維標(biāo)度分析，所得到的二維空間分布圖如下所示，從該圖中我們可以得到如下信息。

（1）相似度高的文檔（主題相近）在空間圖中距離較近。

（2）分散在維度1（Dimension 1）與維度2（Dimension 2）兩端的文檔，在該維度上具有較大的相異性。如在維度1上，文檔20和文檔15分布處于維度兩側(cè)；在維度2上，文檔0和文檔37處于維度兩側(cè)。

（3） 20個(gè)文檔中有兩個(gè)比較明顯的簇集，一個(gè)為：DOC 14、DOC 34、DOC 31、和DOC 40，另一為：DOC 5、DOC 543、DOC 524、DOC 511、DOC 539、DOC 59和DOC 529。每個(gè)簇集中的文檔在主題上具有一定的相似度。

五結(jié)束語(yǔ)

文獻(xiàn)數(shù)據(jù)檢索和挖掘是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的研究?jī)?nèi)容之一，可以有效提高學(xué)術(shù)信息的可用性，使用戶能夠快速準(zhǔn)確地從急劇增長(zhǎng)的科技文獻(xiàn)等自由文本中獲取知識(shí)，更全面的利用海量的文獻(xiàn)資源。下一步的研究將在LDA模型基礎(chǔ)上，綜合考慮文獻(xiàn)的其他要素，如作者信息、引文信息，進(jìn)行文獻(xiàn)網(wǎng)絡(luò)的整體建模，深入對(duì)科技文獻(xiàn)的分析和挖掘，并將研究結(jié)果應(yīng)用于文獻(xiàn)檢索和學(xué)術(shù)推薦系統(tǒng)。

參考文獻(xiàn)

[1] Thomas Hofmann. Probabilistic Latent Semantic Indexing [C]. Proceedings of the 22nd ACM SIGIR International Conference on Research and Development in Information Retrieval, 1999:50–57.

[2] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research[J], 2003,3:993–1022.

[3] Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, et al. Probabilistic Author-Topic Models for Information Discovery[C]. Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:306–315.

[4] Wei Li, Andrew McCallum. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations[C]. Proceedings of the 23rd International Conference on Machine Learning, 2006:577-584.

[5] X.Wang, Andrew McCallum. Topics over Time: a Non-Markov Continuous-time Model of Topical Trends[C]. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006: 424-433.

[6] Thomas L. Griffiths, Mark Steyvers. Finding Scientific Topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(Suppl. 1): 5228-5235.

[7] Ingwer Borg, Patrick Groenen. Modern Multidimensional Scaling: Theory and Applications (2nd Edition) [M]. Springer-Verlag, New York, 2005.

現(xiàn)代教育技術(shù)2009年5期

現(xiàn)代教育技術(shù)的其它文章: 人機(jī)可適應(yīng)性的技術(shù)探索; 關(guān)于開展第三屆全國(guó)實(shí)踐教學(xué)競(jìng)賽的通知; 中國(guó)教育技術(shù)協(xié)會(huì)２００９年工作計(jì)劃; 中國(guó)教育技術(shù)協(xié)會(huì)２００９年年會(huì)征文的通知; 第二屆“教育課題研究與學(xué)術(shù)論文寫作”研修班順利舉行; 網(wǎng)頁(yè)型多媒體課件設(shè)計(jì)與制作