亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向教育技術(shù)學(xué)文獻(xiàn)數(shù)據(jù)的主題挖掘

        2009-07-16 09:33:54
        現(xiàn)代教育技術(shù) 2009年5期

        王 萍

        【摘要】對(duì)網(wǎng)絡(luò)環(huán)境下海量的科技文獻(xiàn)數(shù)據(jù)進(jìn)行文本挖掘可以有效地提高科技文獻(xiàn)信息的可用性,發(fā)現(xiàn)隱藏的知識(shí)。LDA(Latent Dirichlet Allocation)模型是一種能夠提取文本隱含主題的非監(jiān)督學(xué)習(xí)模型。論文基于LDA模型,以三種國(guó)際教育技術(shù)期刊在2004-2008年間出版的學(xué)術(shù)文獻(xiàn)為研究對(duì)象,進(jìn)行了主題挖掘和文獻(xiàn)分析。

        【關(guān)鍵詞】教育技術(shù)學(xué);科技文獻(xiàn);主題挖掘;相似度

        【中圖分類號(hào)】G420 【文獻(xiàn)標(biāo)識(shí)碼】B 【論文編號(hào)】1009—8097(2009)05—0046—05

        引言

        隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)科技文獻(xiàn)資源已經(jīng)成為知識(shí)經(jīng)濟(jì)的重要載體,提供了豐富的數(shù)字化信息資源和大量的文獻(xiàn)數(shù)據(jù)信息,包括電子期刊、電子圖書、學(xué)位論文和電子文檔等。這些電子文獻(xiàn)數(shù)據(jù)在網(wǎng)絡(luò)環(huán)境下呈指數(shù)級(jí)增長(zhǎng),成為一座巨大的知識(shí)寶庫(kù),也為文獻(xiàn)數(shù)據(jù)的管理帶來了新的挑戰(zhàn)。面對(duì)海量的、快速增長(zhǎng)的科學(xué)文獻(xiàn)數(shù)據(jù),即使是領(lǐng)域內(nèi)的專家也無法依靠手工方式從中獲取感興趣的信息。因此采用數(shù)據(jù)挖掘技術(shù)從文獻(xiàn)數(shù)據(jù)庫(kù)中快速有效的提取知識(shí)信息的需求變得非常迫切。

        本文的研究是面向文獻(xiàn)數(shù)據(jù)的文本主題挖掘。文本挖掘主要使用自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)方法從海量文獻(xiàn)中有效地找到所需信息,發(fā)現(xiàn)隱藏的知識(shí)。主題挖掘是通過主題模型從未標(biāo)簽的文獻(xiàn)數(shù)據(jù)中獲得抽象的主題信息,進(jìn)而可以對(duì)主題,研究者等信息進(jìn)行進(jìn)一步的研究和分析。

        文獻(xiàn)數(shù)據(jù)是在科學(xué)研究中,人們發(fā)表的論文及其相關(guān)信息。文獻(xiàn)數(shù)據(jù)包括了大量的信息,如文本信息、作者信息、引用信息、機(jī)構(gòu)信息、時(shí)間信息、社會(huì)信息等。通過對(duì)文獻(xiàn)數(shù)據(jù)進(jìn)行分析和挖掘,可以發(fā)現(xiàn)大量有用或潛在的知識(shí),能夠有效地提高研究者對(duì)科技文獻(xiàn)的整理和總結(jié),對(duì)研究領(lǐng)域的理解和把握,進(jìn)而幫助和指導(dǎo)研究者開展更加有效的科學(xué)研究工作。

        在教育技術(shù)學(xué)領(lǐng)域,現(xiàn)在每年出版的國(guó)內(nèi)外教育技術(shù)學(xué)相關(guān)的專業(yè)期刊和會(huì)議論文集有數(shù)十種,但對(duì)于大規(guī)模科技文獻(xiàn)的數(shù)據(jù)分析和挖掘研究還較少。如何對(duì)這些文獻(xiàn)進(jìn)行自動(dòng)化的內(nèi)容分析,挖掘隱藏的知識(shí),提高文獻(xiàn)信息的可用性,從而幫助教育技術(shù)研究者更好地利用文獻(xiàn)資源,是本文研究的主要目標(biāo)。

        一 主題模型

        1主題模型概述

        主題模型(Topic Models)研究的主要目標(biāo),就是可以在不需要計(jì)算機(jī)真正理解自然語(yǔ)言的情況下,提取可以被人理解的、相對(duì)穩(wěn)定的隱含語(yǔ)義結(jié)構(gòu),為大規(guī)模數(shù)據(jù)集中的文檔尋找一個(gè)相對(duì)短的描述。當(dāng)我們得到一個(gè)大規(guī)模的文本數(shù)據(jù)集或者是其他類型的離散數(shù)據(jù)集合時(shí),為了便于理解,總是希望找到這個(gè)龐大的數(shù)據(jù)集的一個(gè)簡(jiǎn)短描述和概括,來代表或是反映出整個(gè)數(shù)據(jù)集的特征信息。對(duì)文本數(shù)據(jù)來說,就是抽取出一個(gè)或幾個(gè)主題這樣的抽象概念來描述整個(gè)文本數(shù)據(jù)集。例如一組論文,如果知道它的主題主要是關(guān)于數(shù)字化學(xué)習(xí)和教學(xué)設(shè)計(jì)的,那么它所包含的論文也是和這兩個(gè)主題相關(guān)的,由此可以根據(jù)個(gè)人的需求選擇是否閱讀這些文章。

        一個(gè)文本通常包括若干主題,而文本中的特定詞匯體現(xiàn)出所討論的特定主題。主題抽取模型的主要思想是:認(rèn)為一篇文檔可以理解成是由若干個(gè)主題組合形成的,而主題則可以理解成為是詞的一種概率分布。主題模型通過參數(shù)估計(jì)從文本集合中提取一個(gè)低維的多項(xiàng)式分布集合,用于捕獲詞之間的相關(guān)信息,稱為主題(Topic)。不同的模型會(huì)進(jìn)一步作不同的統(tǒng)計(jì)假設(shè),以不同的方式獲取模型參數(shù)。

        2 概率生成與統(tǒng)計(jì)推斷

        主題模型是一種生成式模型,可以根據(jù)主題模型所指定的一組概率程序,來創(chuàng)建出一個(gè)新的文檔。首先選擇一個(gè)文檔的主題概率分布,根據(jù)這個(gè)概率分布,每次隨機(jī)的從中選出一個(gè)主題,再根據(jù)這個(gè)主題在單詞上的概率分布,生成這個(gè)文檔的一個(gè)個(gè)單詞,這樣就可以產(chǎn)生一個(gè)新的文檔(盡管里面的詞可能不具有組成句子或更深層次語(yǔ)義的邏輯順序)。如圖1左側(cè)的概率生成過程描述了兩個(gè)主題。主題1與“教學(xué)”有關(guān),主題2與“軟件”有關(guān),每個(gè)主題中有若干詞匯,從不同的主題中選取詞,可以組成一個(gè)文檔。如文檔1是由主題1中抽樣單詞組成,文檔3是由主題2中抽樣單詞組成,文檔2則分別從主題1和主題2中抽取單詞組成。

        如果有了概率生成模型,對(duì)這個(gè)生成模型進(jìn)行逆向操作可以得到主題信息。即已經(jīng)有了一些文檔的集合,需要反過來推斷這個(gè)文檔集合具體的主題概率分布以及每個(gè)主題在詞上的概率分布。圖1右側(cè)描述了統(tǒng)計(jì)推斷的過程。

        二 Latent Dirichlet Allocation(LDA)模型

        統(tǒng)計(jì)主題模型的思想最早來源于隱含語(yǔ)義索引(Latent Semantic Indexing,LSI),其工作原理是利用矩陣?yán)碚撝械摹捌娈愔捣纸猓⊿ingular Value Decomposition,SVD)”技術(shù),將高維度的詞匯--文檔共現(xiàn)矩陣映射到低維度的潛在語(yǔ)義空間,在該空間中,來自詞--文檔矩陣的語(yǔ)義關(guān)系被保留,同時(shí)詞用法的變異(如同義性、多義性)被抑制。Hofmann提出的概率隱含語(yǔ)義索引(Probabilistic Latent Semantic Indexing,PLSI)[1]模型將LSI擴(kuò)展到概率統(tǒng)計(jì)的框架下,通過概率模型來模擬文檔中詞的產(chǎn)生過程。它將文檔d表示為一個(gè)主題混合,文檔中每個(gè)詞作為主題混合中的一個(gè)抽樣。但是PLSI并沒有用一個(gè)概率模型來模擬文檔的產(chǎn)生,只是通過對(duì)訓(xùn)練集中的有限文檔進(jìn)行擬合,得到特定文檔的主題混合比例。這個(gè)過程導(dǎo)致PLSI模型參數(shù)隨著訓(xùn)練集中文檔數(shù)目線性增加,出現(xiàn)過度擬合現(xiàn)象,而且,對(duì)于訓(xùn)練集以外的文檔,很難分配合適的概率。

        針對(duì)PLSI所存在問題,Blei等在2003年提出了Latent Dirichlet Allocation(LDA)[2],在PLSI的基礎(chǔ)上,用一個(gè)服從Dirichlet分布的K維隱含隨機(jī)變量表示文檔的主題混合比例,模擬文檔的產(chǎn)生過程。在文本的產(chǎn)生過程中,LDA首先從Dirichlet分布中抽樣產(chǎn)生一個(gè)文本特定的主題多項(xiàng)式分布;然后對(duì)這些主題反復(fù)抽樣產(chǎn)生文本中的每個(gè)詞。作為一種生成式模型,用LDA提取隱含語(yǔ)義結(jié)構(gòu)和表示文檔已經(jīng)成功的應(yīng)用到很多文本相關(guān)的領(lǐng)域。在LDA的基礎(chǔ)上,很多研究人員根據(jù)不同的應(yīng)用需求,開發(fā)了多種模型,如Author-Topic Model[3]、Pachinko Allocation Model(PAM) [4]、ToT(Topic over Time) Model[5]等。

        1 LDA模型[2]

        LDA是一個(gè)多層的生成式概率模型,包含文檔、主題和詞三層結(jié)構(gòu)。LDA將每個(gè)文檔表示為一個(gè)主題混合,每個(gè)主題是固定詞表上的一個(gè)多項(xiàng)式分布,這些主題被集合中的所有文檔所共享;每個(gè)文檔有一個(gè)特定的主題比例,從Dirichlet分布中抽樣產(chǎn)生。LDA的圖模型表示如圖2所示,其中的變量及含義如表1所示。

        (空心點(diǎn)表示隱含變量,實(shí)心點(diǎn)表示可觀察值)

        給定一個(gè)文檔集合C,包含D個(gè)文檔和W個(gè)不同的詞,D={d1,d2,…,dD},每個(gè)文檔d包含一個(gè)詞序列{w1, w2, . . . ,wN},假定主題數(shù)目固定為T,LDA模型產(chǎn)生文本的過程為:

        (1)從參數(shù)為β的Dirichlet分布中,抽取 ~Dirichlet(β),i∈{1,2,…,T},其中 為一個(gè)多項(xiàng)式分布,表示基于主題 的詞分布。

        (2) 一個(gè)文檔d的產(chǎn)生可以表示為以下兩個(gè)過程:

        ① 從參數(shù)為α的Dirichlet分布選取一個(gè)多項(xiàng)式分布θd表示文檔d中主題的組成,即θd~Dirichlet (α)

        ② 文檔d中的每個(gè)詞w的產(chǎn)生。

        ? 從多項(xiàng)式分布θd中選取一個(gè)主題z~Multinomial(θd)。

        ? 從多項(xiàng)式分布 中選取單詞w~Multinomial( )。

        2 LDA模型的統(tǒng)計(jì)推斷

        對(duì)于主題抽取的需求來說,需要對(duì)概率生成模型的逆操作,推斷給定數(shù)據(jù)集隱含變量的后驗(yàn)分布信息,包括:(1)每篇文檔的主題分布θ;(2)每個(gè)文檔集合的主題-詞分布 ;(3) 每個(gè)單詞的主題指派z。近似推理(Approximate Inference)常用的方法有:馬爾科夫鏈蒙特卡洛方法(Markov Chain Monte Carlo:MCMC)、變分法(Variational Methods)等。Gibbs抽樣算法是一種馬爾科夫鏈蒙特卡洛方法,它通過一次次的采樣來最終逼近目標(biāo)概率分布,是一種有效的推理方法。

        為了獲取詞匯的概率分布,這里沒有將θ和 作為參數(shù)直接計(jì)算,而是考慮詞匯對(duì)于主題的后驗(yàn)概率p(w|z),利用Gibbs抽樣間接求得θ和 的值[6]。計(jì)算公式為:

        其中,zi=j表示將詞wi分配給主題j,z-i表示所有zk(k≠i)的分配, 是分配給主題j與wi相同的詞匯個(gè)數(shù); 是分配給主題j的所有詞匯個(gè)數(shù); 是文本di中分配給主題j的詞匯個(gè)數(shù); 是di中所有被分配了主題的詞匯個(gè)數(shù);其中所有詞匯個(gè)數(shù)均不包括這次zi=j的分配。

        對(duì)于每一個(gè)單一樣本,可以按下式估算θ和 的值:

        其中, 表示詞匯w被分配給主題j的頻數(shù); 表示分配給主題j的所有詞數(shù); 表示文本d中分配給主題j的詞數(shù); 表示文本d所有被分配了主題的詞數(shù)。

        三 基于LDA的教育技術(shù)學(xué)文獻(xiàn)主題挖掘

        筆者選取了教育技術(shù)學(xué)領(lǐng)域的三種影響力較大的國(guó)際期刊《Educational Technology Research and Development》、《Education and Information Technologies》和《Journal of Educational Technology & Society》進(jìn)行了文獻(xiàn)主題挖掘。在內(nèi)容選取上,選取了2004-2008年三種期刊已發(fā)表的所有論文題目和摘要的文本數(shù)據(jù),數(shù)據(jù)集如表2所示:

        1 數(shù)據(jù)集

        2 主題分析

        基于LDA模型,使用Gibbs抽樣法,模型參數(shù)為:α=0.6,β=0.01,主題數(shù)=80,取樣次數(shù)=3000,對(duì)數(shù)據(jù)集進(jìn)行運(yùn)算,計(jì)算出主題--詞分布和文檔--主題分布。表3是所抽取的主題示例。

        文檔--主題分布反映了文獻(xiàn)內(nèi)容的特點(diǎn),即文獻(xiàn)所涉及的主題或研究層面。如期刊《Educational Technology Research and Development》2007年12月第55卷第6期的一篇論文《Toward an instructional design model based on learning objects》,其主題分布中概率值最大的三個(gè)主題為Topic 45(教學(xué)設(shè)計(jì))、Topic 59(學(xué)習(xí)對(duì)象)、Topic 71(遠(yuǎn)程教學(xué)),表明了該論文的內(nèi)容主要涉及了這三個(gè)研究層面。

        四 文獻(xiàn)分析

        基于文獻(xiàn)集合中提取出來的主題,可以對(duì)文獻(xiàn)進(jìn)行相似度分析。如果一些文獻(xiàn)呈現(xiàn)某些相同的主題,則其文獻(xiàn)意義間具有一定的相似度。

        1 基于K-L Divergence的文獻(xiàn)相似度分析

        兩個(gè)文檔d1和d2之間的相似度可以通過其主題分布θd1和θd2來進(jìn)行測(cè)量。一種常用的對(duì)概率分布之間差異進(jìn)行度量的方法是通過Kullback-Leibler Divergence,也稱為K-L散度和相對(duì)熵(Relative Entropy)。兩個(gè)概率分布p和q的Kullback-Leibler Divergence定義為: 。

        K-L散度本身是非對(duì)稱性的,在很多應(yīng)用場(chǎng)合下,常使用Symmetrized K-L Divergence和Jensen-Shannon Divergence,它們具有對(duì)稱性的特點(diǎn),在實(shí)際的應(yīng)用中也有較好的效果。對(duì)稱性K-L散度(Symmetrized KL divergence)定義為: 。Jensen-Shannon Divergence定義為: ,其中,M=(p+q)/2。除此之外,對(duì)文檔相似度的計(jì)算還可以通過其他相似度計(jì)算方法,如歐幾里得距離(Euclidian Distance)、余弦相似度等方法。

        筆者使用Symmetrized KL divergence,對(duì)數(shù)據(jù)集的文檔進(jìn)行了相似度分析。如期刊《Educational Technology & Society》2006年第9卷第4期的一篇論文《Web-based Tools for Designing and Developing Teaching Materials for Integration of Information Technology into Instruction》,與該論文相似度最高的文獻(xiàn)是:

        通過文獻(xiàn)的相似度分析,可以為用戶進(jìn)行文獻(xiàn)推薦。文獻(xiàn)推薦能夠幫助用戶查找相關(guān)主題的文獻(xiàn),提高文獻(xiàn)查找效率和準(zhǔn)確性,從而有效地提高科技文獻(xiàn)的可用性和價(jià)值。

        2 文獻(xiàn)的多維標(biāo)度分析

        多維標(biāo)度MDS(Multidimensional scaling)源于心理測(cè)量學(xué)和精神物理學(xué),最早被運(yùn)用于心理測(cè)量領(lǐng)域。作為一種數(shù)據(jù)分析技術(shù),MDS通過構(gòu)建一個(gè)或多個(gè)矩陣來表示實(shí)體間的距離或相異程度,并利用各實(shí)體之間的相異性來構(gòu)造多維空間上點(diǎn)的相對(duì)坐標(biāo)圖。構(gòu)造的多維空間上的點(diǎn)與各個(gè)實(shí)體相對(duì)應(yīng),如果兩個(gè)實(shí)體越相似,則它們對(duì)應(yīng)于空間上的點(diǎn)之間的距離就越近。MDS可以有效地將高維空間中點(diǎn)際之間距離壓縮到了低維空間,并以圖形的形式直觀呈現(xiàn)研究變量之間的相似性關(guān)系,以達(dá)到簡(jiǎn)化數(shù)據(jù)、揭示數(shù)據(jù)潛在規(guī)律的目的,廣泛應(yīng)用于社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)、教育學(xué)等研究領(lǐng)域,用于探索性數(shù)據(jù)分析或信息可視化。[7]

        我們隨機(jī)選取數(shù)據(jù)集中的20個(gè)文檔進(jìn)行了多維標(biāo)度分析,所得到的二維空間分布圖如下所示,從該圖中我們可以得到如下信息。

        (1) 相似度高的文檔(主題相近)在空間圖中距離較近。

        (2) 分散在維度1(Dimension 1)與維度2(Dimension 2)兩端的文檔,在該維度上具有較大的相異性。如在維度1上,文檔20和文檔15分布處于維度兩側(cè);在維度2上,文檔0和文檔37處于維度兩側(cè)。

        (3) 20個(gè)文檔中有兩個(gè)比較明顯的簇集,一個(gè)為:DOC 14、DOC 34、DOC 31、和DOC 40,另一為:DOC 5、DOC 543、DOC 524、DOC 511、DOC 539、DOC 59和DOC 529。每個(gè)簇集中的文檔在主題上具有一定的相似度。

        五 結(jié)束語(yǔ)

        文獻(xiàn)數(shù)據(jù)檢索和挖掘是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域的研究?jī)?nèi)容之一,可以有效提高學(xué)術(shù)信息的可用性,使用戶能夠快速準(zhǔn)確地從急劇增長(zhǎng)的科技文獻(xiàn)等自由文本中獲取知識(shí),更全面的利用海量的文獻(xiàn)資源。下一步的研究將在LDA模型基礎(chǔ)上,綜合考慮文獻(xiàn)的其他要素,如作者信息、引文信息,進(jìn)行文獻(xiàn)網(wǎng)絡(luò)的整體建模,深入對(duì)科技文獻(xiàn)的分析和挖掘,并將研究結(jié)果應(yīng)用于文獻(xiàn)檢索和學(xué)術(shù)推薦系統(tǒng)。

        參考文獻(xiàn)

        [1] Thomas Hofmann. Probabilistic Latent Semantic Indexing [C]. Proceedings of the 22nd ACM SIGIR International Conference on Research and Development in Information Retrieval, 1999:50–57.

        [2] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research[J], 2003,3:993–1022.

        [3] Mark Steyvers, Padhraic Smyth, Michal Rosen-Zvi, et al. Probabilistic Author-Topic Models for Information Discovery[C]. Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004:306–315.

        [4] Wei Li, Andrew McCallum. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations[C]. Proceedings of the 23rd International Conference on Machine Learning, 2006:577-584.

        [5] X.Wang, Andrew McCallum. Topics over Time: a Non-Markov Continuous-time Model of Topical Trends[C]. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2006: 424-433.

        [6] Thomas L. Griffiths, Mark Steyvers. Finding Scientific Topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(Suppl. 1): 5228-5235.

        [7] Ingwer Borg, Patrick Groenen. Modern Multidimensional Scaling: Theory and Applications (2nd Edition) [M]. Springer-Verlag, New York, 2005.

        中文字幕在线久热精品| 亚洲av无一区二区三区久久| a级毛片无码久久精品免费 | 精品国产免费一区二区三区| 欧美巨大性爽| 亚洲九九九| 国产毛片精品av一区二区| 国产成人精品亚洲日本在线观看| 国产精品国产三级国产av′| 久久久久久久久国内精品影视| 精品麻豆一区二区三区乱码| 亚洲av无码专区亚洲av网站| 红杏亚洲影院一区二区三区| 一区二区三区不卡免费av| 午夜精品免费视频一区二区三区| 精品久久久久久成人av| 四虎永久免费影院在线| 日韩一区二区三区天堂| 国产精品亚洲av三区亚洲| 99re热视频这里只精品 | 日韩精品极品在线观看视频| 痴汉电车中文字幕在线| 影音先锋男人站| 亚洲欧美日韩精品中文乱码| 日韩精品午夜视频在线| 国产亚洲精品成人aa片新蒲金| 久久久久无码国产精品不卡| 日韩女优中文字幕在线| 97cp在线视频免费观看| 中文字幕一区在线观看视频| 中文字幕人成人乱码亚洲| 一区二区三区日韩蜜桃| 亚洲中文字幕无码av| 国产亚洲精品bt天堂| 日本加勒比一道本东京热| 久久精品中文字幕无码绿巨人| 永久免费无码av在线网站 | 天堂√最新版中文在线天堂| 久久婷婷国产五月综合色| 午夜秒播久久精品麻豆| 亚洲欧洲无码一区二区三区|