尹莉
[摘要]概念圖是一種知識(shí)以及知識(shí)之間關(guān)系的網(wǎng)絡(luò)圖形化表征。本研究中將圖結(jié)構(gòu)的非參數(shù)先驗(yàn)與潛在狄里克來(lái)分布結(jié)合在一起,構(gòu)建了一個(gè)新的概率模型GLDA,用來(lái)學(xué)習(xí)文檔中的概念圖。并將此模型應(yīng)用于維基百科中關(guān)于機(jī)器學(xué)習(xí)的文獻(xiàn)集合加以驗(yàn)證,同時(shí)與高階彈球分布模型(hPAM)與高階潛在狄里克來(lái)分布模型(hLDA)進(jìn)行了比較,對(duì)模型的優(yōu)缺點(diǎn)進(jìn)行了分析。
[關(guān)鍵詞]概念圖;潛在狄里克來(lái)分布;彈球分布模型;機(jī)器學(xué)習(xí)
DOI:10.3969/i.issn.1008-0821.2015.01.017
[中圖分類(lèi)號(hào)]G254.0 [文獻(xiàn)標(biāo)識(shí)碼]B [文章編號(hào)]1008-0821(2015)01-0091-05
概念圖(conceptmap)是一種知識(shí)以及知識(shí)之間關(guān)系的網(wǎng)絡(luò)圖形化表征,它是一種用節(jié)點(diǎn)代表概念、連線表示概念間關(guān)系的圖示法??的螤柎髮W(xué)的約瑟夫·D·諾瓦克(Joserph D.Novak)教授于20世紀(jì)70發(fā)展出概念圖繪制技巧。一幅概念圖通常由“節(jié)點(diǎn)”、“鏈接”和“有關(guān)文字標(biāo)注”組成。概念圖對(duì)于知識(shí)表征、協(xié)同與組織溝通、教育、教學(xué)設(shè)計(jì)、訓(xùn)練等領(lǐng)域都有重要的應(yīng)用。概念圖對(duì)于總結(jié)文獻(xiàn)集合很有用,并且可以提供一種語(yǔ)義內(nèi)容和大文獻(xiàn)集合結(jié)構(gòu)的可視化。概念圖的一個(gè)典型例子就是維基百科中的分類(lèi)圖,如圖1就是維基百科中關(guān)于機(jī)器學(xué)習(xí)的分類(lèi)圖的一部分子圖,從這個(gè)圖中我們能夠很快推斷出維基百科中機(jī)器學(xué)習(xí)方面的文章主要強(qiáng)調(diào)的是算法和馬爾科夫模型的演化。
本研究中,將展示一個(gè)新的生成概率模型GLDA(Graph Latent Dirichlet Allocationh),來(lái)學(xué)習(xí)文本中的概念圖,并對(duì)模型進(jìn)行檢驗(yàn),應(yīng)用于維基百科的文獻(xiàn)集合進(jìn)行試驗(yàn),最后對(duì)模型進(jìn)行了評(píng)價(jià)。本研究將在LDA、PAM、stickbreaking分布的基礎(chǔ)上,設(shè)計(jì)新的生成模型,并解釋它怎樣適用于原始的圖結(jié)構(gòu)。并對(duì)模型獲得了吉布斯抽樣方程,而且在模擬數(shù)據(jù)和真實(shí)文本數(shù)據(jù)上的進(jìn)行了一系列實(shí)驗(yàn),最后將模型的性能與分層潛在狄里克來(lái)分布和分層Pachinko分布模型進(jìn)行了比較,對(duì)該模型的優(yōu)點(diǎn)和局限性進(jìn)行了討論。
1.理論基礎(chǔ)
1.1潛在狄里克萊分布(Laten Dirichlet Auocation)
LDA是給文本建模的一種方法,屬于生成模型,足能夠在文獻(xiàn)收集中自動(dòng)識(shí)別主題的概率模型??梢杂脕?lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。它采用詞袋的方法,將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。由于Didchlet分布隨機(jī)向量各分量問(wèn)的弱相關(guān)性,標(biāo)準(zhǔn)的LDA模型并不包括主題之間的任何關(guān)系、依賴。
4.結(jié)論
本研究中我們將圖結(jié)構(gòu)的非參數(shù)先驗(yàn)與潛在狄里克來(lái)分布結(jié)合在一起,構(gòu)建了一個(gè)新的概率模型GraphlA)A,用來(lái)學(xué)>J文檔中的概念圖。主要貢獻(xiàn)如下:
第一,我們展示了一個(gè)可能有無(wú)限多節(jié)點(diǎn)的有根節(jié)點(diǎn)、有向的無(wú)環(huán)圖的一個(gè)可能的非參數(shù)先驗(yàn)。將圖結(jié)構(gòu)的非參數(shù)先驗(yàn)與潛在狄里克來(lái)分布結(jié)合在一起,構(gòu)建了一個(gè)新的概率模型叫做GraphLDA,用來(lái)學(xué)習(xí)文檔中的概念圖。第二,我們展示了GraphLDA如何能夠被用來(lái)學(xué)習(xí)文獻(xiàn)集合中的概念圖,如何能用來(lái)更新新的標(biāo)簽文獻(xiàn)中的圖結(jié)構(gòu)。解釋了GraphLDA在一個(gè)模擬文獻(xiàn)集合中的執(zhí)行情況,在這個(gè)集合中我們?cè)黾恿吮粯?biāo)注的文獻(xiàn)的比例以用來(lái)進(jìn)行訓(xùn)練學(xué)習(xí)。笫三,將GraphLDA的執(zhí)行與高階Pachinko分布模型(hPAM)與高階潛在狄里克來(lái)分布模型(hLDA)進(jìn)行了比較。解釋了,GraphLDA在維基百科分類(lèi)圖中的應(yīng)用。我們展示了GLDA如何被用來(lái)更新維基百科中的圖的部分,以機(jī)器學(xué)習(xí)方面的文獻(xiàn)集合為例進(jìn)行了說(shuō)明。
研究提出的問(wèn)題是學(xué)習(xí)一個(gè)給定文獻(xiàn)集合的概念圖,在這個(gè)集合中給文獻(xiàn)標(biāo)注上概念標(biāo)簽,可以得到一個(gè)原始的圖結(jié)構(gòu)。要得到一個(gè)原始圖結(jié)構(gòu),任務(wù)就是識(shí)別語(yǔ)料庫(kù)中沒(méi)有在圖中反映出來(lái)的那些概念,或者是圖中沒(méi)有反映出來(lái)的語(yǔ)料庫(kù)中的概念之間的關(guān)系(通過(guò)文獻(xiàn)中概念的共現(xiàn)關(guān)系實(shí)現(xiàn))。這個(gè)模型對(duì)維基百科這樣的文獻(xiàn)集合來(lái)說(shuō)尤為適合,因?yàn)樵诰S基百科中文章集合變化得非???,以至于自動(dòng)方法用來(lái)更新概念圖比手工編輯或者重新學(xué)習(xí)分類(lèi)更合適。這個(gè)方法一個(gè)很重要的拓展就是應(yīng)用到大圖中,這是很有意義的一個(gè)實(shí)踐。在抽樣過(guò)程中計(jì)算每一條路徑的概率也是值得去研究的一個(gè)課題,尤其足算法,M樣,還可以探討模型如何能夠處理每個(gè)文獻(xiàn)中的多重路徑。endprint