馬林山 郭磊
〔摘要〕文章概述了主題概率模型(LDA)的計(jì)算原理和方法,以及開(kāi)源R語(yǔ)言中l(wèi)da程序包采用快速壓縮吉普抽樣算法分析語(yǔ)料庫(kù)的處理流程。設(shè)計(jì)了基于LDA模型的查新輔助分析系統(tǒng)設(shè)計(jì)功能框架,對(duì)其功能、編程實(shí)現(xiàn)思路和工作流程做了描述。最后結(jié)合課題查新實(shí)例,詳述了采用LDA模型通過(guò)相關(guān)文獻(xiàn)關(guān)鍵詞進(jìn)行潛在主題挖掘,對(duì)比分析課題研究?jī)?nèi)容,對(duì)課題給出客觀評(píng)價(jià)的過(guò)程。結(jié)果表明,基于主題模型的查新輔助分析系統(tǒng)可以快速有效挖掘相關(guān)文獻(xiàn)主題,降低查新員對(duì)相關(guān)文獻(xiàn)的分析難度,提高課題評(píng)價(jià)的客觀性,整體輔助分析效果良好。
〔關(guān)鍵詞〕主題模型;R語(yǔ)言;查新;課題評(píng)價(jià)
DOI:10.3969/j.issn.1008-0821.2018.02.018
〔中圖分類號(hào)〕TP31152;G2507〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2018)02-0111-05
Research on Design of Novelty Retrieval Aided Analysis
System Based on LDA Model
Ma Linshan1Guo Lei2
(1.Library,Hefei University,Hefei 230022,China;
2.Library,University of Science and Technology of China,Hefei 230026,China)
〔Abstract〕This paper summarized the calculation principle and method of Latent Dirichlet Allocation(LDA),and the treatment flowsheet using the fast collapsed Gibbs samplings algorithm to analyze the corpus in open source R language.The paper designed the function framework of the novelty retrieval aided analysis system based on LDA model,and described its functions,programming mentality and workflow.Finally,with a novelty retrieval case,this paper explained the basic process of using LDA model,mining potential theme using the keywords of relevant literature,comparing comparative analysis the subject of research content,giving an objective to the research topic.The results showed that the novelty retrieval aided analysis system based on LDA could quickly and effectively mining related literature,reduced the difficulty of analyzing relevant literature topics to Novelty Consultant,improved the objectivity of evaluation subject.The overall analysis effect was good.
〔Key words〕latent dirichlet allocation;R language;novelty retrieval;subject evaluation
科技查新是指查新機(jī)構(gòu)對(duì)委托人課題的科學(xué)技術(shù)內(nèi)容,通過(guò)檢索文獻(xiàn),對(duì)比觀點(diǎn)分析,做出新穎性客觀公正評(píng)價(jià)的過(guò)程。其在科學(xué)研究、開(kāi)發(fā)產(chǎn)品、科技管理活動(dòng)中扮演十分重要的角色。查新的結(jié)果一般是一份規(guī)范的報(bào)告,但是其過(guò)程是十分復(fù)雜的腦力智慧勞動(dòng)。查新員不僅要弄清楚委托人的研究?jī)?nèi)容,還要利用相關(guān)檢索技巧,搜集到相關(guān)的文獻(xiàn),并從中分析出與委托人研究點(diǎn)的異同。一個(gè)高質(zhì)量的查新,周期一般3~5個(gè)工作日,智力勞動(dòng)強(qiáng)度非常大,需要查新員全身心的投入。為了有效幫助查新員,減輕其工作負(fù)擔(dān),在信息技術(shù)的支持下,出現(xiàn)了一些查新委托系統(tǒng),從訂單委托,報(bào)告格式生成等形式上實(shí)現(xiàn)自動(dòng)化。對(duì)于查新分析評(píng)價(jià)內(nèi)容方面,探討較少,基本思路還是交給查新員手動(dòng)完成。
隨著信息技術(shù)的發(fā)展,特別是大數(shù)據(jù)挖掘技術(shù)的發(fā)展,從大量數(shù)據(jù)中智能分析出評(píng)價(jià)預(yù)測(cè)觀點(diǎn)的方法越來(lái)越多,并且日益成熟。其中基于文本挖掘的聚類方法、潛在主題的挖掘LDA模型方法,應(yīng)用日益廣泛。文章計(jì)劃立足于文本聚類挖掘方法,探討構(gòu)建科技查新輔助分析系統(tǒng),幫助查新員從檢索到的文獻(xiàn)中提取潛在主題,有效減輕查新員的對(duì)比分析負(fù)擔(dān),極大提高查新的效率和智能性。
1LDA模型
LDA(Latent Dirichlet Allocation)模型是一種典型的用于主題提取的概率潛語(yǔ)義模型,由Blei等在2003年提出,是一種具有文本主題表示能力的非指導(dǎo)學(xué)習(xí)模型,已經(jīng)成功應(yīng)用到文本分類、信息檢索等諸多文本相關(guān)領(lǐng)域[1]。其內(nèi)在結(jié)構(gòu)非常清晰。如圖1所示,LDA模型假設(shè)一篇文檔(Document)由多個(gè)隱含主題隨機(jī)組成,文檔的主題(Topic)是由一系列相關(guān)聯(lián)的詞匯構(gòu)成。文檔語(yǔ)料集(Corpus)是由若干文檔構(gòu)成?;谶@一假設(shè),可將隱含主題看做詞匯的概率分布(Topic~Word),單個(gè)文檔可表示為這些隱含主題的概率分布(Doc~Topic),該模型有利于大規(guī)模數(shù)據(jù)處理中的空間降維,將文檔投影到Topic空間。另外,該模型中詞匯之間假設(shè)無(wú)關(guān)聯(lián)性,不考慮語(yǔ)法和詞序,即所謂的“Bag of Words”假設(shè)[2]。
LDA模型假設(shè)一篇文檔中的主題序列z={z1,z2,z3,…}是可交換順序,并且其中每一個(gè)主題zi服從參數(shù)為θ的多項(xiàng)分布,zi~Multinomial(θ),N個(gè)詞語(yǔ)對(duì)應(yīng)的主題有(依據(jù)de Finetti定理):p(z1,z2,…,zN)=∫∏Ni=1p(zi|θ) p(θ)dθ;文檔中的詞語(yǔ)由給定主題的條件分布生成,即wi~p(wi|zi)。從而文檔中詞語(yǔ)和主題的概率模型可表示為:p(w,z)=∫p(θ)(∏Ni=1p(zi|θ)p(wi|zi))dθ。p(zi|θ)表示每個(gè)文檔中各個(gè)主題出現(xiàn)的概率,可理解為一篇文檔中每個(gè)主題所占的比例;p(wi|zi)表示在每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率,p(w,z)表示的是每個(gè)文檔中各個(gè)詞語(yǔ)出現(xiàn)的概率。這個(gè)概率可通過(guò)如下步驟得到:第一步,先對(duì)文檔進(jìn)行分詞,得到一個(gè)詞語(yǔ)列表,從而將文檔表示為一個(gè)詞語(yǔ)的集合;第二步,計(jì)算每個(gè)詞語(yǔ)在列表中出現(xiàn)的頻率,以這個(gè)頻率作為這個(gè)詞語(yǔ)在文檔中出現(xiàn)的概率。因此,對(duì)于任意一篇長(zhǎng)度為N的文檔,p(w,z)是已知的,而p(zi|θ)和p(wi|zi)未知。需要利用大量的文本數(shù)據(jù)p(w,z),訓(xùn)練得出p(zi|θ)和p(wi|zi),進(jìn)而獲得文檔的主題信息[2]。
LDA模型生成一篇文檔的步驟如下:
1)選擇N~poission(γ),N為文檔長(zhǎng)度(文檔中詞語(yǔ)的數(shù)量);
2)選擇θ~Dirichlet(α),θ為k維列變量,代表文檔中k個(gè)主題發(fā)生的概率,其中k被假設(shè)為固定且已知的量;
3)對(duì)于N個(gè)詞語(yǔ)中的每一個(gè):
①選擇主題zi~Multinomial(θ),主題zi服從參數(shù)為θ的多項(xiàng)式分布。
②在選定的主題zi下選擇詞語(yǔ)wi~p(wi|zi,β),其中p(wi|zi,β)為給定的zi條件下的多項(xiàng)分布,參數(shù)β是一個(gè)k×N矩陣,βij=p(wj=1|zi=1),表示主題i下生成單詞j的概率。每個(gè)文檔所對(duì)應(yīng)的概率密度函數(shù)為:
P(w|α,β)=∫P(θ|α)(∏Ni=1∑ziP(zi|θ)P(wi|zi,β))dθ
LDA模型的層次結(jié)構(gòu)如圖2所示,該圖模型由外到內(nèi)依次表示LDA模型的文檔語(yǔ)料集層、文檔層和詞層[3]。
2LDA模型的實(shí)現(xiàn)
采用LDA模型挖掘文本中的主題,實(shí)際上就是估計(jì)參數(shù)α和β。α反映主題的概率性質(zhì),β反映詞語(yǔ)在給定主題下的概率性質(zhì)。Blei提出LDA模型時(shí),在EM算法中結(jié)合了變分推斷來(lái)估計(jì)參數(shù)α和β。2004年,Griffiths和Steyvers在Blei提出的原始LDA模型上增加了參數(shù)β的先驗(yàn)Dirichlet分布,即β~Dir(η);進(jìn)而他們提出了用于這個(gè)LDA模型的估計(jì)壓縮吉普抽樣(Collapsed Gibbs Sampling)算法。EM算法下的變分推斷計(jì)算速度相對(duì)更快,而Collapsed Gibbs Sampling的估計(jì)準(zhǔn)確率更高。在壓縮吉普抽樣算法的基礎(chǔ)上,又提出了快速壓縮吉普抽樣(Fast Collapsed Gibbs Sampling)算法,在保證了估計(jì)準(zhǔn)確率的條件下,大大提高了估計(jì)的計(jì)算效率。目前在各種軟件編程中應(yīng)用較多的是Gibbs Sampling算法[4]。
開(kāi)源解釋型語(yǔ)言R中的lda程序包封裝實(shí)現(xiàn)了LDA模型求解。該包使用的是快速壓縮吉普抽樣算法。分析處理流程如圖3所示。
首先要整理文檔,形成數(shù)據(jù)源,一般是txt或者Excel格式的文本文檔。其次,對(duì)文檔中的文本進(jìn)行分詞,形成詞條。因英文語(yǔ)句中單詞與單詞之間有空格分割,切分比
較方便,且準(zhǔn)確率高;R語(yǔ)言中中文分詞較好的是Rwordseg包,它使用rJava調(diào)用Java中文分詞工具Ansj來(lái)實(shí)現(xiàn)分詞。分詞時(shí)能標(biāo)記出名詞、動(dòng)詞、形容詞等詞的屬性,且能按照詞性再進(jìn)一步提取。第三,利用R語(yǔ)言中的tm包,生成語(yǔ)料庫(kù)(Corpus)和文檔(Document)的內(nèi)存表示,表現(xiàn)為詞匯向量、數(shù)據(jù)框等。第四,生成詞條和文檔對(duì)應(yīng)的關(guān)系矩陣,便于詞匯與對(duì)應(yīng)文檔的核對(duì)分析。最后利用相關(guān)函數(shù)和lda包中的函數(shù),進(jìn)行高頻詞統(tǒng)計(jì)、生成詞條出現(xiàn)頻次散點(diǎn)圖、詞云、分析相關(guān)性詞條以及羅列挖掘出的主題等等。
求解LDA模型,采用Fast Collapsed Gibbs Sampling算法。要給定主題個(gè)數(shù)k的取值以及參數(shù)α和β的初始值。因參數(shù)α和β的估計(jì)值需經(jīng)反復(fù)迭代得出,初始值的設(shè)定對(duì)模型最終結(jié)果影響不大,一般可隨機(jī)設(shè)定,可設(shè)置處置為01。主題個(gè)數(shù)k對(duì)LDA模型的結(jié)果影響較大,若k過(guò)大,會(huì)使相同主題的類別被拆分;若k過(guò)小,則主題易混雜,影響對(duì)主題的判斷、理解[5]。
3基于主題模型的查新輔助分析系統(tǒng)設(shè)計(jì)
基于主題概率模型(LDA)方法,可以用來(lái)識(shí)別大規(guī)模文檔集(Document Collection)或語(yǔ)料庫(kù)(Corpus)中潛藏的主題信息,其采用的詞袋處理機(jī)制,不考慮詞與詞之間的順序,簡(jiǎn)化了問(wèn)題的復(fù)雜性,便于實(shí)現(xiàn),實(shí)驗(yàn)也證明它具有較好的主題識(shí)別能力[6]。目前LDA模型在輿情分析、個(gè)性化推薦、社交網(wǎng)絡(luò)、廣告預(yù)測(cè)、專利分析等領(lǐng)域應(yīng)用十分廣泛。
課題查新過(guò)程中,依據(jù)委托人提供的關(guān)鍵詞,一般能找出較多的相關(guān)文獻(xiàn),這些參考文獻(xiàn)一一審閱工作量非常大,查新人員可以借助LDA模型,設(shè)計(jì)一個(gè)輔助分析系統(tǒng),依據(jù)參考文獻(xiàn)作者提供的關(guān)鍵詞,構(gòu)建詞向量空間,進(jìn)行挖掘分析,匯聚提取出潛在主題,然后再與委托人課題研究?jī)?nèi)容和方向進(jìn)行對(duì)比,找出合適、精確的相關(guān)文獻(xiàn),進(jìn)而對(duì)課題給出客觀的評(píng)價(jià)。下面給出基于LDA模型的查新輔助分析系統(tǒng)設(shè)計(jì)功能框架,如圖4所示[7]。
因R軟件是一款功能強(qiáng)大的統(tǒng)計(jì)軟件,而且是開(kāi)源項(xiàng)
目,其軟件包覆蓋了統(tǒng)計(jì)計(jì)算的所有領(lǐng)域,從傳統(tǒng)的回歸分析到前沿的金融時(shí)間序列分析都有。所以整個(gè)系統(tǒng)基于net開(kāi)發(fā),C#做應(yīng)用程序,R軟件做后臺(tái)的統(tǒng)計(jì)分析,安裝R(D)COM組件,注冊(cè)到Windows的組件服務(wù)中,供程序調(diào)用[8]。
該模型由查新委托申請(qǐng)、檢索相關(guān)文獻(xiàn)、參考文獻(xiàn)信息導(dǎo)出、參考文獻(xiàn)主題挖掘和格式化查新報(bào)告生成打印五大基本功能組成。工作流程是:首先委托人注冊(cè)賬戶進(jìn)行查新委托申請(qǐng),按照格式填寫(xiě)指定的課題研究?jī)?nèi)容、查新點(diǎn)、關(guān)鍵詞、以及課題申請(qǐng)書(shū)附件等相關(guān)資料。其次,查新員相應(yīng)接受申請(qǐng),依據(jù)委托內(nèi)容切換到中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)、智立方、超星發(fā)現(xiàn)以及外文數(shù)據(jù)庫(kù)進(jìn)行檢索,查找相關(guān)文獻(xiàn)。第三,對(duì)于檢索獲得的參考文獻(xiàn),在檢索平臺(tái)上選擇題名、關(guān)鍵字、摘要、作者、全文地址等項(xiàng),導(dǎo)出為文本格式文件(一般選擇Excel格式)。第四,啟動(dòng)核心的參考文獻(xiàn)主題挖掘功能模塊,導(dǎo)入格式參考文獻(xiàn)信息,提取關(guān)鍵詞,生成向量空間,選擇主題挖掘模型,如LDA、共詞等模型,進(jìn)行挖掘。找出核心關(guān)鍵詞,生成聚類潛在主題。查新員利用生成的主題信息,做深入分析,對(duì)比課題委托人的研究?jī)?nèi)容,找出合適的參考文獻(xiàn),并給課題做出合理評(píng)價(jià)。該功能模塊按照文章第2部分——LDA模型的實(shí)現(xiàn)流程實(shí)現(xiàn)。第五,完善查新報(bào)告格式內(nèi)容,如羅列選出的參考文獻(xiàn),生成最終報(bào)告并進(jìn)行打印。
4實(shí)例測(cè)試分析
基于以上的主題模型理論及實(shí)現(xiàn)思路流程的研究,將其嘗試運(yùn)用到課題查新中的輔助分析方面,探索設(shè)計(jì)了基于主題模型的查新輔助分析系統(tǒng),并對(duì)該系統(tǒng)的功能框架和工作流行進(jìn)行了講解。下面結(jié)合具體的課題查新實(shí)例,詳述采用主題模型對(duì)檢索初步獲得的相關(guān)文獻(xiàn)進(jìn)行主題挖掘的過(guò)程,重點(diǎn)測(cè)試一下主題模型在課題查新中應(yīng)用的輔助分析效果。
41課題委托概述
課題名稱是“單幅二維圖像的深度信息提取方法的研究”,研究方向主要是單幅圖像中物體邊緣散焦程度的度量方法和提出新的構(gòu)建稠密深度圖算法兩個(gè)方面的研究。委托人標(biāo)注的查新點(diǎn)是:第一,通過(guò)利用已知的高斯核函數(shù)與圖像進(jìn)行卷積,然后用梯度比值求彌散半徑的修正,獲得更精確的稀疏深度圖。第二,利用擴(kuò)散張量和二階總廣義變分將稠密深度圖的構(gòu)建轉(zhuǎn)化為凸最優(yōu)化問(wèn)題,從而達(dá)到提高稠密深度圖的精度的目的。提供的關(guān)鍵詞主要有單幅圖像,邊緣散焦,稀疏深度圖,高斯核函數(shù),稠密深度圖,擴(kuò)散張量,圖像深度。查新范圍限定在國(guó)內(nèi),用于教育廳省級(jí)課題的立項(xiàng)申請(qǐng)。
42參考文獻(xiàn)獲取說(shuō)明
為了重點(diǎn)突出說(shuō)明采用LDA模型進(jìn)行潛在主題挖掘的過(guò)程,且能有效降低復(fù)雜度,僅以中國(guó)知網(wǎng)(www.cnki.net)檢索平臺(tái)獲取的參考文獻(xiàn)為例進(jìn)行說(shuō)明。根據(jù)課題研究?jī)?nèi)容和方向,先盡可能擴(kuò)大檢索范圍,選擇二位圖像和深度兩個(gè)關(guān)鍵詞,構(gòu)建檢索式“檢索式A:關(guān)鍵詞=二維圖像 and 關(guān)鍵詞=深度(模糊匹配)”;檢索范圍:中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù),中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù),中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù),中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù),國(guó)際會(huì)議論文全文數(shù)據(jù)庫(kù),中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù);檢索年限:——2016年11月29日(委托日)。
檢索得到128條記錄,勾選全部文獻(xiàn),除去3條報(bào)紙記錄(不含關(guān)鍵詞),剩余125條有效記錄。點(diǎn)擊導(dǎo)出/參考文獻(xiàn),選擇“CNKI E-Study”格式導(dǎo)出到Excel保存(文件名為:hlx_cnki.xlsx)。
43提取關(guān)鍵詞構(gòu)建語(yǔ)料庫(kù)
文本分析采用R語(yǔ)言中的核心工具包tm,語(yǔ)料庫(kù)(Corpus)是tm包處理所有文本的集合。下載的125條相關(guān)文獻(xiàn)信息組成一個(gè)語(yǔ)料庫(kù),每一條文獻(xiàn)的關(guān)鍵詞(題名、作者、摘要不考慮)視為一個(gè)文檔(Document)。
加載Excel處理包(library(″xlsx″)),調(diào)用read.xlsx(),將hlx_cnki.xlsx文檔讀入內(nèi)存,生成數(shù)據(jù)框?qū)ο驞ata。轉(zhuǎn)換Data關(guān)鍵字列的數(shù)據(jù)類型為字符向量(data[[“keyword”]]〈-as.character(Data2[[“keyword”]]))。再依據(jù)逗號(hào)分隔符將每一行中的關(guān)鍵詞分裂成字符串向量(便于匯總統(tǒng)計(jì)),命令為data[[“keyword”]]〈-strsplit(data[[“keyword”]],split=″,″)。加載tm包和繪圖展示包ggplot2,命令為,library(tm),library(ggplot2)。使用VectorSource()函數(shù)把data[[“keyword”]]向量轉(zhuǎn)化為可以被Corpus函數(shù)直接讀取的數(shù)據(jù),然后使用Corpus函數(shù)完成語(yǔ)料庫(kù)的轉(zhuǎn)化,放于corpus對(duì)象中。命令為corpus=Corpus(VectorSource(data[[“keyword”]]))。進(jìn)而生成可以統(tǒng)計(jì)的詞條——文檔關(guān)系矩陣,命令為sample.dtm〈-DocumentTermMatrix(corpus,control=list(wordLengths=c(2,Inf)))(參數(shù)2限定關(guān)鍵詞最少2個(gè)字符)[9]。
44找高頻詞,生成詞條和出現(xiàn)頻次散點(diǎn)圖
統(tǒng)計(jì)包含關(guān)鍵詞的文檔數(shù),需要把關(guān)系矩陣sample.dtm轉(zhuǎn)化為普通矩陣putong.matrix,命令為putong.matrix〈-as.matrix(sample.dtm)。用Apply函數(shù)統(tǒng)計(jì)各個(gè)關(guān)鍵詞在所有文檔中出現(xiàn)的次數(shù),命令doc.freq〈-apply(putong.matrix,2,sum)。依據(jù)關(guān)鍵詞在文檔中的出現(xiàn)次數(shù)排序,找到頻次出現(xiàn)最多的20個(gè)詞條:names(doc.freq)〈-colnames(putong.matrix);rev(sort(doc.freq))[1∶20],結(jié)果如表1所示。
從高頻關(guān)鍵詞表和散點(diǎn)圖可以推測(cè)利用二維圖像進(jìn)行提取深度信息的研究較多,應(yīng)用領(lǐng)域研究多集中在機(jī)器視覺(jué)、人臉識(shí)別、體感游戲等方面。
45挖掘潛在主題,分析挑選相關(guān)文獻(xiàn)
加載topicmodels和lda包,命令library(topicmodels),library(lda)。依照課題作者提供的研究方面數(shù)和新穎點(diǎn)數(shù)來(lái)適當(dāng)設(shè)置k的數(shù)量。本課題研究方向主要是2個(gè)方面,設(shè)置k=3,lda主題模型的實(shí)現(xiàn)方法選擇壓縮吉普抽樣算法Gibbs,其他參數(shù)選取默認(rèn)值。命令為Gibbs=LDA(sample.dtm,k=3,method=″Gibbs″,control=list(seed=2015,burnin=1000,thin=100,iter=1000))。提取與3個(gè)主題分別最相關(guān)的10個(gè)關(guān)鍵詞,Terms〈-terms(Gibbs,10),結(jié)果如表2所示。
從3個(gè)主題的關(guān)鍵詞分析,Topic1主要概括機(jī)器視覺(jué)方面的深度信息;Topic2概括二位圖像深度信息提取,涉及到坐標(biāo)變換、背向散射積分方法,體現(xiàn)出深度信息提取采用的方法問(wèn)題;Topic3概述有關(guān)二位圖像特征提取深度信息、進(jìn)行三維重建在超聲診斷儀、體感游戲等領(lǐng)域的應(yīng)用情況。
分析挖掘出的3個(gè)潛在主題,對(duì)比課題基于單幅二維圖像的深度信息提取方法研究,主要涉及利用高斯核函數(shù)與圖像進(jìn)行卷積,用梯度比值求彌散半徑的修正方法,以及利用擴(kuò)散張量和二階總廣義變分方法。主題分析出來(lái)的主題未曾涉及到這些研究點(diǎn),客觀判斷課題比較新穎。
再審閱主題關(guān)鍵詞對(duì)應(yīng)的文獻(xiàn),最后給出的結(jié)論是:
目前有關(guān)該課題的研究領(lǐng)域,單幅圖像中物體邊緣散焦程度的度量研究采用的方法主要是迭代方法對(duì)深度圖像進(jìn)行修正,利用對(duì)象引導(dǎo)的深度優(yōu)化提取,以及基于柯西分布的點(diǎn)擴(kuò)散函數(shù)模型計(jì)算物體圖像邊緣散焦模糊量的方法。有關(guān)稀疏深度圖方面的報(bào)道較少,且未找到采用高斯核函數(shù)方法提取深度信息的報(bào)道。有關(guān)構(gòu)建稠密深度圖方面的報(bào)道較少,未見(jiàn)采用擴(kuò)散張量的方法。對(duì)于本課題提出的利用擴(kuò)散張量將圖像提供的邊緣信息引入二階總廣義變分正則項(xiàng),獲得高質(zhì)量的稠密深度圖的算法研究,未見(jiàn)相關(guān)文獻(xiàn)報(bào)道,比較新穎。
46測(cè)試總結(jié)
該設(shè)計(jì)系統(tǒng)通過(guò)課題查新實(shí)例測(cè)試表明,通過(guò)相關(guān)文獻(xiàn)的關(guān)鍵詞進(jìn)行主題挖掘,主旨較強(qiáng),避免歧意,過(guò)程相對(duì)簡(jiǎn)單,速度快??梢栽谡麄€(gè)查新過(guò)程中有效降低查新員對(duì)大量相關(guān)文獻(xiàn)主題的分析難度,從中篩選出一定量的文獻(xiàn)進(jìn)行深入分析即可,有效減少了閱讀相關(guān)文獻(xiàn)的數(shù)量,提高了工作效率。對(duì)于查到的大量相關(guān)文獻(xiàn)進(jìn)行潛在主題挖掘,對(duì)比驗(yàn)證課題研究?jī)?nèi)容方向是否新穎,可以提供有效的參考依據(jù),對(duì)課題作出評(píng)價(jià)相對(duì)更加客觀。但是,對(duì)于挖掘出來(lái)的主題一般難以通過(guò)關(guān)鍵詞快速給出結(jié)論,需要在參閱含有這些關(guān)鍵詞文獻(xiàn)的基礎(chǔ)上才能給出準(zhǔn)確的概括解釋。另外,相關(guān)文獻(xiàn)的獲取也要注意采用一定的策略,在適當(dāng)學(xué)科范圍的基礎(chǔ)上,盡量放大研究范圍,檢索到盡可能多的有效文獻(xiàn),挖掘效果會(huì)更好。
5結(jié)束語(yǔ)
主題概率模型(LDA)方法在大量文檔中挖掘潛藏主題,識(shí)別能力多年來(lái)實(shí)驗(yàn)和實(shí)踐證明都是非常有效的。課題查新長(zhǎng)期以來(lái),有關(guān)內(nèi)容分析方面,特別是評(píng)價(jià)的客觀性方面,一直是個(gè)難題。研究者一直想探索、實(shí)踐智能查新系統(tǒng),結(jié)果除了查新報(bào)告形式可以自動(dòng)滿意生成外,分析結(jié)論難以實(shí)現(xiàn)智能自動(dòng)化?;诖罅课谋就诰蚍治龇椒?,如主題概率模型(LDA),來(lái)實(shí)現(xiàn)查新課題過(guò)程的輔助分析,對(duì)于提高查新員的相關(guān)文獻(xiàn)內(nèi)容主題分析效率,以及課題評(píng)價(jià)的客觀性方面,實(shí)踐證明有較好的效果。目前主要是通過(guò)相關(guān)文獻(xiàn)的關(guān)鍵詞來(lái)分析挖掘主題,從題名、摘要內(nèi)容,甚至全文中切分提取關(guān)鍵詞匯進(jìn)行多途徑對(duì)比挖掘分析,還需進(jìn)一步探索。
參考文獻(xiàn)
[1]Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journalof Machine Learning Research,2003,(3):993-1022.
[2]Griffiths TL,Steyvers M.Finding Scientific Topics[C].Process of the National Academy of Sciences,2004,101:5228-5235.
[3]Blei,David M,etc.Latent Dirichlet Allocation[L].Journal of Machine Learning Research,2003,(3):993-1022.
[4]王星,等.大數(shù)據(jù)分析:方法與應(yīng)用[M],北京:清華大學(xué)出版社,2013:287-289.
[5]王力,李培峰,朱巧明.一種基于LDA模型的主題句抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(2):160-164.
[6]葉春蕾,冷伏海.基于概率模型的主題識(shí)別方法實(shí)證研究[J].情報(bào)科學(xué),2013,31(1):135-139.
[7]張宏鳴,.NET框架程序設(shè)計(jì)[M].北京:清華大學(xué)出版社,2016:1-330.
[8]Jeff B.Cromwell,The R Statistical Language and C#NET:Foundations[EB/OL].https://www.codeproject.com/Articles/25819/The-R-Statistical-Language-and-C-NET-Foundations,2016-02-16.
[9]李明,R語(yǔ)言與網(wǎng)站分析[M].北京:機(jī)械工業(yè)出版社,2014:381-386.
(責(zé)任編輯:孫國(guó)雷)