亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于潛在語(yǔ)義索引的科技文獻(xiàn)主題挖掘

        2014-08-05 02:40:42朱芳芳
        關(guān)鍵詞:特征詞語(yǔ)義詞匯

        劉 勘,朱芳芳

        中南財(cái)經(jīng)政法大學(xué) 信息與安全工程學(xué)院,武漢 430073

        基于潛在語(yǔ)義索引的科技文獻(xiàn)主題挖掘

        劉 勘,朱芳芳

        中南財(cái)經(jīng)政法大學(xué) 信息與安全工程學(xué)院,武漢 430073

        1 引言

        目前,科技文獻(xiàn)的數(shù)量正呈爆炸式增長(zhǎng),這給科技文獻(xiàn)的有效檢索帶來(lái)了巨大的挑戰(zhàn),人們花費(fèi)在文獻(xiàn)檢索上的時(shí)間越來(lái)越多,卻仍然感到很難快速精確地檢索到所需要的科技文獻(xiàn)。本文引入主題建模的思想,通過(guò)對(duì)初次檢索的科技文獻(xiàn)集建立詞匯-文獻(xiàn)矩陣,引入潛在語(yǔ)義索引(Latent Semantic Indexing,LSI)方法來(lái)降低矩陣的維度,以發(fā)掘這些文獻(xiàn)所蘊(yùn)含的潛在主題,用戶進(jìn)而可以根據(jù)這些主題查找所需文獻(xiàn),大大提高文獻(xiàn)檢索的效率和準(zhǔn)確度。

        2 相關(guān)研究

        1983年Gerard Salton和Michael J.McGill[1]提出的LSI是目前常用的潛在主題建模方法。Scott Deerwester等[2]將LSI方法用于檢索分析,假設(shè)文本中的詞與詞之間存在某種潛在的語(yǔ)義結(jié)構(gòu),采用統(tǒng)計(jì)方法尋找這些潛在的語(yǔ)義結(jié)構(gòu),用來(lái)表示詞、文本和用戶檢索信息,從而達(dá)到消除詞與詞之間的相關(guān)性、化簡(jiǎn)文本向量的目的。Thomas Hofmann[3]提出的Probabilistic Latent Semantic Indexing是一種基于混合分解的概率統(tǒng)計(jì)模型,可用于信息檢索、信息過(guò)濾和自然語(yǔ)言處理。Padhraic Smyth[4]提出并行的自動(dòng)文件索引方法。David Blei等[5]提出的LDA是一種生成離散數(shù)據(jù)集合的三級(jí)分層貝葉斯模型。這些主題挖掘方法的中心思想是將從文本提取的主題詞集中的每個(gè)詞作為一個(gè)主題有限混合模型,而每個(gè)主題是無(wú)限混合的潛在主題的概率模型,這樣可以通過(guò)主題概率建模,將文本映射到主題空間中,得到文本與主題的關(guān)系。

        國(guó)內(nèi)最早使用LSI進(jìn)行索引的是化學(xué)資源導(dǎo)航系統(tǒng)ChIN,這是一個(gè)基于概念的全文檢索系統(tǒng)[6]。之后被不斷地改進(jìn)應(yīng)用于文本摘要[7-8]、文本分類[9-12]、文本聚類[13]、文本分析[14-16]等各種領(lǐng)域,并且應(yīng)用范圍不斷增加。各種知識(shí)如SVM[10]和Rough[11]等被用來(lái)改進(jìn)LSI得到更好的表示文本的模型。

        但是,利用LSI進(jìn)行主題挖掘時(shí)也存在一定的問(wèn)題:一是LSI主要采用單值分解過(guò)程來(lái)降維,而LSI中矩陣表示文本時(shí)本身存在巨大的稀疏性,如果采用簡(jiǎn)單的權(quán)重表示特征詞會(huì)使對(duì)分類貢獻(xiàn)大的語(yǔ)義可能由于奇異值較小而被過(guò)濾;二是LSI挖掘主題時(shí),新加入的文本無(wú)法直接計(jì)算,挖掘出來(lái)的主題不夠緊湊,而且可讀性不高,用戶很難根據(jù)挖掘出來(lái)的主題來(lái)進(jìn)行文獻(xiàn)分類檢索。

        為了克服以上問(wèn)題,減小LSI對(duì)科技文獻(xiàn)主題挖掘的影響,本文采用一種改進(jìn)的方法對(duì)科技文獻(xiàn)的主題進(jìn)行挖掘??萍嘉墨I(xiàn)本身的結(jié)構(gòu)是基本固定的,一般由標(biāo)題、摘要、關(guān)鍵詞、正文和結(jié)論組成,考慮到各個(gè)特征詞出現(xiàn)的位置不同而對(duì)文獻(xiàn)重要性貢獻(xiàn)的不同,采用位置加權(quán)的方法計(jì)算權(quán)重,避免了重要特征詞可能被過(guò)濾的可能性。同時(shí),根據(jù)Frobenius理論來(lái)對(duì)稀疏的文本矩陣進(jìn)行降維,避免了奇異值分解算法的復(fù)雜性,也增強(qiáng)了文本挖掘計(jì)算的緊湊性。

        3 科技文獻(xiàn)的主題挖掘

        3.1 主要思路

        本文對(duì)科技文獻(xiàn)進(jìn)行主題挖掘主要分為三個(gè)部分,分別是數(shù)據(jù)預(yù)處理、構(gòu)造矩陣和矩陣降維。首先對(duì)科技文獻(xiàn)集進(jìn)行預(yù)處理,刪除無(wú)效字符后進(jìn)行分詞,去除停用詞,構(gòu)造出詞條庫(kù)。構(gòu)造矩陣時(shí)要先計(jì)算詞條庫(kù)中特征詞的權(quán)重,然后根據(jù)計(jì)算出來(lái)的權(quán)重構(gòu)造詞匯-文獻(xiàn)矩陣。矩陣降維時(shí)采用改進(jìn)的LSI算法,先是用線性組合的方法來(lái)表示詞匯-文獻(xiàn)矩陣A和詞匯-主題矩陣X和主題-文獻(xiàn)矩陣Y的關(guān)系。主題-文獻(xiàn)矩陣Y開(kāi)始是隨機(jī)生成的,然后分別固定矩陣Y和矩陣 X,循環(huán)計(jì)算最后得到穩(wěn)定的矩陣X和矩陣Y,此時(shí)的主題-文獻(xiàn)矩陣Y中的每一列就代表了某篇科技文獻(xiàn)的所有主題的概率分布,將其降序排列就可得到這篇科技文獻(xiàn)面向各主題的重要程度,取出排在前面的n個(gè)主題(一般n取3~8)即為該文獻(xiàn)的主題詞。具體流程圖如圖1所示。

        圖1 科技文獻(xiàn)主題挖掘流程示意圖

        3.2 預(yù)處理

        數(shù)據(jù)預(yù)處理要進(jìn)行的操作包括文本字符處理、分詞、去除停用詞、構(gòu)造詞條庫(kù)等步驟。

        3.2.1 字符處理

        存儲(chǔ)在數(shù)據(jù)庫(kù)中科技文獻(xiàn)的結(jié)構(gòu)和格式都是有規(guī)則的,并沒(méi)有異常值,在進(jìn)行數(shù)據(jù)預(yù)處理的時(shí)候,不需要對(duì)文獻(xiàn)進(jìn)行規(guī)格化處理操作,直接進(jìn)行數(shù)據(jù)清洗操作。去掉不可以作為特征詞的字符、數(shù)字、連字符和標(biāo)點(diǎn)。

        3.2.2 分詞

        分詞是將文獻(xiàn)矩陣化處理特有的預(yù)處理步驟,為了提取科技文獻(xiàn)中的文本特征詞,把文獻(xiàn)中的文字切分成有意義的詞,提供給后續(xù)數(shù)據(jù)處理使用。

        3.2.3 去除停用詞

        停用詞是指在科技文獻(xiàn)中出現(xiàn)頻率太高,但攜帶信息較少,對(duì)科技文獻(xiàn)主題挖掘沒(méi)有貢獻(xiàn)或者貢獻(xiàn)太小的詞。比如“的,是”等,這時(shí)需要對(duì)照停用詞表消除這些表現(xiàn)力不強(qiáng)的停用詞。去除停用詞可以節(jié)省存儲(chǔ)空間,降低計(jì)算量,使文本特征詞更精煉準(zhǔn)確。

        3.2.4 構(gòu)造詞條庫(kù)

        經(jīng)過(guò)上述操作后,對(duì)所有科技文獻(xiàn)集中提取出來(lái)的特征詞進(jìn)行統(tǒng)計(jì),排序,然后用這些特征詞構(gòu)造詞條庫(kù)。構(gòu)造出的詞條庫(kù)中包含了所有的科技文獻(xiàn)和進(jìn)行預(yù)處理得到的所有特征詞。

        3.3 構(gòu)造詞匯-文獻(xiàn)矩陣

        3.3.1 科技文獻(xiàn)表示方法

        根據(jù)科技文獻(xiàn)集構(gòu)造出了詞條庫(kù)以后,首先采用空間向量模型(Vector Space Model,VSM)來(lái)表示,將科技文獻(xiàn)看成是一組正交特征詞構(gòu)成的向量a=(a1,a2,…,am),其中,ai為特征詞i的權(quán)值,表示特征詞i在該科技文獻(xiàn)中的重要程度。如果有n個(gè)科技文獻(xiàn),這n個(gè)科技文獻(xiàn)總共有m個(gè)特征詞,就可以構(gòu)成一個(gè)二維的m×n的詞匯-文獻(xiàn)矩陣A。

        其中,矩陣A的每一行表示一個(gè)特征詞,每一列表示一篇科技文獻(xiàn),第i行表示第i個(gè)特征詞,第 j列表示第 j篇科技文獻(xiàn),aij表示第i個(gè)特征詞在第 j個(gè)科技文獻(xiàn)中的權(quán)值。

        3.3.2 特征詞權(quán)值計(jì)算

        在詞匯-文獻(xiàn)矩陣中,矩陣中的每個(gè)元素表示這個(gè)特征詞在文獻(xiàn)中的重要程度。但是,同一特征詞在科技文獻(xiàn)中出現(xiàn)位置不同而對(duì)文獻(xiàn)的貢獻(xiàn)程度不同,在標(biāo)題中最能反映文獻(xiàn)的主題,在摘要、關(guān)鍵字和結(jié)論其次,在正文中次之,而在參考文獻(xiàn)中重要性是最低的。所以,本文采用基于tf-idf的加權(quán)計(jì)算方法,考慮特征詞在文獻(xiàn)中出現(xiàn)的位置對(duì)權(quán)重的影響,根據(jù)公式(1)計(jì)算特征詞的權(quán)重。

        其中,tfij代表特征詞i在科技文獻(xiàn) j中出現(xiàn)的頻率,由特征詞i在科技文獻(xiàn) j中出現(xiàn)的次數(shù)除以科技文獻(xiàn) j中的特征詞的總數(shù)計(jì)算。idfi代表特征詞i反比于特征詞出現(xiàn)的文本頻數(shù),N表示科技文獻(xiàn)集總數(shù),ni表示含有特征詞i的科技文獻(xiàn)總數(shù),loc表示特征詞在文本中出現(xiàn)的位置。

        本文設(shè)定標(biāo)題的位置權(quán)重為2.5,摘要、關(guān)鍵字、結(jié)論的位置權(quán)重為1.5,正文權(quán)重為1。當(dāng)同一個(gè)詞匯出現(xiàn)在不同的位置時(shí),則選取該詞匯在文本中出現(xiàn)的位置權(quán)重最高的位置,如當(dāng)詞匯“人工智能”同時(shí)出現(xiàn)在標(biāo)題、摘要、關(guān)鍵字、正文和結(jié)論中時(shí),只取該詞匯在標(biāo)題中的權(quán)重,即“人工智能”這個(gè)特征詞的loc=2.5。

        3.3.3 構(gòu)造詞匯-文獻(xiàn)矩陣

        根據(jù)數(shù)據(jù)預(yù)處理得到的詞條庫(kù)和特征詞權(quán)值,構(gòu)造出詞匯-文獻(xiàn)矩陣A,矩陣A是一個(gè)稀疏矩陣,它表示科技文獻(xiàn)和詞條庫(kù)中的特征詞的關(guān)系。

        3.4 LSI降維

        3.4.1 LSI原理

        LSI利用矩陣的奇異值分解來(lái)降低矩陣的維度,令A(yù)=LΣRT,其中,LLT=RTR=I,Σ=diag(δ1,δ2,…,δn)。L,R分別稱為矩陣A的左右奇異矩陣,Σ稱為矩陣A的奇異值標(biāo)準(zhǔn)形,Σ的對(duì)角元素被稱為A的奇異值。矩陣 Σ是一個(gè)秩為r(r<m,n)的對(duì)角矩陣,對(duì)角線上的奇異值按大小降序排列,并且矩陣中的后m-r行數(shù)據(jù)都為0。LSI取矩陣Σ的前K個(gè)最大的奇異值,取L和R最前面的k個(gè)列和行來(lái)構(gòu)建 A的k-秩近似矩陣 Ak,Ak=LkΣkRT

        k,其原理如圖2所示。

        圖2 LSI矩陣分解示意圖

        圖2中,用Ak近似表示原來(lái)矩陣A,矩陣Lk中的行向量代表詞匯矩陣,矩陣Rk中的列向量代表科技文獻(xiàn)矩陣。通過(guò)奇異值分解和取k-秩近似矩陣,可以消減原來(lái)的詞匯-文獻(xiàn)矩陣A中包含的值為0的“噪聲”因素,減少原矩陣的維度,縮減了向量空間,更加表現(xiàn)出特征詞和科技文獻(xiàn)之間的關(guān)系,提高主題挖掘的效率。

        本文處理對(duì)象是由科技文獻(xiàn)組成的文檔集,以特征詞在科技文獻(xiàn)中出現(xiàn)的頻率為依據(jù),把這些訓(xùn)練文檔表達(dá)為詞匯-文獻(xiàn)矩陣A(word-article),然后采用奇異值分解方法將矩陣A向主題空間進(jìn)行投影,得到詞匯-主題矩陣 X(word-topic)和主題-文獻(xiàn)矩陣Y(topic-article)。其中,詞匯-主題矩陣X(對(duì)應(yīng)于左奇異矩陣)是特征詞的潛在主題矩陣,矩陣中的值表示每個(gè)特征詞在潛在主題的權(quán)值,根據(jù)矩陣 X可以得到訓(xùn)練文檔集的主題。主題-文獻(xiàn)矩陣Y(對(duì)應(yīng)于右奇異矩陣)是科技文獻(xiàn)在主題空間中的投影,根據(jù)矩陣Y可以看出每個(gè)主題在科技文獻(xiàn)中的權(quán)重,就可以得到所有表示文獻(xiàn)的主題,選取其中權(quán)重較高的主題作為科技文獻(xiàn)的主題。

        3.4.2 LSI方法的改進(jìn)

        LSI可以提高信息索引的性能,但LSI中必須進(jìn)行的奇異值分解其計(jì)算復(fù)雜度高。本文另外運(yùn)用一種改進(jìn)的潛在語(yǔ)義索引方法進(jìn)行主題建模[17]。這種方法在進(jìn)行矩陣分解時(shí),引入Frobenius范數(shù)[18],采用線性方法規(guī)則化矩陣得到新的矩陣。

        這種改進(jìn)的LSI方法的主要原理是通過(guò)線性組合方法對(duì)矩陣進(jìn)行迭代分解來(lái)將詞匯-文獻(xiàn)矩陣A向主題空間進(jìn)行投影,開(kāi)始時(shí)隨機(jī)給定一個(gè)主題-文獻(xiàn)矩陣Y,暫時(shí)固定這個(gè)主題-文獻(xiàn)矩陣Y,根據(jù)公式求出最小化的詞匯-主題矩陣X,然后固定這個(gè)已求出的矩陣X,再求出最小化的主題-文獻(xiàn)矩陣Y,反復(fù)迭代這兩個(gè)步驟直到最小值不變,得到最終的詞匯-主題矩陣X和主題-文獻(xiàn)矩陣Y。更新X和Y時(shí)分別引入Frobenius范數(shù)的1-范式和2-范式來(lái)規(guī)則化矩陣,其中,用1-范式規(guī)范詞匯-主題矩陣X,2-范式規(guī)范主題-文檔矩陣Y,使得主題挖掘的范圍擴(kuò)大了,而且復(fù)雜度也降低了。LSI改進(jìn)后的主要步驟如下:

        步驟1科技文獻(xiàn)的線性表示

        如果訓(xùn)練文獻(xiàn)集中有k個(gè)主題,則這k個(gè)主題可以表示為一個(gè)m×k的詞匯-主題矩陣 X=[x1,x2,…,xk],其中,矩陣中的每一列代表一個(gè)主題,xi是一個(gè)m維的向量,表示第i個(gè)主題。用線性組合的方法來(lái)表示科技文獻(xiàn)集如公式(2)所示。

        其中,yn表示文獻(xiàn)an在主題空間中的投影,ykn表示第k個(gè)主題xk在第n篇科技文獻(xiàn)an中的權(quán)值。 ykn的值越大說(shuō)明主題xk越能代表科技文獻(xiàn)an。Y=[y1,y2,…,yn]是一個(gè)k×n的主題-文獻(xiàn)矩陣,第n列 yn表示文獻(xiàn)在潛在主題空間中的投影。

        由于用公式(2)來(lái)表示文獻(xiàn)集的線性之和是近似值,會(huì)產(chǎn)生誤差值,引入范式來(lái)約束an與 Xyn的誤差使得誤差值最小,同時(shí)引入變量 f1和 f2來(lái)規(guī)范公式(2),得到公式(3):

        步驟2固定Y,更新X

        而由于文獻(xiàn)是相互獨(dú)立的,則公式(4)中的m個(gè)詞匯是獨(dú)立的,每個(gè)詞匯是矩陣X中的每一行,可以分成m次運(yùn)算,其中每次運(yùn)算可表示為:

        其中,m=1,2,…,m。

        將式(5)變換成一個(gè)可微分的二次函數(shù),對(duì)這個(gè)二次函數(shù)求導(dǎo)并令它等于0,則可以得到當(dāng)l≠k時(shí)(l=1,2,…,n),xmk的最小值,如公式(6)所示。

        其中,vij和uij分別是k×k矩陣V=YYT和m×k矩陣U=AYT的第i行第 j列。

        步驟3固定X,更新Y

        步驟4主題提取

        根據(jù)公式(6)和公式(7),迭代更新矩陣X和Y,直到矩陣 X和Y的值穩(wěn)定,得到詞匯-主題矩陣 X和主題-文獻(xiàn)矩陣Y,矩陣Y中的每一列就代表一篇科技文獻(xiàn)的所有主題,對(duì)矩陣中的數(shù)據(jù)進(jìn)行降序排列,然后取權(quán)重最高的主題代表這篇文獻(xiàn)的主題。

        4 實(shí)驗(yàn)過(guò)程及分析

        4.1 實(shí)驗(yàn)過(guò)程

        4.1.1 數(shù)據(jù)來(lái)源

        進(jìn)行主題挖掘?qū)嶒?yàn)時(shí),詞條庫(kù)的建立是非常重要的,在英文詞條庫(kù)建立方面,國(guó)外已經(jīng)有了REUTER,TREC,OHSUMED等一些標(biāo)準(zhǔn)權(quán)威的語(yǔ)料庫(kù)。而在中文詞條庫(kù)建立方面,目前還沒(méi)有一個(gè)權(quán)威的中文文本語(yǔ)料庫(kù)。因此,本文搜集了萬(wàn)方數(shù)據(jù)庫(kù)知識(shí)服務(wù)平臺(tái)上的相關(guān)論文來(lái)建立一個(gè)詞條庫(kù)。實(shí)驗(yàn)中采集了6個(gè)主題共800篇科技類文檔,其中人工智能200篇、社交網(wǎng)絡(luò)100篇、數(shù)據(jù)挖掘200篇、推薦系統(tǒng)100篇、下一代網(wǎng)絡(luò)100篇、文本挖掘100篇,詞匯共380 021個(gè)。

        4.1.2 數(shù)據(jù)預(yù)處理

        本文采用Visual Studio2010集成開(kāi)發(fā)環(huán)境,C#語(yǔ)言進(jìn)行編程,利用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的開(kāi)源中文分詞組件ICTCLAS分詞系統(tǒng)共享版進(jìn)行中文分詞,分詞后去除停用詞,進(jìn)行詞頻統(tǒng)計(jì),完成主題挖掘數(shù)據(jù)預(yù)處理過(guò)程。預(yù)處理后的結(jié)果如表1所示,然后設(shè)置閾值為2,去除出現(xiàn)頻數(shù)小于2的特征詞,構(gòu)建出詞條庫(kù)。

        表1 預(yù)處理結(jié)果

        4.1.3 生成矩陣

        利用權(quán)值計(jì)算公式(3),根據(jù)這些特征詞在文中出現(xiàn)的位置計(jì)算特征詞的權(quán)值。利用選取的特征詞及其權(quán)值來(lái)表示文獻(xiàn)集中的所有文獻(xiàn),構(gòu)造出詞匯-文獻(xiàn)矩陣如表2所示。

        表2 構(gòu)造詞匯-文獻(xiàn)矩陣

        4.1.4 對(duì)矩陣進(jìn)行降維分解

        取 f1=0.5,f2=1.0,對(duì)詞匯-文獻(xiàn)矩陣根據(jù)改進(jìn)的LSI算法,利用公式(6)和公式(7)進(jìn)行降維分解,分別生成詞匯-主題矩陣X和主題-文獻(xiàn)矩陣Y如表3所示。

        表3 詞匯-主題矩陣X和主題-文獻(xiàn)矩陣Y

        4.1.5 主題-文獻(xiàn)矩陣Y的主題進(jìn)行輸出

        根據(jù)矩陣降維后得到的主題-文獻(xiàn)矩陣可以得到每篇文獻(xiàn)的主題,表4表示的是輸出每篇科技文獻(xiàn)的前8個(gè)主題詞(GB7713-8規(guī)定每篇文章應(yīng)選取3~8個(gè)關(guān)鍵詞,而實(shí)驗(yàn)也證明3~8個(gè)特征詞已經(jīng)能夠表現(xiàn)出該科技文獻(xiàn)的主題)。

        表4 輸出結(jié)果

        由表4可以看出,這里運(yùn)用改進(jìn)的LSI方法得到的主題基本可以表達(dá)科技文獻(xiàn)的主題,表中的第一列可以得到該文獻(xiàn)的主題是有關(guān)推薦系統(tǒng)的,并且可以看出推薦系統(tǒng)類科技文獻(xiàn)主要研究的是模型、算法和推薦系統(tǒng)的設(shè)計(jì);第二列主題是下一代網(wǎng)絡(luò),這類文獻(xiàn)關(guān)于網(wǎng)絡(luò)協(xié)議以及體系結(jié)構(gòu)的設(shè)計(jì);第三列主題是人工智能,這類主題則主要集中在應(yīng)用及算法和模型的研究;第四列是關(guān)于數(shù)據(jù)挖掘的主題,數(shù)據(jù)挖掘類科技文獻(xiàn)集中在算法的研究與模型的應(yīng)用上。

        4.2 測(cè)試結(jié)果

        實(shí)驗(yàn)中還將本文的方法與常規(guī)的LSI方法以及主題挖掘中常用的LDA方法進(jìn)行了比較,得到了相應(yīng)的結(jié)果,同時(shí)用實(shí)驗(yàn)挖掘出來(lái)的主題和人工統(tǒng)計(jì)出來(lái)的主題進(jìn)行對(duì)比來(lái)衡量各方法的準(zhǔn)確率,其結(jié)果如表5所示。

        表5 測(cè)試結(jié)果

        由表5可以看出,改進(jìn)的LSI方法具有較高的準(zhǔn)確率。相同數(shù)量的文獻(xiàn),含有更多專業(yè)詞匯,且與主題相關(guān)的特征詞出現(xiàn)在標(biāo)題等權(quán)重較高位置的科技文獻(xiàn),主題會(huì)更明顯,更容易被挖掘。而對(duì)于文本挖掘這類主題不明確的科技文獻(xiàn)中,有一些主題詞在文獻(xiàn)的標(biāo)題表述中沒(méi)有出現(xiàn),所以權(quán)重計(jì)算的時(shí)候,主題詞的權(quán)值小于在標(biāo)題中出現(xiàn)的特征詞,而使得最后主題表示的時(shí)候沒(méi)有被采用,導(dǎo)致沒(méi)有挖掘出這個(gè)主題。

        5 結(jié)論

        本文研究了潛在語(yǔ)義索引方法對(duì)科技文獻(xiàn)進(jìn)行主題挖掘的方法,嘗試了其中的改進(jìn)方法,降低了LSI奇異值計(jì)算的復(fù)雜度,應(yīng)用Frobenius范數(shù)理論對(duì)文獻(xiàn)矩陣降維,簡(jiǎn)化了計(jì)算的難度,減少了部分噪音,簡(jiǎn)化了計(jì)算的過(guò)程,能更快地表示原始科技文獻(xiàn)空間中的潛在語(yǔ)義結(jié)構(gòu)。但是利用LSI方法進(jìn)行科技文獻(xiàn)的主題挖掘還處在初步的實(shí)驗(yàn)階段,實(shí)驗(yàn)中刪除的特征詞可能會(huì)影響后期的主題提取,最后得到的結(jié)果其精度還不是特別令人滿意,其中的原因值得探討,也是下一步工作的重點(diǎn)。

        [1]Salton G,McGill M J.Introduction to modern information retrieval[M].New York:McGraw-Hill,1983.

        [2]Deerwester S,Dumais S T,F(xiàn)urnas G W,et al.Indexing by latent semantic analysis[J].J AM SOC INFORM SCI,1990,41:960-972.

        [3]Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd ACM SIGIR International Conference on Research and Development in Information Retrieval,1999:50-57.

        [4]Asuncion A U,Smyth P,Welling M.Asynchronous distributed estimation of topic models for document analysis[J]. Statistical Methodology,2011,8(1):3-17.

        [5]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

        [6]李曉霞,郭力.ChIN化學(xué)化工資源導(dǎo)航系統(tǒng)的新進(jìn)展[J].計(jì)算機(jī)與應(yīng)用化學(xué),2002,19(1):139-143.

        [7]林鴻飛,高仁璟.基于潛在語(yǔ)義索引的文本摘要方法[J].大連理工大學(xué)學(xué)報(bào),2001,41(6):744-748.

        [8]陳戈,段建勇,陸汝占.基于潛在語(yǔ)義索引和句子聚類的中文自動(dòng)文摘[J].計(jì)算機(jī)仿真,2008,25(7):82-85.

        [9]曾雪強(qiáng),王明文,陳素芬.一種基于潛在語(yǔ)義結(jié)構(gòu)的文本分類模型[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2004,32(z1):99-102.

        [10]郭武斌,周寬久,張世榮.基于潛在語(yǔ)義索引的SVM文本分類模型[J].情報(bào)學(xué)報(bào),2009,28(6):827-833.

        [11]何明,馮博琴,傅向華.基于Rough集潛在語(yǔ)義索引的Web文檔分類[J].計(jì)算機(jī)工程,2004,30(13).

        [12]張秋余,劉洋.使用基于SVM的局部潛在語(yǔ)義索引進(jìn)行文本分類[J].計(jì)算機(jī)應(yīng)用,2007,27(6):1382-1384.

        [13]陳毅恒,秦兵,劉挺,等.基于潛在語(yǔ)義索引和自組織映射網(wǎng)的檢索結(jié)果聚類方法[J].計(jì)算機(jī)研究與發(fā)展,2009,46(7):1176-1183.

        [14]林鴻飛,戰(zhàn)學(xué)剛,姚天順.基于潛在語(yǔ)義索引的文本分析方法[J].模式識(shí)別與人工智能,2000,13(1):47-51.

        [15]王瑛.基于VSM的潛在語(yǔ)義索引[J].陜西科技大學(xué)學(xué)報(bào):自然科學(xué)版,2010,28(5):151-158.

        [16]楊雪敏,張毅坤,崔穎安.基于LSI的代碼-文檔可追溯關(guān)聯(lián)挖掘研究[J].計(jì)算機(jī)工程,2011,37(8):34-36.

        [17]Wang Q,Xu J,Li H,et al.Regularized latent semantic indexing[C]//Proceedings of SIGIR’11,Beijing,2011:978-988.

        [18]方保镕,周繼東,李醫(yī)民.矩陣論[M].北京:清華大學(xué)出版社,2004:158-167.

        LIU Kan,ZHU Fangfang

        School of Information and Safety Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China

        Based on a method improved by Latent Semantic Indexing,a topic mining for scientific papers is proposed. This paper describes a process which is used to mine the topics of the scientific papers.It performs conversion,removes non-alphabetic and stop word before further processing.It constructs the term-document matrix based on all words’weight. It uses modified LSI algorithm to cut the dimension of the matrix and gets a new topic-document matrix.It takes the highest weight of the top five themes as the papers’topic.This method utilizes the Frobenius norm to regulate matrix,reducing the dimension of the matrix.So the theme of the scientific papers can be mined quickly and accurately.

        latent semantic indexing;topic modeling;scientific documents

        提出了一種基于潛在語(yǔ)義的科技文獻(xiàn)主題挖掘方法,描述了科技文獻(xiàn)的主題挖掘模型。對(duì)科技文獻(xiàn)集進(jìn)行預(yù)處理,計(jì)算特征詞權(quán)重,構(gòu)造出詞匯-文獻(xiàn)矩陣。用改進(jìn)的LSI算法對(duì)稀疏矩陣進(jìn)行降維得到固定的主題-文獻(xiàn)矩陣。取權(quán)重最高的主題作為該文獻(xiàn)的主題。該方法利用Frobenius范數(shù)來(lái)規(guī)范矩陣,對(duì)稀疏矩陣進(jìn)行降維,可以快速精確地挖掘出科技文獻(xiàn)的主題。

        潛在語(yǔ)義索引;主題挖掘;科技文獻(xiàn)

        A

        TP311

        10.3778/j.issn.1002-8331.1305-0146

        LIU Kan,ZHU Fangfang.Research of topic mining for scientific papers based on LSI.Computer Engineering and Applications,2014,50(24):113-117.

        國(guó)家自然科學(xué)基金(No.71203164)。

        劉勘,男,博士,副教授,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、語(yǔ)義檢索、信息可視化等;朱芳芳,女,碩士研究生,研究領(lǐng)域?yàn)槲谋就诰?。E-mail:lkan@sina.com

        2013-05-14

        2013-06-30

        1002-8331(2014)24-0113-05

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-09-04,http∶//www.cnki.net/kcms/detail/11.2127.TP.20130904.1344.014.html

        猜你喜歡
        特征詞語(yǔ)義詞匯
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        語(yǔ)言與語(yǔ)義
        本刊可直接用縮寫的常用詞匯
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        面向文本分類的特征詞選取方法研究與改進(jìn)
        認(rèn)知范疇模糊與語(yǔ)義模糊
        本刊一些常用詞匯可直接用縮寫
        337p日本欧洲亚洲大胆精品| 国产av三级精品车模| 中文字幕日韩有码国产| 少妇粉嫩小泬喷水视频| 无码人妻品一区二区三区精99| 国产av一区二区三区区别| 亚洲二区精品婷婷久久精品| 亚洲av日韩av激情亚洲| 日本成人午夜一区二区三区| 狂野欧美性猛xxxx乱大交| 国产精品毛片无码| 亚洲欧洲日产国码久在线| 熟女免费观看一区二区| 无码专区亚洲综合另类| 最新精品国偷自产在线| 中文字幕天堂在线| 日本精品人妻一区二区三区| av影片在线免费观看| 亚洲国产精彩中文乱码av| 人妻丰满熟妇av无码区不卡| 高清国产日韩欧美| 久久婷婷夜色精品国产 | 成年毛片18成年毛片| 亚洲精选自偷拍一区二| 国偷自产视频一区二区久| 在线人妻无码一区二区| 亚洲无人区乱码中文字幕| 丝袜人妻一区二区三区| 国产成人综合在线视频| 欧美亚洲综合激情在线| 男女午夜视频一区二区三区| 少妇一级淫片中文字幕| 天堂中文在线资源| 久久久国产不卡一区二区| 人妻中文久久人妻蜜桃| 国产免费拔擦拔擦8x高清在线人| 四虎永久免费影院在线| 一级黄片草逼免费视频| 波多野结衣在线播放| 一道久在线无码加勒比| 一区二区三区免费观看在线视频|