肖 雷 王 旭 粟武林
1(河北大學(xué)電子信息工程學(xué)院 河北 保定 071000)2(河北大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院 河北 保定 071000)
?
一種基于詞義降維的主題特征選擇算法
肖雷1王旭1粟武林2
1(河北大學(xué)電子信息工程學(xué)院河北 保定 071000)2(河北大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院河北 保定 071000)
在文本特征選擇中,由于詞語(yǔ)概率空間和詞義概率空間的差異,完全基于詞語(yǔ)概率的主題特征往往不能很好地表達(dá)文章的思想,也不利于文本的分類。為達(dá)到主題特征更能反映文章思想這一目的,提取出一種基于詞義降維的主題特征選擇算法。該算法通過(guò)在詞林基礎(chǔ)上構(gòu)建“同義詞表”,作為詞到詞義的映射矩陣,構(gòu)造一個(gè)基于詞義之上的概率分布,通過(guò)LDA提取文本特征用于分類,分類準(zhǔn)確率得到了明顯提高。實(shí)驗(yàn)表明,基于此種方法所建立的主題模型將有更強(qiáng)的主題表示維度,通過(guò)該算法基本解決文本特征提取中詞語(yǔ)概率和詞義概率之間差異的問(wèn)題。
LDA主題模型主題表示維度
隨著計(jì)算機(jī)對(duì)文本表示的不斷深入,人們力求更具表現(xiàn)力的方式表達(dá)文本本身的語(yǔ)義信息,從早期的潛在語(yǔ)義分析就開(kāi)始了這方面的探索[1],后來(lái)經(jīng)過(guò)實(shí)踐發(fā)現(xiàn)“主題模型”在文本特征表示上應(yīng)用較為成功[2]。因?yàn)樗嬖趫?jiān)實(shí)的數(shù)學(xué)基礎(chǔ),與傳統(tǒng)的空間向量[3]模型比,通過(guò)考慮詞語(yǔ)在文檔中的共現(xiàn)概率而引入了“主題”維度,使文檔表示從概率空間到語(yǔ)意空間得到了延伸。雖然這種“語(yǔ)意”是通過(guò)詞語(yǔ)出現(xiàn)的概率來(lái)間接模擬的,但它容易被擴(kuò)展,在文本挖掘和信息檢索等實(shí)際任務(wù)中廣泛應(yīng)。而在實(shí)踐中,如何使這種概率的間接表示更加接近語(yǔ)意的真實(shí)表達(dá),主題內(nèi)部的一致性更強(qiáng)是研究的主要方向。
到目前為止,大批的學(xué)者對(duì)概率主題模型進(jìn)行了各種拓展,實(shí)際運(yùn)用效果大幅提升。以經(jīng)典的概率主題模型LDA為列,學(xué)者們一方面是繼續(xù)基于無(wú)監(jiān)督主題模型的思想,以縮小文檔訓(xùn)練背景為手段而使訓(xùn)練出的主題語(yǔ)意更加聚合。比如使用多粒度的主題建模方法[4],或者進(jìn)一步簡(jiǎn)化模型,在句子上使用標(biāo)準(zhǔn)LDA[5]等。而另一個(gè)方面是引入弱監(jiān)督學(xué)習(xí),尤其在對(duì)新聞網(wǎng)站,博客或者商品的評(píng)論中,引入結(jié)構(gòu)化的信息,人為通過(guò)先驗(yàn)知識(shí)設(shè)定標(biāo)簽,使得學(xué)習(xí)到的主題更加貼近人們實(shí)際所關(guān)心的方面[6,7],比如一個(gè)產(chǎn)品的各個(gè)特征,一個(gè)新聞事件的各種立場(chǎng)等。但是,由于弱監(jiān)督學(xué)習(xí)的擴(kuò)展性能差,不能在多領(lǐng)域中使用,存在一定的局限性,而無(wú)監(jiān)督訓(xùn)練又存在主題語(yǔ)意聚合度低的缺點(diǎn)。通過(guò)認(rèn)真總結(jié)無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練規(guī)律,以及弱監(jiān)督學(xué)習(xí)訓(xùn)練的約束方法,使主題在原有無(wú)監(jiān)督學(xué)習(xí)的條件下,把底層詞語(yǔ)標(biāo)號(hào)修正為詞義標(biāo)號(hào),使其達(dá)到弱監(jiān)督學(xué)習(xí)中主題聚合度更強(qiáng)的效果。
基于此,本文提出了基于詞義之上的概率主題模型,成功將文本中詞語(yǔ)的概率相關(guān)性和語(yǔ)義相關(guān)性融合到一起。通過(guò)實(shí)驗(yàn)證明,模型的拓展能力進(jìn)一步增強(qiáng)。
2.1基本思想
概率主題模型是一種基于語(yǔ)料集合上高度抽象和降維的表示模型,是一種從文檔中詞語(yǔ)的概率空間基于詞語(yǔ)共現(xiàn)概率關(guān)系人為映射到語(yǔ)意空間的經(jīng)典模型。模型本身并沒(méi)有引入任何語(yǔ)意信息和語(yǔ)法信息(不考慮詞語(yǔ)順序或者詞義信息),詞語(yǔ)在模型里是用一個(gè)編號(hào)代替,它的思想基礎(chǔ)是,某些編號(hào)之間共同出現(xiàn)的概率作為唯一的相關(guān)性。這種模型充分壓縮了原有統(tǒng)計(jì)語(yǔ)言模型的維度,且具有良好的統(tǒng)計(jì)基礎(chǔ)和靈活性。
2.2LDA模型
以經(jīng)典的LDA[6]模型為例:假設(shè)主題在特定文檔的分布為P(z),那么特定的單詞ω在主題中的分布為P(w/z)。一個(gè)文檔包含T個(gè)主題z,由于每個(gè)主題中單詞的權(quán)重不一樣,則文檔中的i號(hào)單詞的可以表示如下:
(1)
布雷在2003年通過(guò)在兩個(gè)多項(xiàng)分布上引入狄利克雷先驗(yàn)。即在文檔的主題分布θ(z)和主題的詞語(yǔ)分布φ(w)中分別引入Dirichlet先驗(yàn),Dirichlet先驗(yàn)作為多項(xiàng)分布的共軛先驗(yàn)是一個(gè)比較好的選擇,它簡(jiǎn)化了問(wèn)題的統(tǒng)計(jì)推斷,多項(xiàng)分布P=(P1,P2,P3,…,PT)之上的T維Dirichlet分布的概率密度可以定義為:
(2)
這樣可以在θ(z)分布上引入帶超參數(shù)α的Dirichlet先驗(yàn),用來(lái)估計(jì)他的分布。這種估計(jì)方便了模型處理文檔集之外的新文本,且便于了模型的參數(shù)推理,一個(gè)T維的Dirichlet隨機(jī)變量θ因?yàn)樗鼩w一性,可以表示成T-1維,所以它有如下的概率密度:
(3)
同理也可以在Φ上引入Dirichet先驗(yàn),這樣整個(gè)過(guò)程可以簡(jiǎn)單表示如下:
(4)
圖1中超參數(shù)α、β可以分別理解為在見(jiàn)到任何文檔之前,主題被抽樣的頻數(shù)以及在見(jiàn)到文檔集任何詞匯之前從主題抽樣獲得詞匯出現(xiàn)的頻數(shù)。其中文檔30給出了一些超參數(shù)α、β經(jīng)驗(yàn)性取值的方法,其中α=50/T,β=0.1。當(dāng)然也可以通過(guò)在主題分布上引入非對(duì)稱先驗(yàn)和在主題的詞分布上引入對(duì)稱先驗(yàn)可以提高LDA模型對(duì)文本的建模能力[8],最后通過(guò)Gibbs Sampling[9]或者基于變分法的EM[10]可以求解該模型。
圖1 LDA模型圖形表示
主題的表示維度是指主題特征詞(高概率詞)的語(yǔ)意信息表示的廣度。直觀地說(shuō),文檔的每個(gè)主題詞所表達(dá)的意思能夠概括該主題的更多方面。例如:在關(guān)于教育方面這樣一個(gè)主題特征中:我們希望包含學(xué)校、老師、學(xué)生、家長(zhǎng)、環(huán)境等多方面,而不是單純的一些具有相近意思的高概率詞,初中、小學(xué)、高中、大學(xué)、教師、老師、名師等。這其實(shí)只涉及到老師和學(xué)校兩個(gè)方向,這樣的主題特征維度較低不利于我們?cè)谙码A段的文本表示和分類。
在LDA模型中,模型識(shí)別的是詞符號(hào)出現(xiàn)的權(quán)重,不同的詞用不同詞的序號(hào)表示,詞語(yǔ)序號(hào)之間沒(méi)有任何相關(guān)性,這樣純粹的數(shù)學(xué)表示有利于文檔建模,推理和運(yùn)算,但也存在一定的問(wèn)題,比如說(shuō)在對(duì)文檔集訓(xùn)練結(jié)束后,通過(guò)吉布斯采樣求解會(huì)得到一個(gè)詞在主題上的分布。假設(shè)文檔集共有T個(gè)主題和N個(gè)詞匯,那么對(duì)于每個(gè)主題會(huì)被分配成一個(gè)N維的歸一向量,第i維數(shù)代表著i號(hào)詞對(duì)應(yīng)該主題的權(quán)重。如表1所示aij表示第i號(hào)詞在j號(hào)主題中的權(quán)重。其中:
表1 基于詞的主題表示
通常,在求解最后,將對(duì)每個(gè)主題對(duì)應(yīng)的所有詞的權(quán)重按由大到小排序,權(quán)重靠前的詞匯為該主題最可能出現(xiàn)的詞,作為該主題的特征詞,而權(quán)重靠后的將被忽略(特征很不明顯)。正由于存在這種排序和取舍,主題特征的表現(xiàn)是由權(quán)重較高的詞匯所反映。在詞語(yǔ)空間中,存在一些意思極度相近或者類似的詞匯,由于詞語(yǔ)的流行程度及個(gè)人用詞習(xí)慣等因素的影響,會(huì)使意思極為相近的詞在文檔中出現(xiàn)的概率很不均等,或者有的語(yǔ)意會(huì)用很多相近的詞語(yǔ)表達(dá),而有的語(yǔ)意可能只由一個(gè)或者很少的詞語(yǔ)表達(dá)。這種現(xiàn)象在訓(xùn)練數(shù)據(jù)集規(guī)模較大的時(shí)候尤為明顯,這反映出在詞語(yǔ)的概率空間和詞義概率空間相比是存在很大差別的。在LDA訓(xùn)練過(guò)程中,唯一考慮的是詞語(yǔ)出現(xiàn)的概率也即次數(shù),所以這種表示會(huì)隨著訓(xùn)練集的改變使得主題詞匯表示波動(dòng)較大,主題空間的表示過(guò)于數(shù)字化和符號(hào)化,主題空間和語(yǔ)意空間存在較大的差距。例如:詞義X、Y分別有2個(gè)和1個(gè)詞語(yǔ)表示:
詞義X(詞語(yǔ)A,詞語(yǔ)B);
詞義Y(詞語(yǔ)C)。
假設(shè)C在某個(gè)主題中的權(quán)重為0.017,而A和B在該主題中的權(quán)重都為0.01。這樣在對(duì)詞的權(quán)重排序中,C是排序靠前的,A、B靠后可能會(huì)被舍去,不能作為該主題的特征。但是在詞的意思表達(dá)空間里,詞義1權(quán)重顯然高于詞義2,對(duì)主題而言詞義2比詞義1更加具有代表性。
在文檔基于主題的建模中,最理想的表示方式是主題中每個(gè)詞語(yǔ)所表示的權(quán)重能夠充分反映該詞的詞義在主題空間的權(quán)重,而不單純是單個(gè)詞匯本身的權(quán)重,也即是說(shuō)主題空間中的元素是詞義而不單是詞語(yǔ)。
從理論上講,這樣的主題空間表示將更加貼近語(yǔ)言的生成規(guī)律,拓展性將會(huì)更強(qiáng),因?yàn)樗皇菃渭兊脑~匯概率模型,而是詞義的概率模型,在利用主題生成新文檔時(shí)將更加適合語(yǔ)言的形成規(guī)律?;谶@種思想,我們?cè)谥黝}空間的概率表示中引入語(yǔ)意信息,把意思相近的詞語(yǔ)聚合為一個(gè)元素(詞義),由原來(lái)該意思詞語(yǔ)中權(quán)重較高的來(lái)表示,這樣在降低了主題空間維數(shù)的同時(shí),更能直觀地表示文檔,如圖2所示。
圖2 基于詞義的主題建模
在前面的研究中,利用同義詞詞林直接過(guò)濾文本中同義詞的方法[13],雖然能有效地提高特征選擇的約簡(jiǎn)率,但我們可以發(fā)現(xiàn)這種方法完全依賴于詞林的精度,在提取特征中缺乏機(jī)器學(xué)習(xí)的過(guò)程。
由于傳統(tǒng)主題空間的元素是詞匯,從詞匯空間映射到詞義空間我們需要構(gòu)建一個(gè)詞義相似度較高的同義詞表,把意思相同或者相近的詞匯聚合成一個(gè)元素(詞義),這樣主題空間由原來(lái)的主題→詞匯,衍變?yōu)橹黝}→詞義→詞匯,主題的空間維數(shù)將進(jìn)一步降低,對(duì)文檔的表示也將更符合語(yǔ)法規(guī)律,解決這個(gè)問(wèn)題的關(guān)鍵在于針對(duì)特定文檔生成一個(gè)恰當(dāng)?shù)耐x詞表。但因?yàn)樵~義在文檔中存在太多不確定性,或者上下文中存在一詞多義現(xiàn)象,簡(jiǎn)單的機(jī)器學(xué)習(xí)或者概率統(tǒng)計(jì)都難以解決這個(gè)問(wèn)題,目前最常用的同義詞識(shí)別方法有基于詞林的方法[11]、基于知網(wǎng)[16,17]、百科詞典的釋意以及直接在句子運(yùn)行LDA[12]等。最精準(zhǔn)的同義詞表構(gòu)建方法還是通過(guò)人工觀測(cè)的方法構(gòu)建不定維數(shù)的同義詞表,或者基于句法結(jié)構(gòu)分析的同義詞識(shí)別方法[15],但都不適合于針對(duì)于本試驗(yàn)中不斷變化和壯大的訓(xùn)練集,這是以后有待研究的問(wèn)題。為了驗(yàn)證這種設(shè)想的可行性,本實(shí)驗(yàn)基于哈工大信息檢索研究中心同義詞詞林?jǐn)U展版的基礎(chǔ)之上,通過(guò)基于詞義相似度的計(jì)算方法[11,18],設(shè)定詞義相似度閾值,形成一個(gè)不定維數(shù)的同義詞表,最后轉(zhuǎn)換成如表2所示的多對(duì)一形式同義詞表。雖然這種詞典在精確度還有提高的余地,但足以證明在語(yǔ)義空間上主題建模的可行性。
表2 同義詞詞典列舉
在本實(shí)驗(yàn)中,為了檢查主題——詞義模型的拓展能力,使用復(fù)旦大學(xué)中文文本分類語(yǔ)料庫(kù),從十個(gè)大類中各抽取100篇文檔共1 000篇文檔進(jìn)行訓(xùn)練。文檔建模求解方法采用Gibbs LDA的方法。
第一步分別從語(yǔ)料庫(kù)的各個(gè)類別中抽取100篇文章作為原始文檔集合,通過(guò)分詞,去停用詞等先期處理工作后得到一91 012個(gè)詞組,18 461維的訓(xùn)練集D。
第二步基于哈工大信息檢索研究中心同義詞詞林?jǐn)U展版進(jìn)行詞義相似度計(jì)算[11,18],分別用不同的閾值進(jìn)行試探,觀察同義詞表生成的精確度,由于詞林本身是基于詞義編碼分類的,為盡量減小詞義的發(fā)散程度,本實(shí)驗(yàn)閾值取1,生成一個(gè)如表2所示的多對(duì)一同義詞表,共74 653組。
第三步針對(duì)訓(xùn)練集合D,利用生成的同義詞詞典,進(jìn)行檢索替換后得到一個(gè)13 151維的詞義訓(xùn)練集D′。其維度減少了5510維。
第四步在D上和D′上運(yùn)行Gibbs LDA,為了便于評(píng)價(jià)該改進(jìn)后提取特征好壞,其中主題數(shù)取10,α=0.5,β=0.1,迭代次數(shù)為1000次,從得到model-final文件中主題特征的分布。
第五步設(shè)計(jì)一種分類器,分別基于兩種主題特征分類進(jìn)行比較,分析分類結(jié)果的好壞。具體過(guò)程圖3所示。
圖3 實(shí)驗(yàn)流程圖
6.1主題特征提取
由于LDA本身是一種文本特征提取方法,本實(shí)驗(yàn)主要為它添加了一個(gè)生成的同義詞詞典,因此我們可以通過(guò)基于高概率主題詞的方法來(lái)評(píng)價(jià)它的好壞。由于每個(gè)主題最終會(huì)表示成一個(gè)N維的一元語(yǔ)言模型,我們對(duì)每個(gè)主題中的詞語(yǔ)根據(jù)權(quán)重進(jìn)行排序,權(quán)重較高的詞匯作為該主題的特征。如表3所示。
表3 基于詞義的主題特征
依照文獻(xiàn)[14]構(gòu)造的語(yǔ)言模型采取人工評(píng)測(cè)的方法,主要考慮兩個(gè)方面,第一是主題內(nèi)部的一致性,即聚合度。第二個(gè)方面是文檔內(nèi)部主題分布的一致性。對(duì)于這兩個(gè)任務(wù)都是人工評(píng)估檢查出隨機(jī)添加詞或者主題的難易程度。通過(guò)仔細(xì)對(duì)比我們可以發(fā)現(xiàn),改進(jìn)后的主題特征聚合度要略高于改進(jìn)前,改進(jìn)后的方法主題語(yǔ)意將更加集中,且不存在意思的重復(fù),更有利于提高用戶在特征提取和文本分類上的精確度。
6.2分類實(shí)驗(yàn)
為了進(jìn)一步檢驗(yàn)基于詞義概率模型提取主題特征的效果,我們?cè)O(shè)計(jì)了如下的分類實(shí)驗(yàn):
在測(cè)試集相同的基礎(chǔ)之上,以SVM分類器作為參考,設(shè)計(jì)了改進(jìn)的K近鄰分類算法,分別基于詞的LDA模型與基于詞義的LDA模型提取文本特征,通過(guò)計(jì)算待測(cè)文本和樣本集特征的歐氏距離作為文本的相似度,設(shè)定相似度閾值,取閾值范圍內(nèi)的個(gè)數(shù)為K,通過(guò)對(duì)K個(gè)樣本集中各類標(biāo)簽的個(gè)數(shù)排序,確定待測(cè)文本的類別。此實(shí)驗(yàn)中SVM分類器使用LiSVM,核函數(shù)使用線性核,主題數(shù)量為10,我們通過(guò)不斷擴(kuò)大訓(xùn)練集來(lái)檢驗(yàn)兩種模型分類的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖4、圖5所示。
圖4 基于詞和詞義的提取的特征運(yùn)用SVM分類準(zhǔn)確率對(duì)比
圖5 基于詞和詞義的提取的特征運(yùn)用k近鄰分類準(zhǔn)確率對(duì)比
從圖4、圖5中可以看出,和基于詞的LDA特征提取,無(wú)論運(yùn)用哪一種分類器,基于詞義的特征提取使得文本的分類準(zhǔn)確率有了提高。當(dāng)訓(xùn)練集的數(shù)量比較小時(shí),基于詞的主題建模和基于詞義的主題模型,兩種模型的分類準(zhǔn)確率相近,但當(dāng)隨著訓(xùn)練集的變大,基于詞義的主題模型優(yōu)勢(shì)將越來(lái)越明顯。這是由于隨著訓(xùn)練集的擴(kuò)大,一義多詞的現(xiàn)象越來(lái)越嚴(yán)重,可替換的同義詞越來(lái)越多,每個(gè)詞和詞義在文章中出現(xiàn)的次數(shù)越來(lái)越不均等,而基于詞義的主題建模很好地平衡了這種差距,也更接近于語(yǔ)言的生成規(guī)律。
在分類算法上,通過(guò)改進(jìn)K近鄰,運(yùn)用確定的相似度閾值替代了K值,通過(guò)這種方法能夠進(jìn)一步克服文本類別之間模糊性,在閾值之外的新類別不會(huì)強(qiáng)迫進(jìn)入K的范圍而影響分類器判斷,這樣得到的文本類之間將具有更高的相似度。
總的來(lái)說(shuō),此種改進(jìn)并沒(méi)有改變模型的整體架構(gòu),運(yùn)算的復(fù)雜程度沒(méi)有增加,只是改變了最底層的元素。但是,從改進(jìn)的算法可以看出,基于詞義建模的方法要遠(yuǎn)比基于詞語(yǔ)更加貼近語(yǔ)言的形成規(guī)律,尤其在文本分類中,當(dāng)語(yǔ)料庫(kù)規(guī)模較大候,通過(guò)基于詞義的降維進(jìn)一步簡(jiǎn)化了運(yùn)算量。
本實(shí)驗(yàn)力求證明在語(yǔ)義空間上運(yùn)用概率建模的可行性,所以使用了基于同義詞詞林相似度計(jì)算形成的同義詞表。由于詞義的表示依賴于語(yǔ)言環(huán)境,用詞習(xí)慣等諸多因素,所以在實(shí)際應(yīng)用中高精度同義詞表的生成是下階段研究的主要方向。
[1] Thomas K Landauer,Peter W Foltz,Darrell Laham.An Introduction to Latent Semantic Analysis[J].Discourse Processes,1998(25):259-284.
[2] Mark Steyvers.Probabilistic Topic Models[D].Uniwersity of California,2005.
[3] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Commun.ACM,November,1975,18(2):613-620.
[4] David M Blei,Jon D McAuliffe.Supervised topic models[C]//NIPS,2007.
[5] Samuel Brody,Noemie Elhadad.An unsupervised aspect-sentiment model for online reviews[C]//Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Stroudsburg,PA,USA,2010,HLT’10,2010:804-812.
[6] Ivan Titov,Ryan McDonald.A joint model of text and aspect ratings for sentiment summarization[C].Columbus,Ohio,June 2008,In Proceedings of ACL-08:HLT,2008:308-316.
[7] Branavan S R K,Chen H,Eisenstein J,et al.Learning document-level semantic properties from free-text annotations[J].Journal of Artificial Intelligence Research,2009,34(1):569-603.
[8]HannaWallach,DavidMimno,AndrewMcCallum.Rethinkinglda:Whypriorsmatter[J].AdvancesinNeuralInformationProcessingSystems22,2009:1973-1981.
[9]GriffithsTL,SteyversM.Findingscientifictopics[J].ProceedingsoftheNationalAcademyofSciences,April2004,101(Suppl.1):5228-5235.
[10]ThomasPMinka.Expectationpropagationforapproximatebayesianinference[C]//Proceedingsofthe17thConferenceinUncertaintyinArtificialIntelligence,SanFrancisco,2001,UAI’01,2001:362-369.
[11] 田久樂(lè),趙蔚.基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2010,28(6):602-608.
[12] 唐國(guó)瑜,夏云慶,張民,等.基于詞義類簇的文本聚類[J].中文信息學(xué)報(bào),2013,27(3):113-119.
[13] 鄭艷紅,張東站.基于同義詞詞林的文本特征選擇方法[J].廈門(mén)大學(xué)學(xué)報(bào):自然科學(xué)版,2012(2):200-203.
[14]JonathanChang,JordanBoyd-Graber,ChongWang,etal.Readingtealeaves:Howhumansinterprettopicmodels[C]//NIPS,2009.
[15] 于娟,尹積棟,費(fèi)庶.基于句法結(jié)構(gòu)分析的同義詞識(shí)別方法研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013,29(9):35-40.
[16] 肖志軍,馮廣麗.基于《知網(wǎng)》義原空間的文本相似度計(jì)算[J].科學(xué)技術(shù)與工程,2013,29(3):8651-8655.
[17] 馮新元,魏建國(guó),路文煥,等.引入領(lǐng)域知識(shí)的基于《知網(wǎng)》詞語(yǔ)語(yǔ)義相似度計(jì)算[C]//第十二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議,貴陽(yáng):[出版者不詳],2013.
[18] 呂立輝,梁維薇,冉蜀陽(yáng).基于詞林的詞語(yǔ)相似度的度量[J].現(xiàn)代計(jì)算機(jī),2013(1):3-6.
ATHEMEFEATURESELECTIONALGORITHMBASEDONWORDSMEANINGDIMENSIONREDUCTION
XiaoLei1WangXu1SuWulin2
1(College of Industral and Commercial,Hebei University,Baoding 071000,Hebei,China)2(College of Mathematics and Computer,Hebei University,Baoding 071000,Hebei,China)
Intextfeatureselection,duetothedifferencebetweenwordsprobabilityspaceandwordsmeaningprobabilityspace,thethemefeaturesentirelybasedonwordsprobabilityusuallycannotwellexpresstheideaofthearticle,norbeconducivetotextclassification.Toachievethepurposethatthethemefeaturescanbetterreflectthearticlethoughts,weextractedathemefeatureselectionalgorithmwhichisbasedonwordsmeaningdimensionreduction.Byconstructinga"synonymtable"basedonwordsdictionaryasthemappingmatrixofwordstowordsmeaning,thealgorithmconstructsawordsmeaning-basedprobabilitydistribution,andextractstextfeaturesbyLDAforclassification,theaccuracyofclassificationissignificantlyimproved.Experimentsshowthatthethememodelbuiltbythismethodwillhaveastrongerthemerepresentationdimension,throughthealgorithmtheproblemofdifferencebetweenwordsprobabilityandwordsmeaningprobabilityintextfeatureextractionisbasicallysolved.
Lineardiscriminantanalysis(LDA)ThememodelThemerepresentationdimension
2014-05-21。國(guó)家自然科學(xué)基金項(xiàng)目(60903089);河北大學(xué)博士項(xiàng)目(Y2009157)。肖雷,碩士,主研領(lǐng)域:模式識(shí)別與文本分類。王旭,碩士。粟武林,碩士。
TP3
ADOI:10.3969/j.issn.1000-386x.2016.03.057