亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        LDA與詞匯鏈相結合的主題短語抽取方法

        2018-11-14 10:27:42張小鵬呂學強徐麗萍
        小型微型計算機系統(tǒng) 2018年11期
        關鍵詞:語義詞匯模型

        張小鵬,呂學強,李 卓,徐麗萍

        1(北京信息科技大學 網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室,北京 100101 2(北京城市系統(tǒng)工程研究中心,北京 100089)

        1 引 言

        文獻主題提取技術,不僅能提高文檔檢索的質量,而且可以有效處理文檔向量空間表示模型的高維稀疏性問題,在文本分類、聚類、信息推薦等NLP任務中具有廣泛應用,因此主題提取也是當今文本挖掘領域的研究重點之一.

        目前國內外學者所采用的主題識別或抽取方法主要有三種:第一種是基于詞頻和共現(xiàn)詞頻等統(tǒng)計方法,如詞匯鏈(Lexical chain)[1],TF-IDF[2]等;第二種是基于向量空間模型的方法,如PLSA[3],LDA(latent Dirichlet allocation)[3]等;第三種是基于網(wǎng)或圖的方法,如共詞網(wǎng)絡(Co-Word)[4],TextRank[5]等.其中詞匯鏈與文本的結構存在一種對應關系,提供了關于文本中主題與結構的重要線索[6],且包含了較為豐富的語義信息,因此可利用詞匯鏈進行文章主題信息的反映;另一方面,詞匯鏈雖然能夠表達文本的語義結構,但其構造過程需依賴知識庫進行詞匯間語義相似度的計算,在知識庫不完備的情況下,未包含詞及其關鍵短語抽取的效果較差[7].LDA模型是一種經典的概率主題模型.在不依賴知識庫的情況下就可識別大規(guī)模文檔集和語料庫潛在的主題信息.但傳統(tǒng)LDA模型基于 “詞袋”[8]模型假設,忽略了文檔中各個詞之間的順序.因此在很多情況下主題抽取效果并不理想,存在主題詞信息粒度過小、主題辨識度低、主題詞二義性等問題.

        綜上所述,LDA模型是一種在文檔主題研究領域被普遍采用的概率主題模型;存在 “詞袋”模型假設的不足,且僅考慮了語料庫內部語義信息,因此抽取效果往往不夠理想;而詞匯鏈借助語料庫之外的語義知識庫來計算詞語間關系,可以彌補LDA模型的不足,達到充分利用語料庫內部和外部語義信息的目的.基于上述思路,本文提出了LDA結合詞匯鏈抽取主題的方法.實驗結果表明,該方法能明顯減少主題詞二義性問題,但依然存在主題詞信息粒度過小、主題辨識度低的問題.由此,本文通過進一步利用強詞匯鏈中心詞,并結合一定的詞性規(guī)則,提取了文中更具表達力的主題短語.從而解決了主題詞信息粒度過小、主題辨識度低的問題.

        2 相關概念

        2.1 詞匯鏈的概念

        詞匯鏈概念起源于1976年由Halliday與hasan提出的詞匯集聚概念[9],用于將文本中相關的詞構成一個鏈的過程.它是一種詞語間語義關系連貫性的外在表現(xiàn),與文本的結構和主題都有一定的對應關系,能夠用于確定語境,進而幫助消歧;也能夠用于文本抽取的各個任務中.

        詞匯鏈是通過詞義間的關系來識別的構建的,計算語義相似度需要知識庫的支持.而WordNet[10]就是一個較為完備的語義知識庫,因此可以將WordNet應用到詞匯鏈構建算法中.詞匯鏈構建算法的核心思想是從當前已構造的詞匯鏈中選擇一條最合適的詞匯鏈作為與該候選詞相關的詞匯鏈.但由于該算法考慮的是到目前為此所出現(xiàn)的詞語間的語義關系,并不從文章總體上考慮,所以構建的詞匯鏈往往不能正確表達文章的語義結構,容易出現(xiàn)詞語的詞義誤判問題,這也是對詞匯鏈進行改進的主要著手點之一.如圖 1所示,本文只選取文本片段中的名詞作為候選詞匯,該片段中三條詞匯鏈及其分布情況:{specifications,requirements,obsolete,replacement,reasons,material,nature,scope},{technical,solutions}和{reports,performance,system}

        圖1 詞匯鏈分布樣例

        2.2 詞義相似度

        詞義相似度指的是兩個詞在不同的語境中相互替換但不影響語境的句法語義結構的程度[11].Dekang Lin[12]認為任何兩個詞語之間的相似度不僅取決于兩個詞之間的共性(Commonality)也取決于它們之間個性(Differences),然后基于語義詞典并結合信息論的知識定義了相似度計算公式:

        (1)

        其中,S1,S2表示兩個義原,Sp表示離它們最近的共同祖先,p(Si),(i=1,2或p)是Si結點的子結點個數(shù)(包括自己)與樹中的所有結點個數(shù)的比值.

        2.3 LDA主題模型

        主題模型是為了揭示大數(shù)據(jù)集合中的隱藏結構而設計的一系列無監(jiān)督學習算法.主要思想是文檔可以看作是一系列主題的集合,而主題可以看作是一系列詞語的集合.換言之,一個文檔可以包含多個主題,而一個主題是由若干個詞語組成的集合.Hofmann把主題定義為基于詞的概率分布,同時把文檔定義為基于主題集合的概率分布.把文檔-主題-詞語三者的關系可以表示為:

        (2)

        其中,D表示文檔;T表示主題;W表示詞語.

        Blei等人[11]基于上述理論于2003年提出了LDA(Latent Dirichlet Allocation)主題模型,它是一個用于主題生成的三層貝葉斯概率模型.LDA的概率主題模型可以表示為圖2所示.為了簡化問題的復雜性,LDA模型不考慮詞與詞之間的順序,把文檔中的每個詞看作是相互獨立的變量,即基于“詞袋”模型的假設,這也為模型的改進提供了著手點.LDA模型同時采用Dirichlet分布函數(shù)來表示文檔中的各個主題分布,而Dirichlet分布的隨機向量中各個分向量之間是弱相關的,即假設了各個主題之間幾乎互不相關,這樣的假設與實際問題不符,這是LDA模型的另一個問題.

        圖2 LDA概率主題模型

        其中,k表示topic個數(shù),α、β為先驗參數(shù).Zm,n為第m個document下第n個詞的topic.Wm,n第m個document的第n個word.θm表示第m個document的topic分布,φk表示第k個topic下詞的分布.

        3 主題短語抽取

        短語往往比單個詞蘊含的信息更加豐富,含義也相對明確,具有較好的主題概括力.本文提出的LDA結合詞匯鏈抽取主題短語的具體流程,如圖3所示.

        為了便于描述流程圖,使用簡寫符號指代過程中數(shù)據(jù)集,Cp (Corps)表示實驗語料集,DTSet(Document-Topic Set)表示文檔-主題集,F(xiàn)CSet(Fulltext Chain Set)表示全文詞匯鏈集,NPSet (Noun- Phrase Set)表示二元和三元名詞短語集,CWSet(Center Word Set)表示中心詞集,TTPSet(Temp Topic Phrase Set)候選主題短語集,TPSet(Topic Phrase Set)主題短語集.具體流程步驟如下:

        1)文檔預處理:去除停用詞和標點符號后以′$′符號作為分割符,得到實驗語料Cp;

        2)求DTSet、FCSet及NPSet:在實驗語料Cp的基礎上,利用LDA訓練及Gibbs采樣得到DTSet,并利用詞語相關度和WordNet知識庫構造 FCSet,同時用規(guī)則匹配方式提取語料庫中的NPSet;

        圖3 主題短語抽取流程圖

        3)求CWSet:在上一步中求出的DTSet和FCSet的基礎上,計算主題詞與詞匯鏈的相關度,利用強鏈規(guī)則求出強詞匯鏈集合,然后循環(huán)遍歷強詞匯鏈集合中的每一個強鏈,將強鏈集合中頻率最高的元素作為最能代表該鏈的詞(即中心詞),并將該詞加入到CWSet中,直到循環(huán)到強詞匯鏈集合中最后一個強鏈,循環(huán)結束,得到CWSet;

        4)求TTPSet:在上述步驟中求出的NPSet和CWSet,經過包含與被包含等規(guī)則的合并、去重操作得到TTPSet;

        5)求TPSet:通過頻率、詞長和短語在文中所在的位置構造主題度計算公式,計算TTPSet中每一個短語的主題度并設定閾值,將主題度滿足閾值的短語加入到TPSet,從而得到主題短語集,流程結束.

        3.1 相關度計算

        詞匯鏈可以通過計算詞語相關度的方式進行構建.詞語語義相關度是從語義層面反映詞語關聯(lián)程度的概念,本文使用兩個詞在同一語境下的共現(xiàn)的概率來計算詞語之間的語義相關度.語義相似度與語義相關度很容易被混淆,語義相似度指的是詞匯之間的相似性.語義相似度與語義相關度又具有一定的聯(lián)系,兩個詞匯語義相關,它們之間不一定語義相似,但如果兩個詞匯語義相似,那么它們一定是語義相關的.綜上所述,本文可以把語義相似度的計算作為語義相關度求解過程的一部分.

        由于通信領域的技術文獻中涉及到大量的縮略詞,如表4 中的SIM(Subscriber Identification Module),GSM(Global System for Mobile Communication),BTS(Base Transceiver Station)等.這些縮略詞并沒有被WordNet所收錄,語義相似度計算公式也就無法應用在這些縮略詞上.Manning[14]等人提出基于互信息的方法解決WordNet中未收錄詞的相關度計算問題[15].互信息常被應用于計算兩個詞語之間的相關程度,具有不用依賴任何知識庫的特點,但互信息在低頻詞共現(xiàn)場景取得的效果并不好,且LDA抽取的文檔—詞匯矩陣是一種稀疏矩陣,本文只能基于段落內詞共現(xiàn)計算詞語之間的相關程度.基于段落內計算詞之間的相關程度,主題詞之間會出現(xiàn)大量低頻共現(xiàn)現(xiàn)象.為了解決上述問題,本文引入對數(shù)似然比(Log Likelihood Ratio).對數(shù)似然比在計算詞的低頻共現(xiàn)時比互信息具有更好的穩(wěn)定性.其基本思想是比較兩個詞匯相互獨立時得到的概率與構造或然表得到的概率的一致程度.給定兩個詞匯u和v,則u,v所組成的或然表如表1所示.

        表1 u、v組成的或然表

        k11表示單詞u和單詞v共同出現(xiàn)的次數(shù); k12表示單詞u出現(xiàn)但單詞v不出現(xiàn)的次數(shù);k21表示單詞v出現(xiàn)但單詞u不出現(xiàn)的次數(shù);k22表示單詞u和單詞v都不出現(xiàn)的次數(shù);需要指出的是,本文對數(shù)似然比的應用場景是基于LDA抽取結果的文檔-主題詞矩陣,因為該矩陣是一種稀疏矩陣,所以或然表中的詞共現(xiàn)現(xiàn)象統(tǒng)計是基于段落級而不是常規(guī)的句子級.對數(shù)似然比的公式如公式(3)所示.

        (3)

        其中,p=(k11+k12)/N,N=k11+k12+k21+k22,k11,k12,k21,k22,表示單詞u出現(xiàn)的概率,P1表示在v出現(xiàn)的情況下u出現(xiàn)的概率,P2表示在v不出現(xiàn)的情況下u出現(xiàn)的概率.對數(shù)似然比的值越大,表示語料中u、v搭配的短語是隨機出現(xiàn)的概率越小.

        為了便于計算,本文將對數(shù)似然比的求解過程轉換為求行熵、列熵、矩陣熵的求解過程.引入對數(shù)似然比后,設wi,wj為文檔中的兩個詞語,可根據(jù)公式(1)將wi,wj的相似度表示為Sim(wi,wj),根據(jù)公式(3)對數(shù)似然比表示為LLR(wi,wj);若用Rel(wi,wj)表示wi,wj的相關度,則相關度計算方法如公式(4)所示.

        Rel(wi,wj)=(1-λ)Sim(wi,wj)+λLLR(wi,wj);

        (i≥0;j≥0,i≠j)

        (4)

        其中,λ為可調節(jié)參數(shù),由于在通信領域技術文獻中縮略詞所包含的信息量更大一些,而涉及到縮略詞的相關度計算中,公式(4)中前半部分相似度函數(shù)不一定會有值,但后半部分的對數(shù)似然比函數(shù)一定會有值,因此在本文實驗中將λ值設為0.6.

        3.2 主題短語的抽取

        針對技術文獻利用LDA抽取出文檔-主題詞集合DTSet后,結合詞語相關度計算方法可以進一步完成詞匯鏈的構建.首先構建全文詞匯鏈,具體方法是通過掃描語料庫(Corps)中選定 文檔(D)的詞集合,利用公式(4)求出相關度值與當前處理的詞匯最大的詞 ,并將該詞插入到此詞匯鏈中,從而完成全文詞匯鏈的構建.然后在全文詞匯鏈集合中求出與主題詞集合DTSet中的詞滿足一定相似度閾值 的詞匯鏈集(LSet).具體方法是遍歷主題詞集合DTSet中的每一個詞w_i,利用公式(5)計算當前詞w_i與全文詞匯鏈集合中的每一個詞匯鏈L_j的相似度,如果大于相似度閾值,就將該詞匯鏈L_j加入到詞匯鏈集(LSet)中.重復上述步驟,直至集合U中的詞掃描完成,也就求出了詞匯鏈集(LSet).對于給定詞w_i與詞匯鏈L_j的相似度計算方法如公式(5)所示.

        (5)

        其中,Sim(wi,Lj)表示當前詞wi與詞匯鏈Lj的相似度.

        為了更好地體現(xiàn)文檔的主題,還需要對詞匯鏈集(LSet)進行強詞匯鏈的提取.強詞匯鏈對文檔的核心內容更加具有代表性.為了得出強詞匯鏈,這里引入權重計算方法,如公式(6)所示.

        (6)

        其中,Score(Chain)為詞匯鏈權重評分函數(shù),Len(Chain)為求鏈長函數(shù),Hg(Chain)為均衡函數(shù);Ti為詞匯鏈中第i個詞在全文出現(xiàn)的次數(shù),n為詞匯鏈中的成員個數(shù).

        使用權值評分函數(shù)對詞匯鏈進行評分,選擇滿足一定“強鏈規(guī)則”的詞匯鏈作為強詞匯鏈;本文用ChainScore(Chain)表示強詞匯鏈的評分函數(shù),AVG(Scores)表示(6)式中詞匯鏈權重評分函數(shù)得分的平均值,STD(Scores)表示(6)式中詞匯鏈權重評分函數(shù)得分的標準差;則“強鏈規(guī)則”可以表示為:Score(Chain)>AVG(Scores)+ 2×StandardDeviation(Scores),選擇其中權重滿足“強鏈規(guī)則”的詞匯鏈作為詞匯鏈強鏈.

        每條強鏈都對應著一個主題線索,每個主題線索都有著互不相同的側重點.可以選取代表不同側重點的強詞匯鏈中的中心詞作為文檔主題信息的代表.對于選定文檔中的中心詞,其出現(xiàn)的頻次應超過一定閾值,本文實驗中將閾值取為δ=(選定詞在文檔中出現(xiàn)次數(shù)/文檔不相同詞數(shù)),把超過閾值δ的詞作為文檔的候選詞中心詞.很多相關研究僅考慮名詞作為詞匯鏈中的候選詞,但經實驗發(fā)現(xiàn),除名詞以外的詞語對抽取文檔主題詞有正負兩方面的影響.具體為動詞對抽取的文檔主題詞質量有相對積極的影響,而形容詞、副詞等其它詞對抽取主題詞的質量有相對消極影響.因此只選擇文檔中具有名詞詞性或動詞詞性的詞語作為候選中心詞.根據(jù)上述實驗確定的閾值δ獲得每條鏈的候選中心詞集合.

        短語比詞匯更能體現(xiàn)文檔的主題,本文期望以短語來體現(xiàn)文檔的主題.現(xiàn)實中的關鍵短語多以二元和三元結構出現(xiàn)[13],而名詞短語(N-P,Noun Phrase)與文檔內容的表達最為一致[14],因此可以用名詞短語來描述文檔的主題,英文中的名詞短語的主要語言模式如表2所示.

        表2 英文文本中主要的名詞短語語言模式

        如果兩個詞語在同一文本片段內同時出現(xiàn),那么這兩個詞就具有一定的相關性.兩個詞的同現(xiàn)頻率越高,則它們的相關性就越大,成為短語的可能性也就越大.由此可以聯(lián)系信息論中互信息的相關知識,得出詞語間的共現(xiàn)頻率計算方法.

        (7)

        (8)

        其中,w1,w2,w3表示任意三個互不相同的詞語,F(xiàn)(w1,w2,w3)表示w1,w2,w3共同出現(xiàn)的次數(shù),COF(w1,w2)表示w1與w2共同出現(xiàn)的頻率COF(w1,w2,w3),表示,w1,w2,w3共同出現(xiàn)的頻率.

        本文以3GPP官方網(wǎng)站提供的8500篇技術規(guī)范作為統(tǒng)計語料庫,記上文提到的英文名詞短語語言模式模版為Pt,設計的主題短語抽取算法步驟描述如下:

        算法:主題短語抽取算法

        輸入:3GPP技術規(guī)范統(tǒng)計語料庫,名詞短語模板Pt

        輸出:主題短語集TPSet

        L1 begin

        L2 初始化 TPSet、TTPSet、CWSet;閾值變量γ=0.65;

        L3 讀入統(tǒng)計語料庫,對語料進行去停用詞、標點預處理操作后得到Cp;

        L4 按照詞性模版Pt對Cp中前一步處理過的語料進行篩選,選出滿足詞性模版的二元、三元名詞短語;再對選出的名詞短語進行統(tǒng)計,將出現(xiàn)次數(shù)大于1次的短語按照公式(c)和(d)計算共現(xiàn)頻率COF,篩選COF出大于閾值γ的名詞短語加入到集合TTPSet中.

        L5 刪除TTPSet中被三元名詞短語已含有的二元名詞短語;

        L6 刪除CWS中被TTPSet中短語所包含的中心詞,同時將TTPSet中包含中心詞的短語加入到TTPSet中,將CWS中剩下的中心詞也加入到TTPSet中;

        L7 最后將TTPSet中的詞按照公式計算短語的主題度,對滿足主題度閾值的,按照主題度大小順序輸出,得到主題短語集合TPSet.

        L8 End

        3.3 主題度計算

        候選主題短語與文檔主題的相關度通常與多種因素有關.本文綜合考察候選主題短語的頻率特征、詞匯鏈長度特征以及位置特征對主題度的影響,通過構造主題因子計算公式衡量候選主題短語的主題度.

        1)頻率特征. 從統(tǒng)計學角度來看,候選主題短語的出現(xiàn)頻率從一定程度上能夠反映出文檔主題,如果候選主題短語在同一篇文檔中頻繁出現(xiàn),則有較大可能性與文檔主題密切相關[16].考慮到作者在撰寫技術文檔時,通常會為了凸顯主題而反復使用主題相關的短語詞匯.因此,短語的頻率特征可以作為衡量主題度的一個因素.

        2)詞長特征. 主題短語一般包含多個單詞,表達的涵義往往比單個詞匯更具體.本文將主題短語包含的單詞個數(shù)作為主題短語的長度特征.相對而言,候選主題短語長度越短,則提供的信息量越少,概括的主題含義越抽象;候選主題短語長度越長,則承載的信息越豐富,更有可能貼近文檔的主題思想.文獻[17]表明,同一篇文檔中,反映文檔主題思想的短語對應的詞匯滿足長度最大的條件.因此,詞長也是一個不容忽視的因素.

        3)位置特征. 同一個主題短語在特定的文檔中一般會在不同位置處多次出現(xiàn),不同的位置對主題度的影響也不一樣.候選主題短語出現(xiàn)在文檔標題中一般比出現(xiàn)在正文中更能體現(xiàn)文檔主題,出現(xiàn)在正文起始段落中的候選主題短語一般起到開門見山的作用,出現(xiàn)在正文末尾段落中的候選主題短語一般起到總結性的作用.因此,出現(xiàn)在正文的開頭和結尾部分的候選主題短語一般比中間位置更能體現(xiàn)文檔主題.本文將候選主題短語出現(xiàn)的位置劃分為標題、正文起始段落、正文末尾段落以及正文中間部分,不同位置處賦予的主題權重如公式(9)所示.

        (9)

        綜合上述分析,本文針對候選主題短語提出如下計算主題度的方法,公式如(10)所示.

        (10)

        4 實驗及結果分析

        4.1 實驗數(shù)據(jù)

        本文實驗數(shù)據(jù)為3GPP官方網(wǎng)站FTP服務(http://www.3gpp.org/ftp/)中公開的8500篇通信行業(yè)技術規(guī)范(TSG)文獻.為了便于實驗,需要將技術規(guī)范文件中的扉頁、目錄和圖表等信息統(tǒng)一去除,只保留正文部分作為實驗語料(Corps),并去除語料中的停用詞和標點符號并以′$′符號作為分割符.由于實驗語料的規(guī)模較大,加上所能獲取的專家知識有限,很難人工準確識別出所有的主題短語,這也對評價指標的計算帶來了一定的困難,為此本文選取其中的五種技術規(guī)范文檔集作為對比實驗的五個實驗組.由于每種技術規(guī)范又分為三個系列,為了達到更好的實驗效果,選取過程中盡量對技術規(guī)范的若干系列進行平衡選取.把所選取的技術規(guī)范文檔集設置為3個不同的規(guī)模,并對選取的文檔進行手工標注主題短語.由于所選的實驗語料平均長度在4000字以上,為了較好的表達主題,每篇文獻手工標注的主題短語個數(shù)設定為100個,3個文檔集合分別包含150篇,300篇,450篇實驗文獻,具體分配情況如表3所示.

        表3 實驗文檔分配情況

        4.2 效果及分析

        本文通過LDA與詞匯鏈相結合的方法進行主題短語的抽取.使用LDA4j作為主題抽取模型.將LDA的各參數(shù)分別設置為:文檔-主題參數(shù)alpha=2.0,主題-詞語參數(shù)beta=0.5,主題數(shù)目k=20,收斂前迭代次數(shù)BURN_IN=100,最大迭代次數(shù)ITERATIONS = 1000.利用LDA對上述語料庫進行訓練后,預測其中編號為ETSI-TS-101-402技術規(guī)范文件的主題,如表4所示,本文只列出前6個主題.

        表4 LDA抽取的部分主題集

        通過觀察LDA的抽取結果發(fā)現(xiàn)所抽取的主題可用性并不高.主要存在以下三個問題:

        1)詞匯信息粒度過小,每個詞都是獨立的單詞;

        2)主題詞二義性,沒有考慮詞匯的真正含義,如band,call等;

        3)存在主題漂移現(xiàn)象,如文章的真實主題是與全球移動通信(GSM)的基站服務(BTS)有關,而topic3預測的主題是與移動交換中心(MSC)有關,與實際主題略有偏離.

        本文在實驗過程中發(fā)現(xiàn)實驗語料存在大量可利用的數(shù)據(jù)特征,這些具有明顯數(shù)據(jù)特征的字符串很大概率上是縮略詞或者是具有專指意義的名詞短語,而且在主題表達上具有特殊的意義,如CDMA,IMMEDIATE ASSIGNMENT,Private Telecommunication Networks等.這些數(shù)據(jù)特征給主題抽取提供了便利,可以用字符串匹配技術將這些字符串直接標定為名詞或者名詞短語,然后通過互信息、對數(shù)似然比等方法進行過濾,最后將它們加入到候選主題短語集合中,計算主題度并按照所得的主題度大小進行排序輸出.部分結果如表5所示,篇幅原因,本文展示每篇文獻主題度值排在前10的主題短語.

        表5 部分抽取的主題短語

        通過對比不難發(fā)現(xiàn),與傳統(tǒng)的基于LDA主題抽取方法相比較,本文方法對于文獻的主題表達主要有以下4個方面的改善:1)主題信息粒度方面,傳統(tǒng)的PLSA、LDA等主題模型通常使用一系列單詞去解釋文本主題,信息粒度過小,不利于概念的表達;而本文使用一系列信息粒度更大的短語描述主題有助于更深一步地對主題概念進行解釋.2)主題的辨識度方面,使用基于單詞的主題模型表達文本主題,往往會產生主題不易被區(qū)分的問題,如表4中topic1、topic3、topic6都是描述用戶電話信息的,topic2、topic4和topic5又都是描述全球移動通信系統(tǒng)的,無法準確區(qū)分主題,如果人為進行區(qū)分,會造成結果客觀性不足,也可能會產生一些矛盾.而基于短語進行主題表達,每個短語都包含較為豐富的語義信息,從而對主題辨識度的提升有所幫助.3)語義消歧方面,基于單詞的主題模型容易出現(xiàn)多義詞,無法辨別其真正含義,從而產生歧義,影響主題無法準確地得到表達.如 topic2 中“power”的意思是“功率”還是“電源”? 在缺少上下文語境的情況下,讀者憑借主觀猜想很難對其正確地進行區(qū)分.而基于短語的主題表達提供了一定的語境信息,有助于對多義詞的進行正確的解讀,從而消除主題表達中的歧義現(xiàn)象.4)主題的可解釋性方面,傳統(tǒng)的基于單詞的主題模型中,同一個單詞可能被多個主題所包含,如表4中GSM同時在topic2、topic4和topic5中出現(xiàn),這種情況對文獻主題的解釋以及分類具有負面影響,僅僅知道這些主題與“全球移動通信系統(tǒng)”有關,意義不大,所能為主題解釋提供的價值有限.而基于短語對主題進行解釋則會大大改善這一情況.

        表6 三種主題短語抽取方法在不同規(guī)模數(shù)據(jù)集上的準確率和召回率

        4.3 對比實驗

        為了對提出的主題短語抽取方法的有效性進行評價,本文進行了一系列對比實驗并用準確率、召回率和F1值對實驗結果進行評價.在表(3)所示的五組實驗語料的基礎上,分別采用基于LDA的方法、基于詞匯鏈的方法以及LDA與詞匯鏈相結合的方法進行主題短語的抽取,然后與手工標注的主題短語進行對比,從而得到每組語料抽取主題短語準確率、召回率和F值.計算方法如公式(8)-公式(10)所示.

        (11)

        (12)

        (13)

        其中,Pi表示第i組的準確率,Ri表示第i組的召回率,F(xiàn)1i表示第i組的F1值,TPi第i組正確抽取主題短語的個數(shù),F(xiàn)Pi第i組提取主題短語不正確的個數(shù).

        圖4 準確率P的均值對比 圖5 召回率R的均值對比

        5 結束語

        本文針對通信領域技術規(guī)格文獻,提出了一種LDA模型與詞匯鏈相結合的主題短語抽取方法.傳統(tǒng)的LDA模型基于“詞袋”模型的假設,忽略了文中原有詞語的順序;對語料庫本身進行主題采樣,只利用了語料庫內部的語義信息;因此容易出現(xiàn)較多的主題詞二義性問題.與詞匯鏈相結合,可以利用語料庫之外的具有較完備語義信息的知識庫WordNet,通過語義相關度計算和強鏈規(guī)則篩選可以得到強詞匯鏈,從而在很大程度上減少主題詞二義性問題.利用中心詞提取方法和N-P規(guī)則合并、去重等步驟可以完成主題短語的提取.借助具有更豐富語義信息的主題短語來表達主題,從而解決了主題詞粒度過小、辨識度低等問題.雖然將兩種技術相結合能夠保證主題抽取的準確率和召回率,主題漂移現(xiàn)象也會得到改善.但該方法依賴較多,且主要針對三元以下的主題短語的進行識別,具有一定的局限性.下一步作者將嘗試對該方法的適用范圍進行改進,在短語長度和中文語料上進行改進,以期達到較好應用效果.

        猜你喜歡
        語義詞匯模型
        一半模型
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        語言與語義
        本刊可直接用縮寫的常用詞匯
        3D打印中的模型分割與打包
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        人妻去按摩店被黑人按中出| 亚洲色图三级在线观看| 日韩久久无码免费毛片软件| 男男受被攻做哭娇喘声视频| 国产91在线免费| 少妇极品熟妇人妻高清| 少妇太爽了在线观看免费| 亚洲精品tv久久久久久久久久| 亚洲一区精品在线中文字幕| aa片在线观看视频在线播放| 亚洲最大日夜无码中文字幕| 午夜在线观看有码无码| 国产毛片视频一区二区三区在线| 精品乱人伦一区二区三区| 男女性高爱潮免费观看| 国产精品成人无码久久久久久| 精品熟女视频一区二区三区国产 | 国产青青草视频在线播放| 精品国产一区二区三区av免费 | 国产精品反差婊在线观看| av免费在线国语对白| 女人被男人爽到呻吟的视频| 三年片在线观看免费大全电影| 亚洲无码毛片免费视频在线观看| 桃色一区一区三区蜜桃视频| 国产一精品一av一免费| 久久精品片| 久久精品国产6699国产精| 日韩一区中文字幕在线| 久久久久亚洲av成人人电影| 女同性黄网aaaaa片| 成人无码激情视频在线观看 | 亚洲狠狠婷婷综合久久久久 | 国产综合精品| 无遮挡亲胸捏胸免费视频| 亚洲一区精品一区在线观看| 精品激情成人影院在线播放| 18禁黄网站禁片免费观看| 欧美精品日韩一区二区三区| 日本中文字幕精品久久| 性无码免费一区二区三区在线|