亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中心詞和LDA的微博熱點(diǎn)話題發(fā)現(xiàn)研究

        2021-05-29 01:56:52林杰豪翟雯熠
        情報(bào)雜志 2021年5期
        關(guān)鍵詞:分配文本方法

        劉 干 林杰豪 翟雯熠

        (1.杭州電子科技大學(xué)經(jīng)濟(jì)學(xué)院 杭州 310018;2.澳大利亞國立大學(xué)商學(xué)院 堪培拉 2601)

        0 引 言

        隨著現(xiàn)代技術(shù)的蓬勃發(fā)展,網(wǎng)絡(luò)話題逐漸成為信息媒體中的核心主體,人們關(guān)注的重心也從早期的事件轉(zhuǎn)移到如今的話題。話題檢測與跟蹤(TDT)就是由早期的面向事件檢測與跟蹤(EDT)所衍化的,這是一項(xiàng)關(guān)于因當(dāng)今信息爆炸所引發(fā)的信息流處理技術(shù),主要應(yīng)用于檢測和跟蹤話題,判斷多話題的一致性等話題信息任務(wù)[1]。

        在中國,微博是當(dāng)前用戶最多,最綜合的社交平臺(tái)。由其2019年第4季度財(cái)務(wù)報(bào)表顯示,微博的月平均活躍用戶數(shù)已經(jīng)達(dá)到了5.16億人。微博擁有海量的用戶群,又擁有以推文、評論等為主的強(qiáng)交互式社交功能,對話題生成、輿情傳播、謠言散播、熱點(diǎn)事件發(fā)展等都具有強(qiáng)烈的影響作用[2-3]。在這種環(huán)境下,針對微博的TDT就顯得尤為重要。實(shí)現(xiàn)對微博熱點(diǎn)話題的及時(shí)發(fā)現(xiàn),能夠幫助有關(guān)部門及時(shí)監(jiān)控網(wǎng)絡(luò)輿情,及時(shí)重塑、引導(dǎo)輿論環(huán)境向正面,積極的方向發(fā)展。

        1 相關(guān)研究

        1.1 LDA的相關(guān)研究近年來,國內(nèi)外有關(guān)TDT技術(shù)的研究層出不窮,在文本類話題發(fā)現(xiàn)上以語言模型為主,其中LDA[4]使用生成模型的思維實(shí)現(xiàn)話題分配,在應(yīng)用上取得了許多成果。李昌等[5]引入技術(shù)詞語境IPC構(gòu)成WI-LDA模型,在指定任務(wù)的主題生成上取得了更好的效果。譚旭等[6]融合ARMA模型和LDA,在情感分析中進(jìn)行動(dòng)態(tài)化呈現(xiàn)和細(xì)粒度劃分。此外,為了能更直觀地對比實(shí)驗(yàn)的應(yīng)用效果,還需要確定一個(gè)主題數(shù)K作為控制變量。而關(guān)于LDA話題組數(shù)的確定方法亦層出不窮。Blei等[4]使用困惑度(Perplexity)指標(biāo)來衡量模型對主題模型分配的不確定性,但這個(gè)方法對高主題數(shù)具有傾向性。王晰巍等[7]基于奧卡姆剃刀準(zhǔn)則,將最小的曲線拐點(diǎn)作為主題數(shù),但這種方法缺乏穩(wěn)定性,難以確保所得解為最優(yōu)解;Griffiths等[8]使用貝葉斯統(tǒng)計(jì)標(biāo)準(zhǔn)方法,用對數(shù)邊際似然函數(shù)的方法代替困惑度指標(biāo);關(guān)鵬等[9]通過JS散度來計(jì)算每個(gè)主題—詞分布參數(shù)圍繞其均值的方差大小,和困惑度指標(biāo)結(jié)合提出了Perplexity-Var指標(biāo)。雖然這些方法都在原有指標(biāo)的基礎(chǔ)上作出了改進(jìn),但仍然沒有脫離多次訓(xùn)練的范疇。Teh等[10]提出了層次狄利克雷過程HDP,將每一個(gè)樣本獨(dú)立的從混合分布中抽取,通過完成抽樣過程生成最終的混合成分?jǐn)?shù),實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)最佳的混合成分?jǐn)?shù)與困惑度方法所得結(jié)果一致。

        在多實(shí)驗(yàn)組對比下,運(yùn)用奧卡姆剃刀法則來找到令每個(gè)實(shí)驗(yàn)組都具有最佳分組效果的主題數(shù)K是難以實(shí)現(xiàn)的。而LDA本質(zhì)雖然是主題生成的概率分布,但是其最終實(shí)現(xiàn)的下游任務(wù)仍然是話題聚類和分組。因此在對聚類效果的評估上,聚類所使用的方法也可以作為LDA的度量指標(biāo)。實(shí)驗(yàn)采用模擬退火遺傳算法(SAGA)[11-12]這一啟發(fā)式的混合遺傳算法來確定共同的主題數(shù)K以便后續(xù)應(yīng)用實(shí)驗(yàn)的對比。

        1.2文本表示的相關(guān)研究相比較其他的聚類任務(wù),文本、圖像等抽樣目標(biāo)的聚類任務(wù)通常還要先對樣本進(jìn)行表示學(xué)習(xí)[13]。早期的學(xué)者們通過BOW、TF-IDF等方法來得到文本向量。劉小慧等[14]認(rèn)為傳統(tǒng)TF-IDF對熱點(diǎn)詞的研究起到反效果,提出了改進(jìn)的TFK-IDFK算法,將權(quán)重分配由原先的逆向改為正向。周源等[15]將文檔分為多個(gè)子集,用不同子集中IDF值的方差代替原先的IDF。但由于離散模型的高維稀疏缺陷,分布式方法應(yīng)運(yùn)而生。Mikolov等[16]提出了CBOW和Skip-Gram模型來實(shí)現(xiàn)詞嵌入(Word Embedding),隨后Google在2013年開源了封裝這兩個(gè)模型的工具Word2Vec。馬思丹等[17]通過對文本關(guān)鍵詞劃分計(jì)算兩部分加權(quán)相似度后,再用線性方法加權(quán)得到文本向量。Pennington等[18]提出了Glove模型,額外考慮了整體語料庫。然而,直接的詞嵌入方法忽略了詞序、指代消解、多義詞等問題。隨后,基于RNNs的深度學(xué)習(xí)開始被應(yīng)用于詞向量的訓(xùn)練,它通過現(xiàn)在t時(shí)刻和過去t-1時(shí)刻的特征進(jìn)行輸出。但是RNNs存在順序依賴問題,一方面導(dǎo)致其沒有并行能力,另一方面則是對長期的記憶行為比較無力。于是Sutskever等[19]用Attention機(jī)制緩解了長距離依賴問題。Vaswani等[20]開創(chuàng)性的提出了多層Transformer結(jié)構(gòu),通過Self-Attention機(jī)制,實(shí)現(xiàn)了消歧、指代消解、并行計(jì)算和雙向信息流,但因?yàn)槭怯斜O(jiān)督學(xué)習(xí)方法導(dǎo)致難以學(xué)到復(fù)雜的上下文表示。為此,Peters等[21]提出了ELMo模型,運(yùn)用多層雙向LSTM對每個(gè)詞作編碼,經(jīng)過加權(quán)得到詞向量。Radford等[22]用Transformer代替了ELMo的RNNs,提出了更適合特定任務(wù)的GPT。Devlin等[23]提出了Bert,采用雙向Transformer,實(shí)現(xiàn)了Word2Vec的完全上位代替。在Google對其進(jìn)行開源后,其他研究者只需要通過遷移學(xué)習(xí)后,針對特定任務(wù)額外進(jìn)行Bert訓(xùn)練微調(diào)即可適應(yīng)當(dāng)前任務(wù)。至此,預(yù)訓(xùn)練語言模型成為了NLP領(lǐng)域非常重要的基礎(chǔ)技術(shù)。由于哈工大訊飛聯(lián)合實(shí)驗(yàn)室開源的中文模型比Google所提供的模型更加出色,后續(xù)將采用其BERT-wwm預(yù)訓(xùn)練模型來獲取詞向量,應(yīng)用于SAGA的距離計(jì)算以及Bert實(shí)驗(yàn)組吉布斯抽樣(Gibbs Sampling)時(shí)的權(quán)重系數(shù)計(jì)算。

        2 關(guān)鍵方法設(shè)計(jì)

        2.1中心詞LDA方法設(shè)計(jì)LDA[4]是基于貝葉斯學(xué)習(xí)的話題生成模型,認(rèn)為由文本生成了話題,又由話題生成了詞,它們分別服從兩個(gè)不同的多項(xiàng)分布。因此,只要能計(jì)算得到兩個(gè)多項(xiàng)分布的參數(shù)向量,我們就可以得到當(dāng)前語料庫的話題分布。然而,多項(xiàng)分布的參數(shù)估計(jì)是十分困難的。根據(jù)貝葉斯派的思想,多項(xiàng)分布的參數(shù)向量是由其先驗(yàn)分布Dirichlet分布所產(chǎn)生的。因此可以通過超參數(shù)和近似求解的方法來進(jìn)行估計(jì),通過收縮的吉布斯抽樣來生成模型。由于Bert預(yù)訓(xùn)練所得到的詞向量考慮了詞間的相關(guān)性、多義詞等關(guān)系,在結(jié)合了LDA模型的文本—話題、話題—詞因素后,能實(shí)現(xiàn)LDA模型更好的分組效果。和傳統(tǒng)的吉布斯抽樣相比,改進(jìn)方法引入中心詞概念,打破詞間等權(quán)重現(xiàn)象,通過計(jì)算稀疏值為文本中每個(gè)詞賦予權(quán)重。首先是稀疏值的計(jì)算:

        (1)

        Swmi為當(dāng)前文本中詞Wmi的稀疏值,|Wmj|表示與其計(jì)算距離的詞在當(dāng)前文本所占的頻數(shù),d表示詞向量維度,參數(shù)θ用于調(diào)節(jié)后續(xù)權(quán)重值的分配效果,不同的語料庫有各自適合的取值,該值越大則中心詞權(quán)重分配越極端。分母則是做了歸一化處理,分別消除了文本長度和詞向量維度的量綱。該值越大表示以該詞為中心時(shí),周圍詞的分布更加稀疏,說明該詞對當(dāng)前文本的表示力度更低。

        (2)

        獲取稀疏值后再采用softmax函數(shù)將特征對概率的影響轉(zhuǎn)化為乘性,目的是讓中心詞得到更有傾向性的權(quán)重分配,隨后在原式基礎(chǔ)上額外令每個(gè)指數(shù)值減1,將其最小值變?yōu)?,否則它將弱化權(quán)重的倍數(shù)關(guān)系。最終的權(quán)重公式設(shè)計(jì)為:

        (3)

        Weightmi表示當(dāng)前詞的最終權(quán)重系數(shù),由于稀疏值是反向指標(biāo),所以需要重新對指標(biāo)作概率規(guī)范化處理。令每個(gè)文本∑Weightmi=1。一個(gè)文本的詞間稀疏關(guān)系可由圖1所示。

        圖1 文本中心詞與非中心詞概念圖

        當(dāng)以Wm1為中心詞時(shí),將分別計(jì)算其與周圍詞的頻數(shù)距離并匯總為稀疏值,作為當(dāng)前文本權(quán)重的分配依據(jù),最后將這個(gè)權(quán)重值代替吉布斯抽樣時(shí)的頻數(shù)計(jì)數(shù)來進(jìn)行滿條件概率抽樣:

        (4)

        由式(4)可知,第一個(gè)因子反映了當(dāng)前詞本身詞種對話題分配的影響,第二個(gè)因子反映了同一文本中其他詞對當(dāng)前詞話題分配的影響。因此在等權(quán)重吉布斯抽樣下,同一文本內(nèi)難以形成統(tǒng)一的話題,最終將導(dǎo)致詞間分配混亂。而在引入中心詞概念后,由式(4)的第二個(gè)因子可知,文本中每個(gè)詞的話題分配會(huì)向低稀疏值詞靠攏,形成了“近墨者黑”效應(yīng):當(dāng)前文本中的詞以更高的概率被分配為低稀疏值詞所分配的對應(yīng)話題,這便會(huì)使得文本內(nèi)的話題分配更加集中。然而,根據(jù)兩者間真實(shí)話題的一致與否,這種效應(yīng)分別起到引導(dǎo)和誤導(dǎo)作用。其中引導(dǎo)效果會(huì)令距離更近的一類詞更容易在最終分組中被分為同一話題,進(jìn)而優(yōu)化最終熱點(diǎn)話題生成效果。而即便是在誤導(dǎo)效果下,由于高稀疏值詞被分配的權(quán)重更低,所以被誤導(dǎo)的詞在第一個(gè)因子中產(chǎn)生的詞種話題影響會(huì)更小。

        下面以“籃球”為例:“我們在體育場打籃球”,“我們逛了商場,買了籃球,吃了海底撈”。其中,“籃球”在第一句以較高權(quán)重引導(dǎo)了“體育”或“運(yùn)動(dòng)”話題,而在第二句中將以較高概率被其他低稀疏值誤導(dǎo)為“生活”話題。但第二個(gè)句子中的“籃球”被誤導(dǎo)分配為“生活”話題時(shí),它對應(yīng)的權(quán)重值也是一個(gè)較低的值。由式(4)的第一個(gè)因子來看,其中分母固定表示當(dāng)前話題下所有詞的權(quán)重和,這個(gè)值的大小由整個(gè)語料庫的構(gòu)成決定。而分子表示當(dāng)前話題下該詞的權(quán)重和,在對“生活”話題進(jìn)行概率計(jì)算時(shí),高稀疏值帶來的低權(quán)重值會(huì)使分子的權(quán)重降低,從而在整體計(jì)算滿條件概率時(shí)降低被分配為“生活”話題的概率。

        因此,那些頻繁代表了一個(gè)文本中心詞的詞向量更容易形成自主的話題,而頻繁作為非中心詞的詞向量很可能在多次訓(xùn)練下左搖右擺得到不同的分配結(jié)果。引入中心詞概念后,根據(jù)式(4)可知,文本內(nèi)詞間的關(guān)系影響可以整理為下述兩種情況,其中高低頻表示該詞在整個(gè)語料庫的頻次,是否中心詞的定義僅限每個(gè)文本內(nèi)部,且中心詞通常不是單個(gè)詞。

        a.無中心詞,權(quán)重分布均勻。此時(shí)等同于等權(quán)重吉布斯抽樣效果。當(dāng)話題偏向一致時(shí),文本中的詞在最終分組中會(huì)有更大概率被分為同一組。當(dāng)話題偏向多樣時(shí),最終分組會(huì)更加混亂。

        b.中心詞和非中心詞。當(dāng)話題偏向一致時(shí),兩者在最終分組中會(huì)有更大概率被分為同一組。此時(shí)無論各個(gè)詞權(quán)重如何,對最終分組結(jié)果而言都是有利的。當(dāng)話題偏向多樣時(shí),前者將會(huì)誤導(dǎo)后者。此時(shí)若兩者均為高頻詞,或前者為低頻詞,后者為高頻詞,則后者由于高稀疏值將弱化誤導(dǎo)現(xiàn)象,使后者在其他文本中的概率計(jì)算時(shí)受到的影響降低。若兩者均為低頻詞,或前者為高頻詞,后者為低頻詞,則將根據(jù)后者和前者的共現(xiàn)頻次,決定后者的話題分布情況,所以后者的話題分布可能更加集中,也可能更加混亂,而前者由于高權(quán)重值將會(huì)更加集中。

        總的來說,在引入中心詞概念后,改進(jìn)LDA模型提高了高頻詞的話題分配準(zhǔn)確率,同時(shí)降低了錯(cuò)分話題時(shí)帶來的后續(xù)干擾影響,從而使最終模型中高頻中心詞的話題分布更加集中,這在微博熱點(diǎn)話題發(fā)現(xiàn)中會(huì)取得更好的效果。

        2.2實(shí)驗(yàn)組評價(jià)指標(biāo)設(shè)計(jì)將基于Bert和Word2Vec的模型設(shè)為實(shí)驗(yàn)組,基于TF-IDF和BOW的模型設(shè)為對照組??紤]到微博文本低頻詞種數(shù)較多的性質(zhì),Word2Vec組采用CBOW模型完成訓(xùn)練。實(shí)驗(yàn)效果通過困惑度[4]指標(biāo)反映,該指標(biāo)雖然在確定主題數(shù)方面有不少缺陷,但作為評價(jià)LDA模型優(yōu)劣的指標(biāo)仍然是合適的。

        (5)

        式中p(w)表示每一個(gè)詞在各個(gè)話題下概率的乘積,|W|表示所有詞種數(shù)。該指標(biāo)的變量集中在指數(shù)部分,反映了話題分配的混亂程度,詞的話題分布越集中,p(w)值越小,即熵越小,則說明模型越好,該部分值也越小。考慮到指數(shù)的爆炸性增長性質(zhì),實(shí)驗(yàn)環(huán)節(jié)僅取用指數(shù)括弧內(nèi)的部分用作展示。

        3 文本模型處理

        3.1 文本預(yù)處理

        3.1.1 數(shù)據(jù)獲取與清洗 為了更細(xì)化的提煉源自于微博的熱點(diǎn)話題,本次研究根據(jù)微博熱搜榜9月熱點(diǎn)事件,分別在每日11時(shí)、23時(shí)爬取熱點(diǎn)信息,并保留每次熱搜榜前10熱點(diǎn),去重后共計(jì)586個(gè)榜單熱點(diǎn),構(gòu)成用于后續(xù)分析的語料庫。并在數(shù)據(jù)清洗環(huán)節(jié)剔除極端的高頻詞、低頻詞,以及發(fā)文時(shí)間不在9月的博文,這里設(shè)置高頻閾值為80%,低頻閾值為5。

        3.1.2 中文分詞與去停用詞 本文采用交互式分詞方法HanLP進(jìn)行分詞。相比較其它分詞工具,HanLP在分詞速度、內(nèi)存消耗上有明顯優(yōu)勢。且對于難以辨識的句子更傾向于字級別的細(xì)粒度切割,誤分概率更低,更適合作為微博文本的分詞方法。完成分詞后,用字典法思路構(gòu)造去停用詞典對如“的,了”等無意義詞進(jìn)行過濾??紤]到熱點(diǎn)話題詞的性質(zhì),額外再剔除分詞結(jié)果中的單個(gè)字。

        3.2文本表示學(xué)習(xí)通過哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的Bert中文預(yù)訓(xùn)練模型獲取到字向量并經(jīng)過少量訓(xùn)練調(diào)整后,將其以均值的方式計(jì)算分詞后的每個(gè)詞詞向量。但由于Bert考慮了位置關(guān)系,所以對同一句子的重復(fù)詞也將同樣采用均值方法來得到最終詞向量。實(shí)驗(yàn)中BOW組和TF-IDF組能直接構(gòu)成文本向量,Bert組和Word2Vec組將會(huì)先得到詞向量,再用于計(jì)算文本向量。無論是通過Bert亦或Word2Vec訓(xùn)練得到的詞向量,都是考慮了詞間相關(guān)性所得到的量化數(shù)值,兩兩詞向量間具有計(jì)算關(guān)系,只是后者更加簡單直接且僅考慮了其窗口范圍的詞。因此直接采用歸一化,根據(jù)每個(gè)文本所屬詞向量和的均值作為對應(yīng)的文本向量表示。

        4 實(shí)驗(yàn)階段

        4.1確定主題數(shù)K為控制變量經(jīng)過預(yù)處理環(huán)節(jié)后,本次研究真實(shí)應(yīng)用的文本量為128 430。設(shè)置GA參數(shù)種群規(guī)模P為500,交叉概率Pcross為0.5,變異概率Pvariation服從均值為0.2,標(biāo)準(zhǔn)差為0.02的高斯分布,適應(yīng)度函數(shù)選擇DBI[24],設(shè)置SA參數(shù)初始溫度T0為0.5,退火速率λ為0.999,以符合初期低概率,后期高概率的需求。如圖2所示,當(dāng)?shù)螖?shù)為75時(shí),DBI值連續(xù)10次沒有發(fā)生變化使得迭代收斂,確定主題數(shù)為11。

        圖2 SAGA迭代過程圖

        4.2實(shí)驗(yàn)結(jié)果對比參數(shù)設(shè)置方面,當(dāng)α采用較大的值時(shí),由式(4)的第二個(gè)因子可知,中心詞對其他詞的影響力度將會(huì)被弱化,話題分配趨向于均勻,將不利于實(shí)驗(yàn)效果,因此設(shè)置超參數(shù)α和β均為0.01,θ設(shè)置為5。令BOW和TF-IDF兩組通過傳統(tǒng)方法得到LDA模型,而通過Word2Vec和Bert得到的詞向量先經(jīng)過式(3)計(jì)算得到權(quán)重,再展開收縮的吉布斯抽樣得到最終LDA模型。下面只提取式(5)指數(shù)中的分子部分來觀察各個(gè)實(shí)驗(yàn)組在主題數(shù)變化下的對比和趨勢(見圖3)。

        通過觀察圖3可知,傳統(tǒng)LDA模型指標(biāo)下降緩慢,相較改進(jìn)LDA模型而言幾乎保持不變。在整體效果上,顯然有Bert>Word2Vec>TF-IDF>BOW。由式(5)可知,生成模型中詞的分布越均勻,則熵值越大,分組效果越差,當(dāng)給定主題數(shù)增加時(shí),吉布斯抽樣方法能夠更好的認(rèn)識模型,從而有了困惑度指標(biāo)對高主題數(shù)的傾向性這一現(xiàn)象。在改進(jìn)LDA模型中,高頻詞分布有了更強(qiáng)的集中效果,因而在整體困惑度水平上顯著優(yōu)于傳統(tǒng)方法。各實(shí)驗(yàn)組多次實(shí)現(xiàn)的度量指標(biāo)如表1所示。

        圖3 實(shí)驗(yàn)組、對照組對比曲線圖

        但當(dāng)主題數(shù)過小時(shí),話題分配的滿條件概率更依賴于語料庫的詞頻構(gòu)成,改進(jìn)方法將不適用。如當(dāng)給定主題數(shù)為1時(shí),忽略超參數(shù)下式(5)中第一個(gè)因子將變?yōu)樵~頻占比,第二個(gè)因子則恒為1。在改進(jìn)方法中,每個(gè)文本的權(quán)重和為1,在比較語料庫的權(quán)重占比中,長文本內(nèi)頻數(shù)較高的詞在權(quán)重累計(jì)上會(huì)變得不利,此時(shí)改進(jìn)方法的優(yōu)劣主要取決于語料庫構(gòu)成。

        表1 主題數(shù)為11下多組實(shí)驗(yàn)結(jié)果

        4.3改進(jìn)方法在微博熱點(diǎn)話題發(fā)現(xiàn)上的應(yīng)用確定LDA主題數(shù)為11,訓(xùn)練生成四組LDA模型。在將相似話題盡可能匹配后。展示每個(gè)話題中權(quán)重排名前6的詞,對比情況如表2所示。

        表2 微博熱點(diǎn)話題生成LDA模型部分對比情況

        對比表2各組LDA模型生成結(jié)果可以發(fā)現(xiàn),話題1、話題2為疫情主題,話題3為雙節(jié)主題。在話題1中,各組均有較好的分布表現(xiàn)。在話題2中,Bert組仍然有較好的分布表現(xiàn);TF-IDF組和BOW組內(nèi)詞間差異較大,主題模糊;Word2Vec組則存在如“央視”等相關(guān)性較低的詞,存在主題干擾。在話題3中,Bert組反映了新冠疫情和雙節(jié)的關(guān)聯(lián);BOW組則反映了雙節(jié)和文娛活動(dòng)的關(guān)聯(lián);TF-IDF組和Word2Vec組內(nèi)則仍有詞間差異較大的現(xiàn)象。在其他話題中,也同樣存在與上述類似的結(jié)果。由此來看,Bert組表現(xiàn)最佳,而Word2Vec組和TF-IDF組的表現(xiàn)較差。其原因在于Word2Vec雖然使用了改進(jìn)方法,在總體詞的話題分布上更加集中,使得總體熵值更小,但由于其僅能和窗口范圍內(nèi)的詞直接計(jì)算距離,對其他詞的關(guān)系計(jì)算不夠準(zhǔn)確,因此出現(xiàn)了錯(cuò)誤的集中效果。而TF-IDF的IDF部分對高頻詞權(quán)重有削弱作用,同樣由滿條件概率公式中的第一個(gè)因子可知,高頻詞將更不易于被分配為同一話題,即分布更加分散;低頻詞則由于其高權(quán)重值影響,反而使得分布更加集中[14]。因此,Word2Vec組和TF-IDF組在最終話題生成模型上的表現(xiàn)并沒有優(yōu)于BOW組。

        總體來看,LDA的熱點(diǎn)話題發(fā)現(xiàn)能力非常強(qiáng)。這是由滿條件概率公式中的第一個(gè)因子導(dǎo)致的,一個(gè)詞的整體詞頻數(shù)越大,無論是否等權(quán)重,話題是否集中,在進(jìn)行吉布斯抽樣后將更容易作為話題高權(quán)重詞出現(xiàn)。對比整體實(shí)驗(yàn)結(jié)果可以看出,在傳統(tǒng)方法下的LDA模型中,詞的分布更加均勻,它以更大的概率出現(xiàn)在多個(gè)話題中,故而在多次訓(xùn)練下,部分高頻詞時(shí)而出現(xiàn)時(shí)而消失,甚至?xí)胁糠值皖l詞在某一組中占據(jù)較高的權(quán)重,這對微博熱點(diǎn)話題的發(fā)現(xiàn)是不利的。而在引入中心詞概念后,高頻詞的話題分布更加集中,進(jìn)而幫助高頻詞在最終模型的各組中取得更高的權(quán)重。將BOW和Bert兩組的“中國”一詞作比較可以發(fā)現(xiàn),Bert組的分布更加集中(見圖4、圖5)。

        圖4 BOW模型“中國”詞—話題分布圖

        圖5 Bert模型“中國”詞—話題分布圖

        然而吉布斯抽樣屬于一種馬爾科夫鏈蒙特卡洛方法(MCMC),由于其初始化分布的隨機(jī)性,改進(jìn)方法下的吉布斯抽樣所生成的LDA模型仍會(huì)產(chǎn)生高頻中心詞分錯(cuò)組、左搖右擺的現(xiàn)象,這是由于多個(gè)高頻中心詞出現(xiàn)在同一文本下,卻被隨機(jī)分配了不同話題時(shí)相互誤導(dǎo)所引起的。但此類現(xiàn)象相對較少,故而改進(jìn)LDA模型在組間區(qū)分效果上仍會(huì)優(yōu)于傳統(tǒng)方法。

        5 結(jié) 語

        本研究提出了一種改進(jìn)LDA模型,通過對每個(gè)文本引入中心詞概念,計(jì)算每個(gè)詞的稀疏值作為權(quán)重來代替?zhèn)鹘y(tǒng)吉布斯抽樣中的頻數(shù)值。實(shí)驗(yàn)表明,在模型生成質(zhì)量方面有Bert>Word2Vec>TF-IDF>BOW,在應(yīng)用中Bert也有最好的表現(xiàn)。此外,改進(jìn)LDA模型在微博的熱點(diǎn)話題發(fā)現(xiàn)中對高頻中心詞具有更好的提煉效果,通過這種方法,能夠更好地抓住高頻的“關(guān)鍵少數(shù)”詞,從而更好地對微博輿情進(jìn)行引導(dǎo),能對后續(xù)的按話題展開的情感分析等任務(wù)提供基礎(chǔ)。但此次研究仍然無法解決高頻詞在多次訓(xùn)練下分組多變的問題,因此,如何進(jìn)一步改進(jìn)LDA來解決此類問題是下一步工作的重點(diǎn)。

        猜你喜歡
        分配文本方法
        應(yīng)答器THR和TFFR分配及SIL等級探討
        在808DA上文本顯示的改善
        遺產(chǎn)的分配
        一種分配十分不均的財(cái)富
        績效考核分配的實(shí)踐與思考
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        韩国v欧美v亚洲v日本v | 国产艳妇av在线出轨| 久久久亚洲精品一区二区| 亚洲精品国产一区二区免费视频| 人人鲁人人莫人人爱精品| 丰满岳乱妇久久久| 国产在线h视频| 亚洲av狠狠爱一区二区三区| 国产99久久久久久免费看| 草莓视频一区二区精品| 夜夜添夜夜添夜夜摸夜夜摸 | 在线视频 亚洲精品| 亚洲国产成人av第一二三区| 人妻露脸国语对白字幕| 亚洲精品无码av人在线观看国产| 亚洲av日韩专区在线观看| 中文字幕亚洲精品第1页| 亚洲av区一区二区三区| 在线播放五十路熟妇| 蜜桃av噜噜一区二区三区| 91免费国产高清在线| 青青草原综合久久大伊人精品| 在线精品国产亚洲av蜜桃| 99久久婷婷国产综合精品电影| 国产精品久久久久尤物| 人妻少妇中文字幕av| 欧美xxxxx在线观看| 中国猛少妇色xxxxx| 久久精品国产久精国产69| 人妻少妇猛烈井进入中文字幕| 最新系列国产专区|亚洲国产| 国产a级网站| 一区二区三区四区国产亚洲| 国产麻豆精品精东影业av网站| 久久精品成人欧美大片| 久久精品国产亚洲av桥本有菜| 日韩女同精品av在线观看| 国产精品沙发午睡系列990531| 最新国产成人综合在线观看 | 小妖精又紧又湿高潮h视频69| 99精品视频在线观看免费|