亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于SGC-LDA模型的財經(jīng)文本主題研究

2022-08-09 05:49:10覃桂雙

計算機工程與應用 2022年15期

傅魁，魯冬，覃桂雙

武漢理工大學經(jīng)濟學院，武漢 430070

財經(jīng)數(shù)據(jù)挖掘被廣泛應用于各種經(jīng)濟領域，如股票價格預測[1]、經(jīng)濟不確定性度量[2]以及經(jīng)濟周期預測[3]等。當前財經(jīng)領域模型研究主要是定量的模型，針對結構化數(shù)據(jù)進行研究[4]，而對于非結構化的財經(jīng)文本類數(shù)據(jù)關注較少。同時，當今互聯(lián)網(wǎng)上的財經(jīng)文本數(shù)據(jù)呈現(xiàn)出信息量龐大、增長速度迅猛、非結構性、主題模糊、高度動態(tài)性、覆蓋范圍廣等特征，造成了“信息豐富而知識匱乏”等問題，而傳統(tǒng)數(shù)據(jù)挖掘技術難以應用其中，導致無法從財經(jīng)文本中高效而準確地獲取有價值的財經(jīng)信息。因此如何實現(xiàn)對財經(jīng)文本中隱含的主題進行準確的建模，成為一個亟待解決的問題。

當前，主題建模技術被廣泛應用于股票趨勢分析[5]、財經(jīng)政策主題提取[6]、行業(yè)分類[7]、短視頻的喜好率預測[8]、投資者情緒識別[9]等領域。準確進行財經(jīng)主題建模，并保證模型的時效性，是對財經(jīng)統(tǒng)計數(shù)據(jù)的一種有效補充，對于促進經(jīng)濟領域中的評估經(jīng)濟狀況、預測市場波動和趨勢、抑制通貨膨脹、為投資者和決策者提供有價值的參考、改善投資策略等都至關重要同時大有裨益。

LDA模型是應用最常見的主題模型，諸多學者由基本LDA模型出發(fā)，致力于構建可以滿足不同應用場景需求的LDA擴展模型。其中，Blei等人[10]提出CTM（correlated topic model）模型，該模型將分布替換為邏輯正態(tài)分布，通過計算協(xié)方差矩陣來度量不同主題之間的關聯(lián)度。Rosen-Zvi等人[11]提出并構建作者-主題模型（author-topic model，ATM），通過引入作者要素，研究文本主題與文本作者以及不同文本主題之間的關系。Li等人[12]引入有向無環(huán)圖以全面表征所有主題之間的關聯(lián)性，建立PAM（pachinko allocation model）模型。王振飛等人[13]提出MTLDA（microblog topic latent dirichlet allocation）方法，通過時間片劃分完成了微博話題的生成，證實話題演化結果與實際情況吻合。Wang等人[14]通過對文本主題的演化進行建模，有效識別了動態(tài)主題，其方法稱為TM-LDA模型。

雖然傳統(tǒng)的LDA模型在主題發(fā)現(xiàn)方面優(yōu)勢明顯，但其難以有效解決建模文本的稀疏性和噪聲性的問題，并且采用滑動時間窗口技術對主題進行動態(tài)性建模容易造成主題間斷。因此本文考慮引入一種通用財經(jīng)主題以過濾文本噪聲，采用滑動時間窗口技術，同時加入遺傳因子保持不同主題間的連續(xù)性，提出并構建SGCLDA模型的財經(jīng)文本主題模型。本文提出的方法有以下幾點優(yōu)勢：

（1）基于滑動窗口技術，引入財經(jīng)主題遺傳因子和通用財經(jīng)主題，提出改進的SGC-LDA財經(jīng)文本主題模型，彌補了傳統(tǒng)主題模型在研究財經(jīng)主題領域的不足，提升對于財經(jīng)文本主題研究的精度。

（2）基于通用財經(jīng)主題的文本噪聲過濾建模，有效降低了財經(jīng)文本數(shù)據(jù)中噪聲數(shù)據(jù)帶來的負面影響。

（3）引入財經(jīng)主題遺傳因子以解決采用滑動時間窗口技術對主題進行動態(tài)性建模容易造成主題間斷的問題。

（4）運用財經(jīng)文本對于本文所提出的SGC-LDA模型進行實證分析，驗證了模型在財經(jīng)文本挖掘領域的優(yōu)越性。

1 LDA主題模型

主題模型是一種文本內(nèi)容的概率生成模型，能找到生成文本的最佳主題和詞項，最大程度表示文本所蘊含的含義，有效解決文本、潛在主題和詞項之間的語義關聯(lián)問題[15]，因此常被用于文本主題建模。主題模型包括如潛在語義分析（LSA）[16]、概率潛在語義分析（PLSA）[17]和潛在狄利克雷分布（LDA）[18]等，其中運用最為廣泛的是LDA模型。

LDA模型是一個包含文本、主題和詞語三個層次的貝葉斯模型，通過非監(jiān)督學習的方式對大規(guī)模文本集中的潛在主題信息進行識別。其基本原理是模擬了一篇文本的生成過程，即根據(jù)一篇文章的主題循環(huán)抽取主題對應的詞語從而生成一篇文本，基于LDA模型的文本具體生成過程如下所示：

（1）給定文本d，選擇d的長度N即d包含的詞項總數(shù)，N～Poisson(ξ)。

（2）選擇θ，使θ～Dirichlet(α)。

（3）選擇N個詞項中的每個詞項：

①選定主題Zn，使Z n～Mutinotional(θ)。

②根據(jù)p(w|Z n,β)的計算結果選擇詞項w n，其中，矩陣βKV中βij=p(W j=1|Z i=1)。

對應的圖模型如圖1所示。

圖1 LDA模型圖Fig.1 LDA model diagram

2 財經(jīng)主題建模

2.1 財經(jīng)主題建模框架

為解決主題模型存在的問題，本文在LDA模型的基礎上，考慮時間因素，基于滑動窗口技術（sliding-window technique），引入財經(jīng)主題遺傳因子（genetic factor of financial topic）和通用財經(jīng)主題（common financial topic），提出一種SGC-LDA（sliding-window，genetic factor and common financial topic LDA）模型，從而解決傳統(tǒng)LDA模型在財經(jīng)文本建模中存在的噪聲問題和主題間斷問題，更好地反映財經(jīng)文本的關鍵主題。

本文財經(jīng)主題建?？蚣苋鐖D2所示，包括核心步驟文本噪聲過濾、時間片劃分、引入遺傳因子和SGC-LDA財經(jīng)主題建模四部分。具體來說：

圖2 基于SGC-LDA模型的財經(jīng)文本主題建?？蚣蹻ig.2 Financial text topic modeling framework based on SGC-LDA model

（1）基于通用財經(jīng)主題的文本噪聲過濾。為減少噪聲數(shù)據(jù)的影響，本文引入通用財經(jīng)主題，以捕獲通用語義和噪聲干擾詞，定義描述特定財經(jīng)主題的常規(guī)主題為功能財經(jīng)主題，假定每個財經(jīng)文本都是功能財經(jīng)主題和通用財經(jīng)主題的混合，本文結合通用財經(jīng)主題和功能財經(jīng)主題實現(xiàn)文本噪聲過濾。

（2）對財經(jīng)文本進行時間片劃分。為避免文本數(shù)量稀少時間片的跨度太大的問題，本文結合等時間切分和等文本數(shù)量劃分兩種方法，先對文本采用等時間片切分，當該切分的時間片下文本數(shù)量達不到既定的閾值時，自動合并下一個時間片的文本作為當前窗口的文本。

（3）引入財經(jīng)主題遺傳因子。本文通過引入財經(jīng)主題遺傳因子，將前一時間片此項分布后驗概率乘以財經(jīng)主題遺傳因子作為后一時間片此項分布的先驗概率，來保持財經(jīng)主題的連貫性。

（4）SGC-LDA財經(jīng)文本主題建模。結合上述三點，本文提出并構建SGC-LDA模型，并將其用于財經(jīng)主題建模。

2.2 基于SGC-LDA模型的財經(jīng)文本主題建模

本文財經(jīng)文本主題模型可以用時間片、財經(jīng)主題、詞項和概率四個元組表示為：

其中，Zi1={(w1,p(w1|z1)),(w2,p(w2|z2)),…,(w n,p(w n|z n))}（Zi2,Zi3,…,Z in表達式同理），z為財經(jīng)主題模型隱含主題，w為特征詞表中的詞項，p為對應財經(jīng)主題中相應詞項的概率；T為每個時間窗口對應的時間片。

2.2.1 基于通用財經(jīng)主題的文本噪聲過濾

財經(jīng)類文本主要由財經(jīng)主題和非財經(jīng)噪聲數(shù)據(jù)構成，為了解決噪聲問題，本文基于混合一元模型[19]思想，引入通用財經(jīng)主題，以收集噪聲詞，通過將噪聲詞的生成過程添加到模型結構中來解決噪聲問題。具體而言，定義通用財經(jīng)主題，以捕獲通用語義和噪聲干擾詞，而描述特定財經(jīng)主題的常規(guī)主題稱為功能財經(jīng)主題，假定每個財經(jīng)文本都是功能財經(jīng)主題和通用財經(jīng)主題的混合。

混合一元模型假設每個文本僅涉及一個主題，這種假設可以間接豐富文本級別的主題的詞項標記樣本，從而為稀疏的文本進行有效建模?；诨旌弦辉Ｐ退枷耄谋網(wǎng)具體的產(chǎn)生流程主要包括2個步驟：第一步，按照語料庫級主題分布θ，選取主題Z w；第二步，基于第一步的條件，獨立于主題-詞項分布生成N d個詞項標記，進一步生成文本W(wǎng)。假設有Z1,Z2,…,Z n，生成文本W(wǎng)的概率表示為式（2）：

混合一元模型通過為所有詞項分配相同的主題來對文本建模，本文基于混合一元模型的思想，提出并構建本文文本噪聲過濾模型。首先，由Dirichlet先驗α得到功能財經(jīng)主題上的語料庫級多項式分布θ。其次，從Dirichlet先驗β得出所有主題的詞項多項式分布φ。最后在單詞生成過程中，對于每個文本d，從分布θ得出功能財經(jīng)主題z t，進一步根據(jù)Dirichlet先驗η在所選功能財經(jīng)主題和所有通用財經(jīng)主題上生成多項式分布πd。對N d個標記詞項重復以下過程N d次：從分布πd采樣主題z dn，然后從分布φz d采樣標記詞項w dn。圖3為本文提出的文本噪聲過濾建模圖模型，參數(shù)說明如表1。

圖3 基于通用財經(jīng)主題的文本噪聲過濾建模圖模型Fig.3 Text noise filtering modeling graph model based on general financial theme

表1 參數(shù)說明Table 1 Parameter description

由于共軛Dirichlet多項式的設計可以有效地邊緣化多項式分布φ、θ和π。因此，只需要采樣兩個主題分布z′和z。其中功能財經(jīng)主題z′t和z t在給定所有其他變量的情況下交替采樣，直到收斂。

與混合一元模型及LDA模型的推導過程類似，K個功能財經(jīng)主題上z′的條件后驗概率如式（3）所示：

其中，表示分配給功能財經(jīng)主題k的文本數(shù)量；N v和N kv分別表示詞項類型v的數(shù)量和分配給財經(jīng)主題k的單詞總數(shù)；N dv表示財經(jīng)文本d中出現(xiàn)的單詞類型v的數(shù)量；是在財經(jīng)文本d中分配給所選功能財經(jīng)主題的標記詞項的數(shù)量；上標“-d”表示除去文本d后的財經(jīng)文本數(shù)量。

此外，z在所選功能財經(jīng)主題z′和通用財經(jīng)主題C上的條件后驗概率如式（4）所示：

其中，N dk表示在文本d中分配給財經(jīng)主題k的標記詞項的數(shù)量；上標“-dn”表示從位置(d,n)除去zdn后的財經(jīng)文本數(shù)量。本文提出的文本噪聲過濾模型的Gibbs采樣推斷算法。

2.2.2 財經(jīng)主題遺傳因子

由于當前時間片內(nèi)的語料信息中攜帶了歷史信息，即相鄰時間片的語料間存在繼承關系，本文將這種關系定義為“財經(jīng)主題遺傳”。本文在傳統(tǒng)的時間窗口法的基礎上，根據(jù)“財經(jīng)主題遺傳”的思想，在財經(jīng)主題建模過程中基于以下方法來維持財經(jīng)主題的遺傳性：將時間片t-1的詞項分布后驗概率乘以財經(jīng)主題遺傳因子g的結果作為時間片t的詞項分布先驗概率。

由于時間片t內(nèi)的語料信息中包含有時間片t至時間片t-1的信息，因此計算時間片t+1的主題分布時僅考慮時間片t的計算結果即可。一般而言，g不同取值會對實驗結果產(chǎn)生不同的影響，過小的g值將導致前后財經(jīng)文本的主題無法對齊，過大的g值則容易造成非相關財經(jīng)主題因為共詞的出現(xiàn)被強制對齊的問題。為了便于模型的高效實現(xiàn)，本文根據(jù)簡化遺傳度處理方式，財經(jīng)主題遺傳因子g的計算如式（5）所示：

其中，Token t-1表示t-1時間片內(nèi)的詞項數(shù)目，λ為自定義參數(shù)。結合權重λ值及相鄰時間片的詞項數(shù)目進行變換，類似于對文本語料進行平滑處理，有助于解決對文本語料進行切分導致財經(jīng)主題連續(xù)性被破壞的問題。

2.2.3 SGC-LDA財經(jīng)文本主題建模

基于SGC-LDA模型的財經(jīng)文本主題建模具體做法是，首先采用等時間片對財經(jīng)文本進行切分，當該切分的時間片下文本數(shù)量達不到既定的閾值時，自動合并下一個時間片的文本作為當前窗口的文本；然后，將前一時間片t-1輸出的財經(jīng)主題-詞項分布的后驗概率φt-1乘以遺傳因子g得到的φt=gφt-1，其結果作為當前時間片t內(nèi)財經(jīng)主題-詞項分布的先驗概率；同時，定義通用財經(jīng)主題πt，通過在每個時間片中將噪聲詞的生成過程添加到模型結構中來解決噪聲問題；最后構建財經(jīng)主題模型，SGC-LDA財經(jīng)文本主題具體建模過程如下所示：

首先將財經(jīng)文本按照設定好的時間段劃分為t個時間片文本集，每一個時間片文本集內(nèi)對應一個φt和θt。

（1）抽取時間段t。

（2）如果是第一個時間片t=1，則θt=Dirichlet(αt)。

（3）否則，計算計算φt=gφt-1。

（4）對于給定文本d，采樣一個功能財經(jīng)主題分布θt=Dirichlet(αt)，抽取財經(jīng)主題概率分布θt:p(θt|αt)。

①對于文本d中的每個詞項，選擇一個財經(jīng)主題z t:p(z t|θt)，生成每一個詞項w t:p(w t|z t,βt)。

②對于文本d：

采樣一個功能財經(jīng)主題z′t～Multinimial(φtn)。

采樣一個z′t及所有通用財經(jīng)主題的混合分布πt～Dirichlet(ηt)。

對于Nt個詞中的每個詞Wtn，采樣一個財經(jīng)主題Ztn～Multinimial(πt)，采樣一個詞項Wtn～Multinimial(φtn)。

對應的圖模型如圖4所示。

圖4 SGC-LDA財經(jīng)文本主題建模圖模型Fig.4 SGC-LDA financial text topic modeling graph model

為了更好地描述財經(jīng)文本的主題，本文基于文本對于財經(jīng)主題的貢獻度選出代表性文本，對于指定財經(jīng)主題內(nèi)容的覆蓋度即貢獻度較高的文本將被選為該財經(jīng)主題的主題文本，從而對不同財經(jīng)主題進行擴充。主題文本的選擇按照文本中包含指定財經(jīng)主題的關鍵字比例來進行，計算方法如式（6）所示：

其中，topic是財經(jīng)主題總數(shù)，n代表文本M的中包含主題t k的關鍵詞個數(shù)，N代表文本M的詞項總數(shù)量，如果文本中N＞5，則該文本為候選主題文本。按照內(nèi)容覆蓋度對計算結果進行排序，為所有的財經(jīng)主題選擇主題文本。

3 實驗及結果分析

綜合Alexa排名[20]、百度權重、PageRank值（PR值）[21]等評估標準，本文選取新浪財經(jīng)、鳳凰財經(jīng)和中國經(jīng)濟網(wǎng)這三個財經(jīng)新聞網(wǎng)站平臺，為本文實驗提供財經(jīng)文本數(shù)據(jù)。本文通過網(wǎng)絡爬蟲技術，從上述平臺的財經(jīng)新聞模塊爬取了自2019年1月1日至2019年12月31日共一年的財經(jīng)文本，總計10 950篇。

3.1 對比基準模型及模型評價指標

（1）對比基準模型

為了驗證本文提出的SGC-LDA模型的泛化能力、模型在保持財經(jīng)主題的連續(xù)性等方面的優(yōu)勢，本文選取傳統(tǒng)LDA模型作為本文的對照模型。

（2）模型評價指標

衡量模型的困惑度（Perplexity）是當前用于衡量主題模型泛化能力的常用方法，通過對比新模型與基準（Baseline）模型的困惑度，驗證新模型對于未觀測數(shù)據(jù)具備更好預測能力。困惑度的計算表示為式（7）：

其中，M代表測試文本集中文本的數(shù)量，N d代表文本d中詞語的數(shù)量，w d代表文本d中的詞語，p(w d)代表文本中詞語w d出現(xiàn)的概率。

3.2 財經(jīng)文本主題建模過程與結果分析

3.2.1 模型參數(shù)設定

（1）根據(jù)經(jīng)驗的參數(shù)取值

（2）文本語料的時間段劃分方法

為了研究不同的時間段劃分方法對模型性能產(chǎn)生的影響，本文分別選取了以2個月、3個月、4個月為一個時間片的不同劃分方法，然后均取第一個時間片，對比不同主題數(shù)取值下的模型困惑度值結果。從圖5可知，三種方式下的困惑度均隨著主題個數(shù)的增加而降低，其中按照2個月為一個時間片的劃分方式進行建模，其困惑度始終低于其他兩種，說明在該劃分方式下本文模型性能最優(yōu)。所以本文將實驗的財經(jīng)文本以每2個月劃分為一個時間片的方式進行財經(jīng)主題建模。

圖5 不同時間段劃分方式下的模型困惑度對比Fig.5 Comparison of model confusion degree under different time period division methods

（3）SGC-LDA模型在不同時間片內(nèi)的最佳主題數(shù)量

對于同一主題模型，主題數(shù)量K的不同取值會對建模效果產(chǎn)生不同的影響。為了獲得最佳建模效果，一般通過計算主題模型的困惑度來確定K的取值，主題模型對新樣本的分類效果和泛化能力同困惑度大小成負相關關系。當預測數(shù)據(jù)的不確定程度較高時，困惑度折線圖中曲線的拐點處對應最優(yōu)主題數(shù)取值點。實驗過程中選取不同的K值，觀察本文模型（時間片均為2個月）與傳統(tǒng)LDA模型的困惑度變化情況，結果如圖6所示。

圖6 LDA與SGC-LDA模型的困惑度對比Fig.6 Comparison of confusion degree between LDA and SGC-LDA models

從圖6中可以看出每個時間片中的主題模型以及傳統(tǒng)LDA模型下的困惑度指標雖然都隨著主題數(shù)的增加而降低，但是具體取值有所區(qū)別，其中以傳統(tǒng)LDA模型的困惑度最高，說明LDA模型性能表現(xiàn)最差。另外，各個模型的最佳主題取值也有所區(qū)別，分析得出，t1～t6時間片內(nèi)的財經(jīng)主題模型、LDA模型分別取6、6、6、5、5、6、6的時候，模型的性能相對較好，主題抽取結果較為理想。

3.2.2 財經(jīng)文本主題分析

針對所有實驗語料進行建模，得到財經(jīng)主題的詞語分布情況。對不同時間片內(nèi)的語料利用SGC-LDA模型、對所有語料利用LDA模型分別進行財經(jīng)主題建模，部分建模結果對比如表2所示。

為了更直觀地表示財經(jīng)主題模型的標簽和權重，本研究采用詞項概率分布進一步生成財經(jīng)主題模型的詞云圖，可視化SGC-LDA模型建模結果生成的詞云圖如圖7所示。

圖7 SGC-LDA財經(jīng)主題模型的詞云圖表示Fig 7 Word cloud diagram representation of SGC-LDA financial topic model

從表2可以看出傳統(tǒng)LDA模型輸出結果存在較多的噪聲數(shù)據(jù)，而本文提出的SGC-LDA模型在輸出結果主題詞幾乎不含噪聲詞，且從表2中t2到t3時間片和圖7中t1到t6時間段所展示的主題詞的變化，能夠反映出的財經(jīng)主題的連貫性十分明顯，體現(xiàn)出財經(jīng)主題的遺傳特性，綜上可以分析得出以下結論：

表2 SGC-LDA模型與傳統(tǒng)LDA模型的財經(jīng)主題詞項對比（示例）Table 2 Comparison of financial subject terms between SGC-LDA model and traditional LDA model（example）

（1）通用財經(jīng)主題在財經(jīng)主題建模去噪能力方面表現(xiàn)出一定的有效性。

財經(jīng)文本中經(jīng)常出現(xiàn)“本報訊”“責任編輯”和“本報記者”等詞項，通用財經(jīng)主題能夠有效過濾這些背景噪聲詞。因此，通用財經(jīng)主題在某種程度上成功地收集了干擾詞，有助于SGC-LDA模型發(fā)現(xiàn)更多一致的功能財經(jīng)主題。

（2）SGC-LDA模型在財經(jīng)文本主題建模方面表現(xiàn)出優(yōu)越的分類性能和主題連續(xù)性。

對表3進行分析發(fā)現(xiàn)，t2、t3時間片財經(jīng)主題模型下，主題1～6分別與投資理財、民生時事、商業(yè)動態(tài)、金融市場、宏觀經(jīng)濟、產(chǎn)業(yè)經(jīng)濟有關。由此可見基于SGCLDA模型對財經(jīng)文本進行主題建模，財經(jīng)主題分布的輸出結果中主題間重疊度低，指定財經(jīng)主題下的詞項能夠清晰準確描述該主題，且相鄰時間片之間的主題也具有較強的關聯(lián)性。而傳統(tǒng)LDA模型由于建模時間跨度大，包含語料信息過多，因此輸出的財經(jīng)主題包括一些背景噪音詞，如“億元”“記者”和“鳳凰網(wǎng)”等，模型分類效果較差。所以，相較于傳統(tǒng)LDA模型，本文提出的SGC-LDA模型具備優(yōu)越的分類性能和主題連續(xù)性。

（3）財經(jīng)文本主題主要由投資理財、民生時事、商業(yè)動態(tài)、金融市場、宏觀經(jīng)濟、產(chǎn)業(yè)經(jīng)濟六個主要部分組成。

①財經(jīng)主題普遍具有明顯的投資理財專業(yè)領域知識主題特征。財經(jīng)主題1中包含大量關于“基金”“風險”和“財富”等與投資理財領域知識相關的詞項。通過人工觀察相對應的新聞文本，發(fā)現(xiàn)該類新聞主要來自于平臺上的理財模塊，該板塊文章主要是針對投資理財?shù)膶I(yè)方法論、理財傳奇故事和理財產(chǎn)品等。

②財經(jīng)主題普遍具有社會熱點話題（包括民生時事、商業(yè)動態(tài)和金融市場）特征。如從時間維度上看，t1～t4時間片（2019年1月—2019年8月）財經(jīng)主題出現(xiàn)的“豬肉”“非洲豬瘟”“價格上漲”等詞項與“2019年非洲豬瘟疫情”相關。

③財經(jīng)主題普遍具有明顯的反映宏觀經(jīng)濟政策和產(chǎn)業(yè)經(jīng)濟狀況能力的特征。如t1時間片的“降息”、t2時間片的“降準”、t3時間片的“定向降準”、t4時間片的“穩(wěn)中有降”等，有效地反映了我國2019年央行定向降準降息，降低企業(yè)融資成本，提高市場流動性，從而促進相關企業(yè)和產(chǎn)業(yè)發(fā)展的舉措。

（4）結合財經(jīng)主題特征詞和財經(jīng)文本對財經(jīng)主題的擴充，能夠更完整準確地描述其財經(jīng)主題。

為了提高建模結果的可讀性，通過本文模型得到財經(jīng)文本的不同主題的主題詞，根據(jù)前文進一步選擇具有代表性的財經(jīng)文本對每一主題進行擴充，利用主題詞和主題新聞完成所有語料的財經(jīng)主題描述。以表1中t3時間片財經(jīng)主題5為例，按照式（9）選出該主題對應的財經(jīng)文本，綜合分析新聞文本的語義內(nèi)容和選定的財經(jīng)主題特征詞，對其進行描述，結果為“央行定向下調(diào)中小銀行人民幣存款準備金率，旨在降低小微企業(yè)和民營企業(yè)的融資成本，深化金融供給側結構性改革，但此次降準不能被視為央行貨幣政策轉向寬松的信號，因為實際上市場感受到的是中性偏緊縮的貨幣政策”。結果證明，對財經(jīng)主題進行主題擴充和描述有效提高了建模結果的可理解性。

3.2.3 財經(jīng)主題動態(tài)性分析

根據(jù)“財經(jīng)主題遺傳”的思想，同一財經(jīng)主題往往出現(xiàn)在連續(xù)的時間片中，且主體強度上下波動，具有動態(tài)性的特征，因此對于財經(jīng)主題動態(tài)性的研究同樣具有重要意義。為了描述和分析財經(jīng)主題的動態(tài)性，本研究繪制了重要主題的主體強度及所有用戶的主題強度變化率圖，如圖8、圖9和圖10所示。

圖8 時間窗口內(nèi)財經(jīng)主題模型部分主題的演化趨勢Fig.8 Evolution trend of some themes of financialtheme model within time window

圖9 財經(jīng)主題的平均主題強度變化率分布Fig.9 Distribution of average topic intensity change rate of financial topics

圖10 財經(jīng)平均主題強度變化率分布Fig.10 Distribution of average topic intensity change rate in finance

通過綜合分析可以發(fā)現(xiàn)以下演化規(guī)律：

（1）財經(jīng)主題的主題內(nèi)容和強度均在事件序列上隨著財經(jīng)熱點話題的變化發(fā)生明顯變動。結合圖8，由于t1時間片中，發(fā)生了非洲豬瘟蔓延以及樂清女孩乘滴滴遇害案開庭等事件，“民生時事”主題的主題強度在t1時間片中達到峰值；隨著財經(jīng)領域新舊事件的迭代更新，t2時間片中“民生時事”主題的主題強度出現(xiàn)很大幅度的下降，投資理財方面的主題強度持續(xù)保持穩(wěn)定狀態(tài)，而金融市場的主題強度由于科創(chuàng)板的試點的逐步推行開始上升且保持在較高的概率；t3中，由于商業(yè)動態(tài)頻繁，如樂視網(wǎng)原董事長賈躍亭卸任、富貴鳥陷入債務危機等事件，商業(yè)動態(tài)主題中出現(xiàn)了相應的詞項，且主題強度持續(xù)升高，隨著熱度下降，其主題強度在后續(xù)時間片中開始逐漸下降，直到t6時間片中由于大眾對于雙十一、雙十二活動的關注，以及王思聰所投資的熊貓直播破產(chǎn)等事件，商業(yè)動態(tài)主題的主題強度達到峰值。

結合圖9財經(jīng)主題中財經(jīng)熱點主題的強度變化率發(fā)現(xiàn)，其主題強度的變化率平均保持在80%的水平，這說明財經(jīng)熱點主題普遍具有明顯的動態(tài)變化性。

（2）投資理財領域知識主題為財經(jīng)主題的重要組成部分，且主題內(nèi)容和強度均存在一定穩(wěn)定性。觀察圖7財經(jīng)主題的詞云圖可以發(fā)現(xiàn)，整個時間窗口中，關于“基金”“外匯”和“股票”等投資理財領域的詞項一直是財經(jīng)主題模型的核心特征，穩(wěn)定不變。結合圖8，“投資理財”主題在整個時間窗口中一直保持在較高的概率，波動幅度較小。結合圖9投資理財領域知識主題的強度變化率可知，財經(jīng)主題模型中投資理財領域知識主題強度的變化率相較于財經(jīng)熱點主題較小，維持在20%左右，進一步說明該類型主題變化具有一定的穩(wěn)定性。

（3）整體財經(jīng)主題呈現(xiàn)較為明顯的動態(tài)性。觀察圖10可知，在整個時間窗口中，絕大部分財經(jīng)文本的平均主題強度變化率維持在50%到80%之間，其中有9 373篇文本的財經(jīng)主題其平均主題強度變化率超過50%，占比達85.6%，這說明財經(jīng)主題整體上隨時間推移都呈現(xiàn)出較為明顯的波動。由于財經(jīng)主題與當前的經(jīng)濟政策、市場環(huán)境、社會時事、產(chǎn)業(yè)發(fā)展等的變化都有關系，尤其是經(jīng)濟政策的發(fā)布、推行與對財經(jīng)主題模型的主題強度變化率的影響最為突出，因此呈現(xiàn)出較為明顯的波動性。

4 結語

傳統(tǒng)財經(jīng)領域研究通常關注結構化數(shù)據(jù)，較少關注非結構化的財經(jīng)類文本數(shù)據(jù)，并且財經(jīng)文本數(shù)據(jù)蘊含的信息量巨大。因此對于財經(jīng)文本的分析，具有重要的意義。為了解決傳統(tǒng)方法存在的噪聲干擾、主題間斷等問題，并系統(tǒng)化研究財經(jīng)主題，本文在LDA模型的基礎上，提出一種SGC-LDA財經(jīng)主題模型，對財經(jīng)統(tǒng)計數(shù)據(jù)的相關研究提供有效補充。通過對真實財經(jīng)文本數(shù)據(jù)的實證分析，得到以下4點結論：（1）通用財經(jīng)主題在財經(jīng)主題建模去噪能力方面表現(xiàn)出一定的有效性；（2）SGC-LDA模型在財經(jīng)主題建模方面表現(xiàn)出優(yōu)越的分類性能和主題連續(xù)性；（3）財經(jīng)文本主題主要由投資理財、民生時事、商業(yè)動態(tài)、金融市場、宏觀經(jīng)濟、產(chǎn)業(yè)經(jīng)濟六個主要部分組成；（4）結合財經(jīng)主題特征詞和財經(jīng)文本對財經(jīng)主題的擴充，能夠更完整準確地描述其財經(jīng)主題。同時對于模型動態(tài)性進行分析，得出以下3點結論：（1）財經(jīng)主題的主題內(nèi)容和強度均在事件序列上隨著財經(jīng)熱點話題的變化發(fā)生明顯變動；（2）投資理財領域知識主題為財經(jīng)主題的重要組成部分，且主題內(nèi)容和強度均存在一定穩(wěn)定性；（3）整體財經(jīng)主題呈現(xiàn)較為明顯的動態(tài)性。

本文提出并構建了用于財經(jīng)主題建模的SGC-LDA模型，實證表明，該模型對財經(jīng)文本的主題識別、連續(xù)性以及噪聲過濾等方面表現(xiàn)出一定的有效性。本研究的不足之處有：（1）財經(jīng)文本的數(shù)據(jù)來源需要進一步豐富和拓展以及所構建的模型應進行經(jīng)濟領域應用方面的合理探索；（2）僅對財經(jīng)主題的識別方法和模型進行了研究和實證分析。