亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的主題詞提取算法

2023-04-29 21:59:28張書諳王曦代繼鵬隋毅孫仁誠

復(fù)雜系統(tǒng)與復(fù)雜性科學 2023年1期

關(guān)鍵詞：主題詞

張書諳王曦代繼鵬隋毅孫仁誠

摘要：針對主題詞提取中關(guān)鍵詞提取不準確以及僅考慮單一相關(guān)性的問題，提出一種將集成思想與復(fù)雜網(wǎng)絡(luò)相結(jié)合的主題詞提取算法。首先通過集成算法提取話題數(shù)據(jù)的關(guān)鍵詞，以提高關(guān)鍵詞提取的準確性，其次改進傳統(tǒng)詞共現(xiàn)公式計算關(guān)鍵詞的共現(xiàn)度，并建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，在網(wǎng)絡(luò)的基礎(chǔ)上得到最優(yōu)連通子圖，同時以節(jié)點度中心性為權(quán)重衡量關(guān)鍵詞重要性并從中映射出主題詞。最后，使用微博話題數(shù)據(jù)集進行實例驗證，證明該算法是有效的，并優(yōu)于傳統(tǒng)的詞共現(xiàn)算法，并在青島社區(qū)話題數(shù)據(jù)集中進行應(yīng)用。

關(guān)鍵詞：關(guān)鍵詞；共現(xiàn)度；共現(xiàn)網(wǎng)絡(luò); 主題詞; 微博話題

中圖分類號： TP391.1文獻標識碼： A

收稿日期：2021-09-08；修回日期：2021-11-30

基金項目：國家自然科學基金青年科學基金（41706198）

第一作者：張書諳（1998-），女，山東泰安人，碩士研究生，主要研究方向為自然語言處理，復(fù)雜網(wǎng)絡(luò)大數(shù)據(jù)分析。

通信作者：孫仁誠（1977-），男，山東青島人，博士，教授，主要研究方向為基于復(fù)雜網(wǎng)絡(luò)的大數(shù)據(jù)分析。

Subject Words Extraction Algorithm Based on Keyword Co-occurrence Network

ZHANG Shuan¹， WANG Xi²， DAI Jipeng¹， SUI Yi¹， SUN Rencheng¹

（1.School of Computer Science and Technology， QingDao University， Qingdao 266071， China;

2.Communication Dispatching Department， Qingdao Emergency Center，Qingdao 266035， China）

Abstract：Aiming at the problems of inaccurate keywords extraction and only considering single correlation in subject words extraction， a subject words extraction algorithm combining integration idea with complex network is proposed. Firstly， the keywords of topic data are extracted through the integration algorithm to improve the accuracy of keywords extraction. Secondly， the traditional word co-occurrence formula is improved to calculate the co-occurrence degree of keywords， and a keywords co-occurrence network is established. Based on the network， the optimal connected subgraph is obtained. At the same time， the importance of keywords is measured by taking the centrality of node degree as the weight， and the subject words are mapped. Finally， the micro-blog topic data set is used to verify the example， which proves that the algorithm is effective and better than the traditional word co-occurrence algorithm， and it is applied in the Qingdao community topic data set. Key words： keywords; co-occurrence degree; co-occurrence network; subject words; micro-blog topic

0 引言

用戶在社交平臺提交的數(shù)據(jù)稱為話題數(shù)據(jù)。主題詞是描述一類相似話題的詞或短語，一般認為3個主題詞可以表征一類話題。在熱點話題研究中，主題詞提取的質(zhì)量決定熱點話題發(fā)現(xiàn)的準確性^[1]。

經(jīng)典的主題詞提取方法主要針對長文本，大都采用基于統(tǒng)計的方法。如Witten^[2]提出KEA系統(tǒng)，基于詞語出現(xiàn)的位置及頻率等提取主題詞，適用性好，但易產(chǎn)生干擾詞。為此，趙英環(huán)^[3]提出主題詞迭代提取算法，提高了準確性。為了將詞語與文本信息結(jié)合，文獻[4-7]等基于語義理解提出相應(yīng)的主題詞提取算法。另外，復(fù)雜網(wǎng)絡(luò)理論也被用來發(fā)現(xiàn)文檔主題詞，文獻[8-9]等將語言與復(fù)雜網(wǎng)絡(luò)結(jié)合提取主題詞。

對于微博話題等短文本數(shù)據(jù)，由于字數(shù)有限，話題中主題詞出現(xiàn)的頻率低，因此基于統(tǒng)計的方法對短文本的處理不是很適用。為提高短文本中主題詞提取的質(zhì)量，葉成緒^[10]利用維基百科知識設(shè)計算法篩選主題詞并用于微博熱點話題發(fā)現(xiàn)。另外，一些學者對LDA算法^[11]進行改進，張晨逸等^[^12]針對微博數(shù)據(jù)建立MB-LDA模型，李繼云等^[13]提出CGRMB-LDA模型，馮勇等^[14]基于時間權(quán)重和影響因子提出TIF-LDA算法。另一方面，張孝飛等^[15]將語義概念和詞共現(xiàn)結(jié)合提取微博主題詞，考慮了相關(guān)詞對短文本主題詞提取的影響，但需要將短文本擴充為長文本。關(guān)鍵詞是表征話題數(shù)據(jù)的核心詞語，實際上，主題詞提取的關(guān)鍵在于話題中關(guān)鍵詞提取的準確性以及基于詞語相關(guān)性的主題詞發(fā)現(xiàn)。上述算法針對各自解決的問題僅考慮單一方面，為了更好地結(jié)合這兩方面，本文采用集成算法思想與復(fù)雜網(wǎng)絡(luò)理論完成主題詞的提取。

考慮到TextRank算法^[16]較好地考慮話題數(shù)據(jù)內(nèi)詞語關(guān)聯(lián)性，TF-IDF算法^[17-18]考慮了話題間詞語的相關(guān)性，因此本文集成多種算法的提取結(jié)果，提出話題關(guān)鍵詞提取算法；然后通過關(guān)鍵詞共現(xiàn)關(guān)系構(gòu)建話題的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，最終在網(wǎng)絡(luò)中映射出代表某類話題的主題詞。

1 符號描述

在表1中給出本文使用的主要符號及其說明。

本文涉及到的部分術(shù)語定義如下：

定義1 話題集，由所有的話題數(shù)據(jù)組成，記為T；T中每一句話稱為一個話題t_i，其中i=1，2，3…|T|，|T|為話題集中的話題個數(shù)。

定義2 關(guān)鍵詞集，對t_i∈T，可以提取出多個關(guān)鍵詞表征該話題，稱為t_i的關(guān)鍵詞集合，記為K_i；在T中提取出的所有關(guān)鍵詞稱為T的關(guān)鍵詞集，記為K，K=K₁∪K₂∪K₃…∪K_i，其中i=1，2，3…|T|。

定義3 共現(xiàn)次數(shù)，若關(guān)鍵詞k_i，k_j出現(xiàn)在同一t_i中，就說k_i，k_j共現(xiàn)，關(guān)鍵詞共現(xiàn)在某種程度上反映了關(guān)鍵詞之間的上下文語義關(guān)聯(lián)。本文用f表示兩個關(guān)鍵詞共現(xiàn)的次數(shù)。

定義4 關(guān)鍵詞共現(xiàn)網(wǎng)，記為KeyNet=〈K，E，W〉。K={k₁，k₂，…，k_n}是網(wǎng)絡(luò)中節(jié)點的集合，由關(guān)鍵詞組成；E={e|e=〈k_i，k_j〉，k_i，k_j∈K}是邊的集合，為關(guān)鍵詞節(jié)點之間的共現(xiàn)無向邊；W表示各邊的權(quán)重，若e=〈k_i，k_j〉∈E，那么0kik_j<1，若e=〈k_i，k_j〉E，那么W_kik_j=0。

定義5 話題簇，表達同一類主題的話題稱為話題簇，可以從一類話題簇中映射出一個或多個關(guān)鍵詞表征該話題簇，這類關(guān)鍵詞叫做主題詞。

定義6 主題詞集，所有話題簇的主題詞組成主題詞集，記為D。D=D₁∪D₂∪D₃…∪D_i，i表示T被分為i類話題簇，D_i={d₁，d₂，…，d_j}表示在第i類話題中提取出的主題詞集合，j表示每個話題簇中提取的主題詞個數(shù)為j個。當j=1時，D={d₁，d₂，…，d_i}。

定義7 度中心性，指無向網(wǎng)絡(luò)中當前節(jié)點與鄰居節(jié)點直接連邊數(shù)量的總和，反映節(jié)點在網(wǎng)絡(luò)中的重要程度^[19]。在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中，Z值越大節(jié)點熱度越高，越能代表話題簇。Z_i計算如式（1）中所示：

其中，N為節(jié)點總數(shù)，z_ij為節(jié)點i和節(jié)點j之間是否存在連邊，如果連邊，則z_ij=1，否則z_ij=0。

根據(jù)上述定義，給出本文的主題詞提取算法的符號描述：{D₁，D₂，…，D_i}=FUN（T），i表示在所有話題數(shù)據(jù)T中可以得到i個話題簇。

2 基于關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的主題詞提取算法

該算法基于集成算法和改進的詞共現(xiàn)公式提取主題詞，既可以提高關(guān)鍵詞提取的準確性，又保留了詞與詞之間的共現(xiàn)關(guān)系，同時提取出的主題詞具有更強的主題表現(xiàn)力。算法大致分為三步：1）將關(guān)鍵詞提取算法集成產(chǎn)生K；2）計算關(guān)鍵詞之間的共現(xiàn)關(guān)系建立KeyNet；3）調(diào)整閾值產(chǎn)生連通子圖并映射出主題詞。

2.1 關(guān)鍵詞提取

關(guān)鍵詞是主題詞提取的關(guān)鍵。目前較經(jīng)典的關(guān)鍵詞提取算法有TF-IDF算法、TextRank算法和哈工大的LTP關(guān)鍵詞提取技術(shù)，它們各有優(yōu)缺點。TF-IDF算法易于理解和實現(xiàn)，考慮整體語境，但它僅以詞頻衡量詞語的準確性，使得頻率低的特征詞不能被識別；TextRank算法可以有效地查詢節(jié)點之間的相關(guān)性，考慮話題內(nèi)部詞語的相似關(guān)系，但沒有考慮上下文信息；LTP可以自動分析語句中詞語的依存關(guān)系，提取出具有關(guān)聯(lián)關(guān)系的關(guān)鍵詞，但在分詞中存在誤差，產(chǎn)生一些錯誤的關(guān)聯(lián)關(guān)系。

基于此，本文利用TextRank算法和LTP提取話題中的語義關(guān)系，如相似和依存關(guān)系，TF-IDF算法提取詞頻關(guān)系，對兩種算法補充，避免使用單一算法產(chǎn)生的不準確問題。同時使用百度自然語言處理工具（LAC）進行分詞監(jiān)督，減少誤差，并將命名實體識別出來存入停詞表P中，得到t_i的候選關(guān)鍵詞集K′_i。最終將3種算法提取的關(guān)鍵詞集按一定比例集成得到t_i的關(guān)鍵詞集合K_i。集成操作H如公式（2）中定義。

算法1 Key_Extract

輸入：話題集合T，權(quán)重參數(shù)a，b，c

輸出：關(guān)鍵詞集K

1）對每個話題t_i分詞，使用LAC工具進行分詞監(jiān)督；2）分詞后的詞語作為候選關(guān)鍵詞，加入候選關(guān)鍵詞集K_i'中；3）對K_i'執(zhí)行TF-IDF算法，得到關(guān)鍵詞集KI_i；4）對K_i'執(zhí)行TestRank算法，得到關(guān)鍵詞集KR_i；5）對K_i'執(zhí)行LTP技術(shù)，得到關(guān)鍵詞集KL_i；6）執(zhí)行集成操作H，將KI_i、KR_i、KL_i按照權(quán)重為a：b：c的比例集成得到K_i；7）將每個話題t_i的關(guān)鍵詞集合K_i合并到K中；8）return K。

2.2 建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

將詞語映射到復(fù)雜網(wǎng)絡(luò)，發(fā)現(xiàn)詞和詞之間的聯(lián)系符合自然語言學特性，可以更好為文本分析提供幫助。另外，關(guān)鍵詞共現(xiàn)在某種程度上可以被認為代表一個相關(guān)主題，屬于一個話題簇。在此基礎(chǔ)上，將關(guān)鍵詞按照共現(xiàn)關(guān)系連接成網(wǎng)，建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，網(wǎng)絡(luò)模型如圖1所示。

共現(xiàn)關(guān)系由共現(xiàn)度體現(xiàn)，它用來描述k_i，k_j共現(xiàn)的頻率。頻率越高，關(guān)鍵詞之間聯(lián)系越緊密。節(jié)點k_i相對于節(jié)點k_j的相對共現(xiàn)度R（k_i，k_j）如式（3）中所示。

其中，f（k_i，k_j）為關(guān)鍵詞k_i，k_j共現(xiàn)的次數(shù)，f（k_j）為k_j出現(xiàn)的總次數(shù)。

若k_i，k_j均是一個話題的特征詞，但同時出現(xiàn)次數(shù)過少，那么根據(jù)R計算出的值會很小，連邊時容易被忽略。針對話題內(nèi)容簡短，特征數(shù)量少的問題，本文對R進行改進得到共現(xiàn)度計算公式，如式（4）所示。

其中，C（k_i，k_j）為關(guān)鍵詞k_i，k_j的共現(xiàn)度，f（k_i）為k_i出現(xiàn)的總次數(shù)。

式（4）中，C（k_i，k_j）的結(jié)果比R相對較大一些，更可能產(chǎn)生連邊。其次，R中R（k_i，k_j）一般不等于R（k_j，k_i），最終結(jié)果不是一個確定的數(shù)，而在本文的公式中，共現(xiàn)度是一個確定值。KeyNet建立算法如下：

算法2 KeyNet_Establish

輸入：關(guān)鍵詞集K，初始連邊閾值p

輸出：關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)KeyNet

1）對K中的關(guān)鍵詞k_i，兩兩計算共現(xiàn)度W_kik_j=C（k_i，k_j）；2）判斷共現(xiàn)度W_kik_j是否大于初始閾值p；3）若W_kik_j大于p，則關(guān)鍵詞k_i、k_j之間連邊，連邊權(quán)重為W_kik_j，且e=i，k_j>∈E；4）導入點邊文件，通過加載運算，建立KeyNet；5）return KeyNet。

2.3 主題詞提取算法

KeyNet包含多個連通子圖，連通子圖之間是獨立的，通過調(diào)整連邊閾值可以使劃分的連通子圖效果達到最優(yōu)。觀察K可以發(fā)現(xiàn)，同一類話題中關(guān)鍵詞成對出現(xiàn)的概率較大，表達的主題相關(guān)，共現(xiàn)度更高。這說明連通子圖內(nèi)部話題之間是有關(guān)聯(lián)的，每個連通子圖代表一個話題簇。連通子圖模型如圖2所示。

定義C表示節(jié)點在KeyNet中的重要程度，C為與當前節(jié)點相連的所有節(jié)點的共現(xiàn)度之和。若節(jié)點i與節(jié)點j和k都有連邊，則C_i=C（k_i，k_j）+C（k_i，k_k）。在連通子圖內(nèi)部，節(jié)點的C值越高，越能代表該話題簇。基于此，首先計算連通子圖中節(jié)點的度中心性，并以此為權(quán)重與C值相乘，得到節(jié)點的加權(quán)C值，然后進行排序，選出排名靠前的節(jié)點所代表的關(guān)鍵詞作為該話題簇的主題詞。在圖2中，不同的橢圓框表示產(chǎn)生不同的連通子圖，節(jié)點的大小表示該節(jié)點C值的大小，節(jié)點越大，表示該節(jié)點C值越大，更容易作為該話題簇的主題詞提取出來。主題詞提取算法如下：

算法3 D_Extract

輸入：關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)KeyNet，每個話題簇中主題詞個數(shù)h

輸出：主題詞集合D

1）修改KeyNet網(wǎng)絡(luò)的連邊閾值，得到最優(yōu)連通子圖集合N；2）統(tǒng)計連通子圖個數(shù)n=N，以此作為話題簇的數(shù)量；3）對于每個連通子圖，計算每個節(jié)點的度中心性Z_i和重要程度C_i；4）將Z_i與C_i相乘得到每個節(jié)點的加權(quán)C值；5）按照加權(quán)C值的大小對每個連通子圖中節(jié)點的重要性從大到小排序；6）在排序后的每個連通子圖中抽取前h個關(guān)鍵詞作為該話題簇的主題詞集D_i；7）將每個話題簇的最終主題詞合并，得到整個話題集的主題詞集D={D₁，D₂，…，D_n}；8）return D。

3 實驗

為驗證算法有效性，設(shè)置以下實驗。首先使用微博話題數(shù)據(jù)集驗證算法的有效性，然后在青島社區(qū)話題數(shù)據(jù)集上進行實例應(yīng)用。實驗均使用Anaconda3和Pycharm進行開發(fā)，所用編程語言為Python。話題數(shù)據(jù)一般都帶有Emoji表情、顏文字、特殊字符、網(wǎng)址等無關(guān)信息，這些信息沒有實際意義，并且可能導致分詞錯誤。因此，使用規(guī)則過濾庫對話題數(shù)據(jù)進行預(yù)處理，保證實驗順利進行。

3.1 算法有效性驗證

3.1.1 數(shù)據(jù)集及實驗介紹

因微博數(shù)據(jù)帶有分類標簽，易對實驗結(jié)果進行判斷，所以使用它驗證算法的有效性。該數(shù)據(jù)集囊括了12個主題的微博數(shù)據(jù)，包括用戶發(fā)起的話題信息、轉(zhuǎn)發(fā)信息和評論信息等。共進行4次實驗，每次實驗隨機選取10個主題，在每個主題中選取100條話題數(shù)據(jù)，每次共1 000條數(shù)據(jù)。

在KeyNet中通過調(diào)整閾值產(chǎn)生最優(yōu)的連通子圖，在產(chǎn)生的所有連通子圖中得到最終的10個話題簇，并選擇C值最大的主題詞代表該話題簇，記錄實驗結(jié)果，將選出的主題詞與標簽詞語進行比較。為了科學地評價算法的效果，使用查準率P作為實驗的衡量指標，計算公式如式（5）所示。

其中，TP為提取的與原標簽一致的詞語，F(xiàn)P為提取的與原標簽不一致的詞語。

3.1.2 集成比例與閾值確定

為確定共現(xiàn)度閾值，分別使用0.25，0.3，0.35，0.4，0.45，0.5，0.55，0.6進行實驗。同時，為了確定集成比例對實驗結(jié)果的影響，使用TF-IDT： TextRank： LTP為1∶1∶2，1∶2∶1，2∶1∶1以及1∶1∶1進行實驗，其中1∶1∶2表示在集成過程中LTP方法的影響較大。在閾值與集成比例的不同組合下，共進行4組實驗，計算P值，并取平均值，實驗結(jié)果如表2中所示。為便于分析，將實驗結(jié)果繪制成折線圖如圖3所示。

通過圖3，可以看出不同閾值下實驗結(jié)果的波動性很大，另外，不同的集成比例對結(jié)果也有影響，3種算法的集成比例分別為1∶1∶2時效果較好。在集成比例為1∶1∶2下，選擇0.5作為閾值所產(chǎn)生的效果最好，且查準率的平均值達到峰值0.83。經(jīng)多次實驗得到在微博數(shù)據(jù)集上較好閾值范圍為0.4到0.5之間。

3.1.3 對比實驗

使用閾值0.5，在相同數(shù)據(jù)條件下將TextRank算法、TF-IDF算法與本文算法進行對比，使用查準率驗證主題詞提取的準確性。4組實驗的結(jié)果及平均值如表3所示，任選一組實驗的提取效果進行展示如表4所示。

從表3中看到，TextRank算法平均P值為0.68，TF-IDF算法為0.75，而本文為0.83，這證明相同實驗數(shù)據(jù)環(huán)境下本文算法比傳統(tǒng)算法效果要好。在表4中，可以直觀地看出每種方法在話題簇中提取出的主題詞。由此得到，本文的方法對主題詞的提取是有效的，同時提高了話題簇劃分的準確性。

3.2 基于社區(qū)話題數(shù)據(jù)的實例應(yīng)用

現(xiàn)在越來越多的社區(qū)采用線上管理，用戶提交話題到后臺，由管理人員篩選并處理用戶關(guān)心的事件。借助本文的方法可以幫助管理人員將話題歸類并得到代表一類話題的主題詞，然后根據(jù)主題詞對用戶亟待解決的問題進行大致了解。以便管理人員后期選擇用戶所關(guān)注的熱點話題，更好地解決社區(qū)事務(wù)。

在青島市部分社區(qū)話題數(shù)據(jù)集上進行應(yīng)用，尋找青島市民所關(guān)心的話題主題，數(shù)據(jù)集的時間范圍是2019年12月到2020年7月。從數(shù)據(jù)集中隨機抽取2 000條數(shù)據(jù)，建立其關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)如圖4所示，該無向網(wǎng)絡(luò)的節(jié)點數(shù)為1 526，邊數(shù)為4 986條。

由于閾值對本文算法的結(jié)果影響較大，因此要首先確定當前數(shù)據(jù)的共現(xiàn)度閾值。在當前數(shù)據(jù)集上進行多次實驗并調(diào)整閾值，得到當共現(xiàn)度為0.45時，話題簇能被很好地區(qū)分開來。選取最終10個話題簇并進展示，如圖5所示，每個話題簇提取的主題詞個數(shù)為5，選出的主題詞集以及它們的C值如下所示。

1）（′疫情′， 6.56），（′義務(wù)′， 1.93），（′力度′， 1.58），（′巡邏′， 1.57），（′汗水′， 1.56）；

2）（′志愿者′， 5.54），（′防疫′， 1.46），（′修補′， 1.43），（′馬路′， 1.35），（′報名′， 1.12）；

3）（′垃圾′， 4.83），（′打掃′， 1.45），（′清除′， 0.77），（′生活′， 0.77），（′管理′， 0.56）；

4）（′清理′， 3.48），（′居民′， 2.36），（′擾民′， 2.09），（′雜物′， 1.89），（′東頭′， 1.56）； 5）（′老人′， 2.88），（′地址′， 2. 60），（′請問′， 2.53），（′公攤′， 1.77），（′復(fù)工′， 1.16）；

6）（′垃圾桶′， 2.29），（′推到′， 1.21），（′旁邊′， 1.15），（′外溢′， 1.05），（′邊上′， 1.04）； 7）（′消毒′， 2.01），（′解除′， 1.45），（′辦公室′， 1.20），（′通知′， 1.17），（′私家車′， 1.03）；

8）（′口罩′， 1.83），（′居家′， 1.53），（′捐贈′， 1.18），（′防御′， 1.14），（′運動′， 1.09）；

9）（′水果′， 1.56），（′廣告′， 1.29），（′有人′， 1.06），（′游客′， 1.05），（′擺攤′， 0.56）；

10）（′日?！?， 1.55），（′通行證′， 1.08），（′假期′， 1.08），（′嬰兒′， 1.07），（′防護′， 1.07）。

如果在每個話題簇的主題集中選擇C值最大的1個作為最終的主題詞，根據(jù)本文所做的實驗結(jié)果可以看出，青島市民所關(guān)心的話題為疫情、志愿者、垃圾、清理、老人、垃圾桶、消毒、口罩、水果、日常等。

4 結(jié)論

本文提出了一種基于關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的主題詞提取算法，不僅可以考慮詞語之間的相關(guān)性，準確率也得到了提升。首先通過集成算法提取關(guān)鍵詞，并對共現(xiàn)度公式進行改進計算關(guān)鍵詞之間的共現(xiàn)度，以此為權(quán)重建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)，在一定的集成比例下，找出產(chǎn)生連通子圖的最優(yōu)網(wǎng)絡(luò)狀態(tài)，并以度中心性為權(quán)重計算節(jié)點的C值，以此為根據(jù)對關(guān)鍵詞進行排序，選出前k個關(guān)鍵詞作為該話題簇的主題詞。實驗表明，該主題詞提取算法是有效的，并優(yōu)于傳統(tǒng)的主題詞提取算法。在該方法中，對沒有標簽的數(shù)據(jù)集選擇閾值進行最優(yōu)連通子圖判斷時，需要通過人工識別的方法對話題數(shù)據(jù)進行大致分類，然后判斷效果。在后面的研究中，希望找到一種能自動對話題數(shù)據(jù)識別分類的方法，并將該方法用到熱點話題的發(fā)現(xiàn)研究中去。

參考文獻：

[1]程肖. 網(wǎng)絡(luò)輿情熱點主題詞提取研究[D]. 杭州：杭州電子科技大學，2010. CHENG X. Research on extraction of hot topic words of network public opinion[D]. Hangzhou： Hangzhou Dianzi University： 2010.

[2]WITTEN I H， PAYNTER G W， FRANK E， et al. KEA： practical automatic keyphrase extraction[C]// Proceedings of the 4th ACM Conference on Digital Libraries. New York ： ACM Press， 1999： 254-255.

[3]趙英環(huán)，郭貴鎖. 基于主題詞迭代提取的信息檢索算法[J]. 華南理工大學學報（自然科學版）， 2004， 32（S1）： 77-80. ZHAO Y H， GUO G S. Information retrieval algorithm based on subject word iterative extraction[J]. Journal of South China University of Technology （Natural Science）， 2004， 32（S1）： 77-80.

[4]唐培麗，王樹明，胡明. 基于語義的漢語文獻主題詞提取算法研究[J]. 吉林大學學報，2005， 23（5）： 535-540.

TANG P L， WANG S M， HU M. Research on semantic based Chinese literature subject word extraction algorithm[J]. Journal of Jilin University， 2005， 23（5）： 535-540.

[5]程濤，施水才，王霞，等. 基于同義詞詞林的中文文本主題詞提取[J]. 廣西師范大學學報（自然科學版）， 2007， 25（2）： 145-148. CHENG T， SHI S C， WANG X， et al. Extraction of Chinese text subject words based on synonym forest[J]. Journal of Guangxi Normal University （Natural Science）， 2007， 25（2）： 145-148.

[6]李芳芳，葛斌，毛星亮，等. 基于語義關(guān)聯(lián)的中文網(wǎng)頁主題詞提取方法研究[J]. 計算機應(yīng)用研究， 2011， 28（1）： 105-107. LI F F， GE B， MAO X L， et al. Research on extraction method of Chinese web page main inscription based on semantic Correlation[J]. Computer Application Research， 2011， 28（1）： 105-107.

[7]王立霞. 基于語義的中文文本關(guān)鍵詞提取算法[J]. 計算機工程， 2012， 38（1）： 1-4.

WANG L X. Semantic based keyword extraction algorithm for Chinese text[J]. Computer Engineering， 2012， 38（1）： 1-4.

[8]趙鵬，蔡慶生，王清毅.一種基于復(fù)雜網(wǎng)絡(luò)特征的中文文檔關(guān)鍵詞抽取算法[J]. 模式識別與人工智能，2007， 20（6）： 817-831.

ZHAO P， CAI Q S， WANG Q Y. A Chinese document keyword extraction algorithm based on complex network features[J]. Pattern recognition and artificial intelligence， 2007， 20（6）： 817-831.

[9]劉通. 基于復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取算法研究[J]. 計算機應(yīng)用研究， 2016， 33（2）： 365-369. LIU T. Research on text keyword extraction algorithm based on complex network[J]. Computer Application Research， 2016， 33（2）： 365-369.

[10]葉成緒，楊萍，劉少鵬. 基于主題詞的微博熱點話題發(fā)現(xiàn)[J]. 計算機應(yīng)用與軟件，2016， 33（2）： 46-50. YE C X， YANG P， LIU S P. Micro-blog hot topic discovery based on subject words[J]. Computer Applications and Software， 2016， 36（2）： 67-71.

[11]BLEI D， NG A， JORDAN M . Latent dirichlet allocation[J]. Journal of Machine Learning Research， 2003， 3（4/5）： 993-1022.

[12]張晨逸，孫建伶，丁軼群. 基于MB-LDA模型的微博主題挖掘[J]. 計算機研究與發(fā)展，2011， 48（10）： 1795-1802. ZHANG C Y， SUN J L， DING Y Q. Micro-blog topic mining based on MB-LDA model[J]. Computer Research And Development， 2011， 48（10）： 1795-1802.

[13]李繼云，黃昀，陳捷. CGRMB_LDA：面向隱式微博的主題挖掘[J]. 計算機應(yīng)用，2016， 36（S1）： 67-71. LI J Y， HUANG J， CHEN J. CGRMB_LDA： topic mining for implicit micro-blog[J]. Computer application， 2016， 36（S1）： 67-71.

[14]馮勇，屈渤浩，徐紅艷，等. 采用可變時間窗口的TIF-LDA微博主題模型[J].小型微型計算機系統(tǒng)，2018， 39（9）： 2067-2071. FENG Y， QU B H， XU H Y， et al. TIF-LDA micro-blog theme model with variable time window is adopted[J]. Small Microcomputer System， 2018， 39（9）： 2067-2071.

[15]張孝飛，陳航行. 基于語義概念和詞共現(xiàn)的微博主題詞提取研究[J]. 情報科學，2021， 39（1）： 142-147.

ZHANG X F， CHEN H X. Research on micro-blog subject word extraction based on semantic concept and word co-occurrence[J]. Information science， 2021， 39（1）： 142-147.

[16]MIHALCEA R， TARAU P. TextRank： bringing order into texts[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg ： ACL， 2004： 404-411.

[17]LI J Z， FAN Q N， ZHANG K. Keyword extraction based on tf/idf for Chinese news document[J]. Wuhan University Journal of Natural Sciences， 2007， 12（5）： 917-921.

[18]FAN H L， QIN Y B. Research on text classification based on improved TF-IDF algorithm[C]//2018 International Conferenceon Network， Communication， Computer Engineering（NCCE2018）. Chongqing： Atlantis Press， 2018： 516-521.

[19]覃悅. 基于中心性的算法在復(fù)雜網(wǎng)絡(luò)分析中的應(yīng)用及對比研究[D]. 天津：天津財經(jīng)大學， 2020. TAN Y. Application and comparative study of centrality based algorithms in complex network analysis[D]. Tianjin： Tianjin University of Finance and Economics， 2020.

（責任編輯李進）