摘 "要: 面對(duì)海量的網(wǎng)絡(luò)新聞信息,為了能更加準(zhǔn)確與全面地從中發(fā)現(xiàn)用戶感興趣的話題,提出一種基于事件關(guān)聯(lián)網(wǎng)絡(luò)的用戶興趣話題發(fā)現(xiàn)算法。該算法建立了代表事件之間關(guān)聯(lián)關(guān)系的事件關(guān)聯(lián)網(wǎng)絡(luò),基于該事件關(guān)聯(lián)網(wǎng)絡(luò),采用鏈接分析技術(shù)度量用戶對(duì)不同新聞事件感興趣的程度,從而采用針對(duì)新聞特定語(yǔ)義架構(gòu)的改進(jìn)Single?pass聚類算法發(fā)現(xiàn)用戶感興趣的話題。此外,采用Bootstrapping算法,實(shí)現(xiàn)對(duì)相關(guān)興趣領(lǐng)域詞匯的語(yǔ)義擴(kuò)展。實(shí)驗(yàn)表明,該算法能夠更加準(zhǔn)確而全面地獲取用戶感興趣的話題。
關(guān)鍵詞: 話題識(shí)別; 鏈接分析; 用戶興趣; Bootstrapping算法; 關(guān)聯(lián)網(wǎng)絡(luò)
中圖分類號(hào): TN711?34; TP391 " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " " " " "文章編號(hào): 1004?373X(2015)06?0007?06
Algorithm to find topics that users are interested based on network associated with events
WU Jisiguleng, LIU Xiao?ying, YAN Chu?ping
(No.15 Research Institute, China Electronics Technology Group Corporation, Beijing 100083, China)
Abstract:Being faced of massive Internet news information, to improve the accuracy of detecting the topics that the users are interested, a topic detection algorithm based on the network associated with the events is proposed "for users’ interest. The algorithm established an event?related network representative of relevance relationship among news events. The link analysis technique is used to measure the degree of user interest in the news, so as to identify the topics that the users are interested by using an improved Single?pass clustering algorithm based on news specific semantic structure. In addition, Bootstrapping algorithm is adopted to achieve the related interest words’ semantic extensions. The experiment result shows that the algorithm can more accurately and comprehensively get the topics that the users are interested.
Keywords: topic recognition; link analysis; user interest; Bootstrapping algorithm; associated network
0 "引 "言
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)信息量爆炸式增長(zhǎng),導(dǎo)致人們處理和使用這些龐大的信息變得越來(lái)越困難。面對(duì)網(wǎng)絡(luò)信息過(guò)載,如何快速準(zhǔn)確地獲取人們感興趣的新聞話題,并對(duì)這些新聞話題進(jìn)行有效地組織、處理和分析,是當(dāng)前信息處理領(lǐng)域研究的一個(gè)重點(diǎn),其研究成果具有重要的意義。
話題識(shí)別與跟蹤技術(shù)正是在這種情況下所產(chǎn)生。針對(duì)不同話題識(shí)別任務(wù)的特點(diǎn),新聞話題識(shí)別的研究可分為熱點(diǎn)話題識(shí)別[1?3]、敏感話題識(shí)別[4?5]、領(lǐng)域話題識(shí)別[6]和用戶興趣話題識(shí)別[7]四個(gè)方面。關(guān)于用戶興趣話題識(shí)別方面的研究相對(duì)較少,Kurtz等人所提出的系統(tǒng)[7],基于個(gè)人配置文件提取用戶興趣過(guò)濾新聞文本,從而采用改進(jìn)的話題聚類算法獲取用戶感興趣的話題。該算法在基于新聞文本自身所攜信息進(jìn)行過(guò)濾時(shí),易遺漏某些同樣需關(guān)注的相關(guān)話題。為解決該類問題需充分考慮事件關(guān)系,關(guān)于事件關(guān)系識(shí)別,楊雪蓉等人提出了一種基于核心詞和實(shí)體推理的事件關(guān)系識(shí)別方法[8]。該方法明顯優(yōu)于單基于事件語(yǔ)義的事件關(guān)系識(shí)別方法,但當(dāng)面對(duì)大量的網(wǎng)絡(luò)熱點(diǎn)新聞事件時(shí),該算法中事件線索集的構(gòu)建有限,因?yàn)閷?duì)部分事件無(wú)法構(gòu)建虛擬相關(guān)事件集合。為了有效提高大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)中用戶興趣話題識(shí)別的準(zhǔn)確率,避免對(duì)相關(guān)興趣新聞事件的遺漏,本文提出一種符合新聞特定語(yǔ)義結(jié)構(gòu)的事件多維關(guān)聯(lián)關(guān)系計(jì)算方法識(shí)別事件關(guān)系,從而構(gòu)建事件加權(quán)關(guān)聯(lián)網(wǎng)絡(luò)?;谠撌录P(guān)聯(lián)網(wǎng)絡(luò),采用連接分析技術(shù)綜合考慮各新聞事件之間的關(guān)聯(lián)關(guān)系,對(duì)新聞集按照用戶感興趣的程度進(jìn)行排序,獲取用戶感興趣的新聞事件,進(jìn)而通過(guò)改進(jìn)的single ?pass聚類算法獲取用戶感興趣的話題。此外,針對(duì)用戶興趣的動(dòng)態(tài)變化特性,本文只需用戶擇感興趣的興趣領(lǐng)域標(biāo)簽即可。實(shí)驗(yàn)表明,該算法能達(dá)到較高的準(zhǔn)確率,使人們能對(duì)感興趣的話題具有全面而準(zhǔn)確地認(rèn)識(shí)。
1 "算法提出
本文提出的基于事件關(guān)聯(lián)網(wǎng)絡(luò)的用戶興趣話題發(fā)現(xiàn)算法中引入了新聞事件興趣度值的概念,表示用戶想要關(guān)注某新聞事件的程度。該算法可分為以下四個(gè)步驟:第一,基于自主可擴(kuò)展的知識(shí)庫(kù),對(duì)不同興趣領(lǐng)域詞匯進(jìn)行擴(kuò)展;第二,構(gòu)建由新獲取到的新聞事件與用戶感興趣的歷史新聞事件組成的事件加權(quán)關(guān)聯(lián)網(wǎng)絡(luò);第三,基于所構(gòu)建的事件關(guān)聯(lián)網(wǎng)絡(luò),采用鏈接分析技術(shù),通過(guò)計(jì)算每個(gè)新聞事件的興趣度值獲取用戶感興趣的新聞集。最后,在所得用戶感興趣的新聞集上,基于新聞文本特有的語(yǔ)義框架,采用改進(jìn)的聚類算法獲取用戶感興趣的話題。
1.1 "構(gòu)建可擴(kuò)展領(lǐng)域知識(shí)庫(kù)
通常用戶所能提供的興趣詞數(shù)量較為有限,為能更好地把握用戶興趣需求,本文通過(guò)采用Bootstrapping半監(jiān)督機(jī)器學(xué)習(xí)算法[9]構(gòu)建可自主擴(kuò)展的知識(shí)庫(kù),將少量不同興趣領(lǐng)域詞集擴(kuò)展為能夠較全面代表用戶興趣需求的興趣詞集。關(guān)于知識(shí)庫(kù)的自主擴(kuò)展,人工選取新聞?wù)Z料中少量不同興趣領(lǐng)域的中心詞作為種子詞集,從大量的新聞?wù)Z料庫(kù)中提取有效詞作為待標(biāo)注詞集,自動(dòng)地進(jìn)行知識(shí)學(xué)習(xí),從而實(shí)現(xiàn)知識(shí)庫(kù)中不同興趣領(lǐng)域詞匯的擴(kuò)展。
共現(xiàn)關(guān)系與相似關(guān)系是建立可擴(kuò)展知識(shí)庫(kù)的基礎(chǔ),本文分別基于Wordnet與Google檢索計(jì)算詞之間的語(yǔ)義相似度值和共現(xiàn)關(guān)系值,將語(yǔ)義相似度值和共現(xiàn)關(guān)系值作為每輪新擴(kuò)展興趣詞的二維置信度。基于Bootstrapping算法,逐步對(duì)新獲取的新聞詞匯進(jìn)行標(biāo)注,實(shí)現(xiàn)知識(shí)庫(kù)中不同興趣領(lǐng)域的有效詞、相似詞對(duì)和共現(xiàn)詞對(duì)的自主擴(kuò)展。具體算法如下:
輸入:用戶提供的少量興趣詞集
輸出:基于知識(shí)庫(kù)擴(kuò)展后的能較全面代表用戶興趣的興趣詞集
(1) 將用戶提供的少量興趣詞賦予興趣度值x,初始賦值為1,作為初始種子詞集W;
(2) 從領(lǐng)域知識(shí)庫(kù)中獲取實(shí)詞,作為待標(biāo)注詞集U;
(3) 基于領(lǐng)域知識(shí)庫(kù),計(jì)算U中每個(gè)詞與W中詞的語(yǔ)義相似度值Si和共現(xiàn)度值Gi,分別作為二維置信度;
(4) 將置信度較高的前n個(gè)詞,作為新增種子詞集N,擴(kuò)展原始種子詞集為W+N;
(5) 對(duì)新增加的n個(gè)種子詞,基于置信度值和對(duì)應(yīng)的原始興趣種子詞,計(jì)算其興趣度值x;
(6) 重復(fù)第(3)~(5)步,直至符合算法結(jié)束條件,獲取最終的種子詞集FW;
該方法中用戶只需選擇感興趣的興趣領(lǐng)域標(biāo)簽即可,有效避免了用戶興趣的動(dòng)態(tài)變化特性所帶來(lái)用戶興趣判斷不準(zhǔn)確。隨著新輸入新聞?wù)Z料的增多,知識(shí)庫(kù)擴(kuò)展的效果將更加全面與準(zhǔn)確。
1.2 "構(gòu)建事件關(guān)聯(lián)網(wǎng)絡(luò)
大量的互聯(lián)網(wǎng)新聞數(shù)據(jù)中,每一篇新聞報(bào)道代表一個(gè)新聞事件。大量的事件之間存在著紛繁復(fù)雜的關(guān)聯(lián)關(guān)系。僅基于事件所攜主要信息計(jì)算事件的興趣度值,易忽略同樣需關(guān)注的相關(guān)事件。構(gòu)建事件關(guān)聯(lián)網(wǎng)絡(luò),綜合考慮事件間的關(guān)聯(lián)因素,有助于更加準(zhǔn)確和全面地獲取用戶感興趣的話題。
事件關(guān)聯(lián)網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)代表一個(gè)新聞事件,將事件興趣度值作為節(jié)點(diǎn)的權(quán)重;每個(gè)邊代表兩個(gè)事件之間的相關(guān)聯(lián)程度,將事件在時(shí)間、人物(或機(jī)構(gòu))、地點(diǎn)和行為四個(gè)維度上的相關(guān)程度作為邊的四維權(quán)重。采用命名實(shí)體識(shí)別技術(shù)獲取新聞中表示地點(diǎn)、人物(或機(jī)構(gòu))和行為的詞,基于新聞的實(shí)時(shí)性,視新聞報(bào)道的時(shí)間為事件的近似時(shí)間,計(jì)算事件在時(shí)間、人物(或機(jī)構(gòu))、地點(diǎn)和行為四個(gè)維度上的相關(guān)程度,即關(guān)聯(lián)網(wǎng)絡(luò)中邊的四維權(quán)重,從而綜合考慮事件之間在以上四個(gè)維度的關(guān)聯(lián)程度。事件各維關(guān)聯(lián)度的計(jì)算公式如下:
(1) 事件時(shí)間關(guān)聯(lián)度計(jì)算
如果兩個(gè)事件發(fā)生的時(shí)間差值在一定的范圍內(nèi),則認(rèn)為這兩個(gè)事件在時(shí)間上是關(guān)聯(lián)的。關(guān)聯(lián)的強(qiáng)度與發(fā)生時(shí)間的間隔有關(guān)。時(shí)間的間隔越短,關(guān)聯(lián)的強(qiáng)度越強(qiáng)。具體計(jì)算公式如式(1)所示:
[Reltime(T1,T2)=time(T1)-time(T2)maxTi,TjΔtime(Ti,Tj)] (1)
式中:[time(T1)],[time(T2)]分別表示事件[T1],[T2]的時(shí)間;[Ti]和[Tj]是任意相關(guān)事件。[Reltime(T1,T2)]的值在[0,1]。
(2) 事件人物(或機(jī)構(gòu))關(guān)聯(lián)度計(jì)算
如果兩個(gè)事件中涉及的人物(或機(jī)構(gòu))相同或具有較高的相似度或共現(xiàn)率,則認(rèn)為這兩個(gè)事件在人物(或機(jī)構(gòu))上是關(guān)聯(lián)的,關(guān)聯(lián)的強(qiáng)度以相同人物(或機(jī)構(gòu))為最強(qiáng)?;诟倪M(jìn)的詞集相似度計(jì)算公式,獲取事件的人物(或機(jī)構(gòu))關(guān)聯(lián)度值,具體計(jì)算公式如式(2)所示:
[Relobject(T1,T2)=object(T1)?object(T2)object(T1)?object(T2)] " "(2)
式中:[object(T1)]、[object(T2)]為事件中涉及的人名(或機(jī)構(gòu)名稱)的集合,集合中的元素可以重復(fù);[object(T1)?object(T2)]表示兩個(gè)事件中重復(fù)出現(xiàn)的人名(或機(jī)構(gòu)名稱)和具有較高相似度或共現(xiàn)率的人名數(shù)量;[object(T1)?object(T2)]表示兩個(gè)事件中總共涉及的人名數(shù)量,[Relobject(T1,T2)]的值在[0,1]。
(3) 事件地點(diǎn)關(guān)聯(lián)度計(jì)算
基于改進(jìn)的詞集相似度計(jì)算公式,獲取事件的地點(diǎn)關(guān)聯(lián)度值,具體計(jì)算公式如式(3)所示:
[Rellocate(T1,T2)=locate(T1)?locate(T2)locate(T1)?locate(T2)] " " (3)
式中:[locate(T1)],[locate(T2)]為事件中涉及的地名集合,集合中的元素可以重復(fù);[locate(T1)?locate(T2)]表示兩個(gè)話題中重復(fù)出現(xiàn)的地名和具有較高相似度或共現(xiàn)率的地名數(shù)量;[locate(T1)?locate(T2)]表示兩個(gè)事件中總共涉及的地名數(shù)量;[Rellocate(T1,T2)]的值在[0,1]。
(4) 事件行為關(guān)聯(lián)度計(jì)算
如果兩個(gè)事件中涉及的行為相同,或是相近的,則認(rèn)為這兩個(gè)事件在行為上是關(guān)聯(lián)的。關(guān)聯(lián)的強(qiáng)度以相同行為為最強(qiáng)。事件的行為關(guān)聯(lián)度值通過(guò)度量新聞事件中除表示時(shí)間、地點(diǎn)、人物以外的特征詞間的語(yǔ)義相似度得到。具體計(jì)算公式如式(4)所示:
[Relact(A1,A2)=12(w∈A1(maxSim(w,A2)·IDF(w))w∈A1IDF(w)+ " " " " " " " " " " " " " "w∈A2(maxSim(w,A1)·IDF(w))w∈A2IDF(w))] (4)
式中:A1和A2是表示話題行為的特征詞集合, [maxSim(w,A)*IDF(w)]是詞w與特征詞集A中語(yǔ)義最相近的詞的語(yǔ)義相似性;[IDF(w)]反映了詞包含信息量的多少。英國(guó)國(guó)家語(yǔ)料庫(kù)(British National Corpus)被用來(lái)統(tǒng)計(jì)[IDF(w)]。
1.3 "計(jì)算事件興趣度值
基于事件關(guān)聯(lián)網(wǎng)絡(luò)計(jì)算用戶對(duì)某一新聞感興趣的程度,所采取的鏈接分析從兩個(gè)方面展開:一是考慮當(dāng)前新獲取的事件間的關(guān)聯(lián)影響,如果某一事件與其他用戶感興趣的新聞事件關(guān)聯(lián)關(guān)系越緊密,則認(rèn)為該事件的事件興趣度值越高;二是考慮用戶感興趣的相似的歷史新聞事件對(duì)當(dāng)前事件的影響,認(rèn)為相似的事件通常具有相近的事件興趣度。另外,在每次對(duì)新獲取的事件興趣度度量時(shí),將興趣度較高的事件保留起來(lái)作為歷史新聞事件。
對(duì)新獲取的新聞事件,在事件關(guān)聯(lián)網(wǎng)絡(luò)中分別從時(shí)間、對(duì)象(人物或組織)、空間和行為這四個(gè)維度來(lái)分析事件的興趣度值。首先,對(duì)網(wǎng)絡(luò)中代表新獲取新聞事件的節(jié)點(diǎn)賦予表示其事件興趣度值的初始權(quán)重[SEvent(t)],具體計(jì)算公式如式(5)所示:
[SEvent(t)=a1?Stime(t)+a2?Sobject(t)+ " " " " " " " "a3?Sspace(t)+a4?Sact(t)] "(5)
式中:[a1],[a2],[a3],[a4]分別表示時(shí)間、人物(或機(jī)構(gòu))、地點(diǎn)和行為興趣度在事件興趣度計(jì)算所占權(quán)重;[Stime(t)],[Sobject(t)],[Sspace(t)]和[Sact(t)]分別表示通過(guò)與用戶擴(kuò)展興趣詞集的匹配,新聞事件特征詞集中興趣度值最高的表示時(shí)間、人物(或機(jī)構(gòu))、地點(diǎn)和行為的詞的興趣度值。
然后,為分析事件之間的關(guān)聯(lián)影響,在建立的事件關(guān)聯(lián)網(wǎng)絡(luò)上,采用隨機(jī)游走模型,分析事件的興趣度。關(guān)聯(lián)網(wǎng)絡(luò)中所有事件的集合表示為T={t1,t2,…,tn},ti是關(guān)聯(lián)圖中的事件。無(wú)向圖G=lt;v,ET,EO,ES,EAgt;是根據(jù)事件間的相關(guān)度建立的關(guān)聯(lián)圖,其中V是包含n個(gè)事件的節(jié)點(diǎn)的集合,等于T;ET、EO、ES、EA分別是新聞事件節(jié)點(diǎn)在時(shí)間、對(duì)象、空間、行為上的邊的集合,若兩節(jié)點(diǎn)間的相關(guān)度大于給定閾值,則有邊存在,它是v×v的一個(gè)子集。對(duì)新爬取到的新聞事件在多維度相關(guān)事件影響下的事件興趣度[SEvent(t)]的計(jì)算公式如式(6)所示:
式中:[a1]和[a5],[a2]和[a6],[a3]和[a7],[a4]和[a8]分別表示在時(shí)間、空間、對(duì)象和行為上的權(quán)重,取值范圍為(0,1],[i=18ai=1],且[0lt;ailt;1];[Stime(t)]和[Stime(w)],[Sobject(t)]和[Sobject(w)],[Sspace(t)]和[Sspace(w)],[Sact(t)]和[Sact(w)]分別是事件在時(shí)間、空間、對(duì)象(人物或組織)、行為這四個(gè)維度上的初始興趣度值。[Reltime(t,w)],[Relobject(t,w)],[Relspace(t,w)],[Relact(t,w)]反映了事件在時(shí)間、對(duì)象(人物或組織)、空間、和行為這四個(gè)維度上的相關(guān)聯(lián)程度。
基于式(6)計(jì)算事件興趣度值,將事件興趣度值大于特定閾值的新聞事件,歸為用戶感興趣的新聞事件集,獲取用戶感興趣的事件集。
1.4 "用戶興趣話題識(shí)別
針對(duì)網(wǎng)絡(luò)熱點(diǎn)新聞話題中難以區(qū)分一個(gè)話題下的多個(gè)子話題現(xiàn)象,本文采用一種基于LDA(Latent Dirichlet Allocation)模型的改進(jìn)的Single?Pass聚類算法對(duì)1.3節(jié)中所獲取的用戶感興趣的新聞進(jìn)行聚類,從而獲取用戶興趣話題。應(yīng)用LDA模型對(duì)新聞文檔進(jìn)行建模[10],使用Single?Pass聚類算法生成話題,并針對(duì)新聞文本特有的語(yǔ)義架構(gòu),在Single?Pass聚類算法中的文本相似性將同時(shí)利用向量相似性和命名實(shí)體相似性。
計(jì)算向量相似性,采用基于有效詞庫(kù)的方法,文本的向量維度一般能夠達(dá)到上萬(wàn)維,消耗了大量的計(jì)算資源。故采用LDA模型,LDA不僅能發(fā)掘文本中隱含的主題信息,同時(shí)能夠?qū)⑽谋颈硎境芍黝}分布的過(guò)程看作是將文本用低維度向量表示的過(guò)程,即LDA能夠很大程度上對(duì)高維文本向量進(jìn)行降維處理。LDA模型參數(shù)中K代表將在文本集合中設(shè)定的K個(gè)主題,將每一個(gè)文本向這K個(gè)主題上去映射,轉(zhuǎn)換成一個(gè)K維的向量,向量的每一個(gè)維度對(duì)應(yīng)一個(gè)主題。如此,原本基于有效詞庫(kù)用高維文本向量表示的文本即可用K維的低維文本向量進(jìn)行表示。從而,易通過(guò)計(jì)算兩個(gè)K維向量的夾角獲取這兩個(gè)文本之間的向量相似度。然而,僅僅考慮向量相似度是不夠的,新聞數(shù)據(jù)集中包含有很多十分相似的話題,比如“中日關(guān)系系列話題”,“世界杯比賽系列話題”,“自然災(zāi)害相關(guān)話題”等,這些話題從內(nèi)容相似性上來(lái)說(shuō)非常的相近,因此可以推斷出經(jīng)過(guò)LDA主題模型表示后,這些文本之間的區(qū)別體現(xiàn)得仍然不是特別全面。故,引入命名實(shí)體相似度的計(jì)算,通過(guò)得到兩個(gè)文本的命名實(shí)體集合,基于新聞特有的語(yǔ)義框架[11],分別基于1.2節(jié)中的式(1)~式(4)計(jì)算兩個(gè)新聞文本在時(shí)間、人名(或組織名)、地名和行為四個(gè)方面的相似度,實(shí)現(xiàn)對(duì)話體更加精準(zhǔn)劃分聚類。
2 "實(shí)驗(yàn)分析
2.1 "實(shí)驗(yàn)數(shù)據(jù)
通過(guò)網(wǎng)絡(luò)爬蟲收集自Retuers網(wǎng)站 (http://www.reuter s.com/)的英文數(shù)據(jù)集,作為實(shí)驗(yàn)所用的英文數(shù)據(jù)集,包含2014年1月—2014年6月的18 000篇新聞,如表1所示,涵蓋了國(guó)際、經(jīng)濟(jì)、政治、軍事、社會(huì)、科技等多個(gè)領(lǐng)域。
構(gòu)建可供用戶選擇的興趣分類標(biāo)簽集,分別有自然災(zāi)害、醫(yī)療疾病、食品安全、事故、領(lǐng)土紛爭(zhēng)、恐怖主義、信息安全、能源、政治和腐敗等標(biāo)簽。每個(gè)標(biāo)簽下人為標(biāo)注少量的領(lǐng)域中心詞作為初始種子詞。標(biāo)注人員根據(jù)興趣選取不同標(biāo)簽,如表2所示。每位標(biāo)注人員分別在6組數(shù)據(jù)集上標(biāo)注出其感興趣的話題,構(gòu)建標(biāo)準(zhǔn)的測(cè)試數(shù)據(jù)集。
表1 測(cè)試數(shù)據(jù)集
表2 用戶所選興趣標(biāo)簽
2.2 "評(píng)價(jià)標(biāo)準(zhǔn)
本實(shí)驗(yàn)中使用準(zhǔn)確率、召回率和F值對(duì)該算法進(jìn)行評(píng)估。準(zhǔn)確率表示一個(gè)被識(shí)別出的用戶感興趣的新聞話題是用戶感興趣的可能性。召回率表示識(shí)別出的用戶感興趣的新聞話題與用戶實(shí)際感興趣的話題的比率;F指標(biāo)是為了同時(shí)考察召回率和準(zhǔn)確率所提出,F(xiàn)指標(biāo)把準(zhǔn)確率和召回率統(tǒng)一到一個(gè)指標(biāo)。
基于該算法在6組數(shù)據(jù)集上依次進(jìn)行實(shí)驗(yàn)時(shí),將上一組數(shù)據(jù)中所得用戶感興趣的新聞事件作為下一組實(shí)驗(yàn)所構(gòu)建的事件關(guān)聯(lián)網(wǎng)絡(luò)中的歷史新聞事件。例如,在數(shù)據(jù)集3上進(jìn)行實(shí)驗(yàn),構(gòu)建事件關(guān)聯(lián)網(wǎng)絡(luò)時(shí),將數(shù)據(jù)集1,2上所得用戶感興趣的新聞事件作為該關(guān)聯(lián)網(wǎng)絡(luò)中的歷史新聞事件。
2.3 "實(shí)驗(yàn)結(jié)果分析
在已標(biāo)注的6組測(cè)試數(shù)據(jù)集上,經(jīng)過(guò)參數(shù)調(diào)試,取1.4節(jié)所提聚類算法中向量相似度閾值rv=0.375、命名實(shí)體相似度閾值rn=0.475和LDA模型中主題個(gè)數(shù)K=120時(shí),可獲取最優(yōu)話題聚類結(jié)果。同時(shí),對(duì)所構(gòu)建的事件關(guān)聯(lián)網(wǎng)絡(luò),將節(jié)點(diǎn)間在時(shí)間、人物、地點(diǎn)和行為4個(gè)緯度上的關(guān)聯(lián)度閾值Rt,Ro,Rl和Ra分別設(shè)置為0.325,0.15,0.15和0.275可得最佳新聞事件過(guò)濾效果。
基于以上參數(shù)設(shè)定,為驗(yàn)證該算法的有效性,采用用戶1提供的興趣標(biāo)簽,分別在6組數(shù)據(jù)集上依次進(jìn)行試驗(yàn)。將加入事件關(guān)聯(lián)網(wǎng)絡(luò)后的用戶興趣話題發(fā)現(xiàn)算法與加入事件關(guān)聯(lián)網(wǎng)絡(luò)前的用戶興趣話題發(fā)現(xiàn)算法進(jìn)行對(duì)比。加入事件關(guān)聯(lián)網(wǎng)絡(luò)前,基于式(5)計(jì)算每篇新聞興趣度值,并對(duì)每篇新聞的興趣度值做歸一化處理,設(shè)置興趣度閾值為0.5,大于該閾值的新聞歸為用戶感興趣的新聞。兩組實(shí)驗(yàn)結(jié)果分別如表4所示。
表4 實(shí)驗(yàn)結(jié)果
從以上實(shí)驗(yàn)結(jié)果可知,僅基于文本自身所攜關(guān)鍵詞集的用戶興趣話題發(fā)現(xiàn)算法準(zhǔn)確率并不是很高,并且隨著數(shù)據(jù)量的增加其準(zhǔn)確率會(huì)明顯下降。從6組測(cè)試數(shù)據(jù)上的兩組實(shí)驗(yàn)結(jié)果可知,引入事件關(guān)聯(lián)網(wǎng)絡(luò)后,用戶興趣話題識(shí)別的準(zhǔn)確率,召回率和F值都有明顯提高;并且,隨著數(shù)據(jù)量的增加,基于事件關(guān)聯(lián)網(wǎng)絡(luò)的用戶興趣話題發(fā)現(xiàn)算法能夠維持在一個(gè)較高的準(zhǔn)確率。通過(guò)對(duì)所識(shí)別出的用戶興趣話題內(nèi)容分析,可知該算法能對(duì)相關(guān)興趣話題有更加全面的識(shí)別,與更加精準(zhǔn)的劃分。表5為基于用戶1所選興趣標(biāo)簽,在數(shù)據(jù)集5,6上所獲取的部分興趣話題的代表性特征詞集實(shí)例。
表5 特征詞集
為進(jìn)一步驗(yàn)證關(guān)聯(lián)網(wǎng)絡(luò)中時(shí)間、人物、地點(diǎn)和行為每個(gè)維度對(duì)事件關(guān)聯(lián)關(guān)系的影響,在6組測(cè)試數(shù)據(jù)集上分別將式(6)中,表示時(shí)間、空間、對(duì)象和行為上的權(quán)重[a1]和[a5],[a2]和[a6],[a3]和[a7],[a4]和[a8]依次設(shè)為0,其他三維取均值,并與四個(gè)維度取均值時(shí)所獲實(shí)驗(yàn)效果進(jìn)行對(duì)比。實(shí)驗(yàn)所得用戶興趣話題識(shí)別的準(zhǔn)確率,召回率和F值如圖1~圖3所示,在充分考慮新聞事件在時(shí)間、人物、地點(diǎn)和行為上的關(guān)聯(lián)度時(shí)可達(dá)最優(yōu)的實(shí)驗(yàn)效果。
lt;E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\30T1.tifgt;
圖1 準(zhǔn)確率對(duì)比
lt;E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\30T2.tifgt;
圖2 召回率對(duì)比
lt;E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\30T3.tifgt;
圖3 F值對(duì)比
實(shí)際上,某些需關(guān)注新聞事件本身所包含的興趣關(guān)鍵詞并不多,主要原因?yàn)樵擃愂录赡苁怯赡撑d趣話題所衍生出的新話題,或是與興趣話題有著較強(qiáng)相互影響關(guān)系的其他話題,這時(shí)僅基于文本自身所攜興趣關(guān)鍵詞信息,將無(wú)法準(zhǔn)確判斷該類新聞事件。引入事件關(guān)聯(lián)網(wǎng)絡(luò)后,該類新聞事件因和某些具有較高興趣度值的事件有著較強(qiáng)的關(guān)聯(lián)關(guān)系,基于1.3節(jié)中的鏈接分析模型,計(jì)算新聞的興趣度值,獲取用戶感興趣的新聞事件集。從而基于改進(jìn)的聚類算法獲得用戶興趣話題。綜上,該算法能夠有效地適用于大數(shù)據(jù)量情況下的用戶興趣話題的識(shí)別,且取得了較為理想的實(shí)驗(yàn)結(jié)果。
3 "結(jié) "語(yǔ)
針對(duì)用戶興趣話題識(shí)別中話題識(shí)別不全與誤差較大的問題,本文所提基于事件關(guān)聯(lián)網(wǎng)絡(luò)的用戶興趣話題發(fā)現(xiàn)算法中充分考慮了海量信息中新聞事件之間的復(fù)雜關(guān)聯(lián)關(guān)系,將其與基于新聞文本自身所攜用戶興趣信息的文本過(guò)濾算法有機(jī)結(jié)合,獲取用戶感興趣的新聞事件集,有助于識(shí)別出同樣需關(guān)注的相關(guān)感興趣的話題。并提出了一種基于LDA模型的改進(jìn)的single?pass聚類算法最終獲取用戶感興趣的話題。實(shí)驗(yàn)結(jié)果表明,針對(duì)網(wǎng)絡(luò)中的大量新聞數(shù)據(jù),該算法只需用戶選擇感興趣的相關(guān)領(lǐng)域標(biāo)簽,并通過(guò)引入基于新聞文本特有語(yǔ)義框架的事件關(guān)聯(lián)網(wǎng)絡(luò),能夠較為準(zhǔn)確而全面地獲取用戶感興趣的話題。
參考文獻(xiàn)
[1] 張玥,張宏莉.基于關(guān)聯(lián)性的熱點(diǎn)話題識(shí)別[J].智能計(jì)算機(jī)與應(yīng)用,2014(3):55?59.
[2] MA Hui?fang. Hot topic extraction using time window [C]// Proceedings of 2011 International Conference on Machine Learning and Cybernetics (ICMLC). Guilin, China: [s.n.], 2011: 56?60.
[3] YOU Bo, "LIU Ming, "LIU Bing?quan, et al. Detecting hot topics in technology news streams [C]// Proceedings of 2012 International Conference on Machine Learning and Cybernetics (ICMLC). Xi’an, China: [s.n.], 2012: 1968?1974.
[4] ZHAO Li?yong, ZHAO Chong?chong,PANG Jing?qin, et al. "Sensitive topic detection model based on collaboration of dynamic case knowledge base [C]// Proceedings of 20th IEEE International Workshops on Enabling Technologies: Infrastructure for Collaborative Enterprises (WETICE). Paris: IEEE, 2011: 156?161.
[5] ZHAO Li?yong, LI Ai?min. A novel system for sensitive topic detection and alert assessment [C]// Proceedings of "2011Eighth International Conference on Fuzzy Systems and Knowledge Discovery (FSKD). Shanghai, China: [s.n.], 2011: 1751?1755.
[6] DAI Xiang?ying, CHEN Qing?cai, WANG Xiao?long,et al. Online topic detection and tracking of financial news based on hierarchical clustering [C]// Proceedings of International Conference on Machine Learning and Cybernetics (ICMLC). Qingdao,2010: 3341?3346.
[7] KURTZ A J, MOSTAFA J. Topic detection and interest tracking in a dynamic online news source [C]// Proceedings of Joint Conference on Digital Libraries. [S.l.]: [s.n.], 2003: 122?124.
[8] 楊雪蓉,洪宇,馬彬,等.基于核心詞和實(shí)體推理的事件關(guān)系識(shí)別方法[J].中文信息學(xué)報(bào),2014,28(2):100?108.
[9] VETTER T, JONES M J, POGGIO T. A bootstrapping algorithm for learning linear models of object classes [C]// Proceedings of 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Juan: IEEE, 1997: 40?46.
[10] 趙愛華,劉培玉,鄭燕.基于LDA的新聞話題子話題劃分方法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(4):732?737.
[11] 林雪能.基于語(yǔ)義框架的話題檢測(cè)與跟蹤技術(shù)研究[D].北京:北京郵電大學(xué),2012.