王 煜,徐建民
(河北大學(xué)網(wǎng)絡(luò)空間安全與計算機學(xué)院,河北保定 071000)
(?通信作者電子郵箱wy@mail.hbu.edu.cn)
網(wǎng)絡(luò)信息具有傳播速度快、影響范圍廣的特點。網(wǎng)絡(luò)熱點話題的識別與追蹤通過整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù)對互聯(lián)網(wǎng)海量信息進行處理,解決人們在海量信息中甄選話題的難題。熱點詞直接反映了熱點話題的中心思想。因此,熱點詞的識別對于熱點話題識別與追蹤非常重要。
識別熱點詞首先需要分詞系統(tǒng)可以將其識別為“詞”。在自然語言處理中,中文處理技術(shù)比西文處理技術(shù)復(fù)雜。其中一個重要原因就是中文只有句和段能通過明顯的分界符來簡單劃界,但作為句子基本單元的詞卻沒有形式上的分界符。因此分詞,也就是識別句中的詞,成為了中文信息處理的基礎(chǔ)。分詞技術(shù)需要將已經(jīng)存在的詞存于詞典中,分詞依賴于詞典。熱點話題往往涉及人名、機構(gòu)名、地名、產(chǎn)品名、商標名、簡稱、事件名稱等。這些熱點涉及的詞不斷增加,詞典中卻往往并無這些詞。分詞系統(tǒng)無法識別詞典中沒有的詞,但是這些詞對于新聞熱點發(fā)現(xiàn)又至關(guān)重要。因此,熱點新詞識別成為網(wǎng)絡(luò)熱點話題識別與追蹤要解決的關(guān)鍵問題之一。
網(wǎng)絡(luò)媒體信息量巨大,新詞不斷出現(xiàn)。針對這些新詞目前國內(nèi)已有許多新詞發(fā)現(xiàn)的研究。這些研究針對不同背景從不同角度出發(fā)識別網(wǎng)絡(luò)媒體新詞,其中互信息和信息熵是新詞發(fā)現(xiàn)的重要方法之一。文獻[1]針對社會媒體文本的領(lǐng)域分布廣、口語化程度高等特征提出一種面向社會媒體的開放領(lǐng)域新詞發(fā)現(xiàn)算法,采用了標注模型和語料庫頻繁模式挖掘相結(jié)合的方法。文獻[2]提出一種非監(jiān)督的新詞識別方法,該方法利用互信息的改進算法與少量基本規(guī)則相結(jié)合,從大規(guī)模語料中自動識別網(wǎng)絡(luò)新詞。文獻[3]提出一種融合內(nèi)外部統(tǒng)計量的微博新詞發(fā)現(xiàn)方法,該方法針對目前新詞發(fā)現(xiàn)算法中的數(shù)據(jù)稀疏以及可移植性較差的缺點提出了融合內(nèi)外部統(tǒng)計量的改進N-Gram 算法。文獻[4]提出的特定領(lǐng)域新詞檢測利用組合互信息技術(shù)解決用戶發(fā)明新詞和轉(zhuǎn)換感傷詞的疏忽問題。文獻[5]提出了一種從左至右逐字在未切詞的微博語料中發(fā)現(xiàn)新詞的算法。這些研究均改進互信息和鄰接熵信息作為新詞識別標準之一。目前新詞識別的研究多是根據(jù)應(yīng)用背景不同分析新詞特點,針對其特征提出識別方法。目前多為針對微博、貼吧等社交媒體進行新詞識別研究,例如文獻[1-3,5-8]均是以此背景展開研究。此外,還有一些針對其他應(yīng)用背景的研究,文獻[4]針對旅游領(lǐng)域研究新詞識別,文獻[9]針對食品安全研究新詞,文獻[10]針對金融知識自動問答研究新詞識別,文獻[11]則是研究古漢語中新詞識別。因新聞熱點詞具有獨有的特征,這些研究并不適應(yīng)網(wǎng)絡(luò)新聞的熱點新詞識別。文獻[12]中新聞熱點的新詞發(fā)現(xiàn)中僅用改進FP-tree(Frequent Pattern tree)算法識別新詞,沒有考慮熱點新詞的特性。
要識別網(wǎng)絡(luò)新聞中的熱點新詞,首先分析新聞熱點詞特性:
1)新聞熱點詞具有時間特征。也就是說熱點詞會在短期內(nèi)變得頻繁出現(xiàn)在新聞中,之前或之后隨著熱點熱度消失后可能很少出現(xiàn)或不出現(xiàn)。
2)新聞熱點主體涉及人名、機構(gòu)名、地名、場所、產(chǎn)品名、商標名、簡稱等名稱。這些名稱數(shù)量巨大,放入分詞的詞典會造成巨大成本。因其大多不適合存于詞典中,造成分詞系統(tǒng)無法識別。
3)新聞熱點詞有時在分詞系統(tǒng)中并不成為一個詞,如某些事件被冠以一些名稱,但分詞技術(shù)往往不將其作為一個詞。例如,2018 年發(fā)生的“殺妻騙保案”?!皻⑵掾_保案”五個字是一個整體,代表了天津男子給妻子買3 000余萬保險后在普吉島殺妻騙保這件案件。
4)新聞熱點中的這些新詞以名稱居多,不符合一般詞構(gòu)成規(guī)律。例如人名音譯、事件簡稱、地名等均毫無規(guī)律可言。
5)由于新聞標題要表達出新聞關(guān)鍵,所以熱點詞必存在于新聞標題中。
針對熱點新詞特性,本文先給出改進的FP-tree 來尋找頻繁出現(xiàn)在新聞標題中的詞串作為新詞候選,而不是按照構(gòu)詞規(guī)律尋找候選詞;根據(jù)加入時間特征值的多元時間逐點互信息(Time Pointwise Mutual Information,TPMI)判斷詞的內(nèi)部結(jié)合強度,根據(jù)鄰接熵判斷詞邊界,從而識別出熱點新詞;網(wǎng)絡(luò)上的輿情監(jiān)控需要處理數(shù)以億計的網(wǎng)頁,過長的識別時間嚴重影響實用性,因此本文僅使用新聞標題識別熱點新詞以提高識別速度。
FP-tree 算法是Apriori 算法的改進,大幅度減少了掃描數(shù)據(jù)次數(shù),并且FP-tree 的樹形結(jié)構(gòu)保存了頻繁集的完整信息,去除掉非頻繁集的數(shù)據(jù),刪減了無關(guān)的內(nèi)容。為了快速找到新聞中新的熱點詞,本文采用改進FP-tree 算法利用新聞標題快速獲得熱點新詞的候選集。
本文采用FP-tree 算法尋找頻繁出現(xiàn)的詞串,將其作為熱點新詞的候選集。詞中字間的前后順序不能改變且中間不能有其他詞,因此必須改進FP-tree 算法。由于新聞標題中含有大量和熱點新詞無關(guān)信息,必須進行刪減方可降低FP-tree 規(guī)模。因此,本文從如下兩方面進行FP-tree算法改進:
1)為維持詞順序,頻繁1-詞串的生成結(jié)果無需排序。
2)為了減少FP-tree 的非頻繁內(nèi)容,降低其復(fù)雜度,利用非頻繁1-詞串和非頻繁2-詞串進行新聞標題的化簡分割。
一個詞若為非頻繁詞,則其不可能出現(xiàn)在頻繁詞串中,可判定該詞不可能出現(xiàn)在熱點新詞中。新詞構(gòu)成是必須連續(xù)的,那么非頻繁詞去掉后并可將標題進行分割,如“周五國內(nèi)油價‘五連跌’幾成定局或下調(diào)幅度超260 元/噸”。若按照出現(xiàn)8 次以下為非頻繁詞串,則其中“幾成”“下調(diào)”“260”為非頻繁詞,則該標題分割為“周五國內(nèi)油價‘五連跌’”“定局或”“幅度超”“元/噸”四條數(shù)據(jù)(“元/噸”因符號分割開)。由于新聞標題必須反映新聞核心內(nèi)容的特性,新聞標題中短期內(nèi)頻繁出現(xiàn)的詞相對較少,因而刪減非頻繁詞可以大幅削減數(shù)據(jù)量。非頻繁2-詞串也不可能為熱點新詞的一部分,可據(jù)此分割數(shù)據(jù)。假如“周五國內(nèi)”“國內(nèi)油價”“幅度超”三個詞串為非頻繁2-詞串,則繼續(xù)分割標題為“周五”“國內(nèi)”“油價”“幅度”“超”。切割后的數(shù)據(jù)都變得非常短,新聞標題被切成比較小的數(shù)據(jù)可提高處理速度。由于是識別新詞,因此還需去掉只包含一個詞的數(shù)據(jù)。之后,數(shù)據(jù)中無用信息量大幅減少。此例中,該新聞標題被全部去除。據(jù)此建立的FP-tree 不僅包含所有熱點新詞有用信息且刪除了大部分無用信息。
本文根據(jù)上述分析,采用三次掃描數(shù)據(jù)建立改進FP-tree,算法步驟如下:
1)用分詞工具進行分詞,若“”‘’和《》內(nèi)無標點的字串被分開則合并,作為一個新詞候選,并計入集合D(注意:集合D中的新詞只需要根據(jù)時間特征值判定是否為熱點詞即可)。
2)第一次掃描新聞標題獲得頻繁1-詞串word 列表(每項包括頻繁1-詞串和頭指針),根據(jù)頻繁1-詞串生成頻繁2-詞串候選集,刪除集合D中非頻繁詞。
3)第二次掃描新聞標題,刪除新聞標題中非頻繁1-詞串中的詞并分割新聞標題,被分割后若只剩下一個詞則被刪除,同時統(tǒng)計頻繁2-詞串候選計數(shù)。
4)第三次掃描第3)步處理后的新聞標題,兩個連續(xù)詞若不為頻繁2-詞串,則從兩個詞間分割標題,被分割后若只剩下一個詞則被刪除,同時根據(jù)分割刪除后的新聞標題建立FP-tree:首先初始化根節(jié)點為null;對每條數(shù)據(jù)的詞從根節(jié)點出發(fā),依次對比,若存在相同的詞則計數(shù)加1,若不存在則增加新的孩子節(jié)點,計數(shù)1;相同詞串成一條鏈,頭指針存于word列表。
例如,“重慶公交墜江”“重慶公交墜江事故后”“重慶公交墜江悲劇”“公交墜江悲劇”和“墜江事故后重慶公交”新聞數(shù)據(jù)形成的FP-tree 如圖1 所示(假定最小頻繁計數(shù)為2)。
圖1 改進FP-tree示例Fig.1 Example of improved FP-tree
本文在改進FP-tree上挖掘新詞候選的步驟如下:
1)對集合word每個詞在FP-tree 上統(tǒng)計每個以該詞為開頭的所有詞串的計數(shù),將頻繁的詞串x加入集合newcword,如newcword存在y,若y是x的子串且x和y的計數(shù)相同,則刪除y;若x是y的子串且x和y的計數(shù)相同,則刪除x。
2)根據(jù)圖1 挖掘的熱點新詞的候選集為{“重慶公交:4”,“重慶公交墜江:3”,“公交墜江:4”,“公交墜江悲?。?”,“墜江:5”“墜江事故后:2”}。
Pecina 等[13]采用55 種不同的統(tǒng)計量進行2 元詞匯識別實驗,結(jié)果表明逐點互信息(Pointwise Mutual Information,PMI)算法是最好的衡量詞匯相關(guān)度的算法之一。通常情況下,PMI 方法能夠很好地反映字串之間的結(jié)合強度,PMI 值越大表示結(jié)合字間程度越強。本文首先設(shè)計多元PMI的計算方法用來衡量候選新詞的內(nèi)部結(jié)合度,并引入了時間特征。對于結(jié)合強度滿足閾值的候選新詞用鄰接熵衡量其左鄰接字詞和右鄰接字符的不確定性,解決新詞左右邊界問題。
本文的新詞識別是熱點新詞的識別,和普通新詞識別不同。熱點新詞其實就是一種由不出現(xiàn)或極少出現(xiàn)的非頻繁詞串變得頻繁出現(xiàn)的詞串,并且這個詞串在新聞熱度退去后又變?yōu)榉穷l繁詞串。因此熱點新詞具有開始短期內(nèi)變得頻繁出現(xiàn)的突起和之后衰減的時間特征。例如,2014 年3 月8 日一架載有239人的馬來西亞航空公司MH370客機在從吉隆坡飛往北京的途中失蹤之后,網(wǎng)絡(luò)新聞里就爆發(fā)性出現(xiàn)“馬航”這個新詞,具有短時間上突然增多的特性。而一些頻繁的非熱點詞串,如“外交部回應(yīng)”“外媒關(guān)注”,具有持續(xù)性,不具有時間突起和衰減的特征。
本文將時間特征分為兩種:一是突起時間性,由很少出現(xiàn)或不出現(xiàn)變?yōu)轭l繁出現(xiàn);二是時間衰減時間性,由頻繁詞變?yōu)楹苌俪霈F(xiàn)或不出現(xiàn)。在一個時間段section內(nèi),熱點新詞可能在此前已經(jīng)經(jīng)過了突起時間性,也可能在這個section內(nèi)經(jīng)歷突起時間性,或者突起時間性處于兩個section臨界處:前一個section為非頻繁,而進入后一個section立刻變?yōu)轭l繁的。同樣,熱點新詞在這個section內(nèi)可能經(jīng)歷衰減時間性,可能在兩個section臨界處衰減,也可能在下個section或之后才衰減。因此,可以將section內(nèi)熱點詞的時間特征分為以下七種情況(圖2 中密集區(qū)表示section時間段內(nèi)達到頻繁計數(shù)一半的最密集處):
1)在section時間段內(nèi)具有突起時間性,如圖2(a);
2)在section時間段內(nèi)具有衰減時間性,如圖2(b);
3)在section時間段內(nèi)既具有突起時間性又具有衰減時間性,如圖2(c);
4)在section時間段內(nèi)既不具有突起時間性又不具有衰減時間性,但是和下一個section臨界處具有衰減時間性,可在處理下一個section獲得衰減時間性,但數(shù)據(jù)不繼續(xù)采集則無法判斷,如圖2(d)和圖2(f);
5)在section時間段內(nèi)既不具有突起時間性又不具有衰減時間性,在和上一個section臨界處具有突起時間性,前移半個section獲得突起時間性,如圖2(e)和圖2(f);
6)無法獲得突起時間性和衰減時間性,熱度維持時間長的事件的熱點詞具有此種情況,如圖2(g)。
圖2 詞w在時間段(section)內(nèi)計數(shù)情況Fig.2 Counts of word w in one period(section)
由圖2 可看出,具有時間性的熱點詞分布是不均勻的,具有集中性:圖2(a)、(b)、(c)三種情況,密集區(qū)在section內(nèi)所占時間比例要比1/2 小很多;而圖2(e)、(f)兩種情況,若把時間段時間向前推移1/2的section時間段,可以看出密集區(qū)所占時間比例也要比1/2 小很多;同樣圖2(d)、(f)兩種情況,在推后1/2 的section時間段也可以統(tǒng)計到其密集區(qū)時間比例遠低于1/2;而不具有時間性的情況圖2(g)就無法判斷??紤]密集區(qū)數(shù)據(jù)比例太低無法判斷w整體是否具有集中性,而比例太高則造成稀疏部分影響過大,因此選擇了密集區(qū)包含詞w的50%計數(shù)。因此本文根據(jù)包含一半計數(shù)的最頻繁時間長短來判斷詞w的集中性,據(jù)此判定其時間性。本文設(shè)計了時間特征值計算式(1),判定候選新詞w的時間特征值:
其中:section為選定的統(tǒng)計新聞的時間段的天數(shù);time(t)為詞w在這個時間段內(nèi)出現(xiàn)的某個時間點t;halftime(t)為從時間點t開始詞w出現(xiàn)次數(shù)達到該時間段內(nèi)50%的時間點;()求最小值,即詞w在section時間段內(nèi)出現(xiàn)次數(shù)達到該段內(nèi)總數(shù)50%的最短連續(xù)天數(shù);a是調(diào)節(jié)系數(shù)(a≥1/2,a=1/2時均勻出現(xiàn)詞的時間特征值在1 左右)。新聞有時間性,大多數(shù)熱點新聞很難持續(xù)高熱度,少數(shù)新聞持續(xù)受關(guān)注,但熱度也會降低;并且選擇時段過長會加大數(shù)據(jù)計算量,因此section時間段不宜過長??紤]開始追蹤新聞熱點時,剛剛已經(jīng)爆發(fā)的熱點需要處理,且圖2(e)、(f)情況也需要判斷出時間性,因此對于section時間段內(nèi)均勻出現(xiàn)的高頻詞串可做二次處理,計算方法如式(2):
其中:T1(w)是詞串w在section的時間特征值;T01(w)是詞串w在上一個section后半段時間和當前section的前半段時間內(nèi)的時間特征值。
對于圖2(d)的情況,可將頻繁出現(xiàn)且未判定為熱點詞的新詞在下一個section處理。
文獻[14]給出的PMIk是二元的互信息計算公式,如式(3)。
其中:pk(x)和pk(y)分別表示詞串x和y的概率的k次冪;pk(x,y)表示字串x和y的聯(lián)合概率的k次冪。當k=1 時,PMIk即PMI。本文采用的是PMI。
本文候選新詞至少由2 個詞組成,需要用多元PMI 計算相關(guān)度。因此,需要擴展二元PMI 為多元PMI。從式(3)可以看出,PMI計算兩個詞的結(jié)合度,其實是計算兩個詞屬于某個詞組成部分的程度,并不能確定一個完整的詞。如“尸位素餐”這個詞,在現(xiàn)代文中計算“位”“素餐”的PMI可以發(fā)現(xiàn)其結(jié)合度很高,這說明“位素餐”很可能是一個詞的一部分。因此本文設(shè)計了一種擴展PMI 方式。對于詞串w1w2…wn-1wn(記為w),首先尋找其中PMI 最高的相鄰兩個詞,并認為最大可能成為某個詞一部分,所以將兩個詞合為一個詞,然后繼續(xù)如此擴展。選擇最后一次PMI值并乘時間特征系值形成該詞的TPMI值。
對于詞串w,TPMI計算方法如下:
本文判定候選詞是否為新詞過程為:首先計算改進TPMI,若TPMI 大于一定閾值,再計算該詞的左右邊界的鄰接熵[15];若左右邊界熵在一定閾值,則判定該詞為一個完整詞,為熱點新詞。左鄰接熵的計算如式(4),右鄰接熵的計算如式(5):
其中:CL、CR分別是候選詞w的左、右鄰接詞的集合;p(xi|w)是候選詞w的左鄰接詞概率,p(xj|w)是候選詞w的右鄰接詞概率。候選新詞鄰接熵越大,鄰接字詞不確定性越大,成為新詞邊界可能性越大。
為了驗證本文算法的正確性和有效性,本文采集網(wǎng)絡(luò)新聞作為測試數(shù)據(jù)集進行驗證。新聞熱點詞往往是短期內(nèi)出現(xiàn)比較集中的詞,而熱點新詞短期內(nèi)爆發(fā),因此無需采集長時間的數(shù)據(jù)集進行測試。2018 年12 月新浪國內(nèi)新聞中各種熱度的新聞事件較多,本文采用2018年12月的新浪國內(nèi)新聞作為測試集,共采集新聞7 222 條。通過人工處理,發(fā)現(xiàn)數(shù)據(jù)集中包含熱度非常高的新聞熱點1個,一般熱度新聞事件16個,以及熱度低的新聞事件16個,具體新聞事件如表1所示。
新聞熱度是該事件新聞被關(guān)注的情況,網(wǎng)絡(luò)新聞上可以根據(jù)該事件新聞出現(xiàn)量判定其熱度,不同需求設(shè)定不同。為了研究本文方法,設(shè)置比較低熱度值,將在半個月內(nèi)出現(xiàn)30次以上新聞事件設(shè)為高熱度新聞(平均每天出現(xiàn)2 次及以上),半個月內(nèi)出現(xiàn)15~29 次的為一般熱度(平均每天1~2次)。低熱度的新聞是否算作新聞熱點需要根據(jù)實際需要決定,可能算熱點也可能不算熱點,本文低熱點新聞為半月內(nèi)相關(guān)新聞8~14條的新聞事件。此外,是否為新詞和分詞軟件有關(guān),本文采用gooseeker的分詞工具對數(shù)據(jù)集進行分詞。
本文實驗使用軟硬件環(huán)境為:處理器為Intel Core i7-8750H CPU@2.20 GHz 2.21 GHz,內(nèi)存大小為16 GB,所用軟件為Microsoft Visual C++2015。
采用不同的參數(shù)可采集不同程度熱點新聞的熱點新詞。在本文實驗中,采用最小頻繁計數(shù)為8 時,可基本采集所有程度熱點的新詞。若采用頻繁計數(shù)16,則低熱度新聞的新詞大多無法采集。采集所有程度熱點的新詞,識別更困難,本文處理包括低熱度(最小頻繁計數(shù)為8)的熱點新詞。
利用本文改進的FP-tree 算法,獲得頻繁詞串作為熱點詞的候選集,結(jié)果如表1所示。
為了驗證本文時間特征值的作用,實驗中先采用不加時間特征的多元PMI 和邊界熵進行熱點新詞識別(簡稱多元PMI 實驗),再采用融入時間特征的TPMI 和左右信息熵獲得新聞熱點新詞(簡稱TPMI 實驗),并對兩個實驗數(shù)據(jù)進行分析。本文實驗時間特征計算中,section選擇為一個月;從出現(xiàn)次數(shù)最多的前200 個多字詞中隨機抽樣50,計算平均多元PMI 值作為多元PMI 的閾值和TPMI 的閾值,計算平均邊界熵作為邊界熵的閾值。通過觀察大部分新聞熱點爆發(fā)、持續(xù)情況和考慮處理數(shù)據(jù)量,建議section小于等于一個月且大于等于2個星期。
表1 熱點詞的候選集Tab.1 Candidates for hot words
分析實驗數(shù)據(jù)發(fā)現(xiàn):非洲豬瘟相關(guān)報道是在8 月份開始頻繁出現(xiàn),之后一直不斷,所以TPMI 實驗未能找回“非洲豬瘟”“非洲豬瘟疫情”兩個詞,但比較集中的有些地區(qū)宣布解除疫情,因此獲得了“非洲豬瘟疫區(qū)解除封鎖”這個詞。如果用于持續(xù)檢測新聞熱點,連續(xù)一個時段、一個時段采集,那么上述熱點新詞均可在這些新聞爆發(fā)時識別出。此外,通過分析多元PMI 實驗識別的新詞發(fā)現(xiàn)有2 個詞為從2018 年11 月下旬開始變?yōu)轭l繁,但在12 月屬于低熱度且無法判別時間特征的詞。本文算法進行時間特征二次計算時只考慮了高頻詞,無法識別這兩個低熱度詞的時間特征,造成a三種取值的TPMI實驗中均未曾識別。
實驗中,a取值不宜選擇過大,否則會造成持續(xù)熱度的詞更難識別;a取值也不宜過小,否則造成時間特征弱化。本文測試了a=1/2,2,8的情況,除了均無法識別上述兩個低熱點詞外:
1)當a=1/2 時,正確識別熱點新詞51 個,丟失識別“非洲豬瘟”“非洲豬瘟疫情”2 個熱點詞(與a=2 相同),錯誤識別5個,將非熱點詞“環(huán)球時報社評”“涉黑”“九二共識”“紅通人員”“加媒”5個詞錯誤識別成熱點新詞。錯誤識別的這5個詞出現(xiàn)比較零散,每個詞對應(yīng)多個事件,不是熱點詞。a=1/2時,出現(xiàn)比較均勻的詞的時間特征為1,時間特征影響小。
2)當a=2 時,正確識別熱點新詞51 個,丟失識別“非洲豬瘟”“非洲豬瘟疫情”2個熱點詞。
3)當a=8 時,正確識別熱點新詞50 個詞,丟失識別“非洲豬瘟”“非洲豬瘟疫情”“經(jīng)貿(mào)磋商”3 個熱點詞。“經(jīng)貿(mào)磋商”屬于這段時間內(nèi)時間特征相對弱的詞,強化時間特征造成了未識別出該詞。
a=2 時的TPMI 實驗結(jié)果和多元PMI 實驗結(jié)果如表2所示。
多元PMI 實驗明顯比TPMI 實驗多找到“震源深度、級地震”和其他統(tǒng)計詞97 個,這些詞都不是熱點新詞,震源深度存在于所有地震新聞中,不屬于哪個地震相關(guān)報道,其他詞不是錯誤就明顯是一些常用詞組。而TPMI 實驗識別出“經(jīng)貿(mào)磋商、中美元首”是因為孟晚舟事件后,中美關(guān)系和中美貿(mào)易的相關(guān)新聞不斷出現(xiàn)造成的,而“二手房”是因為有一小段時間各地樓市信息提到二手房問題,沒有將二手房新聞列入低熱度新聞,這其實也可以算一個低熱度新聞點。人工標注時并未發(fā)現(xiàn),實驗后發(fā)現(xiàn)關(guān)于退役軍人的新聞也在短期少量出現(xiàn),也可算關(guān)于退役軍人的低熱度新聞,因此這四個詞的識別不能認為是錯誤識別。
表2 多元PMI和TPMI的實驗結(jié)果Tab.2 Experimental results of multivariant PMI and TPMI
從以上分析可以看出:引入時間特征值后,可以將一些常用詞組合去掉,TPMI 明顯大大提高了熱點新詞的正確識別率。
可以看出,本文的新詞識別是應(yīng)用于熱點新聞識別當中,所以有些詞不是真正意義上的詞。例如,對應(yīng)新聞“四川宜賓興文5.7 級地震”識別出的“5.7 級地震”“四川興文地震”“四川宜賓”“四川興文5.7 級地震”,每個詞都代表了一個地點或一個事件,當然它們也是相關(guān)的,不是傳統(tǒng)意義的詞,但在新聞識別中若拆開會影響識別效果。
本文采集的數(shù)據(jù)中,沒有“”‘’和《》分割的熱點詞。
本文實驗中的TPMI 和邊界熵的參數(shù)是根據(jù)最頻繁出現(xiàn)的詞進行計算平均值得到的。這造成了強化時間特征,時間特征強的熱點詞容易識別,而長時間熱度詞由于時間特征被弱化反而易丟失。因此無論a還是TPMI、邊界熵的閾值都應(yīng)該研究更合理的選擇方案。
本文通過分析新聞熱點詞特征提出了一種用于網(wǎng)絡(luò)熱點識別的熱點新詞發(fā)現(xiàn)方法。本文利用非頻繁1、2-詞串刪除和切分新聞標題來刪除大量無用信息;設(shè)計融入時間特征的TPMI使得熱點新詞識別率大幅度提升。
本文方法適用于網(wǎng)絡(luò)熱點新聞的新詞發(fā)現(xiàn)。而網(wǎng)絡(luò)熱點不僅僅涉及新聞,還包括微博類開放社交媒體。這些平臺所發(fā)布內(nèi)容的標題不夠正規(guī)或無標題,甚至有時候為了吸引網(wǎng)民注意力故意歪曲標題,本文方法還需考慮提煉發(fā)布內(nèi)容和標題的基礎(chǔ)上進行改進才可應(yīng)用。此外,單獨處理某段新聞則會出現(xiàn)之前已經(jīng)成為熱點詞且熱度始終持續(xù)的新詞無法識別的問題,可考慮用聚類的方法解決此問題。