王志超 孫建斌 秦瑞麗
(航天長征化學工程股份有限公司 北京 101111)
由于媒體的豐富和網絡的快速傳播,新聞已經成為大數據的一個重要組成部分。新聞包括傳統報刊雜志新聞,如《人民日報》《化工報》等;也包括各門戶網站和新聞網站的實時新聞,如新浪、百度等。在我國,最重要的新聞報道往往聚焦于政府政策動向的跟蹤和及時傳播,時效性影響重大。然而,重大政策的形成往往有一個過程,包括初期的調研論證、理論研究、政策試探、輿論反應、試點安排、政策修訂、正式頒布實施等階段,每一個階段都有大量新聞的跟蹤和報道。對該類新聞進行深度挖掘和學習,利用關聯規(guī)則研究其頻繁項集,可以根據產生的頻繁項集得到一段時間內關注任務的關聯因子的變化,由此可以提前預測相關政策和動向的變化。
利用新聞進行預測,是國內外學者對輿情監(jiān)控的研究熱點之一。唐曉波等[1]提出在互聯網新聞文本信息挖掘中,融合新聞熱度和讀者態(tài)度建立高頻情感詞典,在新聞文本預測分析中對預測結果利用情感頻度加權排序,可以獲取更好的準確性。然而該方法在新聞推薦等領域可用,在缺乏“情感頻度”或不宜收集“情感頻度”方面效果不明顯。龐有明等[2]在研究信用債估值時引入新聞輿情語料,并重點關注輿情的情緒變化,然而該方法對于實際的應用效果不太明顯。Patel等[3]在股票市場走向預測分析中,引入新聞輿情監(jiān)控,并利用分類、還原和統計技術進行研究,用于指導投資。Xu等[4]利用極端機器學習和灰度Verhulst模型理論在熱點新聞點擊率預測上應用有一定效果。然而,對于新聞的理解,分詞技術的應用是基礎。張洪剛等[5]在分詞方法中利用雙向長短時記憶模型,但該方法較為復雜。李雪蓮等[6]提出基于門循環(huán)單元神經網絡的中文分詞法,試圖解決長短時記憶模型的復雜性。
本文提出利用基于隱層馬爾可夫模型的中文分詞方法[7,9]并以報紙及刊物新聞作為數據源,通過對新聞數據預處理及關聯規(guī)則挖掘[10-11],進行行業(yè)政策和發(fā)展方向預測研究,并以“煤化工”行業(yè)為例。首先,選取新聞標題作為本文預測任務的原始數據集,對新聞標題進行分詞;其次,將分詞所得的每組新聞標題詞集進行語義統一,作為關聯規(guī)則研究的項集;最后,利用Apriori算法對事務集進行關聯規(guī)則挖掘,得到以“煤化工”等為關鍵字滿足最小支持度和最小置信度的關聯規(guī)則,并以此作為煤化工政策和發(fā)展方向的預測依據。實驗證明,基于新聞分詞的關聯規(guī)則挖掘對政策和方向預測具有很好的作用。
分詞是指將完整的一句話根據其語義分剪成一個詞語項集,該詞語項集作為參與關聯規(guī)則挖掘的基本單元[5-6]。語義分詞分兩步:
(1) 基本分詞 對新聞標題做初始分詞,如2014年8月22日《中國化工報》行業(yè)時評刊文標題《傳統煤化工要有“世界級”理想》,進行初步分詞后其結果為:
“傳統 /j 煤化工 /n 要 /v 有 /v “ /w 世界級 /b ” /w 理想 /n”。
其中,各詞后面所標注“/”為詞性,根據英文文法詞性標注。
(2) 詞語修剪及語義統一 將基本分詞所得詞集中無實意的虛詞及一字動詞等剪掉,只保留部分實詞,包括動詞、名詞、量詞、代詞等,無意義詞通過詞性標注即可識別,如標注為“/w”即為標點符號,而一字動詞則通過詞性和詞長識別。詞語實化即對初始分詞集合進行語義統一,如代詞(詞性為“/p”)變?yōu)閷嵲~、比喻中的喻意詞(詞性為“/m”)變?yōu)楸疽庠~等,該例中詞語修剪后的詞集不存在代詞等,所以保留修剪后詞集結果不變。該步結果為:
“傳統 /j 煤化工 /n 世界級 /b 理想 /n”。
語義統一是將代詞實化、喻詞本意化,同時也是建立關聯規(guī)則類的一個關鍵步驟。
ICTCLS是中科院計算所研發(fā)的漢語分詞系統,采用了層疊隱馬爾可夫模型以完整統一理論框架進行分詞。本文以此為基礎做新聞標題的初始分詞。
定義1(分詞句集) 設S={s1,s2,…,si,…,sn},其中,si為第i個原始句串,1
對分詞句集S中第k個原始句串sk進行基于層疊隱馬爾可夫模型的ICTCLS分詞,sk∈S。首先對sk進行原子切分,即將原始句串標記開始結束,并將各字單獨為詞;其次對原子切分序列進行N-最短路徑粗切分,找到相鄰單字組詞后序列聯合概率最優(yōu)N結果;對最優(yōu)N結果進行人名地名識別;最后對識別后的N結果優(yōu)化并標注類及詞性,輸入分詞結果,表示為Mk,Mk={mk1,mk2,…,mkj},其中mkh(h=1,2,…,j)為原始句串sk分詞結果集中的第h個詞語。Mk作為中間項集進行分詞修剪及實化,而分詞句集產生的每一個Mk組成了預事務集。
定義2(預事務集) 設M={M1,M2,…,Mn},其中Mk(k=1,2,…,n)為分詞句集第k個句子的分詞結果集,Mk={mk1,mk2,…,mkj},其中mkh(h=1,2,…,j)為分詞結果集中的第h個詞語。M作為ICTCLS分詞結果的預事務集,進行下一步的詞語修剪及語義統一。
ICTCLS算法分詞后,得到預事務集M作為本節(jié)進行分詞修剪和語義統一的對象。由于原始新聞標題分詞后存在無實意詞,如虛詞“的、地”,單字動詞“有、做”等。分詞修剪及語義統一的目的即為生成適宜關聯規(guī)則算法處理的數據集,將無實意詞去掉后的數據集大小少于處理前,使得算法處理的干擾減小且計算速度更快,而語義統一即是將預事務集標準化,得到更為準確的事務集,也使得關聯規(guī)則計算更加精確。
定義3(項集) 定義2所得Mk經分詞修剪和語義統一后的詞語集合即為項集,用Ik表示。Ik={ik1,ik2,…,ikj},其中ikh(h=1,2,…,j)為二步分詞所得詞語,是參與關聯規(guī)則的元數據。
定義4(事務集) 設D={I1,I2,…,In},其中Ik(k=1,2,…,n)為項集,則D為參與關聯規(guī)則挖掘的事務集。
具有修剪及語義統一分詞算法ICTCLS_TRIM算法描述如下:
BEGIN
INPUTS
//S為分詞句集
FORk=1 ton
Mk=ICTCLS(Sk)
//對每一項句集應用ICTCLS做初始分詞
Ik=Reduce&Unify(Mk)
//對預處理項集進行分詞修剪及語義統一
ENDFOR
Split(D, Array(Keywords))
//關鍵字修剪,將非目標項集過濾掉
OUTPUTD
//D為任務相關事務集
END
由于本文針對特定行業(yè)特定方向的新聞分詞關聯規(guī)則挖掘,所以在上述算法中,利用Split(D, Array(Keywords))將非含關鍵字和關鍵義的項集修剪掉,使得關聯規(guī)則挖掘數據集更加精確,事務集D作為關聯規(guī)則挖掘的數據錄入。
本文采用改進的Apriori算法對形成的事務集進行關聯規(guī)則分析,Apriori算法是由Rakesh Agrawal和Ramakrishnan Srikant兩位博士在1994年提出的關聯規(guī)則挖掘算法[12]。該算法主要用于對頻繁項集的遞歸挖掘,在所有滿足最小支持度的頻集中,發(fā)現滿足最小可信度的強關聯規(guī)則。
定義5(支持度) 即某項集X在事務集D中出現的概率,用Supp(X)表示,如下所示:
Supp(X)=Occor(X)/Count(D)
最小支持度即為滿足最小Supp(X)的項集,當給定最小支持度Supp(CONST)時,如果存在Supp(X) >Supp(CONST),則稱X為頻繁項集。
定義6(置信度) 即在頻繁項集X出現的條件下,頻繁項集Y也出現的條件概率,表示為Conf(X→Y)=Supp(X∪Y)/Supp(X)。
新聞分詞關聯規(guī)則算法,基于分詞的關聯規(guī)則算法Apriori_Split描述如下:
BEGIN
INPUTS
//S為原始新聞標題
D=ICTCLS_TRIM(S)
//通過具有語義修剪的ICTCLS進行分詞
L1=Large_Supp(D,Supp_THRESHOLD)
//選取滿足最小支持度的1_項集
FORk=2 ton
Ck=apriori-gen(Lk-1)
FORdi∈Ddo
Ci=subset(Ck,di);
//事務di中包含的候選集
forCi∈Ctdo
Ci.count++
ENDFOR
Lk={Ci∈Ck|Ci.count3minsup}
ENDFOR
算法Apriori_Split中,首先利用具有語義修剪的新聞分詞算法ICTCLS_TRIM將原始新聞集變成適于關聯規(guī)則的事務集。通過計算支持度和置信度產生頻繁1-項集L1,對各1-項集進行關聯規(guī)則的計算。在第k次循環(huán)中,過程先產生候選k-項集的集合Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于Lk-1的頻集做一個(k-2)-連接來產生的。Ck中的項集是用來產生頻集的候選集,最后得到頻集Lk,而Lk也必然存在Lk∈Ck。算法經過兩次循環(huán),其算法復雜度為O(n2)。
本文基于新聞分詞的關聯規(guī)則,實驗數據集選取2014年7月31日至2014年9月3日期間,包括《中國化工報》、《山西日報》、《中國煤炭報》、《山西經濟日報》、《昌吉日報》、《中國國土資源報》等在內的眾多報刊中標題、摘要、正文中存在“煤化工”關鍵字的前100項新聞標題為本次實驗數據集。
本實驗中,為提高計算速度,為多關鍵字進行編號并處理,如本文實驗數據集:
{煤,煤化工,煤科,煤層氣,粉煤,…},即編號為{1,2,3,4,…},則試驗中ID為1的關鍵詞即為“煤”,而如果某一新聞分詞組中出現“煤”的次數為2則數據標記即為{1 2},該表示方式{IDTimes},ID為數據集編號,Times即為出現次數,如此將實驗數據集進行處理。
發(fā)展方向類={甲醇,煤制氣,煤氣化,煤油氣,熱變換,煤電,聚丙烯,…}
關聯規(guī)則的類的設定屬于半監(jiān)督,該處基于專家知識形成,即分類越科學,規(guī)則生成越準確。由此,根據本文所定規(guī)則及數據集進行試驗,前五個規(guī)則結果如表1所示。
表1 預測實驗結果表前五項結果
結果分析:本文試驗中以置信率大于0.5進行結果的篩選,并展示了前五項試驗結果。其中置信率最高的為(煤,清潔高效),這也反映了當前環(huán)保的趨勢,(煤化工,煤氣化、煤制油)反映了煤化工產業(yè)的工藝方向,而(媒,烯烴)則反映的是當前中國煤化工的產品結果,(粉煤,航天爐)則是粉煤應用較多的技術標準。實驗表明,本文方法給出的預測方向同當前的方向是匹配的,極大地提高了預測的準確性。
本文提出基于分詞的關聯規(guī)則預測方法,首先對待預測方向近期新聞標題進行層疊隱馬爾可夫模型的初步分詞,對得到的詞集進行虛詞修剪及喻詞實化等語義統一,該步驟得到的事務集通過分詞修剪和語義實化后更加精確,降低了無義詞的干擾。最后通過本文提出的基于分詞的關聯規(guī)則算法Apriori_Split對事務集進行計算,得到預測方向的規(guī)則,并以此為依據形成對未來發(fā)展的預測。該方法由于對參與關聯規(guī)則的事務集的精確處理,有效提升了關聯規(guī)則預測的準確性。