桑海龍, 李建中
(哈爾濱工業(yè)大學 計算機科學與技術學院, 哈爾濱 150001)
21世紀,隨著信息時代的來臨,更容易通過網(wǎng)絡信息的傳播進行“搶帽子”交易?!皳屆弊印苯灰资侵缸C券公司、證券咨詢機構(gòu)、專業(yè)中介機構(gòu)及其工作人員,買賣或者持有相關證券,并對該證券或其發(fā)行人、上市公司公開做出開放性評價、及預測。而且提出進入或者投資建議,以便通過期待市場波動獲取經(jīng)濟利益的行為。這種行為不僅嚴重威脅了廣大投資者的利益,同時也給證券市場的監(jiān)管帶來了諸多不利因素。而傳統(tǒng)的人工篩選信息的方式已不能滿足網(wǎng)絡信息時代的需求。
文本挖掘采用信息采集、信息過濾、信息抽取和信息分析等技術從非結(jié)構(gòu)化文本數(shù)據(jù)中發(fā)現(xiàn)知識。文本挖掘技術為處理大量的文本信息提供了技術解決手段。隨著證券市場信息電子化水平逐漸提高,網(wǎng)絡信息格式也日趨標準化,將文本挖掘技術應用于中國股票市場信息監(jiān)控既迎合了形勢上的急迫要求,也具備了技術上的操作可行性。
迄至目前,已陸續(xù)開發(fā)有一些基于文本挖掘的系統(tǒng),并在證券市場上使用,同時已取得了良好的效果。許多同類研究都傾向于使用文本挖掘從網(wǎng)絡上發(fā)現(xiàn)信息,再使用這些信息預測證券市場的變化趨勢[1-5]。另外,也可見到一些通過文本挖掘技術分析情感因素對證券投資影響的研究[6-8]。文本挖掘技術還可應用于上市公司財務評價指標體系和數(shù)據(jù)挖掘初步結(jié)果后的聚類方法結(jié)果分析[9-10]。和當前國內(nèi)外的研究進展相比,基于文本挖掘的網(wǎng)絡信息監(jiān)測系統(tǒng),在收集信息方面更具有針對性,信息來源于主要的財經(jīng)網(wǎng)站,而不是整個網(wǎng)絡上的各項信息。這種做法的優(yōu)點是信息更具典型性,缺點是可能遺漏一些關鍵信息。而且系統(tǒng)更傾向于研究文本挖掘結(jié)果對證券市場監(jiān)管的影響,重點挖掘網(wǎng)絡信息中可能存在的諸如“搶帽子”的市場欺詐行為。這一內(nèi)容在目前國內(nèi)外仍鮮見有關研究問世。
薦股分類模塊主要由決策樹分類器、J48分類器、隨機森林分類器三個算法分類器組成。首先,待分類文章從外部系統(tǒng)進入薦股分類模塊,在經(jīng)過基本的預處理之后,將使用決策樹分類規(guī)則進行分類判斷,如果決策樹分類規(guī)則無法判斷文章是否為薦股文章,則調(diào)用文本向量轉(zhuǎn)換模塊對待分類文章實現(xiàn)文本轉(zhuǎn)換,獲取輸入文本的文本向量。接下來,可選擇調(diào)用J48分類器或隨機森林分類器進行分類判斷,得到最終的分類結(jié)果后,將薦股判斷結(jié)果返回到外部系統(tǒng),供其它模塊決策使用?;谖谋就诰虻木W(wǎng)絡信息監(jiān)測系統(tǒng)薦股分類模塊體系結(jié)構(gòu)設計如圖1所示。
圖1 薦股分類體系結(jié)構(gòu)圖Fig. 1 Recommended stocks architecture
文章進入薦股分類模塊時,首先使用決策樹分類規(guī)則進行分類,決策樹分類規(guī)則采用3個標準判斷薦股文章,分別是:
(1)標題或文中是否出現(xiàn)股票名;
(2)標題中是否出現(xiàn)“標題薦股關鍵字”;
(3)標題中是否出現(xiàn)“非薦股關鍵字”。
在此基礎上,可指定不同的權(quán)重進行薦股判斷,此時會提取出標題中的薦股關鍵字和非薦股關鍵字。若此部分無法判斷文章是否為薦股文章,則繼續(xù)調(diào)用后續(xù)模塊進行文本向量轉(zhuǎn)換后將送至J48分類器,或者由決策樹形成隨機森林,可以設置隨機森林樹的個數(shù)和屬性數(shù),輸入隨機森林分類器進行薦股判斷。J48決策樹分類器和隨機森林分類器調(diào)用了Weka開源代碼,采用數(shù)據(jù)庫已標注數(shù)據(jù)進行特征訓練。經(jīng)過J48或隨機森林分類器后,將判斷結(jié)果返回至決策樹分類器,最終返回到外部系統(tǒng)。系統(tǒng)薦股分類流程設計則如圖2所示。
圖2 薦股分類流程圖Fig. 2 Classification flow chart
信息抽取算法的主體設計思想是準確并完整地抽取出文章中所存在的薦股要素,其中文章包括文章標題、小標題以及文章正文,使用這些信息調(diào)用抽取算法抽取出股票名稱或代碼、薦股分析師和推薦機構(gòu)等薦股要素。外部系統(tǒng)調(diào)用信息抽取接口進行信息抽取,其中包括對股票權(quán)重的計算以及各個要素的抽取等模塊;信息抽取過程進一步調(diào)用文章詞語詞性判斷模塊,得到文章的詞性判斷;之后,調(diào)用最底層的中科院分詞模塊對文章來構(gòu)建分詞進程。對于股票名稱,通過標題出現(xiàn)、多只股票的首次出現(xiàn)、與薦股關鍵詞的位置關系(包括:同分句、同句、同段)等求出權(quán)重。對于推薦機構(gòu),通過查找文中推薦機構(gòu)名稱(含全稱和簡稱)列出文中出現(xiàn)推薦機構(gòu)。對于分析師,通過推薦機構(gòu)最近匹配找出文中分析師對應推薦機構(gòu)列表,再經(jīng)后續(xù)判斷完成抽取?;谖谋就诰虻木W(wǎng)絡信息監(jiān)測系統(tǒng)信息抽取體系結(jié)構(gòu)即如圖3所示。
信息抽取部分是系統(tǒng)的主要功能模塊,在非結(jié)構(gòu)化文檔中,文章信息比較雜亂,這部分內(nèi)容是文本挖掘系統(tǒng)中最具研究難度的部分。基于文本挖掘的網(wǎng)絡信息監(jiān)測系統(tǒng)信息抽取總體流程如圖4所示。由于有些文章是多篇薦股信息的匯總,有些文章是行業(yè)分析與推薦股票的結(jié)合,因此會出現(xiàn)一篇文章中提到多只股票和多家推薦機構(gòu)的情況。為了抽取文中真正推薦的股票,采用以股票為中心的方法進行信息抽取。抽取過程需要使用文章標題、小標題以及正文內(nèi)容,并對其展開分詞處理。然后根據(jù)行業(yè)資料庫,提取股票名稱、推薦機構(gòu)和分析師。對股票的抽取,按其出現(xiàn)的位置賦以不同的權(quán)重,在有多只股票出現(xiàn)的情況下,可以按權(quán)重大小對這些股票進行排序。對出現(xiàn)位置權(quán)重可做具體設定如下:
西北鉛鋅冶煉廠為年產(chǎn)10萬t電鋅規(guī)模,采用三段鋅粉- 銻鹽凈化工藝,即一段低溫(55~60 ℃)除銅鎘,二段高溫(85~90 ℃)除鈷鎳,三段低溫除殘鎘,具體工藝流程見圖1。
a1=股票名稱出現(xiàn)在標題中的權(quán)重;
a2=股票名稱在文中首次出現(xiàn)的權(quán)重;
a3=股票名稱與關鍵字同分句權(quán)重;
a4=股票名稱與關鍵字同句權(quán)重;
a5=股票名稱與關鍵字同段權(quán)重。
圖3 信息抽取體系結(jié)構(gòu)圖Fig. 3 Information extraction structure
圖4 信息抽取流程圖Fig. 4 Information extraction flow chart
根據(jù)上面對股票權(quán)重定義,對于一只股票s,相應權(quán)重w用式(1)表示:
w=f(a1,a2,a3,a4,a5)
(1)
依據(jù)對單只股票權(quán)重的計算,可獲得文中的按股票權(quán)重排序的股票列表L,則權(quán)重列表可用式(2)表述如下:
L=[(s1,w1),(s2,w2),...,(sn,wn)]
(2)
采用以股票為中心的抽取方式,可進一步制定分析師和推薦機構(gòu)的信息抽取策略,抽取出其它關鍵要素。對于分析師和推薦機構(gòu)的抽取,需要定義一些信息模式,經(jīng)過對網(wǎng)絡文章的研究發(fā)現(xiàn),部分文章的出現(xiàn)類似(推薦機構(gòu),分析師)這種結(jié)構(gòu),所以在抽取時考慮這種結(jié)構(gòu)的信息抽取,對出現(xiàn)已定義結(jié)構(gòu)的分析師與推薦機構(gòu),就可運用這種模式直接抽取。對于多只股票的抽取,由于存在推薦機構(gòu)與股票之間的對應問題,所以需要單獨進行研發(fā)處理,匹配方式采用向前/向后最大距離匹配。
文本溯源首先對進入的文本開啟預處理進程,包括對輸入文本進行分詞、去除停用詞,并將分詞列表返回到文本溯源核心操作、即最大匹配模塊。該模塊重點是對數(shù)據(jù)庫中已人工標注處理的文章,逐一調(diào)用單元匹配模塊進行匹配度計算(其間調(diào)用文本向量轉(zhuǎn)化模塊獲得文章文本向量,并調(diào)用匹配度計算模塊計算兩者相似度),最后根據(jù)閾值設置,選取相似度大于閾值的最相似文章(若有文章大于完全匹配閾值,則選取這類文章的最早文章)返回至外部系統(tǒng)。單元溯源模塊對從最大匹配模塊中返回的文章整合加載了溯源操作。文本溯源體系結(jié)構(gòu)設計如圖5所示。由于在預處理階段已經(jīng)對數(shù)據(jù)庫中所有的文章均設計展開了匹配計算,通過回溯操作就可以找到輸入文章的源頭文章。其中,匹配度計算使用余弦相似度算法獲得研究實現(xiàn)。在相似度計算過程中,分析推得流程步驟可表述如下:
(1) 使用TF-IDF算法找出文章中的關鍵詞,TF即關鍵詞詞頻,是指一篇文章中關鍵詞出現(xiàn)的頻率,TF的值可由公式(3)求得:
TF=N/M
(3)
式中,N表示該關鍵詞的個數(shù),M表示文章詞的總數(shù)。
IDF指逆向文本頻率,是一個用于衡量關鍵詞權(quán)重的指數(shù),IDF的值即可由公式(4)運算給出:
IDF=log(K/Kw)
(4)
式中,K為文章總數(shù),Kw為關鍵詞出現(xiàn)過的文章數(shù)。
(2)在文本向量模型中,D表示文本,特征項T是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語言單位,主要是由詞或者短語構(gòu)成。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權(quán)重表示其重要程度,即:
D=D(T1,W1;T2,W2;…;Tn,Wn)
(5)
在此,可簡記為:
D=D(W1,W2,…,Wn)
(6)
式中,Wk表示Tk的權(quán)重,Tk表示文檔D中的第k個特征值。綜上可知,式(6)即可稱做文本D的權(quán)值向量表示。其中,1≤k≤n。
(3)2個文本D1和D2之間的內(nèi)容相關度Sim(D1,D2)常用向量之間夾角的余弦值表示,計算公式可見如下:
(7)
式中,W1k為文本D1的第k個特征項的權(quán)值,W2k為文本D2的第k個特征項的權(quán)值。其中,1≤k≤n。
(4)根據(jù)上述方法可以對所有文章進行兩兩之間的相似度計算,通過測試設置一定的相似度閾值,即可獲得文章的溯源結(jié)果。
圖5 文本溯源體系結(jié)構(gòu)圖Fig. 5 Text traceability structure
最后進行文本挖掘和溯源的結(jié)果,將文本挖掘得到的各項信息和文章既有信息相結(jié)合,產(chǎn)生結(jié)果可分為每日數(shù)據(jù)的輸出和整體溯源結(jié)果的輸出。其中,每日數(shù)據(jù)只輸出當天文章的結(jié)果,而整體溯源則將輸出所有數(shù)據(jù)的結(jié)果。結(jié)果統(tǒng)計與輸出模塊將信息抽取和溯源結(jié)果整合后,即以Excel形式輸出,形成文本挖掘系統(tǒng)的最終結(jié)果。而且,還需要額外設定處理分析師及推薦機構(gòu)與數(shù)據(jù)庫信息是否匹配的問題。
本文詳細論述了基于文本挖掘的網(wǎng)絡信息分析方法,由此設計提出的系統(tǒng)使用相關爬蟲工具獲取網(wǎng)絡信息,通過文本分詞、薦股分類、信息抽取、文本溯源等文本挖掘的相關技術對網(wǎng)絡非結(jié)構(gòu)化信息進行分析,得到文本挖掘結(jié)果,并最終將挖掘結(jié)果用于市場監(jiān)察,形成文本證據(jù)。本文取得的主要成果有:
(1)將文本挖掘應用于市場監(jiān)察,提高了效率。傳統(tǒng)市場監(jiān)察過程由于需要人工處理媒介信息,就會耗費大量的人力物力資源,且較易遺漏重要的信息,給監(jiān)察工作帶來不便。應用文本挖掘技術將信息獲取與分析轉(zhuǎn)換為自動的過程,系統(tǒng)可以直接給出最后的文本挖掘結(jié)果,生成文本證據(jù),大大提高了整個監(jiān)察過程的效率。
(2)將多種分類算法相結(jié)合,進行文本分類。在文本分類方面,系統(tǒng)使用了以決策樹分類規(guī)則為分類入口,結(jié)合隨機森林分類模型以及J48分類模型的分類方法。進行文本分類時,先由決策樹進行判斷,成功則無需進入下層,否則進入模型分類,這種算法模型結(jié)構(gòu),能夠提高分類效率,降低誤判率。
(3)系統(tǒng)實現(xiàn)采用三層式架構(gòu),其中業(yè)務邏輯層分為業(yè)務調(diào)用和邏輯設計兩層,架構(gòu)模塊耦合低,易調(diào)用。這種架構(gòu)設計方便外部系統(tǒng)對系統(tǒng)模塊的單獨調(diào)用,而在日后開發(fā)其它系統(tǒng)時,也利于直接調(diào)用本系統(tǒng)內(nèi)部模塊,使整個系統(tǒng)的可移植性較高,能推進文本信息資源庫的構(gòu)建與完善。
本文的研究尚有一些不足之處,如信息源只局限于網(wǎng)絡文章、整體運行資源消耗過多等,后續(xù)的改進研究主要集中在對信息源的拓展上,可增加微博、微信公眾號等信息的文本挖掘,并進一步優(yōu)化本系統(tǒng)。研究中,使文本證據(jù)收集變得更加廣泛,有利于市場監(jiān)察作用的良好及長效發(fā)揮。
[1] 何印. 基于互聯(lián)網(wǎng)新聞文本挖掘的投資與監(jiān)管輔助決策系統(tǒng)[D]. 成都:西南財經(jīng)大學,2013.
[2] 趙麗麗,趙茜倩,楊娟,等. 財經(jīng)新聞對中國股市影響的定量分析[J]. 山東大學學報(理學版),2012,47(7):70-75,80.
[3] HAGENAU M, LIEBMANN M,NEUMANN D. Automated news reading: Stock price prediction based on financial news using context-capturing features[J]. Decision Support Systems,2013,55(3):685-697.
[4] HUANG C J,LIAO Jiajian,YANG Dianxiu,et al. Realization of a news dissemination agent based on weighted association rules and text mining techniques[J]. Expert Systems With Applications,2010,37(9):6409-6413.
[5] 鄶媛媛. 基于語義的文本相似度算法研究[J]. 計算機光盤軟件與應用,2014(9):302-303.
[6] 刁力力,王麗坤,陸玉昌,等. 計算文本相似度閾值的方法[J]. 清華大學學報(自然科學版),2003,43(1):108-111.
[7] 韓春,田大鋼. 對股票市場信息的文本挖掘[J].中國高新技術企業(yè),2008(23):6-8.
[8] GROTH S S, SIERING M, GOMBER P. How to enable auto-mated trading engines to cope with news-related liquidity shocks? Extracting signals from unstructured data[J]. Decision Support Systems,2014,62:32-42.
[9] 袁赟,張英杰. 基于投影聚類算法的Web文本挖掘證券投資系統(tǒng)[J]. 邵陽學院學報(自然科學版),2009,6(4):61-65.
[10]胡燕. 基于Web信息抽取的專業(yè)知識獲取方法研究[D]. 武漢:武漢理工大學,2007.