何巖新,倪麗萍,曹 琳,馬馳宇
(1.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009;2.過程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230009)
基于本體的股票主題事件案例推理系統(tǒng)研究
何巖新1,2,倪麗萍1,2,曹 琳1,2,馬馳宇1,2
(1.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009;2.過程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230009)
股票市場中一些事件容易影響股票的價(jià)格及收益。為輔助投資者積累經(jīng)驗(yàn)性知識(shí)及快速做出決策,文中在收集主題事件的基本信息及市場波動(dòng)數(shù)據(jù)的基礎(chǔ)上,結(jié)合本體理論和案例推理方法,通過對(duì)事件案例的本體結(jié)構(gòu)定義以及對(duì)金融事件類型本體的構(gòu)建,開發(fā)了股票市場主題事件案例的推理系統(tǒng)原型。該系統(tǒng)用OWL-DL語言描述本體,采用Protégé4.2構(gòu)建本體庫;通過分析主題事件的特征屬性,用相似性度量方法檢索相似案例,進(jìn)而對(duì)目標(biāo)事件做出詳細(xì)分析。通過特定事件對(duì)股票市場的走勢(shì)分析,驗(yàn)證了用相似案例進(jìn)行市場短期預(yù)測具有可行性,同時(shí)引入本體后在推理系統(tǒng)的查全率上有了明顯的提高,從而說明該方法是合理的、有效的。
主題事件;本體;案例推理;案例庫;股票市場
主題事件是指在股票市場中經(jīng)常發(fā)生的可能影響市場波動(dòng)的特定類別事件,如,銀行調(diào)息、公司公布重大事件、舉行世界性盛會(huì)等。在類似的市場環(huán)境下,發(fā)生類似的主題事件往往會(huì)對(duì)市場產(chǎn)生類似的效應(yīng)。因此,對(duì)股票市場,構(gòu)建主題事件案例庫顯得非常必要。通過記錄已經(jīng)發(fā)生的主題事件詳細(xì)內(nèi)容,包括事件的描述、事件前的市場情況及事件導(dǎo)致的股票市場波動(dòng)情況,將有利于投資者積累經(jīng)驗(yàn),提高投資決策能力。
案例推理(Case-Based Reasoning,CBR)是將過去求解問題的經(jīng)驗(yàn)定義為案例并使用案例來求解新的類似的問題[1],而對(duì)于事件案例推理系統(tǒng)來說,就是將事件表示成案例。通過對(duì)相似事件案例的檢索,為新事件的發(fā)生結(jié)果提供輔助決策。然而,傳統(tǒng)的CBR系統(tǒng)大多是用靜態(tài)框架來描述案例,存在難以擴(kuò)展、可重構(gòu)和學(xué)習(xí)性差,且對(duì)理論知識(shí)和領(lǐng)域資源缺乏良好的支持,不能有效利用語義關(guān)系等缺點(diǎn)[2]。本體(ontology)明確了領(lǐng)域內(nèi)共同認(rèn)可的概念術(shù)語,利用領(lǐng)域知識(shí)的語義模型表達(dá)了概念含義,并在內(nèi)部層次中規(guī)定了這些概念之間的關(guān)系。它描述了概念及概念之間關(guān)系的模型,具有較強(qiáng)的知識(shí)表達(dá)能力和支持較強(qiáng)的推理能力。把本體與CBR相結(jié)合,可以把案例所表達(dá)的知識(shí)與用本體表示的一般領(lǐng)域知識(shí)模型進(jìn)行整合,這樣基于本體的案例推理過程可以充分利用領(lǐng)域知識(shí)來獲取更精確和全面的結(jié)果[3]。
在過去的研究中,有不少學(xué)者提出將本體和案例推理相結(jié)合以提高決策能力。文獻(xiàn)[4]將本體與CBR相結(jié)合開發(fā)了電子政務(wù)項(xiàng)目審批決策支持系統(tǒng),與傳統(tǒng)基于關(guān)鍵字的項(xiàng)目案例檢索相比,引入本體技術(shù)后,其案例檢索的查準(zhǔn)率和查全率明顯提高。文獻(xiàn)[5]針對(duì)CBR系統(tǒng)缺乏語義理解的問題,提出將本體與CBR相結(jié)合,通過在注塑模具設(shè)計(jì)案例系統(tǒng)中的應(yīng)用,說明該方法優(yōu)于現(xiàn)有的CBR系統(tǒng)。文獻(xiàn)[6]針對(duì)傳統(tǒng)CBR存在的案例庫難以擴(kuò)展、表述詞表不統(tǒng)一等異構(gòu)問題,將本體技術(shù)引入CBR,研究了基于本體CBR的旅游產(chǎn)品案例表示方法和案例檢索策略。文獻(xiàn)[7]構(gòu)建基于本體的高速交通突發(fā)事件案例的本體模型,提供了對(duì)突發(fā)事件的發(fā)展過程與應(yīng)急處置全過程知識(shí)的語義一致性描述,屏蔽了不同交通信息管理系統(tǒng)之間的異構(gòu)性。文獻(xiàn)[8]通過構(gòu)建基于本體的應(yīng)急響應(yīng)決策支持系統(tǒng),把本體與CBR相結(jié)合,應(yīng)用到信息安全領(lǐng)域,從而共享成功的經(jīng)驗(yàn)知識(shí)。文獻(xiàn)[9]將基于本體的范例推理技術(shù)應(yīng)用到常見問題回答服務(wù)領(lǐng)域,取得了不錯(cuò)的效果。文獻(xiàn)[10]針對(duì)傳統(tǒng)的基于句法的相似性度量方法存在匹配度不高的現(xiàn)象,提出采用本體理論和基于特征的相似性度量方法來確定兩個(gè)問題的相似性,并用基于案例的推理實(shí)現(xiàn)產(chǎn)品信息的檢索和再利用。
事件對(duì)股票市場的影響是毋庸置疑的,過去的研究主要通過事件研究法[11-13]實(shí)證分析某個(gè)事件的影響作用,缺乏系統(tǒng)性和全面性。因此文中將本體與CBR相結(jié)合,通過建立基于本體的股票市場主題事件案例模型及案例推理系統(tǒng),利用本體和案例推理技術(shù)的優(yōu)勢(shì)對(duì)股票市場上發(fā)生的事件影響結(jié)果進(jìn)行預(yù)測。相關(guān)實(shí)例說明該系統(tǒng)能夠檢索出相似的事件案例,對(duì)投資者規(guī)避風(fēng)險(xiǎn)具有一定的現(xiàn)實(shí)參考價(jià)值。
2.1 系統(tǒng)總體架構(gòu)
基于本體的股票市場主題事件案例推理系統(tǒng)基于B/S架構(gòu),整個(gè)系統(tǒng)分為三層:應(yīng)用層、業(yè)務(wù)邏輯層和數(shù)據(jù)存儲(chǔ)層。其中應(yīng)用層主要包括案例管理模塊、案例學(xué)習(xí)模塊、市場波動(dòng)趨勢(shì)預(yù)測模塊和金融事件類型本體管理模塊等。業(yè)務(wù)層用Protégé對(duì)本體進(jìn)行定義,通過支持基于RDFS和OWL等語義推理的Jena2工具包來實(shí)現(xiàn)本體模型的解析和推理[4,6]。數(shù)據(jù)存儲(chǔ)層以MySQL為主要的數(shù)據(jù)庫管理系統(tǒng),實(shí)現(xiàn)案例知識(shí)的存儲(chǔ)。其體系架構(gòu)圖如圖1所示。
圖1 基于本體的案例推理系統(tǒng)體系結(jié)構(gòu)圖
2.2 系統(tǒng)主要功能模塊介紹
(1)案例管理模塊:該模塊根據(jù)案例的表示結(jié)構(gòu),建立和維護(hù)事件案例,包括案例的添加、刪除、修改等操作。
(2)市場波動(dòng)趨勢(shì)預(yù)測模塊:該模塊通過檢索案例庫,尋找與待查詢事件相似的事件案例,根據(jù)檢索得到的事件案例對(duì)市場短期波動(dòng)趨勢(shì)做出預(yù)測。
(3)案例學(xué)習(xí)模塊:該模塊通過對(duì)案例的學(xué)習(xí)和修正形成新的案例,豐富案例庫。
(4)金融事件類型本體管理模塊:該模塊是高級(jí)用戶操作的,即為領(lǐng)域知識(shí)維護(hù)模塊。負(fù)責(zé)股票市場事件類型本體知識(shí)的管理。
(5)系統(tǒng)管理模塊:該模塊主要負(fù)責(zé)系統(tǒng)用戶的管理以及系統(tǒng)設(shè)置。該系統(tǒng)根據(jù)權(quán)限,把用戶劃分為三類:普通用戶可以進(jìn)行市場波動(dòng)趨勢(shì)預(yù)測;高級(jí)用戶是針對(duì)股票市場領(lǐng)域?qū)<叶O(shè)置的,其負(fù)責(zé)案例庫的管理和維護(hù)以及金融事件類型本體管理;系統(tǒng)管理員負(fù)責(zé)管理用戶的權(quán)限。
2.3 系統(tǒng)推理流程
股票市場主題事件案例推理系統(tǒng)的基本流程如下:
Step1:根據(jù)用戶所提交的事件信息,包括事件時(shí)間、事件摘要、事件發(fā)生前市場波動(dòng)情況、事件類型以及趨勢(shì)等,在主題事件案例庫中尋找相似案例;
Step2:若沒有找到相似案例,則存入最新事件案例,更新案例庫;如果存在相似案例,則根據(jù)事件的相似度的計(jì)算結(jié)果排序,按照案例的相似度大小排序展現(xiàn)給用戶,并列出相似事件案例的詳細(xì)信息;
Step3:用戶通過分析案例信息,對(duì)市場做出預(yù)測反應(yīng)。
3.1 基于本體的案例表示
(1)主題事件特征屬性選擇。
通過對(duì)股票市場主題事件的分析,發(fā)現(xiàn)主題事件的描述一般是基于文本的非結(jié)構(gòu)化形式。因此需要收集這些事件知識(shí),并抽取出事件屬性來規(guī)范化事件案例,這樣更有利于案例庫的存儲(chǔ)、維護(hù)以及推理功能的實(shí)現(xiàn)。
對(duì)于一個(gè)事件,一般應(yīng)包含兩類信息:事件的描述和事件的影響。此外不同的市場環(huán)境下事件的影響作用可能不同。因此,針對(duì)股票市場主題事件,文中將其抽象為一個(gè)三元組表,分別為事件描述、事件前市場描述和事件影響結(jié)果,即:Event_Case:{Event_Description,Market_Description,Event_Results}。
事件描述表示事件的基本信息,可以描述為Event_Description:{Event_ID,Event_Time,Event_Abstract,Event_Type,Event_Trend}。其中,Event_ID表示“事件編號(hào)”,Event_Time表示“事件發(fā)生時(shí)間”,Event_Abstract表示“事件摘要”,Event_Type表示“事件類型”,Event_Trend表示“趨勢(shì)”。對(duì)于事件發(fā)生時(shí)間,文中將事件公布日當(dāng)做事件發(fā)生時(shí)間。
事件前市場描述表示為Market_Description:{updown_five,updown_ten}。其中,updown_five表示“事件前五天平均漲跌”,updown_ten表示“事件前十天平均漲跌”。在股票市場中,股票漲跌反應(yīng)了股價(jià)波動(dòng)情況。通過計(jì)算事件發(fā)生前一段時(shí)間股票的漲跌值,能夠了解當(dāng)前市場的波動(dòng)情況。
事件影響結(jié)果表示為Event_Results:{Ten_Day_Market}。其中,Ten_Day_Market表示“十天股指表現(xiàn)”。文中選取事件公布后十天股指表現(xiàn)作為事件對(duì)股市短期影響的描述。
(2)主題事件案例本體結(jié)構(gòu)定義。
基于對(duì)主題事件屬性選擇后,通過分析發(fā)現(xiàn),對(duì)于事件類型其涉及到的種類多,文中經(jīng)過歸納整理將其分為貨幣政策事件、財(cái)政政策事件以及公共政策。在此基礎(chǔ)上,構(gòu)建了主題事件類型本體,通過該本體給出了影響市場主要事件類型的基本術(shù)語以及相互間的關(guān)系,其結(jié)構(gòu)如圖2所示。
圖2 事件類型概念樹
綜上,在主題事件案例推理系統(tǒng)中,案例本體結(jié)構(gòu)如圖3所示。
該系統(tǒng)中所包含的兩類本體—主題事件案例本體和主題事件類型本體,兩者均屬于輕量級(jí)的應(yīng)用本體,結(jié)構(gòu)較簡單,易于表達(dá)和實(shí)現(xiàn)[4]。
3.2 基于本體的事件案例檢索策略
對(duì)于基于本體的案例推理系統(tǒng),其檢索過程中相似度計(jì)算是很重要的環(huán)節(jié),通過相似度的計(jì)算來衡量查詢案例和檢索到的案例之間的相似關(guān)系。
一般地,基于本體的案例推理系統(tǒng),其案例間的相似度計(jì)算公式可以表示成公式(1)。
圖3 案例本體結(jié)構(gòu)
(1)
其中,Sim(C1,C2)表示兩個(gè)案例的總體相似度;wi表示第i個(gè)屬性的權(quán)重;Sim(Xi,Yi)表示第i個(gè)屬性的相似度即案例局部相似度。
具體地,主題事件案例相似度計(jì)算可以分解為兩個(gè)步驟:先計(jì)算案例間的局部相似度,再計(jì)算案例間的總體相似度。該系統(tǒng)中,對(duì)于屬性分為四種類型:數(shù)值型、文本型、符號(hào)型和本體類中定義的本體類型屬性。對(duì)于不同類型屬性以下給出不同相似度計(jì)算公式。
3.2.1 數(shù)值型屬性相似度計(jì)算
文中的屬性“事件前五天平均漲跌”和“事件前十天平均漲跌”即為該類型。數(shù)值型屬性的局部相似度可表示為公式(2)。
(2)
其中,xi和yi分別表示案例X和案例Y的第i個(gè)屬性值,當(dāng)|xi-yi|值越大時(shí),其相似度值越小。
3.2.2 文本型屬性相似度計(jì)算
文中的屬性“事件摘要”即為文本型屬性。首先對(duì)該文本屬性值進(jìn)行預(yù)處理,包括中文文本分詞、去除停用詞以及文本特征項(xiàng)選擇。并通過構(gòu)造文本的特征向量,用向量間的夾角余弦值來衡量文本相似度。
假設(shè)兩個(gè)文本di和dj的特征向量分別為Vdi=(wi1,wi2,…,win)和Vdj=(wj1,wj2,…,wjn)。其相似度計(jì)算可表示為公式(3)。
(3)
其中,θ表示兩特征向量在空間中的夾角;Sim(di,dj)表示di和dj的相似度,Sim(di,dj)越大表示兩個(gè)文本之間的相似度越高。
3.2.3 符號(hào)型屬性相似度計(jì)算
符號(hào)型屬性值屬于一種簡單的枚舉值,其值列舉了該屬性所有可能的取值。文中屬性“趨勢(shì)”即為該類型,其值包含三個(gè)值:上調(diào)、下調(diào)和無。其相似度計(jì)算表示為公式(4)。
(4)
3.2.4 本體類型屬性相似度計(jì)算
對(duì)于本體類型屬性的,其值是本體中的某個(gè)概念或者實(shí)例,文中屬性“事件類型”即為該類型??梢岳酶拍?或?qū)嵗?的相似度來衡量相應(yīng)屬性值的相似度,而概念(或?qū)嵗?的相似度通過計(jì)算樹狀結(jié)構(gòu)中的節(jié)點(diǎn)距離來計(jì)算。計(jì)算本體類型特征值的局部相似度,假設(shè)兩個(gè)實(shí)例i1和i2,根據(jù)文獻(xiàn)[14],計(jì)算相似度可表示為公式(5)。
Sim(i1,i2)=
(5)
其中,Msc(i1,i2)表示兩個(gè)實(shí)例i1和i2的最近父節(jié)點(diǎn);Depth(Msc(i1,i2))表示最近父節(jié)點(diǎn)在樹狀結(jié)構(gòu)中的深度(父節(jié)點(diǎn)到根節(jié)點(diǎn)經(jīng)過的節(jié)點(diǎn)數(shù));Dis(i1,i2)表示兩個(gè)實(shí)例的最短距離(實(shí)例i1和i2經(jīng)過的最少節(jié)點(diǎn)數(shù))。當(dāng)Depth(Msc(i1,i2))或Dis(i1,i2)值越小時(shí),兩個(gè)實(shí)例間的相似度也就越大。
根據(jù)圖2,利用公式(5)可以得到表1中一組實(shí)例間的相似度值。
表1 事件類型概念樹中實(shí)例相似度計(jì)算結(jié)果
基于本體的股票市場主題事件案例推理系統(tǒng)采用的開發(fā)語言是Java。編程開發(fā)環(huán)境是MyEclipse,數(shù)據(jù)庫采用的是MySQL,操作系統(tǒng)為Windows7。推理系統(tǒng)采用OWL-DL語言描述本體,采用Protégé4.2作為本體庫構(gòu)建工具。
文中系統(tǒng)主要考察事件對(duì)A股短期走勢(shì)的影響,結(jié)合主題事件案例本體結(jié)構(gòu),構(gòu)建了主題事件案例本體和相關(guān)實(shí)例。
圖4是在Protégé4.2下創(chuàng)建的金融主題事件案例本體及實(shí)例。
圖4 在Protégé4.2金融主題事件案例本體及實(shí)例
由于查詢案例發(fā)生后市場短期內(nèi)表現(xiàn)為下跌,因此由檢索結(jié)果可知,相似度值高的案例走勢(shì)與查詢檢索案例發(fā)生后市場短期走勢(shì)具有一定的相似性,通過案例檢索進(jìn)行市場短期預(yù)測具備可行性。同時(shí),引入本體后能夠有效提高案例推理系統(tǒng)的查全率,能夠檢索出如“存貸款利率調(diào)整”等相關(guān)事件類型的案例,從而提供更全面的參考。表明該系統(tǒng)設(shè)計(jì)思想是合理的,實(shí)現(xiàn)方法是有效的。
基于本體的股票市場主題事件案例推理系統(tǒng),充分利用本體的優(yōu)勢(shì)來提高事件案例檢索的查全率和準(zhǔn)確率。通過對(duì)事件案例的本體結(jié)構(gòu)定義以及對(duì)金融事件類型本體的構(gòu)建,開發(fā)了股票市場主題事件案例推理系統(tǒng)原型,通過具體事件案例進(jìn)行了仿真測試,驗(yàn)證了該系統(tǒng)在案例推理中的合理性。
圖5 案例檢索結(jié)果界面截圖
下一步的工作重點(diǎn)是對(duì)案例庫的進(jìn)一步完善以及對(duì)屬性權(quán)重設(shè)置方法的研究。
[1]KolodnerJL.Anintroductiontocase-basedreasoning[J].ArtificialIntelligenceReview,1992,6(1):3-34.
[2] 高俊杰,鄧貴仕.基于本體的范例推理系統(tǒng)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2009,26(2):406-410.
[3] 謝紅薇,李建偉.基于本體的案例推理模型研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(4):1422-1424.
[4] 劉曉文,胡克瑾.基于本體和CBR的電子政務(wù)項(xiàng)目審批決策支持系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2009,29(3):896-899.
[5]GuoYuan,HuJie,PengYinghong.ACBRsystemforinjectionmoulddesignbasedonontology:acasestudy[J].ComputerAidedDesign,2012,44(6):496-508.
[6] 虞 娟.基于本體的CBR及其在旅游產(chǎn)品智能推薦系統(tǒng)的應(yīng)用研究[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2013,29(6):67-70.
[7] 李文雄,閆茂德,王建偉.高速公路交通突發(fā)事件案例的本體模型及應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2013,30(3):55-58.
[8]LiuPing,YuHaifeng,MaGuoqing.AnincidentresponsedecisionsupportsystembasedonCBRandontology[C]//Procofinternationalconferenceoncomputerapplicationandsystemmodeling.[s.l.]:[s.n.],2010:337-340.
[9]YangShengyuan,LiaoPenchin.Anontology-supportedcase-basedreasoningtechniqueforFAQproxyservice[C]//Procofinternationalconferenceonsoftwareengineeringandknowledgeengineering.[s.l.]:[s.n.],2005:693-644.
[10]AkmalS,ShihLH,BatresR.Ontology-basedsimilarityforproductinformationretrieval[J].ComputersinIndustry,2014,65(1):91-107.
[11] 孫伶俐.股票市場上利率政策公告效應(yīng)實(shí)證研究[J].中南財(cái)經(jīng)政法大學(xué)學(xué)報(bào),2008(6):65-70.
[12] 劉 洋.存款準(zhǔn)備金率調(diào)整對(duì)我國證劵市場的影響[J].統(tǒng)計(jì)研究,2008,25(3):42-45.
[13] 謝 敏.談?dòng)』ǘ愊抡{(diào)對(duì)滬市的影響[J].知識(shí)經(jīng)濟(jì),2009(6):36-37.
[14]WuZ,PalmerM.Verbsemanticsandlexicalselection[C]//Proceedingsofthe32ndannualmeetingoftheassociationsforcomputationallinguistics.LasCruees,NewMexico:[s.n.],1994:133-138.
Research on Case Based Reasoning System of Stock Theme Events Based on Ontology
HE Yan-xin1,2,NI Li-ping1,2,CAO Lin1,2,MA Chi-yu1,2
(1.School of Management,Hefei University of Technology,Hefei 230009,China;2.Key Laboratory of Process Optimization and Intelligent Decision-making of Ministry of Education,Hefei 230009,China)
In stock markets there are some events that their occurrences will significantly affect stocks’ prices and profits.In order to help investors accumulate experimental wealth and quickly make decisions,in this paper a case-based reasoning system for subject events in stock markets was constructed with the combination of ontology theory and case-based reasoning method,then with information about subject events and data about market fluctuations,the ontology structures were defined for event cases and type ontologies were set for financial events.In this system,OWL-DL was used to describe ontology,and Protégé4.2 was applied to build the ontology base.By studying the feature properties and using similar measuring method to retrieve similar cases,a target event was finally analyzed in detail.In the end a trending analysis for a certain event to the stock markets was given,the results showed that using similar cases to predict short-term market effect was feasible,and meantime the recall ratio was obviously improved after introducing ontology into the reasoning system,which means that the proposed method is reasonable and effective.
theme events;ontology;Case-Based Reasoning(CBR);case base;stock market
2015-02-13
2015-06-04
時(shí)間:2016-01-04
國家自然科學(xué)青年基金項(xiàng)目(71301041)
何巖新(1989-),男,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘、人工智能。
http://www.cnki.net/kcms/detail/61.1450.TP.20160104.1607.066.html
TP302.1
A
1673-629X(2016)01-0033-06
10.3969/j.issn.1673-629X.2016.01.007