劉政昊
摘?要:[目的/意義]結(jié)合金融證券行業(yè)特征,借鑒層次式設(shè)計(jì)思路和數(shù)據(jù)立方體概念,提出多層領(lǐng)域本體立方體模型并完成構(gòu)建。[方法/過(guò)程]復(fù)用FBIO本體進(jìn)行知識(shí)建模;利用LDA主題建模與BIRCH層次聚類(lèi)完成概念提取;基于依存句法和深度學(xué)習(xí)框架的知識(shí)抽取完成本體實(shí)例擴(kuò)充;通過(guò)維度分類(lèi)和基于概率的實(shí)體空間向量表示增強(qiáng)語(yǔ)義關(guān)聯(lián)性。[結(jié)果/結(jié)論]多層構(gòu)建方式和立方體結(jié)構(gòu)增加了知識(shí)內(nèi)在關(guān)聯(lián),為金融概念知識(shí)提供多層次、細(xì)粒度的知識(shí)組織方式;也為本體構(gòu)建提供新的思路。
關(guān)鍵詞:多層領(lǐng)域本體;本體立方體;金融證券;知識(shí)關(guān)聯(lián);層次聚類(lèi);知識(shí)抽取
DOI:10.3969/j.issn.1008-0821.2022.01.008
〔中圖分類(lèi)號(hào)〕G254?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2022)01-0072-15
Abstract:[Purpose/Significance]Based on the characteristics of financial securities industry,a multilevel domain ontology cube model was proposed and constructed by referring to the concept of hierarchical design and data cube.[Method/Process]FBIO was used ontology for knowledge modeling;LDA topic modeling and Birch hierarchical clustering were used to complete concept extraction.Ontology instance expansion was completed by knowledge extraction based on dependency syntax and deep learning framework.Semantic relevance was enhanced through dimension classification and probabilistic entity space vector representation.[Result/Conclusion]The multi-level structure and the cube structure increased the internal correlation of knowledge,and provided a multi-level and fine-grained knowledge organization mode for financial concept knowledge.It also provides new ideas for ontology construction.
Key words:multilayer domain ontology;ontology cube;financial securities;knowledge association;hierarchical clustering;knowledge extraction
金融是現(xiàn)代經(jīng)濟(jì)的核心。隨著經(jīng)濟(jì)全球化進(jìn)程的加速,各金融機(jī)構(gòu)間的關(guān)聯(lián)日趨緊密,各細(xì)分行業(yè)產(chǎn)生的海量數(shù)據(jù)關(guān)聯(lián)也趨于多樣化,金融市場(chǎng)已成為開(kāi)放、互聯(lián)的復(fù)雜巨系統(tǒng)[1]。金融科技概念的興起也引發(fā)了金融行業(yè)新一輪的技術(shù)革命,在國(guó)家大數(shù)據(jù)戰(zhàn)略背景下,金融大數(shù)據(jù)發(fā)揮了重要的價(jià)值[2-5]。然而,金融行業(yè)積累的豐富數(shù)據(jù)資源在給加速金融行業(yè)轉(zhuǎn)型升級(jí)帶來(lái)新的機(jī)遇的同時(shí)也引發(fā)了新的問(wèn)題。在證券行業(yè),由于業(yè)務(wù)、產(chǎn)品、客戶多模塊線條需要統(tǒng)一布局,存在著數(shù)據(jù)多源異構(gòu)且稀疏性強(qiáng)、知識(shí)動(dòng)態(tài)性和關(guān)聯(lián)性顯著等特點(diǎn)[6],加之證券投資領(lǐng)域知識(shí)體系本就紛繁復(fù)雜,這無(wú)疑增加了投研人員和投資者的認(rèn)知和分析成本,從長(zhǎng)遠(yuǎn)來(lái)看,也不利于證券行業(yè)的數(shù)字化和智能化發(fā)展。因而,如何對(duì)金融知識(shí)進(jìn)行有效組織與關(guān)聯(lián)以提高金融領(lǐng)域知識(shí)的利用效率,已成為學(xué)術(shù)界與業(yè)界共同關(guān)注的熱點(diǎn)問(wèn)題。
本體(Ontology)作為一種能在語(yǔ)義和知識(shí)層次上描述多源異構(gòu)知識(shí)的建模工具,被認(rèn)為是大數(shù)據(jù)環(huán)境下解決“信息和知識(shí)孤島問(wèn)題”的最佳方法[7-8]。領(lǐng)域本體(Domain Ontology)是對(duì)具體專業(yè)領(lǐng)域內(nèi)知識(shí)的概括與集合,不僅定義領(lǐng)域內(nèi)基本概念,還覆蓋各個(gè)概念之間的關(guān)系,提供該領(lǐng)域內(nèi)的重要術(shù)語(yǔ)及理論、實(shí)例和相互關(guān)系領(lǐng)域活動(dòng)等[9]?;陬I(lǐng)域本體的知識(shí)表示與組織保證知識(shí)理解的唯一性,同時(shí)能夠適應(yīng)涉及的知識(shí)領(lǐng)域多樣性以及語(yǔ)義關(guān)系復(fù)雜性的特點(diǎn)[10]。
領(lǐng)域本體的構(gòu)建方法一直是當(dāng)前本體研究熱點(diǎn),傳統(tǒng)的人工構(gòu)建方法需要領(lǐng)域?qū)<业慕槿?,成本較高且難以復(fù)用[11-12]。隨著人工智能的發(fā)展,越來(lái)越多基于深度學(xué)習(xí)的自動(dòng)化構(gòu)建方法受到了學(xué)者們廣泛關(guān)注[13-16]。本文以金融證券行業(yè)為例,提出了一種能夠多維度表征知識(shí)概念的本體立方體結(jié)構(gòu)框架,首先對(duì)概念進(jìn)行主題建模和層次聚類(lèi),構(gòu)建概念間層級(jí)關(guān)系;然后基于信息抽取方法和技術(shù),對(duì)大量的非結(jié)構(gòu)化語(yǔ)料進(jìn)行有效的實(shí)體和關(guān)系抽取,并依據(jù)概念間的語(yǔ)義相似性進(jìn)行維度分類(lèi),從而構(gòu)建起實(shí)例本體立方體結(jié)構(gòu),為實(shí)現(xiàn)金融知識(shí)的有效關(guān)聯(lián)與融合提供了理論模型支持,同時(shí)也為領(lǐng)域本體構(gòu)建方法提供了新的實(shí)現(xiàn)思路。
1?相關(guān)研究
1.1?領(lǐng)域本體構(gòu)建方法與技術(shù)
隨著人工智能第三次熱潮的到來(lái),本體概念頻繁地被人工智能與知識(shí)工程領(lǐng)域所提及。目前,領(lǐng)域本體的構(gòu)建方法與技術(shù)已經(jīng)相對(duì)成熟。早在2003年,歐盟信息社會(huì)技術(shù)方案委員會(huì)就通過(guò)研究本體構(gòu)建的36種方法,分析了以文本、字典、知識(shí)庫(kù)及半結(jié)構(gòu)化圖表為數(shù)據(jù)源的領(lǐng)域本體構(gòu)建技術(shù)、方法與工具[17]。同時(shí)期中國(guó)科學(xué)院則致力于研究形式化本體在領(lǐng)域知識(shí)的復(fù)用和共享中的作用以及領(lǐng)域知識(shí)復(fù)用的虛擬領(lǐng)域本體的構(gòu)建方法與技術(shù)[18],并取得了一定成果。隨著對(duì)領(lǐng)域本體構(gòu)建研究的深入,越來(lái)越多的學(xué)者試圖通過(guò)不同的技術(shù)和方法對(duì)不同領(lǐng)域進(jìn)行本體建模。
在以統(tǒng)計(jì)學(xué)習(xí)為主的構(gòu)建技術(shù)中,自然語(yǔ)言處理、信息檢索等技術(shù)被廣泛應(yīng)用在領(lǐng)域本體構(gòu)建的各個(gè)模塊,如國(guó)外學(xué)者Shih C W等[19]的基于詞匯共現(xiàn)與合并的水結(jié)晶模型(Crystallizing Model);Sanchez D等[20]的基于核心動(dòng)詞挖掘技術(shù);國(guó)內(nèi)研究者鄭姝雅等[21]面向用戶生成內(nèi)容的術(shù)語(yǔ)抽取技術(shù);鄧詩(shī)琦等[22]面向智能應(yīng)用的應(yīng)用驅(qū)動(dòng)循環(huán)技術(shù)等。這些技術(shù)的基本思想都是利用詞匯單元的共現(xiàn)信息識(shí)別它們的關(guān)系并應(yīng)用在概念和關(guān)系抽取中,構(gòu)建過(guò)程注重應(yīng)用關(guān)聯(lián)規(guī)則挖掘等淺層語(yǔ)義,雖然一定程度上提高了構(gòu)建效率,但準(zhǔn)確率低下,難以擴(kuò)展和復(fù)用。此外,Shamsfard M等[23]在調(diào)研中發(fā)現(xiàn),領(lǐng)域本體的構(gòu)建中多數(shù)研究仍主要關(guān)注層次關(guān)系(Hierarchical Relation),對(duì)于非層次關(guān)系的抽取與表示常常無(wú)能為力,因此僅采用統(tǒng)計(jì)學(xué)習(xí)為主的技術(shù)構(gòu)建的本體維度略顯單一,只適合體系較為單一明確且知識(shí)關(guān)聯(lián)特征不明顯的領(lǐng)域。
與統(tǒng)計(jì)學(xué)習(xí)技術(shù)相對(duì)應(yīng)的語(yǔ)言學(xué)構(gòu)建技術(shù)則更加注重對(duì)深層語(yǔ)義的理解與分析,因此語(yǔ)義字典、語(yǔ)義模板等被應(yīng)用在實(shí)際的領(lǐng)域本體構(gòu)建中。國(guó)外學(xué)者Zouaq A等[24]提出了一種基于深度語(yǔ)義分析與圖論方法結(jié)合的領(lǐng)域本體構(gòu)建方法;Lee C S等[25]在構(gòu)建過(guò)程中利用語(yǔ)形學(xué)的概念構(gòu)建了概念間的關(guān)系,同時(shí)結(jié)合領(lǐng)域?qū)<覍?duì)概念和關(guān)系進(jìn)行了修正;國(guó)內(nèi)學(xué)者劉萍等[26]基于語(yǔ)言學(xué)的方法對(duì)領(lǐng)域本體構(gòu)建的概念抽取和關(guān)系識(shí)別進(jìn)行了綜述分析,并認(rèn)為深度語(yǔ)義和知識(shí)關(guān)聯(lián)特征需要多源異構(gòu)數(shù)據(jù)融合和概念語(yǔ)義增強(qiáng)理解才能實(shí)現(xiàn)?;谡Z(yǔ)言學(xué)的方法可以在一定程度上解決術(shù)語(yǔ)多含義的問(wèn)題并降低關(guān)系識(shí)別的誤差和丟失,從而獲得更高性能和更加權(quán)威的本體知識(shí),但是由于領(lǐng)域知識(shí)的高度復(fù)雜性和動(dòng)態(tài)性,僅靠語(yǔ)言學(xué)主導(dǎo)的領(lǐng)域本體構(gòu)建在實(shí)際應(yīng)用中依舊會(huì)受到較大的限制。
1.2?金融領(lǐng)域本體建模
本體作為一種能夠在語(yǔ)義和知識(shí)層次上描述信息系統(tǒng)的建模工具,被廣泛應(yīng)用于各領(lǐng)域的知識(shí)表示與關(guān)聯(lián)中。在特定的金融領(lǐng)域中,好的本體模型作為金融知識(shí)表示的模式層可以很大程度上滿足金融行業(yè)對(duì)數(shù)據(jù)質(zhì)量和語(yǔ)義關(guān)聯(lián)嚴(yán)謹(jǐn)性的需求[27],因此也受到該領(lǐng)域?qū)W界業(yè)界的廣泛關(guān)注?,F(xiàn)有的金融本體中最為知名的是美國(guó)企業(yè)數(shù)據(jù)管理委員會(huì)(Enterprise Data Management Council,EDM Council)主導(dǎo),通過(guò)眾包方式構(gòu)建的FIBO(Financial Industry Business Ontology)。FIBO作為領(lǐng)域本體,定義了金融基本概念(FBC)、金融指標(biāo)(IND)、金融實(shí)體(BE)、證券和股票(SEC)以及貸款(LOAN)等領(lǐng)域內(nèi)的實(shí)體及其關(guān)系,并且在構(gòu)建中也運(yùn)用了層級(jí)化的思想。然而,F(xiàn)IBO尚處于本體開(kāi)發(fā)周期的初級(jí)階段[28],主要對(duì)基本術(shù)語(yǔ)進(jìn)行規(guī)范和共享,對(duì)金融知識(shí)的關(guān)聯(lián)表現(xiàn)一般。Browne O等[29]對(duì)FIBO進(jìn)行了擴(kuò)展,將以前未映射的股票和債券納入其中,并開(kāi)發(fā)了數(shù)據(jù)管理框架,但這一改進(jìn)只部分解決了數(shù)據(jù)交換的問(wèn)題,多層次語(yǔ)義無(wú)法關(guān)聯(lián)的問(wèn)題依舊存在。
此外,Ren R等[30]基于金融新聞庫(kù)構(gòu)建了特定金融領(lǐng)域本體,該本體試圖存儲(chǔ)所有與金融新聞相關(guān)的重要信息,其語(yǔ)義表達(dá)能力較強(qiáng),但由于缺乏規(guī)范性的構(gòu)建流程,本體涉及的范圍邊界模糊、收集的概念顆粒度不適當(dāng),難以大規(guī)模運(yùn)用;Yang B[31]提出物流金融風(fēng)險(xiǎn)本體論OntoLFR,并構(gòu)建了物流金融風(fēng)險(xiǎn)本體論模型,以適應(yīng)風(fēng)險(xiǎn)在預(yù)警和事前控制中的可變性、復(fù)雜性和關(guān)聯(lián)性,雖然該本體構(gòu)建目的明確,但領(lǐng)域知識(shí)的揭示需要借助來(lái)自上層的知識(shí)體系及相關(guān)領(lǐng)域的大量概念,而該模型沒(méi)有提供規(guī)范化的標(biāo)準(zhǔn),難以與相關(guān)領(lǐng)域集成;強(qiáng)韶華等[32]基于本體的規(guī)則推理技術(shù)和案例推理技術(shù)構(gòu)建了金融事件本體,并建立基于本體的主題事件案例庫(kù)設(shè)計(jì)案例推理(CBR)表示、檢索與重用,其優(yōu)點(diǎn)在于融合了金融輿情數(shù)據(jù)并考慮了本體推理,但其在金融領(lǐng)域?qū)傩栽O(shè)計(jì)、基于本體的CBR+RBR關(guān)聯(lián)模型設(shè)計(jì)上均存在一定的缺陷,并且本體案例庫(kù)的設(shè)計(jì)規(guī)模較小,存在與實(shí)際應(yīng)用脫節(jié)的問(wèn)題。
綜合現(xiàn)有研究可以發(fā)現(xiàn),雖然領(lǐng)域本體的構(gòu)建方法和應(yīng)用趨于多元化,但是由于知識(shí)系統(tǒng)的復(fù)雜性,在對(duì)領(lǐng)域異構(gòu)知識(shí)的共享與重構(gòu)時(shí),未能很好地完成信息的廣泛組織和有效關(guān)聯(lián)。目前的領(lǐng)域本體構(gòu)建思路偏重于專業(yè)性和針對(duì)性,但依舊存在本體難以服用和集成、概念體系不規(guī)范等問(wèn)題,而且忽略了本體作為一種可共享的概念集合所應(yīng)當(dāng)具備的通用性與集成性。在金融領(lǐng)域,本體對(duì)于金融知識(shí)組織和表示具有很強(qiáng)的指導(dǎo)意義,但目前的構(gòu)建過(guò)程并不十分規(guī)范;此外,現(xiàn)有的金融本體中影響力較大的FIBO本體不完全適用于中國(guó)的金融體系,且該本體包含范圍太廣,并沒(méi)有聚焦于特定的細(xì)分領(lǐng)域,因此不能很好地刻畫(huà)細(xì)粒度的概念和知識(shí)。綜上,本文以金融證券領(lǐng)域?yàn)槔?,基于現(xiàn)有研究的不足,重點(diǎn)解決的核心問(wèn)題是:如何利用和改進(jìn)多層本體框架,構(gòu)建多層次、多維度的領(lǐng)域本體,提供一組具有正確類(lèi)別、層級(jí)結(jié)構(gòu)和關(guān)聯(lián)關(guān)系的金融證券領(lǐng)域概念語(yǔ)料庫(kù),以便更好地管理金融領(lǐng)域知識(shí)、支持經(jīng)濟(jì)決策。
2?多層本體立方體模型設(shè)計(jì)
2.1?概念定義
在數(shù)據(jù)庫(kù)領(lǐng)域中,數(shù)據(jù)立方體是數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理研究領(lǐng)域的一種核心數(shù)據(jù)模型,它可以多維度表征數(shù)據(jù)特征,現(xiàn)有的很多研究借鑒了這一思路,如Li J等[33]通過(guò)構(gòu)建語(yǔ)義—空間—時(shí)間數(shù)據(jù)立方體(Semantics-Space-Time Cube),探討了語(yǔ)義、空間和時(shí)間這3個(gè)異構(gòu)信息方面的相互關(guān)系,并得出文本語(yǔ)義隨時(shí)間和空間的變化規(guī)律;Esteban P E等[34]使用基于RDF數(shù)據(jù)立方體詞匯表的多維模型方法,向開(kāi)放鏈接數(shù)據(jù)添加值,完成了數(shù)據(jù)多維度特征的分析;師智斌[35]則借助FCA理論,以形式化的概念和概念層次為基礎(chǔ)進(jìn)行了高性能數(shù)據(jù)立方體及其語(yǔ)義研究。由此可見(jiàn),數(shù)據(jù)立方體的本質(zhì)在于多維度、多刻面的特征表示。
本體作為知識(shí)庫(kù)的表現(xiàn)形式之一,融合多維度信息可以從不同側(cè)面展示本體知識(shí)的隱含特征,因此可以利用數(shù)據(jù)立方體的結(jié)構(gòu)形式進(jìn)一步豐富其語(yǔ)義表達(dá)的多維性和靈活性。本文依托數(shù)據(jù)立方體概念,將能夠多維表征關(guān)聯(lián)知識(shí)實(shí)例的本體模型定義為“本體立方體(Ontology Cube)”,具體定義如下:
定義1:本體立方體(Ontology Cube)是指由維度構(gòu)建出來(lái)的多維知識(shí)表示和存儲(chǔ)空間,是一種為了滿足用戶從多角度多層次進(jìn)行知識(shí)查詢和分析的需要而建立起來(lái)的基于事實(shí)和維的本體實(shí)例模型,其包含了所有要檢索分析的領(lǐng)域知識(shí)實(shí)例和關(guān)系,所有的關(guān)聯(lián)知識(shí)的操作都在立方體上進(jìn)行。
表1對(duì)數(shù)據(jù)立方體和本體立方體涉及的基本概念、存儲(chǔ)對(duì)象、主要解決的問(wèn)題和典型應(yīng)用場(chǎng)景進(jìn)行了詳細(xì)的對(duì)比介紹。
2.2?構(gòu)建思想
框架布局和層次設(shè)計(jì)是在復(fù)雜性概念和具有結(jié)構(gòu)特征的實(shí)例之間構(gòu)建關(guān)系系統(tǒng)的前提。金融證券行業(yè)是對(duì)信息高度敏感的行業(yè),也是信息源高度異構(gòu)、知識(shí)體系最為龐雜的代表行業(yè)之一,因此需要建立一種能夠多層次且多維度刻畫(huà)領(lǐng)域知識(shí)的本體結(jié)構(gòu),以便能夠?qū)崿F(xiàn)對(duì)復(fù)雜知識(shí)體系規(guī)范而明確的描述,從而增強(qiáng)概念間的語(yǔ)義關(guān)聯(lián)。對(duì)此提出以下構(gòu)建思想:
1)借鑒由任守綱等提出的層次式領(lǐng)域本體模型[36],面向不同層次的知識(shí)體系并遵循自頂而下的本體構(gòu)建原則,構(gòu)建由基礎(chǔ)層、概念層和實(shí)例層構(gòu)成的3層領(lǐng)域本體模型。其中,位于基礎(chǔ)層的頂層本體提供了領(lǐng)域特征的普遍聯(lián)系,揭示了領(lǐng)域知識(shí)在更高語(yǔ)義層次上的關(guān)系,為概念層本體提供了底層抽象;概念層的概念本體作為銜接抽象概念與應(yīng)用實(shí)例的中間層次,能夠描述領(lǐng)域基本特征的明確化概念并針對(duì)領(lǐng)域核心知識(shí)類(lèi)別進(jìn)行規(guī)范化和明確化的表示;而應(yīng)用本體作為實(shí)例層,可以實(shí)現(xiàn)領(lǐng)域內(nèi)的具體實(shí)例集成表示。
2)根據(jù)Zhang L L等的劃分依據(jù),將實(shí)例層的各金融實(shí)體劃分為行業(yè)、企業(yè)和內(nèi)部環(huán)境3個(gè)維度[37],形成本體立方體結(jié)構(gòu)。三者從不同的范圍和方向搭建了領(lǐng)域知識(shí)框架,其本身也作為類(lèi)與類(lèi)的關(guān)系(行業(yè)—企業(yè)關(guān)系、行業(yè)—內(nèi)部環(huán)境關(guān)系、企業(yè)—內(nèi)部環(huán)境關(guān)系)包含在本體之中。
行業(yè)(Industry):“行業(yè)”維度或稱為“市場(chǎng)”維度,從宏觀層面描述金融證券相關(guān)實(shí)體、屬性及其關(guān)系。金融證券行業(yè)/市場(chǎng)的主要屬性包括名稱、行業(yè)經(jīng)營(yíng)狀態(tài)、行業(yè)政策、行業(yè)能力(市場(chǎng)容量、輸出值和業(yè)內(nèi)的公司數(shù)量),行業(yè)財(cái)務(wù)指標(biāo)、行業(yè)的生命周期(初創(chuàng)期、成長(zhǎng)期、成熟期和衰退期)及行業(yè)系統(tǒng)性風(fēng)險(xiǎn)等。
企業(yè)(Company):“企業(yè)”維度從中觀層面描述領(lǐng)域知識(shí)。其主要屬性包括公司或機(jī)構(gòu)名稱和數(shù)量,公司或機(jī)構(gòu)治理結(jié)構(gòu)的股權(quán)結(jié)構(gòu)、管理結(jié)構(gòu)、貿(mào)易聯(lián)盟結(jié)構(gòu),企業(yè)/機(jī)構(gòu)競(jìng)爭(zhēng)合作,企業(yè)財(cái)務(wù)指標(biāo)、公司的生命周期、企業(yè)外部風(fēng)險(xiǎn)等。其中企業(yè)財(cái)務(wù)指標(biāo)是一個(gè)比較寬泛的概念,具有比較明顯的數(shù)值屬性。財(cái)務(wù)指標(biāo)及其對(duì)應(yīng)的財(cái)務(wù)實(shí)體通常用來(lái)反映財(cái)務(wù)實(shí)體的狀態(tài)、變化和關(guān)系,其屬性包括更新頻率、時(shí)間、數(shù)據(jù)源等。
內(nèi)部環(huán)境(Inner Environment):“內(nèi)部環(huán)境”維度則是從微觀層面進(jìn)行知識(shí)表示。其主要屬性包括公司產(chǎn)品架構(gòu)、公司人員組織結(jié)構(gòu)、產(chǎn)品財(cái)務(wù)指標(biāo)(包括增長(zhǎng)階段、產(chǎn)能、銷(xiāo)售、價(jià)格等)、公司內(nèi)部文化(公司價(jià)值觀、公司戰(zhàn)略、公司理念等)以及企業(yè)內(nèi)部風(fēng)險(xiǎn)等。
具體的多層本體立方體模型如圖1所示。在該模型中,基礎(chǔ)層和概念層不具有維度傾向性,僅具有層次關(guān)系;實(shí)例層本體則被定義為由行業(yè)—企業(yè)—內(nèi)部環(huán)境3個(gè)維度組成的立方體結(jié)構(gòu),其中由概念映射的實(shí)例集合可以構(gòu)成特定的子立方體,每個(gè)子立方體內(nèi)存儲(chǔ)著由概率值作為空間坐標(biāo)的實(shí)體和關(guān)系。此外,所有概念和實(shí)體可跨層映射與關(guān)聯(lián)。
3?多層金融股權(quán)本體立方體構(gòu)建
3.1?研究框架
本文依托前述多層本體立方體的設(shè)計(jì)思路和本體規(guī)范化構(gòu)建流程,分別從知識(shí)建模、知識(shí)挖掘、知識(shí)抽取和知識(shí)關(guān)聯(lián)的視角逐步完成多層、多維本體立方體的半自動(dòng)化構(gòu)建,并提出如圖2所示的研究框架,具體研究步驟如下:
1)數(shù)據(jù)獲取與預(yù)處理:獲取證券行業(yè)報(bào)告、企業(yè)研報(bào)及公告、財(cái)經(jīng)新聞短訊、證券領(lǐng)域?qū)I(yè)術(shù)語(yǔ)及相關(guān)學(xué)術(shù)文獻(xiàn)等多源異構(gòu)數(shù)據(jù),通過(guò)分詞、去停用詞等預(yù)處理形成初始語(yǔ)料庫(kù)。
2)知識(shí)建模與表示:結(jié)合領(lǐng)域?qū)<抑R(shí)完成對(duì)描述通用知識(shí)特征的上層本體構(gòu)建,然后復(fù)用FIBO本體框架,并用OWL語(yǔ)言進(jìn)行描述和建模。
3)知識(shí)組織與挖掘:利用LDA模型對(duì)概念主題建模,并對(duì)概念進(jìn)一步進(jìn)行BIRCH層次聚類(lèi),在繼承上層本體的基礎(chǔ)上實(shí)現(xiàn)層次概念及關(guān)系的組織。
4)知識(shí)抽取與擴(kuò)展:首先基于依存句法實(shí)現(xiàn)知識(shí)實(shí)例的語(yǔ)義三元組抽取;而后針對(duì)特定的實(shí)體和關(guān)系利用FinBert深度學(xué)習(xí)預(yù)訓(xùn)練模型實(shí)現(xiàn)實(shí)體和關(guān)系的進(jìn)一步抽取和擴(kuò)充。
5)知識(shí)關(guān)聯(lián)與融合:對(duì)概念和實(shí)例按構(gòu)建維度分類(lèi),并利用相似度算法計(jì)算語(yǔ)義相似性,以確定其空間位置;最后將3層本體立方體結(jié)構(gòu)聚合,完成證券本體立方體的構(gòu)建。
3.2?知識(shí)建模:基礎(chǔ)層構(gòu)建
上層本體可通過(guò)四元組O=(C,P,R,X)抽象化表示,其中C表示本體中概念集合,P表示概念屬性的集合,R表示概念間關(guān)系的集合,X則表示本體公理與規(guī)則集合。
以證券領(lǐng)域?yàn)槔蠈颖倔w的基本概念集合可表示為C={金融主體,金融合約,事件,機(jī)構(gòu),指標(biāo),時(shí)間,空間}。其中金融主體是指參與金融活動(dòng)的個(gè)體,如股東、法人、債權(quán)人等;金融合約是金融活動(dòng)得以實(shí)施的憑證,如合約文書(shū)、口頭合約;事件特指在金融活動(dòng)中金融主體或機(jī)構(gòu)參與的活動(dòng),如公司破產(chǎn)、對(duì)外投資等;機(jī)構(gòu)主要指從事金融服務(wù)業(yè)有關(guān)的金融中介機(jī)構(gòu),同時(shí)也包含政府機(jī)構(gòu)及合法存在的社會(huì)機(jī)構(gòu)等。此外,概念與概念之間除了is-a、is-part-of、is-kind-of、is-instance-of、is-attribute-of等繼承與依賴關(guān)系,還可以人為定義不同實(shí)體概念的關(guān)系,實(shí)現(xiàn)概念間的初步關(guān)聯(lián),如在企業(yè)—企業(yè)關(guān)系中,R企業(yè)={同業(yè)資金往來(lái),控股,合作,競(jìng)爭(zhēng)}。上層本體公理與規(guī)則X代表領(lǐng)域本體內(nèi)存在的事實(shí),可以對(duì)本體內(nèi)類(lèi)或者關(guān)系進(jìn)行約束,如機(jī)構(gòu)、事件等屬于金融概念的范圍。在實(shí)際構(gòu)建與建模過(guò)程中,由于開(kāi)發(fā)人員知識(shí)背景以及人力、時(shí)間的限制,將每一個(gè)相關(guān)的領(lǐng)域本體都進(jìn)行構(gòu)建是不現(xiàn)實(shí)的;考慮到國(guó)外已經(jīng)構(gòu)建了成熟的金融領(lǐng)域本體且不同語(yǔ)言描述的本體在基本概念定義上大體相同,為提高本體構(gòu)建效率,研究復(fù)用了FIBO本體。FIBO本體雖然是領(lǐng)域本體,但主要關(guān)注金融全領(lǐng)域的普遍聯(lián)系[38],并涵蓋了證券子領(lǐng)域的通用概念、屬性與關(guān)系,可以指導(dǎo)上層本體的構(gòu)建。
構(gòu)建上層本體的核心是完成對(duì)通用知識(shí)的表示,研究采用OWL語(yǔ)言完成通用概念的建模?;驹卦谥R(shí)表示過(guò)程中首先需要對(duì)信息資源和知識(shí)資源進(jìn)行面向?qū)ο蟮某橄?,以提取概念及其關(guān)系;其次需要按照OWL的語(yǔ)法要求構(gòu)建相應(yīng)的類(lèi)(包括概念、屬性、關(guān)系等)并將類(lèi)存儲(chǔ)在OWL類(lèi)型聲明文檔中。
在基礎(chǔ)層,OWL強(qiáng)大的表達(dá)能力還得到了許多概念構(gòu)造函數(shù)和公理的支持,除了可以通過(guò)“subClassOf”和“subPropertyOf”形成概念的層級(jí)結(jié)構(gòu),通過(guò)“domain”“range”“equivalentProperty”“hasValue”等描述概念間的約束關(guān)系外;還可以通過(guò)“equivalentClass”“sameAs”“inverseOf”形成語(yǔ)義關(guān)聯(lián)關(guān)系;通過(guò)“intersectionOf”“unionOf”等形成概念的邏輯組合;通過(guò)“uniqueProperty”“transitiveProperty”等實(shí)現(xiàn)概念及其關(guān)系的公理定義[39]。上述定義還為概念層和實(shí)例層的構(gòu)建提供了規(guī)范的表示框架,便于相關(guān)概念和實(shí)體的規(guī)范表示與擴(kuò)充,從而從更高的語(yǔ)義層面指導(dǎo)概念層和實(shí)例層的設(shè)計(jì)與實(shí)現(xiàn)。
3.3?知識(shí)挖掘:概念層構(gòu)建
3.3.1?概念主題建模
目前在金融領(lǐng)域,現(xiàn)有的結(jié)構(gòu)化語(yǔ)料尚未達(dá)到能夠構(gòu)建共享概念模型的程度,因此,利用主題建模的方式挖掘非結(jié)構(gòu)化文本信息有助于領(lǐng)域概念的識(shí)別。本文采用LDA主題模型構(gòu)建特征詞項(xiàng),經(jīng)過(guò)聚類(lèi)得到的特征詞可以為概念主題劃分和層級(jí)聚類(lèi)奠定基礎(chǔ)。
為保證文本來(lái)源的多樣性,并能夠從行業(yè)、企業(yè)和內(nèi)部環(huán)境的角度分別進(jìn)行主題建模,本文爬取百度百科金融證券領(lǐng)域相關(guān)詞條325個(gè),調(diào)用Tushare接口獲得上市公司簡(jiǎn)介及主營(yíng)業(yè)務(wù)4 270條,獲取公司研報(bào)及證券行業(yè)短訊共1 000條,此外還人工收集了350條專業(yè)術(shù)語(yǔ)解釋,共同作為主題建模的語(yǔ)料庫(kù)。
在模型參數(shù)設(shè)置方面,采用專家咨詢法集合困惑度判斷法設(shè)定主題數(shù)K=5,learning_decay=0.7,learning_offset設(shè)為50,訓(xùn)練結(jié)果如表2所示。
進(jìn)一步地,利用pyLDAvis實(shí)現(xiàn)主題建??梢暬鐖D3所示。圖中左側(cè)氣泡分布表示不同主題,圓圈大小代表每個(gè)主題的出現(xiàn)頻率,而主題間的位置遠(yuǎn)近表達(dá)了主題接近性。距離越大,說(shuō)明主題之間的差異性越高,困惑度也就越小。圖3右側(cè)則顯示了Topic1前30個(gè)特征詞。其中淺藍(lán)色表示該詞在整個(gè)文檔的權(quán)重,紅色表示該詞在當(dāng)前主題中所占的權(quán)重。此外,超參數(shù)λ可以調(diào)節(jié)特征詞的顯示,λ越接近1表示該主題下更頻繁出現(xiàn)的詞與主題更相關(guān);λ越接近0則表示該主題下更特殊、更獨(dú)有的詞與主題更相關(guān)。
3.3.2?概念層次聚類(lèi)
基于概念主題建模得到了大量的實(shí)體標(biāo)志詞,然而各概念間的層次關(guān)系較為混亂,無(wú)法構(gòu)建出結(jié)構(gòu)清晰的概念本體模型。基于此,在上層本體的框架基礎(chǔ)上利用LDA主題模型和語(yǔ)義特征構(gòu)建自定義特征詞典獲取具有代表性的特征詞,然后通過(guò)BIRCH聚類(lèi)算法劃分領(lǐng)域內(nèi)概念的層次關(guān)系。BIRCH算法是一種增量的聚類(lèi)方法,首先用自底向上的層次算法,然后用迭代的重定位來(lái)改進(jìn)結(jié)果,且聚類(lèi)效率很高。實(shí)驗(yàn)的具體步驟如下:
1)層次聚類(lèi)。BIRCH聚類(lèi)算法無(wú)需提前設(shè)定聚類(lèi)數(shù)目,初始聚類(lèi)結(jié)果設(shè)定為與前述主題相等的5個(gè)簇,如圖4(a)所示,可以看到此時(shí)概念間的父類(lèi)子類(lèi)關(guān)系并不明顯。為了能夠?qū)⒅黝}建模得到的詞向量達(dá)到較好的層次聚類(lèi)效果,將得到的聚類(lèi)數(shù)目最多的簇再次聚類(lèi),以此類(lèi)推共迭代10次,圖4(b)展示了最后一次迭代的聚類(lèi)結(jié)果。
2)聚類(lèi)評(píng)價(jià)。研究采用輪廓系數(shù)(Silhouette Coefficient)對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià)。如式(1)所示,輪廓系數(shù)S(i)結(jié)合內(nèi)聚度a(i)和分離度b(i)兩種因素,當(dāng)S(i)趨近于1時(shí),說(shuō)明樣本i聚類(lèi)越合理。最后一次迭代時(shí)的輪廓系數(shù)為0.4577,表明聚類(lèi)結(jié)果已較為理想。
3)層級(jí)與類(lèi)別劃分。將詞向量對(duì)應(yīng)到具體的詞語(yǔ),從最后一次的迭代結(jié)果開(kāi)始向上追溯,根據(jù)每次的聚簇形狀,結(jié)合詞語(yǔ)所表達(dá)的概念范疇可大致劃分成3層概念集合(其中第0層繼承自上層本體,不包含在內(nèi)),具體的層級(jí)關(guān)系如表3所示。
從表3可以發(fā)現(xiàn),基于上層本體框架的層級(jí)聚類(lèi)能夠在一定程度上表征領(lǐng)域的層級(jí)關(guān)系,但由于金融領(lǐng)域的特殊性,各術(shù)語(yǔ)概念間的層級(jí)關(guān)系并不十分明顯,且概念間存在多種潛在的關(guān)聯(lián)關(guān)系如時(shí)空關(guān)聯(lián)、事件關(guān)聯(lián)等,導(dǎo)致BIRCH聚類(lèi)效果并不突出;也正因如此,構(gòu)建多維度的本體立方體模型顯得十分必要。
3.4?知識(shí)抽取:實(shí)例層構(gòu)建
實(shí)例層的應(yīng)用本體引用和繼承上層本體集成的模塊,并通過(guò)對(duì)概念本體的映射,實(shí)現(xiàn)領(lǐng)域內(nèi)的實(shí)例集成表示與本體擴(kuò)充。然而,要構(gòu)建應(yīng)用本體需要對(duì)大量的證券領(lǐng)域?qū)嶓w和非層級(jí)關(guān)系進(jìn)行抽取,傳統(tǒng)的語(yǔ)言學(xué)模板方法需要構(gòu)建大量的規(guī)則,雖然準(zhǔn)確率較高,但不適應(yīng)數(shù)據(jù)量較大的情況;因此后來(lái)又陸續(xù)提出了基于句法分析的關(guān)系抽取和基于深度學(xué)習(xí)的監(jiān)督/半監(jiān)督關(guān)系抽取方法。本文先基于依存句法規(guī)則進(jìn)行開(kāi)放域三元組抽取,而后根據(jù)提取結(jié)果,借助深度學(xué)習(xí)框架完成限定域?qū)嶓w的輔助抽取,從而實(shí)現(xiàn)了應(yīng)用本體的進(jìn)一步擴(kuò)充。
3.4.1?基于依存句法的開(kāi)放域?qū)嶓w關(guān)系抽取
依存句法分析(Dependency Parsing)能夠根據(jù)詞性及詞間的位置關(guān)系判斷句中各成分的語(yǔ)法依存關(guān)系,因此,基于依存句法的實(shí)體關(guān)系抽取主要依賴于句中的謂詞,當(dāng)以謂詞為代表的關(guān)系中含有論元時(shí),能夠提取出語(yǔ)義三元組。本文采用LTP自然語(yǔ)言處理工具實(shí)現(xiàn)多源文本數(shù)據(jù)的三元組有效提取,通過(guò)設(shè)置抽取規(guī)則,如表4所示,為擴(kuò)充本體實(shí)例及其關(guān)系提供技術(shù)支持。
對(duì)于抽取的結(jié)果,將表義模糊的實(shí)體和非表意關(guān)系進(jìn)行人工剔除,最終得到32 627個(gè)實(shí)體及其關(guān)聯(lián)的1 928種語(yǔ)義關(guān)系,部分抽取結(jié)果如圖5所示。
3.4.2?基于深度學(xué)習(xí)的限定域?qū)嶓w抽取
開(kāi)放域的抽取固然可以有效地?cái)U(kuò)充實(shí)體和關(guān)系,然而一方面由于獲取的頭尾實(shí)體及關(guān)系類(lèi)型過(guò)多導(dǎo)致難以有效組織應(yīng)用本體結(jié)構(gòu);另一方面基于句法分析得到的實(shí)體雖然表義明確但過(guò)于冗長(zhǎng),且一些證券領(lǐng)域的專有名詞和公司名未能被很好地識(shí)別出來(lái)。對(duì)此特別對(duì)公司股票、組織機(jī)構(gòu)、人名地名、主營(yíng)產(chǎn)品和風(fēng)險(xiǎn)事件進(jìn)行了實(shí)體識(shí)別。
本文將實(shí)體識(shí)別環(huán)節(jié)視為一個(gè)序列標(biāo)注問(wèn)題,通過(guò)BIO標(biāo)注法對(duì)隨機(jī)抽取的2 000條文本進(jìn)行人工標(biāo)注,然后使用FinBERT+Bi-LSTM+CRF實(shí)體標(biāo)注深度學(xué)習(xí)框架進(jìn)行訓(xùn)練。具體來(lái)說(shuō),首先利用FinBERT預(yù)訓(xùn)練模型對(duì)詞向量進(jìn)行訓(xùn)練,而后將生成詞向量通過(guò)與定義的實(shí)體標(biāo)簽信息進(jìn)行合并編碼作為輸入到Bi-LSTM模型加強(qiáng)詞性分析,捕捉前后文的雙向語(yǔ)義信息,最后通過(guò)CRF解碼完成命名實(shí)體識(shí)別任務(wù)。
本文將實(shí)驗(yàn)數(shù)據(jù)按照7∶1∶2分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集,設(shè)置learning rate=0.001,banch_size=32,epochs=20。最終的實(shí)驗(yàn)結(jié)果如表5所示。
上述結(jié)果可以看出,機(jī)構(gòu)名和公司名的識(shí)別效果較好,而風(fēng)險(xiǎn)識(shí)別結(jié)果較差,這與標(biāo)注樣本的規(guī)范性和實(shí)體在文本中所占比例有關(guān)。研究對(duì)語(yǔ)料中未標(biāo)注文本進(jìn)行了實(shí)體抽取,人工去重和剔除錯(cuò)誤結(jié)果后,共抽取出23 245個(gè)實(shí)體,完成了對(duì)領(lǐng)域?qū)嶓w的擴(kuò)充。
3.5?知識(shí)關(guān)聯(lián):多層本體立方體聚合
3.5.1?文本分類(lèi)與空間向量表示
多層本體的聚合完成了多層次、細(xì)粒度的金融領(lǐng)域知識(shí)表示,但是對(duì)于證券領(lǐng)域內(nèi)大量跨層級(jí)實(shí)體和非層級(jí)關(guān)系的表征依舊顯得無(wú)能為力。比如“信用風(fēng)險(xiǎn)”在不同的語(yǔ)境下的風(fēng)險(xiǎn)對(duì)象可能是企業(yè)或個(gè)人,甚至可能是整個(gè)產(chǎn)業(yè)鏈;再如“合作”關(guān)系的主體可能涉及到不同層次下的金融主體與金融機(jī)構(gòu)。由此可見(jiàn),概念本身的多義性決定了其能夠在不同維度表征不同含義,而并非只能劃歸到單一的維度或類(lèi)別中。本體立方體可以將實(shí)體表示為基于概率的三維向量,從而加強(qiáng)語(yǔ)義關(guān)聯(lián)的能力。
基于依存句法的三元組較好地保留了語(yǔ)境和語(yǔ)義信息,可以作為分類(lèi)的原始語(yǔ)料。因此,研究將提取的語(yǔ)義三元組視為一個(gè)整體進(jìn)行分類(lèi),并用概率表示頭實(shí)體和尾實(shí)體的分類(lèi)結(jié)果;對(duì)于相同的實(shí)體,則取平均值作為最終的空間向量值。得到的結(jié)果將其進(jìn)一步劃分在不同的子立方體內(nèi),完成實(shí)體的最終定位。
在實(shí)驗(yàn)中,依照2.2節(jié)的維度劃分情況將隨機(jī)抽取的8 000個(gè)三元組分為行業(yè)(市場(chǎng))、企業(yè)和內(nèi)部環(huán)境3類(lèi),然后將數(shù)據(jù)按8∶2分為訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)采用Keras+Finbert深度學(xué)習(xí)框架完成分類(lèi)任務(wù),設(shè)定banch size=16,epochs=5,采用Adam優(yōu)化器,實(shí)驗(yàn)結(jié)果如表6所示。
實(shí)驗(yàn)結(jié)果表明,對(duì)于三元組的維度分類(lèi)總體效果是符合預(yù)期的。在最后的預(yù)測(cè)任務(wù)中,直接用Softmax激活函數(shù)所表達(dá)的分類(lèi)概率作為每個(gè)三元組的頭實(shí)體和尾實(shí)體的坐標(biāo)值。例如三元組(渤海財(cái)險(xiǎn),簽訂,戰(zhàn)略合作協(xié)議)被分為“行業(yè)/企業(yè)/內(nèi)部環(huán)境”的概率分別為0.2365/0.7611/0.0024,那么頭實(shí)體“渤海財(cái)險(xiǎn)”和尾實(shí)體“戰(zhàn)略合作協(xié)議”的相對(duì)坐標(biāo)均為(0.2365,0.7611,0.0024),只是由于二者分屬不同的概念類(lèi)別,因此被存儲(chǔ)在不同的子立方體中;再如(貴州茅臺(tái),屬于,白酒行業(yè))這一三元組整體的輸出概率為0.0533/0.9446/0.0021,但由于頭尾實(shí)體在語(yǔ)料庫(kù)中均出現(xiàn)多次,所以二者最終的相對(duì)坐標(biāo)以平均值的形式被表征出來(lái)。表7分別呈現(xiàn)了在語(yǔ)料庫(kù)中頭尾實(shí)體唯一(a)和不唯一(b)兩種情況下部分預(yù)測(cè)實(shí)例和基于概率的空間向量表示結(jié)果。
3.5.2?多維本體關(guān)聯(lián)與融合
三層本體通過(guò)語(yǔ)義數(shù)據(jù)映射模型將所有的概念和實(shí)體逐一映射、完全關(guān)聯(lián)。在構(gòu)建過(guò)程中,從上而下的構(gòu)建模式將知識(shí)元素映射到底層的實(shí)體、關(guān)系及屬性,大大增強(qiáng)了本體結(jié)構(gòu)的穩(wěn)定性與可擴(kuò)展性;而在應(yīng)用過(guò)程中,自下而上的歸納與融合能夠逐步提煉出缺失的金融證券知識(shí)概念與關(guān)系模式,并能夠進(jìn)一步利用語(yǔ)義數(shù)據(jù)映射補(bǔ)充至上層本體。此外,連接不同層級(jí)和不同子立方體之間的關(guān)系對(duì)于完整、多維的概念知識(shí)描述尤其重要?;诒?的實(shí)例及空間向量表示,圖6直觀展示了多層本體立方體的映射、關(guān)聯(lián)與融合結(jié)果。
為了便于本體的存儲(chǔ)與可視化,研究選用本體構(gòu)建工具Protégé5.5.0版本對(duì)證券領(lǐng)域本體進(jìn)行編輯,通過(guò)OWL語(yǔ)言對(duì)本體進(jìn)行描述,部分概念及關(guān)系如圖7所示。
在概念層到應(yīng)用層的實(shí)例化過(guò)程中,研究采用D2RQ技術(shù)實(shí)現(xiàn)關(guān)系數(shù)據(jù)向RDF格式的轉(zhuǎn)換,并將實(shí)例化數(shù)據(jù)結(jié)果存儲(chǔ)在RDF數(shù)據(jù)庫(kù)graphDB中。在數(shù)據(jù)映射技術(shù)的基礎(chǔ)上,對(duì)本體中術(shù)語(yǔ)和數(shù)據(jù)源抽取知識(shí)中詞匯的映射關(guān)系等加以構(gòu)建處理,從而促使不同的數(shù)據(jù)源的數(shù)據(jù)能夠綜合在一起,不同源的實(shí)體也會(huì)指向現(xiàn)實(shí)的同一個(gè)客體[40],最后融合而成的實(shí)例知識(shí)庫(kù)提供了一種存儲(chǔ)和管理的新方式。
3.6?多層本體立方體評(píng)價(jià)
本體的評(píng)價(jià)是領(lǐng)域本體構(gòu)建非常重要的環(huán)節(jié),能夠幫助判斷本體是否符合領(lǐng)域需求以不斷迭代改進(jìn)。目前尚未由通用而規(guī)范的本體評(píng)價(jià)方法,本文借鑒了黃奇等[41]對(duì)本體映射系統(tǒng)的評(píng)價(jià)體系,將評(píng)價(jià)的維度分為內(nèi)容多樣性、結(jié)構(gòu)深入性、語(yǔ)義關(guān)聯(lián)性和本體實(shí)用性4個(gè)方面,每個(gè)層面采取定性或定量的細(xì)化評(píng)價(jià)方法。
3.6.1?內(nèi)容多樣性
在內(nèi)容多樣性的評(píng)價(jià)層面,研究借鑒了Onto QA本體評(píng)價(jià)方法。該方法是Tartir S等[42]在2005年提出的一種評(píng)價(jià)本體通用性的方法,評(píng)價(jià)指標(biāo)包括類(lèi)的豐富性(CR)、關(guān)系豐富性(RR)、屬性豐富性(AR)等,如表8所示。
從表8的評(píng)價(jià)結(jié)果可以看出對(duì)證券領(lǐng)域本體定義的類(lèi)和概念相對(duì)豐富,并能夠較為充分地體現(xiàn)出關(guān)系多樣性,但是概念的屬性相對(duì)較少,證實(shí)了金融證券領(lǐng)域概念分散、關(guān)系復(fù)雜且基礎(chǔ)屬性較少的特點(diǎn)。
3.6.2?結(jié)構(gòu)深入性
結(jié)構(gòu)深入性體現(xiàn)了本體在結(jié)構(gòu)關(guān)系層面是否充分挖掘,并直接影響了語(yǔ)義層面的關(guān)聯(lián)性。本文通過(guò)設(shè)定“多層”本體的概念豐富了本體的結(jié)構(gòu)表現(xiàn)形式,同時(shí)各層本體具有完整的映射關(guān)系,如層級(jí)關(guān)系映射、類(lèi)和實(shí)例映射。此外,實(shí)例層的立方體結(jié)構(gòu)直觀地刻畫(huà)了各實(shí)例的維度傾向性和距離關(guān)系,為本體結(jié)構(gòu)提供了新的設(shè)計(jì)思路。
3.6.3?語(yǔ)義關(guān)聯(lián)性
語(yǔ)義關(guān)聯(lián)性是對(duì)概念實(shí)體豐富性和結(jié)構(gòu)深入性的擴(kuò)展,也是本文的核心內(nèi)容。語(yǔ)義關(guān)聯(lián)性可以由層次聚類(lèi)、關(guān)系抽取和維度分類(lèi)的效果直接體現(xiàn)。層次聚類(lèi)結(jié)果表明,證券領(lǐng)域概念層級(jí)關(guān)系在文本信息中較難發(fā)現(xiàn),仍需依賴人工梳理;關(guān)系抽取結(jié)果反映出領(lǐng)域關(guān)系的多樣性,基于句法分析的抽取雖然使得部分實(shí)體過(guò)于冗長(zhǎng),但最大程度地保留了語(yǔ)義信息;維度分類(lèi)和實(shí)體的空間映射作為本文的創(chuàng)新之一,對(duì)于豐富各實(shí)例的語(yǔ)義表達(dá)起到了一定的增強(qiáng)作用。
3.6.4?本體實(shí)用性
實(shí)用性是從使用者的角度出發(fā)對(duì)構(gòu)建的本體進(jìn)行全面的評(píng)價(jià),它是對(duì)內(nèi)容、結(jié)構(gòu)和語(yǔ)義的綜合評(píng)判。在實(shí)用性層面,借鑒黃奇的評(píng)價(jià)指標(biāo),如表9所示,結(jié)合實(shí)際情況進(jìn)行合理的解釋說(shuō)明,并通過(guò)公式φ=∑4i=1αiβi加以量化。
對(duì)指標(biāo)的量化打分需要領(lǐng)域?qū)<业慕槿?,本文?gòu)建的本體實(shí)用性評(píng)分為0.8104,說(shuō)明具備一定的理論研究和應(yīng)用價(jià)值。然而上述關(guān)于實(shí)用性的量化指標(biāo)依舊過(guò)于主觀,未來(lái)針對(duì)特定領(lǐng)域的本體評(píng)價(jià)體系仍需進(jìn)一步完善。
4?結(jié)論與展望
金融大數(shù)據(jù)的價(jià)值源于其蘊(yùn)涵的廣泛存在的知識(shí)關(guān)聯(lián),而傳統(tǒng)的金融大數(shù)據(jù)的扁平化組織忽略了數(shù)據(jù)內(nèi)在的聯(lián)系,也沒(méi)有考慮多源異構(gòu)數(shù)據(jù)的有效組織與融合。本文依托于本體及其構(gòu)建理論,針對(duì)傳統(tǒng)單層領(lǐng)域本體知識(shí)表示模型無(wú)法進(jìn)行規(guī)范而明確描述的弱點(diǎn),構(gòu)建了包含基礎(chǔ)層、概念層和實(shí)例層在內(nèi)的多層領(lǐng)域本體,同時(shí)結(jié)合證券領(lǐng)域特殊性,考慮“行業(yè)—企業(yè)—內(nèi)部環(huán)境”三級(jí)維度概念對(duì)領(lǐng)域知識(shí)的影響,借鑒數(shù)據(jù)立方體概念,提出并構(gòu)建了“多層金融領(lǐng)域本體立方體”知識(shí)表示模型,豐富和擴(kuò)展了本體構(gòu)建的理論與方法論體系。在具體的構(gòu)建過(guò)程中,按照知識(shí)獲取、挖掘、抽取、關(guān)聯(lián)及存儲(chǔ)的知識(shí)管理周期思路,并依靠主題建模、層次聚類(lèi)、關(guān)系抽取和維度分類(lèi)等自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)了證券領(lǐng)域本體架構(gòu)的半自動(dòng)化構(gòu)建,具有一定的應(yīng)用價(jià)值。
當(dāng)然,任何領(lǐng)域的知識(shí)幾乎都是無(wú)窮盡的,領(lǐng)域之間也總是存在交叉性,而且領(lǐng)域內(nèi)的知識(shí)也是動(dòng)態(tài)發(fā)展變化的,因此本文構(gòu)建的本體存在一定的局限性。在數(shù)據(jù)獲取方面,雖然語(yǔ)料來(lái)源豐富,但對(duì)文本內(nèi)容的真實(shí)性和有效性未作處理,各來(lái)源比例也未進(jìn)行規(guī)范;在數(shù)據(jù)處理方面,由于處理的數(shù)據(jù)規(guī)模有限,加之證券領(lǐng)域概念復(fù)雜分散,因此無(wú)法全部覆蓋,需要人工干預(yù)。未來(lái)將會(huì)對(duì)語(yǔ)料來(lái)源進(jìn)行進(jìn)一步的規(guī)范說(shuō)明,并繼續(xù)探索領(lǐng)域本體自動(dòng)構(gòu)建的相關(guān)算法;此外,隨著知識(shí)圖譜的不斷發(fā)展,在后續(xù)研究中可以考慮將構(gòu)建的本體與知識(shí)圖譜直接映射,從而更好地應(yīng)用在領(lǐng)域知識(shí)的表示、分析、關(guān)聯(lián)與融合中。
參考文獻(xiàn)
[1]錢(qián)學(xué)森,于景元,戴汝為.一個(gè)科學(xué)新領(lǐng)域——開(kāi)放的復(fù)雜巨系統(tǒng)及其方法論[C]//中國(guó)系統(tǒng)工程學(xué)會(huì)第六次年會(huì),1990:526-532.
[2]Hasan M M,Popp J,Oláh J.Current Landscape and Influence of Big Data on Finance[J].Journal of Big Data,2020,7(1):1-17.
[3]Zhang P,Yu K,Yu J,et al.QuantCloud:Big Data Infrastructure for Quantitative Finance on the Cloud[J].IEEE Transactions on Big Data,2018,4(3):368-380.
[4]丁曉蔚,蘇新寧.基于區(qū)塊鏈可信大數(shù)據(jù)人工智能的金融安全情報(bào)分析[J].情報(bào)學(xué)報(bào),2019,38(12):1297-1309.
[5]陳云.金融大數(shù)據(jù)[M].上海:上??茖W(xué)技術(shù)出版社,2015.
[6]林天華,張倩倩,祁旭陽(yáng),等.證券大數(shù)據(jù)分析研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(10):179-186.
[7]李善平,尹奇韡,胡玉杰,等.本體論研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2004,(7):1041-1052.
[8]劉仁寧,李禹生.領(lǐng)域本體構(gòu)建方法[J].武漢工業(yè)學(xué)院學(xué)報(bào),2008,27(1):46-49,53.
[9]El-Diraby T E.Domain Ontology for Construction Knowledge[J].Journal of Construction Engineering and Management,2013,139(7):768-784.
[10]張文秀,朱慶華.領(lǐng)域本體的構(gòu)建方法研究[J].圖書(shū)與情報(bào),2011,(1):16-19,40.
[11]付苓.大數(shù)據(jù)環(huán)境下領(lǐng)域本體構(gòu)建框架研究[J].圖書(shū)館,2017,(11):66-71.
[12]丁晟春,李岳盟,甘利人.基于頂層本體的領(lǐng)域本體綜合構(gòu)建方法研究[J].情報(bào)理論與實(shí)踐,2007,(2):236-240.
[13]Singh A,Anand P.Automatic Domain Ontology Construction Mechanism[C]//Intelligent Computational Systems.IEEE,2013:304-309.
[14]Yan Y,Jiang Z,Liu X,et al.An Intelligent Approach for Construction Domain Ontology[C]//IEEE International Conference on Automation & Logistics.IEEE,2009:1283-1288.
[15]王思麗,楊恒,祝忠明,等.基于BERT的領(lǐng)域本體分類(lèi)關(guān)系自動(dòng)識(shí)別研究[J].情報(bào)科學(xué),2021,39(7):75-82.
[16]肖奎,譚小虎,吳天吉.一種面向領(lǐng)域的本體自動(dòng)構(gòu)建方法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(7):1514-1517.
[17]Gomez-Perez A,Manzano-Macho D.A Survey of Ontology Learning Techniques and Applications[J].Technical Report of the OntoWeb Project:Deliverable 1.5,2003.
[18]陳剛,陸汝鈐,金芝.基于領(lǐng)域知識(shí)重用的虛擬領(lǐng)域本體構(gòu)造[J].軟件學(xué)報(bào),2003,(3):350-355.
[19]Shih C W,Chen M Y,Chu H C,et al.The Enhancement of Domain Ontology Construction Using a Crystallizing Approach[J].The Experts Systems with Applications,2011,38(6):7544-7557.
[20]Sanchez D,Moreno A.Learning Non-taxonomic Relationships from Web Documents for Domain Ontology Construction[J].Data & Knowledge Engineering,2008,64(3):600-623.
[21]鄭姝雅,黃奇,張戈,等.面向用戶生成內(nèi)容的本體構(gòu)建方法[J].情報(bào)科學(xué),2019,37(11):43-47.
[22]鄧詩(shī)琦,洪亮.面向智能應(yīng)用的領(lǐng)域本體構(gòu)建研究——以反電話詐騙領(lǐng)域?yàn)槔齕J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(7):73-84.
[23]Shamsfard M,Barforoush A A.The State of the Art in Ontology Learning:A Framework for Comparison[J].Knowledge Engineering Review,2003,18(4):293-316.
[24]Zouaq A,Gasevic D,Hatala M.Towards Open Ontology Learning and Filtering[J].Information Systems,2011,36(7):1064-1081.
[25]Lee C S,Kao Y F,Kuo Y H,et al.Automated Ontology Construction for Unstructured Text Documents[J].Data & Knowledge Engineering,2007,60(3):547-566.
[26]劉萍,胡月紅.領(lǐng)域本體學(xué)習(xí)方法和技術(shù)研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012,(1):19-26.
[27]Ruan T,Xue L J,Wang H F,et al.Building and Exploring an Enterprise Knowledge Graph for Investment Analysis[C]//Proceedings of the International Semantic Web Conference.Heidelberg:Springer,2016:418-436.
[28]Kayed A,Hirzallah N,Shalabi L A A,et al.Building Ontological Relationships:A New Approach[J].Journal of the American Society for Information Science and Technology,2008,59(11):1801-1809.
[29]Browne O,OReilly P,Hutchinson M,et al.Distributed Data and Ontologies:An Integrated Semantic Web Architecture Enabling More Efficient Data Management[J].Journal of the Association for Information Science and Technology,2019,70(6):575-586.
[30]Ren R,Zhang L L,Cui L M,et al.Personalized Financial News Recommendation Algorithm Based on Ontology[J].Elsevier B.V.,2015,55:843-851.
[31]Yang B.Construction of Logistics Financial Security Risk Ontology Model Based on Risk Association and Machine Learning[J].Safety Science,2020,123(C).
[32]強(qiáng)韶華,羅云鹿,李玉鵬,等.基于RBR和CBR的金融事件本體推理研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(8):94-104.
[33]Li J,Chen S M,Chen W,et al.Semantics-Space-Time Cube:A Conceptual Framework for Systematic Analysis of Texts in Space and Time[J].IEEE Transactions on Visualization and Computer Graphics,2020,26(4):1789-1806.
[34]Esteban P E,Candela G,Trujillo J,et al.Adding Value to Linked Open Data Using a Multidimensional Model Approach Based on the RDF Data Cube Vocabulary[J].Computer Standards & Interfaces,2020,68(1):1-15.
[35]師智斌.高性能數(shù)據(jù)立方體及其語(yǔ)義研究[D].北京:北京交通大學(xué),2009.
[36]任守綱,徐煥良,劉小軍,等.層次式本體模型的領(lǐng)域分析與設(shè)計(jì)方法的研究[J].計(jì)算機(jī)與應(yīng)用化學(xué),2009,26(11):1385-1388.
[37]Zhang L L,Zhao M H,F(xiàn)eng Z L.Research on Knowledge Discovery and Stock Forecasting of Financial News Based on Domain Ontology[J].International Journal of Information Technology & Decision Making,2019,18(3):953-979.
[38]Petrova G G,Tuzovsky A F,Aksenova N V.Application of the Financial Industry Business Ontology(FIBO)for Development of a Financial Organization Ontology[J].2017,803(1):012116.
[39]Gruber T R.Towards Principles for the Design of Ontologies Used for Knowledge Sharing[J].International Journal of Human-Computer Studies,1995,43(5-6):907-928.
[40]曹敏,鄒京希,唐立軍,等.基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法[P].云南:CN107330125A,2017-11-07.
[41]黃奇,范佳林,陸佳瑩,等.本體映射系統(tǒng)的評(píng)價(jià)體系研究[J].情報(bào)學(xué)報(bào),2017,36(8):781-789.
[42]Tartir S,Arpinar I B,Moore M,et al.OntoQA:Metric-Based Ontology Quality Analysis[C]//IEEE ICDM 2005 Workshop on Knowledge Acquisition from Distributed,Autonomous,Semantically Heterogeneous Data and Knowledge Sources.IEEE,2005.
(責(zé)任編輯:孫國(guó)雷)