姜宇星,王曰芬
(南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院,江蘇南京210094)
十八屆三中全會(huì)指出,經(jīng)濟(jì)體制改革是全面深化改革的重點(diǎn),核心問(wèn)題是處理好政府和市場(chǎng)的關(guān)系。隨著簡(jiǎn)政放權(quán)、政府職能轉(zhuǎn)變、商事制度改革、社會(huì)信用體系建設(shè)等執(zhí)政理念的不斷推進(jìn),我國(guó)進(jìn)入了一個(gè)大變革、大發(fā)展、大調(diào)整的時(shí)代[1]。在這樣的背景下,市場(chǎng)監(jiān)管部門(mén)需要順應(yīng)時(shí)代變革的要求,創(chuàng)新市場(chǎng)監(jiān)管工作,從服務(wù)方法和形式上尋求突破。
近年來(lái),大數(shù)據(jù)技術(shù)在各行各業(yè)普及深化,與市場(chǎng)主體關(guān)聯(lián)的數(shù)據(jù)總量不斷增加,市場(chǎng)監(jiān)管部門(mén)的決策行為不再僅憑經(jīng)驗(yàn),而是越來(lái)越多地依賴數(shù)據(jù)分析,數(shù)據(jù)分析將成為監(jiān)管部門(mén)創(chuàng)新服務(wù)方式、參與宏觀管理的重要基礎(chǔ)與有力支撐[2]。如何深挖現(xiàn)有的數(shù)據(jù)價(jià)值,釋放數(shù)據(jù)背后的應(yīng)用潛力是當(dāng)前需要重點(diǎn)考慮的問(wèn)題。市場(chǎng)主體之間關(guān)系復(fù)雜,傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù)組織模式難以刻畫(huà)和發(fā)掘其中復(fù)雜多變的關(guān)系。知識(shí)圖譜作為一種新興的數(shù)據(jù)轉(zhuǎn)化與知識(shí)化表達(dá)技術(shù),在表達(dá)高度關(guān)聯(lián)數(shù)據(jù)中的復(fù)雜動(dòng)態(tài)聯(lián)系方面具有顯著的優(yōu)勢(shì),適用于反映市場(chǎng)主體的運(yùn)行狀態(tài)和關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜技術(shù)為基于大數(shù)據(jù)的市場(chǎng)監(jiān)管提供了一種新思路。
市場(chǎng)監(jiān)管部門(mén)在履行注冊(cè)登記、執(zhí)法辦案、商標(biāo)廣告、合同幫扶、日常監(jiān)管、消保維權(quán)等職能的過(guò)程中,積累了大量與市場(chǎng)主體相關(guān)的數(shù)據(jù)。這些數(shù)據(jù)來(lái)自不同的職能部門(mén),數(shù)據(jù)形式與存儲(chǔ)格式多樣,數(shù)據(jù)更新頻率差異大。這些數(shù)據(jù)既反映了市場(chǎng)監(jiān)管部門(mén)的履職過(guò)程,也客觀描述了市場(chǎng)主體的運(yùn)作情況,對(duì)開(kāi)展行業(yè)結(jié)構(gòu)分析、發(fā)現(xiàn)區(qū)域產(chǎn)業(yè)集聚、提供經(jīng)營(yíng)異常警示、研究企業(yè)生命周期等具有非常高的價(jià)值,對(duì)政府提升決策能力,實(shí)現(xiàn)對(duì)市場(chǎng)的精確監(jiān)管有較強(qiáng)的參考意義[3]。因此對(duì)市場(chǎng)監(jiān)管大數(shù)據(jù)進(jìn)行深入的分析和挖掘?qū)⒊蔀楸O(jiān)管部門(mén)創(chuàng)新服務(wù)模式的一個(gè)突破口。
(1)按照參與市場(chǎng)監(jiān)督管理的職能部門(mén)和角色來(lái)分,如表1所示。
(2)按照市場(chǎng)主體的信息特征來(lái)分,考慮市場(chǎng)主體從自身到所處外部環(huán)境等多方面的因素,如表2所示。
(3)按照數(shù)據(jù)來(lái)源的結(jié)構(gòu)特征來(lái)分,可以分為以下幾類(lèi)。
結(jié)構(gòu)化數(shù)據(jù):這一類(lèi)數(shù)據(jù)可以是監(jiān)管方信息系統(tǒng)內(nèi)部數(shù)據(jù)庫(kù)中的私有數(shù)據(jù),也可以是以數(shù)據(jù)表等規(guī)范化形式存儲(chǔ)的公共數(shù)據(jù)。這一類(lèi)數(shù)據(jù)普遍結(jié)構(gòu)規(guī)范,存續(xù)期長(zhǎng),不易隨時(shí)間的變化而改變。結(jié)構(gòu)化數(shù)據(jù)的優(yōu)點(diǎn)是置信度高、數(shù)據(jù)可靠;缺點(diǎn)是數(shù)據(jù)規(guī)模小、獲取不易,時(shí)效性有時(shí)也不如其他類(lèi)型的數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù):這一類(lèi)數(shù)據(jù)是指那些無(wú)法通過(guò)單一模板直接獲得的數(shù)據(jù)。相比結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)具有結(jié)構(gòu)多變、模式不統(tǒng)一的特點(diǎn),有效信息的提取和整理依賴人工和經(jīng)驗(yàn)。這一類(lèi)數(shù)據(jù)的優(yōu)點(diǎn)是置信度較高、數(shù)據(jù)規(guī)模較大、個(gè)性化信息豐富;缺點(diǎn)是樣式多變且含有噪聲,難以通過(guò)模板方式進(jìn)行大批量抽取。
表1 按照參與市場(chǎng)監(jiān)督管理的職能部門(mén)和角色劃分的數(shù)據(jù)來(lái)源
表2 按照市場(chǎng)主體的信息特征劃分的數(shù)據(jù)來(lái)源
非結(jié)構(gòu)化數(shù)據(jù):這一類(lèi)數(shù)據(jù)通常指代純文本,特別是以自然語(yǔ)言形式儲(chǔ)存的文本數(shù)據(jù)?;ヂ?lián)網(wǎng)上大多數(shù)時(shí)效性較高的監(jiān)管信息都以非結(jié)構(gòu)化的文本形式表達(dá)。相比前兩種數(shù)據(jù)形式,非結(jié)構(gòu)化的數(shù)據(jù)來(lái)源多、總量大、時(shí)效性強(qiáng),但是由于缺乏顯式的結(jié)構(gòu),從中提取有效信息的難度很大,利用自然語(yǔ)言處理等相關(guān)技術(shù),深入挖掘非結(jié)構(gòu)化數(shù)據(jù)中的有效內(nèi)容也是開(kāi)展知識(shí)圖譜應(yīng)用的關(guān)鍵之一。
知識(shí)圖譜本質(zhì)上是一種基于語(yǔ)義網(wǎng)絡(luò)的知識(shí)體系[4]。與傳統(tǒng)使用二維表形式存儲(chǔ)數(shù)據(jù)的方式不同,這一知識(shí)體系采用了有向圖結(jié)構(gòu),圖中各個(gè)結(jié)點(diǎn)一般用來(lái)代表實(shí)體(如企業(yè)、個(gè)體工商戶)或者指向某一概念,而圖的邊代表實(shí)體與概念之間的各種語(yǔ)義關(guān)系。把數(shù)據(jù)中蘊(yùn)含的知識(shí)用圖結(jié)構(gòu)進(jìn)行形式化表示,并和已有的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián),就構(gòu)成了知識(shí)圖譜。一個(gè)簡(jiǎn)單的市場(chǎng)監(jiān)管知識(shí)圖譜組成如圖1所示。
由于市場(chǎng)監(jiān)管大數(shù)據(jù)中存在大量以非結(jié)構(gòu)化形式存儲(chǔ)的數(shù)據(jù),為了讓計(jì)算機(jī)能夠有效利用這些數(shù)據(jù),需要理解數(shù)據(jù)符號(hào)背后的含義,辨析語(yǔ)義單元之間的各種關(guān)系,用便于進(jìn)一步推理和展示的方式存儲(chǔ)起來(lái),“圖”就成為能標(biāo)識(shí)這類(lèi)數(shù)據(jù)之間結(jié)構(gòu)的高效表達(dá)形式。因此,市場(chǎng)監(jiān)管知識(shí)圖譜應(yīng)是一個(gè)綜合性的概念,既要具有知識(shí)圖譜的內(nèi)涵與特征,符合知識(shí)圖譜的分類(lèi),又要體現(xiàn)出對(duì)于市場(chǎng)主體服務(wù)對(duì)象需求的反應(yīng)。
圖1 市場(chǎng)監(jiān)管知識(shí)圖譜組成示意
具體來(lái)說(shuō),可以從以下3個(gè)角度界定市場(chǎng)監(jiān)管知識(shí)圖譜的概念和內(nèi)涵。
首先,從知識(shí)圖譜的內(nèi)涵與特征來(lái)看,市場(chǎng)監(jiān)管知識(shí)圖譜是一種結(jié)構(gòu)化的有向圖,它以市場(chǎng)主體監(jiān)管大數(shù)據(jù)為知識(shí)源,描述市場(chǎng)活動(dòng)中的各類(lèi)實(shí)體、實(shí)體關(guān)系、涉及實(shí)體的各類(lèi)事件等。市場(chǎng)監(jiān)管知識(shí)圖譜可以刻畫(huà)復(fù)雜的市場(chǎng)經(jīng)濟(jì)活動(dòng),較之傳統(tǒng)知識(shí)表達(dá)技術(shù),能夠揭示市場(chǎng)經(jīng)濟(jì)活動(dòng)中更為復(fù)雜的結(jié)構(gòu)特性,具有易于內(nèi)容理解、統(tǒng)一表達(dá)與可復(fù)雜推理的特征,為市場(chǎng)主體監(jiān)管提供宏觀描述、主體關(guān)系發(fā)現(xiàn)、行業(yè)監(jiān)測(cè)、異常預(yù)警等決策支撐。
其次,從分類(lèi)角度來(lái)看,市場(chǎng)監(jiān)管知識(shí)圖譜是一種多類(lèi)型綜合的知識(shí)圖譜。從知識(shí)的主客觀屬性來(lái)看,它首先必須包含與市場(chǎng)主體相關(guān)的客觀知識(shí),然后考慮到市場(chǎng)主體服務(wù)對(duì)象的信息反饋,也需要加入各類(lèi)主觀知識(shí)對(duì)整個(gè)知識(shí)體系進(jìn)行補(bǔ)充;從知識(shí)的載體與表達(dá)內(nèi)容來(lái)看,它涉及各種數(shù)據(jù)結(jié)構(gòu)的文本知識(shí),并隨著其應(yīng)用的擴(kuò)展,還會(huì)加入視覺(jué)知識(shí)和多模態(tài)知識(shí);從知識(shí)應(yīng)用領(lǐng)域來(lái)看,它屬于行業(yè)性的知識(shí)圖譜。
最后,從服務(wù)對(duì)象與需求的角度來(lái)看,基于市場(chǎng)主體監(jiān)管大數(shù)據(jù)的市場(chǎng)監(jiān)管知識(shí)圖譜就是以服務(wù)政府決策部門(mén)管理、行業(yè)自律、市場(chǎng)主體經(jīng)營(yíng)和社會(huì)公眾為目的,以特定市場(chǎng)主體監(jiān)管與決策需求為依托,以表征市場(chǎng)主體監(jiān)管活動(dòng)的大數(shù)據(jù)為基礎(chǔ),采用知識(shí)圖譜構(gòu)建技術(shù),監(jiān)管市場(chǎng)主體的變化和挖掘信息所蘊(yùn)含的市場(chǎng)活動(dòng)中的各種關(guān)系,從而實(shí)現(xiàn)刻畫(huà)出復(fù)雜的市場(chǎng)主體分布、變化和發(fā)展?fàn)顟B(tài)的功能。
市場(chǎng)監(jiān)管知識(shí)圖譜的主要作用是支撐市場(chǎng)監(jiān)管職能的有效發(fā)揮,結(jié)合市場(chǎng)監(jiān)管的工作與職能,市場(chǎng)監(jiān)管知識(shí)圖譜應(yīng)具有如下特點(diǎn)。
2.2.1 在易理解基礎(chǔ)上突出知識(shí)內(nèi)容表達(dá)的全面性
由于市場(chǎng)主體準(zhǔn)入和監(jiān)管信息相關(guān)數(shù)據(jù)量龐大且涉及面廣泛,在構(gòu)建市場(chǎng)監(jiān)管知識(shí)圖譜的過(guò)程中,不僅需要關(guān)注數(shù)量的變化,還應(yīng)注重結(jié)構(gòu)的變動(dòng),需要通過(guò)對(duì)市場(chǎng)主體關(guān)系的多維度抽取,進(jìn)而多角度全方位地體現(xiàn)市場(chǎng)主體的發(fā)展變化情況。而與其他知識(shí)內(nèi)容表達(dá)方式不同的是,市場(chǎng)監(jiān)管知識(shí)圖譜不僅具有以易于認(rèn)知理解的可視化方式展示各種市場(chǎng)活動(dòng)數(shù)據(jù)與信息的特點(diǎn),而且還具有以可擴(kuò)展的圖結(jié)構(gòu)方式全面地建立各種市場(chǎng)活動(dòng)數(shù)據(jù)與信息間關(guān)聯(lián)的特點(diǎn)。因此,市場(chǎng)監(jiān)管知識(shí)圖譜更容易達(dá)到為政府決策部門(mén)管理、行業(yè)自律、市場(chǎng)主體經(jīng)營(yíng)和社會(huì)公眾提供全方位、多角度和深層次的決策支持的目的。
2.2.2 在易統(tǒng)一基礎(chǔ)上突出知識(shí)形式化組織的聯(lián)動(dòng)性
市場(chǎng)監(jiān)管知識(shí)圖譜主要以市場(chǎng)監(jiān)管管理為目標(biāo)而構(gòu)建,在實(shí)際應(yīng)用中涉及工業(yè)產(chǎn)品、計(jì)量、特種設(shè)備、檢驗(yàn)檢測(cè)機(jī)構(gòu)、食品生產(chǎn)、廣告發(fā)布登記等行政審批事項(xiàng)與質(zhì)量監(jiān)察等業(yè)務(wù),關(guān)聯(lián)到統(tǒng)計(jì)、財(cái)政、稅務(wù)、發(fā)改委、審計(jì)等部門(mén)發(fā)布的市場(chǎng)數(shù)據(jù)和信息[5]。不僅要及時(shí)跟蹤市場(chǎng)主體登記、注銷(xiāo)、信用與風(fēng)險(xiǎn)等情況,進(jìn)而發(fā)掘其中的變化原因與趨勢(shì),而且要反映較長(zhǎng)一段時(shí)間內(nèi)市場(chǎng)活動(dòng)的發(fā)展態(tài)勢(shì)、突發(fā)事件與應(yīng)急管理的情況,同時(shí)要結(jié)合熱點(diǎn)行業(yè)、敏感行業(yè)的發(fā)展情況與市場(chǎng)風(fēng)險(xiǎn)點(diǎn),關(guān)注地方支柱產(chǎn)業(yè)特征和體現(xiàn)區(qū)域間發(fā)展差異。與其他信息或者知識(shí)組織方式不同的是,市場(chǎng)監(jiān)管知識(shí)圖譜不僅需要將不同來(lái)源不同類(lèi)型的數(shù)據(jù)和信息進(jìn)行形式化統(tǒng)一組織與集成,還需要實(shí)現(xiàn)大規(guī)模、跨領(lǐng)域、高覆蓋的知識(shí)采集與存儲(chǔ),將多個(gè)行業(yè)部分聯(lián)動(dòng)起來(lái)。因此,市場(chǎng)監(jiān)管知識(shí)圖譜更容易實(shí)現(xiàn)對(duì)多源異構(gòu)數(shù)據(jù)的集成與融合,以支撐各個(gè)行業(yè)部門(mén)的綜合決策。
2.2.3 在易操作基礎(chǔ)上突出知識(shí)推理實(shí)現(xiàn)的深入性
市場(chǎng)監(jiān)管管理的主要業(yè)務(wù)圍繞登記注冊(cè)指導(dǎo)、行政審批、政策研究與推廣、法規(guī)起草與落實(shí)、應(yīng)急管理與宣傳、信用與風(fēng)險(xiǎn)監(jiān)督、產(chǎn)品質(zhì)量安全監(jiān)督、網(wǎng)絡(luò)交易監(jiān)督管理等展開(kāi),這些業(yè)務(wù)活動(dòng)涉及的主體與關(guān)系復(fù)雜,而在業(yè)務(wù)活動(dòng)進(jìn)展過(guò)程中,不僅需要梳理各類(lèi)主體、明確主體的屬性與表現(xiàn)形式,而且需要厘清各個(gè)主體之間的關(guān)系,更需要通過(guò)復(fù)雜網(wǎng)絡(luò)的路徑分析挖掘出不同主體之間隱含的關(guān)聯(lián),為深入解釋經(jīng)濟(jì)現(xiàn)象出現(xiàn)的原因,以及市場(chǎng)主體突發(fā)事件可能對(duì)社會(huì)經(jīng)濟(jì)帶來(lái)的影響提供支持。與現(xiàn)有的簡(jiǎn)單知識(shí)關(guān)聯(lián)推理相比,市場(chǎng)監(jiān)管知識(shí)圖譜不僅具有通過(guò)圖結(jié)構(gòu)快速發(fā)現(xiàn)各個(gè)主體事件的聯(lián)系的特點(diǎn),而且具有借助優(yōu)化的路徑遍歷搜索等算法使復(fù)雜的主體關(guān)聯(lián)得以深入地推導(dǎo)的特點(diǎn)。因此,市場(chǎng)監(jiān)管知識(shí)圖譜更容易反映市場(chǎng)變化的來(lái)龍去脈,而且為深入發(fā)現(xiàn)市場(chǎng)經(jīng)濟(jì)效果與促進(jìn)國(guó)家宏觀政策不斷完善提供可循證的數(shù)據(jù)支撐。
2.2.4 在易達(dá)成基礎(chǔ)上突出知識(shí)應(yīng)用的針對(duì)性
隨著知識(shí)圖譜在各行各業(yè)的日益普及,如何結(jié)合實(shí)際應(yīng)用的目的借助于知識(shí)圖譜更加有效地利用知識(shí),是市場(chǎng)監(jiān)管知識(shí)圖譜構(gòu)建的根本宗旨。結(jié)合市場(chǎng)監(jiān)管業(yè)務(wù)的需求,市場(chǎng)監(jiān)管知識(shí)圖譜一方面依托披露信息與挖掘知識(shí)為政策制定提供依據(jù),另一方面在于發(fā)現(xiàn)不足和潛在的問(wèn)題以便及時(shí)地調(diào)整政策導(dǎo)向,支持針對(duì)性解決方案的制定。而與現(xiàn)有的信息管理體系不同的是,市場(chǎng)監(jiān)管知識(shí)圖譜不僅具有能夠便利地用于實(shí)踐工作中的特點(diǎn),而且具有通過(guò)簡(jiǎn)單的圖結(jié)構(gòu)將各種實(shí)踐以可視化方式表達(dá)進(jìn)而實(shí)現(xiàn)有針對(duì)性應(yīng)用的特點(diǎn)。因此,市場(chǎng)監(jiān)管知識(shí)圖譜是支撐政府、行業(yè)、企業(yè)和個(gè)人實(shí)現(xiàn)知識(shí)應(yīng)用的有效工具。
知識(shí)圖譜以統(tǒng)一的表達(dá)形式對(duì)知識(shí)實(shí)例數(shù)據(jù)定義和具體知識(shí)數(shù)據(jù)進(jìn)行描述,通常使用三元組形式對(duì)知識(shí)單元與體系進(jìn)行資源描述和存儲(chǔ)。在這一背景下,每個(gè)實(shí)例數(shù)據(jù)使用約定的“框架”進(jìn)行描述,并在此約束下將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換,并與已有的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)聯(lián),從而轉(zhuǎn)變?yōu)榭捎玫摹爸R(shí)”。這里的“框架”就是對(duì)知識(shí)的描述和定義,知識(shí)框架和實(shí)例數(shù)據(jù)共同構(gòu)成一個(gè)完整的知識(shí)體系。
盡管目前大部分的知識(shí)圖譜都以三元組的形式表示各種類(lèi)型的知識(shí),但是實(shí)際上知識(shí)圖譜的知識(shí)表示絕不僅僅體現(xiàn)在以二元關(guān)系為基礎(chǔ)的三元組上,還體現(xiàn)在實(shí)體、類(lèi)別、屬性、關(guān)系等多顆粒度、多層次語(yǔ)義單元的關(guān)聯(lián)中。
從圖1可以看出,市場(chǎng)監(jiān)管知識(shí)圖譜的構(gòu)成元素主要包括以下3類(lèi)。
(1)節(jié)點(diǎn):節(jié)點(diǎn)用于表示實(shí)體、事件等對(duì)象。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,通常用一條記錄中的某一個(gè)或某幾個(gè)字段來(lái)存儲(chǔ)類(lèi)似的內(nèi)容,而在圖數(shù)據(jù)庫(kù)中則轉(zhuǎn)變?yōu)楣?jié)點(diǎn)。人物、地點(diǎn)、具體事件都可以作為此類(lèi)節(jié)點(diǎn)。例如在刻畫(huà)市場(chǎng)結(jié)構(gòu)關(guān)系時(shí),節(jié)點(diǎn)可以用來(lái)表示各市場(chǎng)主體、自然人,體現(xiàn)彼此間的構(gòu)成形式;在刻畫(huà)市場(chǎng)經(jīng)濟(jì)活動(dòng)時(shí),節(jié)點(diǎn)可以用來(lái)表示各項(xiàng)經(jīng)營(yíng)內(nèi)容、參與對(duì)象;在刻畫(huà)具體事件時(shí),節(jié)點(diǎn)可以用來(lái)表示事件名稱(chēng)、事件要素等。
(2)邊:邊是指圖中相鄰節(jié)點(diǎn)之間的有向線段,用于表示節(jié)點(diǎn)彼此之間的關(guān)系。例如兩個(gè)自然人之間的合伙人關(guān)系、家庭關(guān)系;企業(yè)和自然人之間股東關(guān)系、雇傭關(guān)系;實(shí)體之間彼此的投資、交易關(guān)系;事件與事件要素之間的各類(lèi)組成關(guān)系等。
(3)屬性:屬性用于描述節(jié)點(diǎn)或者邊的某一類(lèi)特性。例如人物(節(jié)點(diǎn))的姓名、股東關(guān)系(邊)的起止時(shí)間等都是屬性。
知識(shí)圖譜的構(gòu)建流程目前尚未形成統(tǒng)一的認(rèn)識(shí),但是各種理論的各環(huán)節(jié)內(nèi)涵基本相同,均涵蓋了知識(shí)體系構(gòu)建、數(shù)據(jù)獲取與預(yù)處理、知識(shí)實(shí)體識(shí)別與提取、知識(shí)實(shí)體關(guān)系解析與建立、事件與事件提取、知識(shí)融合與存儲(chǔ)、知識(shí)計(jì)算與應(yīng)用,可視化表達(dá)與圖譜結(jié)果解讀等內(nèi)容[4,6-7]。在對(duì)已有研究綜合的基礎(chǔ)上,本文提出市場(chǎng)監(jiān)管知識(shí)圖譜的構(gòu)建流程,如圖2所示。
構(gòu)建和應(yīng)用市場(chǎng)監(jiān)管知識(shí)圖譜的主要環(huán)節(jié)如下。
知識(shí)體系構(gòu)建,核心是構(gòu)建一個(gè)描述市場(chǎng)監(jiān)管業(yè)務(wù)領(lǐng)域的本體。在此本體中需要明確領(lǐng)域知識(shí)中用于描述現(xiàn)實(shí)實(shí)體的“事物”,例如“張三”“江蘇XX 有限公司”“處罰通知書(shū)”;描述具有相似本體特征“概念”,例如“股東”“城市”“企業(yè)名稱(chēng)”“行政處罰類(lèi)型”;描述事物或概念具有特征或特性的“屬性”,例如“股份有限公司”“個(gè)體工商戶”;描述實(shí)體之間關(guān)聯(lián)方式的“關(guān)系”,例如“類(lèi)-子類(lèi)”關(guān)系、“類(lèi)-實(shí)例”關(guān)系;此外還有描述概念、實(shí)體之間的“函數(shù)”,領(lǐng)域內(nèi)的“公理”“實(shí)例”,以及基于該本體定義的推理規(guī)則。
知識(shí)獲取是指機(jī)器如何獲取知識(shí)以擴(kuò)充知識(shí)庫(kù)的涵蓋范圍。在知識(shí)圖譜的常規(guī)任務(wù)中,知識(shí)獲取的目標(biāo)是從大量的數(shù)據(jù)中通過(guò)信息抽取的方式獲取知識(shí)。市場(chǎng)監(jiān)管數(shù)據(jù)包含現(xiàn)有各信息系統(tǒng)里的標(biāo)準(zhǔn)化結(jié)構(gòu)數(shù)據(jù),以及諸如行政處罰公示、司法股權(quán)凍結(jié)信息、12315投訴信息、經(jīng)營(yíng)異常名錄信息等以報(bào)表、表格等形式存儲(chǔ)的半結(jié)構(gòu)化數(shù)據(jù),還有大量諸如電商平臺(tái)用戶評(píng)價(jià)、網(wǎng)絡(luò)媒體新聞與論壇等自然語(yǔ)言形式呈現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù)。從結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)源中獲取知識(shí)相對(duì)簡(jiǎn)單,數(shù)據(jù)噪聲小,通過(guò)編寫(xiě)腳本或人工編寫(xiě)模板等方式可較為便捷地得到結(jié)構(gòu)化的三元組;在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí),因?yàn)樽匀徽Z(yǔ)言表述上的靈活性等特點(diǎn),上述方法較難奏效,目前針對(duì)這類(lèi)問(wèn)題通常會(huì)用到自然語(yǔ)言處理的相關(guān)技術(shù)。
圖2 基于大數(shù)據(jù)的市場(chǎng)監(jiān)管知識(shí)圖譜構(gòu)建流程
知識(shí)融合是指融合各層面的知識(shí),構(gòu)建起不同數(shù)據(jù)源之間的關(guān)聯(lián)。不論是通用知識(shí)圖譜,還是領(lǐng)域知識(shí)圖譜,往往都會(huì)面臨處理多個(gè)數(shù)據(jù)源的問(wèn)題。這些數(shù)據(jù)源因來(lái)源不同,其結(jié)構(gòu)、語(yǔ)言等都可能存在較大的差異。市場(chǎng)監(jiān)管知識(shí)圖譜通過(guò)融合監(jiān)管、公安、社保、媒體等不同來(lái)源的數(shù)據(jù)源,可以有效補(bǔ)充和更新原有的知識(shí)。但因來(lái)源不同導(dǎo)致的數(shù)據(jù)結(jié)構(gòu)差異也會(huì)帶來(lái)新的問(wèn)題,如需要實(shí)體去重、語(yǔ)義消歧等。知識(shí)融合的核心是處理不同知識(shí)來(lái)源或?qū)嵗g的映射關(guān)系。從融合的知識(shí)圖譜類(lèi)型來(lái)看,有垂直方向的融合,如融合通用本體和領(lǐng)域本體這類(lèi)不同層次的知識(shí)圖譜,以達(dá)到完善知識(shí)圖譜體系結(jié)構(gòu)的目的;也有水平方向的融合,如融合同層次的知識(shí)圖譜以對(duì)其規(guī)模進(jìn)行擴(kuò)充。
知識(shí)存儲(chǔ)是指對(duì)已構(gòu)建知識(shí)圖譜的存儲(chǔ)和管理方式。知識(shí)圖譜的主要存儲(chǔ)方式為RDF格式存儲(chǔ)和使用圖數(shù)據(jù)庫(kù)。前者采用RDF三元組的形式存儲(chǔ)數(shù)據(jù),如Freebase知識(shí)圖譜對(duì)每一條信息(Topic)使用結(jié)構(gòu)化的三元組來(lái)保存。后者通用性更強(qiáng),如目前典型的開(kāi)源圖數(shù)據(jù)庫(kù)Neo4j 就包含了完善的圖查詢語(yǔ)言,支持大多數(shù)的圖挖掘算法,但在數(shù)據(jù)庫(kù)規(guī)模增大后計(jì)算時(shí)間會(huì)變長(zhǎng)。
知識(shí)推理是指通過(guò)推理手段發(fā)現(xiàn)隱含的知識(shí)。由機(jī)器參與構(gòu)建的知識(shí)圖譜往往存在諸多信息缺失現(xiàn)象,如實(shí)體缺失、關(guān)系缺失等,在難以繼續(xù)使用知識(shí)抽取或知識(shí)融合的方法補(bǔ)全缺失信息的情況下,采用推理手段,從已有的知識(shí)中找出缺失內(nèi)容就成了解決問(wèn)題的有效手段。目前知識(shí)推理的研究集中在缺失關(guān)系的補(bǔ)足,即挖掘?qū)嶓w之間隱含的語(yǔ)義關(guān)系,并普遍采用了基于邏輯規(guī)則或者基于表示學(xué)習(xí)的方法。在市場(chǎng)監(jiān)管知識(shí)圖譜中,知識(shí)推理除了補(bǔ)全缺失以外,還可以用來(lái)發(fā)現(xiàn)市場(chǎng)主體之間的各類(lèi)隱含聯(lián)系,可應(yīng)用于構(gòu)建市場(chǎng)主體關(guān)系網(wǎng)絡(luò)和異常預(yù)警。
知識(shí)應(yīng)用是指包括以智能搜索、自動(dòng)問(wèn)答、推薦系統(tǒng)、決策支持為基本形式的各類(lèi)型應(yīng)用服務(wù)?;谥R(shí)圖譜的服務(wù)和應(yīng)用是當(dāng)前的一大研究熱點(diǎn)。
綜上所述,政府的市場(chǎng)監(jiān)管職能關(guān)系著經(jīng)濟(jì)發(fā)展大局,市場(chǎng)監(jiān)管中數(shù)據(jù)資源是管理市場(chǎng)運(yùn)行與科學(xué)決策的基礎(chǔ)和前提。只有借助先進(jìn)的技術(shù)方法,深入挖掘與利用市場(chǎng)監(jiān)管中的大數(shù)據(jù)資源,才能為社會(huì)經(jīng)濟(jì)活動(dòng)提供充分的依據(jù),從而提高各個(gè)領(lǐng)域的管理和運(yùn)行效率。而如何將市場(chǎng)監(jiān)管知識(shí)圖譜加以應(yīng)用和驗(yàn)證,將是后續(xù)研究與應(yīng)用的課題。