摘要:目前,各級(jí)政府為了有效地發(fā)揮政府采購的功能,紛紛建立起了面向政府采購的平臺(tái)或網(wǎng)站,但是這些平臺(tái)并不能科學(xué)地將海量的信息轉(zhuǎn)化為知識(shí),進(jìn)而完善政府采購的功能。為了克服現(xiàn)有的缺陷,文章結(jié)合本體理論知識(shí),提出了基于本體面向政府采購行為的知識(shí)管理模型,使政府采購能更好地滿足公共需要。
關(guān)鍵詞:本體;政府采購;知識(shí)管理;語義
0 引言
與傳統(tǒng)的方式相比,目前政府采購主要通過網(wǎng)站向社會(huì)發(fā)布所需購買的產(chǎn)品及服務(wù)信息,這使得政府采購在工作方式和工作效率上有了很大的改進(jìn)。但是這些網(wǎng)站之間的信息無法有效共享,在搜索信息時(shí),需要人工干預(yù)才能做出判斷。如何形成政府采購領(lǐng)域的知識(shí)庫,在Internet海量信息中進(jìn)行信息的搜索、組織和管理,是一項(xiàng)迫切的需求。就目前而言,要從Internet的非結(jié)構(gòu)化信息中獲取知識(shí),并創(chuàng)新知識(shí),還存在難度。本文提出的基于本體的知識(shí)管理模型,將定義政府采購領(lǐng)域內(nèi)概念或術(shù)語之間的關(guān)系,建立本體庫,使知識(shí)的共享和重用成為可能,最終使政府采購行為更具科學(xué)性,并提高政府對(duì)公眾的服務(wù)能力。
1 相關(guān)研究
在知識(shí)管理中引入本體的概念,使分布式的、異構(gòu)的平臺(tái)之間知識(shí)共享,是目前研究的熱點(diǎn),但是將基于本體的知識(shí)管理與政府采購相結(jié)合,目前開展的研究還相對(duì)較少。
針對(duì)工作流系統(tǒng)應(yīng)用在企業(yè)知識(shí)管理時(shí)面臨的流程數(shù)據(jù)難以整合、文件內(nèi)容詞匯關(guān)系的不明確及存取控制不便等問題,武凌等提出了一種基于本體的工作流知識(shí)管理系統(tǒng)架構(gòu),并介紹了其設(shè)計(jì)及實(shí)現(xiàn)機(jī)制。該系統(tǒng)以XML作為流程文件交換與存儲(chǔ)格式,利用本體論的方法將不同知識(shí)領(lǐng)域包含的概念及關(guān)聯(lián)特性整合到工作流程中,并設(shè)計(jì)了基于角色繼承的授權(quán)管理機(jī)制進(jìn)行精確的文件存取控制。王英林等提出一種基于本體、知識(shí)處理模板與基于實(shí)例推理方法的可重構(gòu)知識(shí)管理系統(tǒng)框架。在該框架中,知識(shí)被視為本體概念的對(duì)象實(shí)例。倪益華等研究了知識(shí)管理實(shí)施中的關(guān)鍵技術(shù)——知識(shí)的分類、知識(shí)的表示、企業(yè)知識(shí)的構(gòu)建、知識(shí)的共享和集成,采用Protege2000設(shè)計(jì)了制造企業(yè)的知識(shí)管理平臺(tái),為制造企業(yè)實(shí)現(xiàn)基于本體的知識(shí)管理平臺(tái)提供了一種新的理論和方法。吳沛,粟湘等分析了知識(shí)管理中的異構(gòu)特點(diǎn),描述了本體在知識(shí)管理中的相關(guān)技術(shù),結(jié)合某物流企業(yè)的實(shí)例提出了知識(shí)管理中基于本體集成的框架。
本文將借鑒以上的這些研究成果,并結(jié)合政府采購理論,提出面向政府采購的知識(shí)管理模型。
2 基于本體面向政府采購行為的知識(shí)管理模型
為了解決目前政府采購網(wǎng)絡(luò)資源無法有效共享、計(jì)算機(jī)無法智能識(shí)別的問題,本文結(jié)合語義Web、本體建模等關(guān)鍵技術(shù),提出了基于本體面向政府采購行為的知識(shí)管理模型。該模型主要有五部分組成,即:網(wǎng)絡(luò)爬蟲、語義標(biāo)注、知識(shí)庫、本體庫及語義檢索。主要流程為:首先通過網(wǎng)絡(luò)爬蟲從Internet上的政府采購網(wǎng)站獲取相關(guān)的資源或信息,然后由語義標(biāo)注模塊結(jié)合本體庫對(duì)資源或信息進(jìn)行語義標(biāo)注,形成知識(shí)庫。網(wǎng)絡(luò)用戶則可通過語義檢索模塊結(jié)合本體庫從知識(shí)庫中讀取相關(guān)信息。
以下我們將詳細(xì)描述各模塊的功能及實(shí)現(xiàn)原理。
網(wǎng)絡(luò)爬蟲的功能是從Internet上獲取和政府采購相關(guān)的網(wǎng)頁,并從這些網(wǎng)頁中抽取信息。互聯(lián)網(wǎng)的發(fā)展日新月異,而與政府采購相關(guān)的信息也是不計(jì)其數(shù),如果采用手工的方式采集網(wǎng)絡(luò)信息將是一項(xiàng)十分艱巨的任務(wù),采用網(wǎng)絡(luò)爬蟲的最大好處就在于積極、主動(dòng)地、根據(jù)既定目標(biāo)獲取網(wǎng)絡(luò)資源。如果自行開發(fā)一套網(wǎng)絡(luò)爬蟲,不但成本高,而且效果未必好。本文采用的是一個(gè)開源的網(wǎng)絡(luò)爬蟲系統(tǒng)Heritrix。它最大的優(yōu)點(diǎn)是開源,我們可以根據(jù)特定的需要進(jìn)行代碼修改,并且Hefitrix在全文搜索、可擴(kuò)展性方面也是相當(dāng)出色的。在本系統(tǒng)中我們將以浙江政府采購網(wǎng)(http://www.zizfcg.gov.cn)為例,使用Heritrix對(duì)站點(diǎn)進(jìn)行分析,抓取主題相關(guān)的URL,對(duì)目標(biāo)網(wǎng)頁進(jìn)行一定過濾,建立索引,獲取結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)。 本體庫的創(chuàng)建是本文模型實(shí)現(xiàn)的關(guān)鍵。Gruber給本體進(jìn)行了最準(zhǔn)確的定義:“本體是概念模型的明確的規(guī)范說明?!睆母旧险f,本體描述的就是概念或者術(shù)語間的關(guān)系。通過分析,我們可以將政府采購所涉及的內(nèi)容概括為三種抽象類型進(jìn)行表達(dá),即概念、概念的屬性以及概念間的關(guān)系,在此基礎(chǔ)上,疊加公理定義,形成具有復(fù)雜語義關(guān)系、支持推理的政府采購本體庫。
有了本體庫和網(wǎng)絡(luò)爬蟲獲取的資源后,我們就可以對(duì)資源進(jìn)行語義標(biāo)注,形成政府采購領(lǐng)域的知識(shí)庫。通過語義標(biāo)注,計(jì)算機(jī)將自動(dòng)識(shí)別資源的含義,方便用戶檢索。語義標(biāo)注主要是對(duì)網(wǎng)頁抽取出所需的語義信息,并根據(jù)本體庫對(duì)抽取的信息進(jìn)行語義標(biāo)注。以浙江政府采購網(wǎng)為例,我們將根據(jù)本體庫中定義的概念、概念的屬
性以及概念間的關(guān)系,對(duì)網(wǎng)站中提供的具體的企業(yè)、產(chǎn)品、政府部門及其需求之間建立關(guān)系。我們也可以把語義標(biāo)注過程看作是為本體添加實(shí)例。在語義標(biāo)注時(shí),如果采用手工標(biāo)注的方式,將會(huì)非常繁瑣,本模型中將采用目前應(yīng)用廣泛的基于Wrapper數(shù)據(jù)抽取方法,利用HTML網(wǎng)頁的結(jié)構(gòu)特性,結(jié)合本體庫,對(duì)資源進(jìn)行自動(dòng)標(biāo)注。
網(wǎng)絡(luò)用戶進(jìn)行政府采購信息搜索時(shí),語義檢索模塊能根據(jù)本體庫分析出用戶查詢語句中概念的同義及上下位等語義關(guān)系,從知識(shí)庫中獲取所需的實(shí)例信息。
3 面向政府采購行為的本體建模
從上文對(duì)模型的描述中,我們可以看出該模型的實(shí)現(xiàn)需要用到不少關(guān)鍵技術(shù),其中最為關(guān)鍵是對(duì)政府采購行為進(jìn)行本體建模。我們將采用本體建模工具Protege創(chuàng)建本體。
本文采用斯坦福大學(xué)開發(fā)的七步法對(duì)政府采購領(lǐng)域進(jìn)行本體構(gòu)建。第一步,明確我們建立的是政府采購領(lǐng)域的本體。應(yīng)用該本體的目的是使政府采購能更高效、更科學(xué)地為公共需求服務(wù)。第二步,考查重用現(xiàn)有知識(shí)本體的可能性。目前面向政府采購的知識(shí)管理研究還處于起步階段,該領(lǐng)域內(nèi)本體庫的創(chuàng)建還沒有先例可查。第三步,列出政府采購領(lǐng)域知識(shí)本體的重要術(shù)語。這一步非常關(guān)鍵,為了使本體能全面地反映政府采購行為,需要列出一個(gè)詳細(xì)的術(shù)語清單,此時(shí)不必考慮術(shù)語的重復(fù)及交叉關(guān)系。第四步,定義類及類的層次關(guān)系。我們將采用自頂向下法,從領(lǐng)域內(nèi)的最大概念開始,逐步將其細(xì)分。在本文中,我們將這些概念歸納為四大類:企業(yè)、產(chǎn)品、服務(wù)、部門,再根據(jù)現(xiàn)實(shí)情況對(duì)這四大類細(xì)分(詳見圖2、圖3)。第五步,定義屬性。屬性分為對(duì)象屬性和數(shù)據(jù)屬性,如企業(yè)名稱、企業(yè)電話等可以定義為企業(yè)的數(shù)據(jù)屬性,將需要購買定義為對(duì)象屬性,該屬性的主體類為部門,值域?yàn)楫a(chǎn)品和服務(wù)。通過屬性的定義,我們可以明確類或概念間的同義關(guān)系、上下位關(guān)系,使得我們?cè)诓樵兙W(wǎng)絡(luò)資源如生產(chǎn)電腦的企業(yè)時(shí),系統(tǒng)會(huì)將生產(chǎn)計(jì)算機(jī)的企業(yè)信息也返回給用戶。原因是在定義本體時(shí),我們將計(jì)算機(jī)和電腦定義為同義關(guān)系。第六步,定義屬性的類型、取值范圍及值的個(gè)數(shù)等。第七步,創(chuàng)建實(shí)例。我們可以將創(chuàng)建實(shí)例理解為對(duì)網(wǎng)絡(luò)爬蟲獲取的網(wǎng)絡(luò)資源進(jìn)行語義標(biāo)注。如對(duì)某一產(chǎn)品定義生產(chǎn)企業(yè)、相關(guān)產(chǎn)品、報(bào)價(jià)、哪些部門需要等語義信息。
在使用Protege創(chuàng)建本體時(shí),為了使我們創(chuàng)建的本體可重用性更高,我們對(duì)概念、屬性都采用英文命名方式。根據(jù)上述的七步法,最終我們?cè)O(shè)計(jì)出的本體根據(jù)概念間的關(guān)系進(jìn)行自動(dòng)推理后,產(chǎn)生圖2、圖3所示的本體庫。因文章篇幅關(guān)系,圖2、圖3只列出了主要的類關(guān)系。
4 結(jié)束語
針對(duì)政府采購行為中知識(shí)管理存在的問題,本文提出了一種基于本體面向政府采購的知識(shí)管理模型,創(chuàng)建了政府采購行為本體庫,采用網(wǎng)絡(luò)爬蟲主動(dòng)從網(wǎng)絡(luò)上獲取政府采購資源,并對(duì)其進(jìn)行語義標(biāo)注。用戶可以通過基于語義的方式從知識(shí)庫中檢索到所需的網(wǎng)絡(luò)資源。