摘要:目前,各級政府為了有效地發(fā)揮政府采購的功能,紛紛建立起了面向政府采購的平臺或網站,但是這些平臺并不能科學地將海量的信息轉化為知識,進而完善政府采購的功能。為了克服現有的缺陷,文章結合本體理論知識,提出了基于本體面向政府采購行為的知識管理模型,使政府采購能更好地滿足公共需要。
關鍵詞:本體;政府采購;知識管理;語義
0 引言
與傳統(tǒng)的方式相比,目前政府采購主要通過網站向社會發(fā)布所需購買的產品及服務信息,這使得政府采購在工作方式和工作效率上有了很大的改進。但是這些網站之間的信息無法有效共享,在搜索信息時,需要人工干預才能做出判斷。如何形成政府采購領域的知識庫,在Internet海量信息中進行信息的搜索、組織和管理,是一項迫切的需求。就目前而言,要從Internet的非結構化信息中獲取知識,并創(chuàng)新知識,還存在難度。本文提出的基于本體的知識管理模型,將定義政府采購領域內概念或術語之間的關系,建立本體庫,使知識的共享和重用成為可能,最終使政府采購行為更具科學性,并提高政府對公眾的服務能力。
1 相關研究
在知識管理中引入本體的概念,使分布式的、異構的平臺之間知識共享,是目前研究的熱點,但是將基于本體的知識管理與政府采購相結合,目前開展的研究還相對較少。
針對工作流系統(tǒng)應用在企業(yè)知識管理時面臨的流程數據難以整合、文件內容詞匯關系的不明確及存取控制不便等問題,武凌等提出了一種基于本體的工作流知識管理系統(tǒng)架構,并介紹了其設計及實現機制。該系統(tǒng)以XML作為流程文件交換與存儲格式,利用本體論的方法將不同知識領域包含的概念及關聯(lián)特性整合到工作流程中,并設計了基于角色繼承的授權管理機制進行精確的文件存取控制。王英林等提出一種基于本體、知識處理模板與基于實例推理方法的可重構知識管理系統(tǒng)框架。在該框架中,知識被視為本體概念的對象實例。倪益華等研究了知識管理實施中的關鍵技術——知識的分類、知識的表示、企業(yè)知識的構建、知識的共享和集成,采用Protege2000設計了制造企業(yè)的知識管理平臺,為制造企業(yè)實現基于本體的知識管理平臺提供了一種新的理論和方法。吳沛,粟湘等分析了知識管理中的異構特點,描述了本體在知識管理中的相關技術,結合某物流企業(yè)的實例提出了知識管理中基于本體集成的框架。
本文將借鑒以上的這些研究成果,并結合政府采購理論,提出面向政府采購的知識管理模型。
2 基于本體面向政府采購行為的知識管理模型
為了解決目前政府采購網絡資源無法有效共享、計算機無法智能識別的問題,本文結合語義Web、本體建模等關鍵技術,提出了基于本體面向政府采購行為的知識管理模型。該模型主要有五部分組成,即:網絡爬蟲、語義標注、知識庫、本體庫及語義檢索。主要流程為:首先通過網絡爬蟲從Internet上的政府采購網站獲取相關的資源或信息,然后由語義標注模塊結合本體庫對資源或信息進行語義標注,形成知識庫。網絡用戶則可通過語義檢索模塊結合本體庫從知識庫中讀取相關信息。
以下我們將詳細描述各模塊的功能及實現原理。
網絡爬蟲的功能是從Internet上獲取和政府采購相關的網頁,并從這些網頁中抽取信息。互聯(lián)網的發(fā)展日新月異,而與政府采購相關的信息也是不計其數,如果采用手工的方式采集網絡信息將是一項十分艱巨的任務,采用網絡爬蟲的最大好處就在于積極、主動地、根據既定目標獲取網絡資源。如果自行開發(fā)一套網絡爬蟲,不但成本高,而且效果未必好。本文采用的是一個開源的網絡爬蟲系統(tǒng)Heritrix。它最大的優(yōu)點是開源,我們可以根據特定的需要進行代碼修改,并且Hefitrix在全文搜索、可擴展性方面也是相當出色的。在本系統(tǒng)中我們將以浙江政府采購網(http://www.zizfcg.gov.cn)為例,使用Heritrix對站點進行分析,抓取主題相關的URL,對目標網頁進行一定過濾,建立索引,獲取結構化數據和元數據。 本體庫的創(chuàng)建是本文模型實現的關鍵。Gruber給本體進行了最準確的定義:“本體是概念模型的明確的規(guī)范說明?!睆母旧险f,本體描述的就是概念或者術語間的關系。通過分析,我們可以將政府采購所涉及的內容概括為三種抽象類型進行表達,即概念、概念的屬性以及概念間的關系,在此基礎上,疊加公理定義,形成具有復雜語義關系、支持推理的政府采購本體庫。
有了本體庫和網絡爬蟲獲取的資源后,我們就可以對資源進行語義標注,形成政府采購領域的知識庫。通過語義標注,計算機將自動識別資源的含義,方便用戶檢索。語義標注主要是對網頁抽取出所需的語義信息,并根據本體庫對抽取的信息進行語義標注。以浙江政府采購網為例,我們將根據本體庫中定義的概念、概念的屬
性以及概念間的關系,對網站中提供的具體的企業(yè)、產品、政府部門及其需求之間建立關系。我們也可以把語義標注過程看作是為本體添加實例。在語義標注時,如果采用手工標注的方式,將會非常繁瑣,本模型中將采用目前應用廣泛的基于Wrapper數據抽取方法,利用HTML網頁的結構特性,結合本體庫,對資源進行自動標注。
網絡用戶進行政府采購信息搜索時,語義檢索模塊能根據本體庫分析出用戶查詢語句中概念的同義及上下位等語義關系,從知識庫中獲取所需的實例信息。
3 面向政府采購行為的本體建模
從上文對模型的描述中,我們可以看出該模型的實現需要用到不少關鍵技術,其中最為關鍵是對政府采購行為進行本體建模。我們將采用本體建模工具Protege創(chuàng)建本體。
本文采用斯坦福大學開發(fā)的七步法對政府采購領域進行本體構建。第一步,明確我們建立的是政府采購領域的本體。應用該本體的目的是使政府采購能更高效、更科學地為公共需求服務。第二步,考查重用現有知識本體的可能性。目前面向政府采購的知識管理研究還處于起步階段,該領域內本體庫的創(chuàng)建還沒有先例可查。第三步,列出政府采購領域知識本體的重要術語。這一步非常關鍵,為了使本體能全面地反映政府采購行為,需要列出一個詳細的術語清單,此時不必考慮術語的重復及交叉關系。第四步,定義類及類的層次關系。我們將采用自頂向下法,從領域內的最大概念開始,逐步將其細分。在本文中,我們將這些概念歸納為四大類:企業(yè)、產品、服務、部門,再根據現實情況對這四大類細分(詳見圖2、圖3)。第五步,定義屬性。屬性分為對象屬性和數據屬性,如企業(yè)名稱、企業(yè)電話等可以定義為企業(yè)的數據屬性,將需要購買定義為對象屬性,該屬性的主體類為部門,值域為產品和服務。通過屬性的定義,我們可以明確類或概念間的同義關系、上下位關系,使得我們在查詢網絡資源如生產電腦的企業(yè)時,系統(tǒng)會將生產計算機的企業(yè)信息也返回給用戶。原因是在定義本體時,我們將計算機和電腦定義為同義關系。第六步,定義屬性的類型、取值范圍及值的個數等。第七步,創(chuàng)建實例。我們可以將創(chuàng)建實例理解為對網絡爬蟲獲取的網絡資源進行語義標注。如對某一產品定義生產企業(yè)、相關產品、報價、哪些部門需要等語義信息。
在使用Protege創(chuàng)建本體時,為了使我們創(chuàng)建的本體可重用性更高,我們對概念、屬性都采用英文命名方式。根據上述的七步法,最終我們設計出的本體根據概念間的關系進行自動推理后,產生圖2、圖3所示的本體庫。因文章篇幅關系,圖2、圖3只列出了主要的類關系。
4 結束語
針對政府采購行為中知識管理存在的問題,本文提出了一種基于本體面向政府采購的知識管理模型,創(chuàng)建了政府采購行為本體庫,采用網絡爬蟲主動從網絡上獲取政府采購資源,并對其進行語義標注。用戶可以通過基于語義的方式從知識庫中檢索到所需的網絡資源。