鄭興遠
(中國石油天然氣集團公司招標中心 北京 100724)
隨著現代企業(yè)對成本控制重視程度的提高,物資采購越來越嚴格、規(guī)范,“招標”這一目前高效、陽光、可操作性強的現代化采購方式被廣泛采用。根據企業(yè)發(fā)展和生產建設的實際需要,中國石油天然氣集團公司于2012年專門成立了“中國石油招標中心”,組織管理和從事招標方面的工作。目前,集團公司從事招標管理和招標業(yè)務的人員總計7000多人,其中50%為兼職。兼職人員既不可能在短時間內成為專家,也因頻繁的工作流動不具備成為專家的動力和條件。如何提高從業(yè)人員的專業(yè)水平是目前面臨的一個非常實際的問題。
為滿足招標工作急需,提高招標人員業(yè)務水平,企業(yè)普遍采取專門培訓的辦法,但是傳統(tǒng)的集中式、講座式培訓并不能完全適應當前招標隊伍的人員構成及實際需求。從培訓內容來看,由于各個案例的特殊性,準備再充分的老師也無法在幾次培訓中展示所有可能遇到的情況,不能預測到實際工作中所有可能遇到的問題;從受訓對象來看,填鴨式的機械學習方式對學員、特別是中年學員不適宜,還有可能因為所學的內容并非是實際中急需掌握的而使其對培訓內容不敏感、無興趣。鑒于這種情況,就需要一個不受場地和時間限制,可隨時隨地提供指導,內容幾乎涵蓋所有可能遇到的問題,且針對性強、答案準確的“老師”——招標知識庫。這位“老師”提供的不再是生硬的、由法律明文規(guī)定假設遇到的特定事件處理方式的教學方案,而是針對實際遇見事件的合乎法規(guī)的解決方法。換句話說,需要的是能夠提供“精確制導”式的具體解決方案的一個知識庫,讓即使是非專業(yè)招標人士也可以在其指導下規(guī)范、出色地完成招標任務。
知識庫是知識工程中結構化、易操作、易利用、全面有組織的知識集群,是針對某一(或某些)領域問題求解的需要,采用某種(或若干)知識表示方式在計算機存儲器中存儲、組織、管理和使用的互相聯系的知識片集合。這些知識片包括與領域相關的理論知識、事實數據,以及由專家經驗得到的啟發(fā)式知識,如某領域內有關的定義、定理和運算法則及常識性知識等[1]。
招標知識庫,其知識構成可以分為事實知識、規(guī)則知識和策略知識:
(1)將已有的法律、法規(guī)、條例、文件、案例等集中統(tǒng)一保存,并為使用者提供方便、快捷、權威的檢索服務,稱為“事實知識”。
(2)提供具體事例在相關法律、法規(guī)、條例、文件規(guī)定下的操作方法,即各相關法律、法規(guī)、條例、文件規(guī)定在實際工作中的應用,稱為“規(guī)則知識”。
(3)相比規(guī)則知識,策略知識不再是僅僅說明具體事件的一種標準解決方式,因為現實的事件可能在合法合規(guī)的前提下,也符合多種操作執(zhí)行方式,這時企業(yè)需要的是能使利益最大化的規(guī)范操作方式。
其中,對于事實知識的檢索,知識庫只是起到一個規(guī)范檢索口徑、提高檢索效率的作用,不能較好地體現出它相比于傳統(tǒng)百科全書的方案解決優(yōu)勢;而對于高效地解決實際工作問題,就需要通過對規(guī)則知識和策略知識的檢索來實現。
對于事實知識的建設,只需收集齊全,并提供快速精準的檢索即可。這是工作中必須使用的,是建庫的基礎,但所能提供的知識不具有不可替代性。
招標知識庫的核心是建設規(guī)則和策略方面的檢索系統(tǒng)。在日常工作中,人們解決一些遇到的問題的方法往往是“師傅帶徒弟”式的言傳身教,許多常見問題在不同的時間、地點和事件中反復出現,由于地理分隔、生活習慣、工作經驗、知識水平等原因,對于一些人來說非常簡單的問題,對于另一些人來說卻無法解決。而知識庫檢索正是提供一個交流和保存的平臺,將大家遇到的問題及解決方法保存下來,使以后遇到相同或相似問題的人可以通過對知識庫的檢索找到解決方法。
知識庫的建設思維在我國從古至今一直存在,現僅舉兩例說明。
知識庫的建設思維在我國古已有之,其中最具有“知識庫”建設思維的非《論語》莫屬。眾所周知,《論語》是記錄孔子及其弟子言行的文集,通過問答的形式,闡述、概括了包羅萬象的社會問題,為后人提供了豐富的知識源泉,具有極強的概括性。它通過眾人的眼睛來觀察世界,發(fā)現問題,用提問的方式來盡可能地擴大收集需要解決問題的范圍——知識庫思維雛形。
可見,即便是孔子這樣的大智大賢者,其思想的形成也離不開豐富的問題來源。有了問題,才能再針對這些問題進行思考和解答。
目前,國內較為成功的知識庫系統(tǒng)是百度公司的“知道”功能,其成功之處在于:開放的問題收集平臺,并擁有大量的提問人群,因而能擁有海量的覆蓋各個方面的待解決問題;開放的回答解決問題平臺,動用最廣大的智慧來源解決問題,使問題能夠相對高效準確地被解決;基于以上兩點,使用者不用提問等待解決方案,即能通過前人的問答過程記錄解決自己的問題;高效的人工智能搜索系統(tǒng),能準確地將同類相似問題答案提供給使用者,且高效的聯想和猜想功能在使用者對提問本身不清晰時輔助使用者明白自己到底想查的是什么;擁有龐大的使用人群,這是實現以上四點的前提和基礎。
通過以上這兩個例子可以看出,基于知識庫的建設目的是幫助解決問題,解決問題的方法是檢索和借鑒被保存記錄的以往遇到的相同或相似問題的成功解決方法,即知識庫中的知識。知識庫的建設,就是處理好這些知識的3個部分:知識收集、知識儲存、知識檢索。其中,“收集”要求盡可能全面的覆蓋問題,且時時更新編輯;“儲存”要求后臺分類合理,形成關聯知識片,利于檢索;“檢索”需要手段方便,終端易獲得,操作簡單,且有高效的人工智能輔助。
知識庫是一個龐大而復雜的系統(tǒng),其內涵包括:信息采集與存儲、知識提取、內容檢索、結果呈現。建設好如此龐雜的系統(tǒng),不啻于乾隆皇帝編撰《四庫全書》,建設難度可想而知,絕不是簡單的依靠搭建企業(yè)級數據庫、java開發(fā)前端頁面就能實現的。如果把知識庫當做一個企業(yè)級系統(tǒng)進行開發(fā),注定要承擔極大風險,甚至失敗。
知識庫需要整合或重新開發(fā)的模塊見圖1。
圖1 知識庫需要整合或重新開發(fā)的模塊說明
基于人力、物力條件所限,知識庫建設可分階段進行。在目前條件下我們還只能實現知識庫概念階段。
(1)收集及挖掘。事實知識類涵蓋國家及部委法律或規(guī)定、集團公司各項招標有關規(guī)定等文件,按集團12個模板分類的代表性案例、招標標準流程圖及每步的標準執(zhí)行方法。規(guī)則和策略類包括招標中心員工遇到的問題及最后的成功解決方案記錄。
(2)信息儲存。利用現有服務器及局域網,將所有資料通過分類存儲在服務器硬盤中。
(3)檢索及界面展現。各員工通過局域網登入服務器硬盤檢索所需信息。
通過以上工作,在概念上實現知識庫模式,但因條件所限還無法體現知識庫的優(yōu)勢。根據資金緊張的實際情況,建議集團公司招標知識庫的建設采用深度優(yōu)先的開發(fā)方式,這種低成本、高效率的方式對項目的實施將會較為有利。
為此,從工程和財務的角度將系統(tǒng)的開發(fā)分為如下幾個階段。
初級知識庫階段,需要以最低的經濟成本和時間成本建設最初級的能形成使用閉環(huán)的系統(tǒng),使知識能以高質量的信息形式得以收集、存儲、檢索。
(1)收集:僅需支持用戶手動進行知識的錄入,例如最常見的法律法規(guī)、招投標案例、實際問題及解決方法等;知識挖掘部分采用靜態(tài)知識目錄,而不必花費巨大的時間成本實現智能挖掘系統(tǒng);但由于使用人群的擴大,將涉及更多的問題,需要將本公司各員工遇到的問題及最后的成功解決方案記錄保存。最終知識庫內容將涵蓋全公司涉及的招標問題,并設立統(tǒng)一解答口徑,有專人定期實時解答問題。
(2)存儲:采用最便宜且具強大擴展能力的MYSQL,將所提及問題整理后按分類建立數據庫統(tǒng)一保存。
(3)檢索:采用成熟的前端展示Browser應用展現信息,提供錄入界面??商峁╇娮踊阉饕媸降臋z索,實現分詞功能,提供檢索知識的服務,搭建初級的招投標知識搜索引擎(表1)。
表1 初級知識庫階段各模塊功能規(guī)劃說明
實現以上功能,估計成本投入在30萬元人民幣左右,在外觀上基本實現知識庫模式。但由于使用人數有限,收集規(guī)模效應無法發(fā)揮,且成本投入有限,在保存方面無法建立先進的數據庫模式,檢索無法智能匹配,只能做到關聯匹配式的非人工智能檢索。由于總信息量不大,能初步滿足當前信息量的需要。
在第一階段的基礎上,對系統(tǒng)進行升級,對初級知識庫階段中的5個模塊進行較為明顯的改進,尤其是實現云存儲和爬蟲技術,將獲取信息的觸角延伸到互聯網。
(1)收集:由于使用人群的進一步擴大,會涉及更多的問題,將集團各公司每個招標工作員工遇到的問題及最后的成功解決方案記錄保存,最終知識庫內容將涵蓋全集團涉及的招標問題。由于問題面廣量大,可以開放解答權限,設立統(tǒng)一確定口徑,有專人定期時時審閱各類問題和解決方法,將最準確的答案確定發(fā)布。同時信息收集的重大改進是使用C++語言開發(fā)性能強勁的網頁爬蟲,從互聯網獲取海量信息,并將信息存儲在云存儲系統(tǒng)中。知識挖掘部分,對靜態(tài)知識目錄進行升級,支持在某些知識條目下增加對外部信息的交叉引用鏈接。
(2)保存:將所提及的問題整理后按分類建立數據庫,統(tǒng)一保存。由于數據量增大,對數據庫算法及分類方法提出考驗和要求。存儲系統(tǒng)向云存儲系統(tǒng)升級,從技術上來說,可選擇MYSQL Cluster或Redis、HBASE等產品升級空間無限的開源產品。
表2 知識庫階段各模塊功能規(guī)劃說明
(3)檢索:建立專業(yè)的提問及檢索系統(tǒng),員工在網絡覆蓋的地方,使用包括電腦、手機、IPAD等各類終端都可以登錄知識庫提問檢索,可提供人工智能的電子化搜索引擎式的檢索。搜索系統(tǒng)升級為支持爬蟲抓取的外部數據的檢索,從而改善針對關鍵詞匹配知識條目的準確性。界面展現上需要針對前一版本用戶使用體驗進行改進(表2)。
實現以上功能就達到了知識庫模式,估計成本投入為150萬元人民幣左右。由于知識庫的核心是知識覆蓋面,所以必須保證有大量的用戶數,收集規(guī)模效應才能發(fā)揮,才真正具有檢索價值。同時,由于總信息量的提高,保存數據庫的合理建立和算法也變得更為重要,這將最終影響檢索的效率。通過數據庫的合理保存和人工智能的算法檢索,使用者能夠獲得準確的所需信息,既不會錯過有用信息,也不會關聯出的信息量過大且多為無效信息。失去檢索效率,知識庫便失去使用價值。
本階段知識庫可將全社會從事招標工作的人員納入使用人群。對于知識庫的使用原理此階段已經完全實現,在無需考慮用戶數量不足的情況下,知識庫的建設重點就轉變?yōu)榧兗夹g方面的數據庫保存和檢索算法問題上。云存儲系統(tǒng)線上運行一段時間之后必然會產生性能調優(yōu)的需求,在本階段可以將前一階段的數據量等重要信息作為依據進行調優(yōu)。爬蟲的爬取針對性和爬取效率經過前一階段的實際運行也有機會得到較大的提升。在前一階段積累的海量數據基礎上,采用神經網絡等機器學習技術實現知識挖掘系統(tǒng),最終使用“知識圖譜”替代人工編撰的知識目錄作為組織知識的主要形式。檢索系統(tǒng)和界面展現系統(tǒng)均根據前一階段的使用情況進行改進。
要達到目前世界上最先進的保存和算法水平,投入成本將達500萬元以上。達到此規(guī)模的知識庫,完全有能力通過增加模塊的方式增加集團公司內部任何行業(yè)的知識庫,例如鉆井、采油、煉化等(表3)。
表3 先進的知識庫階段各模塊功能規(guī)劃說明
總的來說,一個知識庫的核心是收集盡可能全面的覆蓋問題,且時時更新編輯解答;在實際工作中可能遇到的問題不是通過設想就可以預見全面的,目前唯一可行的方法是通過大量的使用人群來發(fā)現問題,用集體智慧來解決問題,形成知識庫供其他人參考借鑒。至于保存和檢索方法,都是實現這個目標的純技術手段,基本是通過資金投入來解決的。集團公司建設知識庫要從實用出發(fā),從初級做起,首先解決兼職招標人員應急培訓的燃眉之急,然后與培訓業(yè)務相匹配,逐步升級,最終建設成一個較為先進的知識庫。
[1]林婷.基于ArcGIS的地圖輸出智能化技術研究[D].杭州:浙江大學,2006.