陳 立
(1.浙江工商大學(xué) 實驗室與設(shè)備管理處,浙江 杭州 310018;2.浙江大學(xué) 計算機與科學(xué)學(xué)院,浙江 杭州 310058)
所謂批量集中采購,是對一些通用性強、技術(shù)規(guī)格統(tǒng)一、便于歸集的政府采購品目,由采購人按規(guī)定標準歸集采購需求后,交由集中采購機構(gòu)統(tǒng)一組織采購的一種采購模式。
目前高校儀器設(shè)備批量集中采購的過程是:主管采購的政府部門按照“滿足基本辦公需要”、“市場成熟度高”和“競爭性充分”的原則,先制定采購目錄,如臺式計算機,其采購目錄就有10款基本配置機型;然后各行政事業(yè)單位基于上述采購目錄,通過網(wǎng)上報送采購計劃;在規(guī)定的報送時間截止后,采購部門再對申請單位的采購需求進行匯總整理、分類打包,編制具體采購需求,進而進行采購[1]。
批量集中采購試點工作近年來得到財政部的大力推進。它不僅較好地解決了傳統(tǒng)的協(xié)議采購方式中品目協(xié)議價格高于市場價、采購人在協(xié)議供貨中任意選擇高配置機型、采購人員對供貨商選擇有明顯傾向性等問題,更為重要的是,它能帶來顯著的規(guī)模效益[2]。與分散采購相比,批量集中采購更符合市場競爭規(guī)則。批量越大,吸引的供應(yīng)商就越多;而參與競爭的供應(yīng)商越多,競爭就越充分,采購方所獲得的價格優(yōu)勢、質(zhì)量優(yōu)勢及得到的配套服務(wù)自然會顯著提升。所以,批量集中采購帶來的是采購成本、人力成本、監(jiān)督成本的下降,是商品質(zhì)量和服務(wù)質(zhì)量的提升,從而使得財政資金得到最大化節(jié)約[3-4]。
但同時,批量集中采購的推行也面臨一些難題。例如對于行政管理部門而言,其設(shè)備“滿足基本辦公需要”即可;而對于高校某些研究部門而言,所需采購的設(shè)備專用性較強、技術(shù)規(guī)格也很難統(tǒng)一,所以無法出現(xiàn)在政府主管部門制定的采購目錄中,只能分散自行采購,因而不能得到批量集中采購的優(yōu)勢[5]。實踐中,“政府采購目錄”尚未涵蓋的設(shè)備需求總量還是很大的,如果這些設(shè)備也能實現(xiàn)批量集中采購,將會大大拓展批量集中采購的適用范圍。
鑒于某些大的生產(chǎn)商或代理商能夠生產(chǎn)或代理多種類設(shè)備,高校在分散采購中常常將不同型號及種類的設(shè)備組合起來進行招標。按照這種思路,只要某些設(shè)備的組合滿足招標條件并曾經(jīng)招標成功,就可以嘗試將這種組合形成一個“類”,由政府主管部門將各高校待采購的設(shè)備按照這種組合進行分類匯總,一旦形成規(guī)模時即可進行公開招標。利用貝葉斯算法及機器分類,通過計算機及網(wǎng)絡(luò),就可以實現(xiàn)上述跨部門、跨地區(qū)的設(shè)備分類匯總。由此,批量集中采購在擺脫了采購目錄中品目分類限制的情況下得以實施。
貝葉斯分類器分為兩部分:一個是訓(xùn)練部分,包括對滿足招標條件且成功招標過的設(shè)備文本的收集和預(yù)處理,以及分類器的構(gòu)建,其中須對文本進行中文分詞、文本特征向量的提取;另一個是分類部分,包括對高校待采購設(shè)備文本的收集和預(yù)處理及分類和輸出,同樣也必須對其進行中文分詞、文本特征向量的提取。
使用已經(jīng)獲取的訓(xùn)練模型來對設(shè)備文本進行分類,將待采購的設(shè)備與訓(xùn)練集中的類進行匹配,通過計算申購設(shè)備屬于哪一類的概率,將其歸為概率最大的一類,從而用機器分類的方法實現(xiàn)分類匯總,進而公開招標(見圖1)。
圖1 設(shè)備分類流程圖
2.2.1 設(shè)備模型
采用向量空間模型[6](vector space model,VSM)作為設(shè)備文本的表示模型。該模型的基本思想是用特征詞條來表示文本的語義,把文本表示為以詞為單位的項,項代表向量空間中的維度,每個文本被表示成一個n維向量,權(quán)重代表維度的大小,即設(shè)備文本Di可以表示為:
式中:wij表示第j個特征項tj在設(shè)備文本Di中出現(xiàn)的頻度(權(quán)重),n為向量空間的維數(shù)??梢钥闯觯瑆ij的值越大,表示tj越能反映設(shè)備Di所屬類別;反之,該值越小,表示tj越不能反映設(shè)備Di所屬類別。
2.2.2 設(shè)備文本分詞
由于貝葉斯文本分類算法是以單詞為粒度,所以在特征提取前,必須對需參與分類的文本作分詞處理。在分詞前要對設(shè)備文本做預(yù)處理,根據(jù)經(jīng)驗,只保留最能說明設(shè)備屬性的名詞及英文字母。分詞過程則是采用開源的ICTCLAS漢語分詞系統(tǒng),它是基于多層隱式馬爾科夫鏈模型的漢語詞法分析系統(tǒng)[7],該系統(tǒng)的主要功能有中文分詞、詞性標注、新詞識別等,分詞精度為98.45%。
2.2.3 設(shè)備文本特征詞條的提取
設(shè)備文本內(nèi)容由大量的詞組成,大部分詞對分類的影響很小,但若把所有詞都作為特征詞條,會使向量的維數(shù)很大,計算機處理速度變慢。因此,在表示設(shè)備內(nèi)容時要選擇有典型意義的詞作為特征詞條,以減少向量的維數(shù)。常用的降維方法是進行特征提?。?]。
常用特征選取方法有信息增益(IG)、互信息(MI)、文檔頻度(DF)、類別區(qū)分詞[9]等,本文采用類別區(qū)分詞方法。類別區(qū)分詞方法能夠從局部意義上考慮特征詞條對單個類別的區(qū)分能力。全局意義上的詞可能存在多類的表示意義,但有些詞的單類類別表示意義很明顯,比如“交換機”、“色譜儀”、“移液器”等,它們只會出現(xiàn)在某一設(shè)備文本之中,這些詞稱之為類別區(qū)分詞。類別區(qū)分詞的選取有兩種方式:一種與詞條的類間離散度[10]有關(guān),另一種與類內(nèi)分散度有關(guān)。類間離散度用來描述特征詞條在類間的分布情況。本文采用類間離散度來對設(shè)備文本的單詞進行特征提取,特征詞條的類間離散度為:
2.2.4 特征詞條權(quán)重的表示方法
特征詞條選取后就可以使用模型來表示設(shè)備文本。但表示設(shè)備文本之前,要先計算每個特征詞條的權(quán)重,根據(jù)特征詞條在設(shè)備文本中的重要程度來給予特征詞條不同的權(quán)重。特征詞條權(quán)重的表示方法主要有聯(lián)合權(quán)重(TF-IDF)、布爾權(quán)重、特征詞條頻度等,本文選擇特征詞條頻度作為權(quán)重的表示方法。
貝葉斯方法[11]是基于概率的一種算法,樸素貝葉斯方法是貝葉斯方法中最簡單的形式,其原理是通過計算文本dx屬于某個類別Cj的概率P(Cj/dx),把文本dx分類到概率最大的類別中。
式中:P(Cj)是類的先驗概率;P(dx/Cj)是類條件概率。設(shè)dx表示為特征詞條集合(t1,t2,…,tn),n為特征詞條個數(shù),假設(shè)特征詞條之間相互獨立,則P(dx/Cj)、P(dx)的計算方法為:
本文中,筆者將每種類別的所有設(shè)備匯總到一個文本中,所以P(Cj)在這里不用計算,公式可以簡化為:
訓(xùn)練部分數(shù)據(jù)是本校及其他兄弟院校采購?fù)瓿傻?0份招標文件,用人工的方式找出符合要求的招標標項,并且按標項將其中的設(shè)備文本一一提取出來,每個標項作為一類,這樣總共從50份招標文件中匯總出10個類別的訓(xùn)練文本,包含設(shè)備數(shù)157臺套。
分類部分數(shù)據(jù)是在本校申購系統(tǒng)準備采購的項目中提取的9個項目,其中包含7個財政專項以及2個常規(guī)項目。這些申購項目包括計算機、環(huán)境、食品、藝術(shù)等專業(yè)申購的設(shè)備160臺套,從中挑選出用于測試的設(shè)備132臺套,設(shè)備價值共計387萬元。因為有些設(shè)備是指定品牌或是屬于非標設(shè)備,無法用于招標采購,所以將其剔除掉。
本文使用文本分類的評價指標——準確率和查全率來對設(shè)備分類進行評估,以評價實驗結(jié)果。準確率和查全率可用公式表示如下:
準確率=(機器分類結(jié)果的設(shè)備與人工分類結(jié)果的設(shè)備相一致的設(shè)備數(shù))/(機器分類結(jié)果的設(shè)備數(shù));
查全率=(人工分類結(jié)果的設(shè)備與機器分類結(jié)果的設(shè)備相一致的設(shè)備數(shù))/(人工分類結(jié)果的設(shè)備數(shù))。
綜合考慮準確率和查全率的共同影響,采用另一種常見的評價指標F-Score[12],即F-Score=準確率×查全率×2/(準確率+查全率)。
首先將使用部門申報的待采購設(shè)備用人工方式分類。為了使人工分類的結(jié)果更準確,將分類結(jié)果匯總,并做成標書后用郵件的方式詢問3家以上有實力的供應(yīng)商,征求其對分類結(jié)果的意見。因為分類結(jié)果會直接影響到招投標結(jié)果,所以幾乎所有供應(yīng)商都認真、詳盡地給出了答案。另外,也通過郵件征詢了用戶對人工分類合理性的意見,也收到很多的意見反饋。最后綜合用戶和供應(yīng)商的意見,對分類的結(jié)果做進一步的調(diào)整,這為后續(xù)的比較提供了準確的依據(jù)。
分類的結(jié)果如表1所示。F-Score的平均值達到70%以上,分類器分類結(jié)果對比人工分類正確數(shù)共計72臺套設(shè)備,設(shè)備的預(yù)算價值接近300萬元,這個結(jié)果是比較令人滿意的。就筆者所在的學(xué)校來說,用這種方式的話,一年可以有價值2 000~3 000萬元的原本分散采購的設(shè)備進入到批量集中采購。
對于F-Score比較低的類,通過對比人工分類的結(jié)果,發(fā)現(xiàn)主要是由于待分類設(shè)備文本對設(shè)備的描述不夠清晰、明確導(dǎo)致。還有一些設(shè)備是因為本身自帶了另一類的設(shè)備(如有些色譜儀本身自帶了臺式計算機),導(dǎo)致機器分類的錯誤,也降低了分類效率。
通過實驗可以看到,改進的貝葉斯分類器在設(shè)備分類時取得了較好的效果。采用這種辦法可以有效擴大批量集中采購的適用范圍,將原本不適用于集中采購的設(shè)備也部分納入批量集中采購中來。運用計算機處理不僅加快了采購速度,而且也體現(xiàn)出批量集中采購的優(yōu)勢。不過,機器分類畢竟有其局限性,在實際運用中還應(yīng)該圍繞機器分類制定相關(guān)的制度,以確保最終分類的準確性。此外,本文的結(jié)論只是在實驗狀態(tài)下得出的,在采購實踐際中,設(shè)備的種類千變?nèi)f化,因此還需建立一套反饋機制,以提高機器分類效率,滿足不斷變化的采購需求。
表1 分類器分類評價
(
)
[1]李麗輝,王保安.政府批量集中采購將向全國推廣[N].人民日報,2011-10-24(003).
[2]中華人民共和國財政部.政府采購貨物和服務(wù)招標投標管理辦法[J].中國政府采購,2004(9):7-15.
[3]鐘永泉,趙邦枝.高校集中采購內(nèi)部控制制度的構(gòu)建與探索[J].實驗技術(shù)與管理,2009,26(12):146-148.
[4]張彥志,向青春.高校規(guī)避政府集中采購的問題及對策[J].實驗技術(shù)與管理,2009,26(8):172-175.
[5]鄧文,龔福忠,覃戟,等.政府采購制度下地方高校儀器設(shè)備采購的問題及對策[J].實驗技術(shù)與管理,2012,29(11):4-7.
[6]邢軍,韓敏.基于兩層向量空間模型和模糊FCA本體學(xué)習(xí)方法[J].計算機研究與發(fā)展,2009,46(3):443-451.
[7]陳功平,沈明玉,王紅,等.基于內(nèi)容的短信分類技術(shù)[J].華東理工大學(xué)學(xué)報:自然科學(xué)版,2011,37(6):770-774.
[8]黃秀麗,王蔚.一種改進的文本分類特征選擇方法[J].計算機工程與應(yīng)用,2009,45(36):129-130.
[9]周奇年,張振浩,徐登彩.用于中文文本分類的基于類別區(qū)分詞的特征選擇方法[J].計算機應(yīng)用與軟件,2013,30(3):193-195.
[10]熊忠陽,黎剛,陳小莉,等.文本分類中詞語權(quán)重計算方法的改進與應(yīng)用[J].計算機工程與應(yīng)用,2008,44(5):187-189.
[11]Ian H.Witten,Eibe Frank.數(shù)據(jù)挖掘:實用機器學(xué)習(xí)技術(shù)[M].董琳,邱泉,于曉峰,等譯.北京:機械工業(yè)出版社,2006.
[12]Sebastiani F.Machine learning in automated text categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.