湯 駿
(南通市公共資源交易中心,江蘇 南通 226001)
目前,我國政府投資項目主要通過公開招投標(biāo)方式確定合格承包商(供應(yīng)商)。由于種種原因,招標(biāo)采購活動還存在諸多亟待解決的難題,例如采購需求設(shè)置不合理、不公平,評審組織工作不規(guī)范、評審結(jié)論不科學(xué),打擊招投標(biāo)違法犯罪行為手段有限、效率不高,等等。隨著我國招標(biāo)采購過程電子化的推進(jìn),這些不合規(guī)現(xiàn)象逐漸被伴隨產(chǎn)生的數(shù)據(jù)“證據(jù)”錨定和記錄了下來,但這些寶貴的數(shù)據(jù)資源一直處于“沉睡”或者“休眠”狀態(tài),未能有效利用。究其原因,一方面,多數(shù)招標(biāo)采購交易平臺建立初期缺乏數(shù)據(jù)結(jié)構(gòu)化、標(biāo)準(zhǔn)化意識,導(dǎo)致數(shù)據(jù)信息嚴(yán)重碎片化、斷裂化、冗余化,常規(guī)的技術(shù)手段難以有效挖掘、整理、利用;另一方面,招標(biāo)采購數(shù)據(jù)間“隱變量”和“不定量”較多,加之相互干擾,其內(nèi)在邏輯關(guān)系隱藏較深,很難科學(xué)、可信、直觀解讀。隨著信息技術(shù)的發(fā)展,人工智能、大數(shù)據(jù)、云計算技術(shù)的大力推廣,如何通過技術(shù)手段,有效挖掘數(shù)據(jù)背后隱藏的真相,探尋信息表象迷霧下的內(nèi)在規(guī)律,成為招標(biāo)采購管理部門亟待研究的課題,也取得了一些成果。但智能交易領(lǐng)域最后也是最難攻克的堡壘——智能評審(也稱“無人評審”),還鮮有成功案例,用計算機徹底取代人類評委實現(xiàn)“精準(zhǔn)秒評”,仍停留在研究探索階段。鑒于此,基于“循例評審”原理,筆者提出一種結(jié)合Apriori關(guān)聯(lián)規(guī)則算法的“計算機智能評審”方案,探討關(guān)聯(lián)規(guī)則算法在招標(biāo)采購活動中的應(yīng)用實踐。
關(guān)聯(lián)規(guī)則分析(association rule analysis)也稱購物籃分析(market basket analysis),最早是為發(fā)現(xiàn)超市銷售數(shù)據(jù)中不同商品之間的關(guān)聯(lián)關(guān)系而建立的。例如,美國的沃爾瑪超市發(fā)現(xiàn),啤酒與尿布兩種看似風(fēng)馬牛不相及的商品,銷售額竟然呈正相關(guān)。究其原因,美國的男人們在為小孩買尿布時,常常順便帶回他們喜歡的啤酒,這背后蘊含的就是關(guān)聯(lián)規(guī)則。應(yīng)用關(guān)聯(lián)規(guī)則進(jìn)行關(guān)聯(lián)分析,能夠發(fā)現(xiàn)存在于大量無序數(shù)據(jù)集間的相關(guān)性,從而通過客觀描述事件中特定屬性同時出現(xiàn)的概率分布,得出看似“不相關(guān)現(xiàn)象”之間的內(nèi)在關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則挖掘技術(shù)已在商業(yè)營銷、金融服務(wù)、天氣預(yù)測、交通管理等行業(yè)廣泛應(yīng)用,顯示出強大的生命力。在公共資源交易領(lǐng)域,海量的交易數(shù)據(jù)之間存在深度和廣泛的“隱性關(guān)聯(lián)”關(guān)系,恰當(dāng)運用關(guān)聯(lián)規(guī)則技術(shù)可發(fā)現(xiàn)許多隱藏在數(shù)據(jù)表象之下有價值的信息。
常用的關(guān)聯(lián)規(guī)則算法有FP-growth、DHP、Partition、FUP、CD算法等。其中,Apriori算法目前應(yīng)用最廣泛,是一種以挖掘布爾關(guān)聯(lián)規(guī)則為目標(biāo)的算法,是挖掘頻繁項集和關(guān)聯(lián)規(guī)則的經(jīng)典算法。Apriori的本意是“來自以前”,即使用先驗知識或者假設(shè)。Apriori算法的主要思想是:找出數(shù)據(jù)集中最大的頻繁項集,利用得到的最大頻繁項集與預(yù)先設(shè)定的最小置信度閾值生成強關(guān)聯(lián)規(guī)則,再通過逐層搜索方式進(jìn)行反復(fù)迭代完成算法過程。
Apriori算法主要流程是,先通過連接產(chǎn)生候選集,再進(jìn)行支持度計算,最終通過剪枝生成頻繁項集。具體流程如下:
(1)已知數(shù)據(jù)集合D,支持度閾值α,找出最大的頻繁項集k。
(2)掃描數(shù)據(jù)集合D,羅列所有可能的數(shù)據(jù)集合,作為候選頻繁項集1(k=1,頻繁項集0為空集)。
(3)篩選頻繁項集k。
1)掃描數(shù)據(jù)集合D,計算候選頻繁k項集的支持度。
2)去除候選頻繁k項集里支持度低于閾值α的數(shù)據(jù)集(剪枝過程),得到頻繁項集k。如得到的頻繁項集k為空,則直接返回,頻繁項集k-1的集合為算法結(jié)果,算法終止。
3)基于頻繁k項集,連接生成候選頻繁k+1項集(連接過程)。令k=k+1,轉(zhuǎn)入步驟2),直至計算的支持度高于閾值α,此時得到的項集即為頻繁項集,算法終止。
從上述工作流程可看出,Apriori算法每一次迭代都要遍歷整個數(shù)據(jù)集,當(dāng)數(shù)據(jù)集量級龐大、數(shù)據(jù)種類較多時,計算效率較低。為此,計算機科學(xué)家提出了FP-growth、GSP、CBA等改進(jìn)計算效率的新算法。但是,Apriori算法易于編碼實現(xiàn),在當(dāng)今分布式計算引擎技術(shù)支持下,犧牲一定的時間和算力資源開銷是可以接受的。
Apriori算法計算頻繁項集的評價指標(biāo)主要有三個:支持度、置信度和提升度。
(1)支持度(Support)是指全部事務(wù)中,項集中{X,Y}同時出現(xiàn)的概率,該指標(biāo)通過最小閾值(Minsup)的設(shè)定,剔除那些“出現(xiàn)概率”較低的無意義的規(guī)則。
(2)置信度(Confidence)是指在關(guān)聯(lián)規(guī)則的先決條件X發(fā)生的情況下,關(guān)聯(lián)結(jié)果Y發(fā)生的概率,即含有X的項集條件下,同時含有Y的可能性,也就是X和Y同時發(fā)生的個數(shù)占僅僅X發(fā)生個數(shù)的比例。
(3)提升度(Lift)是指在含有X的條件下同時含有Y的可能性與無條件下含有Y的可能性之比,即在Y自身出現(xiàn)的可能性P(Y)的基礎(chǔ)上,X出現(xiàn)對于Y“出現(xiàn)概率”的提升程度。
恰當(dāng)?shù)剡x用和計算這三個評價指標(biāo),有利于判斷Apriori算法的有效性。
近年來,不少學(xué)者利用復(fù)雜網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則算法在招標(biāo)采購活動中取得了一些研究成果。汪浩然、陳輝基于關(guān)聯(lián)規(guī)則挖掘技術(shù),構(gòu)建了招標(biāo)投標(biāo)失信行為預(yù)警分析模型,實現(xiàn)了對各類主體的失信行為分類預(yù)警的目的[1];樊群、殷靜等借助大數(shù)據(jù)技術(shù)建立了基于復(fù)雜網(wǎng)絡(luò)的社團(tuán)檢測模型和多目標(biāo)群智能關(guān)聯(lián)規(guī)則挖掘模型,刻畫出圍標(biāo)串標(biāo)的交易軌跡和行為特點,為監(jiān)管部門建立圍標(biāo)串標(biāo)防御機制提供了技術(shù)支撐[2]。
其實,基于頻集的Apriori關(guān)聯(lián)規(guī)則算法在招標(biāo)采購活動中的應(yīng)用遠(yuǎn)不止這些。凡涉及頻度相關(guān)的數(shù)據(jù)集,均可建立關(guān)聯(lián)規(guī)則數(shù)學(xué)模型,再通過支持度、置信度和提升度等評價指標(biāo)予以進(jìn)一步校正,最終得出有價值的結(jié)論[3]。
Apriori關(guān)聯(lián)規(guī)則算法處理的工作流程如圖1所示。表1則列舉了基于頻集的Apriori關(guān)聯(lián)規(guī)則算法在招標(biāo)采購活動中的一些主要的應(yīng)用場景。
表1 Apriori關(guān)聯(lián)規(guī)則算法在招標(biāo)采購活動中的應(yīng)用場景
圖1 Apriori關(guān)聯(lián)規(guī)則算法的處理流程
2.2.1 基于“循例評審”的“智能評審”原理
簡單來說,“循例評審”的基本思想是假定待評審項目與先前已評審項目的主要特征、招標(biāo)邀約條件、投標(biāo)項目響應(yīng)程度相同,則可將先前項目的評審結(jié)論作為待評審項目的評審結(jié)論。也就是說,招標(biāo)的外部條件和投標(biāo)的內(nèi)部條件沒有大的變化,其評審結(jié)論應(yīng)當(dāng)可以“參考先例”,而“先例”的確定主要通過Apriori關(guān)聯(lián)規(guī)則算法來實現(xiàn)。
根據(jù)“循例評審”的基本思想,問題就轉(zhuǎn)化為要找到交易數(shù)據(jù)中“項目主要特征”“招標(biāo)邀約條件”“投標(biāo)響應(yīng)程度”和“評審結(jié)論”等因素的頻集,再通過支持度、置信度和提升度等評價指標(biāo)判斷新舊項目之間的關(guān)聯(lián)關(guān)系。符合“強關(guān)聯(lián)”預(yù)期的,則達(dá)到了“舊結(jié)論”代替“新評審”的目的,即實現(xiàn)計算機智能評審,其實質(zhì)是基于Apriori關(guān)聯(lián)規(guī)則的機器學(xué)習(xí)算法實現(xiàn)。
2.2.2 Apriori算法實現(xiàn)“智能評審”的過程
(1)建立招標(biāo)項目特征指標(biāo)集合
我國建筑行業(yè)招投標(biāo)在設(shè)置招標(biāo)邀約條件時有嚴(yán)格的制度規(guī)范,必須遵循《招標(biāo)投標(biāo)法》、《招投標(biāo)實施條例》、《建筑工程施工總承包企業(yè)資質(zhì)等級標(biāo)準(zhǔn)》(以下簡稱《標(biāo)準(zhǔn)》)、《注冊建造師執(zhí)業(yè)管理辦法》(以下簡稱《辦法》)等文件規(guī)定。建筑工程施工總承包資質(zhì)分為特級、一級、二級、三級,項目負(fù)責(zé)人資格等級分為一級、二級,招標(biāo)人主要根據(jù)建筑高度、建筑面積和單跨跨度等項目特征指標(biāo)和上述有關(guān)規(guī)定來設(shè)置招標(biāo)邀約條件。
由此建立項目特征指標(biāo)集合,即P={p1,p2,p3,p4}。其中:P為項目特征指標(biāo)頻集,p1為建筑高度,p2為建筑面積,p3為單跨跨度,p4為工程預(yù)算造價。項目特征指標(biāo)集合的取值依據(jù)及取值范圍列于表2。
表2 招標(biāo)項目特征指標(biāo)數(shù)據(jù)集
(2)建立招標(biāo)邀約條件指標(biāo)集合
同理,建立招標(biāo)邀約條件指標(biāo)集合,即Q={q1,q2,q3,q4,q5,q6},式中:Q為招標(biāo)邀約條件指標(biāo)集合,q1為企業(yè)資質(zhì)等級,q2為項目負(fù)責(zé)人資格等級,q3為企業(yè)業(yè)績,q4為項目負(fù)責(zé)人業(yè)績,q5為評標(biāo)辦法,q6為企業(yè)獲獎情況。招標(biāo)邀約條件指標(biāo)集合的取值依據(jù)及取值范圍列于表3。
表3 招標(biāo)邀約條件指標(biāo)數(shù)據(jù)集
(3)建立投標(biāo)響應(yīng)程度指標(biāo)集合
投標(biāo)響應(yīng)程度指標(biāo)主要涉及投標(biāo)企業(yè)資質(zhì)等級、業(yè)績、項目負(fù)責(zé)人資格等級等指標(biāo),即R={r1,r2,r3,r4,r5,r6,r7,r8}。其中:R為投標(biāo)響應(yīng)程度指標(biāo),r1為投標(biāo)企業(yè)資質(zhì)等級,r2為項目負(fù)責(zé)人資格等級,r3為投標(biāo)企業(yè)業(yè)績,r4為投標(biāo)企業(yè)獲獎情況,r5為投標(biāo)項目負(fù)責(zé)人業(yè)績,r6為其他資格審查材料,r7為技術(shù)標(biāo)函,r8為商務(wù)報價標(biāo)函。投標(biāo)響應(yīng)程度指標(biāo)集合取值依據(jù)與取值范圍列于表4。
(4)利用Apriori算法進(jìn)行頻集計算
招標(biāo)項目特征指標(biāo)、招標(biāo)邀約條件指標(biāo)和投標(biāo)響應(yīng)程度指標(biāo)分別建立完成后,就可配對組合,再設(shè)置閾值并進(jìn)行頻集計算。配對方法是分別建立“項目特征與招標(biāo)邀約條件組合”“招標(biāo)邀約條件與投標(biāo)響應(yīng)程度組合”等對應(yīng)關(guān)聯(lián)組合。按照Apriori算法規(guī)則計算得到頻集組合結(jié)果如表5、表6所示。
從排列組合的角度來看,最徹底的方式是歷遍所有“項目特征—招標(biāo)邀約條件—投標(biāo)響應(yīng)程度”的組合情況,然后依次統(tǒng)計各種組合出現(xiàn)的頻率。但是,由于三個組合共有51種指標(biāo)(其中項目特征指標(biāo)14個,招標(biāo)邀約條件指標(biāo)15個,投標(biāo)響應(yīng)程度指標(biāo)22個),那么組合的數(shù)量較為巨大。從表5、表6的招標(biāo)采購實踐來看,2018—2020年期間,“項目特征—招標(biāo)邀約條件—投標(biāo)響應(yīng)程度”組合數(shù)只有12種,且三者之間存在強關(guān)聯(lián)關(guān)系。也就是說即使是不同的組合之間,差別也較為微小,如T6與T7之間,在招標(biāo)邀約條件設(shè)置中,就是獎項等級的差別(T6要求省級獎項,T7則要求市級獎項)。同理,S6與S7之間在涉及投標(biāo)響應(yīng)程度方面,也僅存在提供獎項的差別而已。
表5 項目特征與招標(biāo)邀約條件頻集結(jié)果
表6 招標(biāo)邀約條件與投標(biāo)響應(yīng)程度頻集結(jié)果
(5)評審結(jié)果的“循例獲取”
表5、表6計算的頻集組合約有12種,這12種組合就是過去三年來招標(biāo)采購頻度最高、最常見的評標(biāo)本構(gòu)模型(本構(gòu)模型本為描述應(yīng)力張量與應(yīng)變張量的力學(xué)概念,這里用于表示采購頻度與得分間的一一對應(yīng)關(guān)系)。統(tǒng)計12種組合下的評標(biāo)結(jié)果,建立“投標(biāo)企業(yè)評標(biāo)得分—頻集組合”一一對應(yīng)的樣本數(shù)據(jù)庫,就能為待評審項目提供直接得分的參考依據(jù)。
以房屋建筑工程施工總承包招標(biāo)項目為例,從南通市來看,參加房建項目投標(biāo)單位一般不超過70家,招標(biāo)人的項目特征與邀約條件組合數(shù)為12種,投標(biāo)人的投標(biāo)響應(yīng)程度組合一般也不超過12種。即便是在同樣的項目特征與招標(biāo)邀約條件組合約束下,同一個投標(biāo)企業(yè)在投標(biāo)文件編制方面也有一定的差異(主要是施工組織設(shè)計部分表述方面的微小差異),即投標(biāo)文件文本并非一成不變,存在3~4種隨機組合,這是完全可以理解的。對于企業(yè)而言,即便是同一類型的項目,基于投標(biāo)策略的考慮和不同的投標(biāo)文件制作者的技術(shù)、水平的差異,不會一直照搬原有的投標(biāo)文件“模板”。在此前提下,房建工程項目投標(biāo)企業(yè)得分樣本總數(shù)大約是40320種(40320=70×12×12×4)即理論上至少要對40 320份投標(biāo)文件進(jìn)行“樣本標(biāo)定”評審,最終才可形成企業(yè)得分樣本數(shù)據(jù)庫。當(dāng)然,由于不同的項目特征與招標(biāo)邀約條件組合之間、招標(biāo)邀約條件與投標(biāo)響應(yīng)程度組合之間差別本就不大,實際評審工作量不是累積計算關(guān)系,而是差別修正關(guān)系。
例如,某企業(yè)曾在2019年5月參與南通市某大樓房屋建筑工程施工總承包招標(biāo),其招標(biāo)邀約條件與投標(biāo)響應(yīng)程度滿足S8組合條件(T8,r12,r21,r31,R6,R7,R8),當(dāng)時的技術(shù)方案得分是86分。2020年6月,該企業(yè)參與海安市某大廈建筑工程承包招標(biāo),其招標(biāo)邀約條件與投標(biāo)響應(yīng)組合條件為S6。根據(jù)Apriori算法進(jìn)行第一次迭代、第二次迭代并連續(xù)進(jìn)行剪枝,得到最終的頻繁項集S9(T9,r12,r21,r31,R6,R7,R8)。比較S9和S8差別在于T9置換了T8(也就是用q12替換p11),比較兩者招標(biāo)文件中評標(biāo)辦法規(guī)定,分值校正為2分。因此,本次投標(biāo)得分為84分(商務(wù)得分因為報價差異,一般應(yīng)當(dāng)重新計算并校正)。
現(xiàn)象的背后有真相,真相的背后是規(guī)律。隨著法律法規(guī)的日益完善,我國的招標(biāo)采購管理正邁入法制化、規(guī)范化進(jìn)程。但是,不可否認(rèn),招投標(biāo)市場依然存在諸多不正常現(xiàn)象。比如:少數(shù)企業(yè)盤踞市場,長期高頻中標(biāo);有的評委針對特定企業(yè)持續(xù)給出異常分值,明顯有違正態(tài)分布規(guī)律;一些行業(yè)的投標(biāo)企業(yè)總是“老幾家”,他們“伴隨出現(xiàn)”“抱團(tuán)投標(biāo)”,外來企業(yè)難以參與有效競爭;等等。這些現(xiàn)象可以直觀地被感知,但是難以轉(zhuǎn)化為法律可以采信的證據(jù)鏈。正所謂“頻度過高、必有蹊蹺”。這就需要招標(biāo)采購行業(yè)的管理者借助信息化手段,通過數(shù)據(jù)挖掘、模型建立和趨勢推演,去解析這些“看似明顯違規(guī)、實際難以固定”的數(shù)據(jù)表象下隱含的規(guī)律?;陬l集的Apriori關(guān)聯(lián)規(guī)則算法是科學(xué)解釋這些異?,F(xiàn)象的有力武器,將其合理應(yīng)用于招標(biāo)采購活動中,必將為營造健康有序的招標(biāo)采購環(huán)境發(fā)揮積極作用。