黃黎明,肖久紅,佘春勇,吳陽(yáng)鋒,張 帥
(1.浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心,310012,杭州;2.浙江財(cái)經(jīng)大學(xué)信息管理與工程學(xué)院,310018,杭州)
隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展以及國(guó)家實(shí)施積極財(cái)政政策,水利工程基礎(chǔ)設(shè)施迎來(lái)了投資和建設(shè)高峰期。但由于水利工程施工周期長(zhǎng)、建設(shè)難度大、涉及面廣,導(dǎo)致質(zhì)量和安全問(wèn)題時(shí)有發(fā)生,影響了人民群眾生命財(cái)產(chǎn)安全。因此,加強(qiáng)水利工程建設(shè)質(zhì)量與安全監(jiān)管工作,改進(jìn)監(jiān)管工作方法,提升政府監(jiān)管水平,顯得尤為重要和緊迫。
浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心作為省級(jí)水利工程質(zhì)量與安全監(jiān)督單位,依托信息化移動(dòng)技術(shù)在全國(guó)率先推出了水利質(zhì)量安全監(jiān)督移動(dòng)平臺(tái)。經(jīng)過(guò)一段時(shí)間的運(yùn)行,該平臺(tái)積累了大量責(zé)任主體、工程質(zhì)量抽檢、事故調(diào)查處理、監(jiān)督處理依據(jù)等工程監(jiān)管數(shù)據(jù),但數(shù)據(jù)間的相互關(guān)聯(lián)性和模式還沒(méi)有被挖掘出來(lái),歷史監(jiān)管數(shù)據(jù)無(wú)法為后續(xù)監(jiān)管工作提供有效指引。因此如何利用數(shù)據(jù)挖掘技術(shù)對(duì)現(xiàn)有水利工程監(jiān)管數(shù)據(jù)進(jìn)行分析、挖掘并準(zhǔn)確分析潛在的風(fēng)險(xiǎn)模式和規(guī)律,以實(shí)現(xiàn)監(jiān)管高效化、工具智能化、管理創(chuàng)新化,是目前水利工程建設(shè)質(zhì)量安全監(jiān)管工作中急需解決的難題。
關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘的重要方法之一,被廣泛運(yùn)用于商務(wù)、政務(wù)、金融、醫(yī)療等領(lǐng)域中。本文以浙江省水利工程建設(shè)質(zhì)量安全監(jiān)管據(jù)為對(duì)象,運(yùn)用R編程語(yǔ)言和Apriori關(guān)聯(lián)規(guī)則分析算法,對(duì)監(jiān)管數(shù)據(jù)中的主體單位類型、工程等別、工程類別、技術(shù)問(wèn)題等屬性進(jìn)行了深度關(guān)聯(lián)規(guī)則挖掘,并根據(jù)關(guān)聯(lián)規(guī)則挖掘結(jié)果對(duì)易發(fā)生技術(shù)問(wèn)題的水利工程有關(guān)屬性進(jìn)行了分析,最后結(jié)合實(shí)際情況對(duì)如何加強(qiáng)水利工程質(zhì)量與安全監(jiān)督管理提出了建議。
近年,隨著新一代信息技術(shù)的不斷發(fā)展,從海量數(shù)據(jù)中提取隱含的、具有潛在價(jià)值的信息或規(guī)律的數(shù)據(jù)挖掘技術(shù),在諸多領(lǐng)域得到了廣泛應(yīng)用。關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘的重要方法之一,成為國(guó)內(nèi)外許多學(xué)者研究的熱點(diǎn)。Qodmanan等學(xué)者提出了一種基于遺傳算法的柔性關(guān)聯(lián)規(guī)則挖掘方法,該方法采用多目標(biāo)適應(yīng)度代替支持度和置信度來(lái)評(píng)價(jià)規(guī)則。Beiranvand等學(xué)者提出采用多目標(biāo)粒子群優(yōu)化算法和多目標(biāo)透視求解數(shù)值關(guān)聯(lián)規(guī)則挖掘問(wèn)題。國(guó)內(nèi)學(xué)者方匡南、謝邦昌就缺失數(shù)據(jù)處理問(wèn)題,提出了利用聚類和關(guān)聯(lián)規(guī)則挖掘出關(guān)聯(lián)性來(lái)填補(bǔ)缺失數(shù)據(jù)。劉帥、楊英杰等人提出了一種基于改進(jìn)模糊遺傳算法的關(guān)聯(lián)規(guī)則挖掘方法,拓寬了關(guān)聯(lián)規(guī)則的挖掘范圍,提高了算法效率。
針對(duì)政府安全監(jiān)督管理問(wèn)題,國(guó)內(nèi)學(xué)者研究成果較為突出。韓紅旗提出了在水利工程管理中使用數(shù)據(jù)挖掘技術(shù),建立一個(gè)適合水利工程管理的模型。晁鳳英、杜樹(shù)新提出運(yùn)用數(shù)據(jù)挖掘方法發(fā)現(xiàn)食品安全檢測(cè)數(shù)據(jù)中隱含的關(guān)聯(lián)規(guī)則,為食品安全監(jiān)管提供了決策支持,提高了監(jiān)管效率。王艷亮提出了利用數(shù)據(jù)挖掘技術(shù)建立包括監(jiān)管部門、礦山企業(yè)及基層職工三層結(jié)構(gòu)的礦山企業(yè)安全監(jiān)管信息系統(tǒng)模型。區(qū)晶瑩等學(xué)者認(rèn)為數(shù)據(jù)挖掘技術(shù)可以從大量農(nóng)產(chǎn)品質(zhì)量安全監(jiān)督數(shù)據(jù)中提取有效信息,從而為政府監(jiān)管決策服務(wù)。
綜上所述,學(xué)者們的前期相關(guān)研究為本文研究奠定了基礎(chǔ),將關(guān)聯(lián)規(guī)則挖掘技術(shù)與水利工程建設(shè)質(zhì)量安全監(jiān)管相結(jié)合以獲得潛在的、有價(jià)值的風(fēng)險(xiǎn)模式和規(guī)律,是提升水利工程建設(shè)質(zhì)量安全監(jiān)管工作效率和水平的有效手段。
本次實(shí)驗(yàn)數(shù)據(jù)來(lái)自浙江省水利水電工程質(zhì)量與安全監(jiān)督管理中心,共21 000條記錄。數(shù)據(jù)中包含了主體單位類型、工程地點(diǎn)、工程等別、工程性質(zhì)、工程用途、工程類別、建設(shè)狀態(tài)、總投資、問(wèn)題描述和技術(shù)問(wèn)題共10個(gè)屬性。
本次實(shí)驗(yàn)采用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。Apriori算法是一種經(jīng)典的通過(guò)生成布爾型關(guān)聯(lián)規(guī)則頻繁項(xiàng)集以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法,其過(guò)程可以分為兩個(gè)步驟:
(1)通過(guò)迭代檢索出數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,項(xiàng)集支持度不低于設(shè)定的最小閾值。
(2)利用頻繁項(xiàng)集構(gòu)造出滿足最小置信度的規(guī)則。
Apriori算法包含了支持度、置信度和提升度三個(gè)重要概念。
假設(shè)I={i1,i2, …,im} 是m個(gè)項(xiàng)(item)組成的集合。關(guān)聯(lián)規(guī)則是形如“A=>B”的蘊(yùn)含式,其中A和B滿足A∈I,B∈I,且:
①支持度 (Support):表示項(xiàng)集{A,B}在總項(xiàng)集I中出現(xiàn)的概率,即P(A∪B),如公式1所示。其中,num(A∪B)表示含有項(xiàng)集{A,B}的個(gè)數(shù),num(I)表示總項(xiàng)集的個(gè)數(shù)。
②置信度(Confidence):表示在含有A 的項(xiàng)集中, 含有B 的可能性,即條件概率P(B/A),如公式2 所示。其中,P(A)表示A 總體發(fā)生的概率。
(3)提升度(Lift):表示含有 A 的條件下,同時(shí)含有B的概率與B總體發(fā)生的概率之比,如公式3所示。Lift>1表示A與B正相關(guān),Lift=1表示A與B相互獨(dú)立,Lift<1表示A與B負(fù)相關(guān)。
為了提高實(shí)驗(yàn)的準(zhǔn)確度,挖掘出對(duì)水利工程監(jiān)管工作人員有輔助決策作用的關(guān)聯(lián)規(guī)則,首先去除了存在錯(cuò)誤輸入和空缺的數(shù)據(jù)記錄。同時(shí)根據(jù)工程項(xiàng)目所在地,將工程地點(diǎn)歸類為浙江省11個(gè)地級(jí)市。根據(jù)數(shù)據(jù)分布情況,將“總投資”屬性的值離散化為“小規(guī)?!薄爸幸?guī)模”和“大規(guī)?!? 個(gè)等級(jí),以符合關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)類型需要,如表1所示。最后根據(jù)“問(wèn)題描述”屬性對(duì)技術(shù)問(wèn)題進(jìn)行合并歸類,共劃分為50個(gè)問(wèn)題類別。表2和表3分別部分列出用于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的技術(shù)問(wèn)題類別描述和實(shí)驗(yàn)數(shù)據(jù)。
分別指定50類問(wèn)題作為規(guī)則的后項(xiàng),然后通過(guò)編寫R語(yǔ)言程序并調(diào)用arules程序包Apriori關(guān)聯(lián)規(guī)則算法進(jìn)行數(shù)據(jù)挖掘,以找出工程屬性與工程所存在技術(shù)問(wèn)題之間的關(guān)聯(lián)性規(guī)則。為了保留更多關(guān)聯(lián)規(guī)則供后續(xù)挑選,設(shè)置最小支持度和最小置信度分別為0.003和0.1??紤]到挖掘出的關(guān)聯(lián)規(guī)則中以涉及問(wèn)題40(施工用電不規(guī)范)和問(wèn)題46(安全警示標(biāo)志設(shè)置不符合規(guī)范要求)的規(guī)則居多,本文針對(duì)這兩類問(wèn)題的關(guān)聯(lián)規(guī)則進(jìn)行重點(diǎn)分析。
圖1是以問(wèn)題40和46為后項(xiàng)的關(guān)聯(lián)規(guī)則散點(diǎn)圖。X軸和Y軸分別代表支持度值和置信度值。圖中的每一個(gè)小方塊代表一條關(guān)聯(lián)規(guī)則,小方塊的顏色代表提升度值,顏色越深,提升度值越大。由圖1可知,大部分關(guān)聯(lián)規(guī)則的置信度處在0.15~0.3之間,提升度大多高于1.5,表明挖掘出的關(guān)聯(lián)規(guī)則具有一定的實(shí)際指導(dǎo)意義。圖2是以問(wèn)題40和46為后項(xiàng)的部分關(guān)聯(lián)規(guī)則的可視化圖。圖2中,圓的大小代表支持度值,顏色代表提升度值。圓越大表示支持度值越大,圓的顏色越深表示提升度值越大。從圖2中可以看到“{工程類別=農(nóng)水,工程用途=灌溉,工程地點(diǎn)=衢州市}=>{技術(shù)問(wèn)題=46}”規(guī)則的支持度大且提升度高于2.5,表明衢州市用于灌溉的農(nóng)水類工程出現(xiàn) “安全警示標(biāo)志設(shè)置不符合規(guī)范要求”問(wèn)題的可能性很大,在進(jìn)行水利工程質(zhì)量監(jiān)管時(shí)要重點(diǎn)關(guān)注。
表1 “總投資”類別的范圍區(qū)間設(shè)定
表2 技術(shù)問(wèn)題類別描述(部分)
表4展現(xiàn)的是從挖掘結(jié)果中篩選出的部分具有代表性的關(guān)聯(lián)規(guī)則。其中規(guī)則1的提升度高達(dá)2.5649,表明相對(duì)于其他工程,金華市用于防洪的河道類工程出現(xiàn) “砌塊施工不滿足設(shè)計(jì)及規(guī)范要求”問(wèn)題的概率顯著提升。其原因可能是用于防洪的河道類工程采用砌筑工藝易出現(xiàn)砌筑未按照施工方案施工、土方超挖欠挖和伸縮縫設(shè)置不符合設(shè)計(jì)要求等問(wèn)題。規(guī)則4和規(guī)則6是同類工程出現(xiàn)不同技術(shù)問(wèn)題的關(guān)聯(lián)規(guī)則。通過(guò)比較支持度值和置信度值,可以看出嘉興市農(nóng)水類工程的施工單位出現(xiàn) “安全警示標(biāo)志設(shè)置不符合規(guī)范要求”問(wèn)題的概率更高,監(jiān)管工作人員針對(duì)該類工程進(jìn)行監(jiān)管時(shí),要予以特別關(guān)注。實(shí)際分析中看到,規(guī)則6的提升度略大于1,表明該規(guī)則幾乎沒(méi)有實(shí)際應(yīng)用價(jià)值;而規(guī)則4的提升度達(dá)到1.6879,表明該規(guī)則具有較好的實(shí)際應(yīng)用價(jià)值,能為水利工程建設(shè)質(zhì)量安全監(jiān)管提供指導(dǎo)意義。
表3 實(shí)驗(yàn)數(shù)據(jù)(部分)
圖1 以問(wèn)題40和46為后項(xiàng)的關(guān)聯(lián)規(guī)則散點(diǎn)圖
圖2 以問(wèn)題40和46為后項(xiàng)的關(guān)聯(lián)規(guī)則可視化圖(部分)
本文采用關(guān)聯(lián)規(guī)則挖掘方法和Apriori算法探究水利工程各種屬性與可能存在技術(shù)問(wèn)題之間的隱含聯(lián)系。借助挖掘出的關(guān)聯(lián)規(guī)則可以有效輔助政府部門加強(qiáng)水利工程建設(shè)質(zhì)量安全監(jiān)管工作,提高監(jiān)管效率。如針對(duì)嘉興市農(nóng)水類工程施工單位,水利監(jiān)管人員需要重點(diǎn)檢查“工程安全警示標(biāo)志設(shè)置是否符合規(guī)范要求”問(wèn)題;針對(duì)杭州市新建引調(diào)水類工程,水利監(jiān)管人員需要重點(diǎn)檢查工程是否出現(xiàn)“施工用電不規(guī)范”問(wèn)題。
表4 實(shí)驗(yàn)結(jié)果中具有代表性的關(guān)聯(lián)規(guī)則(部分)
本次實(shí)驗(yàn)過(guò)程中仍存在一些局限性。例如,由于浙江省水利質(zhì)量安全監(jiān)督移動(dòng)平臺(tái)運(yùn)行年份不長(zhǎng),獲取的數(shù)據(jù)量有限,導(dǎo)致挖掘的關(guān)聯(lián)規(guī)則準(zhǔn)確度有待提升。在后續(xù)的研究中,將考慮把關(guān)聯(lián)規(guī)則挖掘與啟發(fā)式算法或其他數(shù)據(jù)挖掘技術(shù)相結(jié)合,以進(jìn)一步提升數(shù)據(jù)挖掘的精度和準(zhǔn)確度。 ■