孫開暢,馮繼偉
(三峽大學(xué)水利與環(huán)境學(xué)院,湖北 宜昌 443002)
水利工程事故具有特殊性、復(fù)雜性等特點(diǎn),很難實(shí)現(xiàn)將水利工程事故發(fā)生概率降低為零,而研究水利工程事故一個(gè)重要方向就是找出影響水利工程的主要風(fēng)險(xiǎn)因素并確定風(fēng)險(xiǎn)因素之間的關(guān)聯(lián)關(guān)系,它能夠?yàn)樗こ填A(yù)測機(jī)制、應(yīng)急救援及物資調(diào)配提供數(shù)據(jù)分析及技術(shù)保障。水利工程風(fēng)險(xiǎn)分析研究是一套相對完整的體系,一般包括事故風(fēng)險(xiǎn)管理體系、事故風(fēng)險(xiǎn)分析體系、事故風(fēng)險(xiǎn)等級體系等,其中事故風(fēng)險(xiǎn)因素分析至關(guān)重要[1-3]。本文主要針對水利工程的風(fēng)險(xiǎn)因素進(jìn)行多維因素關(guān)聯(lián)研究,以期能夠找出影響水利工程事故的關(guān)鍵因素,并確定各因素之間的關(guān)聯(lián)關(guān)系。
目前已有不少數(shù)據(jù)的關(guān)聯(lián)分析研究,Becker等[4]提出了CBR圖網(wǎng)絡(luò)模型,并將其運(yùn)用到數(shù)據(jù)關(guān)聯(lián)分析中,對特征數(shù)據(jù)進(jìn)行了關(guān)聯(lián)分析;馬建斌等[5]將改進(jìn)的Apriori算法運(yùn)用到海事的事故數(shù)據(jù)關(guān)聯(lián)分析中,對海事事故進(jìn)行了因素分析,解析出了各個(gè)因素對海事的影響情況;黃鈞晟等[6]以云計(jì)算平臺為背景,利用數(shù)據(jù)關(guān)聯(lián)算法對氣象數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析研究,找出了氣象數(shù)據(jù)之間的潛在聯(lián)系及規(guī)律,通過這些規(guī)律有效地對氣象進(jìn)行了預(yù)測,為海量氣象數(shù)據(jù)挖掘提供了很好的技術(shù)支持;朱海等[7]利用Apriori算法建立了企業(yè)風(fēng)險(xiǎn)數(shù)據(jù)庫和相關(guān)報(bào)表,對企業(yè)管理型風(fēng)險(xiǎn)實(shí)現(xiàn)了預(yù)警,最大程度地減少企業(yè)資產(chǎn)損失。
結(jié)合已有研究和水利工程特點(diǎn),從風(fēng)險(xiǎn)因素的角度來考慮,部分風(fēng)險(xiǎn)因素?cái)?shù)據(jù)并未存在完全明確的強(qiáng)邏輯關(guān)系,如何將這些風(fēng)險(xiǎn)因素?cái)?shù)據(jù)聯(lián)系起來,建立起完整的多維數(shù)據(jù)關(guān)系是解決水利工程事故風(fēng)險(xiǎn)關(guān)系的一個(gè)至關(guān)重要的環(huán)節(jié)。基于此,本文在上述研究的基礎(chǔ)上結(jié)合水利工程的特點(diǎn),將機(jī)器學(xué)習(xí)中的Apriori數(shù)據(jù)關(guān)聯(lián)算法引入到水利工程風(fēng)險(xiǎn)因素多維關(guān)聯(lián)分析中,以期能夠描繪出水利工程多維因素關(guān)聯(lián)關(guān)系,為應(yīng)急救援及物資調(diào)配提供數(shù)據(jù)分析及技術(shù)保障支持,并完善水利工程的應(yīng)急管理系統(tǒng)。
水利工程事故涉及到很多的領(lǐng)域并且一般破壞性強(qiáng)、經(jīng)濟(jì)損失大、社會影響大。水利工程事故體系是一個(gè)復(fù)雜的風(fēng)險(xiǎn)系統(tǒng),影響水利工程事故發(fā)生的因素眾多,而這些特征因素又受到各種人為條件的限制,這使得整個(gè)水利工程安全風(fēng)險(xiǎn)體系具有復(fù)雜性、不確定性。為保障水利工程的安全,降低事故的影響,非常有必要對影響水利工程事故的人為風(fēng)險(xiǎn)因素進(jìn)行識別和分析。
根據(jù)風(fēng)險(xiǎn)因素的模糊程度,可以將風(fēng)險(xiǎn)因素提取形式分為基于語言數(shù)據(jù)的因素值提取、基于已知因果關(guān)系的因素提取、基于主因素分析的數(shù)據(jù)因素提取等。本研究依據(jù)水利工程的風(fēng)險(xiǎn)分析現(xiàn)狀,并結(jié)合實(shí)際的工程狀況和國內(nèi)學(xué)者對風(fēng)險(xiǎn)指標(biāo)評價(jià)體系的研究現(xiàn)狀,以人為因素分析與分類系統(tǒng)(HFACS)[8-9]作為風(fēng)險(xiǎn)因素分析的方法和工具,并對HFACS框架中的因素進(jìn)行分類和細(xì)化處理,以適應(yīng)水利工程的施工技術(shù)和安全管理等狀況,通過刪除和合并部分與水利工程不相吻合的因素,最終得到經(jīng)過修訂后的HFACS框架[1],如圖1所示。
圖1 風(fēng)險(xiǎn)體系框架
Apriori算法[10-11]為一種計(jì)算數(shù)據(jù)頻繁項(xiàng)集和因素多維關(guān)聯(lián)規(guī)則的無監(jiān)督學(xué)習(xí)算法,該算法以頻繁項(xiàng)集性質(zhì)為先驗(yàn)知識,可以從大規(guī)模的數(shù)據(jù)信息集合中計(jì)算出不同數(shù)據(jù)因素之間的關(guān)聯(lián)規(guī)則?;跈C(jī)器學(xué)習(xí)的Apriori算法有如下幾個(gè)基本定義:項(xiàng)集、支持度、置信度、關(guān)聯(lián)規(guī)則、頻繁項(xiàng)集。
(1)項(xiàng)集。水利工程的事故風(fēng)險(xiǎn)項(xiàng)集主要指具體的工程事故案例,這些事故案例也是風(fēng)險(xiǎn)關(guān)系的具體表現(xiàn)形式。
(2)支持度。事故案例風(fēng)險(xiǎn)因素同時(shí)發(fā)生的概率,其中事故風(fēng)險(xiǎn)因素A對事故風(fēng)險(xiǎn)因素B的支持度表示為
support(A→B)=P(A∪B)
(1)
式中,P(A∪B)表示案例中風(fēng)險(xiǎn)因素A和B同時(shí)發(fā)生的概率。
(3)置信度(confidence)。數(shù)據(jù)因素關(guān)聯(lián)規(guī)則關(guān)系的置信程度,能夠表示因素風(fēng)險(xiǎn)之間產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則,即
(2)
(3)關(guān)聯(lián)規(guī)則(association rules)。風(fēng)險(xiǎn)關(guān)聯(lián)關(guān)系的支持度和置信度都大于最小要求時(shí)的關(guān)聯(lián)關(guān)系,即被挖掘的各個(gè)風(fēng)險(xiǎn)因素之間的關(guān)聯(lián)關(guān)系。數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘一般分為兩個(gè)過程:找出頻繁項(xiàng)集和因素之間的強(qiáng)關(guān)聯(lián)規(guī)則關(guān)系。頻繁項(xiàng)集挖掘一般有如下原則[10-13]:①頻繁因素項(xiàng)集連接原則。頻繁項(xiàng)集k和Lk-1項(xiàng)集的自身連接產(chǎn)生候選k項(xiàng)集Ck,如果Lk-1中某兩個(gè)的元素(項(xiàng)集)itemset1和itemset2的前(k-2)項(xiàng)是相同的,則表示itemset1和itemset2是可連接的。②剪枝原則。根據(jù)已有的先驗(yàn)性質(zhì),遍歷整個(gè)因素事故庫,計(jì)算中每個(gè)代確定的風(fēng)險(xiǎn)因素出現(xiàn)的次數(shù),將風(fēng)險(xiǎn)因素出現(xiàn)的次數(shù)與最小支持度相比較,確定頻繁因素項(xiàng)。③刪除原則?;趬嚎s后的Ck,遍歷整個(gè)水利工程風(fēng)險(xiǎn)數(shù)據(jù)庫,對Ck中的每個(gè)風(fēng)險(xiǎn)因素進(jìn)行計(jì)數(shù),去除不滿足最小支持度的風(fēng)險(xiǎn)因素項(xiàng)集。
該算法是一種逐層迭代算法,即為利用k項(xiàng)來計(jì)算(k+1)的方法。過程如下:首先,通過掃描整個(gè)事故風(fēng)險(xiǎn)數(shù)據(jù)庫,計(jì)算出每個(gè)案例中的風(fēng)險(xiǎn)因素的數(shù)據(jù)并收集滿足最小支持度的風(fēng)險(xiǎn)項(xiàng)集,找出頻繁1項(xiàng)集的風(fēng)險(xiǎn)項(xiàng)集的集合,這些風(fēng)險(xiǎn)因素構(gòu)成了候選1項(xiàng)集的集合C1;然后從C1中刪除不滿足最小支持度的項(xiàng)集,從而獲得頻繁項(xiàng)集L1,使用L1找出頻繁2項(xiàng)集的集合L2;以此類推,對整個(gè)風(fēng)險(xiǎn)因素事故數(shù)據(jù)庫進(jìn)行掃描,對Ck中的每個(gè)項(xiàng)進(jìn)行計(jì)數(shù),根據(jù)最小支持度的原則,從Ck中刪除不滿足的項(xiàng),從而獲得頻繁k項(xiàng)集。
一旦找出了最終的頻繁項(xiàng)集,就表明產(chǎn)生了強(qiáng)關(guān)聯(lián)關(guān)系。對于每個(gè)頻繁項(xiàng)集,如果
(3)
則輸出s?(l-s),其中min_conf是最小置信度閾值。
本研究以長江干流中的3個(gè)水利樞紐在2000年~2011年間的186起輕傷以上的事故數(shù)據(jù)為風(fēng)險(xiǎn)因素的研究對象[14],利用機(jī)器學(xué)習(xí)中的Apriori算法對數(shù)據(jù)的風(fēng)險(xiǎn)因素進(jìn)行挖掘,針對于每一起事故,由專家來判斷該事故中是否含有HFACS框架中的風(fēng)險(xiǎn)因素,若存在該風(fēng)險(xiǎn)因素,則該風(fēng)險(xiǎn)因素在該事故中的數(shù)據(jù)值為1,如不存在該因素,則該風(fēng)險(xiǎn)因素的數(shù)據(jù)值為0,取出其中10故案例風(fēng)險(xiǎn)數(shù)據(jù)結(jié)構(gòu)表示表示,如表1所示。
表1 事故風(fēng)險(xiǎn)因素
基于上述的186起事故的事故風(fēng)險(xiǎn)案例進(jìn)行數(shù)據(jù)挖掘,可以得出各個(gè)風(fēng)險(xiǎn)因素之間的多維關(guān)聯(lián)關(guān)系,為保證事故數(shù)據(jù)關(guān)系有較高的可信度及支持度,本研究中將事故因素關(guān)聯(lián)關(guān)系的支持度取100%,置信度取100%,即在可信度為100%的情況下風(fēng)險(xiǎn)因素同時(shí)發(fā)生概率為100%,根據(jù)上述限制條件并方便事故風(fēng)險(xiǎn)因素之間的表達(dá),取出風(fēng)險(xiǎn)因素關(guān)系進(jìn)行計(jì)算。通過對上述的事故數(shù)據(jù)進(jìn)行挖掘,利用關(guān)于數(shù)據(jù)關(guān)聯(lián)的兩個(gè)主要的過程,找出所有的頻繁項(xiàng)集和找出事故案例因素之間的強(qiáng)關(guān)聯(lián)規(guī)則關(guān)系,最終得到如表2所示水電工程事故案例人為因素的多維數(shù)據(jù)關(guān)聯(lián)關(guān)系。
表2 多維關(guān)聯(lián)關(guān)系
將186起水利工程的事故案例庫作為一個(gè)完整的風(fēng)險(xiǎn)事故案例集,事故數(shù)據(jù)的每一項(xiàng)信息構(gòu)成一個(gè)項(xiàng)集,項(xiàng)集中任一個(gè)項(xiàng)目都是一個(gè)與水利工程風(fēng)險(xiǎn)相關(guān)的因素,本次數(shù)據(jù)挖掘試驗(yàn)對于水利工程的事故數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘,從挖掘關(guān)系進(jìn)行分析,在置信度100%、支持度100%的情況下,可以得到如下的規(guī)則:
(1)單個(gè)維度的數(shù)據(jù)規(guī)則方面。安全生產(chǎn)教育對于技術(shù)人員的各個(gè)方面都非常重要,通過加強(qiáng)對人員的安全生產(chǎn)教育,可以解決人員素質(zhì)問題、人員的操作違規(guī)、技能差錯(cuò)、直覺與決策差錯(cuò)等問題。因此,在水利工程的整個(gè)過程中要特別注重對于人員的安全生產(chǎn)教育,通過解決該風(fēng)險(xiǎn)因素能夠有效地解決相關(guān)聯(lián)的風(fēng)險(xiǎn)因素。人員素質(zhì)因素對操作違規(guī)、技能差錯(cuò)、直覺與決策差錯(cuò)都要影響,并且對整個(gè)水利工程風(fēng)險(xiǎn)因素體系中的大部分因素都有聯(lián)系。因此,安全生產(chǎn)教育和人員素質(zhì)應(yīng)被視為主要影響水利工程風(fēng)險(xiǎn)體系的核心問題,要預(yù)防事故的發(fā)生,需要著重解決這兩點(diǎn)。
(2)多維度風(fēng)險(xiǎn)因素關(guān)聯(lián)規(guī)則方面。人員素質(zhì)和安全生產(chǎn)教育依然影響較大,此外,安全組織體系和安全管理程序也對班組管理有影響。
本文利用機(jī)器學(xué)習(xí)中的Apriori數(shù)據(jù)關(guān)聯(lián)算法,對水利工程事故案例數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘,得出了風(fēng)險(xiǎn)因素的潛在多維關(guān)系,為水利工程事故風(fēng)險(xiǎn)分析提供了重要數(shù)據(jù)支持?;谑鹿拾咐龓斓臄?shù)據(jù)分析,可知人員素質(zhì)和安全生產(chǎn)教育對整個(gè)風(fēng)險(xiǎn)體系影響較大,同時(shí),利用數(shù)據(jù)庫可以計(jì)算出各風(fēng)險(xiǎn)因素之間的潛在關(guān)聯(lián)關(guān)系。該計(jì)算方法可以彌補(bǔ)灰色與模糊理論只能處理少數(shù)據(jù)、貧信息分析的缺陷和單因素分析的不足。