摘要:城鎮(zhèn)燃?xì)夤芫W(wǎng)作為重要的滿足群眾生活需求的基礎(chǔ)設(shè)施,其安全性對(duì)于保障廣大人民群眾的財(cái)產(chǎn)與生命安全具有重要意義。以810件國(guó)內(nèi)城鎮(zhèn)燃?xì)夤艿佬孤?、爆炸事故案例為樣本,采用文本挖掘技術(shù)對(duì)樣本案例進(jìn)行分詞處理,根據(jù)TF-IDF算法統(tǒng)計(jì)詞頻并確定導(dǎo)致燃?xì)夤艿佬孤┑年P(guān)鍵風(fēng)險(xiǎn)因素;通過(guò)共現(xiàn)分析實(shí)現(xiàn)風(fēng)險(xiǎn)因素間關(guān)系的可視化,計(jì)算中心性指標(biāo),確定風(fēng)險(xiǎn)因素集合;基于Apriori算法揭示了燃?xì)夤艿腊踩L(fēng)險(xiǎn)因素之間的關(guān)聯(lián)規(guī)則。研究發(fā)現(xiàn):在城鎮(zhèn)燃?xì)夤艿狸P(guān)鍵風(fēng)險(xiǎn)因素識(shí)別過(guò)程中,文本挖掘方法與傳統(tǒng)方法分析結(jié)果基本一致;在次要因素分析中,管道設(shè)備老化、安全生產(chǎn)過(guò)程中的員工培訓(xùn)、安全保護(hù)措施、審批程序不完善等因素,相較以往研究都呈現(xiàn)出了與燃?xì)馐鹿矢鼜?qiáng)的關(guān)聯(lián)程度,這為管道安全管理提供了新的視角。
關(guān)鍵詞:城鎮(zhèn)燃?xì)夤艿?;風(fēng)險(xiǎn)因素;文本挖掘;共現(xiàn)分析;關(guān)聯(lián)規(guī)則挖掘
中圖分類號(hào):TU996
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1673-5595(2024)03-0010-08
一、引言及文獻(xiàn)綜述
隨著我國(guó)燃?xì)馄占奥实牟粩嗵岣?,燃?xì)夤艿冷佋O(shè)長(zhǎng)度快速增長(zhǎng),發(fā)展重心逐漸轉(zhuǎn)移到城鎮(zhèn)民用管道。[1]作為城市安全運(yùn)行管理的重要組成部分,燃?xì)獍踩芾砼c城市日常生活息息相關(guān),一旦發(fā)生燃?xì)夤艿佬孤⒒馂?zāi)、爆炸事故,將造成財(cái)產(chǎn)損失,甚至嚴(yán)重威脅人民群眾的生命安全。當(dāng)前,我國(guó)燃?xì)馐褂靡?guī)模不斷增大,燃?xì)獍踩[患點(diǎn)多面廣,燃?xì)馐鹿蕰r(shí)有發(fā)生。根據(jù)中國(guó)城市燃?xì)鈪f(xié)會(huì)發(fā)布的《全國(guó)燃?xì)馐鹿史治鰣?bào)告》(2022年·全年綜述)統(tǒng)計(jì),2022年全年共收集到媒體報(bào)道的國(guó)內(nèi)(不含港澳臺(tái))燃?xì)馐鹿?02起,造成66人死亡、487人受傷,其中重大事故0起、較大事故10起,事故分布在全國(guó)30個(gè)省份、249個(gè)城市。[2]近年來(lái),大型燃?xì)馐鹿暑l發(fā),給社會(huì)造成了嚴(yán)重后果和不良影響。例如,2016年4月10日,北京海淀區(qū)某小區(qū)進(jìn)行施工作業(yè)時(shí),挖斷燃?xì)夤艿缹?dǎo)致燃?xì)庑孤?,引發(fā)了燃?xì)獗ㄊ鹿?,致?人死亡、2人受傷;2017年7月4日,吉林省松原市寧江區(qū)繁華路發(fā)生城市燃?xì)夤艿佬孤┍ㄊ鹿剩斐?人死亡、85人受傷;2021年6月13日,湖北省十堰市張灣區(qū)艷湖小區(qū)發(fā)生天然氣爆炸事故,41廠菜市場(chǎng)被炸毀,爆炸造成25人死亡、138人受傷(其中37人重傷)。由于燃?xì)馐鹿示哂型话l(fā)性、危害性、損失大等特點(diǎn),備受廣大社會(huì)民眾、燃?xì)饨?jīng)營(yíng)企業(yè)、相關(guān)學(xué)術(shù)研究機(jī)構(gòu)和政府機(jī)構(gòu)的關(guān)注。一直以來(lái),我國(guó)對(duì)安全問(wèn)題十分重視,2023年,為了避免如“湖北十堰6·13”此類大型安全生產(chǎn)事故再次發(fā)生,國(guó)務(wù)院安委會(huì)發(fā)布了《全國(guó)重大事故隱患專項(xiàng)排查整治2023行動(dòng)總體方案》,燃?xì)庑袠I(yè)作為重點(diǎn)行業(yè)領(lǐng)域出現(xiàn)在方案中。各級(jí)政府及相關(guān)安全管理部門(mén)頒布的《關(guān)于在重點(diǎn)行業(yè)和領(lǐng)域開(kāi)展安全生產(chǎn)隱患排查治理專項(xiàng)行動(dòng)的通知》和《安全生產(chǎn)事故隱患排查治理暫行規(guī)定》,也對(duì)各行各業(yè)安全隱患識(shí)別排查及風(fēng)險(xiǎn)管控提出了較高的要求。[3]對(duì)城鎮(zhèn)燃?xì)夤艿肋M(jìn)行風(fēng)險(xiǎn)評(píng)價(jià),加強(qiáng)事前預(yù)防避免事故發(fā)生,已成為管道安全管理和風(fēng)險(xiǎn)控制的有效手段。[4]風(fēng)險(xiǎn)因素識(shí)別作為風(fēng)險(xiǎn)評(píng)價(jià)的重要環(huán)節(jié),既是風(fēng)險(xiǎn)管理的基礎(chǔ),也是開(kāi)展安全生產(chǎn)工作的前提。因此,對(duì)燃?xì)夤艿肋\(yùn)營(yíng)過(guò)程中存在的風(fēng)險(xiǎn)因素進(jìn)行識(shí)別與分析,對(duì)保障人民生命和財(cái)產(chǎn)安全意義重大。
當(dāng)前,燃?xì)夤艿缹?shí)際運(yùn)營(yíng)管理過(guò)程中的風(fēng)險(xiǎn)因素,主要依賴于專家經(jīng)驗(yàn)和現(xiàn)場(chǎng)工作人員人為識(shí)別。董宏理[5]、楊茂華等[6]將改進(jìn)的安全檢查表應(yīng)用于燃?xì)獍踩u(píng)估過(guò)程,建立安全檢查標(biāo)準(zhǔn);曾小康等[7]根據(jù)國(guó)家標(biāo)準(zhǔn)和規(guī)范,結(jié)合專家經(jīng)驗(yàn),識(shí)別、歸納了105項(xiàng)風(fēng)險(xiǎn)影響因素,并以此建立燃?xì)夤芫W(wǎng)風(fēng)險(xiǎn)評(píng)估體系。也有一些學(xué)者為了提高客觀性,對(duì)收集到的管道失效數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并以此作為風(fēng)險(xiǎn)因素識(shí)別的依據(jù)。Belvederesi等[8]基于管道數(shù)據(jù)庫(kù),統(tǒng)計(jì)分析管道失效后果與各相關(guān)變量間的關(guān)系,確定了以管道設(shè)計(jì)過(guò)程為主的燃?xì)夤艿里L(fēng)險(xiǎn)因素;楊玉鋒等[9]以美國(guó)燃?xì)夤艿朗?shù)據(jù)庫(kù)為依據(jù)將風(fēng)險(xiǎn)因素歸為7類。近年來(lái),對(duì)管道失效風(fēng)險(xiǎn)因素的關(guān)注程度呈上升趨勢(shì),應(yīng)用于風(fēng)險(xiǎn)因素識(shí)別的方法也逐漸增多,越來(lái)越多的學(xué)者將專家經(jīng)驗(yàn)與數(shù)據(jù)統(tǒng)計(jì)結(jié)合起來(lái)識(shí)別風(fēng)險(xiǎn)因素,并輔以模型分析。索瑋嵐等[10]利用人工梳理和二元語(yǔ)義表示模型,分析提煉城市管線運(yùn)行的風(fēng)險(xiǎn)因素集合,并通過(guò)問(wèn)卷調(diào)查征求專家及企業(yè)意見(jiàn)進(jìn)行篩選和修正;杜雨霽等[11]利用德?tīng)柗品ㄏ蛉細(xì)夤鞠嚓P(guān)專家展開(kāi)調(diào)研,確認(rèn)燃?xì)夤芫W(wǎng)風(fēng)險(xiǎn)評(píng)估變量集合,并采用因子分析法構(gòu)建風(fēng)險(xiǎn)評(píng)估指標(biāo)體系。
隨著技術(shù)的發(fā)展,各個(gè)行業(yè)的風(fēng)險(xiǎn)因素識(shí)別開(kāi)始應(yīng)用各種科學(xué)算法,一些學(xué)者運(yùn)用機(jī)器學(xué)習(xí)算法[12-13]采集施工現(xiàn)場(chǎng)的事故數(shù)據(jù),識(shí)別工作活動(dòng)中的關(guān)鍵事項(xiàng);或運(yùn)用眼動(dòng)儀技術(shù)[14]分析人為因素對(duì)風(fēng)險(xiǎn)因素識(shí)別的影響。文本挖掘是一種從非結(jié)構(gòu)化的文本信息中提取潛在知識(shí)和模式的過(guò)程,其應(yīng)用范圍廣泛。目前該方法在安全領(lǐng)域方面主要應(yīng)用于建筑施工作業(yè)、煤礦生產(chǎn)、交通運(yùn)輸?shù)刃袠I(yè);其應(yīng)用方式主要包括詞頻分析、因果分析,或與其他方法共同使用。譚章祿等[15]、陳聰聰?shù)龋?6]都對(duì)煤礦事故隱患描述進(jìn)行文本挖掘分析,統(tǒng)計(jì)高頻隱患,指導(dǎo)隱患治理;Qiu等[17]基于文本挖掘技術(shù),探索煤礦事故致因機(jī)理,構(gòu)建事故因果關(guān)系網(wǎng)絡(luò);Xu等[18]采用文本挖掘方法提取出43個(gè)安全風(fēng)險(xiǎn)因素,并在此基礎(chǔ)上提出了一種多層解釋結(jié)構(gòu)模型確定風(fēng)險(xiǎn)之間的相互作用;Kwayu等[19]使用文本挖掘技術(shù)在運(yùn)輸安全領(lǐng)域挖掘出有效的文本信息,并利用結(jié)構(gòu)主題建模方法和網(wǎng)絡(luò)拓?fù)浞治龇椒?,識(shí)別導(dǎo)致交通事故發(fā)生的主要地點(diǎn)和原因;Kim等[20]在分析施工區(qū)域火災(zāi)事故原因時(shí),將文本挖掘技術(shù)與主成分分析法相結(jié)合,以時(shí)間、地點(diǎn)、事故模式等為依據(jù)推斷出季節(jié)性因素。
根據(jù)對(duì)已有文獻(xiàn)的梳理,燃?xì)夤艿里L(fēng)險(xiǎn)因素大多以簡(jiǎn)單數(shù)據(jù)統(tǒng)計(jì)、經(jīng)驗(yàn)總結(jié)、人為識(shí)別或多種方法結(jié)合進(jìn)行分析,缺乏一定的客觀性和系統(tǒng)性。從管道事故報(bào)告、失效統(tǒng)計(jì)數(shù)據(jù)中系統(tǒng)地識(shí)別燃?xì)夤艿赖娘L(fēng)險(xiǎn)因素非常重要,且文本挖掘技術(shù)在安全領(lǐng)域已有應(yīng)用,只是目前鮮有學(xué)者將其運(yùn)用于燃?xì)夤艿里L(fēng)險(xiǎn)因素識(shí)別。因此,本研究基于全國(guó)燃?xì)夤艿朗鹿拾咐龓?kù),利用文本挖掘技術(shù),以數(shù)據(jù)驅(qū)動(dòng)的方式識(shí)別關(guān)鍵風(fēng)險(xiǎn),構(gòu)建因素之間的共現(xiàn)矩陣和共現(xiàn)網(wǎng)絡(luò),并運(yùn)用Apriori算法挖掘、分析風(fēng)險(xiǎn)因素之間的關(guān)聯(lián)關(guān)系。本研究的創(chuàng)新點(diǎn)主要表現(xiàn)在:
提出風(fēng)險(xiǎn)因素分析流程;采用共現(xiàn)分析和Apriori算法識(shí)別風(fēng)險(xiǎn)因素關(guān)聯(lián)性;突顯次要因素重要性,為全面風(fēng)險(xiǎn)管理提供了新視角。
二、研究設(shè)計(jì)
文本挖掘是一種利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù),從文本數(shù)據(jù)中提取潛在有價(jià)值知識(shí)的分析方法,可應(yīng)用于信息提取、主題追蹤、文本分類、信息可視化等領(lǐng)域。文本挖掘的對(duì)象通常是半結(jié)構(gòu)化或非結(jié)構(gòu)化的自然語(yǔ)言文本,對(duì)于揭示文本數(shù)據(jù)中隱藏的有價(jià)值信息具有重要意義。首先,利用文本挖掘方法統(tǒng)計(jì)分析全國(guó)范圍內(nèi)的城鎮(zhèn)燃?xì)夤艿朗?shù)據(jù),識(shí)別出關(guān)鍵風(fēng)險(xiǎn)因素;其次,對(duì)識(shí)別出的風(fēng)險(xiǎn)因素依次進(jìn)行共現(xiàn)分析、中心性分析和關(guān)聯(lián)分析,明確風(fēng)險(xiǎn)因素的重要程度和關(guān)聯(lián)信息。具體識(shí)別流程如圖1所示。
三、研究過(guò)程
(一)數(shù)據(jù)來(lái)源及處理
我國(guó)燃?xì)夤艿冷佋O(shè)規(guī)模大、供氣用戶多、運(yùn)輸介質(zhì)具有易燃易爆性,且管網(wǎng)大多位于人口密集區(qū)域,一旦發(fā)生事故可能會(huì)造成嚴(yán)重的負(fù)面影響。本文從博燃網(wǎng)、燃?xì)獗ㄎ⑿殴娞?hào)、國(guó)際燃?xì)饩W(wǎng)、國(guó)家應(yīng)急管理部網(wǎng)站等,收集到2010—2022年間國(guó)內(nèi)有詳細(xì)數(shù)據(jù)信息記錄的城鎮(zhèn)燃?xì)夤艿朗鹿?10起,并對(duì)事故類型以及詳細(xì)原因進(jìn)行了統(tǒng)計(jì)分析。
這810起國(guó)內(nèi)燃?xì)夤艿朗鹿拾咐齺?lái)源、時(shí)間分布廣泛,其數(shù)據(jù)信息基本涵蓋本文所需的城鎮(zhèn)燃?xì)夤艿里L(fēng)險(xiǎn)因素。為保證挖掘效果,本文在分析之前,采用文獻(xiàn)檢索方法,在知網(wǎng)期刊索引數(shù)據(jù)庫(kù)中,檢索近年來(lái)發(fā)表主題為“燃?xì)夤艿馈薄叭細(xì)馐鹿曙L(fēng)險(xiǎn)因素”“燃?xì)夤艿里L(fēng)險(xiǎn)評(píng)價(jià)”等與燃?xì)夤艿腊踩L(fēng)險(xiǎn)因素相關(guān)的文獻(xiàn),記錄文獻(xiàn)中影響城鎮(zhèn)燃?xì)夤艿赖娘L(fēng)險(xiǎn)因素相關(guān)術(shù)語(yǔ),補(bǔ)充至分詞詞庫(kù)當(dāng)中。
在此基礎(chǔ)上,對(duì)上述810余條國(guó)內(nèi)事故案例文本數(shù)據(jù)進(jìn)行清洗,統(tǒng)一化處理同義詞,清洗后部分案例的文本構(gòu)成如表1所示,最終僅保留了事故發(fā)生時(shí)間、地點(diǎn)和具體的事故原因描述字段,剔除了事故發(fā)生經(jīng)過(guò)和事故后果描述部分。
(二)詞云展示
關(guān)鍵詞分析是文本挖掘和自然語(yǔ)言處理中的一項(xiàng)重要任務(wù),旨在從文本數(shù)據(jù)中提取出最具代表性和有意義的關(guān)鍵詞或短語(yǔ)。這些關(guān)鍵詞通常能夠準(zhǔn)確地概括文本的主題、內(nèi)容或特征,對(duì)于文本分類具有重要作用。本文在對(duì)城鎮(zhèn)燃?xì)夤艿朗鹿蕵颖緮?shù)據(jù)報(bào)告進(jìn)行文本挖掘分詞處理時(shí),選用Python的jieba庫(kù),并基于TF-IDF算法將分詞結(jié)果輸出為詞云圖,如圖2所示。詞云是一種文本數(shù)據(jù)可視化工具,它對(duì)文本中的關(guān)鍵詞按照詞頻和權(quán)重進(jìn)行排序,將其展示在一個(gè)圖形中,并予以視覺(jué)上的突出,從而有助于直觀地理解文本的主題和內(nèi)容。在詞云圖中,詞語(yǔ)字體的大小表示風(fēng)險(xiǎn)因素在文本數(shù)據(jù)中的相對(duì)出現(xiàn)頻率,字體越大代表著出現(xiàn)頻率越高。
根據(jù)城鎮(zhèn)燃?xì)夤艿朗鹿蕡?bào)告風(fēng)險(xiǎn)因素的TF-IDF詞頻分析結(jié)果和風(fēng)險(xiǎn)因素的類型,可以把風(fēng)險(xiǎn)因素分為主要風(fēng)險(xiǎn)因素和一般風(fēng)險(xiǎn)因素。其中,主要風(fēng)險(xiǎn)因素包括第三方破壞、材料/設(shè)備/焊接失效、誤操作、腐蝕、自然破壞5項(xiàng),一般風(fēng)險(xiǎn)因素包括交通事故、私自改造、監(jiān)管失效、施工操作不當(dāng)、用戶操作不當(dāng)、維護(hù)操作不當(dāng)、地面沉降、動(dòng)物咬噬、違章施工、老化、違章占?jí)?、暴雨、管道?biāo)識(shí)不準(zhǔn)確、安全生產(chǎn)意識(shí)缺失、未采取安全保護(hù)措施、野蠻施工等。事故的發(fā)生往往不是由單一因素導(dǎo)致的,而是多個(gè)因素相互疊加的結(jié)果。本文對(duì)單個(gè)風(fēng)險(xiǎn)因素進(jìn)行共現(xiàn)分析和關(guān)聯(lián)分析,驗(yàn)證因素之間的相關(guān)關(guān)系。
(三)共現(xiàn)分析
1.共現(xiàn)分析與共現(xiàn)矩陣
共現(xiàn)分析是一種分析文獻(xiàn)、詞匯、實(shí)體等共同出現(xiàn)的頻率和模式的方法,常用于探索多個(gè)變量之間的關(guān)系。其基本原理是,將文本數(shù)據(jù)中出現(xiàn)的因素兩兩配對(duì),通過(guò)構(gòu)建共現(xiàn)矩陣記錄文本中兩個(gè)變量的共現(xiàn)次數(shù),使用Gephi、Ucinet、VOS viewer等軟件工具將這些共現(xiàn)關(guān)系可視化,并揭示它們之間的模式、中心性和其他特征。在進(jìn)行燃?xì)夤艿里L(fēng)險(xiǎn)分析時(shí),共現(xiàn)分析可以通過(guò)以下步驟實(shí)現(xiàn)。
(1)數(shù)據(jù)預(yù)處理。將原始數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)換為適合共現(xiàn)分析的格式,具體包括對(duì)文本進(jìn)行分詞和去除停用詞等處理。
(2)構(gòu)建共現(xiàn)矩陣。共現(xiàn)矩陣是一個(gè)二維矩陣,其中,行和列分別代表數(shù)據(jù)集中的項(xiàng),矩陣元素表示對(duì)應(yīng)項(xiàng)的共現(xiàn)頻率。將燃?xì)夤艿朗鹿手谐霈F(xiàn)的風(fēng)險(xiǎn)因素兩兩配對(duì)組成詞對(duì),遍歷數(shù)據(jù)集,統(tǒng)計(jì)每對(duì)項(xiàng)的共同出現(xiàn)次數(shù),并將其填入共現(xiàn)矩陣的對(duì)應(yīng)位置。
(3)分析共現(xiàn)模式。通過(guò)分析共現(xiàn)矩陣,可以發(fā)現(xiàn)項(xiàng)之間的共現(xiàn)模式。共現(xiàn)模式可以是項(xiàng)之間的頻繁共現(xiàn),也可以是一些特定的組合出現(xiàn)。
(4)可視化。使用Gephi等可視化工具將共現(xiàn)模式以圖表的形式呈現(xiàn)出來(lái)。
共現(xiàn)矩陣中風(fēng)險(xiǎn)因素的頻次能夠體現(xiàn)某項(xiàng)風(fēng)險(xiǎn)因素的相對(duì)重要程度。根據(jù)共現(xiàn)矩陣可以形成可視化的共現(xiàn)網(wǎng)絡(luò),其中的節(jié)點(diǎn)與連線分別代表不同因素及各因素之間的關(guān)聯(lián)。利用文本挖掘得到分詞結(jié)果構(gòu)建共現(xiàn)矩陣,其中以主要風(fēng)險(xiǎn)因素為代表的部分共現(xiàn)矩陣如表2所示,運(yùn)用Gephi軟件分析共現(xiàn)矩陣并將其轉(zhuǎn)化為風(fēng)險(xiǎn)因素共現(xiàn)網(wǎng)絡(luò)圖(見(jiàn)圖3)。由表2和圖3可以看出,不同的高頻風(fēng)險(xiǎn)因素及其相互間的聯(lián)系,可反映某個(gè)風(fēng)險(xiǎn)因素在燃?xì)夤艿朗鹿室蛩鼐W(wǎng)絡(luò)中的重要性。
圖3中,邊的權(quán)重表示2個(gè)因素共同出現(xiàn)的頻次,權(quán)重越大,兩個(gè)因素之間的線條就越粗,因素之間的關(guān)系也越緊密。從圖3可以看出,與燃?xì)庑孤┫噙B的邊中,權(quán)重較大、線條較粗的因素主要是第三方破壞、施工操作不當(dāng)、誤操作、材料/設(shè)備/焊接失效、腐蝕,表示這幾個(gè)因素與燃?xì)庑孤┑陌l(fā)生有著較為緊密的聯(lián)系,當(dāng)出現(xiàn)上述幾種情況時(shí),最容易出現(xiàn)泄漏事故,這與風(fēng)險(xiǎn)因素詞頻統(tǒng)計(jì)結(jié)果相一致。
2.中心性分析
“中心性”是衡量相鄰節(jié)點(diǎn)之間緊密程度的指標(biāo)。作為社交網(wǎng)絡(luò)分析和復(fù)雜網(wǎng)絡(luò)研究中的一項(xiàng)重要技術(shù),中心性分析在共現(xiàn)分析中用于識(shí)別網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)、衡量節(jié)點(diǎn)在共現(xiàn)網(wǎng)絡(luò)中的重要程度。通過(guò)中心性分析,可以識(shí)別出在共現(xiàn)網(wǎng)絡(luò)中具有較高中心性的項(xiàng),這些項(xiàng)通常也是網(wǎng)絡(luò)中最重要的節(jié)點(diǎn),其共現(xiàn)關(guān)系對(duì)整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)和功能有著重要影響。對(duì)這些重要節(jié)點(diǎn)進(jìn)行深入分析,有助于發(fā)現(xiàn)共現(xiàn)模式、探索項(xiàng)之間的關(guān)系,以及理解共現(xiàn)網(wǎng)絡(luò)的特性和功能。
最常用的中心性指標(biāo)包括度中心性(Degree)和介數(shù)中心性(Betweenness Centrality)。其中,度中心性是指與節(jié)點(diǎn)相連接的邊的條數(shù);介數(shù)中心性是指節(jié)點(diǎn)在網(wǎng)絡(luò)中作為中介連接的頻率,表示該節(jié)點(diǎn)在連接其他節(jié)點(diǎn)之間的共現(xiàn)關(guān)系中的中轉(zhuǎn)作用,介數(shù)中心性越高,說(shuō)明該節(jié)點(diǎn)對(duì)相鄰節(jié)點(diǎn)的影響越大。在網(wǎng)絡(luò)中,中心節(jié)點(diǎn)通常與其他節(jié)點(diǎn)有著更多的連接關(guān)系,可以更快地傳播信息,更容易成為信息的聚集點(diǎn),從而具有更大的影響力和控制力。中心性可以用來(lái)確定網(wǎng)絡(luò)中最重要的節(jié)點(diǎn)和子群體,幫助理解和分析網(wǎng)絡(luò)結(jié)構(gòu)和功能。設(shè)節(jié)點(diǎn)α和節(jié)點(diǎn)y的最短路徑數(shù)為σ(x,y),最短路徑中通過(guò)v的路徑數(shù)為σ(x,yv),則節(jié)點(diǎn)v在N個(gè)風(fēng)險(xiǎn)因素的非帶權(quán)網(wǎng)絡(luò)中的“介數(shù)中心性”定義為
B(v)=∑x≠y2σ(x,y∣v)(N-1)(N-2)σ(x,y)
通過(guò)Gephi軟件分析可以得到每個(gè)點(diǎn)的中心性,表3為部分風(fēng)險(xiǎn)因素的中心性。
從表3可以得出,介數(shù)中心性比較高的風(fēng)險(xiǎn)因素分別為第三方破壞、材料/設(shè)備/焊接失效、腐蝕、誤操作。這與前述詞頻分析的結(jié)果大致相同。由于自然破壞導(dǎo)致的事故出現(xiàn)頻率較低,因此在數(shù)據(jù)中體現(xiàn)并不明顯,但結(jié)合現(xiàn)有研究以及國(guó)家標(biāo)準(zhǔn),自然破壞雖然出現(xiàn)頻次低,一旦發(fā)生卻是破壞力極大,因此應(yīng)作為獨(dú)立于前述4個(gè)因素的另一類關(guān)鍵因素。同時(shí)通過(guò)Gephi展示可以得出與主要因素相連的綜合因素集合,以第三方破壞、誤操作、腐蝕、材料/設(shè)備/焊接失效為例,其相關(guān)風(fēng)險(xiǎn)因素集合如表4所示。
(四)關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析是一種在數(shù)據(jù)集中發(fā)現(xiàn)事項(xiàng)之間關(guān)聯(lián)性的數(shù)據(jù)挖掘方法,其核心目標(biāo)是從數(shù)據(jù)中挖掘頻繁項(xiàng)集并生成有意義的關(guān)聯(lián)規(guī)則,這些規(guī)則表達(dá)了項(xiàng)之間的搭配或關(guān)聯(lián)情況。關(guān)聯(lián)規(guī)則分析在商業(yè)、市場(chǎng)、醫(yī)療和生物信息學(xué)等領(lǐng)域都有重要應(yīng)用。關(guān)聯(lián)規(guī)則分析主要依賴于“頻繁項(xiàng)集”的概念,關(guān)聯(lián)規(guī)則是基于頻繁項(xiàng)集生成的。頻繁項(xiàng)集是指在數(shù)據(jù)集中同時(shí)出現(xiàn)頻率較高的一組項(xiàng),這些項(xiàng)集反映了在數(shù)據(jù)中某些項(xiàng)之間的普遍關(guān)聯(lián)性。本文就是要探尋導(dǎo)致每起燃?xì)夤艿朗鹿拾l(fā)生的風(fēng)險(xiǎn)因素之間是否具有關(guān)聯(lián)關(guān)系。
本文采用關(guān)聯(lián)規(guī)則挖掘中的Apriori算法,該算法基于“先驗(yàn)原理”,即如果一個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的,利用該性質(zhì),逐層篩選出頻繁項(xiàng)集。因此,Apriori算法采用自底向上的逐層搜索策略,經(jīng)過(guò)生成候選項(xiàng)集、計(jì)算其支持度、篩選掉不滿足支持度要求的項(xiàng)集等步驟,不斷迭代,最終得到所有的頻繁項(xiàng)集。Apriori算法的步驟如圖4所示。
在Apriori算法中有3個(gè)重要的指標(biāo),分別為支持度、置信度和提升度。支持度,指關(guān)聯(lián)數(shù)據(jù)在數(shù)據(jù)集中出現(xiàn)的次數(shù)占總數(shù)據(jù)集的比重,或幾個(gè)數(shù)據(jù)關(guān)聯(lián)出現(xiàn)的概率。置信度,表示一個(gè)數(shù)據(jù)出現(xiàn)后,另一個(gè)數(shù)據(jù)出現(xiàn)的概率,也稱數(shù)據(jù)的條件概率。提升度,表示含有因素1的條件時(shí)含有因素2的概率與因素2總體發(fā)生的概率之比,可以理解為因素1出現(xiàn)時(shí),對(duì)因素2出現(xiàn)概率提升的程度。
本文經(jīng)過(guò)反復(fù)迭代,設(shè)置最小支持度為2%,最小置信度為46%,最終得到因素間的關(guān)聯(lián)規(guī)則。表5展示了部分關(guān)聯(lián)規(guī)則。
四、結(jié)果討論
(一)結(jié)果分析
從相關(guān)風(fēng)險(xiǎn)因素集合(見(jiàn)表4)中可以看出,在事故案例文本中,有幾項(xiàng)因素雖然不是關(guān)鍵風(fēng)險(xiǎn)因素,但在各類相關(guān)風(fēng)險(xiǎn)因素集合中出現(xiàn)多次,如老化、安全生產(chǎn)意識(shí)缺失、未采取安全保護(hù)措施、審批程序不完善、員工未培訓(xùn)等,從風(fēng)險(xiǎn)因素的中心性(見(jiàn)表3)中也可以看出,這幾項(xiàng)因素的度中心性很高,說(shuō)明有多項(xiàng)風(fēng)險(xiǎn)因素都與它們同時(shí)出現(xiàn)。因此,在實(shí)際安全生產(chǎn)應(yīng)用中,應(yīng)該加強(qiáng)對(duì)燃?xì)夤芫W(wǎng)老化問(wèn)題的關(guān)注,有效避免因老化引起的管道腐蝕破裂、材料部件失效,降低管道泄漏事故發(fā)生的風(fēng)險(xiǎn)。同時(shí)也需要注重完善管理流程和審核機(jī)制,加強(qiáng)對(duì)員工的培訓(xùn)管理等,增強(qiáng)企業(yè)和員工的安全生產(chǎn)意識(shí)。
根據(jù)關(guān)聯(lián)規(guī)則(見(jiàn)表5)可以得出不同風(fēng)險(xiǎn)因素間的關(guān)聯(lián)關(guān)系,以3號(hào)關(guān)聯(lián)規(guī)則為例,在出現(xiàn)管材老化失效的情況時(shí),有77%的概率會(huì)同時(shí)存在腐蝕問(wèn)題。根據(jù)表5中72條風(fēng)險(xiǎn)因素間關(guān)聯(lián)規(guī)則可得到以下結(jié)論。
(1)城鎮(zhèn)燃?xì)夤艿朗鹿实年P(guān)聯(lián)規(guī)則分析發(fā)現(xiàn),風(fēng)險(xiǎn)因素中有3個(gè)重要因素,分別為第三方破壞、腐蝕以及誤操作,與其相關(guān)的關(guān)聯(lián)規(guī)則數(shù)量較多。具體而言,在所有的關(guān)聯(lián)規(guī)則中,最主要的因素是第三方破壞,有45條相關(guān)規(guī)則。
(2)由關(guān)聯(lián)規(guī)則可知,如果出現(xiàn)溝通失效、違章施工的情況,大概率也會(huì)出現(xiàn)第三方破壞風(fēng)險(xiǎn)。從這條規(guī)則可以看出,雖然第三方破壞屬于外部因素,但溝通失效屬于企業(yè)與第三方施工單位協(xié)同安全管理出現(xiàn)問(wèn)題,通過(guò)加強(qiáng)溝通,能夠提升對(duì)第三方工程的監(jiān)管效率,提高安全管理水平能夠有效降低第三方破壞燃?xì)夤艿朗录l(fā)生的頻率和概率。
(3)72條關(guān)聯(lián)規(guī)則中置信度為1的規(guī)則共14條,如表5中5號(hào)關(guān)聯(lián)規(guī)則frozenset({安全生產(chǎn)意識(shí)缺失,施工操作不當(dāng)})→frozenset({第三方破壞}),其置信度為1,說(shuō)明在發(fā)生燃?xì)夤艿朗鹿蕰r(shí),若存在“安全生產(chǎn)意識(shí)缺失”“施工操作不當(dāng)”現(xiàn)象,一定會(huì)同時(shí)出現(xiàn)“第三方破壞”。
(二)結(jié)果對(duì)比
與傳統(tǒng)燃?xì)夤艿里L(fēng)險(xiǎn)因素識(shí)別方法(數(shù)理統(tǒng)計(jì)、專家經(jīng)驗(yàn)、人為識(shí)別等)相比,本文在分析管道風(fēng)險(xiǎn)時(shí),除了考慮各因素單獨(dú)對(duì)事故造成的影響外,還著重分析了不同因素間的關(guān)系以及它們對(duì)管道事故的共同作用。從分析結(jié)果來(lái)看,本文采取文本挖掘方法基于歷史失效數(shù)據(jù)進(jìn)行分析,相較于傳統(tǒng)方法更具客觀性,不僅關(guān)注直接失效因素,還能夠避免忽視深層次風(fēng)險(xiǎn)因素,這有助于在管道風(fēng)險(xiǎn)評(píng)估過(guò)程中更全面地關(guān)注安全管理的重點(diǎn)。從對(duì)實(shí)際應(yīng)用的指導(dǎo)作用來(lái)看,研究中采用的關(guān)聯(lián)規(guī)則分析方法,其分析結(jié)果可以直接用于指導(dǎo)風(fēng)險(xiǎn)管控措施的制定和實(shí)施,對(duì)于實(shí)際風(fēng)險(xiǎn)管理具有很強(qiáng)的實(shí)用性;傳統(tǒng)方法的分析結(jié)果通常用于建立風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系,并基于此對(duì)管道安全性進(jìn)行評(píng)價(jià)。相比之下,本文結(jié)果不僅能用于評(píng)價(jià)管道風(fēng)險(xiǎn),而且能夠更直接地指導(dǎo)風(fēng)險(xiǎn)管控措施的執(zhí)行,從而為風(fēng)險(xiǎn)管理提供更有力的支持。
綜上所述,本文的研究方法為燃?xì)夤艿里L(fēng)險(xiǎn)因素識(shí)別和管理引入了新的視角,提供了更精確和客觀的分析結(jié)果,強(qiáng)化了對(duì)實(shí)際風(fēng)險(xiǎn)管理的指導(dǎo)作用。這對(duì)于改進(jìn)燃?xì)夤艿腊踩院徒档蜐撛陲L(fēng)險(xiǎn)具有重要的學(xué)術(shù)和應(yīng)用價(jià)值。
五、結(jié)論
(1)本文對(duì)810個(gè)燃?xì)夤艿朗鹿拾咐M(jìn)行文本挖掘,根據(jù)詞云結(jié)果來(lái)看,關(guān)鍵因素為第三方破壞、誤操作、材料/設(shè)備/焊接失效、腐蝕,除此之外,由于自然破壞和未知原因?qū)е碌氖鹿示哂休^大的危害性、突發(fā)性,也被列為主要影響因素之一。
(2)對(duì)文本進(jìn)行共現(xiàn)分析,使用Gephi展示燃?xì)夤艿里L(fēng)險(xiǎn)因素共現(xiàn)網(wǎng)絡(luò),計(jì)算各個(gè)因素的中心性指標(biāo)和因素間連接的權(quán)重,由此得出與關(guān)鍵風(fēng)險(xiǎn)因素相關(guān)的二級(jí)風(fēng)險(xiǎn)因素,為后續(xù)評(píng)價(jià)管道風(fēng)險(xiǎn)提供指標(biāo)參考。
(3)運(yùn)用關(guān)聯(lián)分析中的Apriori算法對(duì)燃?xì)夤艿里L(fēng)險(xiǎn)因素之間的關(guān)系進(jìn)行了分析,得到關(guān)聯(lián)規(guī)則共72條,通過(guò)關(guān)聯(lián)規(guī)則可以得出各類風(fēng)險(xiǎn)因素之間的共同作用關(guān)系。
本文將文本挖掘技術(shù)應(yīng)用于燃?xì)夤艿里L(fēng)險(xiǎn)因素識(shí)別,基于我國(guó)城鎮(zhèn)燃?xì)夤艿朗鹿饰谋拘畔⑦M(jìn)行燃?xì)夤艿朗б蛩氐淖R(shí)別以及因素間的關(guān)聯(lián)分析,探究燃?xì)夤艿朗鹿手兄饕娘L(fēng)險(xiǎn)因素及其相互間的關(guān)系,提高了識(shí)別燃?xì)夤艿里L(fēng)險(xiǎn)因素以及判斷其重要程度的客觀性,為后續(xù)建立風(fēng)險(xiǎn)評(píng)價(jià)模型和制定風(fēng)險(xiǎn)控制策略奠定了基礎(chǔ)。由于我國(guó)尚未建立完善的燃?xì)夤艿朗О咐龓?kù),最終本文收集了810條事故文本參與挖掘,并將相關(guān)城鎮(zhèn)燃?xì)夤艿姥芯课墨I(xiàn)中的風(fēng)險(xiǎn)因素作為文本挖掘的詞庫(kù),后續(xù)可以將研究文獻(xiàn)、燃?xì)馄髽I(yè)檢修記錄等加入文本識(shí)別內(nèi)容中,提高風(fēng)險(xiǎn)因素識(shí)別的科學(xué)性和全面性。
參考文獻(xiàn):
[1] 鞠久如.加強(qiáng)燃?xì)夤艿腊踩芾淼膸c(diǎn)建議[J].建筑安全,2015,30(1):62-64.
[2] 全國(guó)燃?xì)馐鹿史治鰣?bào)告(2022年·全年綜述)[R/OL].[2023-02-23].http://www.zninfo.gov.cn/upload/mian/infopublicity/publicinformation File/2023/03/24/202303241154504386.pdf.
[3] 胡瑾秋,侯亦純,董紹華,等.基于STAMP的社區(qū)燃?xì)夤艿朗鹿蕬?yīng)急疏散過(guò)程中安全隱患識(shí)別方法[J].安全與環(huán)境工程,2023,30(2):10-20.
[4] 鄭洪龍,黃維和.油氣管道及儲(chǔ)運(yùn)設(shè)施安全保障技術(shù)發(fā)展現(xiàn)狀及展望[J].油氣儲(chǔ)運(yùn),2017,36(1):1-7.
[5] 董宏理.建立燃?xì)獍踩珯z查標(biāo)準(zhǔn)實(shí)行科學(xué)監(jiān)管[J].煤氣與熱力,2009,29(6):B33-B35.
[6] 楊茂華,黃小美,張毅.基于安全檢查表的燃?xì)馄髽I(yè)安全評(píng)估系統(tǒng)研發(fā)[J].煤氣與熱力,2012,32(10):75-78.
[7] 曾小康,馮陽(yáng),賴文慶,等.基于AHP-熵權(quán)法的城市燃?xì)夤艿里L(fēng)險(xiǎn)評(píng)價(jià)[J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2021,17(5):130-135.
[8] Belvederesi C, Dann M R. Statistical Analysis of Failure Consequences for Oil and Gas Pipelines[J]. International Journal of Safety and Security Engineering,2017,7(2):103-112.
[9] 楊玉鋒,張華兵,程萬(wàn)洲,等.城市燃?xì)夤艿老到y(tǒng)風(fēng)險(xiǎn)因素分析[J].煤氣與熱力,2014,34(10):15-19.
[10] 索瑋嵐,陳銳.考慮復(fù)雜關(guān)聯(lián)情境的城市典型生命線運(yùn)行風(fēng)險(xiǎn)因素識(shí)別方法研究[J].中國(guó)管理科學(xué),2014,22(8):130-140.
[11] 杜雨霽,付明,李靜,等.基于Logistic回歸的燃?xì)夤芫W(wǎng)風(fēng)險(xiǎn)因素重要度分析方法研究[J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2023,19(4):114-120.
[12] Nenonen N. Analysing Factors Related to Slipping, Stumbling, and Falling Accidents Atwork: Application of Data Mining Methods to Finnish Occupational Accidents and Diseases Statistics Database[J].Applied Ergonomics,2013,44(2):215-224.
[13] Poh C Q, Ubeynarayana C U, Goh Y M. Safety Leading Indicators for Construction Sites: A Machine Learning Approach[J]. Automation in Construction,2018,93:375-386.
[14] Kovesdi C, Spielman Z, Leblanc K, et al. Application of Eye Tracking for Measurement and Evaluation in Human Factors Studies in Control Room Modernization[J]. Nuclear Technology,2018,202(2-3):220-229.
[15] 譚章祿,陳曉,宋慶正,等.基于文本挖掘的煤礦安全隱患分析[J].安全與環(huán)境學(xué)報(bào),2017,17(4):1262-1266.
[16] 陳聰聰,趙怡晴,姜琳婧,等.基于文本挖掘的尾礦庫(kù)隱患因素關(guān)聯(lián)分析[J].礦業(yè)研究與開(kāi)發(fā),2021,41(11):26-33.
[17] Qiu Z, Liu Q, Li X, et al. Construction and Analysis of a Coal Mine Accident Causation Network based on Text Mining[J]. Process Safety and Environmental Protection,2021,153:320-328.
[18] Xu N, Wang J P, Li J, et al. Analysis on Relationships of Safety Risk Factors in Metro Construction [J].Journal of Engineering Science and Technology Review,2016,9(5):150-157.
[19] Kwayu K M, Kwigizile V, Lee K, et al. DiscoveringLatent Themes in Traffic Fatal Crash Narratives using Text Mining Analytics and Network Topology[J]. Accident Analysis amp; Prevention,2021,150:105899.
[20] Kim J,Jun S. Analysis of Fire-accident Factors using Big-data Analysis Method for Construction Areas[J]. Advanced Engineering Informatics,2015,29(4):918-929.
責(zé)任編輯:曲 紅
Data-Driven Urban Natural Gas Pipeline Risk Factor
Identification and Correlation Analysis
ZHANG Xiaolei1, ZHENG Chunhong2, LIU Lu3, GE Yanze3, XU Xiaofeng3, HUANG Yuping1, MA Jun4
(1.Shandong Branch of PetroChina Natural Gas Sales Co., Ltd., Jinan 250013, Shandong, China;
2.Qingdao PetroChina Kunlun Shengli Gas Co., Ltd., Qingdao 266100, Shandong, China;
3.School of Economics and Management, China University of Petroleum (East China), Qingdao 266580, Shandong, China;
4.Second Quality Safety and Environmental Protection Supervision Center, PetroChina Natural Gas Sales Co., Ltd., Beijing 100034, China)
Abstract: As an important infrastructure to meet the needs of peoples life, the safety of the urban gas pipeline network is of great significance to protect the property and life safety of the general public. With 810 cases of domestic urban gas pipeline leakage and explosion accidents as samples, the text mining technology is used to process the sample cases, and the key risk factors leading to gas pipeline leakage are identified according to the TF-IDF algorithm with word frequency statistics; the visualization of the relationship between risk factors is realized through the co-occurrence analysis, and the centrality indicators are calculated to determine the set of risk factors; the association rules between the safety risk factors of gas pipelines are revealed based on the Apriori algorithm. Based on Apriori algorithm, the correlation rules between gas pipeline safety risk factors are revealed. It is found that in the process of identifying the key risk factors of urban gas pipelines, the text mining method is basically the same as the traditional method; in the analysis of the secondary factors, the aging of pipeline equipment, staff training, safety protection measures, and imperfect approval procedures in the process of safety production show a stronger correlation with gas accidents compared with the previous studies, which provides a new perspective for the management of pipeline safety.
Key words: urban gas pipeline; risk factors; text mining; co-occurrence analysis; association rule mining
英文編校:馬志強(qiáng)