沈亮 戴洪帥 王天嬌 張峰 馮等田*
(1.青島理工大學(xué)商學(xué)院,山東 青島 266520;2.山東財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,山東 濟(jì)南 250014)
城市作為國(guó)家和地區(qū)政治、經(jīng)濟(jì)、社會(huì)生活和環(huán)境發(fā)展的中心,因其特有的空間集聚性和流動(dòng)性,一旦發(fā)生突發(fā)公共事件,諸如傳染性疾病、油氣管道爆炸、地震、毒氣泄漏等各種自然或人為災(zāi)害,極易造成大量人員傷亡和嚴(yán)重財(cái)產(chǎn)損失,極大地影響城市的公共安全[1]。而僅僅依靠人工統(tǒng)計(jì)策略和傳統(tǒng)信息處理技術(shù),政府部門和企業(yè)很難做到快速反應(yīng)與精準(zhǔn)決策。大數(shù)據(jù)技術(shù)具有對(duì)公共安全數(shù)據(jù)進(jìn)行信息收集、提取和分析的能力,能夠?yàn)槌鞘羞\(yùn)行提供安全預(yù)警、統(tǒng)計(jì)分析、輔助決策等服務(wù),從而提升城市公共安全管理水平。本文以石油化工企業(yè)日常檢查所產(chǎn)生的安全事故記錄為研究對(duì)象,利用大數(shù)據(jù)技術(shù)對(duì)其進(jìn)行文本挖掘[2-4],找出導(dǎo)致安全事件可能發(fā)生的主要原因和規(guī)律,并將統(tǒng)計(jì)結(jié)果以可視化展示。在此基礎(chǔ)上,本文提出切實(shí)有效的公共安全管理建議供石化企業(yè)與政府參考,增強(qiáng)員工安全生產(chǎn)(HSE)意識(shí),預(yù)防安全事故的發(fā)生。
隨著科技的發(fā)展、高通量手段的成熟以及時(shí)間的推移,在城市公共安全領(lǐng)域、經(jīng)濟(jì)領(lǐng)域、生物化學(xué)等領(lǐng)域都遇到了復(fù)雜數(shù)據(jù)的統(tǒng)計(jì)分析問題,數(shù)據(jù)價(jià)值將變得越來(lái)越重要。與傳統(tǒng)所收集的數(shù)據(jù)不同,當(dāng)今各領(lǐng)域數(shù)據(jù)呈現(xiàn)分散、破碎及信息尚待解析等特征,重點(diǎn)表現(xiàn)為數(shù)據(jù)復(fù)雜、不同的解析策略可能產(chǎn)生豐富的結(jié)果。近年來(lái),大數(shù)據(jù)技術(shù)成為了各行業(yè)數(shù)據(jù)科學(xué)研究者的主要工具, 同時(shí)大數(shù)據(jù)技術(shù)在大樣本、高通量的數(shù)據(jù)分析工作中起到日益重要的作用。
作為我國(guó)重要的能源與原材料產(chǎn)業(yè),石油化工在國(guó)民經(jīng)濟(jì)中始終占據(jù)著舉足輕重的地位。由于石化企業(yè)產(chǎn)生的數(shù)據(jù)量大、數(shù)據(jù)類型多、存儲(chǔ)格式復(fù)雜,雖然研究者對(duì)石化數(shù)據(jù)的利用已經(jīng)多年,比如安全生產(chǎn)指標(biāo)、銷售產(chǎn)品的品種,但大多只是運(yùn)用傳統(tǒng)統(tǒng)計(jì)方法和圖表的形式來(lái)進(jìn)行分析和研判,大數(shù)據(jù)技術(shù)的利用率并不高。由于在石化企業(yè)的日常安全檢查中,記錄信息使用最多的是文本格式,從而文本挖掘被認(rèn)為比數(shù)據(jù)挖掘具有更高的商業(yè)潛力。因此,利用文本挖掘手段對(duì)可能影響石化公共安全的因素進(jìn)行研究是有重要價(jià)值的[5-6]。
本文以官方統(tǒng)計(jì)的浙江鎮(zhèn)海煉化數(shù)據(jù)為研究對(duì)象,數(shù)據(jù)共包含9685條安全檢查記錄的原始文本,其涵蓋了從2001年至2015年間石油化工安全檢查中的事故發(fā)生類型、事故處理方法、問題發(fā)生原因及整改措施等內(nèi)容,并且也從技術(shù)改進(jìn)和管理等方面對(duì)安全事故中的失誤和不足進(jìn)行了補(bǔ)充說明,因此比其他數(shù)據(jù)文件更具有代表性。
本文選取研究對(duì)象中的每日安全生產(chǎn)檢查報(bào)告作為文本挖掘的語(yǔ)料,利用 R 語(yǔ)言進(jìn)行數(shù)據(jù)提取[7],并選取信息完整、記錄詳細(xì)、數(shù)據(jù)量大且事故原因具有代表性的記錄納入數(shù)據(jù)集。本文所有的程序都在R-3.5.1 版本的環(huán)境下運(yùn)行,此外本文還借助于jiebaR, jiebaRD, Rcurl, devtools, cidian 等軟件包進(jìn)行編程。
由于采集的文本數(shù)據(jù)一般含有較多的無(wú)用信息,因此需要對(duì)其進(jìn)行預(yù)處理。而對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理的關(guān)鍵步驟是如何分詞,即將每一句話分解為有意義的詞語(yǔ)。如某個(gè)安全員的檢查結(jié)論是“運(yùn)用大數(shù)據(jù)的檢測(cè)方法,壓力表有泄漏”,分詞之后變成“運(yùn)用”“ 大”“ 數(shù)據(jù)”“的”“檢測(cè) ”“方 法”“壓力”“ 表”“ 有”“泄漏”。由此可見,其并未將“大數(shù)據(jù)”以及“壓力表”分解成一個(gè)詞。因此,為使分詞結(jié)果達(dá)到預(yù)期效果,避免專業(yè)詞匯切分誤差以及停用詞的干擾,在分詞時(shí)還需加入與石化安全工程相關(guān)的專業(yè)詞典和停詞。步驟如下:
(1) 首先利用R語(yǔ)言讀入數(shù)據(jù),并使數(shù)據(jù)形成語(yǔ)料庫(kù)。R語(yǔ)言提供了多種讀取不同類型數(shù)據(jù)的命令,常用數(shù)據(jù)存儲(chǔ)類型有txt,csv等格式。在讀取txt數(shù)據(jù)文件時(shí),通常使用read.table(f ile,header = TRUE, sep = “,”, …);而在讀取csv 數(shù)據(jù)文件時(shí),通常使用read.csv(f ile, header = TRUE, sep = “,”, …)。
(2) 其次,本文在R語(yǔ)言中加載安全工程。scel、化工產(chǎn)品名。scel、石油專業(yè)詞匯。scel、石油天然氣。scel以及石油石化專業(yè)術(shù)語(yǔ)。scel這五個(gè)詞典,然后將漢字詞典的專業(yè)詞匯與文檔中文本遍歷匹配完成初步的詞語(yǔ)切分。在R語(yǔ)言環(huán)境下利用jiebaR程序包中的segment( )命令對(duì)文本進(jìn)行分詞,并生成列表向量。
(3) 對(duì)于分詞后出現(xiàn)的某些虛字、詞和數(shù)字,如“的”“我”“在”“這里”“不僅”“1”“2”等,由于這些虛字、詞和數(shù)字的實(shí)際意義不大,因此被稱為停用詞(Stop Words)。為提高檢索效率,本文將對(duì)分詞中出現(xiàn)的這些停用詞進(jìn)行篩選和過濾。在這里導(dǎo)入現(xiàn)有的停詞表,編輯關(guān)于停詞與去掉停詞的程序,檢索停用詞表并移除此類干擾詞以過濾在安全生產(chǎn)記錄文本中可能造成可視化分析偏差的停用詞。 在R語(yǔ)言中,使用worker( )命令來(lái)達(dá)到去除停詞的目的。
此外,本文主要研究引起安全事故發(fā)生的原因和規(guī)律,因此記錄中的整改方法、解決情況、監(jiān)察部門等暫時(shí)剔出研究范圍。
文本挖掘是大數(shù)據(jù)技術(shù)的重要應(yīng)用領(lǐng)域之一,它通過處理大規(guī)模的文本信息,進(jìn)一步挖掘其中隱含的結(jié)構(gòu)規(guī)律,以結(jié)構(gòu)化方式表示為價(jià)值知識(shí)的過程[8-11]。文本挖掘主要包括數(shù)據(jù)的收集及預(yù)處理、統(tǒng)計(jì)分析和統(tǒng)計(jì)決策三個(gè)步驟。首先按照事先設(shè)定的規(guī)則批量提取信息作為源數(shù)據(jù);然后利用軟件將文本的句子按照結(jié)構(gòu)切分為便于分析的詞語(yǔ)組合,同時(shí)剔除研究意義較小的干擾詞語(yǔ),稱為分詞。統(tǒng)計(jì)分析是對(duì)評(píng)價(jià)文本的深入挖掘,通過詞頻分析、關(guān)聯(lián)分析與聚類分析等技術(shù)對(duì)數(shù)據(jù)進(jìn)行建模處理,獲取知識(shí)或信息。
雖然每一位安全檢查員記錄的事故內(nèi)容不一樣,但經(jīng)過長(zhǎng)時(shí)間的積累,運(yùn)用數(shù)據(jù)挖掘手段仍然能找到影響安全生產(chǎn)的主要因素。一般來(lái)說某一問題被提出的次數(shù)越多,越能說明其在安全生產(chǎn)中的重要性,而詞頻分析恰恰能夠處理這類問題。
在R語(yǔ)言中,引用strsplit函數(shù)并自定義多元抽函數(shù),通過lapply 函數(shù)對(duì)其進(jìn)行循環(huán),它引用多元抽函數(shù),將向量中的每個(gè)元素作為參數(shù),對(duì)去掉停詞的文檔運(yùn)用正則表達(dá)式進(jìn)行匹配拆分。最后使用table函數(shù)得到各詞組詞頻,詞頻越高的詞語(yǔ)對(duì)于分析文本知識(shí)作用越大。為了從海量文本及時(shí)有效的挖掘到所需信息,本文針對(duì)由兩個(gè)字(二元抽)、三個(gè)字(三元抽)、四個(gè)字(四元抽)及以上所構(gòu)成的詞語(yǔ)進(jìn)行重點(diǎn)分析。本文分別將2元抽、3元抽、4元抽及以上統(tǒng)計(jì)的分詞按詞頻降序排列,然后選擇其中詞頻較高的詞語(yǔ)生成文檔詞矩陣列表,見表1。
表1 分詞詞頻統(tǒng)計(jì)表
在表1中可以看到,2元抽中“管線”一詞出現(xiàn)的頻數(shù)最高,共557次;對(duì)應(yīng)的事故發(fā)生原因主要有管線冷凝、管線出現(xiàn)砂眼泄漏、管線腐蝕等。其次“泄露”“處理”“蒸汽”“出口”“檢查”“法蘭”的詞頻也高于400。在2元抽的結(jié)果下,可以看到管線腐壞泄漏等問題是引發(fā)安全事故的重要原因之一。此外,“檢查”“班組”“聯(lián)系”等與人相關(guān)的事故記錄的詞頻也較高,可知許多安全事故的發(fā)生與各部門員工的工作素質(zhì)也有較大的聯(lián)系。
在3元抽的情況下,“壓力表”一詞出現(xiàn)頻數(shù)最高,共出現(xiàn)369次,表明其為經(jīng)常出現(xiàn)缺陷或故障的設(shè)備。其次,“滅火器”“過濾器”“控制閥”等詞組頻數(shù)也較高,體現(xiàn)了企業(yè)的不安全狀態(tài)和安全管理缺陷。
在4元抽及以上的情況下,(不)“符合要求”出現(xiàn)的頻數(shù)最高,共出現(xiàn)27次,這暴露出了部分生產(chǎn)人員或技術(shù)人員的不安全操作模式。“加氫裂化”一詞出現(xiàn)22次,這是由于加氫工藝的主要設(shè)備是在高壓、高溫、且有硫化氫存在的狀態(tài)下運(yùn)行的,從而容易引發(fā)安全事故。此外,“回水溫度”“飛灰倉(cāng)泵”等與石化生產(chǎn)操作相關(guān)的專業(yè)詞匯由于所抽單位擴(kuò)增而逐漸顯現(xiàn)出來(lái)。
可視化分析是通過計(jì)算機(jī)展示更直觀的圖像,然后多尺度漸進(jìn)式地完成數(shù)據(jù)分析與提煉,發(fā)現(xiàn)目標(biāo)領(lǐng)域知識(shí)的方法。詞云圖[11-13]是文本挖掘的一種可視化展示,本文利用詞云技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析,并生成可視化圖像進(jìn)而分析其內(nèi)在規(guī)律。
根據(jù)分詞所得到的語(yǔ)料庫(kù),利用R軟件中“Wordcloud”包制作詞云圖,詞云圖中每個(gè)詞的大小與其詞頻數(shù)成正比增加。為了更直觀的展現(xiàn)某些詞標(biāo)簽的重要性,本文首先生成了整體詞云圖(圖1)。 為了更詳細(xì)地發(fā)現(xiàn)不同長(zhǎng)度分詞對(duì)石化公共安全生產(chǎn)造成的影響,在圖1的基礎(chǔ)上,本文還生成了二元抽詞云圖(圖2)、三元抽詞云圖(圖3)和四元抽及以上詞云圖(圖4)。
圖1 整體詞云圖
圖2 二元抽詞云圖
圖3 三元抽詞云圖
圖4 四元抽及以上詞云圖
由圖2至圖4可以得到,相關(guān)安全事故記錄中的高頻詞主要有泄漏、處理、壓力表、滅火器、加氫裂化等。結(jié)合分詞結(jié)果(表1)和詞云圖可以看出,在石油化工企業(yè)日常檢查的歷史安全事故記錄中,引發(fā)安全事故的原因包括:所配置壓力表可能因質(zhì)量問題或無(wú)按時(shí)檢查磨損情況無(wú)紅線,使其失去了確保安全作用導(dǎo)致安全事故;在生產(chǎn)過程中對(duì)原油進(jìn)行加工時(shí),具有自燃性或腐蝕性的原材料或石油化工產(chǎn)物泄漏,或管線泄漏,帶來(lái)安全隱患。此外,企業(yè)班組交接班不及時(shí)出現(xiàn)看管空檔、員工沒有按時(shí)對(duì)設(shè)備或工序檢查、記錄人員在日常檢查記錄中不認(rèn)真等情況也是出現(xiàn)安全事故的重要原因之一;上述結(jié)論與近年石化安全事故報(bào)道基本相符。
在詞云圖中,雖然能夠發(fā)現(xiàn)導(dǎo)致石化企業(yè)事故原因的分布情況,但是僅從詞頻上來(lái)分析,高頻詞語(yǔ)中出現(xiàn)了大量的諸如“故障”“現(xiàn)場(chǎng)”等對(duì)事故原因的判斷沒有明顯作用的常見詞語(yǔ)。從詞云圖上來(lái)看,一個(gè)致險(xiǎn)因素可能被分成不同長(zhǎng)度的詞語(yǔ)重復(fù)出現(xiàn),因此需要對(duì)詞語(yǔ)賦予相應(yīng)權(quán)重以突出關(guān)鍵詞,找到安全事故頻繁發(fā)生的關(guān)鍵點(diǎn),以期利用數(shù)據(jù)做出更有價(jià)值的預(yù)測(cè)。
TF-IDF (Term Frequency-Inverse Document Frequency)是一種用于文本挖掘 (text mining) 與信息檢索 (information retrieval)的常用加權(quán)算法[10-13],其主要作用是文本分類和對(duì)關(guān)鍵詞的提取。TF代表某個(gè)詞語(yǔ)的頻數(shù)與詞語(yǔ)總數(shù)的比值,而IDF為逆文檔頻率,表示某個(gè)詞語(yǔ)的重要性與包含這個(gè)詞語(yǔ)的文檔數(shù)目成反比,即其他相關(guān)文檔數(shù)越少,越能說明該詞語(yǔ)對(duì)于企業(yè)安全事故發(fā)生的特殊作用性。TF-IDF主要用以評(píng)估某個(gè)字詞對(duì)于一個(gè)文件集(或一個(gè)語(yǔ)料庫(kù))的重要程度。一般來(lái)說,某個(gè)詞的重要性大小與其在文件中出現(xiàn)的頻數(shù)成正比,但同時(shí)也會(huì)與它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比。TF-IDF算法如下:
式中:N為文件集(或語(yǔ)料庫(kù))中文本的總數(shù);N(x)為文件集(或語(yǔ)料庫(kù))中包含詞x的文本總數(shù)。
詞x的TF-IDF則定義為:
式中:TF(x)為詞x在當(dāng)前文本中的詞頻。
利用TF-IDF算法對(duì)關(guān)鍵詞進(jìn)行篩選和整理,得到部分詞語(yǔ)的重要性大小如圖5所示。為了研究導(dǎo)致安全事故發(fā)生的致險(xiǎn)因素的具體來(lái)源,可根據(jù)圖5中的關(guān)鍵詞結(jié)合原始記錄將石油化工安全事故發(fā)生原因分成以下四類。
圖5 關(guān)鍵詞TF-IDF統(tǒng)計(jì)圖
(1)泄漏缺陷。產(chǎn)品生產(chǎn)的主要過程是對(duì)原油進(jìn)行提純和深加工,原材料以及中間產(chǎn)物通常存在易燃性,有自燃危險(xiǎn)。同時(shí)由于產(chǎn)物或所用藥劑通常存在腐蝕性或一些毒性,如果對(duì)所用材料或中間產(chǎn)物處置不善,承載設(shè)施出現(xiàn)老化或損壞等均可能會(huì)發(fā)生泄漏而引發(fā)安全事故。
(2)設(shè)備故障。石油化工生產(chǎn)設(shè)備體量大、相關(guān)配置多,需要小心使用并經(jīng)常檢修。在生產(chǎn)運(yùn)行中,如果沒有對(duì)設(shè)備進(jìn)行按時(shí)檢修及維護(hù),則容易出現(xiàn)設(shè)備故障;為了實(shí)現(xiàn)石油原材料的高利用率,設(shè)備運(yùn)行的條件通常設(shè)定地極為苛刻,若生產(chǎn)人員操作不當(dāng),則出現(xiàn)的設(shè)備運(yùn)行錯(cuò)誤等問題也會(huì)造成安全事故。
(3)人為因素。在一些石化企業(yè)中,往往缺乏生產(chǎn)安全管理技能、員工安全意識(shí)的培養(yǎng)。從而導(dǎo)致安全生產(chǎn)管理相關(guān)制度形同虛設(shè),加深了石化生產(chǎn)中員工的錯(cuò)誤認(rèn)識(shí),出現(xiàn)換班不及時(shí)、檢修不到位、對(duì)安全事故處理不當(dāng)、消防設(shè)施和管理不夠完善等現(xiàn)象,導(dǎo)致石化生產(chǎn)處于不安全狀態(tài),安全隱患增多。
(4)其他因素。在安全事故記錄中以較少出現(xiàn)或首次出現(xiàn)的安全事故發(fā)生原因,如惡劣天氣影響、部分隱患缺陷等。
由上文所分析來(lái)看,引起石化事故發(fā)生的致險(xiǎn)因素具有隱蔽性強(qiáng),涉及方面多等特點(diǎn)。 因此要從實(shí)際出發(fā),對(duì)石化企業(yè)安全管理過程應(yīng)實(shí)行長(zhǎng)期且有規(guī)律的監(jiān)控,制定完備的設(shè)備管理制度,特別是對(duì)已檢查出的問題進(jìn)行及時(shí)有效的處理;同時(shí)要加強(qiáng)對(duì)企業(yè)生產(chǎn)操作、管理和技術(shù)人員的安全培訓(xùn)工作,進(jìn)一步提高員工的操作技能和水平,減少或者避免安全事故的發(fā)生。
本文利用大數(shù)據(jù)技術(shù)對(duì)浙江鎮(zhèn)海煉化數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析。根據(jù)數(shù)據(jù)特征,利用文本挖掘手段提取影響城市安全生產(chǎn)過程中的潛在因素,并利用詞云等可視化方式對(duì)統(tǒng)計(jì)結(jié)果做出展示。通過關(guān)鍵詞的提取進(jìn)行探索性的數(shù)據(jù)分析,作為對(duì)安全事故診斷和預(yù)測(cè)的重要手段。 強(qiáng)化信息化和大數(shù)據(jù)技術(shù)在城市安全管理的研究與應(yīng)用,發(fā)揮它們?cè)谛畔⑼诰?、關(guān)聯(lián)因素分析、趨勢(shì)預(yù)測(cè)和輔助決策方面的作用,是治理現(xiàn)代城市公共安全問題的緊迫需要;以風(fēng)險(xiǎn)防控為起點(diǎn),以大數(shù)據(jù)技術(shù)為導(dǎo)向的治理模式將是城市公共安全管理的新利器。