李 琰 ,劉 珍 ,陳南希
(西安科技大學(xué) 管理學(xué)院,陜西 西安 710000)
目前,我國(guó)能源行業(yè)呈現(xiàn)“富煤、貧油、少氣”的特點(diǎn)。煤炭資源儲(chǔ)量高,開采成本與技術(shù)難度遠(yuǎn)低于石油、天然氣,這決定了煤炭仍將在我國(guó)能源結(jié)構(gòu)中占重要位置[1]。信息技術(shù)高速發(fā)展、融合創(chuàng)新,推動(dòng)了煤炭行業(yè)的數(shù)字化、信息化、智能化轉(zhuǎn)型,也對(duì)煤礦企業(yè)運(yùn)營(yíng)管理和安全生產(chǎn)提出了新的挑戰(zhàn)。同時(shí),煤礦企業(yè)的安全信息感知能力極大提升,產(chǎn)生了海量的行為安全數(shù)據(jù)[2]。為此,將礦企生產(chǎn)實(shí)際和礦工行為數(shù)據(jù)相結(jié)合,運(yùn)用文本挖掘技術(shù)對(duì)數(shù)據(jù)中蘊(yùn)含的信息、知識(shí)和規(guī)律進(jìn)行探究,研究礦工不安全行為,有助于解決企業(yè)安全數(shù)據(jù)膨脹、知識(shí)提取效率低等問題,有效提高礦企員工安全隱患洞察力,降低礦工不安全行為發(fā)生率。
研究以某大型煤礦企業(yè)為研究對(duì)象,選擇2017—2021 年記錄的不安全行為管控表作為數(shù)據(jù)來源,內(nèi)容包括時(shí)間、班次、詳細(xì)描述、風(fēng)險(xiǎn)及預(yù)警等級(jí)等字段。通過梳理、匯總、排序,共獲得44 069 條安全數(shù)據(jù)。
數(shù)據(jù)挖掘中,文本預(yù)處理不可或缺,與主題提取結(jié)果的科學(xué)性和準(zhǔn)確性密切相關(guān)[3]。使用LDA 實(shí)現(xiàn)對(duì)礦工不安全行為的主題數(shù)據(jù)挖掘,自定義煤礦專業(yè)詞匯庫,保證分詞、去停用詞的各步操作最優(yōu),數(shù)據(jù)處理結(jié)果可靠。
具體為:①建立專業(yè)詞庫:根據(jù)《煤炭行業(yè)法》、《煤礦安全規(guī)程》、《煤礦安全監(jiān)察條例》等開發(fā)自定義詞庫,避免有效詞匯(如“安全意識(shí)”、“防護(hù)眼鏡”等)被誤分、停用[4];②中文分詞:在Python 開發(fā)環(huán)境中調(diào)用jieba 程序包對(duì) “人員不安全行為詳細(xì)描述”進(jìn)行分詞,并選擇每篇TFIDF 得分最高的前100 個(gè)關(guān)鍵詞[5];③去停用詞:使用line.strip 函數(shù)刪除文本中的停用詞,過濾行為數(shù)據(jù)中的標(biāo)點(diǎn)符號(hào)、無實(shí)際含義的功能詞(“是”、“的”、“嗎”、“了”等)、礦工姓名、日期等,提高數(shù)據(jù)挖掘的精度。
采用Perplexity(困惑度)來確定LDA 模型最優(yōu)主題數(shù)[6],確定挖掘12 個(gè)相關(guān)主題。根據(jù)確定的最優(yōu)主題數(shù),在LDA 模型擬合步驟中設(shè)置numtopic和alpha 參數(shù),得出礦工不安全行為主題提取結(jié)果見表1。因“人員不安全行為詳細(xì)描述”大部分文本較短,選擇挖掘每個(gè)主題Top 5 的關(guān)鍵詞。
表1 礦工不安全行為主題Table 1 Theme of miners’ unsafe behavior
根據(jù)不安全行為管控表中的人員不安全行為詳細(xì)描述和主題提取結(jié)果,將主題詞進(jìn)行整合歸納。例如主題2 的主題詞“未戴”、“佩戴”、“防護(hù)眼鏡”等,對(duì)應(yīng)主題內(nèi)涵可以總結(jié)為“未戴防護(hù)眼鏡”;主題5 的主題詞包括“用水”、“沖洗”、“電纜”等,相應(yīng)的主題內(nèi)涵可概括為“用水沖洗電氣設(shè)備”;主題6 的主題詞包括“班前會(huì)”、“參加”、“遲到”等,對(duì)應(yīng)主題內(nèi)涵可總結(jié)為“參加班會(huì)遲到”;主題10 的主題詞包括“上崗”、“疲勞”、“精神恍惚”等,相應(yīng)的主題內(nèi)涵總結(jié)為“疲勞作業(yè)”。
通過研究相關(guān)文獻(xiàn),查閱煤礦安全規(guī)程、工傷亡事故分類標(biāo)準(zhǔn)及集團(tuán)內(nèi)部規(guī)章制度,將上述12 個(gè)主題劃分為《“三違”管理制度》等規(guī)章制度,將主題劃分為“忽視個(gè)人防護(hù)”、“忽視管理?xiàng)l例”、“違法違規(guī)操作”、“忽視作業(yè)流程”、“分散注意力”5 大類,礦工不安全行為主題內(nèi)涵及主題類型見表2。
表2 礦工不安全行為主題內(nèi)涵及類型Table 2 Theme connotation and types of miners’ unsafe behavior
語義網(wǎng)絡(luò)是節(jié)點(diǎn)和有向弧組成的圖示,可以結(jié)構(gòu)化描述事件的定義及客體之間的相互關(guān)系[7]?;诘V工個(gè)體不安全行為提取結(jié)果,通過Net-Draw 工具搭建的礦工不安全行為的語義網(wǎng)絡(luò)圖如圖1。
圖1 礦工不安全行為語義網(wǎng)絡(luò)Fig.1 Semantic network of miners’ unsafe behavior
礦工不安全行為語義網(wǎng)絡(luò)圖整體呈“核心—邊緣”特點(diǎn),圖中包含核心及邊緣節(jié)點(diǎn),這些節(jié)點(diǎn)之間形成不同的子群,兩節(jié)點(diǎn)間連線表明關(guān)鍵詞來源于同一“人員不安全行為詳細(xì)描述”。通過連線將節(jié)點(diǎn)串聯(lián)成巨大的網(wǎng)絡(luò)[8],直觀描述了礦工不安全行為的主題關(guān)鍵詞,方便獲取關(guān)鍵安全信息。
通過文本挖掘工具RostCM6 建立詞頻VNA矩陣,引入網(wǎng)絡(luò)分析集成工具Ucinet 對(duì)礦工不安全行為語義網(wǎng)絡(luò)的中心性進(jìn)行分析。
中心性分析反映某個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度,可以通過點(diǎn)度中心性、接近中心性和中介中心性來衡量,是社會(huì)網(wǎng)絡(luò)分析的主要方面[9-10]。礦工不安全行為主題詞中心性具體分析結(jié)果見表3。
表3 礦工不安全行為語義網(wǎng)絡(luò)中心性分析結(jié)果Table 3 Results of semantic network centrality analysis of miners’ unsafe behavior
根據(jù)礦工不安全行為主題提取結(jié)果和語義網(wǎng)絡(luò)中心性分析情況,由“攜帶”、 “司機(jī)”、“駕駛”、“熄火”、“吸煙”、“隨身”、“安全帽”、“安全帽”等關(guān)鍵詞發(fā)現(xiàn),主題1、主題3、主題4、主題7、主題11 所表行為是建議礦企管理層高度重視和堅(jiān)決防控的礦工不安全行為??臻g類關(guān)鍵詞“井下”、“車輛”、“工作面”、“現(xiàn)場(chǎng)”等描述了礦工不安全行為高發(fā)地點(diǎn)為井下、工作面和行車途中,需在此加大監(jiān)管力度和隱患排查力度,規(guī)范員工行為,防范煤礦安全事故。
從44 069 條礦工不安全行為記錄中提取了12個(gè)礦工不安全行為主題。借助RostCM6.0 軟件繪制礦工不安全行為語義網(wǎng)絡(luò)圖,清晰展現(xiàn)了各主題詞間的關(guān)聯(lián)關(guān)系。通過文本挖掘、主題提取和語義網(wǎng)絡(luò)中心性分析,得出井下、工作面、行車途中3 個(gè)礦工不安全行為高發(fā)地點(diǎn),不戴安全帽、不系安全帶、私自摘掉安全帽、入井?dāng)y帶違規(guī)物品、駕駛車輛不合規(guī)范5 個(gè)高頻主題,為煤礦安全事故防控提供參考。