亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的施工安全隱患整改智能推薦系統(tǒng)

        2023-12-01 02:53:54劉震趙嵩楊濤蔡太偉
        大數據 2023年6期
        關鍵詞:關聯案例文本

        劉震,趙嵩,楊濤,蔡太偉

        1.廣東粵海珠三角供水有限公司,廣東 廣州 511455;

        2.云南大學信息學院,云南 昆明 650504;

        3.深圳市科榮軟件股份有限公司,廣東 深圳 518063;

        4.華南師范大學華南先進光電子研究院,廣東 廣州 510006

        0 引言

        隨著信息技術的不斷發(fā)展,水利工程建設安全管理正向信息化和智能化轉型[1]。施工安全隱患的排查治理是工程建設中安全管理的重要手段。隨著信息化系統(tǒng)的普及與應用,人工排查、手動錄入的施工安全隱患管理在排查過程中積累了大量非結構化的安全隱患文本數據,但這些數據尚未得到充分利用。因此,利用人工智能從海量的歷史數據中挖掘出隱藏信息和潛在規(guī)律,從而促進水利工程建設由信息化模式向智能化模式發(fā)展[2],對于提高施工安全隱患的排查治理效率具有重要的現實意義。

        目前,不少學者對安全隱患文本數據的挖掘展開了研究。例如:劉梅等[3]利用相關性檢驗挖掘安全隱患特征之間的關聯;譚章祿等[4]利用狄利克雷分配模型挖掘煤礦安全隱患,揭示了生產單位、責任主題與隱患致因之間的關系;陳述等[5]通過短語提取技術揭示了安全隱患時空分布特征;林旭杰等[6]采用Apriori關聯算法挖掘煤礦安全隱患之間的關聯規(guī)則;Le等[7]、Jatnika等[8]將深度學習的方法運用到提高建筑工程術語語義相似度計算的準確性上,為隱患文本知識挖掘增加了可信度。為了從歷史案例中挖掘出有用的信息和經驗,1995年Kumar[9]首次將案例推理技術應用到工程設計領域,為案例推理技術在各種工程領域的應用提供了理論基礎。例如:鄭霞忠等[10]通過融合案例推理與深度學習的方法,結合歷史安全隱患數據來輔助隱患治理方案的制訂;原江濤等[11]基于案例推理技術,提出了一種煤礦安全隱患排查治理信息系統(tǒng)并應用于實際生產;夏登友等[12]利用情景元技術對案例進行描述和表示,提出了一種基于規(guī)則的推理方法,并實現了一個應急決策支持系統(tǒng),對相關領域的應急決策提供了有效的幫助。

        綜上所述,以往的研究大多聚焦于隱患問題的智能分類和隱患問題關聯規(guī)則的挖掘,忽略了歷史隱患案例中潛藏的信息。為了充分挖掘安全隱患歷史案例中的有用信息和經驗,本文從歷史案例視角對施工安全隱患進行分析,幫助安全管理者深入探析隱患事件發(fā)生的特征和規(guī)律,并根據相似的隱患案例制訂有效的隱患預防措施,從而降低類似隱患的發(fā)生概率。類似的視角還包括事故因素分析和風險評估等。為此,本文結合文本特征提取、關聯規(guī)則挖掘和文本相似度計算等方法,提出了施工安全隱患整改智能推薦系統(tǒng)。該方法融合SSM算法和Doc2Vec模型來優(yōu)化檢索推薦過程,并在檢索階段分析相關歷史案例信息。計算隱患描述之間的相似度時,考慮了上下文邏輯和短文本語義特征。最后,參考相似度最大的歷史案例,將檢索出的整改措施作為當前隱患問題的推薦整改方案。

        1 數據來源與預處理

        1.1 數據來源

        以珠江三角洲水資源配置工程為研究對象,在該工程的建設過程中,安全檢查單位每月對其負責的施工標段進行安全檢查,檢查過程中檢查人員發(fā)現施工現場存在安全隱患問題,并指示施工單位在規(guī)定的期限內進行整改,之后將檢查和整改記錄上傳到安全管理信息系統(tǒng)。本文的研究數據來源于從安全管理系統(tǒng)中獲取到的2019—2023年期間80 953條安全隱患原始數據,其中,將2019—2022年期間的65 714條數據作為歷史案例數據,2022—2023年期間的15 239條數據作為測試數據。每條安全隱患數據主要包含標段、隱患描述、隱患類型、整改措施和檢查日期等字段,前4個字段均為非結構化的文本數據。其中,隱患類型分為環(huán)境隱患、人的不安全行為、管理隱患、設備設施及物料隱患4類。部分安全隱患記錄見表1。

        表1 部分安全隱患記錄

        1.2 預處理

        為了獲得有效的施工安全隱患數據,本文結合工程施工安全隱患的判定標準等相關規(guī)范,手動對數據進行了處理。首先,人工記錄的數據可能存在含有主觀推斷的信息、缺失值、異常值等數據,因此,手動剔除上述信息以獲得有效的安全隱患數據。其次,針對水利工程施工安全領域的特點,構建了該領域的安全隱患字典用于輔助分詞,包括手動添加專有名詞到自定義詞典,例如“高處墜落”“電氣安全”“腳手架”等。這能夠完善分詞效果,有效避免術語被錯誤分開或合并的情況發(fā)生,從而提高數據處理和分析的精確度。再次,采用哈工大停用詞表,并將不規(guī)范的關鍵詞、無意義的詞添加到停用詞表中,用于去除隱患問題描述文本中的停用詞,例如空格、標點符號等影響文本處理與分析的無效信息。最后,采用了Jieba分詞對隱患問題描述文本進行分詞。

        2 研究方法

        2.1 基于TF-IDF算法的隱患特征提取

        詞頻-逆向文檔頻率(term frequency–inverse document frequency,TF-IDF)是一種常用的文本特征提取算法。TFIDF算法可以提取出文檔中的關鍵詞,評估提取出的關鍵詞在文檔集合中的重要程度。關鍵詞的重要程度與該關鍵詞在文檔中的出現頻率(term frequency,TF)成正比。TF的計算方式如式(1)。

        其中,ni,j是安全隱患詞語i在安全隱患文檔j中出現的次數,分母則表示安全隱患文檔中所有詞匯出現的次數總和。關鍵詞的重要程度與該詞在文檔集合中出現的頻率(inverse document frequency,IDF)成反比。IDF值計算方式如式(2)。

        其中,|D|表示語料庫中的文檔總數,dj表示文檔樣本,|{j:ti∈dj}|表示包含詞語ti的文檔數目。將關鍵詞的TF值和IDF值進行乘積,得到該詞的TF-IDF值,該值越大表示該關鍵詞在文檔中的重要程度越高[13]。文本特征選擇還有互信息算法、信息增益算法、卡方檢驗算法等[14]。在本文的研究數據中,每條數據通常只包含很少的關鍵詞,數據非常稀疏,故采用TF-IDF算法來提取安全隱患中的關鍵詞作為隱患特征。

        2.2 基于深度學習的施工安全隱患整改智能推薦系統(tǒng)

        在隱患排查治理中,安全隱患具有高復發(fā)性,因此,可以借助歷史安全隱患治理方案,縮短查詢隱患相關知識的時間,及時制訂隱患整改措施。除此之外,安全隱患之間還具有相關性,一個隱患的發(fā)生往往可能導致其他隱患的出現。在復用歷史安全隱患治理經驗的同時,可挖掘出與當前隱患關聯的一系列安全隱患問題并給出整改措施,從而提高隱患治理的效率,實現無隱患早防控、有隱患早發(fā)現和早治理的目標。為此提出了基于深度學習的施工安全隱患整改智能推薦系統(tǒng),系統(tǒng)框架如圖1所示。

        在對施工安全隱患整改智能推薦系統(tǒng)的研究中,面臨整體數據規(guī)模大且存在較多稀疏數據的挑戰(zhàn)。當入庫一條安全隱患時,首先,采用TF-IDF算法提取出隱患的特征,每個隱患特征都包括一個或多個安全隱患,每個安全隱患至少歸類到一個隱患特征中。其次,采用FP-Growth算法從頻繁項集列表中挖掘出與當前安全隱患特征相關聯的頻繁項(安全隱患特征集),再將這些安全隱患特征下的安全隱患案例作為當前安全隱患潛在的預警信息。然后,利用SSM算法對當前入庫的安全隱患與數據庫中的歷史安全隱患案例進行初步匹配,得到粗糙的相似案例集合,進一步采用Doc2Vec模型來計算當前安全隱患與相似案例集合中每一條安全隱患的相似度。最后,合并相似度最高的安全隱患案例與關聯的安全隱患案例,將其推薦為當前安全隱患的整改方案。

        2.2.1 基于FP-Growth算法的隱患關聯規(guī)則挖掘

        關聯規(guī)則是一種描述不同項集之間關聯關系的表達式,通常采用X→Y的形式表示,其中X和Y是不相交的項集。常用的關聯規(guī)則挖掘算法包括Apriori算法、FP-Growth算法等。Apriori算法需要生成大量的候選集,在處理大規(guī)模數據時會非常耗時間和空間。而FP-Growth算法通過壓縮數據、構建FP樹去除了生成候選集的過程,大大減少了時間和空間的消耗。因此,本文采用FP-Growth算法挖掘安全隱患之間的關聯規(guī)則,從而建立頻繁項集列表。

        FP-Growth算法主要分為兩個步驟:構建FP樹和基于FP樹生成頻繁項集[15]。FP樹是一種基于頻繁模式挖掘的數據結構,用于高效地存儲和查找數據集中的頻繁項集。FP樹由一個根節(jié)點和多個項節(jié)點組成,每個項節(jié)點表示一個頻繁項,每個節(jié)點包括一個計數器和指向相同項節(jié)點的鏈表指針。構建FP樹的過程如下:遍歷數據集統(tǒng)計每個項的支持度計數,根據支持度計數構建項頭表;按照支持度降序遍歷數據集,將事務中的每個項按順序加入根節(jié)點;為每個節(jié)點創(chuàng)建一個初始值為1的計數器,如果該節(jié)點存在項節(jié)點,則計數器加1,以此遞歸地構建FP樹?;贔P樹生成頻繁項集的過程如下:從根節(jié)點開始,依次遍歷每個頻繁項的鏈表,生成以該項為結尾的頻繁項集;采用遞歸方法,在每個以該項為結尾的前綴路徑上構建條件模式基,從而繼續(xù)生成更長的頻繁項集。

        2.2.2 SSM算法

        SSM算法[16]的原理是通過計算兩個序列之間的最長公共子序列(longest common subsequence,LCS)的長度來計算兩個序列的相似度。假設兩個序列分別為X和Y,LCS(X,Y)的長度為len(LCS(X,Y)),那么它們的相似度計算如式(3)。

        與SSM算法類似的算法還有編輯距離算法、Jaccard相似度算法和余弦相似度算法等。相比于編輯距離算法[17]和Jaccard相似度算法[18],SSM算法可以處理不同長度的序列。在施工安全隱患數據中,往往會存在序列長度不同的隱患數據。如果使用編輯距離算法和Jaccard相似度算法,則需要對數據進行維度對齊,這樣會導致部分信息丟失。與余弦相似度算法相比,SSM算法考慮了序列中元素的順序,能夠發(fā)現相同子序列的位置和順序。綜上所述,SSM算法在文本相似度匹配、序列相似度匹配方面表現更優(yōu)。因此,本研究利用SSM算法對當前入庫的安全隱患與數據庫中的歷史安全隱患案例進行初步匹配,得到粗糙的相似案例集合。

        2.2.3 基于Doc2Vec模型計算文本相似度

        Doc2Vec[19]是一種深度學習模型,用于將一個文檔表示為固定長度的向量,它是Word2Vec模型[20-21]的擴展。Word2Vec模型可以將單個單詞表示為向量,而Doc2Vec在訓練模型時不僅考慮了每個單詞的上下文信息,還考慮了整個文檔的語境,為每個文檔生成一個唯一的向量表示。Doc2Vec有兩種算法,分別是分布記憶(distributed memory,DM)算法和分布詞袋(distributed bag of words,DBOW)算法。DM算法將文檔的向量作為額外的輸入傳遞給模型,然后預測文檔中的單詞,其結構如圖2所示。

        圖2 DM 算法結構

        DBOW算法結構如圖3所示。在DBOW算法中,每個句子都被視為一個“袋子”,每個單詞的順序被忽略,每個單詞都被獨立地考慮。而該模型的目標是在不考慮上下文的情況下,根據整個句子預測中心詞。相比DM算法,DBOW算法更簡單和快速,通常適用于文本分類等任務,而DM模型則更適合語義相關性和相似性的建模任務。本文使用Doc2Vec模型中的DM算法來計算當前安全隱患與經過SSM算法匹配得到的粗糙相似案例集合中每一條安全隱患的相似度。在這個過程中,Doc2Vec模型首先會將相似案例集合中的每條安全隱患都轉化為唯一的向量表示,通過計算它們之間的向量余弦相似度來衡量它們之間的相似度。

        圖3 DBOW模型結構

        3 結果分析

        各施工標段安全隱患的數量分布如圖4所示。由圖可知,B3、B4、C1是安全隱患高發(fā)的3個標段,因此,選用這3個標段的數據進行隱患特征挖掘與可視化。

        圖4 各個施工標段隱患的數量分布

        3.1 隱患特征分析

        利用B3、B4和C1這3個標段的安全隱患數據來繪制?;鶊D[22]。首先,將每個標段的所有安全隱患數據作為一個文檔,采用TF-IDF算法提取每個文檔的關鍵詞,選擇TF-IDF值較大的前幾個關鍵詞作為對應施工標段的安全隱患特征;其次,利用RAWGraphs2.0軟件繪制施工標段-隱患類型?;鶊D,如圖5所示。該?;鶊D從左至右依次表示施工標段、隱患特征和隱患類型,每個節(jié)點的寬度表示該隱患特征TF-IDF值大小,節(jié)點之間的分支代表信息的流動,分支的寬度則反映了信息流量的大小。從?;鶊D中可以直觀地了解到不同的施工標段各自存在的主要安全隱患問題特征。豎向分析顯示,配電箱、滅火器和鋼筋加工棚這3個隱患特征對應的節(jié)點寬度最大,說明各標段發(fā)生與這3個特征有關的安全隱患最多。而從橫向角度來看,這3個特征詞包含的信息流寬度最大,這表明與它們有關的隱患問題發(fā)生的頻率最高。從施工標段的角度來看,B3和B4標段易發(fā)生與配電箱和滅火器相關的隱患,C1標段易發(fā)生與隧洞和鋼筋加工棚相關的隱患。

        圖5 施工標段-隱患類型?;鶊D

        3.2 安全隱患整改推薦結果分析

        3.2.1 關聯規(guī)則挖掘結果分析

        在分析當前隱患問題時,首先采用TF-IDF算法對當前隱患數據進行特征提取,其次根據FP-Growth算法挖掘關聯規(guī)則,置信度的閾值為0.5,支持度的閾值為0.002,再經過人工篩選,最終得到了7 688條關聯規(guī)則。部分關聯規(guī)則見表2。以第一條關聯規(guī)則為例,它表示當配電箱出現時,通常會伴隨著“不規(guī)范”“滅火器”“接線”這3個事務;支持度為0.0031,說明同時包含“配電箱”“不規(guī)范”“滅火器”和“接線”的事務數比較少;置信度為0.75,意味著當一條安全隱患記錄中出現了配電箱時,有75%的概率出現“不規(guī)范”“滅火器”“接線”這3個事務。

        表2 部分關聯規(guī)則

        如圖6所示,當安全檢查人員發(fā)現并記錄隱患后,通過TF-IDF提取隱患的特征,得到“安全距離”“防護措施”等安全隱患特征。以“安全距離”這一特征為例,通過關聯規(guī)則得到“警示”“設置”“標識牌”等頻繁項集。再以“警示”這一頻繁項為例,能夠匹配到相似的安全隱患問題描述,并且檢索出對應的整改方案。

        圖6 關聯規(guī)則分析

        3.2.2 相似度計算實驗分析

        從2022—2023年期間的測試數據中,分別從環(huán)境隱患、人的不安全行為、管理隱患、設備設施及物料隱患這4個類型中依次隨機抽取300條作為隱患問題描述測試樣本。為了使抽取的樣本更具有代表性,抽取的樣本涵蓋了水利工程建設中的8種不同作業(yè)內容,如圖7所示。

        圖7 不同作業(yè)內容測試樣本占比

        將從各個安全隱患類型中抽取出來的1 200條測試樣本分別通過SSM算法匹配到對應的案例集,再通過Doc2Vec模型計算案例集中的安全隱患與當前隱患的相似度[23],最終綜合準確率為0.869。部分安全隱患相似度匹配樣例見表3。

        為了進一步驗證該推薦系統(tǒng)的有效性,將上述系統(tǒng)推薦的整改措施與安全管理者制定的整改措施進行對比[24],推薦準確率采用Doc2Vec模型計算的文本相似度,安全隱患整改推薦系統(tǒng)的綜合準確率為0.914。見表4,本文提出的施工安全隱患智能推薦系統(tǒng)得到的安全隱患整改措施與安全管理者制訂的安全隱患整改措施一致性較強,該推薦系統(tǒng)能較為準確地匹配出當前安全隱患的整改措施。

        表4 部分安全隱患整改措施推薦準確率

        本文針對同一輸入,對比分析分別采用SSM、Doc2Vec、SSM+Doc2Vec這3種模型得到的相似度排名前5條的安全隱患,各模型效果見表5。以輸入“焊工棚二氧化碳氣瓶無防護棚、無防傾倒措施”為例,SSM模型注意到了“無防傾倒措施”“二氧化碳”“氣瓶”等特征詞,模型表現一般;在Doc2Vec模型中,“防護棚”這一特征詞的權重較大,模型匹配效果最差;SSM+Doc2Vec模型首先經過SSM篩選出相似度排名前1 000的安全隱患,再利用Doc2Vec模型將這1 000條安全隱患轉化為唯一的向量表示,最后計算這些向量余弦相似度來衡量它們之間的相似度,該模型同時注意到了“焊工棚”“無防傾倒措施”“二氧化碳”“氣瓶”等特征詞,不僅降低了模型的計算量,而且保留了關鍵的隱患特征詞,故其綜合表現最好。

        表5 各模型效果對比表(部分)

        在從測試數據中隨機采樣得到的1 200個測試樣本上,采用Doc2Vec模型計算文本的相似度,各模型的綜合準確率見表6。SSM+Doc2Vec比SSM高0.032,比Doc2Vec高0.056。因此,本文提出的SSM+Doc2Vec模型在水利工程施工安全隱患文本上的表現優(yōu)于單獨采用SSM算法和Doc2Vec的方法。

        表6 各模型綜合準確率

        3.2.3 算法性能對比與分析

        為了進一步驗證算法的優(yōu)越性,采用相同的數據集并配置相同的實驗環(huán)境,將本文提出的方法與文獻[10]提出的基于Word2Vec計算目標案例與歷史案例相似度的方法進行對比。結果表示,本文提出的方法在安全隱患整改推薦上的綜合準確率達到0.869,優(yōu)于文獻[10]取得的0.802。當數據整體規(guī)模大且存在較多稀疏數據時,本文提出的方法采用SSM+Doc2Vec模型,可以更全面地挖掘案例描述的語義信息,在安全隱患整改推薦中能夠提供更加準確的結果。

        綜上所述,基于深度學習的施工安全隱患整改智能推薦系統(tǒng)從多個方面提高了智能推薦方案的準確率和速度。首先,采用TF-IDF算法和FP-Growth算法提取和挖掘安全隱患的關聯規(guī)則,可以更加準確地找到與當前安全隱患相關聯的案例,從而提高了整改方案的完整性。其次,利用SSM算法初步匹配歷史案例和當前入庫案例,減少了后續(xù)模型的計算量,提高了系統(tǒng)的運行效率。最后,采用Doc2Vec模型計算當前安全隱患與相似案例集合中每一條安全隱患的相似度,推薦最符合當前情況的整改方案,輔助安全管理人員在隱患管理工作中更好地進行決策。

        4 結束語

        本文構建了基于深度學習的施工安全隱患整改智能推薦系統(tǒng)。首先,基于TFIDF算法進行安全隱患特征提取,并通過?;鶊D可視化安全隱患特征。其次,通過SSM算法對當前入庫的安全隱患與數據庫中的歷史安全隱患案例進行初步匹配,得到粗糙的相似案例集合。然后,采用Doc2Vec模型計算當前安全隱患與相似案例集合中每一條安全隱患的相似度,合并相似度最高的安全隱患案例與關聯的安全隱患案例,將其推薦為當前安全隱患的整改方案。本文在復用歷史隱患治理經驗的同時,挖掘出歷史隱患數據中存在的關聯規(guī)則,為安全隱患的排查治理提供了更全面的視角。驗證結果表明,本文方法在安全患整改智能推薦任務上表現出色,能夠快速、準確地為當前安全隱患問題推薦整改方案。在未來的工作中,將進一步完善安全隱患關聯規(guī)則庫和隱患整改推薦的方案。

        猜你喜歡
        關聯案例文本
        “苦”的關聯
        當代陜西(2021年17期)2021-11-06 03:21:36
        案例4 奔跑吧,少年!
        少先隊活動(2021年2期)2021-03-29 05:40:48
        在808DA上文本顯示的改善
        隨機變量分布及統(tǒng)計案例拔高卷
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        奇趣搭配
        發(fā)生在你我身邊的那些治超案例
        中國公路(2017年7期)2017-07-24 13:56:38
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        一個模擬案例引發(fā)的多重思考
        精品无码国产一二三区麻豆| 亚洲免费视频网站在线| 少妇丰满大乳被男人揉捏视频| 免费国产自拍在线观看| 91久久大香伊蕉在人线国产| 亚洲国产AⅤ精品一区二区不卡| 白嫩少妇激情无码| 国产乱码一二三区精品| 亚洲一区二区三区尿失禁| 成人一区二区三区国产| 手机av在线观看视频| 日本视频一区二区三区免费观看| 国精产品一区二区三区| 东北女人毛多水多牲交视频| 人妻少妇偷人精品久久性色av | 久久天天躁夜夜躁狠狠躁2022| 欧美日韩国产码高清综合人成| 狠狠摸狠狠澡| 视频在线观看国产自拍 | 一区二区高清免费日本| 久久精品国产亚洲av热一区| 丰满岳乱妇久久久| 午夜无遮挡男女啪啪免费软件 | 尤物成av人片在线观看| 无码一区二区三区久久精品| 传媒在线无码| 国产精品嫩草影院AV| 国产乱子伦在线观看| 欧美黑人xxxx又粗又长| 亚洲av无码av在线播放| 老师开裆丝袜喷水视频| 黄色av亚洲在线观看| 区一区二区三区四视频在线观看| 高清成人在线视频播放| 久久精品国产亚洲av蜜桃av| 国产亚洲精品日韩香蕉网| 一个人免费观看在线视频播放| 精品第一页| 亚洲综合伊人制服丝袜美腿| 色妺妺在线视频| 亚洲 高清 成人 动漫|