馬婷
摘要: 航空事故對航空安全起到至關重要的作用,影響航空安全的因素是多重的。文章對航空安全事故報告采用文本挖掘和R語言,找出航空安全事故的致險因素,對航空安全提供參考,收集事故報告90例,首先采用了結巴分詞對數(shù)據(jù)進行分詞處理,其次是過濾分詞結果中的停用詞和無效詞,然后進行關鍵字的提取,找出能夠代表文本特征的詞條,建立向量空間模型,最后采用K-means聚類算法,在K值為3時聚類效果達到最佳,將航空事故致險因素分為了人為-環(huán)境-設備三類,利用R語言的Word Cloud程序包將實驗結果進行可視化處理,得出8項主要致險因素,17項一般致險因素。根據(jù)詞云圖中的致險因素,從人-環(huán)境-設備三個方面為以后的飛行安全提供了有價值的參考信息。
關鍵詞: 航空安全事故報告;文本挖掘;分詞;聚類;致險因素
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)35-0056-04
人們的生活方式正悄無聲息地發(fā)生變化,比起其他交通工具,乘坐飛機出行已經(jīng)成了人們的日常。從2018的有關航空安全的數(shù)據(jù)來看,航空安全形勢仍然嚴峻,還有許多安全問題是不容忽視的。因此,對于航空安全性進行提高是航空公司以及從業(yè)人員都迫不及待需要解決的問題[1]。
美國在20世紀70年代首創(chuàng)的航空安全系統(tǒng)(Aviation Safety Reporting System),是國外開始針對航空安全事故報告開展研究的起始點。該系統(tǒng)可以從航空安全報告中分析出造成事故的原因,從而使類似事件發(fā)生的概率大大降低。近年來,國內(nèi)也有不少人致力于對安全事故報告進行相關方面的分析研究,如文獻[2]基于文本挖掘技術和R語言,對334份建筑施工安全事故報告進行分詞處理和特征項降維,識別出8項建筑工人不安全行為及其27項影響因素。文獻[3]以某管制單位2004—2019年共269條管制原因不安全事件數(shù)據(jù)為挖掘語料,運用LDA主題模型挖掘管制運行風險主題及關鍵詞,使用Word2Vec挖掘主題之間和關鍵詞之間有怎樣的關聯(lián)性、用UCINET分析軟件、可視化工具NETDRAW構建語義網(wǎng)絡將關聯(lián)關系進行可視化并進行網(wǎng)絡分析。結果表明:挖掘到7個主題,主要以管制人為因素為主。文獻[4]以航空安全事故報告作為數(shù)據(jù)基礎,通過TF-IDF、LDA算法進行致險因素的分析,在此基礎上提出如何來進行風險的預測。其中包括6項主要致因因素和20項一般致因因素。文獻[5]構建出了基于樸素貝葉斯網(wǎng)絡結構的“人-船-管理-環(huán)境”系統(tǒng)。通過對TFIDF算法的進一步改進,推導出人為因素是造成船舶碰撞事故風險因素的第一因子。文獻[6]通過詞云和網(wǎng)絡結構圖的可視化展示,展示出了地鐵施工安全風險的致險因素,并根據(jù)這些因素對事故發(fā)生的重要程度對其進行了等級劃分。文獻[7]是以ASN、NTSB和世界事故數(shù)據(jù)為基礎來構建民航系統(tǒng)的事故數(shù)據(jù)庫,所采用的算法是多維關聯(lián)規(guī)則的算法。文獻[8]采用內(nèi)容分析方法,分析在飛機飛行階段的安全問題及造成安全問題的原因有什么樣的關系,通過分析得到對于某一起航空安全事故發(fā)生的主要原因并不是單一的,而是由“環(huán)境”“管理”“人為”等多重因素相互疊加造成的。
上述方法大部分是通過分析事件及事件之間關系,但出于機器學習聚類的使用比較少,并且通過可視化展現(xiàn)分析結果的使用也比較少,本文借助了文本挖掘和R語言技術,K-means聚類的方法及可視化,從90例飛行事故報告,挖掘航空事故致險因素。
1 文本挖掘
文本挖掘是數(shù)據(jù)挖掘領域中的一個部分,主要的作用是挖掘對用戶具有潛在價值的新知識。文本挖掘是針對文本類型的數(shù)據(jù)進行定性分析和定量計算,將包含在其中的各種類型的隱式知識挖掘出發(fā),如隱含其中的信息模式、結構等[9]。文本挖掘的方法主要針對某些包含信息模式和結構的文本信息源展開分析和計算,其應用主要包含實現(xiàn)有監(jiān)督的文本分類和無監(jiān)督的文本聚類。
本文文本挖掘操作步驟如圖1所示。
2 文本挖掘語料及挖掘工具選擇
在做文本挖掘之前首先要選擇合適的挖掘工具,典型的開源的文本挖掘工具有LINGPIPE、LIBSVM、WEKA、ROST CM等[10-11],ROST CM挖掘工具主要用于中文文本,WEKA算法在許多數(shù)據(jù)挖掘專業(yè)人員中相對流行,因為它的算法很全面, LIBSVM挖掘工具主要針對SVM模式識別與回歸操作,并且為了對自然語言進行更好地處理,人們開發(fā)出了LINGPIPE挖掘工具包。R語言則可提供完全免費開放的環(huán)境,它由于涵蓋的功能多種多樣,而且包含在內(nèi)的成熟穩(wěn)定的函數(shù)齊全,成了一門可以用來專門做統(tǒng)計和數(shù)據(jù)分析工作的高效的語言,可以針對不同的用戶需求提供相應的程序分析包,同各種IOS的兼容性好,而且它的功能也很齊全。因此,鑒于以上的分析比較,最終選擇了涵蓋數(shù)據(jù)處理、統(tǒng)計分析和數(shù)據(jù)可視化功能的R語言及相應程序包,對所搜集的航空安全事故報告進行了挖掘分析[12-14]。
為了保證實驗所用的數(shù)據(jù)具有真實性,實用性,我們采用航空安全網(wǎng)(Aviation Safety Network)中的數(shù)據(jù)為實驗中的基礎數(shù)據(jù),另外通過全網(wǎng)搜索與航空安全事故有關的信息,從民航資源網(wǎng)等相關的管理部門網(wǎng)站共收集事故報告90例。
搜集的90例航空安全事故報告來源如表1所示。
3 基于R語言文本挖掘的航空事故致險因素分析
特征表示通常我們會把文本數(shù)據(jù)用向量空間模型來表示,即提取的特征值與相對應的權重進行組合,所包含的概念如下:
(1) 某個語料庫文檔或單個文件集中的某一段,叫作文檔,記為D,文件總數(shù)為[D];
(2) 區(qū)別其他類文檔與這類文檔的重要依據(jù), 某一個給定的詞或詞語,我們把它稱為特征值;
(3) 對于一類文檔而言,特征值是有多么重要,我們用權重來表示。
TF表示某一個詞或短語在一篇文檔中出現(xiàn)多少次及頻率[17]。在某個文檔中,詞頻通常用來規(guī)范單詞的數(shù)量并防止它偏向長文檔,(與某個詞語是否對整篇文章重要無關,在長文件中一個詞的出現(xiàn)頻率很高,而在某個短文件中出現(xiàn)的頻率則很低),所以某一個給定的詞或詞語出現(xiàn)的頻率次數(shù)稱為詞頻,在一篇文檔里面出現(xiàn)的某個詞語ti對文檔的重要程度我們把它表示為如公式(1)。
[tfi,j=ni,jknk,j]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
公式(1)中,分子部分n(i,j)表示在一篇文檔中某個特定的詞或詞組出現(xiàn)的詞頻,而式子中的分母表示的是該文檔中包含的所有的詞或詞組出現(xiàn)總詞頻。
對某個詞語在文檔中的重要程度進行衡量,我們通常用逆向文件頻率來表示。以文件總數(shù)作為分子,以有哪些文檔包含該特定詞語的數(shù)目作為分母,再將分子除分母所得到的結果進行對數(shù)運算,得到的公式(2),稱為某一個特定的詞或詞組的IDF:
(2)
其中|D|:語料庫中的文件總數(shù)|{j:t_i∈d_(i,j) }|
tf-idf=tfi,j×idfi? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
通過式(3)計算,就能得出每個特征項的權重Wik:
(4)
(4) 向量空間模型:特征值和權重進行組合構成向量空間模型。
3.1? 航空事故報告預處理
使用了一款高效、對于繁體和自定義的詞典可以進行分詞得分詞包——結巴分詞來完成整個文檔的分詞操作。它以C++作為基礎層,并且基于MIT協(xié)議實現(xiàn)對RCPP的高效調用。對90份文件采用結巴分詞的方式進行分詞處理,分詞結果中存在著英文單詞、停用詞等對于本文分析贅余、無效的詞匯,部分分詞結果如圖2所示。為了節(jié)省內(nèi)存空間,在對自然語言數(shù)據(jù)進行處理的步驟中,通過停用詞的過濾,可以提高檢索的效率和存儲效率,整理的停用詞如圖2(b)所示。基于已經(jīng)整理的停用詞詞典、正則表達式分別過濾停用詞、英文單詞等無效詞匯,過濾后的分布結果如圖2(c)所示。觀察過濾停用詞與英文后的分詞結果,發(fā)現(xiàn)存在著“網(wǎng)”“號”等單詞長字,這些字在文本分析中無實際的效果,通過限制詞長來過濾這些詞,過濾效果如圖2(d)所示。
3.2? 特征值選擇及空間向量構建
特征值是可以表示文本主要含義的信息,向量空間模型是在文本處理中的模型。TFIDF(term frequency–inverse document frequency)是一種統(tǒng)計方法[15-16],信息加權的技術領域應用較多,主要作用是用于根據(jù)某個字詞的出現(xiàn)頻率,在某個語料庫或單個文件集中的某一個單詞,對他們存在的重要程度進行評估。
如果在一篇文檔中某個詞以較高的詞頻存在時,它通常就可以被用來表示該類別中文檔的特征,應該將這樣的詞語選出來,使其具有較高的權重,并將這些特征詞作為區(qū)別其他類文檔與這類文檔的重要依據(jù)。
每一行作為一個文本,每一列為關鍵詞,在文檔-詞頻矩陣中,部分提取結果如圖3所示。
根據(jù)空間向量模型的構成方式,如表2為部分文本及特征值的空間向量模型。
3.3? K-Means聚類
K-Means算法其實是一種非常簡單的算法,它根據(jù)給定樣本集中的樣本之間的距離,形成K個簇,讓樣本自動歸入到相應的簇內(nèi)。讓簇內(nèi)的各個點之間的距離盡可能小,而讓各個簇之間盡最大的可能分散[18]。
假設生成的K個簇是([S1、S2...Sk]),[Ui]是簇[Si]的均值向量,或者稱其為簇的質心,用數(shù)據(jù)方式表示為:
(5)
通過計算得到的最小化平方誤差E:
(6)
K-Means算法實現(xiàn)步驟:
(1)數(shù)據(jù)集分成幾個集合,先確定出K值;
(2)選出質心,質心的選擇是任意的,它可以是隨機從數(shù)據(jù)集中選出的k個數(shù)據(jù)點。
(3)數(shù)據(jù)集中的每個點與質點之間都有一個距離,我們通過計算距離,能夠找到數(shù)據(jù)集中的點離哪個質點近,就把它們分為一類。
(4)通過上述步驟,使所有數(shù)據(jù)與其適當?shù)募铣蔀橐粋€聚類,用k個集合表示,對每一個集合的質心,重新計算一次。
(5)得到第二次的計算結果后,將它與第一次的結果進行比較,如果第二次結果減去第一次的結果小于某個極小數(shù),相當于收斂,那么說明質點的位置沒有太大改變,這就是我們所預期的結果已經(jīng)達到了,不需要再次進行計算。
(6)如果第二次結果減去第一次結果值得變化比較大,則需要再次聚類,即轉到3~5進行循環(huán)迭代,直到滿足條件為止[19]。當K=3的時效果最佳,選擇聚成三類,將航空事故致險因素分為人為造成事故傷害、天氣環(huán)境以及設備故障三大類因素,如圖4所示。
具體的聚類效果如圖5所示。
4 聚類可視化
實驗的最終結果以造成航空安全事故的因素的詞云圖展現(xiàn),通過利用R語言的Word cloud程序包方式進行可視化展示。實驗得到的最終結果以詞云圖形式進行可視化展示,如圖6所示。
雖然作為本文數(shù)據(jù)來源的90份航空安全事故報告,它們的語言表達方式多種多樣,內(nèi)容結構也不盡相同,而且造成每一起航空事故的原因都存在很大差異,但通過實驗最后得出的詞云圖,根據(jù)詞語字體在圖中的居中位置不同、詞語方向大小以及明暗顏色都是有一定差別,如誤操作、疲勞駕駛、能見度低、安全意識薄弱、管理員決策不當、鳥群撞擊、飛機設備故障及失靈等頻率較高的詞位置居于中央,字體明顯比其他詞語較大,顏色也較為醒目,我們把它們看成是主要致險因素。而飛行員情緒波動、失壓、人員安排、缺氧、低云、無線電通信阻塞、載荷過載等頻率低的詞字體比較小,位置處于詞云圖的邊緣部分,顏色較不明顯,我們把它看成一般致險因素。
5 結語
本文主要借助了文本挖掘和R語言技術,通過文本分詞,停用詞過濾、無效詞過濾、關鍵字提取,建立向量空間模型,及K-means聚類的方法,從90例飛行事故報告,挖掘航空事故致險因素,最后通過可視化進行顯示,顯示出的實驗結果進行分析得到:
基于對實驗所得的航空事故致險因素詞云圖中字體的大小、位置、顏色等的分析,一起航空安全事故的發(fā)生是由一些主要的致險因素和一般的因素造成的,從詞云圖來看,誤操作、疲勞駕駛、能見度低、安全意識薄弱、管理者決策不當、鳥群撞擊、飛機設備故障及失靈等這些是主要的致險因素;一般致險因素有:飛行員情緒波動、失壓、人員安排、缺氧、低云、無線電通信阻塞、載荷過載等。而一個航空事故的發(fā)生不可能是由某個單一的原因造成的,可能由多個致險因素相互疊加而導致,所以每個致險因素都是不容忽視的。為了能夠有效地防止航空安全事故的發(fā)生,主要從“人為造成事故傷害-天氣環(huán)境-管理者的管理-設備故障”這四大致險因素出發(fā)制定切實可行且有效的措施防止悲劇的發(fā)生。
參考文獻:
[1] 徐佳迪.公務航空飛行安全的關鍵風險因素研究[D].天津:中國民航大學,2019.
[2] 薛楠楠,張建榮,張偉,等.基于文本挖掘的建筑工人不安全行為及其影響因素研究[J].安全與環(huán)境工程,2021,28(2):59-65,85.
[3] 陳芳,陳茜,徐碧晨.基于文本挖掘的管制運行風險主題分析[J].中國安全生產(chǎn)科學技術,2020,16(11):47-52.
[4] 劉夢娜.基于文本挖掘的航空安全事故報告致因因素分析和風險預測[D].合肥:安徽建筑大學,2019.
[5] 吳伋,江福才,姚厚杰,等.基于文本挖掘的內(nèi)河船舶碰撞事故致因因素分析與風險預測[J].交通信息與安全,2018,36(3):8-18.
[6] 李解,王建平,許娜,等.基于文本挖掘的地鐵施工安全風險事故致險因素分析[J].隧道建設,2017,37(2):160-166.
[7] 侯熙桐.基于多維關聯(lián)規(guī)則的民航事故數(shù)據(jù)挖掘研究[D].天津:中國民航大學,2016.
[8] 劉俊杰,李華明,梁文娟,等.基于內(nèi)容分析法的航空安全自愿報告信息分析[J].中國安全科學學報,2012,22(4):90-96.
[9] 張磊.基于文本挖掘的項目風險分析方法研究[D].濟南:山東大學,2015.
[10] 張雯雯,許鑫.文本挖掘工具述評[J].圖書情報工作,2012,56(8):26-31,55.
[11] 張雪英.國外先進數(shù)據(jù)挖掘工具的比較分析[J].計算機工程,2003,29(16):1-3.
[12] 馬準中.對三種數(shù)據(jù)挖掘工具的比較[J].實驗科學與技術,2005,3(1):45-46,29.
[13] Yang Y Y.Text mining and visualization tools - Impressions of emerging capabilities[J].World Patent Information,2008,30(4):280-293.
[14] Gemert J V.Text mining tools on the Internet an overview[J]. Intelligent Sensory Information Systems,2000(25):1-68.
[15] 張建娥.基于TFIDF和詞語關聯(lián)度的中文關鍵詞提取方法[J].情報科學,2012,30(10):1542-1544,1555.
[16] 章志華,陸海良,郁鋼.基于TFIDF算法的關鍵詞提取方法[J].信息技術與信息化,2015(8):158-160.
[17] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009,29(S1):167-170,180.
[18] 回玥婷,夏懿嘉,陳紫荷,等.基于Synonyms、k-means的短文本聚類算法[J].電腦知識與技術,2019,15(1):5-6.
[19] Lee E,Schmidt M,Wright J.Improved and simplified inapproximability for k-means[J].Information Processing Letters,2017,120:40-43.
【通聯(lián)編輯:王力】