楊宸,何元清
(中國民用航空飛行學(xué)院,廣漢 618307)
隨著社會經(jīng)濟的快速發(fā)展,各國都加強了對航空產(chǎn)業(yè)的推進與發(fā)展,其中航空安全一直是各個國家不斷追求和探索的重要主題,故必須提高數(shù)據(jù)利用率,將多源數(shù)據(jù)整合分析,為了解決這一問題并降低事故發(fā)生率,可以選擇借助知識圖譜進行知識組合,以確保數(shù)據(jù)的充分利用。
國外早在上世紀(jì)便已經(jīng)對民航安全監(jiān)管做了大量理論研究,并且也一直應(yīng)用于實踐之中[1]。如美國早在1938年就通過了航空安全法案開始用法律約束安全監(jiān)管工作[2],因此美國安全監(jiān)管也逐漸從法規(guī)監(jiān)管階段發(fā)展到如今的系統(tǒng)安全監(jiān)管[3],并逐漸形成現(xiàn)如今較為健全的安全監(jiān)管體系[4]。
當(dāng)前國內(nèi)主要是針對集中風(fēng)險評估、分析和預(yù)測等信息進行研究,提出的利用貝葉斯網(wǎng)絡(luò)對民航突發(fā)事件因果關(guān)系進行分析[5]、對面向民航運營的組合安全進行評估[6]和對稀疏降噪自編碼神經(jīng)網(wǎng)路的通用航空風(fēng)險進行預(yù)測[7]等方法,缺少對航空安全監(jiān)管態(tài)勢量化表示、多源航空安全數(shù)據(jù)的關(guān)聯(lián)以及對航空安全監(jiān)管態(tài)勢的分析。民航安全監(jiān)管態(tài)勢的量化表示是指針對現(xiàn)有的基于監(jiān)察結(jié)果初步統(tǒng)計的態(tài)勢評判存在的全面性不夠、區(qū)分度不強的問題,提出基于監(jiān)管事項指數(shù)的量化表示方法;多源民航安全數(shù)據(jù)關(guān)聯(lián)是指分析航空安全事故報告數(shù)據(jù),構(gòu)建航空安全知識圖譜,建立基于知識圖譜的多源航空數(shù)據(jù)關(guān)聯(lián)方法;而航空安全監(jiān)管態(tài)勢的分析及可視化指的是面向事項、時間、地區(qū)、監(jiān)管對象等不同維度,研究基于監(jiān)管事項指數(shù)的分析方法。
從本質(zhì)上來講,知識圖譜可以被視為能夠展示其實體之間關(guān)系的語義網(wǎng)絡(luò),亦可將其視為一個結(jié)構(gòu)化的語義知識庫。此處要明確“信息”和“知識”的區(qū)別?!靶畔ⅰ敝傅氖菍ν獠靠陀^事實的描述;“知識”是對外部客觀規(guī)律的歸納和總結(jié),實現(xiàn)這個目標(biāo)并不簡單。但是換一種思路來想,如果能夠在一定信息的基礎(chǔ)上,嘗試把各實體聯(lián)系起來,那么所得到的結(jié)果便是“知識”。我們所要研究的知識圖譜便是由這樣一條一條的知識組成,而每條知識都可以簡單的被視為一個SPO三元組,即主謂賓三元組。如圖1所示。
圖1 主謂賓(SPO)三元組
目前大多數(shù)知識圖譜工作原理相比過去已經(jīng)有了很大區(qū)別,其構(gòu)建方式基本可以分為兩類:“自底向上”和“自頂向下”。曾經(jīng)知識圖譜采用的是“自頂向下,先定義,后加入”的工作模式,具體是指在獲得較高質(zhì)量數(shù)據(jù)的基礎(chǔ)之上,提取出相關(guān)的文本與模式信息,隨后將提取出的信息導(dǎo)入數(shù)據(jù)庫。若其應(yīng)用范圍不是某個特定領(lǐng)域(如民航、金融、醫(yī)學(xué)等),則數(shù)據(jù)的來源一般是維基百科等百科類網(wǎng)站。然而目前知識圖譜主要是采用“自底向上”的構(gòu)建方式,采用適當(dāng)?shù)募夹g(shù)手段,從數(shù)據(jù)集中提取相應(yīng)的模式,在所提取的模式之中再選取置信度較高的新模式,在導(dǎo)入數(shù)據(jù)庫之前,還要進行一定的人工審核,使得結(jié)果更為精確和完善,可以理解為是對從前“自頂向下”構(gòu)建方式的進一步優(yōu)化,這其中包含對原始數(shù)據(jù)的區(qū)分、信息抽取、實體對齊、知識融合、本體抽取、質(zhì)量評估、形成知識圖譜等環(huán)節(jié)。其總體構(gòu)建思路如圖2所示。
圖2 知識圖譜總體構(gòu)建流程
圖注:
原始數(shù)據(jù)包含:結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù);
信息抽取包含:實體抽取,關(guān)系抽取,屬性抽取;
實體對齊包含:指代消解,實體消歧
現(xiàn)階段,我國民航業(yè)對于飛行安全監(jiān)管存在全面性不夠、區(qū)分度不強、前瞻性不足、信息碎片化等問題。主要是對信息的利用不夠充分。在民航飛行安全信息分析(主要分析方法是以文獻[4]中的REASON模型為基礎(chǔ))方面,最終所得到的評估指標(biāo)體系,主要是基于人、飛行器、所處研究環(huán)境、管理而建立,成果也絕大部分都集中在航空公司的安全運行領(lǐng)域。另外,在確定指標(biāo)權(quán)重之時,不可避免的會摻入相關(guān)專家的主觀因素,這便會導(dǎo)致結(jié)果沒有較強的客觀性。并且以上都是基于監(jiān)察結(jié)果初步統(tǒng)計所得出的態(tài)勢評判,不難看出其中存在一定的局限性。
除此之外我國當(dāng)前傳統(tǒng)的監(jiān)管體系還存在監(jiān)管力度不夠,沒有較為全面的法律法規(guī)做支撐等問題。
新一代民航監(jiān)管引入了監(jiān)管事項指數(shù)來刻畫民航安全監(jiān)管態(tài)勢,為其分析、監(jiān)管提供了新的方法,并且能夠突破上述所提到的監(jiān)察結(jié)果全面性不夠、區(qū)分度不強等難題。同時由于目前民航監(jiān)管還存在粗放監(jiān)管、對數(shù)據(jù)利用不充分的情況,所以在新一代民航監(jiān)管體系研究中提出了將知識圖譜應(yīng)用于多源航空安全數(shù)據(jù)分析中,目的是為了對實現(xiàn)差異化的行政監(jiān)察計劃管理提供技術(shù)指導(dǎo)。其技術(shù)路線如圖3所示。
圖3 新一代民航安全監(jiān)管技術(shù)路線
基于知識圖譜的新一代民航監(jiān)管體系可以解決的關(guān)鍵問題有:
(1)通過構(gòu)建航空安全知識圖譜使得多元數(shù)據(jù)可視化,充分展示數(shù)據(jù)細節(jié),方便管理與分析數(shù)據(jù)。
(2)增強各類數(shù)據(jù)對航空監(jiān)管態(tài)勢影響權(quán)重的確定性并且可以更為全面的分析航空安全監(jiān)管事項指數(shù)走勢。
(3)通過完善監(jiān)管事項指數(shù)的內(nèi)涵、特性,做到對航空安全事故的深層次分析。
主要研究方法有:
(1)數(shù)據(jù)分析法。數(shù)據(jù)分析法是指用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程[9]。
(2)特征關(guān)聯(lián)性分析法。用來研究各個現(xiàn)象之間是否存在某種聯(lián)系,并對相互存在聯(lián)系的事件及現(xiàn)象進行探討,歸納總結(jié)后得出結(jié)論。常用到的分析方法有圖表法與相關(guān)系數(shù)法。
(3)知識圖譜可視化。用來展示各個實體之間的關(guān)系,將錯綜復(fù)雜的關(guān)系清晰化。最常用的可視化方法是三元組顯示方法,圖中的節(jié)點表示實體,節(jié)點間的線段表示實體之間的關(guān)系,即用關(guān)系來連接兩個實體。其中實體和關(guān)系均要進行清晰的標(biāo)注以實現(xiàn)對已有信息的快速精準(zhǔn)查詢。
(4)主成分分析法。一種多元統(tǒng)計方法,通過對少數(shù)主要成分的推算得出多個變量的研究方法。
(5)層次分析法(analytic hierarchy process,AHP)。一種定性與定量分析相結(jié)合的多目標(biāo)決策方法,主要思想是將復(fù)雜問題分解,使其層次化,并通過建立各要素的層級,清楚的實現(xiàn)各層、各要素及各準(zhǔn)則之間的關(guān)系。
“監(jiān)管事項指數(shù)”是監(jiān)管部門整合了一定民航安全事故數(shù)據(jù)之后,形成的在一定時間之內(nèi)“關(guān)鍵詞”的動態(tài)指數(shù)變化,目的是方便監(jiān)管人員直觀的看出所發(fā)生的高頻事故原因等相關(guān)信息。實際上知識圖譜主要是依據(jù)數(shù)據(jù)庫進行存儲且可將其視為一種圖數(shù)據(jù)庫,故對于知識圖譜的標(biāo)準(zhǔn)查詢語言為SPARQL(simple protocol and RDF query language)。如想查詢在某一環(huán)境發(fā)生的飛行事故,可以使用命令“select”從圖譜中獲取有效數(shù)據(jù)。隨后可以根據(jù)已有的數(shù)據(jù)進行分析,推測未來是否會在相同的環(huán)境下發(fā)生事故,以達到在未來降低風(fēng)險的效果。
監(jiān)管事項指數(shù)可以量化表示地區(qū)、監(jiān)管對象在某個監(jiān)管業(yè)務(wù)或監(jiān)察項目方面的相對狀態(tài),同時也可以探索基于知識圖譜的航空安全事故報告各實體之間及實體間關(guān)系的方法,實現(xiàn)多個開源的航空安全數(shù)據(jù)與監(jiān)管態(tài)勢之間映射關(guān)系,最終制定面向精準(zhǔn)的監(jiān)管計劃,為實現(xiàn)差異化的行政監(jiān)察計劃管理提供更為合理的科學(xué)依據(jù)。因此,多源數(shù)據(jù)驅(qū)動的航空安全態(tài)勢分析是民航精準(zhǔn)監(jiān)管的一項重要基礎(chǔ)性工作,也是以狀態(tài)感知為前提的民航智慧監(jiān)管建設(shè)的基礎(chǔ)之一。
知識圖譜應(yīng)用于民航安全信息監(jiān)管的好處是可以充分展示數(shù)據(jù)細節(jié),使抽象數(shù)據(jù)可視化、文本數(shù)據(jù)圖示化,方便空管部門查詢管理。本案例中所采用的數(shù)據(jù)為航空事故的文本描述,包含大量的SPO三元組,如對于保加利亞的維亞航空公司所發(fā)生的事故描述為:
2013年5月24日,一架保加利亞維亞(VIA)航空公司空客A320-200客機(注冊號LZ-MDR),執(zhí)行從德國萊比錫飛往保加利亞瓦爾納的VL-502航班。當(dāng)?shù)貢r間10:19(世界協(xié)調(diào)時07:19)飛機在瓦爾納機場的09號跑到著陸,但沖出跑道約270 m,沖過航向標(biāo)天線,撞到機場圍欄后停了下來。機組實施緊急撤離,兩位年長女乘客(分別為71歲和81歲)在車里過程中腳踝骨折。最終保加利亞航空事故調(diào)查局將事故原因歸因于氣象預(yù)測過程中對氣象條件的分析不夠深入,以及瓦爾納機場的氣象部門等低估了氣象觀測對飛機下降的影響。在飛機觸地前風(fēng)俗和風(fēng)向的動態(tài)急劇變化導(dǎo)致了這場事故。
表1 實體屬性描述
知識圖譜是由各個實體以及實體之間的關(guān)系所構(gòu)成,其中實心圓代表事件本身,四周與其相連的實體為事件屬性,節(jié)點之間邊上的文字代表關(guān)系屬性。本實例中數(shù)據(jù)來源于中國民用航空信息網(wǎng),挑選了其中2012—2014年的部分國際航空事故調(diào)查跟蹤報告。具體可視化結(jié)果如圖4所示。
圖4 民航事故知識圖譜部分展示
保證民航飛行作業(yè)持續(xù)安全穩(wěn)定是一項極其艱巨的任務(wù),為了實現(xiàn)這一目標(biāo),必須不斷完善現(xiàn)有航空安全監(jiān)管體系。
作為目前大數(shù)據(jù)時代重要技術(shù)之一,知識圖譜在各行各業(yè)均得到廣泛應(yīng)用。但該項技術(shù)在民航領(lǐng)域中還處于探索階段,其構(gòu)建過程也需要大量的專家學(xué)者支持。因此如何將知識圖譜充分的應(yīng)用于未來民航大數(shù)據(jù)領(lǐng)域,制定更加完善的行業(yè)規(guī)范,從而提升飛行安全效率,將成為今后主要研究方向之一。