亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PMI 與BTM 的船舶事故原因文本挖掘*

        2021-04-29 13:31:16于衛(wèi)紅付飄云王慶武
        交通信息與安全 2021年1期
        關(guān)鍵詞:調(diào)查報(bào)告語(yǔ)料庫(kù)詞語(yǔ)

        于衛(wèi)紅 付飄云 任 月 王慶武

        (1.大連海事大學(xué)航運(yùn)經(jīng)濟(jì)與管理學(xué)院 遼寧 大連116026;2.大連海事大學(xué)航海學(xué)院 遼寧 大連116026)

        0 引 言

        船舶事故頻繁發(fā)生,嚴(yán)重影響了水上交通安全形勢(shì)的穩(wěn)定。從歷史事故中發(fā)現(xiàn)規(guī)律、吸取教訓(xùn)可以在某種程度上避免同類(lèi)事故重復(fù)發(fā)生。歷史事故的相關(guān)信息通常以自由文本的形式記錄在事故調(diào)查報(bào)告中,如,可以從地方或國(guó)家海事局的官網(wǎng)中檢索出大量的碰撞、擱淺、自沉等各種事故類(lèi)型的船舶事故調(diào)查報(bào)告。這些事故報(bào)告為官方出具[1],對(duì)事故調(diào)查取證情況、重要事故要素認(rèn)定、事故經(jīng)過(guò)、事故原因、安全管理建議等內(nèi)容進(jìn)行了詳細(xì)可靠地描述。采用文本挖掘技術(shù)從事故調(diào)查報(bào)告中提取出事故關(guān)鍵特征或更加隱含的特征要素之間的語(yǔ)義關(guān)系,能夠幫助全面理解船舶事故的發(fā)生模式、更好地識(shí)別水上交通的危險(xiǎn)因素,充分發(fā)揮事故調(diào)查報(bào)告在總結(jié)經(jīng)驗(yàn)教訓(xùn)、遏止事故風(fēng)險(xiǎn)中的作用。

        但是,現(xiàn)階段,對(duì)船舶事故調(diào)查報(bào)告進(jìn)行文本挖掘存在如下難點(diǎn)。

        1)船舶事故調(diào)查報(bào)告是高度非結(jié)構(gòu)化的文本數(shù)據(jù),特別是中文文本具有復(fù)雜的語(yǔ)言結(jié)構(gòu),語(yǔ)法、語(yǔ)義、語(yǔ)用等常存在歧義,需要綜合運(yùn)用信息抽取、機(jī)器學(xué)習(xí)、概率統(tǒng)計(jì)、數(shù)據(jù)可視化等多種技術(shù)來(lái)進(jìn)行處理。

        2)船舶事故調(diào)查報(bào)告缺乏統(tǒng)一的模板,內(nèi)容格式不規(guī)范,存儲(chǔ)形式多樣化(如“.pdf”“.doc”“.html”“.jpg”等形式),給數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理工作帶來(lái)很大的困難。

        迄今為止,船舶事故調(diào)查報(bào)告文本挖掘相關(guān)的成果主要以文本信息抽取研究為主,如:姚厚杰[1]在統(tǒng)計(jì)分析382 起船舶交通歷史事故數(shù)據(jù)的基礎(chǔ)上,利用文本挖掘提煉出船舶交通事故的風(fēng)險(xiǎn)因素。Lee Jeongseok等[2]使用文本挖掘技術(shù)從電子海圖事故報(bào)告中挖掘事故原因的相關(guān)詞語(yǔ),并使用詞云圖、詞語(yǔ)網(wǎng)絡(luò)圖等進(jìn)行可視化展示。吳伋等[3]以長(zhǎng)江內(nèi)河航道419 起船舶碰撞事故報(bào)告為語(yǔ)料,使用分詞及卡方檢驗(yàn)等算法提取出能夠表征船舶碰撞事故4要素(人為因素、船舶因素、環(huán)境因素、管理因素)的特征詞。余晨等[4]采用基于規(guī)則的海事信息抽取方法,從事故報(bào)告的自由文本中提取事故發(fā)生的時(shí)間、地點(diǎn)、涉事船舶、事故類(lèi)型等信息。

        上述研究主要是從單個(gè)詞語(yǔ)的角度展開(kāi)的文本挖掘研究,即從事故調(diào)查報(bào)告中提取出與事故因素相關(guān)的特征詞,繼而利用這些詞進(jìn)行事故統(tǒng)計(jì)或預(yù)警等分析。

        根據(jù)1篇文檔的生成過(guò)程:1篇文檔包含若干主題,而每個(gè)主題又對(duì)應(yīng)著不同的詞。1篇文檔的構(gòu)造過(guò)程,首先是以一定的概率選擇某個(gè)主題,然后再在這個(gè)主題下以一定的概率選出某1 個(gè)詞,這樣就生成了這篇文檔的第1 個(gè)詞。不斷重復(fù)這個(gè)過(guò)程,就生成了整篇文檔[5]。所以,對(duì)于文本挖掘,在文本特征詞提取的基礎(chǔ)上還可以進(jìn)行更深入的語(yǔ)義挖掘,如,挖掘詞語(yǔ)與詞語(yǔ)之間的關(guān)系、文檔中的主題分布等。

        因此,可以從詞語(yǔ)和主題2 個(gè)層面對(duì)船舶事故調(diào)查報(bào)告進(jìn)行語(yǔ)義挖掘。在詞語(yǔ)層面,通過(guò)挖掘文本特征詞之間的頻繁共現(xiàn)模式,可以揭示出事故因素之間的關(guān)聯(lián)關(guān)系;在主題層面,通過(guò)對(duì)若干起同類(lèi)事故的事故原因文本的主題提取,可以對(duì)該類(lèi)事故的原因進(jìn)行系統(tǒng)地歸納,并且可以通過(guò)主題在文檔中的分布初步量化出每種原因的發(fā)生概率。

        基于此,本研究應(yīng)用頻繁共現(xiàn)詞挖掘、短文本主題建模的思想和算法對(duì)船舶事故調(diào)查報(bào)告中的事故原因文本進(jìn)行挖掘,試圖通過(guò)詞語(yǔ)和主題2 個(gè)層面的語(yǔ)義挖掘發(fā)現(xiàn)事故的規(guī)律、提取出事故的致因模式。

        1 研究思路

        研究思路見(jiàn)圖1,其核心環(huán)節(jié)包括以下4 個(gè)方面。

        圖1 研究思路Fig.1 Research ideas

        1)事故調(diào)查報(bào)告的獲取。首先使用爬蟲(chóng)技術(shù)從海事局官網(wǎng)獲取各事故調(diào)查報(bào)告的存儲(chǔ)網(wǎng)址,然后通過(guò)Java編程將事故調(diào)查報(bào)告批量下載到本地。

        2)事故調(diào)查報(bào)告的預(yù)處理。將以不同格式存儲(chǔ)的事故調(diào)查報(bào)告統(tǒng)一轉(zhuǎn)換成純文本格式,通過(guò)文檔結(jié)構(gòu)分析,對(duì)事故調(diào)查報(bào)告中描述事故原因的內(nèi)容進(jìn)行定位,編程抽取出事故原因文本。

        3)事故原因文本預(yù)處理。根據(jù)中華人民共和國(guó)交通部制定的國(guó)家標(biāo)準(zhǔn)的“水上安全監(jiān)督術(shù)語(yǔ)”[6]構(gòu)建用戶自定義詞典,以保證專(zhuān)有名詞、專(zhuān)業(yè)術(shù)語(yǔ)在分詞時(shí)不被拆分。在R 語(yǔ)言環(huán)境下,使用jiebaR算法對(duì)事故原因文本進(jìn)行分詞,并進(jìn)一步使用百度停用詞表去掉無(wú)意義的虛詞。繼而對(duì)事故調(diào)查報(bào)告中常見(jiàn)的同義詞(如,“瞭望”和“了望”“船首”和“船艏”等)進(jìn)行統(tǒng)一處理。

        4)事故原因文本挖掘。從詞語(yǔ)和主題2 個(gè)層面對(duì)事故原因文本進(jìn)行挖掘。在詞語(yǔ)層面,使用點(diǎn)互信息(pointwise mutual information,PMI)算法提取事故原因文本中頻繁共現(xiàn)的詞對(duì),通過(guò)詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián)分析出事故致因要素間的聯(lián)系。在主題層面,使用雙詞主題模型(biterm topic model,BTM)算法對(duì)事故原因文本進(jìn)行主題建模,以此對(duì)屬于同一事故原因的詞語(yǔ)進(jìn)行聚類(lèi)。

        2 研究方法

        2.1 基于PMI的頻繁共現(xiàn)詞挖掘

        頻繁共現(xiàn)詞指的是2 個(gè)或2 個(gè)以上的詞語(yǔ)經(jīng)常搭配在一起使用的1種頻繁模式。自然語(yǔ)言是隨機(jī)的,詞語(yǔ)頻繁共現(xiàn)對(duì)揭示詞語(yǔ)之間施事、受事、工具、處所、領(lǐng)屬等上下文語(yǔ)義關(guān)系十分重要。如,{船舶,超航區(qū),航行}這3個(gè)詞頻繁共現(xiàn)可以揭示出“船舶超航區(qū)航行”是船舶事故的常見(jiàn)原因之一。

        PMI是挖掘詞語(yǔ)之間關(guān)聯(lián)關(guān)系的1種十分有效的統(tǒng)計(jì)方法[7]。對(duì)于語(yǔ)料庫(kù)中的詞語(yǔ)x和詞語(yǔ)y,將x和y的點(diǎn)互信息記為PMI(x;y),則[8]

        式中:P(x)為詞語(yǔ)x在語(yǔ)料庫(kù)中出現(xiàn)的概率;P(y)為詞語(yǔ)y在語(yǔ)料庫(kù)中出現(xiàn)的概率;P(x,y)為詞語(yǔ)x和詞語(yǔ)y同時(shí)出現(xiàn)的概率,即聯(lián)合概率;P(x|y)為在詞語(yǔ)y 出現(xiàn)的前提下詞語(yǔ)x出現(xiàn)的概率,即條件概率;同理,P(y|x)為在詞語(yǔ)x出現(xiàn)的前提下詞語(yǔ)y出現(xiàn)的條件概率。

        根據(jù)概率論可知,PMI(x;y)的值越大,詞語(yǔ)x和詞語(yǔ)y搭配使用的關(guān)聯(lián)性越強(qiáng)[9]。

        根據(jù)PMI 算法的原理,設(shè)計(jì)了從事故原因文本中挖掘頻繁共現(xiàn)詞的方法。

        1)讀取語(yǔ)料文本,構(gòu)建語(yǔ)料庫(kù)。

        2)對(duì)語(yǔ)料庫(kù)進(jìn)行分詞。

        3)構(gòu)建詞語(yǔ)與文本的對(duì)應(yīng)關(guān)系,即構(gòu)建由文本ID和文本中的詞組成的二維表。

        4)編程計(jì)算詞語(yǔ)之間的PMI。

        5)根據(jù)業(yè)務(wù)需要設(shè)定閾值,篩選出PMI以及共現(xiàn)次數(shù)滿足閾值條件的詞對(duì)。

        2.2 基于BTM的事故原因文本主題建模

        2.2.1 BTM算法的基本原理

        主題建模又稱主題聚類(lèi),指的是通過(guò)非監(jiān)督學(xué)習(xí)對(duì)文本集合中隱含的語(yǔ)義結(jié)構(gòu)進(jìn)行分組、歸類(lèi)[10]。傳統(tǒng)的主題建模使用潛在狄利克雷分布(latent dirichlet allocation,LDA)算法,是David M.Blei 等[5]于2003 年提出來(lái)的1 個(gè)3 層貝葉斯概率模型。由于LDA 算法的假設(shè)之一是“1 篇文檔包含了多個(gè)主題”,因此該算法特別適用于對(duì)長(zhǎng)文本語(yǔ)料庫(kù)進(jìn)行主題建模。

        船舶事故調(diào)查報(bào)告中描述事故原因的文本長(zhǎng)短不一且以短文本居多,文本較短時(shí)會(huì)出現(xiàn)嚴(yán)重的特征稀疏、數(shù)據(jù)不足等問(wèn)題,使用LDA 算法難以準(zhǔn)確推斷出文檔中主題混合分布的參數(shù)以及每個(gè)詞的主題屬性,從而影響聚類(lèi)效果。

        BTM是Yan Xiaohui等[11]于2013年提出的適用于任意長(zhǎng)度文本尤其適用于短文本主題建模的雙詞主題模型。雙詞指的是在同1個(gè)上下文中共現(xiàn)的詞對(duì),用戶可以根據(jù)所分析的文本特征指定上下文窗口的大小。本質(zhì)上說(shuō),BTM 是LDA 的1 種變形算法,二者的參數(shù)估計(jì)方法和模型訓(xùn)練過(guò)程中的采樣算法都是一樣的。BTM 最大的改進(jìn)在于采用雙詞而不是單詞作為主題建模的單元,它假設(shè)每個(gè)雙詞由同1個(gè)主題產(chǎn)生,而主題由1個(gè)定義在整個(gè)語(yǔ)料庫(kù)中的主題混合分布產(chǎn)生,即BTM算法是“雙詞→主題→語(yǔ)料庫(kù)”的3層貝葉斯概率模型。通常,2個(gè)詞共現(xiàn)次數(shù)越多,其語(yǔ)義越相關(guān),也就越可能屬于同1個(gè)主題。因此,BTM算法使主題建模的語(yǔ)義更加清晰,通過(guò)雙詞組合也避免了短文本長(zhǎng)度過(guò)短導(dǎo)致的特征矩陣稀疏、文檔建模困難等問(wèn)題。

        BTM 算法的思路是:假設(shè)要提取的主題數(shù)為K,首先以一定的概率選擇某個(gè)主題Z,然后在主題Z下抽取2 個(gè)共現(xiàn)的單詞Wi和Wj形成雙詞b=(Wi,Wj),則b的概率P(b)為

        式中:P(Wi|Z)為單詞Wi在主題Z下出現(xiàn)的概率;P(Wj|Z)為單詞Wj在主題Z下出現(xiàn)的概率;P(Z)為主題Z在語(yǔ)料庫(kù)中出現(xiàn)的概率。

        不斷重復(fù)這個(gè)過(guò)程,就形成了整個(gè)語(yǔ)料庫(kù)。BTM主題建模就是這個(gè)過(guò)程的逆過(guò)程,即對(duì)于給定的語(yǔ)料庫(kù)不斷進(jìn)行迭代運(yùn)算,每次迭代得到主題數(shù)為K時(shí)的主題概率分布向量θ 和詞在主題下的概率分布矩陣Φ,直到計(jì)算收斂。

        2.2.2 BTM主題模型評(píng)估指標(biāo)的確定

        主題建模有3 個(gè)非常重要的輸入?yún)?shù):主題數(shù)K、主題的先驗(yàn)分布α,詞的先驗(yàn)分布β。對(duì)于BTM算法,α通常取值為50/K,β通常取默認(rèn)值0.01。最難確定的是主題數(shù)K,其值的大小常常決定了主題建模結(jié)果的優(yōu)劣。

        因此,需要確定評(píng)估指標(biāo)對(duì)主題建模結(jié)果進(jìn)行性能評(píng)價(jià),以此來(lái)不斷調(diào)整模型的參數(shù),特別是確定最佳的主題數(shù)K。本研究綜合考慮了主題模型的對(duì)數(shù)似然和主題一致性2個(gè)指標(biāo)。

        1)主題模型的對(duì)數(shù)似然。對(duì)數(shù)似然是檢驗(yàn)主題建模結(jié)果擬合優(yōu)度的指標(biāo),似然值越大表明模型擬合得越好。針對(duì)BTM主題建模,評(píng)估建模結(jié)果對(duì)數(shù)似然的公式為

        2)主題一致性。主題一致性通過(guò)計(jì)算條件似然而不是對(duì)數(shù)似然來(lái)衡量主題中詞語(yǔ)間的共現(xiàn)關(guān)系。即,它通過(guò)計(jì)算主題中高分詞之間的語(yǔ)義相似度來(lái)評(píng)價(jià)單個(gè)主題,主題一致性的分值越高越好[12]。主題一致性的計(jì)算公式[13]為

        3 船舶自沉事故原因文本挖掘?qū)嵗?/h2>

        3.1 文本數(shù)據(jù)描述

        截止到目前,在中國(guó)海事局官網(wǎng)發(fā)布了109 份自沉事故調(diào)查報(bào)告。存在部分報(bào)告鏈接地址無(wú)法訪問(wèn)、文件亂碼或報(bào)告中事故原因描述不詳?shù)犬惓?,剔除這些異常整理出了100份船舶自沉事故報(bào)告。這些事故調(diào)查報(bào)告的原存儲(chǔ)格式不一,見(jiàn)表1。

        表1 事故調(diào)查報(bào)告不同的存儲(chǔ)格式Tab.1 Different storage formats of accident investigation

        同時(shí),這些事故調(diào)查報(bào)告由不同的海事局提供(見(jiàn)表2),各海事局采用的事故調(diào)查報(bào)告模板不完全相同,導(dǎo)致了報(bào)告的文檔結(jié)構(gòu)不統(tǒng)一,部分術(shù)語(yǔ)表述不一致等問(wèn)題。

        表2 事故調(diào)查報(bào)告不同的來(lái)源Tab.2 Different sources of accident investigation reports

        文本的異構(gòu)性給研究帶來(lái)了很大的困難。為了保證文本挖掘的質(zhì)量,使用半人工的方式進(jìn)行了大量的事故報(bào)告文本清洗工作,綜合運(yùn)用字符串查找、截取、正則表達(dá)式、文本標(biāo)注等技術(shù)和工具從清洗后的事故調(diào)查報(bào)告中抽取出“事故原因分析”部分的內(nèi)容作為文本挖掘的語(yǔ)料。

        3.2 事故原因文本頻繁共現(xiàn)詞挖掘

        根據(jù)2.1設(shè)計(jì)的方法,從預(yù)處理后的100份自沉事故調(diào)查報(bào)告的事故原因文本中,提取出共現(xiàn)次數(shù)大于10且PMI>2.5的詞對(duì)見(jiàn)表3。

        表3 頻繁共現(xiàn)詞Tab.3 Frequent co-occurrence terms

        為了更加形象、直觀地展示出詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián),使用詞共現(xiàn)網(wǎng)絡(luò)圖將表1 中的頻繁共現(xiàn)詞進(jìn)行可視化展示,見(jiàn)圖2。網(wǎng)絡(luò)圖中的每個(gè)節(jié)點(diǎn)代表1個(gè)詞語(yǔ),節(jié)點(diǎn)與節(jié)點(diǎn)之間的連線代表詞語(yǔ)共現(xiàn)關(guān)系,連線的粗細(xì)表示共現(xiàn)的頻繁度。

        圖2 詞共現(xiàn)語(yǔ)義網(wǎng)絡(luò)圖Fig.2 Word co-occurrence semantic network

        根據(jù)頻繁共現(xiàn)詞的挖掘結(jié)果,自沉事故是人、船、貨、環(huán)境多方面共同作用的結(jié)果,包括以下4種因素。

        1)人的因素。船員不適任、安全意識(shí)淡薄、配員不足、超航區(qū)航行、嚴(yán)重超載、應(yīng)急處置不當(dāng)。

        2)船的因素。船舶不適航、船體破損、船舶儲(chǔ)備浮力與穩(wěn)性喪失。

        3)貨的因素。貨物移位。

        4)環(huán)境因素。大風(fēng)浪、惡劣天氣、甲板上浪。

        3.3 事故原因文本主題建模

        3.3.1 最佳主題數(shù)的確定

        主題數(shù)K是主題建模重要的輸入?yún)?shù),根據(jù)2.2.2確定的主題模型評(píng)估指標(biāo),采用如下步驟確定主題數(shù)K。

        步驟1。設(shè)定主題數(shù)的變化范圍,主題數(shù)每變化1次,就按照BTM算法生成1次主題模型,計(jì)算每次所生成模型的對(duì)數(shù)似然和主題一致性。

        步驟2。綜合考慮主題模型的對(duì)數(shù)似然和主題一致性的變化情況,確定出最佳主題數(shù)。

        在R語(yǔ)言環(huán)境下,設(shè)定主題數(shù)K從5變化到50,根據(jù)事故原因文本預(yù)處理后的分詞結(jié)果構(gòu)建主題模型。不同主題數(shù)下主題模型的對(duì)數(shù)似然及主題一致性的計(jì)算結(jié)果見(jiàn)表4。

        表4 主題模型評(píng)估指標(biāo)值隨主題數(shù)變化的情況Tab.4 Topic-number-dependent changes of topic-model evaluation measures

        根據(jù)表4,繪制出上述2個(gè)評(píng)估指標(biāo)的變化曲線見(jiàn)圖3~4。

        圖3 主題模型對(duì)數(shù)似然的變化曲線Fig.3 Log-likelihood curve of the topic model

        圖4 主題一致性的變化曲線Fig.4 Topic coherence curve

        從圖3可見(jiàn),隨著主題數(shù)的增加,主題模型的對(duì)數(shù)似然呈增加的趨勢(shì),模型的擬合優(yōu)度不斷提升,極易產(chǎn)生過(guò)擬合。同時(shí),主題數(shù)的增加也會(huì)導(dǎo)致主題聚類(lèi)的粒度越來(lái)越細(xì),從而減弱模型的泛化能力,不利于對(duì)自沉事故的原因進(jìn)行歸納解釋。因此,對(duì)于本研究使用的語(yǔ)料,在BTM 算法下,難以單純使用主題模型的對(duì)數(shù)似然來(lái)確定最佳主題數(shù)K,通過(guò)主題一致性進(jìn)行評(píng)估則更加合理。從圖4 可以看出,當(dāng)主題數(shù)為20時(shí),主題模型的一致性值最大,因此,確定20為最佳主題數(shù)。

        3.3.2 主題建模結(jié)果及可視化展示

        BTM主題建模的結(jié)果主要包括:詞語(yǔ)在主題中的概率分布Φ 和主題在語(yǔ)料庫(kù)中的概率分布θ 。通過(guò)Φ 可以提取出能夠代表每個(gè)主題特征的前n個(gè)詞,通過(guò)θ 可以判斷出主題發(fā)生的概率。

        1)詞語(yǔ)在主題中的概率分布Φ。本研究的語(yǔ)料庫(kù)分詞后得到2 245個(gè)不重復(fù)的有效詞條,主題數(shù)為20時(shí)詞語(yǔ)在主題中的概率分布Φ 就是1個(gè)2 245×20的矩陣,矩陣中第i行第j列的值為第i個(gè)詞語(yǔ)在第j個(gè)主題中的概率分布,見(jiàn)表5。

        表5 詞語(yǔ)在主題中的概率分布Tab.5 Probability distribution of words in topics

        在每個(gè)主題下按照詞語(yǔ)概率分布從大到小排序,可以得到能夠代表主題特征的前n 個(gè)詞,以Z5,Z6,Z14 這3 個(gè)主題為例,這3 個(gè)主題下出現(xiàn)概率最高的前10個(gè)詞見(jiàn)表6。

        表6 各主題下出現(xiàn)概率最高的前10 個(gè)詞示例Tab.6 Demo about top 10 words under each topic

        使用BTM主題建模,不僅可以分析出單個(gè)詞語(yǔ)在主題中的重要性,還可以提取出各主題下詞語(yǔ)之間的語(yǔ)義聯(lián)系,見(jiàn)圖5。

        根據(jù)各主題下詞語(yǔ)的分布以及詞語(yǔ)間的語(yǔ)義關(guān)聯(lián),對(duì)所挖掘出的主題進(jìn)行梳理、解釋?zhuān)?jiàn)表7。

        2)主題在文檔集合中的概率分布θ 。通過(guò)對(duì)主題建模結(jié)果中θ 向量的提取,得到各主題在文檔集合中的概率分布,見(jiàn)表8。

        根據(jù)主題在文檔集合中的分布可以初步量化出每種事故原因的發(fā)生概率,見(jiàn)圖6。圖6 是對(duì)表7 和表8整合結(jié)果的可視化展示。

        圖5 主題建模結(jié)果的可視化展示Fig.5 Visualization of topic-modeling results

        圖6 主題概率分布條形圖Fig.6 Bar for the probability distribution of topics

        表8 主題的概率分布Tab.8 Probability distribution of topics

        根據(jù)主題建模結(jié)果,安全管理不到位、大風(fēng)浪影響在船舶自沉事故原因中出現(xiàn)的概率最高。綜合來(lái)看,船舶自沉事故的原因主要包括以下4點(diǎn)。

        1)人為因素。人為因素既包括船公司的安全管理和岸基支持,又包括從業(yè)人員的業(yè)務(wù)素質(zhì),如碼頭裝載作業(yè)是否規(guī)范、船員是否適任、值班人員是否認(rèn)真履職、船長(zhǎng)應(yīng)急處置是否及時(shí)、駕駛員操縱行為是否正確等。

        2)客觀因素。主要包括大風(fēng)浪以及事發(fā)水域復(fù)雜的通航環(huán)境。

        3)船舶技術(shù)指標(biāo)。主要指船舶穩(wěn)性、儲(chǔ)備浮力、強(qiáng)度、風(fēng)雨密、水密等是否滿足規(guī)范要求。

        4)貨物特性。貨物自身的屬性(如易流態(tài)化)也是導(dǎo)致船舶自沉的1個(gè)非常重要的原因。

        使用主題建模對(duì)船舶自沉事故原因提取的結(jié)果與相關(guān)文獻(xiàn)的研究結(jié)果非常接近。如李奕良[15]指出船體結(jié)構(gòu)缺陷增大了船舶自沉事故的概率;陳興園[16]認(rèn)為水上交通事故的管理致因包括:船上管理致因、船公司管理致因等;韓俊松等[17]認(rèn)為:貨物的流態(tài)化、裝載及平艙不當(dāng)直接影響船舶安全;喬賽雯[18]強(qiáng)調(diào):船舶在大風(fēng)浪中航行,易對(duì)船體造成傷害,從而導(dǎo)致船舶事故。

        3.3.3 主題模型對(duì)新數(shù)據(jù)集預(yù)測(cè)能力的測(cè)試

        為了進(jìn)一步驗(yàn)證所構(gòu)建的主題模型對(duì)船舶自沉事故原因的解釋能力,隨機(jī)生成新數(shù)據(jù)集,測(cè)試主題模型能否將每一個(gè)詞語(yǔ)正確歸屬到代表某一類(lèi)事故原因的主題下。新數(shù)據(jù)集是由編號(hào)和詞語(yǔ)組成的數(shù)據(jù)框,見(jiàn)表9。

        表9 用于測(cè)試的新數(shù)據(jù)集Tab.9 New dataset for testing

        使用BTM算法中提供的predict函數(shù),根據(jù)所構(gòu)建的主題模型,計(jì)算每一個(gè)詞歸屬于各主題的可能概率。預(yù)測(cè)結(jié)果見(jiàn)表10(保留小數(shù)點(diǎn)后3位)。

        表10 預(yù)測(cè)結(jié)果Tab.10 Predicting outcomes

        由于“精準(zhǔn)營(yíng)銷(xiāo)”是與船舶交通事故無(wú)關(guān)的詞語(yǔ),所以預(yù)測(cè)函數(shù)對(duì)該詞的計(jì)算結(jié)果為空。其它各詞在不同主題下均有不同的預(yù)測(cè)得分,在哪個(gè)主題下得分值最高,該詞就最大可能歸屬于這個(gè)主題。

        根據(jù)計(jì)算結(jié)果,“滿載排水量”最大可能歸屬于主題5(船舶超航區(qū)、超載航行),可能性為95.3%;“潮汐”最大可能歸屬于主題6(事發(fā)水域通航環(huán)境復(fù)雜),可能性為78%;“崗前培訓(xùn)”最大可能歸屬于主題7(船公司岸基支持不到位),可能性為99.6%;“搶灘”最大可能歸屬于主題20(船長(zhǎng)應(yīng)急處置不當(dāng)),可能性為64%。

        經(jīng)過(guò)對(duì)500 組新數(shù)據(jù)集的預(yù)測(cè)結(jié)果的統(tǒng)計(jì)如下。

        1)所構(gòu)建的主題模型能夠?qū)⒄Z(yǔ)料庫(kù)中85.6%左右的詞,以60%以上的可能性歸屬到某一主題下。

        2)語(yǔ)料庫(kù)中另14.4%左右的詞,主題邊界不明顯,比如“船舶”這個(gè)詞在大部分主題中都有分布,單獨(dú)出現(xiàn)時(shí)難以以較大的可能性明確其主題歸屬。

        3)所構(gòu)建的主題模型可以100%地識(shí)別出領(lǐng)域無(wú)關(guān)的詞(如,表9中的“精準(zhǔn)營(yíng)銷(xiāo)”)并自動(dòng)忽略。

        4 結(jié)束語(yǔ)

        隨著事故調(diào)查報(bào)告數(shù)量的激增,單純依靠人工歸納或傳統(tǒng)的統(tǒng)計(jì)方法已經(jīng)無(wú)法快速有效地對(duì)其內(nèi)容進(jìn)行分析。文本語(yǔ)義挖掘在船舶事故調(diào)查報(bào)告交通安全知識(shí)自動(dòng)提取方面的優(yōu)勢(shì)將越來(lái)越明顯。本研究提出了從詞語(yǔ)和主題2個(gè)層面對(duì)非結(jié)構(gòu)化的船舶事故調(diào)查報(bào)告進(jìn)行語(yǔ)義挖掘的方法,并以100 份自沉事故調(diào)查報(bào)告原因文本為語(yǔ)料進(jìn)行了具體的挖掘研究。

        1)在詞語(yǔ)層面,基于PMI算法從船舶自沉事故報(bào)告的原因文本中提取頻繁共現(xiàn)詞,通過(guò)事故原因特征詞的頻繁共現(xiàn)反映出事故致因要素間的關(guān)聯(lián)關(guān)系。

        2)在主題層面,使用BTM 算法對(duì)船舶自沉事故原因文本進(jìn)行主題建模,對(duì)隸屬于同一事故原因的詞語(yǔ)進(jìn)行聚類(lèi),并根據(jù)主題在文檔中的分布情況初步量化出各種事故原因的發(fā)生概率。最后對(duì)所構(gòu)建模型的預(yù)測(cè)能力進(jìn)行了測(cè)試。

        船舶事故調(diào)查報(bào)告是水上交通安全領(lǐng)域重要的檔案資料,但是其高度的異構(gòu)性給文本挖掘帶來(lái)了很多困難。為了更好地對(duì)海量事故調(diào)查報(bào)告進(jìn)行挖掘、利用,建議海事部門(mén)進(jìn)一步規(guī)范事故調(diào)查報(bào)告的模板、術(shù)語(yǔ)表達(dá)和存儲(chǔ)格式等,完善船舶事故調(diào)查報(bào)告的元數(shù)據(jù)描述模型。

        本研究只抽取了船舶自沉事故調(diào)查報(bào)告中的事故原因分析文本進(jìn)行研究。下一步的研究擬從以下2個(gè)方面展開(kāi)。

        1)在進(jìn)一步提高分詞質(zhì)量、增大文本數(shù)據(jù)規(guī)模的基礎(chǔ)上,對(duì)各種類(lèi)型(碰撞、擱淺等)的船舶事故原因文本進(jìn)行綜合挖掘,構(gòu)建事故原因知識(shí)圖譜。

        2)抽取事故調(diào)查報(bào)告中的其他部分內(nèi)容進(jìn)行不同角度的挖掘,如,抽取出“事故經(jīng)過(guò)”文本進(jìn)行事件序列模式挖掘,從而揭示出導(dǎo)致船舶事故的行為模式。

        猜你喜歡
        調(diào)查報(bào)告語(yǔ)料庫(kù)詞語(yǔ)
        容易混淆的詞語(yǔ)
        國(guó)內(nèi)艾灸應(yīng)用現(xiàn)況調(diào)查報(bào)告
        一例育雛室通風(fēng)不良造成雞苗慢性死亡的調(diào)查報(bào)告
        找詞語(yǔ)
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        2016年中國(guó)臺(tái)灣直銷(xiāo)事業(yè)調(diào)查報(bào)告
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        詞語(yǔ)欣賞
        京族醫(yī)藥調(diào)查報(bào)告
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        亚洲午夜久久久久中文字幕久| 亚洲色欲色欲www在线观看| 999国内精品永久免费视频| 中文字幕乱码高清完整版| 国产精品高潮呻吟av久久4虎| 人妻丰满av∨中文久久不卡| 精品久久久久久国产潘金莲| 国产av精品久久一区二区| 成人国产一区二区三区| 亚洲av片一区二区三区| 亚洲精品国产字幕久久vr| 午夜少妇高潮免费视频| 国产精品国产三级第一集| 欧美变态另类刺激| 内射后入在线观看一区| 免费国产调教视频在线观看| 亚洲丰满熟女一区二亚洲亚洲| 亚洲乱码中文在线观看| 亚洲精品午夜无码电影网| 在线精品日韩一区二区三区| 美女性色av一区二区三区| 夜夜夜夜曰天天天天拍国产| 激情影院内射美女| 国产又色又爽又刺激视频| 久久精品一区二区三区夜夜| 影音先锋久久久久av综合网成人| 人人妻人人澡人人爽超污| 丰满岳乱妇久久久| 国产一级免费黄片无码AV| 国产白浆大屁股精品视频拍| 亚洲成a人片在线观看无码专区| 亚洲精品一区二区三区大桥未久| 国产美女被遭强高潮露开双腿| 成人性生交大全免费看| 女人张开腿让男桶喷水高潮| 黄色毛片视频免费| 激情综合网缴情五月天| 穿着白丝啪啪的av网站| 国产精品亚洲一区二区三区在线 | 在线毛片一区二区不卡视频| 久久午夜av一区二区|