亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詞語語義相似度在突發(fā)事件案例檢索中的應用

        2020-07-21 08:28:06邱俊安邱奇志周三三陳先橋
        關鍵詞:語義案例信息

        邱俊安,邱奇志,周三三,陳先橋,賀 宜

        (1.武漢理工大學 計算機科學與技術學院,湖北 武漢 430063;2.武漢理工大學 智能交通系統(tǒng)研究中心, 湖北 武漢 430063)

        近年來,全球范圍內(nèi)各類突發(fā)事件頻發(fā),給社會和諧穩(wěn)定和人們生活帶來了影響和危害。面對突發(fā)事件的危害,開展突發(fā)事件案例檢索研究對于實現(xiàn)科學救援、精準決策具有重要的現(xiàn)實意義。案例檢索是尋找與目標案例相似的歷史案例,通過指定策略或設計算法從案例庫中檢索出相似案例(集),從而幫助目標案例的決策。目前,已有研究將案例檢索應用于火災、地震等突發(fā)事件中,證明了案例檢索在應急管理中的實用性和有效性[1-2]。很多學者針對案例檢索方法進行了研究,主要包括最近鄰法、歸納索引法和神經(jīng)網(wǎng)絡法等。其中,最近鄰法是最常用的案例檢索方法,該方法通過屬性的相似度來衡量案例之間的距離,距離越小的案例越容易被檢索出。如張佰尚等[3]將地震案例的固有屬性特征劃分為確定符號屬性、確定數(shù)屬性和模糊數(shù)屬性,并通過計算這3種類型的屬性相似度來完成案例檢索。韓菁[4-5]等在案例屬性相似度計算時考慮了精確數(shù)、區(qū)間數(shù)和語言值等屬性,并在檢索得到的相似案例上分別結合后悔理論和證據(jù)理論方法對檢索的結果進行調(diào)整。L?W等[6]提出了一個基于多個檢索案例的推理框架,以解決缺失符號和數(shù)值屬性數(shù)據(jù)的案例推理。WANG等[7]針對清晰符號、清晰數(shù)、模糊數(shù)、模糊語言變量和模糊區(qū)間數(shù)5種類型的屬性,提出了一種混合相似性度量方法,用于解決計算機數(shù)控炮塔概念設計的案例推理。

        綜上可知,案例屬性的相似度計算對于案例檢索方法的基礎研究和應用研究都發(fā)揮著十分重要的作用,盡管已有方法可以較好地完成案例檢索,但案例檢索的屬性相似度計算方面存在局限性,大多數(shù)研究基于案例的數(shù)值屬性、模糊屬性、符號屬性進行突發(fā)事件案例之間的相似度計算,忽略了突發(fā)事件案例的文本屬性,如事件原因、事件摘要等,這些屬性無論對于案例檢索還是案例推理都是不可或缺的。為了解決案例檢索文本相似度的計算,筆者首先研究了突發(fā)事件案例文本屬性的特性,著重開展了中文短文本相似度的研究,提出了基于WNCH(word-embedding based on Ngram, character, and HowNet)的詞語語義相似度計算方法,以解決案例檢索文本的相似度計算問題。在此基礎上,將文本屬性的相似度計算引入到案例檢索中,以期提高案例檢索的準確性。

        1 基于WNCH的詞語語義相似度模型

        1.1 基于WNC的詞語語義相似度模型

        詞嵌入(word embedding)是自然語言處理領域中常用的方法,主要是將語料庫中的詞語表示成一個低維實數(shù)向量,從而用來解決文本的不可計算問題。早期的詞向量模型多利用<詞-詞>的映射關系,只討論了詞語在語料庫中的分布情況,因此該方法存在單一的共現(xiàn)信息源問題,從而使得詞嵌入難以達到較好的結果。

        PENNINGTON等[8-10]通過研究發(fā)現(xiàn),在傳統(tǒng)詞嵌入方法中補充“詞”以外的信息,如詞共現(xiàn)次數(shù)等,能夠顯著提升詞嵌入的語義表達力。筆者的研究是為突發(fā)事件案例檢索服務的,而結構化的案例屬性多內(nèi)容短小,屬于短文本,傳統(tǒng)詞嵌入方法只考慮了詞語所包含的信息,能獲取的有效語義信息有限。為了獲得更好的詞嵌入效果,筆者引入了兩種改進策略:引入Ngram以擴展上下文語義信息、引入“字”以增強中文特有的語義信息。

        (1)引入Ngram以擴展上下文語義信息。Ngram是一種統(tǒng)計語言模型的方法,其基本思想是將文本內(nèi)容中的詞按照大小為N的窗口進行滑動操作,形成長度為N的文本序列,來考察詞語語義。Ngram的優(yōu)勢在于其包含了前N-1個詞所攜帶的信息,產(chǎn)生對未知信息更強的約束力,進而達到在上下文中獲得詞語語義的目的。QIU等[11-12]研究表明,引入Ngram特征能夠有效提升詞語類比和詞語相似性任務的模型性能。

        為了擴展上下文語義信息,基于傳統(tǒng)詞嵌入單一的<詞-詞>共現(xiàn)信息,在輸入端引入Ngram共現(xiàn)信息,以<(詞+Ngram)-(詞+Ngram)>替代<詞-詞>共現(xiàn)模式,從而獲得中心詞wt的窗口上下文C(wt)。

        t-win≤i≤t+win-n+1}

        (1)

        式中:wi:i+n為wiwi+1…wi+n-1組成的詞語序列;N為詞語組合中詞語的個數(shù);win為上下文的窗口大小。

        win為2、N為2時的“詞+Ngram”模型的上下文示例如圖1所示。示例中,文字序列為“我/曾經(jīng)/踏遍/青山/綠水/只為/看/盡/人間/繁華”,以中心詞“青山”為例,未引入Ngram時,該中心詞的上下文為“曾經(jīng)”“踏遍”“綠水”“只為”;引入Ngram(N=2)后,上下文中增加了“曾經(jīng)踏遍”“踏遍青山”“青山綠水”“綠水只為”,可見引入Ngram豐富了中心詞的上下文信息。

        圖1 詞+Ngram模型的上下文示例

        (2)引入“字”以增強中文特有的語義信息。漢語起源于象形文字,是一種表義文字,從誕生之初就被賦予了豐富的語義信息。筆者從擴充語義信息的角度出發(fā),將詞和字進行融合。從而將單一的信息源<詞-詞>類型擴展到<(詞+字)-詞>類型,以豐富詞語的語義信息。

        定義漢字集合為H,詞語集合為V。h∈H表示一個字,h表示該字對應的向量;v∈V表示一個詞語,v表示該詞對應的向量。對于一個詞語v,融合字的語義信息之后的向量為hv,如式(2)所示。

        (2)

        式中:T為詞語v中字的個數(shù);hk為詞語v中第k個字的向量。

        字詞融合示例如圖2所示,可以看出文字序列為“踏遍/青山/綠水”,在計算詞語“青山”的向量時融合了單個字“青”和“山”的向量信息。

        圖2 字詞融合示例

        根據(jù)以上分析,筆者提出WNC(word-embedding based on Ngram and character)向量模型,在傳統(tǒng)的詞嵌入基礎上,融合了Ngram和字的信息,即WNC既體現(xiàn)了詞語、字所包含的語言學語義信息,又體現(xiàn)了文本的上下文信息。WNC模型如圖3所示。

        圖3 WNC模型

        在WNC模型中,筆者采用word2vec中的Skip-gram[13]模型,在輸入端引入詞(word)、Ngram、字(character)信息。將單一的上下文輸入擴展到多個豐富的上下文信息,從多粒度、多層次的上下文語義信息出發(fā),利用統(tǒng)計學的方法,最終得到表義能力更強的詞嵌入。

        1.2 基于HowNet的詞語語義相似度計算

        WNC是基于統(tǒng)計的方法挖掘上下文信息,很難從概念上區(qū)分詞語的含義,也無法詳細地展現(xiàn)概念的層次關系。因此,引入HowNet方法來解決上述問題。

        HowNet表示概念間及概念所具有的屬性間關系的常識知識庫,通過最小意義單位(稱之為義原)對概念進行描述。HowNet收錄的詞語可以分為實詞和虛詞,劉群等[14]根據(jù)HowNet將實詞的概念描述為包含第一基本義原、其他基本義原、關系義原、關系符號描述的特征結構,并通過這4個特征計算實詞概念之間的相似度。實詞概念S1,S2的相似度為Sim(S1,S2),如式(3)所示。

        (3)

        式中:Simi(S1,S2)為實詞S1,S2的第i個特征的相似度;β1、β2、β3、β4分別為第一基本義原、其他基本義原、關系義原和關系符號描述的調(diào)節(jié)系數(shù)。

        張滬寅等[15]針對實詞概念中的具體詞展開研究,以第一基本義原替代義項表達式中的具體詞。筆者在利用HowNet計算實詞概念相似度時,引入分布式理論“相似的詞具有相似的上下文”,采用“詞+Ngram+字”的方式計算實詞概念中具體詞的語義。為了驗證所采用的實詞概念相似度計算方法的有效性和合理性,以計算“美金”與“日元”的概念相似度為例,開展了文獻[14]、文獻[15]和筆者方法的對比實驗,對比結果如表1所示。

        表1 基于HowNet的實詞概念相似度實驗對比

        “美金”和“日元”這兩個概念的義項表達式分別為:美金:DEF={money|貨幣,(US|美國)};日元:DEF={money|貨幣,(Japan|日本)}??梢姟懊澜稹焙汀叭赵钡牡谝换玖x原都是“money|貨幣”,3種方法計算第一基本義原的相似度均為1,但是計算具體詞的相似度方法有所不同。

        (1)根據(jù)文獻[14]中的方法,具體詞“US|美國”和“Japan|日本”不同,具體詞的相似度為0,結合式(3)計算得到最終的相似度為0.500。

        (2)根據(jù)文獻[15]中的方法,使用第一基本義原來替代具體詞,具體詞“US|美國”和“Japan|日本”的第一基本義原均為“place|地方”,因此具體詞“US|美國”和“Japan|日本”的相似度為1,結合式(3)得到最終的相似度為1.000。

        (3)筆者方法中,首先采用大規(guī)模語料庫中文維基百科得到詞語的分布式表示,計算得到具體詞“US|美國”和“Japan|日本”的相似度為0.530,再由式(3)計算得到“美金”和“日元”的最終相似度為0.783。

        從相似度結果上來看,文獻[14]在計算具體詞的相似度時,沒有遞歸計算具體詞的義項表達式之間的相似度,從而忽略了義項表達式中義原之間的相似度關系。文獻[15]在文獻[14]的基礎上進行了改進,使用第一基本義原衡量具體詞之間的相似度,但是實驗結果中“美金”和“日元”的相似度為1存在一定的不合理性。筆者方法中,引入了分布式理論的計算結果,從宏觀上更符合人的主觀認識,既能表達其基本信息,又能從上下文語義中體現(xiàn)不同,在最終結果中顯示出詞語之間的區(qū)別度。

        1.3 基于WNCH的詞語語義相似度計算

        筆者進一步融合WNC和HowNet方法,提出基于WNCH的詞語語義相似度計算方法。WNCH方法以大規(guī)模語料庫訓練出包含豐富上下文信息的詞嵌入,同時能準確表達概念信息的HowNet,從而獲取詞語的準確含義。筆者使用調(diào)節(jié)系數(shù)對WNC和HowNet方法進行融合,融合之后的相似度為simtotal,如式(4)所示。

        simtotal=αsim1+(1-α)sim2

        (4)

        式中:α為調(diào)節(jié)系數(shù),其取值范圍為0~1;sim1為基于WNC計算的詞語相似度;sim2為基于HowNet計算的詞語相似度。

        筆者令α取值分別為0.2, 0.4, 0.6, 0.8, 1.0,并以百度百科語料庫進行測試,以尋找最優(yōu)的調(diào)節(jié)參數(shù),實驗表明α=0.6時融合效果最好。

        為了說明WNCH方法的有效性,將WNCH與傳統(tǒng)詞嵌入(僅使用詞共現(xiàn)信息)方法進行對比,實驗采用2016年NLPCC-ICCPOL的詞語相似度任務的評測數(shù)據(jù)和評測指標[16],并使用影響力大、內(nèi)容涵蓋廣的中文維基百科數(shù)據(jù)作為詞嵌入的訓練數(shù)據(jù)集,計算得到WNCH方法和傳統(tǒng)詞嵌入方法的詞語相似度結果分別為0.580、0.405??梢奧NCH方法計算出的詞語相似度相對于傳統(tǒng)詞嵌入方法具有較明顯的提升,說明WNCH方法能夠更加準確地衡量詞語之間的相似性。

        2 突發(fā)事件案例檢索

        2.1 突發(fā)事件案例屬性

        突發(fā)事件案例屬性是表征案例信息的字段,通常包括事件名稱、事件時間、事件地點、事件摘要等信息。針對突發(fā)事件屬性,黃超等[17]參照歐洲的TSO(tactical situation objection)編碼,結合我國突發(fā)事件的特點,對突發(fā)事件案例屬性進行了歸納。突發(fā)事件案例屬性多種多樣,在案例檢索中不同類型的屬性相似度計算方法也不一樣。筆者以文獻[17]的研究為基礎,對已有突發(fā)事件案例庫中的描述屬性進行整理,根據(jù)屬性類型將突發(fā)事件案例屬性歸納為4種,如表2所示。

        表2 突發(fā)事件屬性類型

        2.2 突發(fā)事件案例檢索流程

        筆者采用最近鄰法的基本思想進行突發(fā)事件的案例檢索,針對目標案例先進行信息抽取完成結構化處理,再以結構化的目標案例作為輸入,通過計算目標案例與案例庫中源案例的相似性,最終檢索得到與目標案例最相似的案例(集),案例檢索流程如圖4所示。

        圖4 案例檢索流程

        其中,在進行文本屬性相似度計算時,由于結構化的突發(fā)事件案例文本屬性屬于短文本,先利用WNCH方法計算文本中關鍵詞的相似度,再采用文獻[18]中的方法實現(xiàn)從詞語相似度到文本相似度的計算,進而完成文本屬性的相似度計算。

        3 實驗與實例分析

        3.1 突發(fā)事件語料庫構建

        突發(fā)事件語料來源為:中華人民共和國中央人民政府網(wǎng)站應急管理頁面、中國應急服務網(wǎng)、中國安全生產(chǎn)網(wǎng)、中國安全管理網(wǎng)等,均為影響力大、涉及范圍廣、及時更新、權威性高的突發(fā)事件新聞網(wǎng)站。采用文獻[19]中的方法對數(shù)據(jù)進行結構化處理,得到滿足案例檢索要求的結構化案例庫。

        3.2 案例檢索實驗設置

        為了對比有無文本屬性對案例檢索結果的影響,筆者設計了對比實驗。

        實驗I:不包含文本屬性的案例檢索。共考慮6個屬性,分別為事件時間、事件地點、經(jīng)濟損失、人員傷亡、事件等級、事件類型,采用模糊層次分析法得到對應的權重為{0.126,0.094,0.235,0.173,0.184,0.188}。

        實驗II:包含文本屬性的案例檢索。共考慮9個屬性信息,分別為事件名稱、事件時間、事件地點、經(jīng)濟損失、人員傷亡、事件摘要、事件類型、事件等級、事件原因,采用模糊層次分析法得到對應的權重為{0.120,0.080,0.060,0.150,0.110,0.133,0.120,0.117,0.110}。其中,事件名稱、事件摘要和事件原因這3個文本屬性采用筆者提出的WNCH方法計算屬性相似度。

        3.3 實例分析

        選取“江蘇連云港12·9重大爆炸事故”作為目標案例,目標案例的屬性信息如表3所示,案例檢索實驗結果對比如表4所示,文本屬性相似度計算結果如表5所示。

        表3 目標案例的屬性信息

        表4 案例檢索實驗結果對比

        表5 文本屬性相似度計算結果

        綜合表4和表5的結果可知:

        (1)兩組實驗相似度排名前5的案例中,不但存在3個相同案例(案例編號分別為485,188和501),而且所有檢索出的案例均為爆炸、火災類事故災害案例,可見基于最近鄰的屬性相似度計算能夠有效檢索到相似的案例。

        (2)兩組實驗中3個相同案例的相似度排序卻不盡相同,表5則進一步給出了3個案例在事件名稱、事件原因、事件摘要的相似度結果,不難發(fā)現(xiàn):①案例485與目標案例最為接近,均為工業(yè)爆炸,且均涉及“苯”這個化學物質(zhì)。②案例188的關鍵信息有“瓦斯”“煤礦”,與目標案例發(fā)生場景和原因均有明顯區(qū)別,在實驗I中案例188的相似度排名第一,而在實驗II中案例188的相似度排名第三;同時,案例501屬于非工業(yè)環(huán)境下的“火災”事故,與目標案例的發(fā)生場景和原因也有明顯區(qū)別,在實驗I中案例501的相似度排名第二,而在實驗II中案例501的相似度排名第五,說明無文本屬性相似度計算的情況,無法有效識別兩個案例中的關鍵信息區(qū)別??梢娢谋鞠嗨贫鹊囊肽軌蛱崛「嗟挠行畔?,如事件原因,這也正是案例檢索的重要依據(jù)。

        綜上可知,增加文本屬性的案例檢索能夠精確、有效地獲取案例中文本包含的關鍵信息,從而有效的案例檢索、應急管理輔助決策提供堅實的語義基礎。

        4 結論

        筆者針對突發(fā)事件案例的特點,在數(shù)值、符號、模糊屬性相似度計算的基礎上增加了文本屬性的相似度計算,主要解決了兩個問題:①在傳統(tǒng)詞嵌入模型中增加了Ngram和漢字的語義信息,同時融合了HowNet知識庫,有效改進了突發(fā)事件案例屬性短文本的詞語語義相似度計算。②將文本屬性的相似度計算引入到案例檢索中,以最近鄰法為基礎,給出突發(fā)事件案例檢索方案,豐富了案例檢索中的屬性信息,提高了案例檢索的準確度。

        筆者將自然語言處理領域內(nèi)的技術和方法應用到應急管理中,為突發(fā)事件案例檢索提供了更精準的解決方法,所提出的方法對文本處理、文本分析也具有一定的理論與實踐意義。但突發(fā)事件案例難免存在屬性缺失,筆者沒有考慮屬性缺失對突發(fā)事件案例檢索的影響。下一步工作的研究重點是利用突發(fā)事件案例中的文本屬性來弱化案例屬性缺失對案例檢索結果的影響。

        猜你喜歡
        語義案例信息
        案例4 奔跑吧,少年!
        少先隊活動(2021年2期)2021-03-29 05:40:48
        語言與語義
        隨機變量分布及統(tǒng)計案例拔高卷
        發(fā)生在你我身邊的那些治超案例
        中國公路(2017年7期)2017-07-24 13:56:38
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        “上”與“下”語義的不對稱性及其認知闡釋
        一個模擬案例引發(fā)的多重思考
        認知范疇模糊與語義模糊
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        国产精品亚洲综合一区在线观看| 国产一区二区三区亚洲| 日本一区二区三区视频国产| 丰满少妇被粗大的猛烈进出视频 | 国产一区二区三区在线观看免费| 亚洲伊人久久大香线蕉综合图片 | 色婷婷久久一区二区三区麻豆 | 国产精品乱码一区二区三区| 国产精品jizz观看| av网页在线免费观看| 成年人干逼视频水好多| 欧美激情一区二区三区成人| 久久伊人色av天堂九九| 2022国内精品免费福利视频| 亚洲精品久久麻豆蜜桃| 4455永久免费视频| 性欧美暴力猛交69hd| 91青草久久久久久清纯| 日本高清不卡二区三区| 午夜视频在线观看一区二区小| 无码人妻丰满熟妇啪啪网站| 免费无码午夜福利片69| 免费毛片视频网站| 国产91精品清纯白嫩| 亚洲一区精品在线中文字幕| 人妻少妇乱子伦精品| 91av国产视频| 天堂av一区一区一区| 亚洲综合网国产精品一区| 久久亚洲国产成人精品性色 | 成人午夜免费福利| 国产精品一区二区夜色不卡| 国内精品久久久人妻中文字幕| 黑人玩弄漂亮少妇高潮大叫| 97人妻碰免费视频| 日本一道高清在线一区二区| 国产精品内射久久一级二| 婷婷五月六月综合缴情| 精品国产亚欧无码久久久| 男女视频一区二区三区在线观看| 日韩欧美亚洲国产精品字幕久久久|