亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于關(guān)鍵詞生成的網(wǎng)格事件相似度并行計算①

2022-06-29 07:48:30陳健鵬佘祥榮秦加奇

計算機系統(tǒng)應(yīng)用 2022年6期

陳鋼, 陳健鵬, 佘祥榮, 秦加奇, 陳劍

(長三角信息智能創(chuàng)新研究院, 蕪湖 241060)

社會治理網(wǎng)格化將城市按照一定標準劃分成一系列網(wǎng)格單元, 網(wǎng)格化系統(tǒng)所沉淀的海量事件數(shù)據(jù)能夠全面、及時地反映城市問題. 在城市應(yīng)急管理中, 基于歷史網(wǎng)格事件庫的案例推理[1]對于科學救援、精準決策具有重要意義. 事件檢索是案例推理的關(guān)鍵步驟, 通過在網(wǎng)格事件庫中檢索出與目標事件相似的歷史事件(集), 進而輔助目標事件的處置決策. 網(wǎng)格事件庫中的數(shù)據(jù)量越龐大, 經(jīng)驗積累越充分, 對決策支持的力度也越大. 從相似的事件處置中得到經(jīng)驗性的知識, 必須在合理時間內(nèi)在網(wǎng)格事件庫中找到相似事件[2]. 因此, 高性能網(wǎng)格事件相似度計算決定了案例推理的效用. 近年來, 圖形處理單元(graphics processing unit, GPU)在硬件架構(gòu)上取得了長足的進步. 片上運算單元密集、存儲帶寬高效等特點使得GPU 非常適用于數(shù)據(jù)相關(guān)性較低的大規(guī)模并行計算. 事件相似度計算對大量事件數(shù)據(jù)進行相同處理, 其中蘊含豐富的數(shù)據(jù)并行性, 適合在GPU 上加速執(zhí)行[3].

事件關(guān)鍵詞提取大多數(shù)通過TF-IDF 提取候選關(guān)鍵詞, 利用Word2Vec 計算詞向量, 并采用特征工程對候選關(guān)鍵詞進行特征提取, 再經(jīng)由支持向量機、決策樹等算法將關(guān)鍵詞提取轉(zhuǎn)換為二分類問題[4]. 這種方法需要做大量的特征工程, 特征的選取和分析方式復雜,還可能會造成前端特征與后端任務(wù)的脫節(jié). 此外, 詞向量加機器學習的方法僅能夠基于給定的事件文本提取關(guān)鍵詞, 無法挖掘網(wǎng)格事件中蘊含的重要特征. 指針生成網(wǎng)絡(luò)(pointer-generator network, PGN)結(jié)合了傳統(tǒng)Seq2Seq 模型和指針網(wǎng)絡(luò)的優(yōu)勢, 在生成新詞的同時也具備了從原文復制單詞的能力, 允許模型從源文本中復制詞用作生成詞來解決詞表無法覆蓋(out of vocabulary,OOV)的問題, 并引入了覆蓋機制以改善生成新詞時的重復問題, 提高模型的表達能力[5]. 為了在海量網(wǎng)格事件庫中快速、準確地檢索事件, 本文提出一種基于關(guān)鍵詞生成的網(wǎng)格事件相似度并行計算方法, 具體創(chuàng)新點如下:

(1) 引入記憶網(wǎng)絡(luò)(memory network)對基于LSTM網(wǎng)絡(luò)的PGN 進行改進, 用以增強其記憶能力;

(2) 針對GPU 體系結(jié)構(gòu)特點, 對LSTM 網(wǎng)絡(luò)的計算過程進行優(yōu)化;

(3) 提出基于歷史相似事件的先驗知識來計算事件相似度閾值的方法;

(4) 通過實驗證明本文網(wǎng)格事件相似度技術(shù)方法的有效性.

1 相關(guān)研究

文獻[6]設(shè)計了一種基于網(wǎng)格事件大數(shù)據(jù)匯總共享、通過數(shù)據(jù)梳理及案例推理技術(shù)實現(xiàn)科學決策的方法, 并基于這一方法設(shè)計了網(wǎng)格化管理輔助決策支持系統(tǒng). 文獻[7]通過文本分詞、特征詞提取、基于情景相似度的突發(fā)事件情報感知方法, 結(jié)合當前事件演化態(tài)勢和以往的經(jīng)驗性知識實現(xiàn)對突發(fā)事件的識別和預判. 文獻[8]在傳統(tǒng)詞嵌入模型中增加了Ngram 和漢字語義信息并與知網(wǎng)融合, 在此基礎(chǔ)上將WNCH 方法應(yīng)用到文本屬性相似度的計算. 文獻[9]通過擴展Needleman-Wunsch 算法的得分函數(shù)以結(jié)合時間、空間信息, 通過粒度調(diào)控實現(xiàn)了從不同的粒度來計算時空事件序列的相似度. 文獻[10]對突發(fā)事件進行情景要素分解, 引入支持向量機和相似度算法, 基于粒度原理構(gòu)建了一種融合情景的動態(tài)響應(yīng)模型. 文獻[11]提出一種融合句法特征和句法相似度的網(wǎng)絡(luò)輿情突發(fā)事件識別方法. 文獻[12]提出了食品安全事件的多層多級語義結(jié)構(gòu)排序策略算法, 計算食品安全數(shù)據(jù)與語義結(jié)構(gòu)模板的相似度, 確定其綜合得分, 選擇適當?shù)拈撝荡_定食品安全事件精度.

盡管上述方法能夠較好地完成案例檢索, 但案例檢索的事件相似度計算方面存在局限性, 大多數(shù)研究基于案例的數(shù)值屬性、模糊屬性、符號屬性進行事件之間的相似度計算, 忽略了事件的文本屬性, 如事件原因、事件摘要等, 這些屬性對于案例檢索都是不可或缺的[13]. PGN 主要解決傳統(tǒng)Seq2Seq 模型中輸出嚴重依賴輸入的問題, 突破了模型輸出端對詞匯表長度的限制, 在摘要生成任務(wù)中具有良好的表現(xiàn). 文獻[14]針對生成式文本摘要應(yīng)用場景, 提出了以Transformer 為基礎(chǔ)的摘要模型, 并在Transformer 模型中加入了指針生成網(wǎng)絡(luò)和覆蓋損失進行優(yōu)化. 文獻[15]針對代碼注釋自動生成引入指針生成網(wǎng)絡(luò)模塊, 在解碼的每一步實現(xiàn)生成詞和復制詞兩種模式的自動切換, 以此解決無法生成OOV 詞的問題.

2 網(wǎng)格事件相似度計算

網(wǎng)格事件可以分為城市管理、環(huán)境保護、物業(yè)管理、平安建設(shè)、應(yīng)急突發(fā)事件等類型, 包括基本屬性(事件標題、等級、類別, 發(fā)生地點、發(fā)送時間等信息)和情景屬性(事件原因、對象、發(fā)生環(huán)境、應(yīng)對任務(wù)等信息). 在計算事件相似度之前, 需要生成事件關(guān)鍵詞以確定該事件的基本屬性和情景屬性.

2.1 關(guān)鍵詞生成

長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)是在循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)基礎(chǔ)上改進而來的一種神經(jīng)網(wǎng)絡(luò)模型, 可以解決長期依賴問題. LSTM 神經(jīng)網(wǎng)絡(luò)使用輸入門、忘記門和輸出門3 種門結(jié)構(gòu)以保持和更新細胞中信息的增減. 然而,單向LSTM 只能處理一個方向上的信息, 無法處理另外一個方向上的信息, 雙向LSTM (bidirectional LSTM,BiLSMT)通過雙向語義編碼結(jié)構(gòu)獲取上下文信息, 能夠更好地對網(wǎng)格事件信息進行提取[16], 而注意力機制(attention)可以更深層次地挖掘網(wǎng)格事件不同類型的關(guān)鍵詞. 本文提出的基于PGN 的網(wǎng)格事件關(guān)鍵詞生成模型如圖1 所示.

圖1 基于指針生成網(wǎng)絡(luò)的關(guān)鍵詞生成

2.1.1 編碼器

在網(wǎng)格事件特征提取中, 當前時間步長的隱藏狀態(tài)與前一時刻和下一時刻相關(guān)聯(lián). BiLSTM 使用兩個不同方向的LSTM 分別從網(wǎng)格事件文本的前端和后端進行遍歷, 利用兩個并行通道, 既能獲得正向的累積依賴信息, 又能獲得反向的未來的累積依賴信息, 提取的特征信息更加豐富. 因此, 編碼器部分采用BiLSTM 網(wǎng)絡(luò), 如圖2 所示.

圖2 BiLSTM 結(jié)構(gòu)

對于網(wǎng)格事件候選詞序列X={x1,x2,···,xn} (n為輸入序列的長度), 按照順序先輸入到Embedding 層,將候選詞映射到高維向量上, 然后再將處理好的序列輸入到編碼器中, 得到每個序列的隱藏狀態(tài)集合E={e1,e2,···,en}. 對第i個隱藏狀態(tài)ei來說, 由于采用的是Bi-LSTM 網(wǎng)絡(luò), 算法會從前往后和從后往前兩個方向計算, 得到的隱藏狀態(tài)ei會充分關(guān)聯(lián)上下文信息.BiLSTM 計算過程如式(1)到式(6)所示. 首先, 遺忘門根據(jù)上一個記憶單元的輸出ht–1和輸入數(shù)據(jù)xt產(chǎn)生一個0–1 之間的數(shù)值ft來決定上一個長期狀態(tài)Ct–1中信息丟失多少.ht–1和xt通過輸入門確定更新信息得到it, 同時通過一個tanh 層得到新的候選記憶單元信息C＇t. 通過遺忘門和輸入門的操作, 將上一個長期狀態(tài)Ct–1更新為Ct. 最后, 由輸出門得到判斷條件, 然后通過一個tanh 層得到一個(–1, 1)之間的值ot, 該值與判斷條件相乘來決定輸出當前記憶單元的哪些狀態(tài)特征.

2.1.2 解碼器

其中,ct是先前時間步的注意力權(quán)重疊加后得到的覆蓋向量. 對上下文向量ut進行Softmax激活函數(shù)操作后, 得到的結(jié)果視為在輸入序列元素上的概率分布, 其中vT、W1、W2、Wc和b是模型學習參數(shù).

PGN 使用LSTM 作為編碼器和解碼器, 但LSTM的隱藏狀態(tài)記憶存儲能力有限, 無法存儲太多的信息,且容易丟失一部分語義信息. 為此, 本文通過引入記憶網(wǎng)絡(luò)存儲序列信息對其進行改進以增強其記憶能力.在圖1 中,mi是根據(jù)單詞的詞向量和位置形成的句子向量, 其公式為:

其中,Xij是句子中每個單詞的詞向量矩陣,l記錄每個單詞的位置信息,l計算公式為:

其中,J是句子長度,d是編碼維度, 經(jīng)過Softmax之后形成一個權(quán)重向量P:

文本向量ci由權(quán)重向量P和mi構(gòu)成:

記憶網(wǎng)絡(luò)的最終輸出計算公式為:

權(quán)重wg的計算方式為:

2.1.3 模型訓練

在PGN 中t時刻模型損失值可通過對目標輸出單詞yt和覆蓋向量計算覆蓋損失求得:

根據(jù)輸出端的概率分布, 得到輸入序列概率最高的L個候選詞作為網(wǎng)格事件的關(guān)鍵詞.

2.2 相似度計算

計算網(wǎng)格事件相似度需要從結(jié)構(gòu)相似度(屬性相似程度)和情景相似度(關(guān)鍵詞相似程度)兩方面來綜合衡量.

2.2.1 結(jié)構(gòu)相似度

結(jié)構(gòu)相似度比較兩個網(wǎng)格事件具有的共同屬性,共同屬性越多, 事件相似程度也越高.

其中,A為新發(fā)送事件,B為網(wǎng)格事件數(shù)據(jù)庫中歷史事件,C為兩個事件的共同屬性數(shù),NA和NB分別為事件A和事件B的屬性數(shù).

2.2.2 情景相似度

2.2.3 總體相似度

兩個網(wǎng)格事件的總體相似度由結(jié)構(gòu)相似度和情景相似度構(gòu)成:

其中,α為結(jié)構(gòu)相似度的權(quán)重,β為情景相似度的權(quán)重,且α+β=1. 根據(jù)網(wǎng)格事件數(shù)據(jù)庫中歷史事件相似度情況, 利用Viterbi 算法求解出α為0.19、β為0.81. 可見, 情景相似度總體上決定了事件相似度.

2.3 GPU 并行計算

在基于PGN 生成事件關(guān)鍵詞時, LSTM 網(wǎng)絡(luò)涉及大量的矩陣和向量運算. 此外, 計算網(wǎng)格事件庫中兩兩事件的相似性的計算復雜度非常高, 尤其是存在情景相似度的計算時. 因此, 本文利用GPU 對這兩個過程進行加速.

2.3.1 LSTM 網(wǎng)絡(luò)加速

由于矩陣乘操作占了LSTM 網(wǎng)絡(luò)計算過程的95%時間, 可以從權(quán)重矩陣列內(nèi)(輸入向量按列與權(quán)重矩陣相乘)、列間并行(每個輸入值與權(quán)重矩陣內(nèi)的每一列元素進行乘法計算)以及權(quán)重矩陣之間并行(每個輸入值與門單元權(quán)重矩陣進行向量矩陣乘法運算)對LSTM 網(wǎng)絡(luò)進行加速計算. 由于LSTM 網(wǎng)絡(luò)不同層間具有強依賴關(guān)系, 需要先完成底層計算, 才能對上層計算. 因此層與層之間無法并行處理, 只能在層內(nèi)并行計算. 此外, 不同時間步之間也具有強依賴關(guān)系, 所以只能在每個時間步內(nèi)的每層做并行計算, 圖3 展示了LSTM 網(wǎng)絡(luò)的可并行性.

圖3 LSTM 網(wǎng)絡(luò)可并行性

在LSTM 網(wǎng)絡(luò)中, 存在3 種不同形式的矩陣乘運算: 矩陣向量乘(MMV)、向量矩陣乘(VMM)和向量外積(VEP). MMV 出現(xiàn)在前向計算中, VMM 和VEP 出現(xiàn)在反向計算中. GPU 核心(kernel)程序啟動會導致開銷, LSTM 網(wǎng)絡(luò)每個單元有3 個門, 每個門具有兩個不同的權(quán)值矩陣, 若不加以合并, 完成一次前向和一次后向計算分別需要啟動12 次kernel, 導致開銷較大. 權(quán)值矩陣過小無法充分利用GPU 并行計算優(yōu)勢,為此本文實施了兩個層次的權(quán)值合并.

(1) 列向合并

列向合并針對同一層相同門的不同權(quán)值進行合并,因此輸入數(shù)據(jù)根據(jù)擴充順序同步進行合并. 以輸入門為例, 輸入門接收的輸入包括從當前時間步的輸入xt與上一個時間步的輸出ht–1, 其對應(yīng)的權(quán)值分別為Wt和Wt–1, 合并后的權(quán)值Wcom=[Wt,Wt–1], 在行數(shù)不變的基礎(chǔ)上對列做了加和. 對于輸入合并, 合并后的輸入Icom=[xt,ht–1], 對應(yīng)列也做了加和:

相同門的前向計算和后向計算過程是相互對應(yīng)的,因此前向和后向的計算公式完全一樣. 值得注意的是,后向過程原本對x和h分別進行更新, 現(xiàn)在對合并后的向量進行更新.

(2) 行向合并

在對行向不同門的權(quán)值進行合并的過程中, 輸入數(shù)據(jù)不需要進行變換. 將f、i、o三個門合并后得到新權(quán)值矩陣Wjoin, 其行數(shù)變?yōu)樵瓉淼? 倍, 列數(shù)不變. 行向合并計算過程如下:

值得注意的是, 由于后向計算過程中不同門的激活函數(shù)不同, 導致各個門的梯度計算不完全一致, 因此,需要分別計算各個門的梯度系數(shù).

通過對權(quán)值進行列向和行向合并, LSTM 網(wǎng)絡(luò)進行一次前向計算僅需要啟動2 次kernel, 進行一次后向計算僅需要啟動3 次kernel. 同時, 每次參與計算的矩陣元素增加, 進而達到有效利用GPU 并行計算能力的目的. 為充分利用GPU 并行計算能力, 可以在程序中顯式使用向量數(shù)據(jù)類型. 相對標量數(shù)據(jù)類型, 向量數(shù)據(jù)類型可由2–4 個32 位的標量數(shù)據(jù)類型組合而成, 其大小由向量數(shù)據(jù)類型的后綴數(shù)字指示. 例如, 例如,float4 向量數(shù)據(jù)類型由4 個float 數(shù)據(jù)類型構(gòu)成, 分別用x、y、z和w進行引用. 使用float4 向量數(shù)據(jù)類型,可以在一次存儲訪問請求中取入4 個float 類型的標量數(shù)據(jù). 與標量數(shù)據(jù)類型相比, 使用向量數(shù)據(jù)類型后的存儲訪問次數(shù)有所減少, 較大限度地利用了存儲帶寬,如圖4 所示.

圖4 float4 向量數(shù)據(jù)類型

2.3.2 相似度計算加速

在事件結(jié)構(gòu)相似度和情景相似度計算中, 由于不存在數(shù)據(jù)依賴關(guān)系, 因此可以安排每個GPU 線程負責目標事件與網(wǎng)格事件庫中的一個歷史事件進行相似度計算. 為計算情景相似度, 本文實現(xiàn)了基于GPU 的Word-Similarity 計算過程[18]. 在WordSimilarity 并行化過程中, 關(guān)系義原描述中存在大量的分支結(jié)構(gòu), 在GPU 上并行化會嚴重影響執(zhí)行性能. 為此, 對于一些以線程作為控制變量的條件分支, 在控制變量取值有限的情況下, 本文通過引入數(shù)組實現(xiàn)分支路徑的間接索引, 如代碼1 和代碼2 所示. 引入的數(shù)組可以通過線程的進行訪問, 該數(shù)組返回的值即是相應(yīng)的分支路徑. 也就是說, 每個線程根據(jù)其訪問數(shù)組來決定其所要執(zhí)行的分支路徑, 這種間接索引的方式能夠完全消除條件分支.

代碼1. 分支重構(gòu)前代碼if(tid.x==0)if(tid.y==0) statements with func(m,a,b);else statements with func(m,a);else if(tid.x==1)if(tid.y==0) statements with func(m,a,b);else statements with func(m,a,b);else if(tid.x==2)if(tid.y==0) statements with func(m,a,b);else statements with func(m,a,b);else if(tid.x==2)if(tid.y==0) statements with func(m,a,b);else statements with func(m,a,b);代碼2. 分支重構(gòu)后代碼index=m+2*tid.x;array[2][4] = {(1,2,2,1),(2,1,1,2)};a[array[tid.y][tid.x]]=func(b[index],a[tid.y]);

3 實驗分析

為驗證本文提出的網(wǎng)格事件相似度并行計算的性能, 選取安徽省蕪湖市2016 年1 月1 日–2020 年12 月31 日期間40000 條社會化網(wǎng)格治理系統(tǒng)中的事件來構(gòu)建數(shù)據(jù)集. 數(shù)據(jù)集中包含了事件屬性、事件文本、事件情景描述、經(jīng)過人工標注的相似事件等信息. 通過對40000 條事件文本進行統(tǒng)計分析, 長度均值為632個字, 且95%的事件情景描述的文本長度在142 個字以內(nèi). 本文選取了其中30000 條事件作為訓練集, 5000條事件作為驗證集, 5000 條事件作為測試集. 實驗硬件環(huán)境為: 內(nèi)存DDR4 64 GB, 2.4 GHz Intel(R) Xeon(R)Silver 4210R CPU, NVIDIA GeForce RTX 3090 GPU;軟件環(huán)境為Ubuntu 18.04, CUDA Toolkit 10.2.

3.1 事件相似度性能對比

本文采用精確率(Precision)、召回率(Recall)和F1 值作為事件相似度計算性能的評價指標. 本文對40000 個網(wǎng)格事件采用第2.2.2 節(jié)所述閾值計算方法,得出事件相似度閾值為0.91. 為了驗證基于關(guān)鍵詞生成的事件相似度性能, 通過實驗與使用TF-IDF、textRank 和LDA (latent Dirichlet allocation)對網(wǎng)格事件文本進行關(guān)鍵詞提取并計算相似度的機器學習方法進行了對比, 對比結(jié)果如表1 所示.

表1 基線模型對比實驗結(jié)果 (%)

通過對比可以發(fā)現(xiàn), 本文基于深度學習的方法在性能上優(yōu)于TF-IDF 等基于機器學習的方法, 原因在于機器學習模型方法僅簡單的對文本中的詞向量進行加權(quán)平均, 沒有使用文本更深層次的語義信息, 而深度學習方法可以獲取更深層次的語義信息. 此外, 使用attention 機制的PGN 關(guān)鍵詞生成模型更加關(guān)注那些對判斷事件相似度因素貢獻較大的文本特征. 通過消融實驗將記憶網(wǎng)絡(luò)從PGN 中消除, 精確率指標為82.61%. 可見, 記憶網(wǎng)絡(luò)在精確率指標上能夠提升0.7%的性能.

3.2 并行計算加速比分析

在GPU 并行加速過程中, 實驗采用每個線程塊包含512 個線程的設(shè)置. 從表2 中看出, 當待比對的事件規(guī)模過小時(5000 件), GPU 的計算速度反倒比CPU慢, 一方面是因為GPU 計算資源不能被充分利用, 另外一方面原因是CPU 和GPU 之間的數(shù)據(jù)傳輸開銷及kernel 啟動開銷抵消了GPU 加速的性能增益. 當事件規(guī)模增加到10000 件時, GPU 并行加速的優(yōu)勢開始體現(xiàn). 當事件規(guī)模增加到40000 件時, 此時能夠取得4.04 倍的加速比. 從表2 也可以看出, 隨著事件規(guī)模的不斷增大, 數(shù)據(jù)傳輸開銷占比呈遞減趨勢. 可以預期的是, 隨著事件規(guī)模的不斷增加, 能夠取得越來越高的加速比.

表2 并行計算加速比

3.3 與QRNN 和SRU 網(wǎng)絡(luò)的性能對比

準遞歸神經(jīng)網(wǎng)絡(luò)(QRNN)是一種交替卷積層的神經(jīng)序列建模方法, 其網(wǎng)絡(luò)結(jié)構(gòu)由類似于CNN 中的卷積層和池化層兩類子部分組成[19]. QRNN 卷積層與CNN卷積層類似用于提取輸入特征, 池化層可用于減少特征數(shù)目, 但不同的是QRNN 采用了fo-Pool (在動態(tài)平均池化的基礎(chǔ)上增加了輸出門)結(jié)構(gòu)進行池化. 簡單循環(huán)單元(SRU)是一種輕循環(huán)單元[20], 其具體結(jié)構(gòu)分為兩個部分: 輕循環(huán)部分和高速網(wǎng)絡(luò)(highway network)部分. 輕循環(huán)部分處理輸入向量并計算包含序列信息的狀態(tài)序列, 高速網(wǎng)絡(luò)部分促進基于梯度的深度網(wǎng)絡(luò)訓練. 為驗證LSTM 網(wǎng)絡(luò)應(yīng)用在基于PGN 的事件關(guān)鍵詞生成的優(yōu)越性, 本文采用QRNN 網(wǎng)絡(luò)和SRU 網(wǎng)絡(luò)對40000 個網(wǎng)格事件與LSTM 網(wǎng)絡(luò)進行了性能對比, 對比結(jié)果如表3 所示.

表3 LSTM、SRU 和QRNN 性能對比

從表3 可以看出: (1) QRNN 網(wǎng)絡(luò)計算性能總體低于SRU 網(wǎng)絡(luò); (2) 2 層SRU 網(wǎng)絡(luò)在計算速度上比2 層LSTM 網(wǎng)絡(luò)要快, 但2 層SRU 網(wǎng)絡(luò)在相似度計算精度上相對較弱; (3) 8 層SRU 網(wǎng)絡(luò)能達到和2 層LSTM 網(wǎng)絡(luò)相近的相似度計算精度, 但8 層SRU 網(wǎng)絡(luò)計算速度稍慢于2 層LSTM 網(wǎng)絡(luò). 可見, 雖然SRU 網(wǎng)絡(luò)在LSTM網(wǎng)絡(luò)的計算方式上進行了優(yōu)化, 但在本文任務(wù)上SRU網(wǎng)絡(luò)的適應(yīng)性弱于LSTM 網(wǎng)絡(luò).

4 結(jié)論與展望

通為了滿足大規(guī)模網(wǎng)格事件環(huán)境下實時計算事件相似度的需要, 本文提出了一種基于關(guān)鍵詞生成的網(wǎng)格事件相似度并行計算方法. 該方法通過指針生成網(wǎng)絡(luò)生成網(wǎng)格事件關(guān)鍵詞, 基于關(guān)鍵詞結(jié)構(gòu)相似度和情境相似度計算事件相似度, 利用GPU 對事件關(guān)鍵詞生成過程中的LSTM 網(wǎng)絡(luò)和相似度計算過程進行加速.實驗結(jié)果表明: 相比TF-IDF、textRank 和LDA 方法,本文方法在相似度計算性能上更好, 采用GPU 進行并行計算最高獲得了4.04 倍的加速比. 本文下一步工作是在網(wǎng)格事件相似度的基礎(chǔ)上結(jié)合案例推理技術(shù)實現(xiàn)社會突發(fā)事件的輔助決策.