亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FastText和WKNN融合模型的警情智能下發(fā)

        2020-08-07 05:50:31侯位昭齊幸輝宋凱磊韓志卓司佳劉勇
        現代電子技術 2020年13期
        關鍵詞:信息融合

        侯位昭 齊幸輝 宋凱磊 韓志卓 司佳 劉勇

        摘? 要: 警情的下發(fā)效率直接關系到公安民警的出警質量,從而影響公安機關駕馭治安局勢的能力和水平。在以往的警情下發(fā)中,一般只考慮地址位置的經緯度信息,這就導致在管轄范圍界限模糊、經緯度定位不準確時,仍需手動下發(fā)警情,容易造成人力、物力的損失以及區(qū)域安全指數的降低。為了解決這個問題,文中創(chuàng)新性地將區(qū)域劃分問題轉化為分類問題,并綜合考慮經緯度地理編碼信息以及中文地名語義信息,提出基于FastText和WKNN的融合地址位置和文本相似性的警情自動下發(fā)方法。該方法融合了由FastText得到的地址詞向量和根據地址解析服務得到的經緯度信息,將二者組成的地址多元要素作為加權KNN(WKNN)模型的輸入來訓練分類器。同時,WKNN采用sigmoid函數自適應地權衡在不同經緯度解析精度下地址位置坐標與詞向量相似性的權重,提高了模型的魯棒性。以某市歷史警情下發(fā)數據為依托,實驗結果顯示警情下發(fā)準確率在91%以上,驗證了該模型在某市經緯度不準確、新地址冷啟動等警情下發(fā)場景中的有效性及高效性。

        關鍵詞: 警情自動下發(fā); 融合模型; 信息融合; 權重權衡; 分類器訓練; 模型驗證

        中圖分類號: TN911.1?34; TP181; TP391? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? 文章編號: 1004?373X(2020)13?0073?08

        Intelligent police alarm issuing based on FastText and WKNN fusion model

        HOU Weizhao1, QI Xinghui1, SONG Kailei1, HAN Zhizhuo1, SI Jia1, LIU Yong2

        (1. The 54th Research Institute, China Electronics Technology Group Corporation, Shijiazhuang 050081, China;

        2. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China)

        Abstract: The issuing efficiency of the police alarm is directly related to the response effect of public security police, which accordingly influence the ability and level of the public security organs to control the security situation. In the past police alarm issuing, only the latitude and longitude information of an address location has been taken into account. Therefore, it has led to manual police alarm issuing when jurisdiction boundaries are obscure, and latitude and longitude positioning is inaccurate, which is prone to cause the loss of manpower and material resources, and the reduction of regional safety index. In view of the above, the regional division pattern is innovatively transformed into the classification one. In addition, the latitude and longitude geocoding information and the semantic information of Chinese geographical names are taken into account comprehensively, and the FastText and WKNN (weighted K?nearest neighbor) based automatic police alarm issuing method is proposed, which fuses the address word vector got by FastText and the latitude and longitude information got by address resolution service. The address multivariate elements formed by the two are used as the input of weighted KNN (WKNN) model to train the classifier. At the same time, the WKNN with sigmoid function is used to adaptively weigh the weights of address location coordinates and the word vector similarity at different latitude and longitude resolution accuracy, which improves the robustness of the model. The experimental results (which take the historical data of police alarm issuing of a certain city as an example) show that the accuracy of the police alarm issuing is higher than 91%. It verifies the validity and efficiency of the model in situations of inaccurate longitude and latitude and cold start of new address.

        Keywords: automatic police alarm issuing; fusion model; signal fusion; weight balance; classifier training; model verification

        0? 引? 言

        隨著人工智能時代的到來,如何探索一種準確而實用的警情自動下發(fā)機制,縮短警情出現到出警的時間周期,提高公安民警的出警質量和效率[1],成為公安行業(yè)內亟待解決的問題。

        文獻[2]設計出智能警情自動識別群發(fā)系統(tǒng),將接收到的警情信息經過字符識別、自動尋址處理后,群發(fā)到各治安卡口、對應案發(fā)轄區(qū)派出所和流動巡邏警力。但是在某市的警情下發(fā)過程中,缺乏“派出所管轄范圍”的基礎數據,同時,某些地區(qū)地理信息系統(tǒng)不完善,存在地名不規(guī)范、經緯度定位不準確等問題。因此,上述算法并不適用于某市的警情下發(fā)場景。在某市的警情下發(fā)場景中,實現警情自動下發(fā)的前提是實現管轄區(qū)域范圍的自動劃分及解決中文地名相似性度量的問題。

        近年來,區(qū)域劃分問題被越來越多的學者所關注。文獻[3]提出了城市功能區(qū)劃分的聚類算法,通過該算法得到的凸包存在重合交叉的情況,仍需要在凸包功能區(qū)的基礎上進行人工刪除或融合功能區(qū)。文獻[4]提出了通過計算重心點距與最遠點距的大小進行邊界提取,然而這種算法對于曲率變化較大的點云效果不佳。

        文獻[5]將基于邊長比約束的邊界追蹤算法應用于離散點數據區(qū)域的邊界提取,對邊界進一步細化內縮,獲取更準確的邊界。此外,文獻[6]采用基于堆棧的回溯機制實現對參考點邊界的搜索。然而上述算法計算復雜度較高,不滿足海量數據的實時響應。

        綜上,鑒于某市派出所管轄范圍邊界不規(guī)則,包含離群點等特點,本文創(chuàng)新性地將區(qū)域劃分問題轉化為分類問題,綜合考慮經緯度地理編碼信息以及中文地名語義信息,提出基于FastText和WKNN的融合地址位置和文本相似性的警情自動下發(fā)方法。該方法融合了由FastText得到的地址詞向量和根據地址解析服務得到的經緯度信息,將二者組成的地址多元要素作為加權KNN模型的輸入來訓練分類器。

        當新警情到達,首先根據警情中文地址信息調用百度地圖API獲取地址經緯度、置信度信息,并根據置信度自適應設置經緯度相似性與中文地址文本語義相似性的權重;同時,借助jieba分詞將中文地址切分,并查詢基于FastText分類器訓練出的詞向量庫,得到地址的向量化表示;然后將所得的經緯度、置信度、中文地址詞向量輸入WKNN區(qū)域劃分算法,得到派出所ID,并最終下發(fā)給對應派出所。

        采用凸包算法作為對比實驗,以某市歷史警情下發(fā)數據為依托,實驗結果顯示派出所的管轄范圍的凸包圖交叉重疊的現象嚴重,并且效果受異常離群點的影響較大,而FastText?WKNN算法繪制的區(qū)域無交叉,能夠較好地處理離群點,且對新地址具有一定的發(fā)現能力,警情下發(fā)準確率在91%以上,能夠實現警情的精準自動下發(fā)。

        1? 相關工作

        1.1? 加權KNN(WKNN)相關工作

        文獻[7]針對訓練樣本的不規(guī)則性,分析了相似度權重的KNN 算法,并將該算法應用于網絡輿情的識別實驗中,實驗結果表明:KNN 算法用相似度作為權重,充分考慮了相似度屬性對分類結果的影響,能夠有效提高輿情識別質量。文獻[8]針對KNN算法精度受[k]值選取影響較大的問題,提出了一種使用BP神經網絡來優(yōu)化KNN算法的改進算法,降低[k]值選取對算法精度的影響,同時提高分類準確率。另外,文獻[9]提出了利用屬性值對類別的重要性進行改進的KNN算法(FCD?KNN),定義兩個樣本間的距離為屬性值的相關距離,此距離有效度量了樣本間的相似度。

        理論分析及仿真實驗結果表明,FCD?KNN算法較傳統(tǒng)KNN及距離加權?KNN的分類準確性要高。

        本文在上述研究的基礎上,采用WKNN區(qū)域劃分算法歸納歷史下發(fā)數據的隱含規(guī)律。WKNN算法適用于處理類域交叉或重疊較多的大數據分類問題[10],在邊界凹陷程度較大的區(qū)域,能更精確地描繪出原始模型的輪廓,同時,對離群點具有較強的抗干擾性[11]。

        1.2? FastText相關工作

        在文本處理領域,文獻[12]提出利用編輯距離度量中文地名文本相似性,同時,借助形近字庫解決錯別字問題。但是該相似性的度量未考慮語義相似性,同時依賴于分詞的準確性,不適用于某市地名不規(guī)范的場景。另一種思路為借助詞袋模型或向量空間模型[13],將詞向量化,但是詞袋模型僅考慮了詞頻等統(tǒng)計信息,同樣不能考慮上下文語義,并且維度過高。

        近年來詞向量被越來越多學者關注[14?16],通過訓練語言模型得到詞向量,使得詞向量的相似性能夠表示詞語語義的相似性,例如,Mikolov等人提出word2vec[17],它通過訓練神經網絡語言模型,將詞轉化成詞向量,文本內容的處理便轉化為向量空間中的向量運算。通過向量空間上的相似度表示文本語義上的相似度。

        與word2vec類似的FastText技術目前已經有效地應用于英文標簽預測和情感分析中[18],FastText獲得的性能與基于深度學習的方法接近,而且速度更快,無論是訓練速度還是測試速度,FastText模型比深度學習模型快幾百倍,將訓練時間由數天縮短到幾分鐘[19]。另外,FastText與word2vec的本質區(qū)別體現在h?softmax的使用上。word2vec模型最終得到詞向量是在輸入層得到,輸出層對應的h?softmax產生的向量最終都被拋棄。 FastText則充分利用了h?softmax的分類功能,遍歷分類樹的所有葉節(jié)點,找到概率最大的label(一個或者[N]個)[20]。

        文獻[21]從視頻監(jiān)控防控目標的角度出發(fā),把對視頻監(jiān)控系統(tǒng)防控目標分類的問題轉化為短文本分類問題,并采用FastText模型實現了對北京市一類視頻監(jiān)控系統(tǒng)防控目標的詳細分類。視頻監(jiān)控系統(tǒng)防控目標的分類問題主要是通過防控目標的名稱進行區(qū)分。實驗結果顯示分類具有較高的準確性,且效率較高。在本研究中,考慮到警情自動下發(fā)情景可轉換為中文短文本分類問題,本文利用FastText文本分類算法[22]得到某市警情下發(fā)領域中文地址詞向量庫,利用地址詞向量庫度量中文地名語義相似性,降低經緯度信息不準確造成的負面影響,提高模型預測精度。FastText算法適用于大型數據,具有高效的訓練速度,能使訓練模型在使用標準多核CPU的情況下10 min內處理超過10億個詞匯[23],這滿足了警情自動下發(fā)中對高時效性的要求。

        2? 基本原理

        2.1? 基于經緯度信息的WKNN區(qū)域劃分算法

        在傳統(tǒng)的KNN算法中,測試數據的[k]鄰居是等權的,然而在實際中,各個[k]近鄰對測試標簽的貢獻顯然不同,而這種貢獻往往與距離有關。加權KNN算法準則如下[24]:

        式中:[c]表示類別個數;[j]表示樣本標簽;[ai]為[k]鄰近樣本[(x0i,y0i)]的權重;[δ(m,n)]為指示函數,當且僅當[m=n]時值為1,否則為0。

        令[di]表示待預測點到最鄰近的[k]個點中第[i]個樣本點的距離,則基于距離的加權KNN(WKNN)算法的權重如下所示:

        理論上地址經緯度信息能唯一表征某地址,但通過實驗分析,單純依賴地址經緯度信息的WKNN區(qū)域劃分算法,在某些區(qū)域預測精度極度下降,這是由于在該區(qū)域經緯度坐標點對應的真實值的基準參考值存在誤差,為警情精準下發(fā)埋下隱患。因此,本文在地址經緯度編碼信息的基礎上,引入中文文本相似性,用于挖掘警情推送中文地名特征規(guī)律。本文采用FastText文本分類模型獲取詞向量,以此度量中文地名的語義相似性。一種很自然的算法是嘗試直接利用FastText分類模型實現地址自動下發(fā)。

        2.2? FastText文本分類算法

        為降低經緯度解析誤差對警情下發(fā)精度的負面影響,本文在地址經緯度編碼信息的基礎上,引入中文文本語義信息。采用FastText文本分類模型獲取詞向量,用詞向量度量中文地名的語義相似性。

        針對[N]個文本分類問題,FastText算法以文本[n?gram]特征為額外輸入特征,用于保持詞序信息;使用softmax函數計算各類的概率分布,并最小化負對數似然函數,公式如下[25]:

        式中:[xn]包含詞袋特征與[n?gram]特征;[yn]為文本類別標簽;[A]和[B]為權重矩陣。

        用[m]表示類別個數,[d]為文本表示的特征維度,傳統(tǒng)線性分類器的計算復雜度為[O(md)]。FastText使用基于Huffman樹的層級softmax,將樹的每個節(jié)點與根節(jié)點到該節(jié)點的概率關聯(lián)。若某節(jié)點位于[l+1]層,其父節(jié)點為[nl,…,n2,n1],則與之關聯(lián)的概率如下:

        同時,借助層級softmax,FastText將計算復雜度降為[O(dlog2m)]。

        在警情推送場景中,中文地名的“近義”特指空間位置、行政區(qū)劃級別、從屬派出所的相似度,如同一派出所管轄的地址[a1]和地址[a2]被視為相近詞,從屬于同一個鄉(xiāng)的村被視為相近詞。

        FastText分類模型的訓練過程如圖1所示,由此可得警情自動下發(fā)領域的中文地址詞向量庫。但是FastText專注于文本分類,依賴于歷史下發(fā)數據的豐富度,當新到地址與歷史庫中已下發(fā)地址描述差異較大時,下發(fā)精度將顯著降低。

        因此,本文提出基于自適應權重的WKNN算法,綜合考慮地址坐標相似性與中文地址語義相似性,構建派出所管轄范圍,同時解決經緯度不準確、地址冷啟動等問題。

        2.3? 自適應FastText?WKNN算法

        相似性的度量對WKNN分類精度至關重要。本文為減少真實數據的不可靠性對預測的影響,提出融合地址位置信息和文本信息的自適應相似性度量準則,并采用基于sigmoid函數的自適應權值[w]:

        式中:[α]為百度地圖接口返回的參數“地址理解度”,用于度量地址編碼解析服務的準確度,分值越大,地理編碼服務對地址理解程度越高。在[α≥90]時,解析誤差100 m內概率為89%,誤差500 m內概率為96%,當[α>90]時,認為百度地圖接口返回的經緯度較為精確,此時,地理坐標相似性占有的權重較大,[w>0.5];相反,[α≤90]時,認為百度地圖接口返回的經緯度存在誤差,此時,中文地名相似性占有的權重較大,此時,[w<0.5]?;谏鲜龇蔷€性權重,可得到綜合考慮地理坐標相似性、中文地名相似性自適應權重度量準則:

        式中:[LSim]表示位置坐標相似性,用于度量地址經緯度編碼信息的差異;[TSim]表示文本相似性。

        基于FastText構建的詞向量用于度量中文地址語義相似性。顯然,位置坐標相似性的權重隨著地址經緯度解析精度的增大而增大,進而提高模型的魯棒性。

        值得注意的是,自適應FastText?WKNN基于自適應相似性[AdaSim]獲得最鄰近的[k]個鄰居,并參考基于距離的WKNN對近鄰使用如下加權準則:

        WKNN是一種基于懶惰學習實例的算法,沒有離線訓練階段。本文使用[D]和[T]分別代表訓練樣本庫和測試樣本庫的大小。完成[d0]與訓練樣本庫中的所有樣本的相似性計算需要[O(DV)],相似性的排序需要[O(Dlog D)]。因此,總運行時間為[O(T(Dlog D+DV))]。

        3? 某市警情自動下發(fā)的FastText?WKNN模型的設計與實現

        3.1? 某市警情自動下發(fā)模型

        本文為減少經緯度誤差對警情推送精度造成的負面影響,提高模型對新地址的預測能力,綜合基于文本語義相似性的FastText分類算法與WKNN區(qū)域劃分算法,從而構建警情自動下發(fā)的自適應混合模型。

        警情自動下發(fā)算法流程如下所示:當新警情到達,首先根據警情中文地址信息調用百度地圖API獲取地址經緯度、置信度信息,并根據置信度自適應設置經緯度相似性與中文地址文本語義相似性的權重;同時,借助jieba分詞將中文地址切分,并查詢基于FastText分類器訓練出的詞向量庫,得到地址的向量化表示;然后將所得的經緯度、置信度、中文地址詞向量輸入WKNN區(qū)域劃分算法,得到分類結果,在這里將派出所ID作為標簽,最終根據分類結果下發(fā)給對應派出所即可。

        算法1:融合地理位置和文本相似性的FastText?WKNN算法

        Input:a training set D of size m*1

        Its label set L of size m*1

        a test set to be predicted T of size n*1

        parameter: n?gram,echo,l,k

        Output: FastText_WKNN model

        Function_FastText_WKNN (L,D,T, n?gram,echo,l,k):

        Preprocessing of D,L and T;

        Empty set Lnglat,Fasttext, W

        for address in D:

        Get_lnglat(address,ak)→(lng,lat)

        Get_comprehension(address,ak) →

        Get_jieba(address) →S={a,b,c…}

        Get_FastText(S,n?gram,echo) →Q={q,w,e…}

        Get_weight( ,sigmoid) →w

        Lnglat.append((lng,lat))

        Fasttext.append(Q)

        W.append(w)

        Get? WKNN_Model(Lnglat,FastText,W,L,k)

        Sent T to WKNN_Model

        for each state i ∈{1,2,…,n}

        Output the classification of T(i) →r

        Results.append(r)

        Get_ accuracy(Results) →accuracy

        If accuracy>0.9:

        //模型訓練完成

        return FastText_WKNN_Model

        else:

        adjust n?gram,echo,l,k

        Function_FastText_WKNN (L,D,T,n?gram,echo,l,k)

        3.2? 數據預處理

        首先通過數據預處理解決原始數據中的異常點、不一致等問題。

        在選擇數據時,針對經緯度誤差造成的異常點問題,當“地址理解度”低于給定閾值時,說明該點為異常點,則將其刪除。

        對于歷史記錄中相同地址警情下發(fā)到不同派出所的不一致情況,本文選擇時間最新的為基準,即此時僅保留最新的下發(fā)結果。

        此外,構建某市專有地名字典庫,同時,利用jieba分詞對地址數據切分,轉換為FastText所要求的數據格式。

        3.3? 模型參數選擇

        在實驗中,首先獲得中文地址名的經緯度,同時使用FastText獲取地址名的詞向量。將經緯度和詞向量作為WKNN模型的輸入,地址的從屬派出所ID為類別標簽,訓練WKNN模型。

        使用百度的地理編碼服務獲得中文地址的經緯度,地址結構越完整,地址內容越準確,解析的坐標精度越高。該服務返回結果參數如表1所示。

        在這里使用comprehension字段作為地址解析結果準確與否的判斷標準。當解析誤差較大時,經緯度這一特征的有效性降低,甚至可能會帶來噪音。因此,當comprehension字段的值較低時,降低經緯度這一特征的權重,同時提高詞向量特征的權重。在實驗中根據式(6)自適應設置權值。

        在FastText算法訓練得到的中文地址詞向量庫中查詢得到的詞向量作為后續(xù)WKNN模型輸入的一部分。在FastText分類器訓練中,學習率[lr]、傳遞完整數據集的次數[echo]和詞序列窗口大小[n?gram]等參數對模型性能有很大影響。雖然[n?gram]值越大,模型越能表示詞順序信息,但是同時會降低模型訓練效率。本文權衡耗時與精度,選擇合適的[n?gram]值,同時,采用5折交叉驗證算法選取合適[lr]與[echo]值。

        使用經緯度及詞向量多元特征來訓練WKNN模型,在模型訓練過程中,[k]值的選取十分重要。若[k]值較大,可以減少學習的估計誤差,但是學習的近似誤差會增大,致使與輸入實例較遠的訓練實例也會對預測產生影響,使預測產生錯誤,并且[k]值增大模型的復雜度會下降。此外,[k]越小,分類邊界越是非線性,越是靈活,但也越容易過擬合,同時,學習的估計誤差會增大,預測結果對近鄰的實例點較敏感。本文采用5折交叉驗證算法選取合適的[k]值。

        另外,在WKNN模型中,如果一個樣本最接近的[k]個鄰居里,絕大多數屬于某個類別,則該樣本也屬于這個類別。指定投票權重類型為“distance”,即本節(jié)點所有鄰居節(jié)點的投票權重與距離成反比,越近的距離權重越高,在一定程度上避免了樣本分布不平均的問題,減少了噪音污染的影響。

        4? 實驗結果

        本節(jié)以某市警情自動下發(fā)為例,通過與基于凸包算法模型、基于文本語義相似性的FastText模型和依賴經緯度的WKNN模型進行推送精度與效率對比,驗證了本文提出的FastText?WKNN模型具有較高的有效性和高效性。

        4.1? 實驗數據及實驗環(huán)境

        本文選取某市9萬條警情下發(fā)歷史數據,原始數據屬性包括警情ID、警情地址及下發(fā)派出所編號ID。

        實驗環(huán)境及功能說明如表2所示。

        4.2? 實驗結果

        在實驗中,通過調用百度地圖API獲取歷史警情地址的經緯度信息,分別采用凸包及WKNN算法構建各個派出所的管轄范圍。

        首先,通過Graham掃描法構建凸包,所建立的社區(qū)邊界示意圖如圖2所示,橫坐標為緯度,縱坐標為經度。

        從圖2中可以看出,派出所的管轄范圍的凸包圖交叉重疊的現象嚴重,并且效果受異常離群點的影響較大。

        此外,調用Python scikit?learn機器學習庫中的KNN算法實現基于WKNN的區(qū)域劃分。在實驗中,采用交叉驗證算法選出誤差率最小的模型,其對應的[k]值為3。

        基于WKNN的區(qū)域劃分效果示意圖如圖3所示,橫坐標為標準化的警情地址緯度值,縱坐標為標準化的警情地址經度值。

        圖3表示歷史警情所下發(fā)的不同派出所編號,不同顏色區(qū)域表示不同派出所的管轄范圍??梢钥闯?,WKNN算法繪制的區(qū)域無交叉,能夠較好地處理離群點。

        模型依賴的經緯度和地址解析的精確性決定了模型的性能,因此為了提高模型的性能,本文引入基于文本相似性的FastText模型,在實驗中發(fā)現[n?gram]值取1時達到最佳性能。但文本相似性的計算過于依賴歷史數據庫,當一條地址為全新的地址時,FastText模型的效果較差。

        為克服以上算法的局限性,提出融合地理位置和文本相似性的FastText?WKNN模型,并使用交叉驗證算法對比實驗來驗證模型效果。

        本節(jié)將某市的數據按照不同縣劃分為8個數據集,分別為A,B,C,D,E,F,G和H,其中E,F,G和H為熱點區(qū)域,各個區(qū)域的總數據如表3所示。

        對每個數據集按照9∶1隨機劃分為訓練集與測試集,各區(qū)域警情推送精度及時間如表4所示。

        不同區(qū)域地址理解程度如表5所示。地址理解程度與WKNN模型準確率的關系如圖4所示。

        由圖4可知:二者在熱點區(qū)域E,F,G,H 4個區(qū)域的經緯度解析準確率都較高,且兩者精度相近;在非熱點區(qū)域A,B,C,D 4個區(qū)域FastText?WKNN模型的精度明顯高于依賴于經緯度的WKNN模型。這是由于在熱點區(qū)域通過百度地圖API獲得的經緯度較為準確,而在非熱點區(qū)域經緯度定位存在較大的誤差,從而導致下發(fā)準確率低。此外,FastText分類器的計算效率高于WKNN模型,這是由于對于多分類標簽(如派出所組織ID)眾多的場景,FastText利用層級softmaxt,顯著降低計算復雜度,表明FastText對中文文本分類具有較好的適用性。

        同時,為了比較模型對于新地址的預測能力。以E區(qū)域為例,調整測試集與訓練集的比例進行測試,其中測試數據占比越大,說明新地址越多,實驗結果如圖5所示。

        由圖5可以看出,隨著測試數據占比的增大,基于文本語義相似性的FastText分類預測精度顯著降低,而WKNN區(qū)域劃分算法預測精度僅略微下降。這是由于FastText分類模型依賴于歷史下發(fā)數據的豐富度,當新到地址與歷史庫中下發(fā)過的地址描述差異較大時,下發(fā)精度將明顯降低。而所提FastText?WKNN模型克服了這一弊端,對歷史數據庫的依賴度大幅度降低,不論是在熱點區(qū)域還是非熱點區(qū)域,下發(fā)準確率都能達到90%以上。在訓練集占比0.2和測試集占比0.8的情況下,對新地址依然保持較高的發(fā)現能力。實驗結果證明,在警情下發(fā)業(yè)務情境下,本文提出的FastText?WKNN模型能獲得較好的實驗結果。

        綜上所述,單獨一種基于文本語義相似性的FastText分類模型或WKNN區(qū)域劃分模型都不能同時適用于非熱點區(qū)域經緯度不準確、新地址冷啟動等警情下發(fā)場景。針對上述不足,本文提出基于地址多元要素的FastText?WKNN模型,該模型集成WKNN模型對新地址的預測能力,同時,引入FastText的分詞能力,將地址詞向量作為地址多元要素的一部分輸入到模型中,通過這種方式減小在非熱點區(qū)域經緯度誤差造成的負面影響,從而能夠實現警情的精準自動下發(fā)。

        5? 結? 語

        本文提出基于FastText和WKNN的融合地理位置和文本相似性的警情自動下發(fā)模型,采用sigmoid函數權衡地址位置坐標及中文地址文本語義相似性的權重,提高模型的魯棒性,并通過實驗驗證該混合模型在某市經緯度不準確、新地址冷啟動等警情下發(fā)場景具有有效性及高效性。

        未來將綜合警員經驗、警情類別、交通狀況等多種因素,實現融合泛在態(tài)勢的警情精準推送,實現在節(jié)省手工下發(fā)人力的同時,合理分配任務,提高警員任務完成率。

        注:本文通訊作者為宋凱磊。

        參考文獻

        [1] 吳泉源,張寧玉.4S技術與公安預警信息系統(tǒng)[J].遙感技術與應用,2000,15(4):232?236.

        [2] 王銳,陳里,彭功民,等.智能警情自動識別群發(fā)系統(tǒng):CN103456147A[P].2013?12?18.

        [3] 竇智.城市功能區(qū)劃分空間聚類算法研究[D].成都:四川師范大學,2010.

        [4] 劉立強.散亂點云數據處理相關算法的研究[D].西安:西北大學,2010.

        [5] 黃先鋒,程曉光,張帆,等.基于邊長比約束的離散點準確邊界追蹤算法[J].武漢大學學報(信息科學版),2009,34(6):688?691.

        [6] 吳懷軍,孫家廣.基于回溯的參考點邊界搜索算法[J].計算機研究與發(fā)展,1998,35(6):562?566.

        [7] 鄭偉,王若怡,馬林,等.KNN算法在輿情領域中的應用研究[J].中國管理信息化,2019,22(6):157?158.

        [8] 路敦利,寧芊,臧軍.基于BP神經網絡決策的KNN改進算法[J].計算機應用,2017,37(z2):65?67.

        [9] 肖輝輝,段艷明.基于屬性值相關距離的KNN算法的改進研究[J].計算機科學,2013,40(11A):157?159.

        [10] 耿麗娟,李星毅.用于大數據分類的KNN算法研究[J].計算機應用研究,2014,31(5):1342?1344.

        [11] GOLENBIEWSKI J, TEWOLDE G. Implementation of an indoor positioning system using the WKNN algorithm [C]// 2019 IEEE 9th Annual Computing and Communication Workshop and Conference (CCWC). Las Vegas, NV, USA: IEEE, 2019: 397?400.

        [12] 向雯婷,郭旦懷.基于地名相似度算法與空間場景相似性評價的地址規(guī)范化研究[J].科研信息化技術與應用,2013,4(1):67?73.

        [13] 李靜,林鴻飛,李瑞敏.基于情感向量空間模型的歌曲情感標簽預測模型[J].中文信息學報,2012,26(6):45?50.

        [14] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model [EB/OL]. [2015?11?28]. http://www.doc88.com/p?9925363440847.html.

        [15] COLLOBERT R, WESTON J. A unified architecture for natural language processing: deep neural networks with multitask learning [C]// Proceedings of the 25th International Con?ference on Machine Learning. [S.l.]: ACM, 2008: 160?167.

        [16] MNIH A, HINTON G. A scalable hierarchical distributed language model [EB/OL]. [2016?01?25]. http://www.doc88.com/p?7038917089758.html.

        [17] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2015?11?09]. https://wenku.baidu.com/view/36ffa6ac76c66137ee? 0619aa.html.

        [18] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain: Association for Computational Linguistics, 2017: 427?431.

        [19] ALESSA A, FAEZIPOUR M, ALHASSAN Z. Text classification of flu?related tweets using FastText with sentiment and keyword features [C]// 2018 IEEE International Conference on Healthcare Informatics (ICHI). New York, NY: IEEE, 2018: 366?367.

        [20] LJUBE?I? N. Comparing CRF and LSTM performance on the task of morphosyntactic tagging of non?standard varieties of South Slavic languages [C]// Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects. New Mexico, USA: Association for Computational Linguistics, 2018: 156?163.

        [21] 王藝杰.基于Fasttext的防控目標分類實現[J].中國公共安全(學術版),2018(1):29?32.

        [22] BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching word vectors with subword information [J]. Transactions of the association for computational linguistics, 2017, 5: 135?146.

        [23] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain: IEEE, 2017: 427?431.

        [24] BENSAFI N, LAZRI M, AMEUR S. Novel WkNN?based technique to improve instantaneous rainfall estimation over the north of Algeria using the multispectral MSG SEVIRI imagery [J]. Journal of Atmospheric and Solar?Terrestrial Physics, 2019, 183: 110?119.

        [25] BALODIS K, DEKSNE D. FastText?based intent detection for inflected languages [J]. Information (Switzerland), 2019, 10(5): 161.

        猜你喜歡
        信息融合
        基于預約診療模式下的醫(yī)院網絡安全設計
        信息融合方法在水力發(fā)電廠狀態(tài)檢修中的應用
        科技資訊(2016年28期)2017-02-28 09:34:23
        基于智能粒子濾波的多傳感器信息融合算法
        大數據背景下的信號處理分析
        多傳感器圖像融合技術
        大數據環(huán)境下基于多維信息融合的高校教學評價
        亞太教育(2016年35期)2016-12-21 20:08:33
        一種無人飛艇高度傳感器信息融合方法
        多元信息傳感的人體坐姿識別技術研究
        基于區(qū)域信息融合的風電場平均年發(fā)電量預測
        基于極限學習機的老人防摔倒系統(tǒng)設計
        国产丰满老熟女重口对白| 日韩人妻中文字幕专区| 亚洲综合网国产精品一区| 无码一区二区三区中文字幕| 欧美精品人人做人人爱视频| 亚洲av无码成人精品区天堂| 2021年性爱喷水视频| 国产成人av一区二区三| 精品国产中文字幕久久久| 日本在线 | 中文| 日本50岁丰满熟妇xxxx| 国产成人无码A区在线观| 五月激情狠狠开心五月| 蜜臀人妻精品一区二区免费| 日本a级片免费网站观看| 国产va免费精品高清在线观看| 日本无遮挡吸乳呻吟视频| 亚洲午夜无码视频在线播放| 亚洲中文字幕乱码在线视频| 国产精品精品国产色婷婷| 国产成人精品2021| 亚洲精品国产成人| 亚洲av高清在线观看三区| 久久久一本精品久久久一本| 精品国产亚洲级一区二区| 国产免费一区二区三区免费视频| 免费观看黄网站| 欧美亚洲尤物久久综合精品| 人妻丰满熟妇一二三区| 精品人妻一区二区三区久久| 一本久久伊人热热精品中文字幕 | 国产午夜精品理论片| 熟妇与小伙子matur老熟妇e| 亚洲精品高清av在线播放| 日韩精品免费在线视频一区| 丰满人妻被两个按摩师| 国产福利一区二区三区在线观看 | 99麻豆久久精品一区二区| 青青草狠吊色在线视频| 国产揄拍国产精品| 亚洲AV无码精品色欲av|