古秦弋,楊瑞娟,黃美榮,楊云飛,葉偉,李玥
(1.空軍預警學院a.研究生管理大隊;b.4系,湖北 武漢 430019;2.中國人民解放軍 92261部隊,海南 海口 570100;3.中國人民解放軍93986部隊,新疆 和田 848000)
隨著情報網(wǎng)絡(luò)化的發(fā)展,匯聚于情報服務(wù)器的情報海量增長,導致服務(wù)器向用戶推送的情報發(fā)生信息過載[1]問題,致使用戶端態(tài)勢顯示無針對性無重點,嚴重混淆作戰(zhàn)指揮人員的作戰(zhàn)視覺,影響作戰(zhàn)指揮決策。因此,針對用戶需求的信息分發(fā)是解決情報信息過載的關(guān)鍵。
目前,實現(xiàn)作戰(zhàn)信息的按需分發(fā)[2-3]主要有基于主動服務(wù)的信息分發(fā)[4]、基于發(fā)布/訂閱的信息分發(fā)[5]、基于過濾的信息分發(fā)[6]。其中,基于過濾的信息分發(fā)更適用于雷達情報用戶。在基于過濾的信息分發(fā)中,用戶根據(jù)自身的需求對傳輸來的信息進行篩選,將不符合需求的信息屏蔽掉,其優(yōu)點是篩選出的情報與用戶偏好符合程度高,而且不要求用戶預先對需求進行精確描述,因此不會降低傳輸時效,同時可以提高用戶表達個性化需求的主動性和機動性,滿足用戶對戰(zhàn)場情報的動態(tài)需求。
基于過濾的信息分發(fā)方法有協(xié)同過濾[7-8]、基于內(nèi)容相似度的過濾[9]、基于知識的過濾[10]等。其中,基于內(nèi)容相似度的過濾方法利用信息的內(nèi)容特征和用戶偏好預測用戶對新信息的興趣,適用于可獲得完整內(nèi)容描述的雷達情報篩選,更能從本質(zhì)上篩選出用戶感興趣的情報,且不需要巨大的用戶群體,具有用戶的獨立性[11]。但是,傳統(tǒng)的內(nèi)容相似度的計算對所有特征一視同仁[12-13],造成重要特征的作用不突出的問題,導致計算結(jié)果不準確。鑒于此,本文提出一種基于ReliefF加權(quán)內(nèi)容相似度的按需分發(fā)方法,使用戶興趣更加聚焦,抑制次要特征,加強有效特征,并降低運算量。通過ReliefF算法[14]進行特征選擇,并在相似度計算時做特征加權(quán)處理,根據(jù)相似度預測新情報的推薦度,最后通過設(shè)定閾值篩選出用戶感興趣的情報。實驗結(jié)果表明基于ReliefF內(nèi)容相似度的篩選算法能更好地實現(xiàn)雷達情報的按需分發(fā)。
如前期研究所示[15],基于內(nèi)容相似度的推薦系統(tǒng)首先建立用戶興趣模型,其次將情報數(shù)據(jù)進行預處理,并對情報特征做出選擇,然后與用戶興趣模型匹配,利用相似度對新情報進行推薦預測,最后通過設(shè)定閾值形成推薦。該推薦系統(tǒng)流程如圖1所示。
情報的內(nèi)容用特征來描述,令Xi=(xi1,xi2,…,xiK),i∈(1,2,…,I)為第i條情報的特征向量,其中xik為第i條情報的第k個特征,k∈(1,2,…,K)。
用戶興趣也用情報特征向量來描述。選取I條情報作為用戶興趣模板,表示為U=(X1,X2,…,Xi,…,XI),專家根據(jù)空域和屬性等內(nèi)容,將情報Xi(i=1,2,…,I)分為4類,建立打分表RX={r1,r2,…,ri,…,rI},其中ri為專家對情報Xi的評分,每一類有不同的評分,專家評分集表示為F={不感興趣,不確定,感興趣,非常感興趣},對應分值為ri={1,2,3,4}。
傳統(tǒng)的相似度計算方法,不考慮研究對象中每個變量作用程度不同,各特征的差異對總距離的貢獻是相同的,所起的作用也是平等的,用這樣計算出的距離表示相似度并不確切。因此,本文通過ReliefF算法,根據(jù)特征的重要程度賦予不同權(quán)重,進行特征選擇后,通過計算出的內(nèi)容相似度預測用戶對新情報的興趣程度,最后通過設(shè)定閾值達到雷達情報的按需分發(fā)。并在第3節(jié)通過比較歐幾里德相似度算法和ReliefF加權(quán)內(nèi)容相似度算法的性能證明后者能更好實現(xiàn)用戶的情報篩選。
特征選擇在數(shù)據(jù)挖掘、模式識別等多領(lǐng)域有廣泛的應用,其根本任務(wù)是從諸多特征中找出最有效的特征,以降低數(shù)據(jù)集的維度并提高模型的精確度[16]。ReliefF算法是目前公認的一種性能較好的特征有效性評估方法。其原始算法Relief算法最早由Kira和Rendell于1992年提出。該系列算法的基本思想是,給特征集中每一個特征賦予一定的權(quán)重,并迭代更新權(quán)值,使重要的特征聚集同類樣本,離散異類樣本。Relief算法當時局限于處理兩類別問題[17],Kononenko于1994年將其擴展,提出可以解決多類別情況的ReliefF算法。
設(shè)樣本集D={X1,X2,X3,…},令Xi={xi1,xi2,…,xiK},i∈(1,2,…,I)為第i個樣本的特征向量,其中xik為第i個樣本的第k個特征,k∈(1,2,…,K)。ReliefF算法每次從訓練樣本集D中任意選擇一個樣本Xi,首先在和Xi同類的樣本集中找出n個近鄰樣本Hj,j∈(1,2,…,n),從每個和Xi不同類(C類)樣本集中均找出n個近鄰樣本Mj(C),j∈(1,2,…,n),根據(jù)式(1)~(3)更新權(quán)重:如果Xi和Hi在某個特征上的距離小于Xi和Mj(C)的距離,則說明該特征對區(qū)分同類和不同類樣本是有益的,則增加該特征的權(quán)重;反之,說明該特征對區(qū)分同類和不同類樣本起負面作用,則降低該特征的權(quán)重。以上過程重復m次,最后得到各特征的平均權(quán)重。權(quán)重越大,表示該特征的分類能力越強,反之表示該特征分類能力越弱。ReliefF算法的運行時間隨著樣本的抽樣次數(shù)m和特征個數(shù)K的增加線性增加,因而運行效率非常高。
(1)
式中:w(k)為第k個特征的權(quán)重;diff(k,Xi,Hj),diff(k,Xi,Mj(C))為樣本Xi分別和近鄰樣本Hi,Mj(C)在第k個特征上的絕對差值,與Xi不同類的樣本集為C類樣本集;p(C)為C類樣本數(shù)占樣本總數(shù)的比例。即
(2)
設(shè)樣本R1和R2在第k個特征上的值分別為R1[k]和R2[k],maxk和mink為第k個特征的上下界值,則diff(k,R1,R2)定義
diff(k,R1,R2)=
(3)
噪聲會使特征數(shù)據(jù)發(fā)生微量的偏移,當多個特征受到噪聲干擾時,會嚴重影響對同類、非同類樣本的判定,從而對權(quán)重計算產(chǎn)生不利后果。針對此問題,選擇將近鄰樣本按距離排序,取最近的n個樣本,通過n個最近鄰樣本的平均,在一定程度上削弱噪聲對數(shù)據(jù)的影響[18]。
ReliefF算法具體流程如下:
輸入:訓練樣本集D,樣本抽樣次數(shù)m
輸出:特征權(quán)重向量集合W
(1) 將所有特征權(quán)值集合初始化為ο(W(k)=0),k∈(1,2,…,K);
(2)fori=1tom;
1) 從樣本集D中隨機選擇一個樣本Xi;
2) 從Xi的同類樣本中找到Xi的n個最近鄰Hj,j∈(1,2,…,n);
3) 從Xi的每一個不同類樣本中分別找到n個最近鄰Mj(C);
(3)fork=1toK
end
基于ReliefF內(nèi)容相似度的情報分發(fā),首先利用ReliefF算法對預處理后的情報數(shù)據(jù)進行特征選擇,并賦予特征權(quán)值,其次將特征選擇后的情報數(shù)據(jù)與用戶需求模型匹配,計算加權(quán)內(nèi)容相似度并進行推薦預測,最后通過設(shè)定閾值完成情報的按需分發(fā)。
運用ReliefF算法對雷達情報特征進行有效性評估,通過迭代得到各特征的權(quán)重集合ο(W(k)),k∈(1,2,…,K),設(shè)定閾值為α,則特征選擇準則為,如果w(k)≥α,則采用特征;如果w(k)<α,則剔除特征。
特征選擇前的原始特征向量為X=(x1,x2,…,xK),將ReliefF算法經(jīng)過m次迭代運算得出的權(quán)值降序排列,選擇權(quán)重高于閾值的K′個特征。此時,情報的特征向量表示為X=(x1,x2,…,xK′),k=1,2,…,K′,其中xk為樣本的第k個特征。為驗證ReliefF算法的有效性,改變閾值α,依次比較剔除不同特征后的平均絕對偏差,實驗結(jié)果表明,進行特征選擇后的情報特征向量在計算相似度,預測最終得分中的應用效果優(yōu)于運用全部特征計算。
需要一種相似度度量標準來尋找用戶興趣模板中與新情報相似的情報。度量體系中最具代表性的是余弦相似度和歐幾里德距離。但是余弦相似度關(guān)注方向上的差異,主要衡量空間向量夾角,而距離度量基于各維度特征的數(shù)值來衡量空間里各點之間的絕對距離,更加關(guān)注向量不同特征數(shù)值上的差異。因此本文選擇歐幾里德算法計算情報相似度。
計算新情報與用戶感興趣歷史情報的相似度時,在傳統(tǒng)歐幾里德距離計算的基礎(chǔ)上,做加權(quán)處理[19-20],不同特征權(quán)重反映出各特征對分類不同的貢獻程度。
若進行特征選擇后,每條情報含有K′個特征項,wk(k=1,2,…,K′)表示每個特征的權(quán)重,則加權(quán)歐幾里德距離為
(4)
同樣,相似度轉(zhuǎn)換式為
s(Xi,Y)=1/[1+d(Xi,Y)].
(5)
加權(quán)歐幾里德相似度算法考慮到了特征的不同重要程度,對提高預測準確率起到良好的作用,實驗結(jié)果將在第3節(jié)討論。
將計算出的新情報與用戶興趣模型模板中情報的相似度值進行降序排列處理,得到列表中相似度值最大的前N條情報,并利用專家對這N條情報的評分,預測用戶對每條新情報的評分。最后通過設(shè)定一定的閾值,篩選出用戶感興趣的新情報,從而實現(xiàn)情報的主動推送。
即,如果s(XiN,Y)≥s(XiN-1,Y)≥…≥s(Xi1,Y),令集合U′={XiN,XiN-1,…,Xi1},可得降序排列集合T={iN,iN-1,…,i1},若ri為專家對最近鄰情報Xi的評分,則新情報的推薦度為
(6)
設(shè)閾值為β,若p(Y)≥β,則推薦情報;若p(Y)<β,則濾除情報。
評價推薦系統(tǒng)推薦質(zhì)量的度量標準主要有統(tǒng)計精確度度量方法和決策支持精確度度量方法2類[21]。統(tǒng)計精確度度量方法中平均絕對偏差(MAE)易于理解,可以直觀地對推薦質(zhì)量進行度量??紤]雷達情報用戶特點,本文采用MAE來評估算法的準確性。MAE表示算法對新情報的推薦度與用戶實際評分之間的平均絕對偏差,MAE值越小,推薦的準確性和質(zhì)量越高。
取L條情報作為測試集,驗證算法準確性。設(shè)推薦度集合表示為P={p1,p2,…,pL},專家實際評分集合為Q={q1,q2,…,qL},則平均絕對偏差定義為
(7)
本文實驗共有4類情報數(shù)據(jù),共計3 365個情報點,數(shù)據(jù)在考慮空域和屬性等內(nèi)容的情況下通過雷達航跡仿真得到,分別為情報用戶不關(guān)注的民航情報、特殊關(guān)注的民航情報、我方訓練機情報、敵方偵察機情報。選擇1 000條情報作為用戶興趣模板U={X1,X2,…,X1 000},通過專家根據(jù)用戶具體興趣的評分建立打分表RX={r1,r2,…,r1 000}。
實驗內(nèi)容包括:ReliefF算法在不同特征選擇閾值情況下的性能比較;ReliefF加權(quán)相似度算法與歐幾里德相似度算法的性能比較。
將航跡數(shù)據(jù)中屬性、機型、航向、速度、高度、經(jīng)度、緯度7個特征作為特征選擇前的原始特征,則原始特征向量表示為X=(x1,x2,…,x7)。對數(shù)據(jù)進行預處理后,采用ReliefF算法計算各特征的權(quán)重,由于算法隨機選擇樣本Xi,因此本文采取將主程序運行20次,然后匯總求出每個特征權(quán)重平均值的方法。仿真結(jié)果如圖2所示,上述20次計算后,各特征的平均權(quán)重如表1和圖2所示。
將各特征權(quán)值按照從大到小順序排列,得權(quán)重關(guān)系為:x4>x5>x6>x7>x2>x3>x1。由于實驗數(shù)據(jù)中有特殊關(guān)注的民航情報、不關(guān)注的民航情報,我方訓練機情報和敵方偵察機情報,情報用戶的興趣在屬性方面表現(xiàn)不明顯,反而在經(jīng)緯度以及速度、航向方面表現(xiàn)明顯,因此實驗結(jié)果具有合理性。
特征x1x2x3x4均值0.020 80.131 90.111 80.604 2特征x5x6x7均值0.405 80.323 00.269 8
通過設(shè)定不同的閾值α剔除特征。下面通過仿真研究在不同權(quán)重閾值情況下,ReliefF算法對雷達情報的特征選擇性能。
依次比對每一條新情報的特征向量Y與用戶興趣模板U中情報特征向量Xi的相似度,將相似度值進行降序排列處理,得到列表中相似度值最大的前N條情報,并利用專家對這N條情報的評分,預測用戶對每條新情報的推薦度p(Y)。通過設(shè)置不同的最近鄰數(shù)目N,分別計算剔除無用特征和采用全部情報特征時的推薦度。另外抽取40條情報數(shù)據(jù)作為測試集,利用測試集的真實評分驗證比對平均絕對偏差性能。結(jié)果如圖3所示。
由圖3可知,剔除特征x2,x3,x1的MAE值最低,即剔除權(quán)重最小的3個特征時,平均絕對偏差性能最好。下面將剔除特征x2,x3,x1前后的MAE性能比較。
由圖4可知,剔除特征x2,x3,x1后的MAE值低于剔除特征前,因此,特征選擇對預測情報推薦度起到較好作用。接下來對情報歐幾里德相似度和ReliefF加權(quán)相似度的平均絕對偏差性能進行分析。實驗結(jié)果如圖5所示。由圖5可看出,最近鄰數(shù)小于200時,2種相似度算法效果趨于相同;最近鄰數(shù)大于200時,傳統(tǒng)歐幾里德相似度算法的MAE大于ReliefF加權(quán)相似度算法,并且隨著最近鄰數(shù)目增多,增長幅度越大。因此,ReliefF加權(quán)相似度算法的MAE性能優(yōu)于傳統(tǒng)歐幾里德相似度算法。這主要是由于:①高維度特征將對距離衡量造成影響,變量越多,歐幾里德距離的區(qū)分能力越差;②歐幾里德距離算法認為向量中的所有特征作用是相同的,用這種方法計算出的距離忽略了特征向量中每個特征具有的不同特定意義,不能準確反映對象之間的相似度。因此,ReliefF加權(quán)內(nèi)容相似度計算方法相較于歐幾里德計算方法具有更好的相似度區(qū)分性,也更符合人類的感官認知。
通過以上仿真結(jié)果可知,基于ReliefF算法和加權(quán)內(nèi)容相似度計算的情報按需分發(fā)能夠做到準確獲得情報推薦度,并衡量重要程度。在不同條件、不同背景下,可通過設(shè)定不同閾值確定情報是否被篩選出來。
本文提出一種基于ReliefF算法的加權(quán)改進算法,該算法在原始算法的基礎(chǔ)上利用ReliefF算法賦予每個特征相應的權(quán)值,并根據(jù)特征的貢獻度進行特征選擇,通過計算情報特征之間的加權(quán)相似度,形成基于加權(quán)內(nèi)容相似度的最近鄰區(qū),在此基礎(chǔ)上預測新情報對用戶的推薦度,并按興趣程度實現(xiàn)雷達情報的按需分發(fā),最后通過MAE比較算法的準確性。實驗結(jié)果體現(xiàn)出ReliefF加權(quán)內(nèi)容相似度計算中各特征的不同的重要性,說明該方法不僅在一定程度上克服了傳統(tǒng)歐幾里德相似度的缺陷,而且能夠提高篩選準確率和有效性。
參考文獻:
[1] CHOI S H,JEONG Y S,JEONG M K.A Hybrid Recommendation Method with Reduced Data for Large-Scale Application[J].IEEE Transactions on Systems,Man,and Cybernetics:Part C Applications and Reviews,2010,40(5):557-566.
[2] 潘積遠,高源,郝明,等.面向信息內(nèi)容的自組織網(wǎng)絡(luò)數(shù)據(jù)按需分發(fā)方案[J].中國電子科學研究院學報,2014,9(1):39-44.
PAN Ji-yuan,GAO Yuan,HAO Ming,et al.Information Content Based Data On-Demanded Dissemination Scheme for Ad Hoc Networks[J].Journal of CAEIT,2014,9(1):39-44.
[3] 卞泓斐,楊根源,張千宇.艦艇編隊網(wǎng)絡(luò)化防空作戰(zhàn)信息分發(fā)研究[J].兵工自動化,2015,34(10):47-51.
BIAN Hong-fei,YANG Gen-yuan,ZHANG Qian-yu.Research on Information Distribution for Network Air Defense of Ship Formation[J].Ordnance Industry Automation,2015,34(10):47-51.
[4] 王子明,張海峰,陳鄧安,等. 基于信息柵格的作戰(zhàn)信息按需分發(fā)方法研究[J]. 國防科技,2012,33(2):33-36.
WANG Zi-ming,ZHANG Hai-feng,CHEN Deng-an,et al.A Research of Methods for Information Dissemination According to Needs Based on Information Grid[J].National Defence Science and Technology,2012,33(2):33-36.
[5] 張帆,周曉紅,董龍明.基于發(fā)布訂閱機制的態(tài)勢信息實時分發(fā)框架[J]. 火力與指揮控制,2017,42(1):133-136.
ZHANG Fan,ZHOU Xiao-hong,DONG Long-ming.Battlefield Information Real-Time Distributed Framework Based on Publish/Subscribe Mechanism[J].Fire Control & Command Control,2017,42(1):133-136.
[6] 朱凌志,趙巾幗,梁俊斌,等.WSN中基于閾值機制的虛假數(shù)據(jù)過濾方案[J]. 計算機工程,2013,39(12):152-156.
ZHU Ling-zhi,ZHAO Jin-guo,LIANG Jun-bin,et al.False Data Filtering Scheme Based on Threshold Mechanism in Wireless Sensor Network[J].Computer Engineering,2013,39(12):152-156.
[7] SCHAFER J B,FRANKOWSKI D,HERLOCKER J,et al.Collaborative Filtering Recommender Systems[C]∥Brusilovsky P,Kobsa A,Nejdl W. Proceedings of the Adaptive Web.Berlin Heidelberg:Springer,2007:291-324.
[8] ARMENTANO M G,GODOY D L,AMANDI A A. A TOPOLOGY-Based Approach for Followees Recommendation in Twitter[C]∥International Workshop on Intelligent Techniques for Web Personalization & Recommendation,2013:22-29.
[9] 曹孟毅,黃穗,王會進,等.基于內(nèi)容相似度的運動路線推薦[J].計算機工程與應用,2016,52(9):33-38.
CAO Meng-yi,HUANG Sui,WANG Hui-jin,et al.Content-Based Approach to Exercise Route Recommendation[J].Computer Engineering and Applications,2016,52(9):33-38.
[10] FELFERNING A,BURKE R.Constraint-Based Recommender Systems:Technologies and Researchissues[C]∥Proceedings of International Conference on Electronic Commerce,ACM,2008:1-10.
[11] JANNACH D,ZANKER M,FELFERNING A,et al.Recommender Systems:An Introduction[M].Cambridge:Cambridge University Press,2010: 51.
[12] 周劍云,王麗珍,楊增芳.基于加權(quán)歐式距離的空間Co-location模式挖掘算法研究[J].計算機科學,2014,41(S1):425-428.
ZHOU Jian-yun,WANG Li-zhen,YANG Zeng-fang. Algorithm of Mining Spatial Co-Location Patterns Based on Weighted Euclidean Distance[J].Computer Science,2014,41(S1):425-428.
[13] 趙佳,王士同.特征加權(quán)距離的半監(jiān)督模糊子空間聚類算法[J].小型微型計算機系統(tǒng),2017,38(2):405-410.
ZHAO Jia,WANG Shi-tong. Semi-Supervised Fuzzy Subspace Clustering Algorithm Based on Feature Weighted Distance[J]. Journal of Chinese Computer Systems,2017,38(2):405-410.
[14] KONONENKO I.Estimation Attributes:Analysis and Ex-tension of RELIEF[C]∥The 1994 European Conference on Machine Learniug,San Frannieno USA:IEEE Preee 1994:171-182.
[15] 古秦弋,楊瑞娟,黃美榮. 基于內(nèi)容相似度的雷達情報篩選技術(shù)[J]. 空軍預警學院學報,2017,31(3):190-193.
GU Qin-yi,YANG Rui-juan,HUANG Mei-rong. Radar Information Screening Technology Based on Content Similarity[J]. Journal of Air Force Early Warning Academy,2017,31(3):190-193.
[16] CHERMAN E A,MONARD M C,LEE H D. A Comparison of Multi-Label Feature Selection Methods Using the Problem Transformation Approach[J]. Electronic Notes in Theoretical Computer Science,2013,292:135-151.
[17] KIRA K,RENDELL L A. The Feature Selection Problem: Traditional Methods and A New Algorithm[C]∥Tenth National Conference on Artificial Intelligence. AAAI Press,1992:129-134.
[18] 廖闊,付建勝,楊萬麟. 改進的ReliefF算法用于雷達距離像目標識別[J]. 電子測量與儀器學報,2010,24(9):831-836.
LIAO Kuo,FU Jian-sheng,YANG Wan-lin. Modified ReliefF Algorithm for Radar HRRP Target Recognition[J].Journal of Electronic Measurement and Instrument,2010,24(9):831-836.
[19] 孫志鵬,錢雪忠,吳秦,等.基于加權(quán)距離計算的自適應粗K-均值算法[J].計算機應用研究,2016,33(7):1987-1990.
SUN Zhi-peng,QIAN Xue-zhong,WU Qin,et al. Self-Adaptive Rough K-Means Algorithm Based on Weighted Distance[J].Application Research of Computers,2016,33(7):1987-1990.
[20] 王子明,陳鄧安,馬培蓓,等. 基于特征的態(tài)勢信息及需求關(guān)聯(lián)性模型研究[J].現(xiàn)代防御技術(shù),2012,40 (3): 102-106.
WANG Zi-ming,CHEN Deng-an,MA Pei-bei,et al.Characteristic-Based Situation Information and Information-Requirement Relationship Model[J].Modern Defence Technology,2012,40(3):102-106.
[21] SARWAR B,KARYPIS G,KONSTAN J,et al.Item-Based Collaborative Filtering Recommendation Algorithms[C]∥Proceedings of International Conference on World Wide Web,ACM,2001:285-295.