杜 楚,彭會湘,李 峰,王長力
(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081; 2.中國人民解放軍91635部隊,北京 102249)
天基數(shù)據(jù)混合推薦方法研究
杜 楚1,彭會湘1,李 峰1,王長力2
(1.中國電子科技集團公司第五十四研究所,河北 石家莊 050081; 2.中國人民解放軍91635部隊,北京 102249)
數(shù)據(jù)推薦技術能夠主動地滿足用戶對數(shù)據(jù)的需求,提高用戶對數(shù)據(jù)的獲取效率,該技術已經(jīng)在電商系統(tǒng)中得到了廣泛應用。然而,現(xiàn)有的數(shù)據(jù)推薦算法無法很好地適應天基數(shù)據(jù)的特點。新提出的天基數(shù)據(jù)混合推薦方法基于模式挖掘、興趣關系圖和相似度聚類技術實現(xiàn),能夠使推薦的天基數(shù)據(jù)在內(nèi)容上主動匹配用戶的潛在需求,從而提高用戶使用天基數(shù)據(jù)的效率。
天基數(shù)據(jù);推薦算法;天基數(shù)據(jù)混合推薦;模式挖掘;相似度聚類
隨著天基信息探測裝備的不斷發(fā)展和廣泛使用,我國已形成了一個在陸地、海洋、天空和太空全方位部署的較為完整的信息感知網(wǎng)絡,信息獲取能力特別是天基數(shù)據(jù)獲取能力得到了很大提高,已經(jīng)積累了海量的衛(wèi)星遙感數(shù)據(jù)、導航定位信息和全球地理數(shù)據(jù)等天基數(shù)據(jù),各類數(shù)據(jù)信息以文字、圖像和聲像等多種形式存儲管理。目前受到分析方法的限制,無法對大規(guī)模多源異構的天基數(shù)據(jù)進行有效地挖掘分析,單一的數(shù)據(jù)庫檢索手段已不能滿足天基數(shù)據(jù)推薦所需的深度分析能力,無法達到天基數(shù)據(jù)高效利用的目的。因此,需要對天基數(shù)據(jù)的推薦方法進行研究,實現(xiàn)向用戶推薦的天基數(shù)據(jù)在內(nèi)容上主動滿足用戶潛在的需求。
用戶在使用數(shù)據(jù)時,可以根據(jù)明確程度將用戶的需求分為3類:用戶明確已知的需求A、用戶基于本身的知識可以明確的潛在需求B和用戶基于本身的知識無法直接明確的潛在需求C。數(shù)據(jù)推薦的核心思想在于:在用戶提出需求A后,推薦算法可以根據(jù)使用記錄與興趣關系,計算出用戶的潛在需求B與潛在需求C,從而提升用戶對數(shù)據(jù)的使用效率,實現(xiàn)在內(nèi)容上主動滿足用戶潛在的需求,這種思想已經(jīng)廣泛應用于互聯(lián)網(wǎng)電商系統(tǒng)中。
電商根據(jù)用戶的購買行為和興趣特點,向用戶推薦用戶即將需要和感興趣的信息和產(chǎn)品,在增加顧客滿意度的同時又增加訂單量,為電商創(chuàng)造了可觀的利潤增值[1]。目前,大型電商平臺如京東、亞馬遜和天貓等都采用了個性化推薦算法。目前常見的個性化推薦算法包括:基于內(nèi)容的推薦、協(xié)同過濾的推薦、基于知識的推薦和基于規(guī)則的推薦。
1.1 基于內(nèi)容的推薦
基于內(nèi)容的推薦過程主要依賴用戶間、物品間或用戶與物品間的相似性,不需要用戶對推薦物品的評價意見,而是根據(jù)用戶所選擇的物品特征,把其他類似屬性的物品作為推薦結果反饋給用戶[2]。這樣即使沒有用戶的評分數(shù)據(jù),也能通過衡量用戶或物品內(nèi)容特征的相似度來對用戶給出推薦信息?;趦?nèi)容的推薦算法的核心思想是:先把推薦物品的內(nèi)容特征抽取出來,然后從用戶以往選擇物品的內(nèi)容特征去學習用戶的偏好興趣,最后與用戶偏好興趣匹配度較高的物品將被推薦給用戶[3]。
1.2 基于協(xié)同過濾的推薦
基于協(xié)同過濾的推薦系統(tǒng)先根據(jù)已有的歷史數(shù)據(jù)(如評分數(shù)據(jù)),計算出用戶(或物品)之間的相似度,再根據(jù)相似度找到用戶(或物品)的最近鄰居集合,最后根據(jù)最近鄰居集合中的評分情況得出預測評分,并將評分按大小排序,選擇幾個預測評分靠前的作為推薦列表返回給用戶[4]。協(xié)同過濾的推薦算法目前主要分為基于內(nèi)容的協(xié)同過濾和基于模型的協(xié)同過濾[5]這2類。
1.3 基于知識的推薦
基于知識的推薦算法利用用戶知識和物品知識,通過推理來為用戶推薦物品,在一定程度上也被視為一種推理技術[6]。它并不依賴于用戶評分等關于用戶偏好的歷史數(shù)據(jù),故其不存在冷啟動方面的問題。其基本思想是:在統(tǒng)一的語義互聯(lián)環(huán)境中獲取用戶知識和物品知識,通過功能知識的推理或語義匹配向用戶做出推薦,能夠根據(jù)推薦系統(tǒng)所處的具體環(huán)境選擇相應的推薦策略,在必要的時候調(diào)用傳統(tǒng)的推薦技術,結合傳統(tǒng)推薦技術的優(yōu)點采用混合推薦技術向用戶做出推薦以獲取最佳的推薦質(zhì)量[7]?;谥R的推薦系統(tǒng)能夠?qū)崟r響應用戶需求,當用戶偏好發(fā)生變化時不需要任何訓練。
1.4 基于規(guī)則的推薦
關聯(lián)規(guī)則作為數(shù)據(jù)挖掘領域內(nèi)的一項重要技術,已經(jīng)被廣泛應用于電子商務推薦系統(tǒng)中。關聯(lián)規(guī)則的挖掘工作可以分成2步:① 從交易數(shù)據(jù)集合中發(fā)現(xiàn)所有滿足用戶給定的最小支持度的頻繁項目集;② 在頻繁項目集的基礎上生成所有滿足用戶給定的最小可信度的關聯(lián)規(guī)則[8]?;谝?guī)則的推薦算法的基本思想是:通過挖掘用戶數(shù)據(jù)來產(chǎn)生用戶的行為模式,然后結合用戶的歷史行為記錄,產(chǎn)生對目標用戶的推薦列表[9]。
上述各類推薦算法在無使用記錄時的冷啟動問題[10]、推薦數(shù)據(jù)要求以及響應數(shù)據(jù)變化等方面都有著各自的優(yōu)勢與劣勢,然而在實際工程應用中需要采用不同推薦算法的組合才能達到揚長避短的目的,從而產(chǎn)生更符合用戶需求的推薦,文獻[11-12]也論述了混合策略在準確性上優(yōu)于單一的推薦策略。理論上可以有很多種的推薦組合方法,目前研究和應用較多的混合推薦是把基于內(nèi)容的推薦和協(xié)同過濾的推薦混合在一起[13]。然而天基數(shù)據(jù)與商品數(shù)據(jù)不同,具有組合使用性強、用戶專業(yè)性強和時空約束的特點,將現(xiàn)有的數(shù)據(jù)混合推薦方法進行套用并不能滿足天基數(shù)據(jù)推薦工作的要求,因此需要從以下3個方面對天基數(shù)據(jù)的混合推薦方法進行設計。
2.1 使用記錄的頻繁子集合與子序列模式
單一的天基數(shù)據(jù)(如一張遙感圖像)并不具有使用價值,而需要一定的處理流程的加工(與圖層、底圖和坐標系統(tǒng)的疊加等)才能產(chǎn)生使用價值。因此,用戶對天基數(shù)據(jù)的使用往往都處于某個流程之中,使得用戶的使用記錄對天基數(shù)據(jù)的推薦具有較高的參考價值。對所有用戶的天基數(shù)據(jù)使用記錄進行模式挖掘,發(fā)現(xiàn)其中的頻繁子集合與子序列模式[14],找到所有用戶在使用該數(shù)據(jù)時的潛在工作流程。在推薦天基數(shù)據(jù)時,考慮數(shù)據(jù)在流程或功能上的互補性、兼容性,為用戶推薦工作流程后續(xù)需要用到的數(shù)據(jù),幫助用戶完成整個工作流程,從而提升推薦數(shù)據(jù)的可用性。
2.2 用戶子興趣區(qū)域相似性
天基數(shù)據(jù)的用戶具有較強的專業(yè)性,同一用戶往往集中使用某幾種天基數(shù)據(jù),因此實現(xiàn)天基數(shù)據(jù)與用戶需求之間的匹配需要對用戶的興趣進行分析。用戶興趣區(qū)域通常包含多個子興趣區(qū)域,每個子興趣區(qū)域?qū)囟ǖ奶旎鶖?shù)據(jù)屬性,例如行政區(qū)域、衛(wèi)星代號和分辨率要求等。用戶子興趣是用戶對部分數(shù)據(jù)感興趣并構成的一個子圖,不同用戶子興趣可能存在重合,可能在某一領域重合部分較多,而在另一領域重合部分較少。研究分析用戶子興趣之間的關聯(lián),比研究分析所有用戶興趣關聯(lián)更有價值,更能準確地預測用戶行為。它克服了協(xié)同過濾算法無法對某一領域用戶子興趣的相似性進行特殊分析和處理的弊端,因此在推薦時可以根據(jù)用戶的專業(yè)進行精確推薦。
2.3 天基數(shù)據(jù)時空相關性
天基數(shù)據(jù)通常在時間和空間屬性上具有相關性,同時這些數(shù)據(jù)在時間和空間范圍及尺度上也存在差異性。單一的天基數(shù)據(jù)不能完全滿足用戶的需求,在推薦天基數(shù)據(jù)時,需要推薦在時空相關性方面匹配的天基數(shù)據(jù)組合,避免出現(xiàn)時空范圍及尺度上差異性較大從而不可組合的場景,促進天基數(shù)據(jù)的最優(yōu)組合推薦[15]。
依據(jù)上述的設計思路,本文提出針對天基數(shù)據(jù)的混合推薦方法,其計算過程如圖1所示。
圖1 天基數(shù)據(jù)混合推薦方法計算過程
首先,對用戶使用記錄進行模式挖掘得到用戶對數(shù)據(jù)使用的頻繁子集合與子序列模式、進行計算構建得到用戶的興趣關系圖;對天基數(shù)據(jù)進行相似度聚類,將相似度高的天基數(shù)據(jù)聚合到同一類中,得到聚類結果;進而根據(jù)用戶的選擇進行混合推薦;將混合推薦得到的結果集進行時空相關性篩選形成最終的推薦集合。
3.1 使用記錄的模式挖掘
通過對用戶的使用記錄進行模式挖掘找到用戶使用數(shù)據(jù)的頻繁子集合與子序列模式是本推薦方法的難點和重點。模式挖掘工作分為3步:
① 將用戶的使用記錄表示為一個圖:
G=(D,E:ω)
式中,節(jié)點D為被用戶使用的數(shù)據(jù)或?qū)嶓w;節(jié)點之間的邊E為數(shù)據(jù)或?qū)嶓w之間的連接或調(diào)用關系;邊上的權值ω為連接的強弱或調(diào)用的次數(shù)。本文使用BIT-ProcessLibrary-Release2009數(shù)據(jù)集中的匿名用戶服務調(diào)用記錄作為模式挖掘方法的驗證數(shù)據(jù),構建的使用記錄圖如圖2(a)所示;
② 在得到用戶的使用記錄圖后,使用基于圖結構的聚類算法(Graph-skeleton-based Clustering)[16]對該圖進行分解,得到如圖2(b)所示的結果,共得到編號1~4的4個主要核心功能子圖,即數(shù)據(jù)的頻繁子集合,其中編號5的子圖中的節(jié)點為其他節(jié)點之間的連接節(jié)點,不是核心功能子圖;
③ 使用圖的結構抽取算法(Graph Skeleton Extraction Algorithm)[17]對每個核心功能子圖進行抽取得到子圖的核心結構,圖2(c)所示的核心結構是對圖2(b)中編號1的核心功能子圖進行抽取得到。這一結構代表了用戶對某些數(shù)據(jù)的核心使用流程,即數(shù)據(jù)使用流程的子序列模式。
圖2 用戶使用記錄模式挖掘
在進行天基數(shù)據(jù)推薦時,當用戶選擇了某個數(shù)據(jù)時,找到該數(shù)據(jù)所在的子序列模式,將模式中與該數(shù)據(jù)有流程邏輯關系的數(shù)據(jù)推薦給用戶,完成基于頻繁數(shù)據(jù)集合和子序列模式的數(shù)據(jù)推薦。
3.2 用戶興趣關系圖構建
用戶的興趣關系定義為一個圖:
G=(U,E:(c,ω))。
式中,節(jié)點U為用戶;節(jié)點之間的一條邊E為用戶之間相似的子興趣;邊上的屬性c為該子興趣所述的類型;邊上的屬性ω為該子興趣的強弱。用戶的興趣關系圖的構建是一個計算統(tǒng)計的過程,在使用記錄中,如果2個用戶都對同一類型的數(shù)據(jù)重復使用,說明他們對該類型的天基數(shù)據(jù)具有一個相同的子興趣,在其節(jié)點之間建立一條邊,邊上的屬性c為數(shù)據(jù)的類型,邊上的屬性ω為同時使用這一類型數(shù)據(jù)的次數(shù),ω越大表示該子興趣越相似。
在對某一用戶進行數(shù)據(jù)推薦時,推薦工作面向具有相似子興趣區(qū)域的用戶進行,將與該用戶子興趣相似的用戶選擇過的數(shù)據(jù)推薦給用戶,完成基于用戶興趣關系圖的推薦。
3.3 天基數(shù)據(jù)相似度聚類
天基數(shù)據(jù)的相似度聚類體現(xiàn)了數(shù)據(jù)在內(nèi)容上的相似程度,是解決數(shù)據(jù)推薦在無使用記錄情況下“冷啟動”的基礎,為了得到天基數(shù)據(jù)的相似度聚類,需要進行3步:
① 建立一個元組對天基數(shù)據(jù)的元數(shù)據(jù)進行表示,元組的定義為:
D= {ID,class,filed,source,date,target,
scope,resolution,format}。
式中,D為天基數(shù)據(jù)的元數(shù)據(jù)元組;ID為數(shù)據(jù)的編號;class為數(shù)據(jù)的種類,如遙感數(shù)據(jù)、多光譜數(shù)據(jù)和電子偵察數(shù)據(jù)等;filed為數(shù)據(jù)所屬的領域,如SAR遙感數(shù)據(jù)、氣象數(shù)據(jù)和高程數(shù)據(jù)等;source為數(shù)據(jù)的來源;date為數(shù)據(jù)時間屬性,體現(xiàn)數(shù)據(jù)的時效性;target為中心點經(jīng)緯度;resolution為數(shù)據(jù)的分辨率;format為數(shù)據(jù)的文件格式。由于元組各項的值域確定,因此總能找到一個向量表示上述的元組。
② 計算2個元組之間的向量距離作為2個天基數(shù)據(jù)之間的相似度,計算方法使用余弦相似度。余弦相似度表示的是2個向量之間的夾角關系,夾角越小表示這2個向量越相似,余弦相似度Sim1,2為:
③ 利用譜聚類[18]方法對天基數(shù)據(jù)進行聚類。譜聚類算法建立在譜圖理論基礎上,其核心思想是對聚類對象在拉普拉斯空間上進行K-means運算,其計算空間由直接進行K-means運算的N*N維空間降維到N*k維空間上(N為聚類對象的個數(shù),k為聚類的個數(shù)),由此帶來巨大的計算節(jié)省,與K-means、Meanshift等傳統(tǒng)算法相比,特別適合于大規(guī)模海量數(shù)據(jù)的聚類計算。K-means算法固有的聚類初始點隨機選擇不當造成聚類結果不理想的問題,在針對天基信息數(shù)據(jù)進行計算時,能夠通過人工指定平均相似度最大的天基數(shù)據(jù)作為初始節(jié)點的方式進行改善。
在得到的聚類結果中,內(nèi)容相似的天基數(shù)據(jù)被聚在同一類中。數(shù)據(jù)推薦時,把與用戶選擇的數(shù)據(jù)相似的數(shù)據(jù)推薦給用戶,完成基于相似度聚類的天基數(shù)據(jù)推薦。最終將上述基于頻繁數(shù)據(jù)集合和子序列模式、基于用戶興趣關系圖、基于相似度聚類的推薦結果依據(jù)用戶的設定與偏好進行組合,經(jīng)過時空相關性篩選后,作為最終的結果推薦給用戶。
通過對現(xiàn)有數(shù)據(jù)推薦方法的研究與應用現(xiàn)狀的分析,結合天基數(shù)據(jù)組合使用性強、用戶專業(yè)性強以及時空約束的特點,設計出了天基數(shù)據(jù)的混合推薦方法并對方法的實現(xiàn)過程進行了詳細論述。本文的推薦方法相對于傳統(tǒng)方法應用效果更好,能夠較好地反映用戶的專業(yè)興趣特點,且隨著用戶使用記錄的積累,方法能夠從使用記錄蘊含的工作流程中找到合適的推薦數(shù)據(jù),滿足用戶的潛在需求,提高用戶使用數(shù)據(jù)的效率。
[1] 馬瑞敏,卞藝杰.基于Hadoop的電子商務個性化推薦算法—以電影推薦為例[J].計算機系統(tǒng)應用,2015,24(5):111-117.
[2] 江周峰,楊 俊.結合社會化標簽的基于內(nèi)容的推薦算法[J].軟件,2015,36(1):1-5.
[3] 姜書浩,薛福亮.一種利用協(xié)同過濾預測和模糊相似性改進的基于內(nèi)容的推薦方法[J].現(xiàn)代圖書情報技術,2014,243(2):41-47.
[4] 冷亞軍,陸 青.協(xié)同過濾推薦技術綜述[J].模式識別與人工智能,2014,27(8):720-734.
[5] 陳潔敏,湯 庸.個性化推薦算法研究[J].華南師范大學學報,2014,46(5):8-15.
[6] 艾 磊,趙 輝.基于知識的推薦系統(tǒng)用戶交互模型研究[J].軟件導刊,2015,14(3):15-17.
[7] JANNACH D,FELFERMIG A,FRIEDRICH G,et al.推薦系統(tǒng)[M].蔣 凡,譯.北京:人民郵電出版社,2013.
[8] 郭文月,劉海硯.非指定時間約束的社會安全事件關聯(lián)規(guī)則挖掘[J].地理與地理信息科學,2016,32(3):14-18.
[9] 陳江平,黃炳堅.數(shù)據(jù)空間自相關性對關聯(lián)規(guī)則的挖掘與實驗分析[J].地球信息科學學報,2011,13(1):109-117.
[10] 孫冬婷.協(xié)同過濾推薦系統(tǒng)中的冷啟動問題研究[D].長沙:國防科學技術大學,2011.
[11] 劉建國,周 濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-21.
[12] 許海玲,吳 瀟,李曉東.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學報,2009,20(2):350-362.
[13] 陳洪濤,肖如良.融合推薦潛力的個性化趨勢預測的混合推薦模型[J].計算機應用,2014,34(1):218-221.
[14] 王 芳,王培群.基于頻繁序列挖掘的預取算法研究與實現(xiàn)[J].計算機研究與發(fā)展,2016,53(2):443-448.
[15] 李惠松,王小銘.一種基于幀間差分與時空相關性分析的運動目標檢測算法[J].計算機與數(shù)字工程,2007,12(35):32-35.
[16] HUANG J,SUN H,SONG Qin-bao,et al.Revealing Density-based Clustering Structure from the Core-connected Tree of a Network[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(8):1 876-1 889.
[17] LIU Wen ping,JIANG Hong bo,BAI X,et al.Distance Transform-based Skeleton Extraction and Its Applications in Sensor Networks[J].IEEE Transactions on Parallel and Distributed Systems,2013,24(9):1 763-1 772.
[18] LUXBURG U V.A Tutorial on Spectral Clustering[J].Statistics and Computing,2007,17(4):395-416.
杜 楚 男,(1987—),博士,工程師。主要研究方向:航天地面應用。
彭會湘 男,(1973—),研究員。主要研究方向:航天地面應用。
The Research on Space-based Data Hybrid Recommendation Algorithm
DU Chu1,PENG Hui-xiang1,LI Feng1,WANG Chang-li2
(1.The54thResearchInstituteofCETC,ShijiazhuangHebei050081,China; 2.Unit91635,PLA,Beijing102249,China)
The data recommendation could enhance the efficiency of data acquisition and it is already widely used in the electronic business system.However,existing recommendation algorithms could not match with the space-based data.A new space-based hybrid recommendation method has been proposed in this paper.This method is implemented based on pattern mining,interest relation graph and similarity clustering.The contents of recommendation results could meet user’s potential demand and enhance the efficiency of space-based acquisition.
space-based data;recommendation algorithm;space-based data hybrid recommendation;pattern mining;similarity clustering
10.3969/j.issn.1003-3106.2017.05.04
杜 楚,彭會湘,李 峰,等.天基數(shù)據(jù)混合推薦方法研究[J].無線電工程,2017,47(5):15-18.[DU Chu,PENG Huixiang,LI Feng,et al.The Research on Space-based Data Hybrid Recommendation Algorithm[J].Radio Engineering,2017,47(5):15-18.]
2017-02-10
中國博士后科學基金資助項目(2016M600197)。
V55
A
1003-3106(2017)05-0015-04