韋二龍,劉 東,龍 恩,王永安
(1.中國電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081;2.北京遙感信息研究所,北京100192)
面向用戶需求的遙感信息檢索與推薦[1-2]是近年來研究的熱點。目前對于空間數(shù)據(jù)推薦服務(wù)的研究重點考慮時間、空間、社交網(wǎng)絡(luò)關(guān)系[3]和推薦數(shù)據(jù)類別等要素的影響,利用矩陣分解[4]、泊松系數(shù)模型和鏈接關(guān)系模型[5]等數(shù)學(xué)模型構(gòu)建用戶與數(shù)據(jù)的關(guān)聯(lián)關(guān)系。在此基礎(chǔ)上利用機器學(xué)習(xí)和統(tǒng)計方法,訓(xùn)練學(xué)習(xí)用戶的偏好興趣[6],實現(xiàn)主題信息檢索[7]和用戶推薦,該方法在推薦數(shù)據(jù)分布均勻和密集時效果較好,但對于稀疏性數(shù)據(jù)的解決方法[8-9]尚處于探索階段。目前,廣泛應(yīng)用的開放平臺,如天地圖、百度地圖和高德地圖等都具備一定的空間信息檢索能力[10-11],但產(chǎn)品訂制和主動推薦能力不夠,無法根據(jù)用戶的特點進(jìn)行定制化服務(wù)。本文對遙感信息如何實現(xiàn)精準(zhǔn)主動服務(wù)進(jìn)行了研究,采用主題模型構(gòu)建用戶畫像,基于用戶畫像實現(xiàn)遙感信息的主動推薦,解決面向用戶個性化需求的遙感信息精準(zhǔn)推薦問題。
基于用戶畫像的遙感信息精準(zhǔn)服務(wù)立足于用戶畫像構(gòu)建技術(shù),搜集整理用戶需求和行為模式,采用主題模型構(gòu)建用戶畫像[12],綜合考慮用戶的顯性和隱性行為,結(jié)合應(yīng)用需求和環(huán)境精準(zhǔn)刻畫用戶畫像[13-14]。利用知識網(wǎng)絡(luò)動態(tài)匯聚各類遙感數(shù)據(jù),精準(zhǔn)匹配遙感信息產(chǎn)品與用戶需求,從而實現(xiàn)遙感信息的主動推薦。
通過收集和分析用戶顯性和隱性反饋行為,在其上利用命名實體引導(dǎo)的主題模型構(gòu)建技術(shù),構(gòu)建用戶畫像所需的主題空間。首先需要獲取語料中與使用場景相關(guān)的命名實體,設(shè)計基于命名實體引導(dǎo)的文本主題建模技術(shù),分析現(xiàn)有的相關(guān)主題模型在用戶使用場景描述語料上的主題抽取性能,歸納當(dāng)前技術(shù)的缺陷與短板,確定命名實體引導(dǎo)的主題模型的實現(xiàn)思路,如圖1所示。
圖1 實現(xiàn)思路Fig.1 Realization idea
用戶畫像是基于用戶的顯性和隱性反饋行為構(gòu)建的,用戶行為內(nèi)容往往以短文本的形式呈現(xiàn),因此,需要短文本特定的主題模型技術(shù)。同時,由于描述語料是以常規(guī)文本(即長文本)的形式存在,需要同時設(shè)計常規(guī)文本與短文本的命名實體主題建模技術(shù)。具體來說,設(shè)計了命名實體與場景語義2類主題。命名實體主題直接反映命名實體的語義信息;場景語義主題反映了使用場景非命名主題相關(guān)的語義信息。為了便于捕獲命名實體間/命名實體組的語義聯(lián)系,設(shè)定每個命名實體都有一個場景語義主題分布,便于計算命名實體之間的關(guān)聯(lián),或者是命名實體組所表達(dá)的語義信息。對于包含命名實體的短文本,調(diào)整該條文本的主題先驗知識來匹配其包含的命名實體的主題分布情況。對于非文本的用戶歷史交互行為,將反饋行為描述作為用戶產(chǎn)生的短文本一并處理。具體技術(shù)將采用調(diào)整先驗知識與概率模型相結(jié)合的方式開展。
從主題模型推斷的角度,采用吉布斯采樣技術(shù)進(jìn)行主題抽取與表示。設(shè)計的吉布斯采樣如下:
基于上述公式,計算出用戶的短文本主題分布,從而可以通過單詞分布刻畫用戶行為與身份,達(dá)到用戶畫像的目標(biāo)。
基于用戶畫像的遙感信息主動推薦方法設(shè)計思路如下:首先,建立滿足用戶真實偏好的理想解;然后,引入物元分析法來構(gòu)造多屬性決策物元矩陣,從而將待分發(fā)遙感信息的主動推薦問題轉(zhuǎn)化為多屬性決策問題;最后,設(shè)計關(guān)聯(lián)函數(shù)定量計算待分發(fā)信息在各個元數(shù)據(jù)屬性上對用戶主題的滿足程度,引入關(guān)聯(lián)度、興趣度、效用度等概念和算法,以實現(xiàn)基于用戶主題畫像的遙感信息的個性化、主動、智能推薦[15-16],具體流程如圖2所示。
圖2 推薦流程Fig.2 Recommendation process
(1)確定理想解
所謂理想解是指用戶設(shè)定的最優(yōu)解,所包含的各個屬性值均為各項待分發(fā)信息中的最佳值。根據(jù)建立的用戶主題模型可知,元素項區(qū)間變量在子區(qū)間上的分布特征值V越大,則該單位子區(qū)間的值越接近理想解,越符合用戶的需求。因此,在n個元素項上都具有最大分布特征值的區(qū)間單元所組成的集合便構(gòu)成理想解A*,結(jié)果如下:
A*={A1*,A2*,…,An*},
式中,Ai*為元素項xi理想解對應(yīng)的區(qū)間單元的集合。
(2)構(gòu)建關(guān)聯(lián)函數(shù)
為了使評價結(jié)果更加準(zhǔn)確,定義了關(guān)聯(lián)函數(shù)來刻畫在各個元素項上待分發(fā)遙感信息對用戶興趣的滿足程度。針對遙感信息的覆蓋特性,通過分析待分發(fā)信息與理想解之間的拓?fù)潢P(guān)系,建立待分發(fā)信息與用戶興趣主題之間的關(guān)聯(lián)函數(shù)。同時,為了保證評價結(jié)果的準(zhǔn)確性,考慮到用戶主題模型各元素項含義不同且評定標(biāo)準(zhǔn)各異,通過關(guān)聯(lián)函數(shù)分別對波譜范圍、空間范圍、時間范圍及空間分辨率4類元素項的數(shù)據(jù)信息進(jìn)行標(biāo)準(zhǔn)化處理,最終得到不同元素項的興趣度與關(guān)聯(lián)度。
(3)多屬性決策支持的效用度計算
多屬性決策是通過一定的函數(shù)關(guān)系,歸納、分析并整理一定數(shù)量的決策方案在有限的評價指標(biāo)下的屬性值,然后以此對各個決策方案進(jìn)行排序與擇優(yōu)的過程。從決策理論的角度來看,效用度指待推選數(shù)據(jù)與理想解之間的相互貼近程度,效用度愈大則該方案愈接近理想值,愈能滿足用戶的興趣需求。因此,可以通過計算效用度來定量評價待分發(fā)信息對用戶興趣的滿足程度,備選方案Bi的效用度ui即為各個元素項關(guān)聯(lián)度的加權(quán)和:
式中,zij表示第i個待選方案在元素項xj的關(guān)聯(lián)度;wj代表元素項xj的權(quán)重。
基于用戶畫像的遙感信息精準(zhǔn)服務(wù)系統(tǒng)采用B/S架構(gòu)設(shè)計,配置軟件環(huán)境如表 1所示。
表1 軟件環(huán)境Tab.1 Software environment
模擬的用戶興趣特征圖如圖 3~圖 6所示。
圖3 空間興趣分布Fig.3 Spatial interest distribution
圖4 時間興趣特征分布Fig.4 Temporal interest distribution
圖5 波譜興趣特征分布Fig.5 Spectral interest distribution
圖6 分辨率興趣特征分布Fig.6 Resolution interest feature distribution
以20條理想測試數(shù)據(jù)為例,其中前15條為從用戶訓(xùn)練集中隨機生成的數(shù)據(jù),后5條為模擬的不在用戶訓(xùn)練集中的數(shù)據(jù),測試輸出結(jié)果如表 2所示。
表2 推薦測試結(jié)果Tab.2 Recommendation test results
分別選取了4組訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,對推薦方法進(jìn)行測試。根據(jù)前文描述的隨機生成的用戶歷史記錄數(shù)據(jù),生成用戶偏好模型[17],構(gòu)建訓(xùn)練數(shù)據(jù)集。測試數(shù)據(jù)集由部分訓(xùn)練數(shù)據(jù)和差異較大的遙感影像數(shù)據(jù)構(gòu)建,分別對應(yīng)推薦和不推薦的結(jié)果。測試數(shù)據(jù)數(shù)量及結(jié)果如表 3所示。
表3 測試數(shù)據(jù)數(shù)量及結(jié)果Tab.3 Quantity and results of test data
由表3可以看出,采用的推薦方法的準(zhǔn)確率保持在90%以上。
本文提出基于主題的用戶畫像[18-19]構(gòu)建技術(shù),設(shè)計了基于用戶畫像的遙感信息主動推薦方法,利用已有的遙感產(chǎn)品歷史相關(guān)資料并結(jié)合網(wǎng)絡(luò)百科信息,精準(zhǔn)匹配遙感信息產(chǎn)品與用戶需求,實現(xiàn)遙感信息的精準(zhǔn)推薦。開發(fā)實現(xiàn)了基于用戶畫像的遙感信息精準(zhǔn)服務(wù)系統(tǒng),對上述技術(shù)方法進(jìn)行了實驗驗證。實驗結(jié)果表明,技術(shù)途徑合理可行,為實現(xiàn)遙感數(shù)據(jù)的主動精準(zhǔn)推送提供了解決方案。