趙 麗
(六安職業(yè)技術(shù)學(xué)院 經(jīng)濟(jì)管理學(xué)院,安徽 六安 237158)
進(jìn)入信息資源爆炸時(shí)代后,互聯(lián)網(wǎng)技術(shù)開(kāi)始逐步滲入到人們?nèi)粘I钪衃1],在健康、養(yǎng)老等領(lǐng)域發(fā)揮巨大作用。而面對(duì)海量信息資源,如何捕捉用戶(hù)個(gè)人偏好,為其提供所需信息,逐漸成為很多人關(guān)注的重點(diǎn)[2]。對(duì)于健康養(yǎng)老用戶(hù)群體來(lái)說(shuō),其表現(xiàn)出的信息需求更加個(gè)性化,想要將信息推送給合適的對(duì)象,就需要信息推送算法的輔助來(lái)識(shí)別用戶(hù)需求并找到符合其需求的信息,為這一群體提供更高質(zhì)量的養(yǎng)老服務(wù)。
考慮到不同健康養(yǎng)老信息表達(dá)的主體不同,為了找到符合要求的推送信息,應(yīng)用LDA主題模型建立一種健康養(yǎng)老信息主題抽取方案,將每條信息分解為多個(gè)詞項(xiàng),并分析詞項(xiàng)和文檔關(guān)聯(lián)[4]。應(yīng)用LDA主題模型進(jìn)行三層式有向概率計(jì)算,獲取每個(gè)詞項(xiàng)的出現(xiàn)概率,與該詞項(xiàng)屬于某個(gè)主題的概率,從而確定健康養(yǎng)老信息的主題。
在已知信息淺層主題數(shù)量后,將文本內(nèi)某個(gè)詞匯出現(xiàn)的概率計(jì)算表示為式(1):
(1)
式中,αi表示第i個(gè)詞匯,p表示概率值,l表示淺層主題,L表示健康養(yǎng)老信息包含的淺層主題數(shù)量,β表示潛在變量,P(αi|βi=l)表示目標(biāo)詞匯屬于淺層主題的概率,P(βi=l)表示文本屬于該主題的概率。
為了便于理解分析,通過(guò)圖1所示的詞項(xiàng)文檔矩陣分解模式,簡(jiǎn)化式(1)的計(jì)算過(guò)程。
圖1 詞項(xiàng)文檔矩陣分解示意圖
在詞項(xiàng)文檔矩陣分解結(jié)束后,分別建立詞項(xiàng)-主題矩陣、主題-文檔矩陣,運(yùn)用LDA模型進(jìn)行信息主題抽取時(shí),其核心環(huán)節(jié)就是計(jì)算兩個(gè)矩陣的乘積,考慮文本語(yǔ)義關(guān)聯(lián)后,計(jì)算出健康養(yǎng)老信息文本中,目標(biāo)詞匯出現(xiàn)概率。
(2)
式中,d表示文本,δ表示文檔分布,φ表示主體分布。
通過(guò)求解LDA主題模型可以了解健康養(yǎng)老信息文本中每個(gè)詞匯出現(xiàn)概率,從中選擇出現(xiàn)概率較高的詞匯,計(jì)算其屬于各個(gè)主題的概率[4],根據(jù)概率值判斷當(dāng)前健康養(yǎng)老信息內(nèi)容對(duì)應(yīng)的主題,根據(jù)信息主題可以將待推送的信息進(jìn)行分類(lèi),輔助推送信息的選擇。
從互聯(lián)網(wǎng)用戶(hù)信息瀏覽歷史數(shù)據(jù)入手,分析各種用戶(hù)瀏覽行為,并運(yùn)用熵權(quán)理論計(jì)算該行為的權(quán)重。以此為基礎(chǔ),構(gòu)建用戶(hù)興趣度模型。其中,互聯(lián)網(wǎng)用戶(hù)興趣度計(jì)算公式為:
K(c)=H(ε(c),q(c),ι(c),t(c)),
(3)
式中,c表示健康養(yǎng)老信息,K表示用戶(hù)興趣度,H表示興趣度函數(shù),ε表示保存率,q表示轉(zhuǎn)發(fā)率,ι表示點(diǎn)擊率,t表示用戶(hù)在消息頁(yè)面停留時(shí)間。
考慮到用戶(hù)瀏覽健康養(yǎng)老推送信息時(shí),各種行為對(duì)興趣度貢獻(xiàn)不一樣,為了得到更加深入地了解用戶(hù)興趣,需要對(duì)各種操作行為設(shè)置對(duì)應(yīng)的權(quán)值。
(4)
式中,w1、w2、w3表示熵權(quán)法計(jì)算出的權(quán)重,η表示信息長(zhǎng)度,e表示信息文本中的某一詞匯。
在實(shí)際操作過(guò)程中,需要針對(duì)用戶(hù)瀏覽記錄組建指標(biāo)矩陣,根據(jù)用戶(hù)瀏覽行為對(duì)興趣度的影響,從正、逆兩個(gè)方向?qū)g覽行為數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
(5)
應(yīng)用標(biāo)準(zhǔn)化處理后的數(shù)據(jù),和用戶(hù)瀏覽行為權(quán)重量化結(jié)果,構(gòu)建用戶(hù)興趣度模型:
(6)
式中,η表示用戶(hù)興趣度模型,w表示權(quán)重因子,υ表示用戶(hù),F(xiàn)表示用戶(hù)點(diǎn)擊推送信息的時(shí)間間隔,Y表示用戶(hù)使用推送結(jié)果的時(shí)間跨度。
在已知待推薦信息主題和用戶(hù)興趣偏好后,應(yīng)用協(xié)同過(guò)濾推薦算法建立健康養(yǎng)老推送信息篩選策略。實(shí)際操作過(guò)程中,假如用戶(hù)對(duì)一條健康養(yǎng)老信息有興趣,則與該信息同屬一個(gè)主題的其他信息,也很有可能獲得用戶(hù)關(guān)注,如圖2所示。
圖2 基于項(xiàng)目的協(xié)同過(guò)濾算法
運(yùn)用圖2所示的基于項(xiàng)目的協(xié)同過(guò)濾算法進(jìn)行健康養(yǎng)老信息推薦時(shí),為了簡(jiǎn)化信息推薦步驟,需要將用戶(hù)偏好和信息主題均映射為健康養(yǎng)老標(biāo)簽,通過(guò)修正后的余弦相似度計(jì)算公式,獲取不同健康養(yǎng)老信息的相似度,將相似度較高的信息歸納在一個(gè)標(biāo)簽內(nèi),根據(jù)用戶(hù)的歷史瀏覽內(nèi)容確定用戶(hù)興趣標(biāo)簽,而后再搜索相似度最高的信息資源進(jìn)行推送。
協(xié)同過(guò)濾推薦算法的實(shí)現(xiàn)主要包括兩個(gè)步驟。首先,依據(jù)健康養(yǎng)老信息資源體系的標(biāo)準(zhǔn)規(guī)范,定義用戶(hù)興趣關(guān)鍵詞,并將所有關(guān)鍵詞劃分到不同的分類(lèi)標(biāo)簽之內(nèi),然后,應(yīng)用修正后的余弦相似度計(jì)算公式,獲取兩個(gè)向量夾角的余弦值,并以此來(lái)衡量選定個(gè)體之間的相似程度,當(dāng)余弦值為0時(shí),每?jī)蓚€(gè)向量之間表現(xiàn)出垂直的特點(diǎn),這也表明兩者之間完全不同,反之,余弦值越靠近1,則表明兩者之間完全相似。
在健康養(yǎng)老信息推送實(shí)現(xiàn)過(guò)程中應(yīng)用云計(jì)算智慧平臺(tái),本質(zhì)上是采用虛擬化技術(shù)匯總可推送信息,在平臺(tái)中形成資源池。實(shí)際推送過(guò)程中可以將每個(gè)信息推送問(wèn)題描述為一個(gè)任務(wù),通過(guò)云計(jì)算智慧平臺(tái)分離任務(wù)要求,在多個(gè)虛擬機(jī)的共同作用下從資源池找到最符合要求的信息資源,將其推送給用戶(hù)完成任務(wù)。在平臺(tái)上運(yùn)行MapReduce框架,實(shí)施“分而治之”的思想,將健康養(yǎng)老信息推送任務(wù)分解為多個(gè)子任務(wù),任務(wù)處理主要依托于map(映射)和reducer(規(guī)約)兩個(gè)函數(shù),分解過(guò)程如圖3所示。
圖3 云計(jì)算智慧平臺(tái)的MapReduce數(shù)據(jù)處理框架
利用云計(jì)算智慧平臺(tái)執(zhí)行信息推送服務(wù)時(shí),其服務(wù)質(zhì)量計(jì)算過(guò)程如式(7)所示。
hSr={ωr,Mr,Br,Er,Or},
(7)
式中,r表示云計(jì)算智慧平臺(tái)的虛擬機(jī),S表示信息推送任務(wù)集,h表示服務(wù)質(zhì)量,ω表示操作時(shí)間,M表示內(nèi)存,B表示網(wǎng)絡(luò)帶寬,E、O分別表示安全性、信息推送能耗。
而后,分析養(yǎng)老信息推送總時(shí)間:
(8)
式中,ω′表示云計(jì)算智慧平臺(tái)完成信息推送服務(wù)消耗的總時(shí)間,ξ表示平臺(tái)內(nèi)虛擬機(jī)數(shù)量,λ表示健康養(yǎng)老信息推送任務(wù),ωrλ表示虛擬機(jī)r完成推送任務(wù)λ消耗的時(shí)間。
用戶(hù)對(duì)云計(jì)算智慧平臺(tái)推送服務(wù)的滿(mǎn)意程度可以通過(guò)式(9)~(11)進(jìn)行計(jì)算。
(9)
(10)
(11)
根據(jù)上述計(jì)算結(jié)果,對(duì)云計(jì)算智慧平臺(tái)進(jìn)行調(diào)整,確保其在健康養(yǎng)老信息推送過(guò)程中,可以保證信息推送任務(wù)執(zhí)行情況符合要求。
提出的健康養(yǎng)老信息推薦算法應(yīng)用了云計(jì)算智慧平臺(tái),屬于創(chuàng)新型研究項(xiàng)目。為了確保該算法可以發(fā)揮良好的信息推送性能,需要進(jìn)行實(shí)驗(yàn)測(cè)試。在實(shí)驗(yàn)準(zhǔn)備節(jié)點(diǎn)利用現(xiàn)有的開(kāi)源云平臺(tái)(Cloud Foundry)開(kāi)發(fā)出全新的云計(jì)算智慧平臺(tái),該平臺(tái)的主要架構(gòu)如圖4所示。
圖4 健康養(yǎng)老信息推送服務(wù)云計(jì)算智慧平臺(tái)架構(gòu)
由圖4可知,服務(wù)節(jié)點(diǎn)不能直接從DEA容器包含應(yīng)用中獲取服務(wù),而是需要在基礎(chǔ)服務(wù)架構(gòu)上創(chuàng)建一個(gè)服務(wù)實(shí)例,經(jīng)由基礎(chǔ)架構(gòu)綁定服務(wù)實(shí)例和DEA容器,綁定后DEA也可以通過(guò)服務(wù)實(shí)例獲取讀物節(jié)點(diǎn)提供的信息。
考慮到健康養(yǎng)老信息推薦涉及的內(nèi)容繁多,且所有信息都需要上傳到平臺(tái),以便后續(xù)信息篩選和信息推送,為了避免出現(xiàn)失誤,在開(kāi)發(fā)云計(jì)算智慧平臺(tái)時(shí),需要添加一個(gè)后臺(tái)管理工具cfdo(云代工廠),該工具提供的主要功能如表1所示。
表1 后臺(tái)管理工具cfdo主要功能操作
可用于健康養(yǎng)老信息推送的云計(jì)算智慧平臺(tái)開(kāi)發(fā)結(jié)束后,采集此次實(shí)驗(yàn)所需的數(shù)據(jù),從網(wǎng)絡(luò)上獲取帶有特征標(biāo)簽的健康養(yǎng)老相關(guān)的公開(kāi)數(shù)據(jù)構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集。再選擇100名健康養(yǎng)老用戶(hù)來(lái)作為實(shí)驗(yàn)對(duì)象,應(yīng)用所提算法進(jìn)行健康養(yǎng)老信息推送實(shí)驗(yàn)。同時(shí),為了提升實(shí)驗(yàn)結(jié)果的說(shuō)服力,此次實(shí)驗(yàn)過(guò)程中還同時(shí)應(yīng)用了文獻(xiàn)[2,5-6]提出的方法進(jìn)行信息推送,與所提算法推送結(jié)果進(jìn)行對(duì)比,體現(xiàn)所提算法的優(yōu)越性。
根據(jù)用戶(hù)注冊(cè)時(shí)選取的興趣標(biāo)簽,以及用戶(hù)歷史瀏覽數(shù)據(jù),構(gòu)建用戶(hù)興趣模型。建模完成后,篩選所有用戶(hù)興趣標(biāo)簽只保留3個(gè)記錄在數(shù)據(jù)庫(kù)中,形成圖5所示的存儲(chǔ)記錄。
圖5 用戶(hù)興趣標(biāo)簽記錄結(jié)果
以圖5所示的用戶(hù)興趣標(biāo)簽為基礎(chǔ),在云計(jì)算智慧平臺(tái)的輔助下進(jìn)行健康養(yǎng)老信息推送,用戶(hù)最終接收到的信息如圖6所示。
圖6 信息推送結(jié)果
從圖6可以看出,所提信息推送算法具有可行性。而為了對(duì)比該算法推送結(jié)果和其他方法的推送結(jié)果,采用F-Measure指標(biāo)衡量信息推送準(zhǔn)確性,該指標(biāo)是準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值,具體計(jì)算公式為:
(12)
式中,F(xiàn)表示F-Measure指標(biāo),R表示健康養(yǎng)老信息推送結(jié)果的召回率,P表示推送結(jié)果的準(zhǔn)確率。
應(yīng)用公式(12)進(jìn)行計(jì)算時(shí),準(zhǔn)確率和召回率需要依據(jù)用戶(hù)瀏覽記錄進(jìn)行計(jì)算,最終得出不同信息推送算法的F-Measure對(duì)比結(jié)果如圖7所示。
圖7 不同信息推送算法的F-Measure對(duì)比
由圖7可知,所提方法的F-Measure值在0.6左右,上下浮動(dòng)不大,而其他3種方法信息推送F-Mrasure平均值分別為0.41、0.35和0.34。綜上所述,所提方法與3種文獻(xiàn)提出方法相比,信息推送F-Measure值提升了31.67%、41.67%、43.33%,應(yīng)用該算法可以推送出更加符合用戶(hù)需求的信息。
總之,隨著人們對(duì)健康養(yǎng)老問(wèn)題的重視程度不斷增加,健康養(yǎng)老信息推送也成為備受關(guān)注的問(wèn)題。為了提升信息推送質(zhì)量,提供更好的健康養(yǎng)老服務(wù)[7],設(shè)計(jì)一種基于云計(jì)算智慧平臺(tái)的推送算法,利用云計(jì)算強(qiáng)大的數(shù)據(jù)處理能力,可以實(shí)現(xiàn)信息精準(zhǔn)推送,滿(mǎn)足人們的個(gè)性化信息需求。