王子嵐,曹路舟
(1.黃山職業(yè)技術(shù)學(xué)院 工業(yè)與財(cái)貿(mào)系,安徽 黃山 245000;2.安徽黃梅戲藝術(shù)職業(yè)學(xué)院 圖文信息中心,安徽 安慶 246000)
隨著當(dāng)前網(wǎng)絡(luò)信息量的不斷增加,信息過(guò)載現(xiàn)象逐漸涌現(xiàn),并造成搜索引擎精確度下降等問(wèn)題,為此隱語(yǔ)義模型逐漸成為推薦搜索系統(tǒng)領(lǐng)域的熱點(diǎn)名詞.傳統(tǒng)的關(guān)鍵詞推送方法在進(jìn)行數(shù)據(jù)迭代尋優(yōu)的過(guò)程中,通常使用梯度下降類算法中的隨機(jī)梯度下降法完成任務(wù),且傳統(tǒng)人工信息分類不能滿足用戶的需求,在一定程度上很難控制分類的質(zhì)量,對(duì)于不同用戶行為數(shù)據(jù)很難給出多種相對(duì)應(yīng)分類,隱語(yǔ)義模型充分考慮傳統(tǒng)人工信息分類的不足,很大程度上改善問(wèn)題[1].隱語(yǔ)義模型是指從用戶的行為數(shù)據(jù)角度考慮,自動(dòng)找到這些分類規(guī)則,然后進(jìn)行適合用戶的個(gè)性化推薦,以此完成用戶行為數(shù)據(jù)算法推薦,相關(guān)方面的研究越來(lái)越得到眾多專家和學(xué)者的關(guān)注.
楊辰等[2]提出融合語(yǔ)義和社交特征的電子文獻(xiàn)資源推薦方法,在基于用戶的協(xié)同過(guò)濾方法的基礎(chǔ)上引用隱語(yǔ)義主題模型,充分考慮用戶的信息數(shù)據(jù)的推薦方式,運(yùn)用相似性的非監(jiān)督體系進(jìn)行信息融合,在此基礎(chǔ)上實(shí)現(xiàn)對(duì)電子文獻(xiàn)資源推薦方法進(jìn)行優(yōu)化.李艷娟等[3]提出基于蜂群K-means聚類模型的協(xié)同過(guò)濾推薦算法,首先設(shè)計(jì)用戶隱語(yǔ)義聚類模型,以此為依據(jù)計(jì)算用戶與目標(biāo)用戶之間的聚類模型中各聚類中心的連接距離,通過(guò)蜂群K-means聚類模型完成協(xié)同過(guò)濾推薦算法的計(jì)算,最后根據(jù)計(jì)算結(jié)果同時(shí)通過(guò)相識(shí)度計(jì)算搜索目標(biāo)用戶的推薦信息.
基于隱語(yǔ)義模型的推薦算法,可實(shí)現(xiàn)根據(jù)關(guān)鍵詞來(lái)獲得更多有效信息,進(jìn)一步解決當(dāng)前用戶信息搜索結(jié)果不精確的問(wèn)題.基于隱語(yǔ)義模型的推薦算法成為現(xiàn)階段人們從信息海洋中獲取有效信息的關(guān)鍵途徑之一,通過(guò)對(duì)用戶歷史行為記錄數(shù)據(jù)進(jìn)行整合分析,獲取其特征數(shù)值,從而有效判斷用戶的偏好,準(zhǔn)確推送用戶所需的信息.不考慮隱語(yǔ)義模型推薦過(guò)程中常見(jiàn)的數(shù)據(jù)損失現(xiàn)象,結(jié)合傳統(tǒng)的信息特征推薦梯度下降算法進(jìn)行優(yōu)化,分析兩類梯度下降算法的優(yōu)缺點(diǎn),并進(jìn)行結(jié)合和優(yōu)化處理,從而更好地提高基于隱語(yǔ)義模型的推薦算法的準(zhǔn)確性.
為保障信息推薦的準(zhǔn)確性,首先對(duì)隱語(yǔ)義模型數(shù)據(jù)特征進(jìn)行采集,獲取用戶的個(gè)性化喜好信息,并針對(duì)采集到的特征數(shù)據(jù)及搜索關(guān)鍵詞,進(jìn)行信息分類和推薦.為保障信息推送的準(zhǔn)確性,結(jié)合最小梯度下降算法和隱語(yǔ)義模型對(duì)數(shù)據(jù)信息特征采集和分類算法進(jìn)行規(guī)范[4].首先采用小樣本梯度下降法對(duì)用戶興趣信息進(jìn)行隨機(jī)抽取,并對(duì)收取到的特征信息進(jìn)行挖掘,則采集到的信息特征相關(guān)性數(shù)值算法可記為
(1)
(2)
式中,Qa和Qb分別表示為相似度預(yù)選評(píng)分?jǐn)?shù)值和相似度評(píng)分均值.根據(jù)數(shù)據(jù)特征系數(shù)進(jìn)一步對(duì)不同的數(shù)據(jù)相似性結(jié)果進(jìn)行分類,若ΔV>1則可將數(shù)據(jù)歸類至相似特征集;若ΔV≤1則進(jìn)一步對(duì)數(shù)據(jù)特征進(jìn)行挖掘分類,計(jì)算其特征相似類別[5].針對(duì)不同的信息特征相似度數(shù)值進(jìn)行特征等級(jí)劃分,并整合為特征集合,以便對(duì)不同等級(jí)中的差異性特征數(shù)值進(jìn)行評(píng)價(jià),并選擇最優(yōu)評(píng)價(jià)尺度進(jìn)行記錄.結(jié)合模糊控制算法對(duì)網(wǎng)絡(luò)流量信息特征進(jìn)行采集,進(jìn)一步對(duì)用戶檢索信息趨向進(jìn)行挖掘數(shù),并規(guī)范參考特征數(shù)值,其限制條件可記為Y,則信息特征數(shù)據(jù)挖掘興趣度算法為
I(n)=Sij×ΔV×C(Yi+Yj),
(3)
(4)
式中,h表示每一個(gè)特征等類別都會(huì)包含一個(gè)組列,u表示各個(gè)特征子集之間的共性特征屬性,e表示差異性特征數(shù)值,t表示數(shù)據(jù)中的隱語(yǔ)義信息挖掘次數(shù),n表示數(shù)據(jù)特征類別數(shù)量.基于以上算法有效對(duì)用戶非重要性關(guān)鍵詞進(jìn)行排查和檢測(cè),根據(jù)特征數(shù)值進(jìn)行特征類別劃分,從而更好地幫助用戶篩選喜愛(ài)的興趣信息.基于上述算法對(duì)用戶興趣信息進(jìn)行評(píng)價(jià),判斷信息共性特征的評(píng)分向量,確定用戶新相似性及相似程度,以便更好地進(jìn)行隱語(yǔ)義特征數(shù)據(jù)類別的分類篩選和有效推薦.
基于上述算法進(jìn)行信息數(shù)據(jù)的篩選和推薦,為保障數(shù)據(jù)推薦的準(zhǔn)確性,對(duì)篩選步驟進(jìn)行優(yōu)化,并在人際交互界面上對(duì)特征信息進(jìn)行顯示,以便提供給用戶進(jìn)行判斷,并對(duì)隱語(yǔ)義模型的行為特征數(shù)據(jù)進(jìn)行篩選.在信息推薦過(guò)程中,對(duì)興趣信息相似度是提高推薦精度很重要的一部分.在不同的推薦場(chǎng)景中,選擇的相似度的計(jì)算方法也不相同.設(shè)An點(diǎn)特征向量取值范圍為(a1,a2,a3,…,an),Bm點(diǎn)特征向量取值范圍為(b1,b2,b3,…,bn),則An點(diǎn)與Bm點(diǎn)的共性特征表示公式為
(5)
根據(jù)用戶歷史信息瀏覽和收藏情況進(jìn)行反饋和檢測(cè),判斷用戶最高檢索情況和數(shù)據(jù)點(diǎn)擊率,同時(shí)分析數(shù)據(jù)搜索結(jié)果,進(jìn)行有效信息的篩選,并提供個(gè)性化推薦列表.結(jié)合協(xié)同信息原理進(jìn)行數(shù)據(jù)特征過(guò)濾,對(duì)任意指定的興趣信息進(jìn)出篩選.假設(shè)在進(jìn)行信息篩選的過(guò)程中存在與用戶搜索興趣相似的一組特征集,結(jié)合隱語(yǔ)義原理對(duì)采集到的特征信息相似度標(biāo)準(zhǔn)進(jìn)行規(guī)劃和搜索,評(píng)價(jià)過(guò)的興趣信息的評(píng)分來(lái)預(yù)測(cè)對(duì)篩選信息的評(píng)分[7].信息推薦的聯(lián)系方式主要分為用戶與用戶聯(lián)系、與項(xiàng)目聯(lián)系以及與特征聯(lián)系,從而通過(guò)推薦系統(tǒng)聯(lián)系到推薦的項(xiàng)目.具體的數(shù)據(jù)推薦管理關(guān)聯(lián)原理如圖1所示.
圖1 數(shù)據(jù)推薦管理關(guān)聯(lián)原理
基于以上原理,結(jié)合網(wǎng)絡(luò)信息協(xié)同過(guò)濾原理進(jìn)行用戶興趣信息的特征采集處理,對(duì)于任意一個(gè)用戶,假設(shè)其擁有與之興趣相似的一組數(shù)據(jù)特征類別,則基協(xié)同過(guò)濾原理和隱語(yǔ)義模型進(jìn)行信息相似度對(duì)比,為保障特征采集的準(zhǔn)去性需要進(jìn)行特殊分類標(biāo)準(zhǔn)的規(guī)劃,需要對(duì)用戶以往的搜索行為進(jìn)行興趣類別比分析,并對(duì)比其他用戶的相似搜索信息進(jìn)行信息特征類別的篩選,根據(jù)篩選結(jié)果進(jìn)行分類評(píng)價(jià),獲取用戶潛在興趣項(xiàng)目的評(píng)分,根據(jù)評(píng)分內(nèi)結(jié)構(gòu)推送相似信息[8].對(duì)不同信息的相似度計(jì)算并劃分相似度等級(jí),從而在推薦系統(tǒng)中得到不同等級(jí)的差異結(jié)果數(shù)值,根據(jù)差異數(shù)值對(duì)不同用戶需求選擇不同的相似度評(píng)價(jià)方法進(jìn)行分類處理,并進(jìn)行多種排列嘗試,構(gòu)建了基于大數(shù)據(jù)的電子商務(wù)框架圖,如圖2所示.
圖2 基于語(yǔ)義模型的信息處理塊
基于以上模塊進(jìn)行用戶信息的篩選分類,并構(gòu)建隱語(yǔ)義信息庫(kù)模型,選取信息的最優(yōu)行為路徑,然后對(duì)篩選出的相似信息和并向推薦庫(kù)發(fā)送傳輸請(qǐng)求,并按照用戶興趣計(jì)算推薦信息,最后對(duì)客戶端響應(yīng)結(jié)果進(jìn)行顯示[9].進(jìn)一步利用隱語(yǔ)義模型找到用戶搜索趨向及采集到的相似數(shù)據(jù)進(jìn)行篩選和推薦,當(dāng)用戶對(duì)該信息給予高度評(píng)價(jià)時(shí),推薦給用戶與該信息相似度較高的其他信息,保障信息推薦的快速和精準(zhǔn).
1.3.1 信息重要性影響排序
為了更好地實(shí)現(xiàn)對(duì)用戶信息進(jìn)行推薦,首先對(duì)隱語(yǔ)義模型中的模糊數(shù)據(jù)進(jìn)行統(tǒng)一評(píng)價(jià),并根據(jù)評(píng)價(jià)結(jié)果對(duì)語(yǔ)義模型推薦功能進(jìn)行改善,在進(jìn)行隱語(yǔ)義信息的推薦過(guò)程中,受到的語(yǔ)義模型多元化重要性因素影響,對(duì)推薦信息進(jìn)行分步評(píng)估和加固處理,所推薦的相關(guān)特征信息數(shù)據(jù)的最大有效性特征范圍在Kmax范圍內(nèi),其計(jì)算公式為
(6)
式中,Hj表示隱語(yǔ)義模型篩查出的相似特征內(nèi)容數(shù)據(jù)信息推薦要求,Ni表示特征信息的初始推薦功能偏好.在上述算法中,若i=(1,2,3,…,n),j=(1,2,3,…,m),設(shè)篩選出的相似信息重要性特征影響度為P,推薦信息的評(píng)估體系構(gòu)成要素為n,每個(gè)評(píng)估體系的重要性影響度數(shù)據(jù)編碼集合為Pij,且Pij={P1,P2,…,Pi},通過(guò)對(duì)隱語(yǔ)義模型特征信息推薦的重要性影響進(jìn)度數(shù)值S進(jìn)行數(shù)據(jù)編碼和集中分類管理,繼而從篩選的數(shù)據(jù)結(jié)果中劃分出數(shù)據(jù)推送的重要程度等級(jí),最后再對(duì)隱義模型數(shù)值特征行為所受重要性影響等級(jí)進(jìn)行計(jì)算,得到公式(7):
(7)
若G為隱語(yǔ)義模型數(shù)據(jù)的總體信息評(píng)測(cè)有效度,在進(jìn)行信息推薦的過(guò)程中,受到zij個(gè)重要性因素干擾,且干擾程度為D,則篩選出的信息重要性影響排序算法為:
(8)
采用上述步驟對(duì)隱語(yǔ)義模型信息特征的多元化屬性影響因素進(jìn)行優(yōu)化,獲取關(guān)聯(lián)性信息的最終特征相似性測(cè)評(píng)影響數(shù)值,利用計(jì)算機(jī)網(wǎng)絡(luò)用戶的相關(guān)動(dòng)作數(shù)據(jù)特征,輔助區(qū)別正常推薦數(shù)據(jù)與異常推薦數(shù)據(jù),并對(duì)這些推薦數(shù)據(jù)的特征進(jìn)行匹配,以此實(shí)現(xiàn)對(duì)隱語(yǔ)義數(shù)據(jù)數(shù)據(jù)的挖掘和分類[10].再對(duì)獲取到的信息特征規(guī)則進(jìn)行統(tǒng)一歸類和數(shù)據(jù)更新,構(gòu)建出相對(duì)較完備與精準(zhǔn)的信息儲(chǔ)備庫(kù),以便對(duì)信息數(shù)據(jù)進(jìn)行準(zhǔn)確推薦.
1.3.2 用戶興趣數(shù)據(jù)信息推薦
由于在進(jìn)行數(shù)據(jù)推薦的操作過(guò)程中,需要進(jìn)行大范圍的數(shù)據(jù)搜索,為保障數(shù)據(jù)搜索的有效性需要對(duì)采集到的全部信息特征值匯總潛在關(guān)鍵詞進(jìn)行提取,最大程度上縮小信息搜索的范圍,由于隱語(yǔ)義模型關(guān)鍵詞存在一定的隱藏性,因此在進(jìn)行信息推薦的過(guò)程中存在較大的信息挖掘難度,為此需要結(jié)合模糊聚類隱語(yǔ)義融合模型推薦算法對(duì)不同數(shù)據(jù)特征類別集合進(jìn)行挖掘訓(xùn)練,并整合出數(shù)據(jù)的相應(yīng)特征的聚類簇集合,并將采集到的集合信息特征存入隱語(yǔ)義模型中的分布式數(shù)據(jù)庫(kù)數(shù)據(jù)處理模塊,設(shè)計(jì)隱語(yǔ)義模型訓(xùn)練因子排列等級(jí)評(píng)估模型,具體模型結(jié)構(gòu)如圖3所示.
圖3 隱語(yǔ)義模型訓(xùn)練因子排列等級(jí)評(píng)估模型
為保障信息推薦的合理性,進(jìn)一步對(duì)隱語(yǔ)義模型推薦流程進(jìn)行優(yōu)化,分別在離線和在線狀態(tài)下對(duì)信息推薦流程進(jìn)行優(yōu)化處理,判斷相似信息及特征集,從而進(jìn)行信息推薦,具體信息推薦流程如圖4所示.
圖4 基于隱語(yǔ)義模型的信息推薦流程
根據(jù)以上流程對(duì)推薦信息進(jìn)行相似性篩查和排序處理,可更好的提高對(duì)用戶興趣數(shù)據(jù)推薦的有效性,同時(shí)保障在海量數(shù)據(jù)環(huán)境下對(duì)特征數(shù)據(jù)的準(zhǔn)確挖掘.
為驗(yàn)證基于隱語(yǔ)義模型的推薦算法,對(duì)比傳統(tǒng)推薦算法進(jìn)行了準(zhǔn)確性對(duì)比檢測(cè),為保障檢測(cè)結(jié)果的準(zhǔn)確性,首先對(duì)實(shí)驗(yàn)環(huán)境及參數(shù)進(jìn)行統(tǒng)一設(shè)置.
實(shí)驗(yàn)采用的集群由三臺(tái)機(jī)器組成,其種一臺(tái)為Master,作為Name Node節(jié)點(diǎn)來(lái)配置,其余兩臺(tái)為Slave來(lái)配置,處理器CPU為lntel(R) Core(TM)i7-7700 CPU@3.60GHZ,內(nèi)存128G,操作系統(tǒng)為CentOS6.6.實(shí)驗(yàn)數(shù)據(jù)來(lái)源為Group Lens Research項(xiàng)目組提供的Movielens數(shù)據(jù)集,在數(shù)據(jù)集內(nèi)排除限定條件較多的樣本集,排除與本文研究擬合程度較低的樣本集,排除特征不明顯的樣本集,剩余樣本集合90個(gè).
將樣本集合分為9組,進(jìn)行9次測(cè)試實(shí)驗(yàn).為在上述實(shí)驗(yàn)環(huán)境下進(jìn)行多次對(duì)比檢測(cè),將用戶興趣值作為數(shù)據(jù)推薦有效性的評(píng)價(jià)標(biāo)準(zhǔn),為方便對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行觀察和記錄,將本文算法檢測(cè)結(jié)果記為A,將文獻(xiàn)[2]算法檢測(cè)結(jié)果記為B,將文獻(xiàn)[3]算法檢測(cè)結(jié)果記為C.具體用戶興趣值對(duì)比檢測(cè)結(jié)果如圖5所示.
由圖5可知,對(duì)比文獻(xiàn)[2]算法、文獻(xiàn)[3]算法以及本文方法大致可分為兩種模式,文獻(xiàn)[2]算法、文獻(xiàn)[3]算法在10~30個(gè)樣本集下的用戶感興趣程度最高,而本文與之相反,可滿足不同樣本集的不同需求,且其整體用戶感興趣程度始終高于其他兩種文獻(xiàn)方法,說(shuō)明本文提出的基于隱語(yǔ)義模型的推薦算法在進(jìn)行信息推薦的過(guò)程中,用戶興趣值相對(duì)較高.為進(jìn)一步驗(yàn)證本文算法的合理性,對(duì)比本文算法和文獻(xiàn)[2]算法和文獻(xiàn)[3]算法的準(zhǔn)確性進(jìn)行驗(yàn)證,其準(zhǔn)確率公式如式(9)所示.
用戶樣本集/個(gè)圖5 用戶興趣值對(duì)比實(shí)驗(yàn)檢測(cè)結(jié)果
(9)
在公式(9)中,G(a)表示a最終選擇對(duì)象集合的總量;H(a)表示a最終選擇對(duì)象集合的數(shù)值量;F表示對(duì)象集合.利用準(zhǔn)確率公式計(jì)算本文算法和文獻(xiàn)[2]算法和文獻(xiàn)[3]算法的分布等級(jí)準(zhǔn)確性,其中誤差最大值為20%,區(qū)段誤差最大值為1%,誤差值越低則表示模型越準(zhǔn)確,其結(jié)果如表1所示.
表1 三種方法準(zhǔn)確性分布等級(jí)對(duì)比
由表1可知,與文獻(xiàn)[2]算法和文獻(xiàn)[3]算法對(duì)比,本文算法的對(duì)比誤差僅為5%,遠(yuǎn)遠(yuǎn)低于允許取值誤差;文獻(xiàn)[2]算法和文獻(xiàn)[3]算法誤差分別處于25%和26%,遠(yuǎn)遠(yuǎn)高于允許取值誤差20%,且區(qū)段誤差只有本文算法保持在規(guī)定極限以內(nèi),文獻(xiàn)[2]算法和文獻(xiàn)[3]算法的區(qū)段誤差值超出允許區(qū)段誤差值.由此證實(shí)基于隱語(yǔ)義模型的推薦算法具有較高的準(zhǔn)確性和實(shí)用性,為用戶行為數(shù)據(jù)的推薦奠定了基礎(chǔ),增加了推薦結(jié)果的完整性和可行性.
用戶需要花費(fèi)大量的時(shí)間從眾多數(shù)據(jù)獲得自己想要的信息,造成信息過(guò)載過(guò)重,這時(shí)就需要有技術(shù)或工具能夠幫用戶過(guò)濾掉不感興趣或者與所想要的信息不相關(guān)的信息,為此提出了基于隱語(yǔ)義模型的推薦算法,通過(guò)采集用戶興趣信息特征數(shù)值,對(duì)近鄰特征信息進(jìn)行評(píng)估分類,并針對(duì)采集到的特征數(shù)據(jù)及搜索關(guān)鍵詞,根據(jù)用戶平均興趣度以及不相似度懲罰系數(shù)設(shè)置向量特征信息值,劃分特征等級(jí),以便對(duì)興趣信息進(jìn)行有效劃分.最后通過(guò)實(shí)驗(yàn)分析,結(jié)果表明本文提出的基于隱語(yǔ)義模型的推薦算法能夠滿足不同用戶的需求信息的推薦,且提高信息推薦的準(zhǔn)確性,在未來(lái)的研究中,可就如何縮短基于隱語(yǔ)義模型推薦算法的推薦時(shí)間進(jìn)行深入的研究.