亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        考慮主題多樣性的工程領(lǐng)域知識(shí)推薦方法

        2021-11-23 08:28:22王臨科蔣祖華李心雨
        工業(yè)工程 2021年5期
        關(guān)鍵詞:用戶

        王臨科,蔣祖華,李心雨

        (1.上海交通大學(xué) 機(jī)械與動(dòng)力工程學(xué)院,上海 200240;2.新加坡南洋理工大學(xué) 機(jī)械與宇航工程學(xué)院,新加坡 639798)

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,我國許多制造業(yè)企業(yè)都已搭建了自己的知識(shí)信息化平臺(tái),實(shí)現(xiàn)工程知識(shí)在企業(yè)局域網(wǎng)的交互和共享。信息化平臺(tái)上的每個(gè)用戶都可以創(chuàng)建新的知識(shí)條目,經(jīng)過管理員審核后在平臺(tái)發(fā)布,以供平臺(tái)其他用戶瀏覽和使用。然而,平臺(tái)在各個(gè)專業(yè)領(lǐng)域積累的海量知識(shí)易使用戶在面臨實(shí)際工程問題時(shí)產(chǎn)生“信息過載”,使得用戶很難快速獲取所需的內(nèi)容。對(duì)此,作為一種能夠?yàn)橛脩艨焖俸Y選出所需知識(shí)的工具,個(gè)性化知識(shí)推薦系統(tǒng)能夠有效提升企業(yè)知識(shí)主動(dòng)供應(yīng)能力和知識(shí)重用效率,因而吸引了眾多學(xué)者進(jìn)行大量的研究。

        現(xiàn)有的個(gè)性化知識(shí)推薦系統(tǒng)的研究大多以提高推薦準(zhǔn)確度為目標(biāo)。而近年來,學(xué)者們意識(shí)到,除了準(zhǔn)確度,推薦結(jié)果多樣性同樣是影響推薦效果優(yōu)劣的重要因素[1]。尤其是在工程領(lǐng)域,跨專業(yè)、跨學(xué)科的現(xiàn)象日益繁多,用戶在進(jìn)行工作時(shí)對(duì)知識(shí)的需求也總是涉及到多個(gè)特定專業(yè)領(lǐng)域(主題)的知識(shí)。并且,不同于電商等領(lǐng)域用戶偏好的隨機(jī)性,工程領(lǐng)域用戶的知識(shí)需求都具有明確的指向性。例如,船用柴油發(fā)動(dòng)機(jī)主要由燃油系統(tǒng)、滑油系統(tǒng)、冷卻水系統(tǒng)、啟動(dòng)空氣系統(tǒng)及主機(jī)遙控系統(tǒng)等組成。用戶在進(jìn)行相關(guān)的設(shè)計(jì)、維修等工作時(shí)的知識(shí)需求涉及到機(jī)械、電子、電氣、流體動(dòng)力學(xué)、熱力學(xué)等多個(gè)專業(yè)領(lǐng)域,而用戶興趣大多局限于少數(shù)幾個(gè)專業(yè)領(lǐng)域。若在進(jìn)行工程領(lǐng)域知識(shí)推薦時(shí)過度關(guān)注用戶偏好,將會(huì)導(dǎo)致兩方面的問題:1) 目標(biāo)用戶推薦列表主題單一,專業(yè)多樣性差,對(duì)用戶所需的知識(shí)主題領(lǐng)域覆蓋率低且沒有針對(duì)性,使推薦結(jié)果不能很好地滿足用戶的知識(shí)需求;2) 僅根據(jù)用戶興趣評(píng)分向量計(jì)算用戶相似度,而忽略近鄰用戶對(duì)相關(guān)知識(shí)主題的專業(yè)度,可能導(dǎo)致推薦結(jié)果質(zhì)量差。此外,由于缺乏系統(tǒng)性和關(guān)聯(lián)性視角,也造成對(duì)用戶需求發(fā)掘的局限性和偏差性。以上這些問題都會(huì)降低推薦準(zhǔn)確度和用戶滿意度。因此,有針對(duì)性地提升知識(shí)推薦結(jié)果的主題多樣性,能夠更好地滿足用戶的知識(shí)需求,對(duì)提升推薦準(zhǔn)確度和用戶滿意度有實(shí)際價(jià)值和意義[2]。

        現(xiàn)有關(guān)于推薦算法的研究大多僅致力于提高推薦結(jié)果的準(zhǔn)確度,常見的主要有傳統(tǒng)協(xié)同過濾推薦[3]以及基于機(jī)器學(xué)習(xí)模型的推薦[4]等,近年來還有結(jié)合數(shù)據(jù)挖掘[5]或深度學(xué)習(xí)模型[6]的推薦。這些推薦算法的推薦結(jié)果過于單一,導(dǎo)致長尾問題以及信息牢籠問題[7]。

        Miyamoto等[8]提出通過提高推薦結(jié)果多樣性解決這些問題。推薦結(jié)果的多樣性可以分為總體多樣性和個(gè)體多樣性。總體多樣性是指為所有用戶推薦的項(xiàng)目占總項(xiàng)目種類的比例,但對(duì)于工程領(lǐng)域知識(shí)推薦,其主要目的是滿足用戶個(gè)人的知識(shí)需求,因此本文旨在提高個(gè)體多樣性,使同一用戶的推薦列表中的知識(shí)涵蓋更多專業(yè)領(lǐng)域。個(gè)體多樣性推薦的關(guān)鍵在于提高單個(gè)推薦列表中項(xiàng)目間的差異度,Aytekin等[9]提出一種基于聚類的分類推薦方法,平衡了推薦準(zhǔn)確度和多樣性。Pathak等[10]提出一種聚類后過濾策略提高推薦結(jié)果的多樣性。上述研究采用后過濾策略,通過擴(kuò)大初始候選集來提升最終推薦列表多樣性。也有學(xué)者將平衡推薦準(zhǔn)確度和多樣性的問題看成求解兩個(gè)目標(biāo)函數(shù)的多目標(biāo)優(yōu)化問題。Hurley等[11]利用二元優(yōu)化方法以權(quán)衡推薦的準(zhǔn)確度和多樣性。厙向陽等[12]通過多目標(biāo)優(yōu)化算法提升推薦結(jié)果的多樣性。近年來,有學(xué)者將網(wǎng)絡(luò)和圖分析方法引入推薦領(lǐng)域。石進(jìn)平等[13]基于用戶社交關(guān)系圖網(wǎng)絡(luò)進(jìn)行推薦,有效提升推薦結(jié)果多樣性。Gan等[14]構(gòu)建用戶相似度網(wǎng)絡(luò)以改進(jìn)傳統(tǒng)的協(xié)同過濾推薦算法,很好地平衡推薦結(jié)果的準(zhǔn)確性和多樣性。另外,也有部分學(xué)者利用本體建模挖掘項(xiàng)目內(nèi)容間的語義關(guān)系,從而實(shí)現(xiàn)關(guān)聯(lián)推薦。游運(yùn)等[15]構(gòu)建家裝領(lǐng)域本體,挖掘用戶對(duì)互補(bǔ)商品或情景相關(guān)商品的需求,實(shí)現(xiàn)多樣性關(guān)聯(lián)推薦。劉龍繁等[16]以工程創(chuàng)新設(shè)計(jì)為場景,結(jié)合TRIZ理論和知識(shí)本體模型為用戶供應(yīng)多樣化知識(shí)。

        總結(jié)上述研究,文獻(xiàn)[9-12]采用的后過濾或多目標(biāo)優(yōu)化方法雖然能提升推薦結(jié)果多樣性,但忽略了不同類別間的關(guān)聯(lián),且這種多樣性是完全隨機(jī)的,不適用于工程領(lǐng)域知識(shí)推薦,因此需要基于知識(shí)主題間的關(guān)聯(lián)關(guān)系有針對(duì)性地進(jìn)行推薦。文獻(xiàn)[13-14]利用各種網(wǎng)絡(luò)結(jié)構(gòu)和圖模型發(fā)掘用戶及項(xiàng)目間的相關(guān)關(guān)系以提升推薦結(jié)果多樣性,但不符合工程領(lǐng)域知識(shí)主題間的關(guān)聯(lián)規(guī)律,因此需要構(gòu)造符合工程領(lǐng)域知識(shí)主題間關(guān)聯(lián)規(guī)律的知識(shí)主題網(wǎng)絡(luò)。文獻(xiàn)[15-16]雖然充分利用了項(xiàng)目內(nèi)容間的語義關(guān)系,但由于領(lǐng)域本體構(gòu)建復(fù)雜,更新困難,且自動(dòng)化程度極低,導(dǎo)致算法應(yīng)用場景非常有限,因此需要基于自動(dòng)化程度高且可移植性高的算法進(jìn)行推薦。綜上,面向工程領(lǐng)域知識(shí)急需一種新的主題多樣性推薦方法。

        1 基于TDCF推薦算法的工程領(lǐng)域知識(shí)推薦新機(jī)制

        基于對(duì)國內(nèi)外研究工作現(xiàn)狀的調(diào)研,結(jié)合企業(yè)現(xiàn)有知識(shí)信息化平臺(tái)的特點(diǎn),本文提出一種考慮主題多樣性的知識(shí)推薦新機(jī)制,如圖1所示。該機(jī)制通過集成推薦算法協(xié)助用戶高效獲取所需知識(shí),核心為TDCF推薦算法,算法與現(xiàn)有平臺(tái)的集成通過3個(gè)接口實(shí)現(xiàn):1) 日志接口,預(yù)處理用戶行為日志得到用戶行為序列數(shù)據(jù),并挖掘用戶群行為序列數(shù)據(jù);2) 文檔接口,對(duì)平臺(tái)知識(shí)文檔集合進(jìn)行預(yù)處理,并進(jìn)行知識(shí)主題聚類;3) 推薦接口,算法自動(dòng)完成相關(guān)計(jì)算,并通過推薦接口為目標(biāo)用戶生成知識(shí)推薦列表。

        圖1 面向工程領(lǐng)域知識(shí)的主題多樣性推薦新機(jī)制Figure 1 Topic diversity recommendation mechanism in the field of engineering knowledge

        不同于以往的推薦機(jī)制,TDCF推薦算法同時(shí)基于用戶專業(yè)度和知識(shí)主題網(wǎng)絡(luò)進(jìn)行推薦,因而能夠?yàn)橛脩籼峁┯嗅槍?duì)性且具有主題多樣性的知識(shí)建議。因此,該知識(shí)推薦新機(jī)制能更好地滿足用戶的知識(shí)需求,進(jìn)而能夠有效提升企業(yè)知識(shí)主動(dòng)供應(yīng)能力和知識(shí)重用效率。

        2 主題多樣性知識(shí)推薦算法

        TDCF推薦算法主要有5個(gè)核心要素:1) 用戶興趣模型,模型考慮用戶短期歷史行為時(shí)效性和知識(shí)文本長度對(duì)當(dāng)前興趣的影響,更準(zhǔn)確地刻畫了用戶偏好;2) 知識(shí)主題網(wǎng)絡(luò),體現(xiàn)知識(shí)主題間的關(guān)聯(lián)關(guān)系,并適用于當(dāng)前用戶群;3) 用戶專業(yè)度,體現(xiàn)用戶對(duì)知識(shí)主題的專業(yè)程度;4) 改進(jìn)的評(píng)分矩陣預(yù)填充方法,考慮用戶專業(yè)度,使評(píng)分預(yù)測(cè)更加準(zhǔn)確;5) 改進(jìn)的用戶相似度計(jì)算方法,有針對(duì)性地提升目標(biāo)用戶推薦列表中知識(shí)的主題多樣性。圖2所示為算法流程圖,主要分為以下幾個(gè)階段。

        圖2 TDCF知識(shí)推薦算法流程Figure 2 Flowchart of TDCF

        1) 收集用戶行為記錄數(shù)據(jù),每條數(shù)據(jù)包含用戶ID、知識(shí)條目ID、瀏覽開始時(shí)間Tstart、瀏覽結(jié)束時(shí)間Tend等 信息;從數(shù)據(jù)庫中獲得知識(shí)文本集合{I1,I2, ···,Im},m為知識(shí)條目數(shù)量。

        2) 對(duì)用戶行為記錄數(shù)據(jù)進(jìn)行預(yù)處理得到有序用戶行為序列數(shù)據(jù) (U,I,ΔT), ΔT為用戶U對(duì)知識(shí)條目I的瀏覽時(shí)長;對(duì)知識(shí)文本集合進(jìn)行預(yù)處理得到語料集合D={d1,d2,···,dm}。

        3) 基于有序用戶行為序列數(shù)據(jù) (U,I,ΔT),構(gòu)造三維用戶行為矩陣B(U,I,S),S表示用戶行為序列的先后順序,并基于B(U,I,S)計(jì)算當(dāng)前用戶興趣評(píng)分矩陣C(U,I)。

        4) 對(duì)語料集合D={d1,d2,···,dm}進(jìn)行LDA主題聚類得到主題集合T={t1,t2,···,tk} ,k為聚類主題數(shù)量,并基于主題關(guān)鍵詞共現(xiàn)關(guān)系和用戶行為序列數(shù)據(jù),構(gòu)造知識(shí)主題網(wǎng)絡(luò)G=(V,E),G為有向圖結(jié)構(gòu)。

        5) 計(jì)算用戶?主題專業(yè)度pU,t,并考慮用戶專業(yè)度對(duì)用戶評(píng)分矩陣C(U,I)預(yù)填充。

        6) 基 于C(U,I)、pU,t、G=(V,E)計(jì) 算 用 戶 相 似度,查找目標(biāo)用戶的近鄰用戶,并根據(jù)近鄰用戶的偏好為目標(biāo)用戶生成推薦列表。

        2.1 用戶興趣模型

        傳統(tǒng)的0-1用戶興趣評(píng)分矩陣僅將用戶偏好分為喜歡和不喜歡,無法準(zhǔn)確地衡量用戶對(duì)知識(shí)的喜好程度,因此本文采用用戶瀏覽時(shí)長衡量用戶偏好。通過對(duì)用戶行為日志進(jìn)行預(yù)處理,得到有序的用戶行為序列數(shù)據(jù),形式為(U,I,ΔT), 表示用戶U對(duì)知識(shí)條目I進(jìn)行了時(shí)長為 ΔT的瀏覽。然后定義三維空間域 {U,I,S},并利用所有用戶的行為序列數(shù)據(jù)構(gòu)造三維用戶行為矩陣B(U,I,S),S表示用戶行為序列的先后順序,矩陣中的元素b(U,I,S)為 用戶U在其行為序列的S節(jié)點(diǎn)處瀏覽知識(shí)條目I的時(shí)長。根據(jù)用戶Ui對(duì)m條 知識(shí)條目的行為序列中L個(gè)行為數(shù)據(jù),可以構(gòu)造一個(gè)二維稀疏矩陣B(Ui,I,S),如式(1)所示。

        2.2 知識(shí)主題網(wǎng)絡(luò)

        設(shè)所有知識(shí)條目集合為 {I1,I2,···,Im},預(yù)處理后得到語料集合D={d1,d2,···,dm}, 用LDA模型將D劃分為k個(gè) 主題T={t1,t2,···,tk},然后基于群體智能思想[17],利用系統(tǒng)用戶群的行為序列數(shù)據(jù)計(jì)算不同知識(shí)主題間的關(guān)聯(lián)度Rti,t j,如式(4)所示。

        2.3 用戶專業(yè)度

        用戶專業(yè)背景與工作領(lǐng)域的差異導(dǎo)致他們對(duì)不同主題知識(shí)的專業(yè)程度不同,本文定義用戶專業(yè)度pU,t, 反映用戶U對(duì)知識(shí)主題t的專業(yè)度。

        用戶的專業(yè)領(lǐng)域和文檔都可以用關(guān)鍵詞及其權(quán)重的參數(shù)對(duì)集合表征,形式為 (k,wk) ,wk為關(guān)鍵詞k的權(quán)重。首先計(jì)算用戶關(guān)鍵詞權(quán)重對(duì)集合,將用戶U參與創(chuàng)建和修訂的所有知識(shí)文檔整合為單條知識(shí)文檔d,然后對(duì)d進(jìn)行分詞及去除停用詞處理得到詞語集合Cw,再結(jié)合TF-IDF算法的思想,利用式(5)計(jì)算詞語集合Cw中每個(gè)詞語的權(quán)重。

        圖3 知識(shí)主題網(wǎng)絡(luò)Figure 3 Knowledge topic network

        式(9)中,qd表 示文檔d的質(zhì)量;Ud表示瀏覽過知識(shí)文檔d的用戶集合; |Ud|表 示Ud中用戶的數(shù)量;n表 示用戶U瀏覽文檔d的次數(shù); ΔTi表 示用戶U第i次瀏覽文檔d的時(shí)長; ΔTU表示用戶U所有瀏覽行為中的平均瀏覽時(shí)長。

        根據(jù)式(8)計(jì)算用戶U與知識(shí)主題t中文檔的平均相似度 simU,t。根據(jù)式(9)計(jì)算知識(shí)主題t的文檔集合中用戶U創(chuàng)建的文檔的質(zhì)量之和qU?;趨f(xié)同過濾的知識(shí)推薦需要保證近鄰用戶的可靠性,因此用戶權(quán)威度應(yīng)當(dāng)由 simU,t和pU,t中較小的決定,而調(diào)和平均具有短板效應(yīng),因此用它們的調(diào)和平均值作為用戶U對(duì)知識(shí)主題t的 專業(yè)度pU,t,如式(10)所示。

        2.4 考慮用戶專業(yè)度的評(píng)分矩陣預(yù)填充

        隨著知識(shí)管理系統(tǒng)中知識(shí)條目數(shù)量的增長,用戶評(píng)分矩陣變得極其稀疏,導(dǎo)致基于相似度計(jì)算的推薦算法準(zhǔn)確度降低,因此需要對(duì)用戶評(píng)分矩陣進(jìn)行預(yù)填充。預(yù)測(cè)用戶u對(duì) 知識(shí)條目i的 評(píng)分su,i如式(11)所示。

        2.5 改進(jìn)的用戶相似度

        對(duì)于具有相似工程任務(wù)的用戶,往往也具有相似的知識(shí)偏好,因此可以利用協(xié)同過濾算法進(jìn)行推薦。傳統(tǒng)協(xié)同過濾推薦算法常用兩個(gè)用戶向量的余弦值計(jì)算用戶相似度,Gan等[18]指出,受流行項(xiàng)目的影響,傳統(tǒng)基于用戶的協(xié)同過濾推薦算法多樣性較差,并利用冪函數(shù)對(duì)用戶相似度函數(shù)進(jìn)行冪律調(diào)節(jié),使推薦準(zhǔn)確度和多樣性都有所提升。受此啟發(fā),本文基于用戶專業(yè)度和知識(shí)主題網(wǎng)絡(luò)改進(jìn)用戶相似度計(jì)算方法,如式(14)所示。

        為目標(biāo)用戶查找近鄰用戶時(shí),根據(jù)目標(biāo)用戶當(dāng)前偏好主題和知識(shí)主題網(wǎng)絡(luò)可以確定相關(guān)主題集合T。式(14)能夠提高對(duì)T專業(yè)度高的用戶的相似度排名,盡可能為目標(biāo)用戶推送相關(guān)主題集合中的知識(shí),有針對(duì)性地提升主題多樣性,使推薦結(jié)果更好地滿足用戶的知識(shí)需求,進(jìn)而提升推薦準(zhǔn)確度和用戶滿意度。

        3 算法驗(yàn)證與對(duì)比分析

        3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

        本文采用國內(nèi)某船廠知識(shí)管理系統(tǒng)中的真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),系統(tǒng)中含有船舶設(shè)計(jì)相關(guān)的知識(shí)條目379條,系統(tǒng)用戶37人。處理用戶瀏覽記錄,得到4 367行有序用戶行為序列數(shù)據(jù) (U,I,ΔT),其中每行表示用戶的一次點(diǎn)擊瀏覽行為,包含用戶ID,知識(shí)條目ID以及該次瀏覽行為持續(xù)時(shí)長三個(gè)信息,如表1所示。利用表1數(shù)據(jù)構(gòu)造三維用戶行為矩陣B(U,I,S), 并沿其S維截取子矩陣Btrain(U,I,S)37×379×0.8L和Btest(U,I,S)37×379×0.2L分別作為單次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)和測(cè)試集。

        表1 用戶瀏覽記錄數(shù)據(jù)Table 1 User browsing data

        表2所示為知識(shí)條目的相關(guān)信息,文本長度用于計(jì)算用戶瀏覽知識(shí)條目時(shí)的相對(duì)停留時(shí)長,文本內(nèi)容用于LDA主題聚類并構(gòu)造知識(shí)主題網(wǎng)絡(luò)。

        表2 知識(shí)條目信息Table 2 Information of knowledge items

        本次實(shí)驗(yàn)環(huán)境配置如下。

        硬件環(huán)境:macOS-10.15版本操作系統(tǒng),四核Intel Core i5處理器,16 GB運(yùn)存。

        軟件環(huán)境:PyCharm 2019.3.3 (Professional Edition),python-3.7,numpy-1.17.4,gensim-3.8.0,jieba-0.4.0。

        3.2 評(píng)價(jià)指標(biāo)

        利用Btrain(U,I,S)37×379×0.8L構(gòu) 造用戶評(píng)分矩陣C(U,I)作為訓(xùn)練數(shù)據(jù),Btest(U,I,S)37×379×0.2L作為測(cè)試集。若算法推薦的知識(shí)條目在測(cè)試集中出現(xiàn),則為命中,據(jù)此可計(jì)算精確率和召回率。F1分?jǐn)?shù)同時(shí)兼顧推薦的精確率和召回率,因此本文用F1分?jǐn)?shù)衡量推薦結(jié)果的準(zhǔn)確度,如式(15)所示。

        本文所提到的多樣性是針對(duì)個(gè)體的多樣性,即單個(gè)推薦列表中知識(shí)條目間的差異。這里定義推薦列表R的 多樣性D ivR,用推薦列表中所有知識(shí)條目對(duì)的平均差異計(jì)算[19],如式(16)所示。

        式(16)中,|R|為 推薦列表中知識(shí)條目數(shù)量;simI,J表示知識(shí)條目I和J的相似度,利用兩條知識(shí)的關(guān)鍵詞集及其權(quán)重,根據(jù)式(8)計(jì)算,1 ?simI,J表示知識(shí)條目I和J的差異度。

        3.3 準(zhǔn)備工作

        利用LDA對(duì)知識(shí)庫中所有知識(shí)條目進(jìn)行主題聚類前,需要確定最佳知識(shí)主題個(gè)數(shù)T。本文通過計(jì)算概率分布的困惑度 Perplexity確定T,根據(jù)信息論,低困惑度的概率模型能更準(zhǔn)確地預(yù)測(cè)樣本。本文所用困惑度[20]計(jì)算如式(17)所示。

        如圖4所示,在本文數(shù)據(jù)集上,困惑度隨著主題數(shù)量的增加而下降,但是,當(dāng)主題數(shù)量大于30后,困惑度下降速度放緩,模型性能提升有限,因此本文將知識(shí)主題個(gè)數(shù)T設(shè)置為30,知識(shí)主題聚類結(jié)果如表3所示。

        表3 知識(shí)主題聚類結(jié)果示例Table 3 Topic clustering of knowledge

        圖4 不同主題個(gè)數(shù)下概率分布的困惑度Figure 4 Perplexity of probability distribution under different number of topics

        此外,由式(2)可知,計(jì)算用戶Ui對(duì)知識(shí)條目Ij的 評(píng)分cUi,I j之前,還需確定用戶興趣模型的最佳序列長度L。如圖5所示,當(dāng)L值由0增加至20,F(xiàn)1分?jǐn)?shù)由0.22快速攀升至0.47,這是因?yàn)楣こ填I(lǐng)域用戶近期的瀏覽行為能夠反映其短期興趣偏好,而式 (2)根據(jù)用戶近期瀏覽行為數(shù)據(jù)計(jì)算cUi,I j,對(duì)用戶短期興趣進(jìn)行充分挖掘。隨著L值的遞增,F(xiàn)1分?jǐn)?shù)增速放緩,當(dāng)L值大于35后,甚至出現(xiàn)小幅下降,這是由于過早的歷史行為數(shù)據(jù)與當(dāng)前用戶偏好關(guān)聯(lián)度過低,甚至?xí)蔀樵肼晹?shù)據(jù),式 (2) 的計(jì)算結(jié)果出現(xiàn)偏差,從而導(dǎo)致F1分?jǐn)?shù)下降。此外,L值增大也會(huì)造成推薦算法計(jì)算量過大,影響推薦響應(yīng)時(shí)間。綜上,本文L取值為20,既包含足夠的用戶偏好數(shù)據(jù),又盡可能地減少計(jì)算量。

        圖5 不同 L值下TDCF算法的F1分?jǐn)?shù)Figure 5 F1-Score of TDCF under different values of parameter L

        3.4 知識(shí)推薦結(jié)果示例

        針對(duì)“船舶柴油發(fā)動(dòng)機(jī)缸蓋設(shè)計(jì)”這一工程任務(wù)進(jìn)行推薦。根據(jù)相關(guān)專家經(jīng)驗(yàn),缸蓋設(shè)計(jì)主要用到機(jī)械結(jié)構(gòu)設(shè)計(jì)、材料工藝選擇和機(jī)械裝配領(lǐng)域等三個(gè)專業(yè)領(lǐng)域的知識(shí)。如圖6所示,利用本文算法為目標(biāo)用戶推薦5條知識(shí)。其中,第1條為關(guān)于“柴油發(fā)動(dòng)機(jī)缸蓋制作”的專利知識(shí);第2條為缸蓋工藝詳細(xì)流程資料;第4條為因汽缸蓋裝配失誤造成故障的案例知識(shí)。經(jīng)目標(biāo)用戶和船舶領(lǐng)域?qū)<覚z驗(yàn),這三條知識(shí)對(duì)當(dāng)前缸蓋設(shè)計(jì)任務(wù)都具有很高的參考價(jià)值,且覆蓋當(dāng)前設(shè)計(jì)任務(wù)所需的材料工藝選擇和機(jī)械裝配兩個(gè)領(lǐng)域,具有主題(專業(yè)領(lǐng)域)多樣性。

        圖6 針對(duì)目標(biāo)用戶的知識(shí)推薦Figure 6 Knowledge recommendation for target user

        3.5 算法實(shí)驗(yàn)

        在TDCF推薦算法中,本文同時(shí)提出兩種改進(jìn):1) 考慮用戶專業(yè)度對(duì)標(biāo)準(zhǔn)矩陣預(yù)填充方法進(jìn)行改進(jìn);2) 基于用戶專業(yè)度和知識(shí)主題網(wǎng)絡(luò)改進(jìn)標(biāo)準(zhǔn)用戶相似度計(jì)算方法。為了驗(yàn)證這兩種改進(jìn)在推薦算法準(zhǔn)確度和結(jié)果多樣性上的改進(jìn)效果,本節(jié)首先對(duì)TDCF推薦算法,以及仍然采用標(biāo)準(zhǔn)預(yù)填充方法和仍然采用標(biāo)準(zhǔn)用戶相似度計(jì)算方法的推薦算法進(jìn)行對(duì)比實(shí)驗(yàn),其對(duì)比結(jié)果如圖7所示。對(duì)比實(shí)驗(yàn)中,TDCF算法的F1分?jǐn)?shù)提升至0.49。這是由于改進(jìn)的評(píng)分矩陣預(yù)填充方法充分考慮了用戶專業(yè)度,因而能夠更準(zhǔn)確地預(yù)測(cè)用戶評(píng)分,評(píng)分預(yù)測(cè)結(jié)果會(huì)比標(biāo)準(zhǔn)預(yù)填充方法更可靠。另外,TDCF推薦算法的多樣性也提升至0.4。這是由于TDCF算法采用改進(jìn)的用戶相似度計(jì)算方法能夠利用知識(shí)主題網(wǎng)絡(luò)和用戶專業(yè)度對(duì)用戶相似度進(jìn)行修正。若主題域ti與目標(biāo)用戶u0偏 好主題域t0的 關(guān)聯(lián)度越高,以及用戶ui對(duì)主題域ti的專業(yè)度越高,則用戶ui與 目標(biāo)用戶u0的相似度越高。因此,基于修正的相似度計(jì)算方法推薦近鄰用戶,推薦結(jié)果的多樣性得以有針對(duì)性的提升。綜上,采用改進(jìn)的矩陣預(yù)填充方法和改進(jìn)的用戶相似度計(jì)算方法能夠優(yōu)化TDCF推薦算法的推薦結(jié)果。

        圖7 TDCF算法改進(jìn)效果對(duì)比Figure 7 Performance of TDCF before and after algorithm improvement

        在不同近鄰用戶規(guī)模K上,本文還將TDCF推薦算法與標(biāo)準(zhǔn)協(xié)同過濾推薦算法(CF)、PSR-GRS[13]推薦算法和Network-based CF[14]推薦算法等常用推薦算法進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證TDCF算法在推薦準(zhǔn)確度和多樣性上的提升。本實(shí)驗(yàn)采用Top-5推薦。

        TDCF與CF、PSR-GRS和Network-based CF 4種推薦算法在不同近鄰用戶規(guī)模K下的F1值曲線如圖8所示。當(dāng)K較小時(shí),只能命中目標(biāo)用戶的部分偏好,4種算法的F1值都偏低且相近;當(dāng)K為5和10時(shí),PSR-GRS算法和Network-based CF算法的F1值較大,原因是這兩種算法都通過用戶網(wǎng)絡(luò)結(jié)構(gòu)對(duì)用戶間關(guān)系進(jìn)行挖掘,更能快速匹配到與目標(biāo)用戶最相似的近鄰用戶;當(dāng)K增大到15時(shí),TDCF的F1值就增加到0.47,高于Network-based CF和PSR-GRS的0.44和0.41;隨著K繼續(xù)增大,4種算法的F1值增速都逐漸放緩,當(dāng)K為20時(shí),TDCF的F1值達(dá)到0.52,高于Network-based CF和PSR-GRS的0.47和0.44。這是因?yàn)椋疚乃惴紤]用戶專業(yè)度以修正評(píng)分矩陣預(yù)填充方法,能夠更準(zhǔn)確地預(yù)測(cè)缺失的用戶評(píng)分?jǐn)?shù)據(jù),并且同時(shí)基于用戶專業(yè)度和知識(shí)主題網(wǎng)絡(luò)改進(jìn)用戶相似度計(jì)算方法,能夠有針對(duì)性地提升推薦結(jié)果多樣性,使推薦結(jié)果能更好地滿足用戶的知識(shí)需求,進(jìn)而提升推薦結(jié)果準(zhǔn)確度。

        圖8 不同近鄰用戶規(guī)模下推薦算法的F1分?jǐn)?shù)曲線Figure 8 F1-Score of different algorithms under different values of parameter K

        TDCF與CF、PSR-GRS和Network-based CF 4種推薦算法在不同近鄰用戶規(guī)模K下的推薦結(jié)果主題多樣性曲線如圖9所示。由于CF算法僅根據(jù)用戶興趣評(píng)分計(jì)算用戶相似度,其多樣性相對(duì)較低,最高為0.26,遠(yuǎn)小于另外3種算法。Network-based CF在進(jìn)行推薦時(shí)利用用戶相似度網(wǎng)絡(luò)過濾掉用戶間相似度較低的偏好,不僅使推薦結(jié)果的準(zhǔn)確性得到較大幅度提升(見圖8),多樣性也有所增強(qiáng),當(dāng)K為15和20時(shí),推薦多樣性分別達(dá)到0.29和0.33。對(duì)于PSRGRS算法,當(dāng)K為20時(shí),其推薦多樣性達(dá)到0.37,高于CF和Network-based CF推薦算法。這是因?yàn)樵撍惴ɑ谟脩羯缃痪W(wǎng)絡(luò)關(guān)系圖進(jìn)行推薦,能夠提升推薦多樣性。TDCF算法的推薦結(jié)果主題多樣性高于另外3種算法,當(dāng)K為20時(shí),其多樣性達(dá)到0.44,且有針對(duì)性地提升多樣性,也使推薦結(jié)果能更好地滿足用戶的知識(shí)需求,進(jìn)而將推薦準(zhǔn)確度提升至0.52(見圖8)。

        圖9 不同近鄰用戶規(guī)模下推薦算法主題多樣性曲線Figure 9 Topic diversity of different algorithms under different values of parameter K

        4 結(jié)語

        工程問題的解決涉及到多個(gè)學(xué)科和專業(yè)的知識(shí),主題單一的推薦列表已無法滿足當(dāng)前工程領(lǐng)域用戶對(duì)知識(shí)多樣性的需求。本文考慮工程領(lǐng)域知識(shí)推薦的特殊性,提出一種面向工程領(lǐng)域知識(shí)的主題多樣性推薦方法。該方法主要貢獻(xiàn)有4點(diǎn):1) 利用LDA主題模型將知識(shí)文本分類,挖掘當(dāng)前用戶群行為序列數(shù)據(jù),構(gòu)造符合工程領(lǐng)域知識(shí)主題間關(guān)聯(lián)規(guī)律的知識(shí)主題網(wǎng)絡(luò);2) 定義用戶專業(yè)度,并提出考慮用戶專業(yè)度的評(píng)分矩陣預(yù)填充方法,更準(zhǔn)確地預(yù)測(cè)缺失評(píng)分?jǐn)?shù)據(jù),克服數(shù)據(jù)稀疏問題;3) 基于知識(shí)主題網(wǎng)絡(luò)和用戶專業(yè)度改進(jìn)用戶相似度計(jì)算方法,能夠有針對(duì)性地提升知識(shí)推薦結(jié)果的主題多樣性;4) 基于知識(shí)主題網(wǎng)絡(luò)和協(xié)同過濾進(jìn)行推薦,算法具有較高可移植性。

        本文通過改進(jìn)協(xié)同過濾算法有針對(duì)性地提高知識(shí)推薦效果,而針對(duì)更為具體領(lǐng)域中的知識(shí)推薦,還需根據(jù)其領(lǐng)域特殊性做進(jìn)一步研究。

        猜你喜歡
        用戶
        雅閣國內(nèi)用戶交付突破300萬輛
        車主之友(2022年4期)2022-08-27 00:58:26
        您撥打的用戶已戀愛,請(qǐng)稍后再哭
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年5期)2016-11-28 09:55:15
        兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        挖掘用戶需求尖端科技應(yīng)用
        Camera360:拍出5億用戶
        100萬用戶
        亚洲国产精品国自产拍久久蜜av| 波多野结衣一区| 98国产精品永久在线观看| 粉嫩的18在线观看极品精品| 日本亚洲视频一区二区三区| 亚洲乱码日产精品一二三| 久久精品久久久久观看99水蜜桃| 亚洲国产成人精品激情资源9| 精品蜜桃在线观看一区二区三区 | 国产成人一区二区三区高清| 免费观看在线视频播放| 精品国产yw在线观看| 性色av闺蜜一区二区三区| 日韩爱爱网站| 一区二区三区熟妇人妻18| 国产av久久在线观看| 中国女人内谢69xxxx免费视频| 91久久精品国产91久久| 精品中文字幕手机在线| 亚洲av毛片在线网站| 无码人妻少妇久久中文字幕蜜桃| 国产精品亚洲一区二区无码 | 久久精品国产福利亚洲av| 我和丰满妇女激情视频| 撕开奶罩揉吮奶头视频| 久久亚洲伊人| 在线女同免费观看网站| 精品免费国产一区二区三区四区| 国产人与禽zoz0性伦| 亚洲精品成人国产av| 日本免费精品免费视频| 色综合久久久无码中文字幕| 亚洲aⅴ无码成人网站国产app| 亚洲AV无码日韩综合欧亚 | 国产精品熟女视频一区二区| 无码之国产精品网址蜜芽| 人妖系列在线免费观看| 亚洲国产精品日本无码网站| 久久人妻少妇嫩草av蜜桃| 欧美人与物videos另类| 国产精品白浆一区二区免费看|