亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        在線問答社區(qū)
        ——海川化工論壇的回答者推薦算法

        2021-10-19 01:45:22袁璽明杜軍威
        計算機與現(xiàn)代化 2021年10期
        關(guān)鍵詞:回答者矩陣預測

        陳 卓,袁璽明,杜軍威

        (青島科技大學信息科學技術(shù)學院,山東 青島 266061)

        0 引 言

        隨著網(wǎng)絡(luò)的高速發(fā)展,書本知識難以滿足人們?nèi)找嬖鲩L的知識需求,問答社區(qū)成為了人們分享經(jīng)驗與獲取知識的新平臺。海川化工論壇成立于2004年8月,是國內(nèi)最大的專業(yè)化工問答社區(qū)和化工類交流的專業(yè)平臺,和其他平臺相比,海川化工論壇中的問題主要為化工類的專業(yè)知識,且時效性更強。海川化工論壇官方顯示,論壇日均訪客可達10萬以上,其中95%以上的訪客均為從業(yè)人員,成員來自國內(nèi)各大設(shè)計院、生產(chǎn)制造企業(yè)、銷售單位及各大高校。在海川化工論壇近10年的數(shù)據(jù)中,有超過400萬用戶和超過100萬個問題。本文將海川化工論壇中的答案獲得的財富值作為可靠答案質(zhì)量的指標,其中32%的問題沒有獲得可靠的答案。在注冊的用戶中,94%的用戶只是瀏覽問題,沒有提出問題和回答問題。據(jù)統(tǒng)計顯示,論壇中平均每個問題在提出后,過14.2 h才會獲得可靠答案,14.3 h后才會獲得最佳答案。

        盡管學術(shù)界和業(yè)界的各種推薦方法都取得了成功,例如協(xié)同過濾[1]、因子分解機(FM)[2]、基于內(nèi)容的推薦方法[3]和基于深度學習的推薦方法[4],深度學習和FM組成的DeepFM(Combines the Power of Factorization Machines for Recommendation and Deep Learning for Feature Learning)[5]算法可以有效利用用戶的特征,但對于稠密矩陣的預測效果遠低于矩陣分解(Matrix Factorization)的預測結(jié)果,而矩陣分解[6]雖然對稠密特征預測結(jié)果較為準確但無法解決冷啟動的問題,且由于海川化工論壇的用戶和問題規(guī)模達到了數(shù)百萬,這些推薦方法面臨的問題在海川化工變得更加嚴重。目前推薦系統(tǒng)在應用到海川化工論壇時,主要面臨2大技術(shù)挑戰(zhàn):

        2)冷啟動。在海川化工論壇,每天都有超過60個新問題被提出,急待解決。同時超過400萬用戶中,僅有不到30萬的用戶參與回答問題,絕大多數(shù)用戶沒有用戶行為。預測這些問題的回答者或預測用戶對這些問題的偏好是具有挑戰(zhàn)性的,這就是所謂的“冷啟動”問題。

        針對海川化工論壇遇到的這些挑戰(zhàn),本文設(shè)計一種融合DeepFM與矩陣分解的混合推薦方法。第1階段,通過對提問者特征、問題特征和回答者特征的分析,使用DeepFM算法預測出參與過問題討論未獲得財富值的答案質(zhì)量,同時預測出活躍用戶回答新問題時能夠獲得的財富值,使用戶-問題矩陣得到有效填充,增強矩陣分解學習器的預測結(jié)果,同時預測活躍用戶對新問題的回答情況,解決冷啟動問題。第2階段,基于原始訓練數(shù)據(jù)以及第1階段的預測數(shù)據(jù)對用戶-問題矩陣使用基于矩陣分解的協(xié)同過濾算法進行預測。

        1 相關(guān)工作

        Liu等人[7]綜合考慮多種社會化信息,如用戶的專業(yè)水平、最佳回答者判定情況、好友相似度等,為新問題提供多樣化的回答者推薦;Bhanu等人[8]參考回答者之前參與回答問題的難度等級,結(jié)合用戶交互參數(shù)等來辨別問答社區(qū)中潛在的相關(guān)領(lǐng)域?qū)<?;而Van Dijk等人[9]結(jié)合問答文本特征、用戶行為特征、問答時間感知等特征,采用半監(jiān)督機器學習方法來識別潛在的領(lǐng)域?qū)<?。劉迎春等人[10]通過挖掘?qū)W習者信息,得到專業(yè)可信回答者、高信譽回答者和徽章回答者3種潛在回答者,對三者進行推薦性能對比,發(fā)現(xiàn)可信回答者推薦具有更高的準確率和召回率。Greer等人[11]在問答社區(qū)中成功為少數(shù)學習者及時推薦問題解答的回答者特征,這些人員通常在多個不同領(lǐng)域有著豐富的知識及興趣;Xia等人[12]從靜態(tài)特征挖掘角度,分析了開發(fā)者和主題之間關(guān)聯(lián),以實現(xiàn)為特定主題推薦開發(fā)者。Tian等人[13]分析Stack Overflow上開發(fā)者的歷史數(shù)據(jù),通過LDA主題模型分析,發(fā)現(xiàn)了開發(fā)者潛在興趣,并基于這些興趣和協(xié)作投票機制來推薦問題回答專家;張祖平等人[4]在研究用戶行為序列中相鄰行為之間相似性和關(guān)聯(lián)性的基礎(chǔ)上,挖掘詞語之間內(nèi)部結(jié)構(gòu)關(guān)系的TextRank,融合Word2vec提出新的用戶行為推薦方法。

        Ishola等人[14]基于個性化標簽預測高質(zhì)量的問題解決者;Elalfy等人[15]使用問題的內(nèi)容和內(nèi)容特征訓練機器學習模型直接得到推薦的問題答案。何明等人[16]基于用戶標簽行為和用戶與項目的相似性線性組合來預測用戶對項目的偏好值,并根據(jù)預測偏好值排序,生成最終的推薦列表。翟姍姍等人[17]深入分析了知識圖譜在健康醫(yī)療社區(qū)信息推薦中的優(yōu)勢,提出融合知識圖譜和病情畫像的在線醫(yī)療社區(qū)信息推薦,提出了一種基于隱性行為的問題解決者推薦算法。羅達雄等人[18]通過計算開發(fā)者的基于標簽的隱性行為變量、解決問題的傾向性變量,并結(jié)合能力變量使用貝葉斯多變量回歸得到開發(fā)者得分,排序后推薦問題解決者。Mao等人[19]采用基于內(nèi)容的推薦技術(shù)來自動匹配任務和開發(fā)人員;Khot等人[20]利用最近提出的QA支持圖優(yōu)化框架,為開放IE開發(fā)了一個新的推理模型,特別是一個可以有效地處理多個短事實、噪聲和元組的關(guān)系結(jié)構(gòu)的推理模型。Hao等人[21]提出了一種端到端的神經(jīng)網(wǎng)絡(luò)模型,通過交叉注意機制,將問題及其對應的分數(shù)動態(tài)地反映到考生的不同回答方面。葉俊民等人[22]結(jié)合問答數(shù)據(jù)與學生行為數(shù)據(jù),提出了一種論壇問題回答者的推薦方法。徐愛武[23]提出了一種綜合考慮用戶興趣、用戶專長以及用戶活躍度等多個因素的問題回答者推薦算法。

        2 融合DeepFM與矩陣分解的混合推薦方法

        2.1 問題描述

        在海川化工論壇中,假設(shè)有M個用戶U={u1,u2,…,uM}和N個問題Q={q1,q2,…,qN},用戶參與回答獲得的財富值構(gòu)成了一個M行N列的評分矩陣RM×N(如表1所示)。同時,每個用戶有C個特征Uf={uf1,uf2,…,ufC},每個問題有D個特征Qf={iq1,iq2,…,iqD}。表1中,第i行第j列表示用戶ui參與問題qj的評分。由于海川化工論壇中,一些用戶因為參與問題較晚或者答案熱度較低,并沒有獲得財富值,在用戶-問題矩陣中表示為0。

        表1 用戶-問題矩陣

        2.2 DeepFM模型

        DeepFM在2017年由Guo等人提出,包含2部分:因子分解機(Factorization Machine, FM)部分與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)部分,分別負責低階特征的提取和高階特征的提取。2部分共享同樣的嵌入層(Embedding Layer)輸入。DeepFM的輸出結(jié)果如公式(1)所示。

        (1)

        2.2.1 FM部分

        FM部分是一個因子分解機,由Rendle在2010年提出。在之前的方法中,只有當2個特征出現(xiàn)在同一個數(shù)據(jù)中時,才能訓練這2個特征之間的交互參數(shù)。在FM中,它是通過潛在向量內(nèi)積的方式來計算的。該方法通過兩兩特征組合,引入交叉項特征的方式,發(fā)現(xiàn)各個特征之間的關(guān)聯(lián)信息,提高模型得分,如公式(2)所示。

        (2)

        其中,w0為初始權(quán)重值即偏置項,wi為每個特征xi對應的權(quán)重值,vi為第i維特征的隱向量。

        2.2.2 深度神經(jīng)網(wǎng)絡(luò)部分

        深度神經(jīng)網(wǎng)絡(luò)是一種用于學習高階特征交互的前向神經(jīng)網(wǎng)絡(luò)。如圖1所示,數(shù)據(jù)向量輸入到神經(jīng)網(wǎng)絡(luò)中,經(jīng)過嵌入層,將高維、稀疏的輸入向量壓縮為一個低維、稠密的向量,然后再進一步輸入到第1個隱藏層。嵌入層的輸出表示為:

        圖1 深度神經(jīng)網(wǎng)絡(luò)

        a(0)=[e1,e2,…,em]

        (3)

        其中,ei是第i個field的嵌入,m是field的數(shù)量。然后將a(0)輸入深度神經(jīng)網(wǎng)絡(luò),正向過程為:

        A(l+1)=W(l)a(l)+b(l)

        (4)

        其中,l為隱藏層的層數(shù),a(l)、W(l)、b(l)分別是第l層的輸出、權(quán)重和偏置項。最后輸入到輸出層,對目標項進行打分預測:yDNN=WH+1aH+bH+1,其中H是隱藏層的層數(shù)。

        2.3 矩陣分解模型

        協(xié)同過濾矩陣分解的目的就是把用戶和問題的評分矩陣RM×N分解為M×K的用戶矩陣和K×N的問題矩陣,超參數(shù)K為潛在因子空間,這樣用戶-問題矩陣就可以表示為用戶矩陣與項目矩陣的乘積,公式為:

        RM×N=PM×KQK×N

        (5)

        用戶ui對問題qj的評分預測值rij的計算公式為:

        rij=piqj

        (6)

        矩陣分解模型中用戶ui對問題qj的預測評分就是用戶ui的因子向量與問題qj的因子向量的點積。當矩陣稀疏時,矩陣分解模型訓練時容易出現(xiàn)過擬合,因此采用L2正則化避免模型的過擬合問題,該模型的損失函數(shù)定義如下:

        (7)

        其中,λ為正則化系數(shù),rij表示訓練集存在的評分項,d表示DeepFM第1步預測結(jié)果與真實結(jié)果之間的均方誤差,c表示該項目是否為DeepFM預測結(jié)果,取值為0或1。求解該損失函數(shù),通常使用隨機梯度下降(Stochatic Gradient Descent)或交替最小二乘法(Alternating Least Squares, ALS),本文使用交替最小二乘法。ALS使用上述的損失函數(shù),交替降低損失函數(shù)值,該方法在每輪迭代中,只迭代其中一個參數(shù),下次迭代另一參數(shù),交替進行。首先固定Q對P做偏微分,使其為0:

        (8)

        然后固定P對Q做偏微分,使其為0:

        (9)

        循環(huán)上述過程,不斷交替進行,直到損失函數(shù)收斂為止。

        2.4 融合DeepFM與矩陣分解的混合推薦方法

        在矩陣分解算法中,雖然能基于問題過去的回答者獲得的財富值為問題推薦更加合適的回答者,但對于新提出的問題,仍舊無法找出合適的回答者。而在DeepFM中,雖然能夠結(jié)合用戶特征與問題特征為問題推薦合適的回答者,但對于活躍的用戶和較為復雜的問題,預測效果不如矩陣分解算法準確,因此本文提出融合DeepFM與矩陣分解的混合推薦方法,具體流程如圖2所示。

        圖2 整體流程圖

        1)將用戶特征和問題特征以及用戶回答問題所獲得的財富值,輸入DeepFM模塊進行訓練。

        2)使用訓練好的DeepFM模塊,為新問題預測部分用戶獲得財富值的情況。

        3)將DeepFM預測的結(jié)果與訓練集進行結(jié)合,組成新的矩陣。相比訓練集,新矩陣更加稠密且在矩陣中沒有無交互行為的新用戶和新問題。

        4)將組成的新矩陣輸入矩陣分解模塊,由矩陣分解算法填滿矩陣。

        5)對問題列下的用戶可能獲得的財富值預測后進行排序,將問題推薦給可能獲得財富值多的用戶。

        3 實 驗

        在本章中,將進行大量的實驗來驗證本文提出的方法的有效性。首先對稀疏度不同的訓練數(shù)據(jù)進行測試,以驗證本文方法在不同稀疏度下的有效性,然后橫向?qū)Ρ葻衢T的推薦系統(tǒng)算法,以驗證本文提出的融合DeepFM與矩陣分解的混合推薦方法比其它模型效果更好。

        3.1 數(shù)據(jù)集

        本文實驗選取海川化工論壇2017年11月7日至2018年11月7日由6490人回答12359個問題的46025條問答數(shù)據(jù)作為訓練集,2018年11月8日至12月7日由693人回答773個問題的3495條問答數(shù)據(jù)作為測試集。每條回答獲得的財富值按照公式(10)處理。

        (10)

        其中,x為實際財富值,μ為同一問題下,每條回答獲得的平均財富值,xmax為每條回答獲得的最大財富值,xmin為每條回答獲得的最小財富值。

        在特征選擇方面,本文選取提問者和回答者的性別、學歷、郵箱認證狀態(tài)等68個特征,對于連續(xù)特征,訓練時使用皮爾遜相關(guān)系數(shù)大于0.1的特征,分別為發(fā)布主題數(shù)、在線時間、積分、威望以及魅力值。對于非連續(xù)值,以one-hot編碼的形式輸入到網(wǎng)絡(luò)中。其次將問題內(nèi)容使用文檔主題生成模型(Latent Dirichlet Allocation)劃分為10個類別。用戶回答該問題獲得的財富值越高,則表明該問題越適合相關(guān)用戶回答。準確地預測用戶獲得的財富值,可以為未得到答案的問題推薦合適的用戶。

        本文將訓練集用于回答者的數(shù)據(jù)挖掘和處理,得出回答者在不同問題知識領(lǐng)域的專業(yè)可信度;測試集則用于回答者推薦,并通過與其他回答者推薦方法進行對比,評估回答者推薦的性能。實驗數(shù)據(jù)集的基本情況如表2所示。

        表2 數(shù)據(jù)說明

        3.2 評估方法

        為了能夠評估模型的準確性和健壯性,本文采用隨機抽樣的方法,從原始數(shù)據(jù)集中抽取20%的數(shù)據(jù)作為測試集,測試模型效果。在每次評估模型效果時,采用均方根誤差(Root Mean Square Error, RMSE)和平均絕對誤差(Mean Absolute Error, MAE)這2個指標來對模型預測回答所獲得的財富值進行評估。RMSE和MAE計算方式如下:

        (11)

        (12)

        其中,X為測試集中用戶回答問題的條數(shù),yij為用戶ui回答問題qj的預測分數(shù)。

        3.3 實驗評估

        對于海川化工論壇問答數(shù)據(jù)的實驗結(jié)果如表3與圖3(a)所示。

        (a) 為新問題推薦回答者

        表3 對于新問題的實驗結(jié)果

        為了驗證本文算法對于冷啟動的有效性,將最近活躍的1000個用戶分別從訓練集中刪除,實驗結(jié)果如表4與圖3(b)所示。

        (b) 為新用戶推薦有能力回答的問題

        表4 對于新用戶的實驗結(jié)果

        為了驗證本文算法的泛化能力,將該算法應用在公共數(shù)據(jù)集Movielens上,預測用戶對電影的評分,結(jié)果如表5與圖4所示。

        圖4 在Movielens數(shù)據(jù)集上各方法之間實驗結(jié)果對比

        表5 對于Movielens的實驗結(jié)果

        對比實驗結(jié)果如表3與圖3(a)所示??梢钥吹皆诤4ɑふ搲瘮?shù)據(jù)集上,融合DeepFM與矩陣分解的混合推薦方法比其它算法效果突出,這表明了所提方法的有效性。對于用戶冷啟動問題,實驗結(jié)果如表4以及圖3(b)所示??梢钥吹皆诿鎸τ脩衾鋯訂栴}時,該算法表現(xiàn)依舊出色。雖然在對問題推薦回答者和對論壇用戶推薦合適問題時,均方根誤差只比傳統(tǒng)方法降低了0.0649與0.382,但對于一個擁有數(shù)百萬用戶的海川化工論壇,可以幫助成千上萬的問題找到能夠準確回答的用戶。同時本文將該算法在公用數(shù)據(jù)集Movielens上進行了對比測試,驗證了該算法的泛化能力。

        4 結(jié)束語

        海川化工論壇的數(shù)據(jù)集的稀疏性給推薦系統(tǒng)帶來了巨大壓力,本文提出了融合DeepFM與矩陣分解的混合推薦方法來解決這些挑戰(zhàn),該算法充分利用了用戶回答問題的歷史行為和用戶及問題的特征。為了解決稀疏性和冷啟動問題,本文提出先使用DeepFM算法將一些參與回答因為問題熱度較低或回答時間較晚未獲得財富值的回答進行財富值填充,同時對于新問題使用DeepFM預測活躍度較高的用戶的回答問題質(zhì)量,使之后要進行矩陣分解的矩陣更加稠密,準確性也更高。通過對實際問題的預測,驗證了該方法的有效性和可行性。今后的工作中,將朝著2個方向努力。首先,在用戶特征選擇時加入時效性機制,可以為問題更加靈活準確地推薦回答者。第2個方向是在本文的方法中更好地利用文本信息,以利用用戶大量的歷史回答信息。

        猜你喜歡
        回答者矩陣預測
        無可預測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預測卷(A卷)
        選修2-2期中考試預測卷(B卷)
        接夢話
        中國詩歌(2019年6期)2019-11-15 00:26:47
        不必預測未來,只需把握現(xiàn)在
        分答與知識共享
        初等行變換與初等列變換并用求逆矩陣
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        国产一区二区亚洲av| 国产在线观看www污污污| 国产99视频精品免费视频免里| 亚洲男人在线无码视频| 国产3p一区二区三区精品| 国产极品视觉盛宴| 吸咬奶头狂揉60分钟视频| 亚洲国产成人Av毛片大全| 在线观看视频亚洲一区二区三区| 亚洲成av人综合在线观看| 97久久精品午夜一区二区| 免费国产一级片内射老| 一本色道加勒比精品一区二区| 国产亚洲精品久久久久久国模美| 国产婷婷一区二区三区| 亚洲欧洲日产国码久在线| 国产在线一区二区三区四区乱码| 亚洲精品~无码抽插| 无码aⅴ在线观看| 日本啪啪一区二区三区| 亚洲丝袜美腿在线视频| 欧美最大胆的西西人体44| 国产精品久久1024| 亚洲国产大胸一区二区三区| 无遮掩无码h成人av动漫| 日本免费人成视频播放| 国产对白刺激在线观看| 青青草成人免费在线观看视频 | 天天躁日日躁狠狠很躁| a级福利毛片| av资源在线免费观看| 玩弄人妻少妇精品视频| 国产精品嫩草影院AV| 精品国产97av一区二区三区| 国产18禁黄网站免费观看| 又色又爽又黄又硬的视频免费观看 | 国产午夜精品视频观看| 日韩av无码精品一二三区| 色综合88| 中文字幕一区二区网址| 人人妻人人澡人人爽超污|