祝 婷
(西安工業(yè)大學(xué)圖書館,陜西 西安 710021)
學(xué)術(shù)論文是科研人員在學(xué)術(shù)研究過程中的重要知識源,然而隨著大數(shù)據(jù)時代的到來,學(xué)術(shù)論文數(shù)量急劇增長,用戶在論文數(shù)據(jù)庫中檢索論文時,往往會出現(xiàn)信息過載的問題。如何幫助用戶從海量論文中獲取所需論文,為用戶提供推薦服務(wù),對輔助科學(xué)研究具有重要意義。常見的學(xué)術(shù)論文推薦方法包括基于內(nèi)容的推薦方法、基于關(guān)聯(lián)規(guī)則的推薦方法、協(xié)同過濾推薦方法以及混合推薦方法,其中協(xié)同過濾推薦方法是使用最為廣泛且成功的一種推薦方法。除了利用用戶對論文的評分計算相似性外,論文本身的語義特征也是不可忽略的重要因素,深度學(xué)習(xí)技術(shù)可以深層次的挖掘論文的隱式特征,因此,將深度學(xué)習(xí)技術(shù)與協(xié)同過濾推薦方法相融合已成為新的研究趨勢。本文首先對學(xué)術(shù)論文推薦現(xiàn)狀和存在的不足進(jìn)行了概述,然后介紹了深度學(xué)習(xí)和協(xié)同過濾技術(shù),最后在此基礎(chǔ)上提出了一種融合深度學(xué)習(xí)與協(xié)同過濾的學(xué)術(shù)論文推薦方法,以期為用戶提供更為準(zhǔn)確的學(xué)術(shù)論文推薦服務(wù)。
傳統(tǒng)的學(xué)術(shù)論文推薦方法通常包含基于內(nèi)容的學(xué)術(shù)論文推薦、基于關(guān)聯(lián)規(guī)則的學(xué)術(shù)論文推薦、協(xié)同過濾學(xué)術(shù)論文推薦以及混合學(xué)術(shù)論文推薦等?;趦?nèi)容的學(xué)術(shù)論文推薦是通過計算用戶和學(xué)術(shù)論文的向量空間模型,然后比較兩者之間的相似性,將與用戶相似性較高的學(xué)術(shù)論文推薦給用戶;基于關(guān)聯(lián)規(guī)則的學(xué)術(shù)論文推薦是根據(jù)數(shù)據(jù)挖掘算法獲取用戶瀏覽論文數(shù)據(jù)庫生成強關(guān)聯(lián)規(guī)則,用戶在檢索、瀏覽或下載論文時與強關(guān)聯(lián)規(guī)則進(jìn)行匹配,將匹配的學(xué)術(shù)論文推薦給用戶;協(xié)同過濾學(xué)術(shù)論文推薦是通過用戶-論文評分矩陣計算用戶之間的相似性,生成目標(biāo)用戶的近鄰用戶,將近鄰用戶感興趣的學(xué)術(shù)論文推薦給目標(biāo)用戶;混合學(xué)術(shù)論文推薦方法是為了克服以上推薦方法的缺點,融合其優(yōu)點,將多種推薦方法相結(jié)合形成新的混合推薦方法,與單一推薦方法相比具有更好的推薦效果。
基于協(xié)同過濾的學(xué)術(shù)論文推薦未與深度學(xué)習(xí)技術(shù)進(jìn)行相融合。利用協(xié)同過濾技術(shù)進(jìn)行學(xué)術(shù)論文推薦時,主要是依據(jù)用戶對學(xué)術(shù)論文的評分進(jìn)行推薦,這種推薦方法雖然可以滿足用戶的基本需求,但是沒有對學(xué)術(shù)論文的語義特征進(jìn)行分析,致使學(xué)術(shù)論文推薦的準(zhǔn)確度不高,推薦效果不夠顯著。實際上,除了獲取評分?jǐn)?shù)據(jù)之外,分析論文本身的語義特征對于學(xué)術(shù)論文推薦也是至關(guān)重要的,論文的語義特征反映了一篇論文的核心內(nèi)容,而用戶是否對某篇論文感興趣,本質(zhì)上也是根據(jù)論文的核心內(nèi)容進(jìn)行判斷。常見的學(xué)術(shù)論文特征提取方法為一種淺層學(xué)習(xí)方法,該方法無法深層次挖掘?qū)W術(shù)論文的隱式特征,在一定程度上也限制了推薦的準(zhǔn)確性。因此,目前傳統(tǒng)的協(xié)同過濾論文推薦方法在根據(jù)用戶評分?jǐn)?shù)據(jù)進(jìn)行推薦時,尚未考慮到深層次的學(xué)術(shù)論文隱式特征,致使推薦服務(wù)不能真正發(fā)揮作用,進(jìn)一步影響用戶體驗。
深度學(xué)習(xí)作為機器學(xué)習(xí)研究領(lǐng)域的一個重要方向,已成為人工智能和大數(shù)據(jù)發(fā)展的熱潮,目前已廣泛應(yīng)用于自然語言處理、圖像處理、語音識別、機器翻譯等領(lǐng)域[1]。它將低層特征通過組合形成更稠密的高層抽象表示,進(jìn)而實現(xiàn)對數(shù)據(jù)的復(fù)雜特征表示,在這個過程中,避免了傳統(tǒng)的機器學(xué)習(xí)方法中人工構(gòu)建特征帶來的一些問題。隨著大數(shù)據(jù)時代的發(fā)展,用戶面對的數(shù)據(jù)更多的是多源異構(gòu)、復(fù)雜多樣、無規(guī)律的數(shù)據(jù),傳統(tǒng)的淺層學(xué)習(xí)方法無法處理這些數(shù)據(jù),這種場景下,深度學(xué)習(xí)方法便顯得尤為重要。常見的深度學(xué)習(xí)方法包括自編碼器、受限玻爾茲曼機、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等。
協(xié)同過濾是目前應(yīng)用最為廣泛的一種個性化推薦方法,它的核心思想是相似的用戶具有相同的興趣愛好。協(xié)同過濾推薦方法分為基于用戶的協(xié)同過濾推薦方法和基于項目的協(xié)同過濾推薦方法[2]。基于用戶的協(xié)同過濾推薦是指在用戶-項目評分矩陣中計算用戶間的相似性,獲得目標(biāo)用戶的近鄰用戶,然后使用近鄰用戶的評分來預(yù)測目標(biāo)用戶對未評分項目的評分,最后根據(jù)預(yù)測評分的大小對其推薦?;陧椖康膮f(xié)同過濾推薦方法是指在用戶-項目評分矩陣中計算項目間的相似性,根據(jù)項目相似性預(yù)測用戶對未評分項目的評分,將預(yù)測評分較高的項目推薦給用戶。
本文在協(xié)同過濾推薦的過程中引入論文內(nèi)容信息,提出一種融合深度學(xué)習(xí)與協(xié)同過濾的學(xué)術(shù)論文推薦方法。首先,在論文數(shù)據(jù)庫中獲取論文數(shù)據(jù),如題名、摘要、關(guān)鍵詞等,將其向量化表示作為深度學(xué)習(xí)模型的輸入,輸出論文的隱式特征表示,在此基礎(chǔ)上計算論文間的相似性s1;然后,獲取用戶行為數(shù)據(jù)產(chǎn)生用戶-論文評分矩陣,通過該矩陣計算論文間的相似性s2;最后,結(jié)合以上兩種相似性生成最終的論文相似性,根據(jù)其相似性大小對用戶進(jìn)行推薦。整個學(xué)術(shù)論文推薦流程如圖1 所示。
圖1 學(xué)術(shù)論文推薦流程圖
利用深度學(xué)習(xí)技術(shù)進(jìn)行學(xué)術(shù)論文特征表示主要分為以下三個步驟:
3.1.1 數(shù)據(jù)預(yù)處理
首先從論文數(shù)據(jù)庫中爬取論文數(shù)據(jù),如題名、摘要、關(guān)鍵詞等,對其進(jìn)行合并操作;然后對合并后的文本進(jìn)行分詞及去停用詞,并且規(guī)范文本為統(tǒng)一長度,小于統(tǒng)一長度使用0 進(jìn)行填充,大于統(tǒng)一長度進(jìn)行截斷;最后計算文本中每個詞的TF*IDF 值,對其進(jìn)行排序,選取前n 個詞組成詞匯庫,將每個文本即論文轉(zhuǎn)化為這些詞的集合。
3.1.2 向量化表示
由于深度學(xué)習(xí)模型無法直接處理詞或文本,本文使用斯坦福大學(xué)已經(jīng)訓(xùn)練好的語料庫GloVe(6B,400K個詞匯,包含50、100、200、300d 維的向量表示)來對本文的詞進(jìn)行向量表示,最終可將論文表示為,其中pi 表示論文,表示論文中第n 個詞,⊕表示拼接操作。
3.1.3 論文隱式特征表示
將第二步生成的向量作為深度學(xué)習(xí)模型(可選擇卷積神經(jīng)網(wǎng)絡(luò))的輸入,首先通過卷積層進(jìn)行特征提取,可表示為,其中*代表卷積操作,Kj為卷積核,bj為偏置項,f 表示激活函數(shù);然后通過池化層進(jìn)行維度降低,可表示為;最后通過全連接層匯總組合特征信息,可表示為Z=Z1⊕Z2⊕ …⊕Zn。因此,論文的隱式特征最終表示為y=f(W*Z+b),其中W 為全連接層的權(quán)值矩陣,b 為偏置項。
協(xié)同過濾論文推薦方法是根據(jù)用戶對學(xué)術(shù)論文的評分對其進(jìn)行特征表示。評分一般分為顯示評分與隱式評分,顯示評分是指用戶對論文進(jìn)行主動打分,分值一般為0-5,分值越高表明用戶對論文的感興趣程度越高,反之感興趣程度越低,0 表示用戶沒有對該論文進(jìn)行評分。隱式評分是將用戶在論文數(shù)據(jù)庫中檢索、瀏覽、下載論文時的行為數(shù)據(jù)進(jìn)行轉(zhuǎn)換形成的評分?jǐn)?shù)值。例如用戶瀏覽一篇論文的時間越長代表對其越感興趣,對應(yīng)評分?jǐn)?shù)值越高。無論是顯示評分還是隱式評分,最終可將每個用戶對論文數(shù)據(jù)庫中每篇論文的評分表示為用戶-論文評分矩陣,某篇論文獲得每個用戶的評分即評分矩陣的列向量則為該論文的特征表示。
獲得學(xué)術(shù)論文的特征向量表示之后,接下來需要計算學(xué)術(shù)論文間的相似性。常見的相似性算法包括相關(guān)相似性、余弦相似性以及修正的余弦相似性[3]。在基于深度學(xué)習(xí)的學(xué)術(shù)論文特征表示和基于協(xié)同過濾的學(xué)術(shù)論文特征表示的基礎(chǔ)上,使用相似性算法分別計算論文間的相似性,將其表示為s1 和s2,然后加權(quán)兩者生成最終的論文相似性s=a*s1+(1-a)*s2,(0<a< 1)。
根據(jù)加權(quán)后的論文相似性數(shù)值生成論文相似性矩陣,選取與目標(biāo)論文較為相似的前k 篇論文作為近鄰論文,其集合可表示為nei,則用戶i 對論文j 的預(yù)測評分可表示為
大數(shù)據(jù)時代背景下學(xué)術(shù)論文數(shù)量急劇增長,為用戶提供更精準(zhǔn)的論文推薦服務(wù)是未來研究發(fā)展趨勢。本文將深度學(xué)習(xí)技術(shù)與協(xié)同過濾推薦相融合,在協(xié)同過濾推薦過程中計算論文相似性時,引入基于深度學(xué)習(xí)的論文相似性,通過加權(quán)兩種相似性對用戶產(chǎn)生推薦。