衛(wèi)欣玲
(陜西交通職業(yè)技術(shù)學(xué)院 汽車工程學(xué)院,陜西 西安 710018)
隨著各種閱讀軟件的推出,現(xiàn)代文學(xué)作品走向了網(wǎng)絡(luò)化時(shí)代,面對(duì)海量文學(xué)作品,讀者在選擇上耗費(fèi)了大量的時(shí)間與精力[1]。在這一背景下,文學(xué)作品的推薦功能已經(jīng)成為了閱讀軟件所必備的功能,一方面它可以高效地引導(dǎo)讀者找到自己滿意的文學(xué)作品,另一方面它可以增加讀者的黏性,避免讀者在內(nèi)容選擇上出現(xiàn)倦怠心理[2]。目前常見(jiàn)的推薦方式是在讀者登錄文學(xué)網(wǎng)站或App時(shí)進(jìn)行喜好篩選與引導(dǎo),網(wǎng)站可以根據(jù)讀者的搜索、瀏覽記錄進(jìn)行數(shù)據(jù)分析和個(gè)性化內(nèi)容的推薦服務(wù)[3]。讀者的個(gè)性化推薦服務(wù)最初起源于Doubleclick公司,這個(gè)公司對(duì)讀者定制推送個(gè)性化廣告,亞馬遜公司將這一系統(tǒng)與電商網(wǎng)站結(jié)合起來(lái),通過(guò)對(duì)網(wǎng)站消費(fèi)者的歷史數(shù)據(jù)挖掘,進(jìn)行網(wǎng)站商品的推送,并取得了良好的效果[4]。但目前的推薦系統(tǒng)尚且處在發(fā)展階段,在產(chǎn)品種類和讀者數(shù)據(jù)的日漸增長(zhǎng)下,文學(xué)網(wǎng)站推薦系統(tǒng)的潛在問(wèn)題開(kāi)始顯現(xiàn),一是在新用戶和新產(chǎn)品推薦時(shí),存在冷啟動(dòng)問(wèn)題;二是用戶和產(chǎn)品的互動(dòng)信息少,導(dǎo)致可分析數(shù)據(jù)稀疏;三是數(shù)據(jù)量急劇增加導(dǎo)致數(shù)據(jù)分析時(shí)間加長(zhǎng),推薦算法的實(shí)時(shí)性和準(zhǔn)確性無(wú)法同時(shí)保證[5]。基于此,此次從現(xiàn)代文學(xué)作品入手,在對(duì)讀者進(jìn)行社區(qū)劃分的基礎(chǔ)上,結(jié)合多種智能算法,進(jìn)行個(gè)性化推薦算法研究,希望在保證算法效率的同時(shí),可以最大程度地提升文學(xué)作品推薦算法的準(zhǔn)確性。
信息增益表示分類信息中含有特征項(xiàng)時(shí)的信息量與不含特征項(xiàng)時(shí)的信息量之差,特征項(xiàng)t的重要程度可以由信息增益的大小反映,在信息分類的過(guò)程中,需要對(duì)特征項(xiàng)的信息增益由大到小進(jìn)行排序,并刪除排序靠后的特征項(xiàng),剩下的就是重要性高的特征項(xiàng)。然而在傳統(tǒng)的信息增益算法中,沒(méi)有考慮到特征項(xiàng)在類別中的分布,因此會(huì)出現(xiàn)對(duì)特征項(xiàng)誤刪和漏刪的情況。這次研究提出在文本信息分類中采用加權(quán)信息增益算法(Degree Welghted Information Gain, DWIG),對(duì)特征項(xiàng)的類別內(nèi)分布狀況和類別間分布狀況進(jìn)行考慮,并以權(quán)重對(duì)特征項(xiàng)進(jìn)行衡量,以此彌補(bǔ)傳統(tǒng)信息增益算法的不足之處。
對(duì)于數(shù)量較多的類別文本,若特征項(xiàng)在這一類別的所有文本中均勻分布,則認(rèn)為這個(gè)特征項(xiàng)在這一類文本的分類上有更大的貢獻(xiàn)。因此,在這里以類內(nèi)分散度表示特征項(xiàng)在類別內(nèi)部的分布狀況,其數(shù)學(xué)表達(dá)式如式(1)。
(1)
其中,Ci表示文本類別;t表示特征項(xiàng);N表示文本數(shù)量。
對(duì)于類別較多的文本信息,若特征項(xiàng)在某一類文本信息中大量出現(xiàn),而在其他類別文本中出現(xiàn)較少,則說(shuō)明這一特征項(xiàng)在文本分類上的貢獻(xiàn)較大。這里以類間集中度表示特征項(xiàng)在類間的分布情況,其數(shù)學(xué)表達(dá)式如式(2)。
(2)
針對(duì)傳統(tǒng)信息增益算法的缺陷,在這里以類內(nèi)分散度和類間集中度對(duì)特征項(xiàng)t的位置權(quán)重進(jìn)行改進(jìn),改進(jìn)后的位置權(quán)重如式(3)。
(3)
結(jié)合改進(jìn)后特征項(xiàng)t的位置權(quán)重,在信息增益算法的改進(jìn)上采用最大值的衡量方法,改進(jìn)算法的數(shù)學(xué)表達(dá)式如式(4)。
CD(Cj,t)(H(C)-H(C|ti))
(4)
式中,Cj表示文本類別;H表示信息熵,即信息的期望值。
在文本信息的分類中,首先需要對(duì)原始數(shù)據(jù)進(jìn)行分析并選擇特征項(xiàng),輸出特征子集,然而擁有相同的特征項(xiàng)并不代表是同一個(gè)的信息數(shù)據(jù)。因此采用基于位置分布權(quán)重的TF-IDF算法(Term Frequency-Inverse Document Frequency-Distribution Weight, TF-IDF-DW)對(duì)文本信息數(shù)據(jù)進(jìn)行區(qū)分。TF-IDF融合特征權(quán)重算法涉及到2個(gè)部分,其一是詞頻,即特征詞在信息中的出現(xiàn)次數(shù);其二是逆文檔頻率,即文本集中的特征項(xiàng)部署情況。特征詞匯在文本信息中的詞頻越高,說(shuō)明它的權(quán)重越大,詞頻以式(5)表示。
WeightTF(t)=TF(d,t)
(5)
對(duì)于文本信息而言,如果特征項(xiàng)t在大量的文本中出現(xiàn),那么說(shuō)明它的比重小,反之則比重大,逆文檔頻率的函數(shù)表達(dá)式如式(6)。
(6)
式中,n表示含有特征項(xiàng)t的文本信息數(shù)量;N表示文本信息總數(shù)量。在對(duì)文本信息進(jìn)行詞頻和逆文檔頻率的處理后,可以減少無(wú)關(guān)詞匯的比重,增加重要特征項(xiàng)的比重,提高特征項(xiàng)分類準(zhǔn)確性,如式(7)。
(7)
雖然TF-IDF算法可以提高特征項(xiàng)對(duì)文本信息的區(qū)分效率,然而對(duì)于出現(xiàn)頻率較少且分散均勻的詞匯而言,這種算法的計(jì)算比重偏大,分類準(zhǔn)確性減小。因此,在傳統(tǒng)的TF-IDF算法基礎(chǔ)上,這里提出以類間分散度對(duì)特征項(xiàng)逆文檔頻率進(jìn)行平衡,將特征項(xiàng)在不同類別信息中的分散狀態(tài)考慮到算法分析中。改進(jìn)后的算法融進(jìn)了權(quán)重值,其函數(shù)表達(dá)如式(8)。
(8)
傳統(tǒng)的推薦算法以協(xié)同過(guò)濾推薦算法為主,目前廣泛應(yīng)用于各大電商網(wǎng)絡(luò)系統(tǒng)中[6]。協(xié)同過(guò)濾推薦算法有2種類型,一種從推薦目標(biāo)的角度出發(fā),參考近鄰的喜好,進(jìn)行推薦商品的分析評(píng)分;另一種是從推薦商品的角度出發(fā),參考推薦目標(biāo)喜好,以特定算法對(duì)相似商品進(jìn)行搜集和分析評(píng)分。在推薦算法中,近鄰優(yōu)良通過(guò)相似度的精確性來(lái)決定,相似度的精確性直接影響了最終結(jié)果的準(zhǔn)確性和可信度。目前應(yīng)用廣泛的相似度計(jì)算方法有余弦相似度、斯皮爾曼相關(guān)系數(shù)、Pearson相關(guān)系數(shù)、谷本系數(shù)等[7]。
文學(xué)網(wǎng)站的讀者都有各自的閱讀偏好和習(xí)慣,但他們?cè)谝欢ǔ潭壬洗嬖谙嗨菩?,這使得閱讀偏好和習(xí)慣相似度高的讀者會(huì)形成一個(gè)社區(qū)。這里將采用BIRCH算法對(duì)讀者進(jìn)行社區(qū)識(shí)別,該算法的基本思想在于同屬于一個(gè)社區(qū)的不同讀者,對(duì)于同一類型的作品評(píng)價(jià)具有高度相似性。然而在實(shí)際分析中,讀者社區(qū)的原始數(shù)據(jù)存在一些問(wèn)題,如興趣愛(ài)好數(shù)據(jù)稀疏、興趣數(shù)據(jù)重疊、社區(qū)間數(shù)據(jù)量差異過(guò)大等。這種情況下,特征項(xiàng)的選擇精確度和數(shù)據(jù)分析準(zhǔn)確性會(huì)受到影響。
奇異值分解(SVD)是一種數(shù)據(jù)信息提取方法,從數(shù)學(xué)角度而言,奇異值分解可以通過(guò)矩陣實(shí)現(xiàn)。將數(shù)據(jù)集以一個(gè)大的矩陣的形式表示出來(lái),并對(duì)這個(gè)矩陣進(jìn)行不同形式的拆解,如多個(gè)矩陣相乘的形式,這就是奇異矩陣分解法。這種矩陣的特點(diǎn)在于,對(duì)角元素?cái)?shù)值由大到小,而非對(duì)角元素的其他元素大多設(shè)置為0,這些對(duì)角元素就是奇異值。在科學(xué)研究中,需要確定R個(gè)重要特征進(jìn)行利用,此外的其他奇異值默認(rèn)為0。一般而言,對(duì)奇異值求取平均和,直到所有的和到達(dá)總值的90%,就可以確定R的值。在這次的研究中,將采用奇異值分解的方法對(duì)讀者原始數(shù)據(jù)進(jìn)行處理,并得到Um×d數(shù)據(jù)集、d×d、n×d,其中d?n,d?m,3個(gè)數(shù)據(jù)的關(guān)系如式(9)。
(9)
式中,d表示讀者數(shù)據(jù)維度,m表示讀者數(shù)量,n表示文學(xué)作品數(shù)量,S和V均為單位正交矩陣,表示線性映射。Um×d表示對(duì)原始數(shù)據(jù)進(jìn)行奇異值分解后得到的數(shù)據(jù)集。基于這一數(shù)據(jù)集所表示的讀者數(shù)據(jù)特征,對(duì)讀者進(jìn)行社區(qū)劃分,最終的社區(qū)劃分效果如圖1所示。可以看出在SVD的處理下,每個(gè)社區(qū)的讀者分布均衡。
圖1 SVD處理后的社區(qū)劃分效果
為了提高文學(xué)網(wǎng)站推薦算法的精確度,這里主要考慮2個(gè)方面,一是推薦對(duì)象與產(chǎn)品的相似性計(jì)算;二是對(duì)于推薦產(chǎn)品的預(yù)測(cè)評(píng)分,其中預(yù)測(cè)評(píng)分需要考慮到近鄰對(duì)象的影響。讀者評(píng)分本身是帶主觀意識(shí)的一種評(píng)價(jià),與個(gè)人評(píng)價(jià)準(zhǔn)則、評(píng)價(jià)時(shí)的主觀情緒都有關(guān)聯(lián),因此讀者評(píng)分與個(gè)人喜好不具有絕對(duì)的關(guān)聯(lián)性。此次研究引入讀者評(píng)分準(zhǔn)則,并計(jì)算出準(zhǔn)則因子,結(jié)合相似度和預(yù)測(cè)評(píng)分進(jìn)行推薦算法的改進(jìn),如式(10)。
(10)
式中,U={u1,u2,…,um}表示讀者;I={i1,i2,…in}表示文學(xué)作品;Rm×n表示讀者-文學(xué)作品的評(píng)分?jǐn)?shù)據(jù)集;ru,i表示讀者u對(duì)作品i的評(píng)分值。
這里通過(guò)肯定性評(píng)分和否定性評(píng)分兩種評(píng)分方式來(lái)衡量讀者對(duì)作品的看法,以此考慮到不同讀者在同一文學(xué)作品評(píng)分準(zhǔn)則上的差異度。其中肯定性和否定性評(píng)分以中位數(shù)區(qū)分,例如,評(píng)分為1-10分,則肯定性評(píng)分>5分,否定性評(píng)分≤5分,如式(11)。
(11)
相似度的計(jì)算方法有很多種,這里采用歐幾里得公式,函數(shù)表達(dá)式如式(12)。
(12)
結(jié)合此次研究的內(nèi)容,以rmin對(duì)相似度計(jì)算進(jìn)行改進(jìn),改進(jìn)計(jì)算式如式(13)。
(13)
式中,wp表示不同讀者評(píng)分準(zhǔn)則的影響權(quán)重;Iuv表示不同讀者所共同評(píng)價(jià)的作品,rmin表示評(píng)分值的值差。
在對(duì)讀者進(jìn)行社區(qū)劃分后,將同一社區(qū)的讀者對(duì)于文學(xué)作品的評(píng)分分為2類,即肯定性評(píng)分和否定性評(píng)分,并以此判斷讀者所處的社區(qū)對(duì)于文學(xué)作品的評(píng)分態(tài)度傾向。在此基礎(chǔ)上,加入相似讀者的文檔等級(jí)評(píng)分,并以α1、α2分別表示原始評(píng)分和文本評(píng)分的比重,如式(14)。
(14)
本次從2個(gè)方面對(duì)現(xiàn)代文學(xué)作品的個(gè)性化推薦服務(wù)進(jìn)行了研究,一方面是作品的讀者評(píng)論文本分析,另一方面是對(duì)讀者進(jìn)行社區(qū)劃分的個(gè)性化推薦。實(shí)驗(yàn)原始數(shù)據(jù)來(lái)源于豆瓣網(wǎng)站中的現(xiàn)代文學(xué)作品數(shù)據(jù)庫(kù),其中包括了4 000名讀者對(duì)8 000本現(xiàn)代文學(xué)作品的評(píng)分?jǐn)?shù)據(jù),以及20 000條評(píng)論文本,將數(shù)據(jù)以8∶2的方式分為訓(xùn)練集和測(cè)試集。評(píng)論文本分析算法的性能將從召回率、準(zhǔn)確率和F值3個(gè)方面進(jìn)行衡量,同時(shí)通過(guò)傳統(tǒng)算法(IG+TF-IDF)和改進(jìn)后的算法(DWIG+TF-IDF-DW)之間的比較來(lái)確定兩種算法之間的優(yōu)劣。傳統(tǒng)算法和改進(jìn)算法的準(zhǔn)確率統(tǒng)計(jì)結(jié)果如圖2所示。
圖2 讀者文本評(píng)論分析算法的準(zhǔn)確率
觀察圖中可以看出,改進(jìn)后的算法準(zhǔn)確率明顯高于傳統(tǒng)算法。在特征子集維度1 000維時(shí),改進(jìn)算法的準(zhǔn)確率為87.5%,傳統(tǒng)算法的準(zhǔn)確率為83.7%%;當(dāng)特征子集維度達(dá)到2 500維時(shí),兩種算法的準(zhǔn)確率趨于穩(wěn)定,最終改進(jìn)算法的準(zhǔn)確率穩(wěn)定在89.5%左右,而傳統(tǒng)算法的準(zhǔn)確率穩(wěn)定在84.8%左右。讀者文本評(píng)論分析算法的召回率結(jié)果,如圖3所示。
圖3 讀者文本評(píng)論分析算法的召回率
在特征子集維度1 000維時(shí),改進(jìn)算法的召回率為87.3%,傳統(tǒng)算法的召回率為83.6%;當(dāng)特征子集維度達(dá)到2 000維時(shí),2種算法的召回率趨于穩(wěn)定,最終改進(jìn)算法的召回率穩(wěn)定在89.1%左右,優(yōu)于傳統(tǒng)算法的84.9%,讀者文本評(píng)論分析算法的F值計(jì)算結(jié)果如圖4所示。
圖4 讀者文本評(píng)論分析算法的F值
從圖中可以看出,隨著特征子集維度的增加,改進(jìn)算法的F值從88.2%增加到89.3%,傳統(tǒng)算法的F值從83.8%增加到84.7%。在特征子集維度達(dá)到2 000維時(shí),兩種算法的F值趨于穩(wěn)定。整體來(lái)看,改進(jìn)算法表現(xiàn)明顯優(yōu)于傳統(tǒng)算法?;谏鲜鲎x者評(píng)論文本的分析結(jié)果,這里以實(shí)驗(yàn)數(shù)據(jù)集對(duì)基于社區(qū)劃分的推薦算法預(yù)測(cè)性能進(jìn)行評(píng)價(jià),并以絕對(duì)誤差均值MAE反映預(yù)測(cè)結(jié)果的準(zhǔn)確度。傳統(tǒng)協(xié)同過(guò)濾算法、基于社區(qū)劃分的推薦算法、社區(qū)劃分和用戶評(píng)分準(zhǔn)則相結(jié)合的推薦算法等3種算法的絕對(duì)誤差均值比較結(jié)果如圖5所示。
圖5 3種推薦算法的絕對(duì)誤差均值MAE
從圖5可以看出,近鄰個(gè)數(shù)對(duì)推薦算法的性能有著明顯影響,但隨著近鄰個(gè)數(shù)的增加,這種影響逐漸減弱,算法的預(yù)測(cè)準(zhǔn)確度趨于穩(wěn)定。另一方面,在近鄰個(gè)數(shù)達(dá)到50個(gè)以上時(shí),3種推薦算法的預(yù)測(cè)精度趨于穩(wěn)定。其中,協(xié)同過(guò)濾推薦算法的MAE值為1.8,基于社區(qū)劃分的推薦算法的MAE值為1.5,社區(qū)劃分結(jié)合用戶評(píng)分準(zhǔn)則的推薦算法的MAE值為1.0。根據(jù)MAE值來(lái)看,社區(qū)劃分結(jié)合用戶評(píng)分準(zhǔn)則的推薦算法預(yù)測(cè)準(zhǔn)確度更高。在社區(qū)劃分+用戶評(píng)分準(zhǔn)則的推薦算法的基礎(chǔ)上,加入讀者評(píng)論文本分析算法,2種推薦算法的絕對(duì)誤差均值的統(tǒng)計(jì)結(jié)果如圖6所示。
從圖6的結(jié)果可以看出,在近鄰個(gè)數(shù)達(dá)到40個(gè)以上時(shí),2種推薦算法的預(yù)測(cè)性能趨于穩(wěn)定。同時(shí)結(jié)合用戶評(píng)分準(zhǔn)則的推薦算法的MAE值為0.5,說(shuō)明讀者評(píng)論文本分析算法明顯改善了特征項(xiàng)的權(quán)重分配合理性,改進(jìn)后的算法準(zhǔn)確度有了明顯的提升。
圖6 兩種推薦算法的絕對(duì)誤差均值MAE
隨著數(shù)據(jù)挖掘技術(shù)的進(jìn)步,為了保證網(wǎng)站用戶黏性,提升用戶的閱讀體驗(yàn)感,智能推薦算法隨之產(chǎn)生。為了提高文學(xué)作品推薦算法的準(zhǔn)確性,此次研究對(duì)讀者評(píng)論文本分析算法進(jìn)行了兩方面的優(yōu)化,一是基于類內(nèi)和類間分布特征進(jìn)行加權(quán)信息增益(DWIG),二是對(duì)特征項(xiàng)進(jìn)行了位置分布權(quán)重優(yōu)化(TF-IDF-DW)。此外,在基于社區(qū)劃分的推薦算法研究中,引入了讀者評(píng)分準(zhǔn)則因子和文本等級(jí)評(píng)分優(yōu)化。實(shí)驗(yàn)以豆瓣網(wǎng)站的文學(xué)作品原始數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,對(duì)改進(jìn)算法進(jìn)行性能評(píng)價(jià)。研究結(jié)果顯示,改進(jìn)算法預(yù)測(cè)結(jié)果的準(zhǔn)確率達(dá)到了89.5%,召回率為89.1%,F(xiàn)值為89.3%,改進(jìn)算法的性能明顯優(yōu)于傳統(tǒng)算法的性能。另外,傳統(tǒng)協(xié)同過(guò)濾推薦算法的MAE值為1.8,結(jié)合用戶評(píng)分準(zhǔn)則、文本等級(jí)評(píng)分和評(píng)論文本分析的算法優(yōu)化,最終的改進(jìn)算法MAE值達(dá)到0.5,預(yù)測(cè)結(jié)果和實(shí)際結(jié)果的誤差顯著減小。因此,此次研究所提出的基于社區(qū)劃分的推薦算法,對(duì)智能推薦系統(tǒng)的推薦精確度有著極大地提升,希望這次的研究結(jié)果能為智能推薦系統(tǒng)的應(yīng)用升級(jí)提供參考。這次研究存在一些不足之處,如沒(méi)有對(duì)評(píng)分準(zhǔn)則因子深入研究,今后將對(duì)算法進(jìn)行進(jìn)一步的改進(jìn)。