張旭森
摘? 要: 為使圖書(shū)館文獻(xiàn)個(gè)性化推薦結(jié)果更符合用戶(hù)需求,構(gòu)建基于最大互信息系數(shù)的圖書(shū)館文獻(xiàn)個(gè)性化推送系統(tǒng)。系統(tǒng)由用戶(hù)安全認(rèn)證模塊、文獻(xiàn)資源檢索模塊和文獻(xiàn)個(gè)性化推送模塊等五大模塊構(gòu)成。其中,文獻(xiàn)個(gè)性化推送模塊基于互信息理論思想,先根據(jù)用戶(hù)興趣度將文獻(xiàn)關(guān)鍵詞聚類(lèi),再采用最大互信息系數(shù)判斷用戶(hù)感興趣文獻(xiàn)類(lèi)別與關(guān)鍵詞信息匹配結(jié)果關(guān)聯(lián)度,該值越大,表明文獻(xiàn)關(guān)鍵詞與用戶(hù)感興趣文獻(xiàn)類(lèi)別關(guān)聯(lián)性越強(qiáng),該文獻(xiàn)為用戶(hù)所感興趣,可將該文獻(xiàn)推送給用戶(hù),反之,不向用戶(hù)推送,實(shí)現(xiàn)用戶(hù)圖書(shū)館文獻(xiàn)的個(gè)性化準(zhǔn)確推送。測(cè)試結(jié)果表明,所設(shè)計(jì)系統(tǒng)可針對(duì)用戶(hù)感興趣內(nèi)容,推送出文獻(xiàn)數(shù)量多、文獻(xiàn)內(nèi)容詳細(xì)的文獻(xiàn)信息,且系統(tǒng)可針對(duì)不同用戶(hù)使用需求推送出大量與關(guān)鍵詞相符的文獻(xiàn)信息,說(shuō)明系統(tǒng)的文獻(xiàn)個(gè)性化推送質(zhì)量佳,可大范圍地應(yīng)用在高校圖書(shū)館中。
關(guān)鍵詞: 圖書(shū)館文獻(xiàn)檢索; 文獻(xiàn)個(gè)性化推送; 文獻(xiàn)類(lèi)別判斷; 推送系統(tǒng)構(gòu)建; 關(guān)鍵詞信息匹配; 高校圖書(shū)館
中圖分類(lèi)號(hào): TN02?34; TP391? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)09?0146?04
Design of library literature personalized push system based on
maximal information coefficient
ZHANG Xusen
(College of Humanities & Information, Changchun University of Technology, Changchun 130122, China)
Abstract: In order to make the personalized recommendation results of library literature more satisfied with user requirements, a library literature personalized push system based on maximal information coefficient (MIC) is constructed. The system is composed of user security authentication module, literature resource retrieval module, literature personalized push module and other two big modules. The literature personalized push module based on mutual information theory is used to cluster the literature keywords first according to user′s interest degree, and then the maximal information coefficient is adopted to judge the correlation between literature categories that the users are interested in and keywords information matching results. The greater the value is, the stronger the correlation that the literature keywords are related with the categories becomes. It means that the literature can be pushed to the user. On the other hand, the literature cannot be pushed to the user. The personalized accurate push of the library literature is realized. The testing results show that the designed system can push a large number of literatures and literature information with detailed content to users according to their interesting contents, and can push out a large number of literature information associated with the keywords for their different requirements. It means that the personalized push system of literature has good pushing quality, and can be widely used in the university libraries.
Keywords: library literature retrieval; literature personalized push; literature category judgement; pushing system establishment; keyword information matching; university library
0? 引? 言
隨著高校圖書(shū)館的不斷建設(shè),促使高校圖書(shū)館對(duì)文獻(xiàn)的管理水平不斷加強(qiáng),圖書(shū)館文獻(xiàn)個(gè)性化推送質(zhì)量是衡量圖書(shū)館服務(wù)質(zhì)量的關(guān)鍵指標(biāo),根據(jù)用戶(hù)的興趣度向用戶(hù)推送與用戶(hù)興趣相符的文獻(xiàn)資料成為圖書(shū)館建設(shè)主要考慮的問(wèn)題[1]。
最大互信息系數(shù)(Maximal Information Coefficient,MIC)主要評(píng)價(jià)兩個(gè)變量間的相似程度,相似程度越大表明變量間相關(guān)聯(lián)度越高,最大互信息系數(shù)特征具有普適性[2?4],可適用在線(xiàn)性變量和非線(xiàn)性變量的相似度處理過(guò)程中。本文基于最大互信息系數(shù)設(shè)計(jì)圖書(shū)館文獻(xiàn)個(gè)性化推送系統(tǒng),確保向用戶(hù)推薦其感興趣的文獻(xiàn),實(shí)現(xiàn)圖書(shū)館文獻(xiàn)的個(gè)性化推送。
1? 圖書(shū)館文獻(xiàn)個(gè)性化推送系統(tǒng)設(shè)計(jì)
1.1? 系統(tǒng)總體結(jié)構(gòu)
基于最大互信息系數(shù)的圖書(shū)館個(gè)性化推送系統(tǒng)包括五大功能模塊,其結(jié)構(gòu)如圖1所示,分別為用戶(hù)安全認(rèn)證模塊、文獻(xiàn)資源檢索模塊、文獻(xiàn)定制模塊、文獻(xiàn)資源管理模塊以及文獻(xiàn)個(gè)性化推送模塊等。其中,系統(tǒng)用戶(hù)安全認(rèn)證模塊是系統(tǒng)安全穩(wěn)定運(yùn)行的基石,確保系統(tǒng)的正常安全穩(wěn)定運(yùn)行;文獻(xiàn)定制模塊根據(jù)用戶(hù)的檢索情況和文獻(xiàn)資源管理模塊向用戶(hù)提供個(gè)性化服務(wù);文獻(xiàn)個(gè)性化推送模塊是系統(tǒng)核心,該模塊推送的信息包括用戶(hù)文獻(xiàn)借閱信息和讀者定制信息等[5?6],是系統(tǒng)的核心模塊。
1.2? 文獻(xiàn)個(gè)性化推送模塊設(shè)計(jì)
文獻(xiàn)推送界面是一種個(gè)性化和主動(dòng)化的服務(wù)方式,文獻(xiàn)個(gè)性化推送模塊是系統(tǒng)的核心部分。該模塊在設(shè)計(jì)時(shí)采用最大互信息系數(shù)理論中的互信息理論思想,先根據(jù)用戶(hù)興趣度將文獻(xiàn)關(guān)鍵詞聚類(lèi),再將用戶(hù)感興趣文獻(xiàn)類(lèi)別與關(guān)鍵詞信息匹配,根據(jù)用戶(hù)興趣度向其推薦感興趣文獻(xiàn),實(shí)現(xiàn)文獻(xiàn)個(gè)性化推送[7?8]。用戶(hù)的個(gè)性化需求是動(dòng)態(tài)的,用戶(hù)的文獻(xiàn)信息庫(kù)可隨用戶(hù)的個(gè)性化需求改變,提升了圖書(shū)館文獻(xiàn)推送的準(zhǔn)確度和推送質(zhì)量,文獻(xiàn)個(gè)性化推薦模塊推送結(jié)構(gòu)如圖2所示。
待推送的文獻(xiàn)信息按不同關(guān)鍵詞分類(lèi),將包括相同興趣點(diǎn)的文獻(xiàn)資源分為一種類(lèi)別,將含有不同興趣點(diǎn)的文獻(xiàn)資源劃分為另一種類(lèi)別,依據(jù)劃分的文獻(xiàn)類(lèi)別,文獻(xiàn)個(gè)性化推送模塊采用最大互信息系數(shù)運(yùn)算獲取用戶(hù)的感興趣文獻(xiàn)[9?11],并及時(shí)地推送給用戶(hù),使用戶(hù)實(shí)際得到的文獻(xiàn)信息與希望得到的文獻(xiàn)信息接近度大幅度提高,增強(qiáng)了圖書(shū)館文獻(xiàn)個(gè)性化推送的效率和精度,充分發(fā)揮圖書(shū)館中文獻(xiàn)資源效用。
1.3? 基于最大互信息系數(shù)的推送實(shí)現(xiàn)
1.3.1? 最大互信息系數(shù)原理
最大互信息系數(shù)主要通過(guò)互信息和網(wǎng)格劃分的方法計(jì)算獲取,互信息用于衡量變量間相關(guān)性指標(biāo),假設(shè)樣本變量[M=mi,i=1,2,…,n]和[G=gi,i=1,2,…,n],其中,[n]表示樣本數(shù)量,則將互信息表示為:
[MI=(M,G)=m∈Mg∈Gp(m,g)logp(m,g)p(m)p(g)] (1)
式中:[p(m,g)]為[M]與[G]聯(lián)合概率密度;[p(m)]和[p(g)]均為邊緣概率密度。
網(wǎng)格劃分中,假設(shè)文獻(xiàn)信息[R=(mi,gi),i=1,2,…,n]是有限的有序?qū)?,定義劃分[G]將變量[M]和[G]的值域分別劃分為[x]段和[y]段,獲取[x*y]網(wǎng)格劃分結(jié)果。此時(shí),在網(wǎng)格劃分后各個(gè)網(wǎng)格中計(jì)算互信息[MI(M,G)],網(wǎng)格劃分方式有多種形式,網(wǎng)格劃分后得到的互信息[MI(M,G)]的最大值表示劃分[G]的互信息值,此時(shí)將劃分[G]下的最大互信息表示為:
[MI*(R,x,y)=max MI(RG)] (2)
式中,文獻(xiàn)信息[R]通過(guò)[G]劃分的過(guò)程用[RG]描述,最大互信息系數(shù)通過(guò)互信息描述網(wǎng)格優(yōu)劣的過(guò)程,并非是一種單純的預(yù)測(cè)過(guò)程,而是一種運(yùn)算過(guò)程,運(yùn)算時(shí)將劃分網(wǎng)格獲取的[MI]值構(gòu)成特征矩陣,該特征矩陣[M(R)x,y]表示如下:
[M(R)x,y=MI*(R,x,y)log min(x,y)] (3)
此時(shí),將最大互信息系數(shù)用式(4)表示:
[MIC(R)=maxxy 式中網(wǎng)格劃分結(jié)果[x*y]上限值用[L(n)]描述,通常[L(n)=n0.6]。 1.3.2? 推送實(shí)現(xiàn) 采用最大互信息系數(shù)的圖書(shū)館文獻(xiàn)個(gè)性化推送時(shí),最大信息系數(shù)定義文獻(xiàn)關(guān)鍵詞與用戶(hù)感興趣文獻(xiàn)類(lèi)別以及關(guān)鍵詞與關(guān)鍵詞關(guān)聯(lián)性[12]。假設(shè)一個(gè)包含[n]個(gè)樣本數(shù)據(jù)的文獻(xiàn)集合[F=f1,f2,…,fm,c],其中,包括關(guān)鍵詞數(shù)為[m],用戶(hù)感興趣文獻(xiàn)類(lèi)別為[c]。將圖書(shū)館文獻(xiàn)中任意關(guān)鍵詞[fi]與用戶(hù)感興趣文獻(xiàn)類(lèi)別[c]間關(guān)聯(lián)性用[MIC(fi,c)]描述,且該值取值范圍是[0,1]。[MIC(fi,c)]值越大,表明文獻(xiàn)關(guān)鍵詞與用戶(hù)感興趣文獻(xiàn)類(lèi)別關(guān)聯(lián)性越強(qiáng)[13],說(shuō)明該文獻(xiàn)為用戶(hù)所感興趣,可將該文獻(xiàn)推送給用戶(hù);反之,[MIC(fi,c)]值弱,此時(shí)的文獻(xiàn)關(guān)鍵詞[fi]與用戶(hù)感興趣文獻(xiàn)類(lèi)別關(guān)聯(lián)性弱,用戶(hù)感興趣度差,則不向用戶(hù)推送[14]。 將任意文獻(xiàn)間關(guān)鍵詞[fi]和[fj]間相關(guān)性表示為[MIC(fi,fj)],當(dāng)[MIC(fi,fj)]值接近1時(shí),說(shuō)明該兩個(gè)關(guān)鍵詞所在文獻(xiàn)內(nèi)容較接近,當(dāng)[MIC(fi,fj)]接近0時(shí),說(shuō)明該兩個(gè)關(guān)鍵詞所在文獻(xiàn)內(nèi)容相互獨(dú)立。 2? 系統(tǒng)性能的測(cè)試 實(shí)驗(yàn)在構(gòu)建完圖書(shū)館文獻(xiàn)個(gè)性化推送系統(tǒng)后,需要對(duì)系統(tǒng)實(shí)施仿真測(cè)試。實(shí)驗(yàn)將本文系統(tǒng)應(yīng)用到北方某高校圖書(shū)館中,為突出比較本文系統(tǒng)的文獻(xiàn)個(gè)性化推送質(zhì)量,將基于協(xié)同過(guò)濾的圖書(shū)管理系統(tǒng)和基于B/S的圖書(shū)管理系統(tǒng)文獻(xiàn)推送界面與本文系統(tǒng)推送界面實(shí)施比對(duì),本文系統(tǒng)和另外兩種系統(tǒng)的文獻(xiàn)推送界面分別如圖3~圖5所示。 本文推送界面清晰顯示了圖書(shū)館文獻(xiàn)的推送情況,且系統(tǒng)的推送文獻(xiàn)數(shù)量較多,可呈現(xiàn)出文獻(xiàn)的詳細(xì)細(xì)節(jié)信息,豐富文獻(xiàn)的推薦內(nèi)容,說(shuō)明本文系統(tǒng)可針對(duì)用戶(hù)的感興趣內(nèi)容實(shí)現(xiàn)充分的文獻(xiàn)推送。 分析基于協(xié)同過(guò)濾的圖書(shū)館管理系統(tǒng)文獻(xiàn)推送界面可知,該系統(tǒng)雖然能提供一定條數(shù)的文獻(xiàn)信息,但推送的文獻(xiàn)數(shù)量較少,且推送結(jié)果僅呈現(xiàn)文獻(xiàn)名字,沒(méi)有呈現(xiàn)出文獻(xiàn)的其他相關(guān)內(nèi)容,不利于用戶(hù)全面了解推送文獻(xiàn)內(nèi)容,系統(tǒng)文獻(xiàn)推送質(zhì)量較差。 實(shí)驗(yàn)為驗(yàn)證本文系統(tǒng)針對(duì)不同類(lèi)型用戶(hù)的個(gè)性化文獻(xiàn)推薦效果,從該校計(jì)算機(jī)專(zhuān)業(yè)和會(huì)計(jì)專(zhuān)業(yè)的學(xué)生中,隨機(jī)選取6個(gè)學(xué)生作為測(cè)試對(duì)象,系統(tǒng)推送關(guān)鍵詞分別是Java,系統(tǒng)推送文獻(xiàn)條數(shù)如表1所示。 為突出呈現(xiàn)本文系統(tǒng)的文獻(xiàn)個(gè)性化推送結(jié)果的精度,將表1數(shù)據(jù)結(jié)果用圖6柱形圖描繪。 從表1和圖6推送結(jié)果可知:本文系統(tǒng)推送Java相關(guān)文獻(xiàn)數(shù)目均最多,協(xié)同過(guò)濾系統(tǒng)推送數(shù)目次之,B/S系統(tǒng)推送文獻(xiàn)數(shù)目最少,且三種系統(tǒng)文獻(xiàn)個(gè)性化推送結(jié)果中均會(huì)出現(xiàn)與關(guān)鍵詞不相關(guān)的推送結(jié)果。詳細(xì)分析表1,圖6可知,本文系統(tǒng)推送Java相關(guān)文獻(xiàn)中不相關(guān)文獻(xiàn)條數(shù)在0~3條;而協(xié)同過(guò)濾系統(tǒng)推送不相關(guān)文獻(xiàn)條數(shù)較多,在20~34條之間變化,推送結(jié)果存在較大偏差;B/S系統(tǒng)推薦不相關(guān)文獻(xiàn)在15~26條之間變化。對(duì)比分析可知,本文系統(tǒng)可向系統(tǒng)使用者準(zhǔn)確推送多條與關(guān)鍵詞相關(guān)的文獻(xiàn),個(gè)性化推薦效果更佳,可在高校圖書(shū)館中推廣使用。 3? 結(jié)? 語(yǔ) 圖書(shū)館文獻(xiàn)個(gè)性化推送應(yīng)以用戶(hù)的感興趣內(nèi)容為主要推送內(nèi)容,最大互信息系數(shù)通過(guò)評(píng)估文獻(xiàn)關(guān)鍵詞與用戶(hù)感興趣文獻(xiàn)類(lèi)別間的關(guān)聯(lián)性,判斷文獻(xiàn)內(nèi)容是否為用戶(hù)所感興趣內(nèi)容,若文獻(xiàn)內(nèi)容為用戶(hù)感興趣內(nèi)容,則將文獻(xiàn)信息推送給用戶(hù),反之,不推送給用戶(hù),實(shí)現(xiàn)圖書(shū)館文獻(xiàn)個(gè)性化推送。 參考文獻(xiàn) [1] 翟麗麗,沃強(qiáng),張樹(shù)臣.制造業(yè)大數(shù)據(jù)聯(lián)盟資源推送服務(wù)算法[J].計(jì)算機(jī)集成制造系統(tǒng),2017,23(11):40?50. [2] 董倩妍,王力,蔣本聰,等.基于A(yíng)AR模型的聽(tīng)覺(jué)誘發(fā)中潛伏期反應(yīng)特征提取[J].電子技術(shù)應(yīng)用,2017,43(11):78?81. [3] 莊夏.基于互信息特征選擇和LSSVM的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)[J].中國(guó)測(cè)試,2017,43(11):134?139. [4] 涂月明,付湘,楊會(huì)娟.基于互信息的湖泊日水位預(yù)測(cè):以西洞庭湖為例[J].人民長(zhǎng)江,2017,48(16):38?42. [5] 王敏,吳震,饒金濤,等.針對(duì)密碼芯片頻域互信息能量分析攻擊[J].通信學(xué)報(bào),2015,36(1):131?135. [6] 馮毅雄,張舜禹,高一聰,等.基于特征語(yǔ)義分析的數(shù)控機(jī)床設(shè)計(jì)知識(shí)精確智能推送方法[J].計(jì)算機(jī)集成制造系統(tǒng),2016,22(1):189?201. [7] 莊文杰,談國(guó)新,侯西龍,等.非物質(zhì)文化遺產(chǎn)資源自適應(yīng)推送系統(tǒng)的用戶(hù)模型構(gòu)建研究[J].情報(bào)雜志,2017,36(11):106?113. [8] 王有遠(yuǎn),趙璐,張樂(lè)恩.基于情境約束的知識(shí)個(gè)性化推送[J].中國(guó)機(jī)械工程,2017,28(15):1812?1819. [9] 李淑華,郝星耀,周清波,等.基于Web的自動(dòng)灌溉控制系統(tǒng)數(shù)據(jù)實(shí)時(shí)推送設(shè)計(jì)與開(kāi)發(fā)[J].農(nóng)業(yè)工程學(xué)報(bào),2015,31(15):133?139. [10] 尹延寧,劉太君,葉焱,等.基于Node. js, SenchaTouch和iBeacon信息推送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].火力與指揮控制,2016,41(8):151?154. [11] 賈非,蔣超,吳茵杰.特色函件推送系統(tǒng)設(shè)計(jì)及其對(duì)論文閱讀率的提升作用[J].編輯學(xué)報(bào),2015,27(3):280?282. [12] 周皖婧,辛濤,劉拓.“互聯(lián)網(wǎng)+”背景下的學(xué)生個(gè)性化學(xué)習(xí)系統(tǒng)開(kāi)發(fā):現(xiàn)狀與啟示[J].清華大學(xué)教育研究,2016,37(6):79?84. [13] 劉建波,馬彩虹,陳甫,等.遙感衛(wèi)星數(shù)據(jù)實(shí)時(shí)主動(dòng)服務(wù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].遙感信息,2016,31(3):61?67. [14] 吳錦輝.基于功能需求的圖書(shū)館微信內(nèi)容建設(shè)分析[J].國(guó)家圖書(shū)館學(xué)刊,2015,24(1):52?58. [15] 胡媛,胡昌平.基于知識(shí)聚合的數(shù)字圖書(shū)館社區(qū)推送服務(wù)組織:以武漢大學(xué)數(shù)字圖書(shū)館社區(qū)為例[J].國(guó)家圖書(shū)館學(xué)刊,2016,25(2):66?76.