隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上的信息資源越來(lái)越豐富,搜索引擎的性能越來(lái)越強(qiáng)大,讀者獲取文獻(xiàn)資源越來(lái)越方便,但也帶來(lái)了更為棘手的問(wèn)題,即如何從海量文獻(xiàn)中快速鎖定最需要的文獻(xiàn)。圖書館員為讀者準(zhǔn)確推薦所需文獻(xiàn)是學(xué)科服務(wù)中面臨的巨大難題。已有學(xué)者關(guān)注這方面的內(nèi)容[1-2],指出在大數(shù)據(jù)環(huán)境下文獻(xiàn)推薦的必要性,也有關(guān)于科研機(jī)構(gòu)內(nèi)部的推薦方案,如構(gòu)建個(gè)人知識(shí)庫(kù)或機(jī)構(gòu)知識(shí)庫(kù)[3]。因此建立適應(yīng)各個(gè)學(xué)科的自動(dòng)文獻(xiàn)篩選算法是十分必要的。
關(guān)于自動(dòng)文獻(xiàn)篩選算法研究有很多,如根據(jù)關(guān)聯(lián)規(guī)則[4-5]或內(nèi)容相似性[6-7]進(jìn)行文獻(xiàn)推薦的算法,根據(jù)用戶特征進(jìn)行個(gè)性化推薦的算法[8-10],根據(jù)引文網(wǎng)絡(luò)中的引證關(guān)系進(jìn)行文獻(xiàn)推薦的算法。這些推薦算法的共同點(diǎn)是對(duì)推薦內(nèi)容進(jìn)行特征提取、建模分析,并根據(jù)用戶進(jìn)行特征匹配,然后根據(jù)匹配程度為用戶推薦相應(yīng)的文獻(xiàn)。推薦算法主要分為內(nèi)容推薦[7]和協(xié)同過(guò)濾推薦[11]兩種,都有相應(yīng)的優(yōu)缺點(diǎn),內(nèi)容推薦方法的推薦準(zhǔn)確率高一些,但計(jì)算量過(guò)大。當(dāng)前內(nèi)容推薦的主要算法是通過(guò)關(guān)鍵詞計(jì)算,但文章的主要特征很難靠關(guān)鍵詞全面反映,使用關(guān)鍵詞不能做到全面、準(zhǔn)確的推薦,還需要考慮使用全文內(nèi)容,如摘要、結(jié)論等,這會(huì)使計(jì)算量大大增加。有很多相關(guān)的算法研究[12-17]。因此需要對(duì)推薦的目標(biāo)內(nèi)容做多層次的簡(jiǎn)化分析[7-9],將相關(guān)度不高的各個(gè)方向內(nèi)容分別做剪枝處理,得到比較簡(jiǎn)化的模型。在多層次分析中,先對(duì)期刊引用數(shù)據(jù)進(jìn)行分析和篩選,列出引用概率比較大的一些期刊,再進(jìn)行語(yǔ)義分析或內(nèi)容推薦等,會(huì)大大提高計(jì)算效率,有助于進(jìn)行海量數(shù)據(jù)分析。當(dāng)前進(jìn)行期刊數(shù)據(jù)分析和篩選的算法精度都比較低,嚴(yán)重限制了算法的應(yīng)用。
對(duì)統(tǒng)計(jì)分布的研究有效地簡(jiǎn)化了文獻(xiàn)推薦算法,對(duì)期刊的計(jì)量指標(biāo)的精確描述影響很大。當(dāng)前關(guān)于引文統(tǒng)計(jì)分布的研究結(jié)果表明,統(tǒng)計(jì)分布偏離了布拉德福定律描述的冪律分布。本文對(duì)引用過(guò)程和物理中的擴(kuò)散過(guò)程進(jìn)行類比,建立能夠描述偏離冪律分布的文獻(xiàn)引用模型,應(yīng)用文獻(xiàn)引用模型對(duì)文獻(xiàn)推薦模型中的期刊優(yōu)化部分進(jìn)行建模,然后對(duì)吉林大學(xué)農(nóng)學(xué)部的發(fā)文數(shù)據(jù)進(jìn)行分析,并用2018年發(fā)表文章中的引用數(shù)據(jù)進(jìn)行驗(yàn)證,為文獻(xiàn)推薦服務(wù)做準(zhǔn)備。
為了能更好地解釋和利用引文的概率分布,需要建立準(zhǔn)確的模型和擬合公式。本文以吉林大學(xué)農(nóng)學(xué)部發(fā)文的引文概率分布為例,對(duì)發(fā)文中引用的期刊進(jìn)行統(tǒng)計(jì)分析,得到其統(tǒng)計(jì)分布,歸一化后得到其概率分布。為了能得到精確的概率分布公式,需要對(duì)引文分布進(jìn)行建模分析。通過(guò)類比擴(kuò)散過(guò)程建立引文概率模型,并給出引用概率分布的擬合方程(相當(dāng)于考慮了各個(gè)期刊之間被引用的相關(guān)概率),可以用于優(yōu)化文獻(xiàn)推送模型,有望增加當(dāng)前文獻(xiàn)推送結(jié)果的精度或者減少當(dāng)前推算法的計(jì)算量,緩解當(dāng)前各種高精度優(yōu)化算法計(jì)算量過(guò)大的問(wèn)題。
本文數(shù)據(jù)來(lái)源于Web of Science(WOS)核心合集,數(shù)據(jù)采集時(shí)間為2018年12月9日,采用高級(jí)檢索的方式,檢索并下載吉林大學(xué)農(nóng)學(xué)部被SCI核心合集收錄的論文2 071篇,導(dǎo)出包括引文題錄信息的文獻(xiàn)作為原始數(shù)據(jù)集。對(duì)這些記錄中2017年12月31日前發(fā)文的引用文獻(xiàn)做統(tǒng)計(jì),共下載2 071條發(fā)表記錄、68 363條引用記錄,通過(guò)文字匹配分析提取出所有文獻(xiàn)的發(fā)表時(shí)間及包括引文的期刊名稱和發(fā)表年代的引文信息。將被引文獻(xiàn)按期刊和年代分類,統(tǒng)計(jì)期刊分布和時(shí)間分布。2018年發(fā)表的265篇文章用來(lái)驗(yàn)證文獻(xiàn)推送。
本文以WOS中吉林大學(xué)農(nóng)學(xué)部發(fā)表文章中的引文數(shù)據(jù)為研究對(duì)象,經(jīng)過(guò)統(tǒng)計(jì)可以得到按期刊區(qū)分的概率分布,其中高被引文獻(xiàn)在一定程度上反映了研究領(lǐng)域的學(xué)術(shù)影響力和經(jīng)典文獻(xiàn)[18]。引文分布也能為學(xué)科服務(wù)研究提供幫助,包括文獻(xiàn)保障、文獻(xiàn)傳遞、文獻(xiàn)支持、文獻(xiàn)推送等。對(duì)獲取的研究數(shù)據(jù)進(jìn)行進(jìn)一步的統(tǒng)計(jì)分析,并對(duì)期刊的數(shù)量按被引期刊的降序排列,可以得到引文的期刊分布是略偏離Zipf的冪律分布的(圖1)。圖中藍(lán)圈是數(shù)據(jù)統(tǒng)計(jì)結(jié)果,紅線是根據(jù)冪律分布擬合結(jié)果,綠線是擬合殘差。圖1(a)是正常坐標(biāo)下的統(tǒng)計(jì)分布模型。從圖中可以看出,隨著文章序號(hào)的增加被引量急劇減小,也就是說(shuō)單一學(xué)科中的引用一般都發(fā)生在少數(shù)期刊中。為了更準(zhǔn)確地看出被引數(shù)量的分布情況,我們對(duì)期刊排名序號(hào)和被引量都取對(duì)數(shù),得到圖1(b)的結(jié)果,從圖中可以看出,數(shù)據(jù)結(jié)果是偏離直線分布的,直線分布對(duì)應(yīng)著Zipf的冪律分布。為了更精確地描述期刊被引分布,本文類比隨機(jī)擴(kuò)散的模型,建立了文獻(xiàn)引用模型,并給出了統(tǒng)計(jì)分布的解析公式,用它對(duì)吉林大學(xué)農(nóng)學(xué)部發(fā)表文章的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行擬合分析。為了更好地解釋和利用引文的概率分布,需要建立符合引用過(guò)程的微觀描述模型,列出可以用來(lái)擬合數(shù)據(jù)的概率分布公式,以便進(jìn)行后續(xù)的研究和應(yīng)用。
圖1 期刊引用概率的統(tǒng)計(jì)分布
本文通過(guò)類比物理中的隨機(jī)擴(kuò)散過(guò)程來(lái)建立引用模型。
科技論文完成過(guò)程主要包括思路構(gòu)建、實(shí)驗(yàn)過(guò)程、數(shù)據(jù)分析等,每個(gè)過(guò)程都需要查找相應(yīng)的文獻(xiàn)進(jìn)行參考和支持。對(duì)于同一個(gè)研究方向的課題,不同的人有不同的想法,需要的文獻(xiàn)也不同,引用的文獻(xiàn)也不同,發(fā)表時(shí)間也有較大的隨機(jī)性,又因?yàn)榭蒲袉挝豢傮w發(fā)文的引文是所有個(gè)人引用行為的總體統(tǒng)計(jì),所以科研單位總體發(fā)文中的引文也具有隨機(jī)性。
同樣,某個(gè)期刊被引用的次數(shù)也是一個(gè)隨機(jī)變量,這和粒子在溶液中的擴(kuò)散行為比較像,因此可以類比溶液擴(kuò)散的行為建立引文的概率分布函數(shù)。
把引用過(guò)程類比成物理中的隨機(jī)擴(kuò)散過(guò)程,擴(kuò)散過(guò)程描述的是在溶液中隨機(jī)分散一些均勻粒子,粒子可以在溶液中做隨機(jī)擴(kuò)散運(yùn)動(dòng)。由于粒子周圍各個(gè)方向上受力不同,而會(huì)向各個(gè)方向做隨機(jī)的布朗運(yùn)動(dòng)。在這個(gè)擴(kuò)散體系中如果只觀察一個(gè)很小的區(qū)域,看是否有粒子通過(guò),由于粒子運(yùn)動(dòng)的隨機(jī)性,那么這個(gè)觀測(cè)信號(hào)的時(shí)間序列也是隨機(jī)的,也就是說(shuō),在這個(gè)區(qū)域內(nèi)觀察,我們會(huì)看到粒子隨機(jī)地出現(xiàn)在這個(gè)區(qū)域。但由于大量粒子的統(tǒng)計(jì)性,每?jī)蓚€(gè)粒子出現(xiàn)的時(shí)間間隔會(huì)有一定的相關(guān)性。相關(guān)性代表著當(dāng)一個(gè)粒子出現(xiàn)以后,另一個(gè)粒子在間隔t時(shí)間出現(xiàn)的概率,p(t)是一個(gè)統(tǒng)計(jì)意義上的常數(shù)。不同時(shí)間間隔對(duì)應(yīng)的概率不同,物理上可以通過(guò)求解擴(kuò)散方程和相應(yīng)相關(guān)方程得到p(t)的曲線,也就是對(duì)應(yīng)的自由擴(kuò)散的方向。被研究的科研單位中的每個(gè)科研人員都在搜索文獻(xiàn),相當(dāng)于溶液中自由粒子的擴(kuò)散行為,當(dāng)某個(gè)期刊被引用,相當(dāng)于在觀測(cè)區(qū)域觀察到這個(gè)粒子。
因此,對(duì)研究對(duì)象單位總體的引用行為可以類比成這個(gè)擴(kuò)散行為,所以可以用如下的擴(kuò)散方程來(lái)描述。文獻(xiàn)引用概率模型如公式(1)所示。
(1)
公式(1)中,A是概率密度的歸一化常數(shù);V是觀測(cè)體積,在文獻(xiàn)引用模型中代表用戶對(duì)某個(gè)具體問(wèn)題檢索時(shí)能精確到的范圍;nD是擴(kuò)散系數(shù),代表用戶在檢索文獻(xiàn)時(shí)在文獻(xiàn)之間選擇的能力;n是引用期刊的序號(hào)。
對(duì)吉林大學(xué)農(nóng)學(xué)部發(fā)文中的引用記錄按照期刊進(jìn)行統(tǒng)計(jì),得到其統(tǒng)計(jì)分布(圖2)。
圖2中藍(lán)圈是數(shù)據(jù)統(tǒng)計(jì)結(jié)果,紅線是本文建立模型的擬合結(jié)果,綠線是擬合殘差。
用本文建立的引文概率模型對(duì)統(tǒng)計(jì)分布數(shù)據(jù)進(jìn)行擬合可以得到如圖2(a)所示的結(jié)果。從圖2(a)中可以看出擬合的整體效果很好,擬合結(jié)果對(duì)應(yīng)的殘差也在0附近波動(dòng),說(shuō)明該模型應(yīng)用到引用分布中是合理的。
為了查看更精細(xì)的擬合效果,在圖2(b)中給出了雙對(duì)數(shù)坐標(biāo)下的擬合結(jié)果。從圖2(b)中可以看出,在雙對(duì)數(shù)坐標(biāo)下整體的擬合效果都很好,殘差也一直在0附近波動(dòng),說(shuō)明應(yīng)用本模型可以準(zhǔn)確擬合偏離Zipf的冪律分布的引用概率分布。
圖2引用期刊的統(tǒng)計(jì)分布及擬合結(jié)果
為了將引文概率模型應(yīng)用到實(shí)際的文獻(xiàn)推送中,需要對(duì)參數(shù)的物理意義及其對(duì)統(tǒng)計(jì)分布的影響進(jìn)行詳細(xì)分析。通過(guò)計(jì)算不同參數(shù)對(duì)應(yīng)的統(tǒng)計(jì)分布和比較統(tǒng)計(jì)分布形狀的變化規(guī)律,有助于我們理解引文概率模型。分別改變nD和V的值,計(jì)算的統(tǒng)計(jì)分布結(jié)果如圖3所示。圖3(a)中給出了擴(kuò)散系數(shù)變化對(duì)統(tǒng)計(jì)分布的影響。為了能更精確地反映曲線的變化趨勢(shì),這里直接采用雙對(duì)數(shù)坐標(biāo)表示趨勢(shì)的變化。從圖3可以看出,隨著擴(kuò)散系數(shù)的增加,引用排名靠前的文獻(xiàn)數(shù)量減少,引用排名靠后的文獻(xiàn)數(shù)量增加。也就是說(shuō)隨著擴(kuò)散系數(shù)的增加,文獻(xiàn)的引用概率向著均勻分布進(jìn)化,這和我們的直觀感覺一致。當(dāng)所有文獻(xiàn)都能快速進(jìn)入讀者的觀察視野內(nèi)時(shí),會(huì)增加其被引用的概率,引用也將會(huì)變得更加均勻。圖3(b)中給出了觀測(cè)體積對(duì)引用概率分布的影響。隨著觀測(cè)體積的增加,引用概率分布更加集中,原因可能是由于讀者可以在比較大的文獻(xiàn)群體內(nèi)選擇文獻(xiàn)。因此對(duì)應(yīng)選擇的文獻(xiàn)將更加準(zhǔn)確,反映在統(tǒng)計(jì)分布曲線上是對(duì)應(yīng)統(tǒng)計(jì)分布將更加集中。
圖3 擬合參數(shù)變化對(duì)引用分布曲線形狀的影響
本文建立的文獻(xiàn)引用模型能為當(dāng)前許多推薦算法進(jìn)行期刊推薦篩選。為了驗(yàn)證本文建立的文獻(xiàn)引用模型對(duì)文獻(xiàn)的推送效果,本文選擇概率推送模型做驗(yàn)證。根據(jù)擬合得到的概率密度隨機(jī)選擇期刊推送給用戶,并根據(jù)2018年發(fā)文計(jì)算推薦準(zhǔn)確率,參比結(jié)果是通過(guò)完全隨機(jī)推送得到的推薦準(zhǔn)確率。根據(jù)本文擬合的概率模型推送的結(jié)果如圖4所示。圖中橫坐標(biāo)代表一次推薦文獻(xiàn)數(shù)量,圖中的不同顏色代表推薦準(zhǔn)確率。準(zhǔn)確率是指推薦的文獻(xiàn)在發(fā)表文章中被引用的比例,是通過(guò)2018年發(fā)表的文獻(xiàn)中的引用記錄為標(biāo)準(zhǔn)計(jì)算的??v坐標(biāo)是群體推薦準(zhǔn)確率,是根據(jù)推薦的文獻(xiàn)計(jì)算2018年發(fā)表文章中超過(guò)指定準(zhǔn)確率的比例。從圖4中可以看出,隨著推薦文獻(xiàn)數(shù)量的增加,推薦準(zhǔn)確率會(huì)先增加再減小,并且隨著準(zhǔn)確率的增加文獻(xiàn)推薦人群的準(zhǔn)確率逐漸降低。目前測(cè)試的推薦只是通過(guò)概率計(jì)算對(duì)單位內(nèi)所有人群的整體推薦。如果配合其他推薦算法[19],那么針對(duì)個(gè)人或者比較小的課題組,準(zhǔn)確率或者推薦算法的計(jì)算量會(huì)大大減少。在文獻(xiàn)推薦的過(guò)程中,不同的人群有不同的喜好,有不同的推薦準(zhǔn)確率需求。如有人喜好被推薦比較全的文獻(xiàn),即使推薦準(zhǔn)確率差一些也可以;有些人喜好被推薦幾率最高的幾篇文獻(xiàn)。這個(gè)概率模型推送算法可以很容易設(shè)置這樣的推薦參數(shù)。從圖4中可以看出,不同的準(zhǔn)確率對(duì)應(yīng)不同的群體推薦準(zhǔn)確概率的結(jié)果,所以這個(gè)準(zhǔn)確率可以作為用戶個(gè)性化參數(shù),可以進(jìn)行精確的群體推薦準(zhǔn)確率的調(diào)控。
圖4 概率推薦準(zhǔn)確率結(jié)果
為了對(duì)比本文中所用的概率推薦模型,本文還給出了完全隨機(jī)模型的推薦結(jié)果(圖5)。從圖5中可以看出,完全隨機(jī)模型也有圖4所示中的變化規(guī)律,隨著推薦文獻(xiàn)數(shù)量的增加,群體的推薦準(zhǔn)確率急劇下降。但整體的推薦準(zhǔn)確率都特別低,可見應(yīng)用本文所建立的模型,只是通過(guò)簡(jiǎn)單的概率分布就能給出很明顯的推薦準(zhǔn)確率增加的結(jié)果。這個(gè)推薦算法很容易擴(kuò)展到其他推薦算法內(nèi),用于多層次推薦分析,增加推薦準(zhǔn)確率和減少一般推薦算法的計(jì)算量。
圖5 完全隨機(jī)模型推薦準(zhǔn)確率結(jié)果
本模型是通過(guò)對(duì)引文的概率分布的統(tǒng)計(jì)分析得到目標(biāo)群體(學(xué)院或者課題組)的需求特征參數(shù),通過(guò)這個(gè)特征參數(shù)簡(jiǎn)化已有的文獻(xiàn)推薦算法或者直接進(jìn)行概率模型推薦。該算法應(yīng)用簡(jiǎn)單,計(jì)算量少,與其他算法的兼容性強(qiáng),沒有嚴(yán)格的樣品量限制,只需要得到比較好的統(tǒng)計(jì)分布的擬合結(jié)果即可。通過(guò)設(shè)置用戶推薦喜好參數(shù)進(jìn)行推薦期刊準(zhǔn)確率的篩選,可以大大減少其他推薦算法的初始計(jì)算樣品量,彌補(bǔ)當(dāng)前推薦算法計(jì)算量過(guò)大甚至無(wú)法完成計(jì)算的不足。
本文通過(guò)對(duì)吉林大學(xué)農(nóng)學(xué)部發(fā)文的引文進(jìn)行統(tǒng)計(jì),并按照期刊引用的多少排序,得出期刊引文分布是偏離冪律分布的,已經(jīng)從布拉德福定律[20]和冪律分布[21]逐漸出現(xiàn)偏離的情況。建立了通用的引文概率分布模型進(jìn)行數(shù)據(jù)擬合,得到擬合參數(shù),分析了參數(shù)變化對(duì)引用概率分布的影響??紤]了各個(gè)期刊之間的相關(guān)概率,得到了比較好的擬合效果,可以用于完善文獻(xiàn)推送模型,使文獻(xiàn)推送結(jié)果更加精確。
傳統(tǒng)的文獻(xiàn)推送,只能對(duì)引用分布中比較高的和比較低的部分進(jìn)行擬合,會(huì)帶來(lái)一些推薦偏差。期刊引用數(shù)量的多少不代表它的重要程度,因此無(wú)論忽略哪個(gè)部分,對(duì)文獻(xiàn)推送的效果影響都會(huì)很大。采用本文的引用文獻(xiàn)分布模型,可以更加精確地描述引用文獻(xiàn)分布,根據(jù)用戶期望推薦準(zhǔn)確率進(jìn)行數(shù)據(jù)篩選,有助于簡(jiǎn)化當(dāng)前各種文獻(xiàn)推薦算法,減少其計(jì)算量。和簡(jiǎn)單的隨機(jī)推薦比較,概率模型推薦能夠很好地提升群體推薦準(zhǔn)確率。
中華醫(yī)學(xué)圖書情報(bào)雜志2019年7期