網(wǎng)絡(luò)機(jī)器人探測技術(shù)在開放獲取機(jī)構(gòu)知識庫用戶使用數(shù)據(jù)統(tǒng)計中的應(yīng)用

2017-06-05 09:37:49胡文靜

圖書與情報 2017年2期

（1.蘭州大學(xué)圖書館甘肅蘭州 730000）

摘要：文章通過文獻(xiàn)分析對網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究現(xiàn)狀進(jìn)行總結(jié)；對DSpace、EPrints、Digital Commons、 University of Minho Statistics Add-on for DSpace以及 Institutional Repository Usage Statistics UK （IRUS-UK） 5個機(jī)構(gòu)知識庫平臺中網(wǎng)絡(luò)機(jī)器人探測技術(shù)的應(yīng)用進(jìn)行了比較。探討了開放獲取機(jī)構(gòu)知識庫建設(shè)過程中的用戶使用量統(tǒng)計問題的解決方案。分析得出：在開放獲取機(jī)構(gòu)知識庫中同時應(yīng)用網(wǎng)絡(luò)機(jī)器人探測技術(shù)與人工排除網(wǎng)絡(luò)機(jī)器人措施，對于提高用戶使用數(shù)據(jù)統(tǒng)計的準(zhǔn)確性有一定的幫助；學(xué)術(shù)類搜索引擎是網(wǎng)絡(luò)機(jī)器人探測技術(shù)監(jiān)控的重點(diǎn)對象。

關(guān)鍵詞：網(wǎng)絡(luò)機(jī)器人探測；開發(fā)獲取機(jī)構(gòu)知識庫；用戶使用數(shù)據(jù)統(tǒng)計

中圖分類號：G202 文獻(xiàn)標(biāo)識碼：A DOI：10.11968/tsyqb.1003-6938.2017042

1 引言

機(jī)構(gòu)知識庫（IR）建設(shè)與開放獲?。∣A）運(yùn)動正在全球范圍內(nèi)沖擊和改變著傳統(tǒng)的學(xué)術(shù)出版模式及傳播方式，影響和變革著傳統(tǒng)出版發(fā)行機(jī)制、知識交流利益分配方式、知識成果的價值判斷標(biāo)準(zhǔn)等，形成了一股不可逆轉(zhuǎn)的知識成果運(yùn)動方式變革潮流[1]。截至2016年11月，全球范圍內(nèi)的學(xué)術(shù)性機(jī)構(gòu)知識庫數(shù)量已超過4000個，這些機(jī)構(gòu)知識庫中的很大一部分由學(xué)科聯(lián)盟或各高校自主建設(shè)，以用戶自存儲的模式來保存和展示科研人員的研究成果，通常這些資源支持開放獲取。

隨著用戶獲取信息的途徑越來越多，使用情況的統(tǒng)計數(shù)據(jù)成為分析和了解資源價值的重要手段。現(xiàn)階段對于下載量統(tǒng)計數(shù)據(jù)有兩種不同的觀點(diǎn)，一些認(rèn)為下載量統(tǒng)計方式存在問題，統(tǒng)計結(jié)果為無用信息[2]，另一些機(jī)構(gòu)和用戶使用這些數(shù)據(jù)進(jìn)行論文排名、作者排名、甚至定期將這些數(shù)據(jù)發(fā)布以進(jìn)行宣傳。文章下載量有時還被作為預(yù)測文章被引次數(shù)的前期指標(biāo)[3]，可以說是學(xué)術(shù)和科學(xué)研究出版物的最重要指標(biāo)之一。

無論持有哪種觀點(diǎn)，任何數(shù)據(jù)作為一個度量或僅作為簡單的宣傳推廣目的使用都必須是準(zhǔn)確的。然而，各類搜索引擎以及惡意評論制造者對網(wǎng)絡(luò)機(jī)器人的使用對開放獲取機(jī)構(gòu)知識庫的數(shù)據(jù)統(tǒng)計準(zhǔn)確性提出了極大挑戰(zhàn)。有數(shù)據(jù)表明，由網(wǎng)絡(luò)機(jī)器人制造的流量，占到了網(wǎng)絡(luò)總流量的8.51%-32.6%[4]。網(wǎng)絡(luò)機(jī)器人在不同類型的網(wǎng)站上所制造的流量差別很大，有一項(xiàng)針對互聯(lián)網(wǎng)檔案館的調(diào)查表明，93%的使用請求來自于網(wǎng)絡(luò)機(jī)器人[5]。

有哪些技術(shù)可用來探測網(wǎng)絡(luò)機(jī)器人？主要的機(jī)構(gòu)知識庫平臺是如何進(jìn)行網(wǎng)絡(luò)機(jī)器人探測的？這些問題的探討對我國開放獲取機(jī)構(gòu)知識庫建設(shè)過程中的用戶使用量統(tǒng)計問題的解決提供了參考。

2 網(wǎng)絡(luò)機(jī)器人探測技術(shù)

Tan 與 Kumar[6]最早開展了對網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究；Doran 與 Gokhale[4]對主要的網(wǎng)絡(luò)機(jī)器人探測技術(shù)進(jìn)行了總結(jié)。雖然這些研究主要來自于計算機(jī)科學(xué)領(lǐng)域，但已有研究人員將研究重點(diǎn)聚焦在其在學(xué)術(shù)信息系統(tǒng)的應(yīng)用上[7-9]。對Doran 與 Gokhale的分類體系進(jìn)行簡化后，列出了用于網(wǎng)絡(luò)機(jī)器人探測的23個獨(dú)立變量（見表1）。

研究人員提出的變量分析方法各不相同，既有在服務(wù)器端對已知的機(jī)器人進(jìn)行數(shù)據(jù)匹配的方式[8]也有利用復(fù)雜的機(jī)器學(xué)習(xí)技術(shù)的方式[10]?？梢悦鞔_的是，沒有一種方法可以保證精確的探測到所有訪問過網(wǎng)絡(luò)服務(wù)器的機(jī)器人。因此，網(wǎng)絡(luò)機(jī)器人探測技術(shù)的階段性目標(biāo)變成了在保證錯報數(shù)量最?。ú闇?zhǔn)率）的基礎(chǔ)上最大程度的探測出網(wǎng)絡(luò)機(jī)器人（查全率），即在盡量少的把人工行為標(biāo)注為網(wǎng)絡(luò)機(jī)器人行為的同時盡可能多的捕獲網(wǎng)絡(luò)機(jī)器人[11]。筆者對各項(xiàng)針對網(wǎng)絡(luò)機(jī)器人探測技術(shù)查全率、查準(zhǔn)率以及F-值（查全率與查準(zhǔn)率的調(diào)和平均數(shù)）的研究進(jìn)行了匯總?？梢钥闯?，網(wǎng)絡(luò)機(jī)器人探測技術(shù)的查全率在0.85與0.97之間，查準(zhǔn)率在0.82與0.95之間，F(xiàn)-值在0.84與0.94之間（見表2）。

在測試一項(xiàng)機(jī)器人探測技術(shù)時，研究人員首先要知道日志文件中的哪一個會話是網(wǎng)絡(luò)機(jī)器人所創(chuàng)

建。大部分情況下，檢測與標(biāo)注數(shù)據(jù)的工作是應(yīng)用另一項(xiàng)非測試的機(jī)器人探測技術(shù)以自動或半自動的形式完成的，但有時是通過人工形式進(jìn)行的。 Doran 與Gokhale [12]分析了人工檢測與自動檢測數(shù)據(jù)集的優(yōu)缺點(diǎn)，指出人工檢測準(zhǔn)確率高，但可檢測的網(wǎng)絡(luò)機(jī)器人的范圍較小，且受到數(shù)據(jù)大小的限制，自動檢測所用到的技術(shù)本身就不可能完全準(zhǔn)確，與所測試技術(shù)結(jié)果的對比不具有可信度。

由于專家的意見不統(tǒng)一、技術(shù)測試的局限性以及檢測技術(shù)精確度的影響，合理的機(jī)器人探測技術(shù)應(yīng)用應(yīng)該是一種混合模型，應(yīng)用多種技術(shù)與數(shù)據(jù)來達(dá)到一個盡可能好的效果[13]。

3 網(wǎng)絡(luò)機(jī)器人探測技術(shù)在開放獲取知識庫中的應(yīng)用

機(jī)構(gòu)知識庫中的內(nèi)容通常是通過主流搜索引擎的自動索引功能被用戶所發(fā)現(xiàn)。一方面，機(jī)構(gòu)知識庫需要吸引搜索引擎以提升其內(nèi)容的可見度；另一方面，出于準(zhǔn)確的用戶使用數(shù)據(jù)統(tǒng)計的需求，機(jī)構(gòu)知識庫需要應(yīng)用機(jī)器人探測技術(shù)來剔除網(wǎng)絡(luò)機(jī)器人對使用量的影響。

通常，機(jī)構(gòu)知識庫中的日志信息有以下缺陷：除下載請求之外的會話數(shù)據(jù)有限或不存在；知識庫中的會話通常只包含單獨(dú)的下載信息，而不包含下載之前的點(diǎn)擊量信息與下載之后的瀏覽信息；在日志中可見的信息局限在日期、時間、HTTP方法與響應(yīng)碼、IP地址、用戶代理字符串以及referring 網(wǎng)站。這導(dǎo)致表1中所列的多種網(wǎng)絡(luò)機(jī)器人探測技術(shù)并不能在機(jī)構(gòu)知識庫中使用，如Web頁面組件請求、圖像鏈接比、資源類別請求等。由于機(jī)構(gòu)知識庫用戶實(shí)時交互技術(shù)使用較少，鼠標(biāo)移動與鍵盤聲監(jiān)測通常也無法進(jìn)行，而使用驗(yàn)證碼會導(dǎo)致機(jī)構(gòu)知識庫中的資源無法被搜索引擎發(fā)現(xiàn)。基于以上原因，筆者歸納了國外主要的OA機(jī)構(gòu)知識庫平臺所采用的網(wǎng)絡(luò)機(jī)器人探測方式（見表3）。

3.1 DSpace

DSpace是全世界范圍內(nèi)應(yīng)用最廣泛的機(jī)構(gòu)知識庫系統(tǒng)，自2002年發(fā)布以來，已經(jīng)有超過1600家機(jī)構(gòu)使用。DSpace采用Apache SOLR進(jìn)行用戶使用數(shù)據(jù)統(tǒng)計，該系統(tǒng)從2010年起，采用了網(wǎng)絡(luò)機(jī)器人探測技術(shù)來進(jìn)行數(shù)據(jù)過濾[14]。

DSpace采用了3種方式來探測網(wǎng)絡(luò)機(jī)器人。首先，對每一個下載與頁面瀏覽記錄的用戶代理字符串進(jìn)行檢測，使之與235個已知用戶代理模式（正則表達(dá)式）進(jìn)行對比；其次，檢測訪問請求的IP地址，使之與6個最大的搜索引擎的IP地址列表進(jìn)行對比。除此之外，對比列表還包括一份包含2528個IP地址的其他搜索引擎IP地址列表，以及與搜索引擎無關(guān)的48個已知網(wǎng)絡(luò)機(jī)器人列表。大部分IP地址列表可以通過網(wǎng)絡(luò)查詢自動更新。最后，對正式域名采用反向DNS名稱查找的方式使之與已知網(wǎng)絡(luò)機(jī)器人域名列表進(jìn)行對比[15]。從2014年開始，基于用戶使用數(shù)據(jù)統(tǒng)計準(zhǔn)確性的需求，DSpace 已經(jīng)開始對其網(wǎng)絡(luò)機(jī)器人探測方式進(jìn)行重新評估[16]。

3.2 EPrints

EPrints是全球最早上線的機(jī)構(gòu)知識庫平臺，全球用戶數(shù)量排在DSpace之后，位居第二，有578家機(jī)構(gòu)使用[17]。EPrints平臺中的用戶使用數(shù)據(jù)統(tǒng)計模塊叫IRStats 2，這個模塊中使用了網(wǎng)絡(luò)機(jī)器人探測技術(shù)[18]。

IRStats 對下載量數(shù)據(jù)的過濾基于兩種方式。一種方式是利用用戶代理字符串列表，該列表包含960個已知網(wǎng)絡(luò)機(jī)器人及爬蟲軟件信息。如果使用請求的用戶代理字符串記錄與列表信息相匹配，下載記錄數(shù)據(jù)在用戶下載量統(tǒng)計時將被過濾；第二種方式通過檢測單個IP地址申請下載的時間間隔來進(jìn)行。默認(rèn)情況下，如果同一IP地址在24小時內(nèi)多次申請下載同一條信息，在進(jìn)行用戶下載量統(tǒng)計時，只按一次計算。這一過濾方式的階段性目標(biāo)是識別所謂的“重復(fù)下載”[19]。嚴(yán)格意義上來講，重復(fù)下載并不一定完全是網(wǎng)絡(luò)機(jī)器人的行為，但過濾軟件會把此類合法下載識別為網(wǎng)絡(luò)機(jī)器人行為，在數(shù)據(jù)統(tǒng)計時排除在外。此外，因?yàn)橥痪W(wǎng)絡(luò)機(jī)器人在24小時內(nèi)對機(jī)構(gòu)知識庫中所有文件進(jìn)行單次下載的行為是被允許的，如果這個網(wǎng)絡(luò)機(jī)器人每24小時對這個機(jī)構(gòu)知識庫中的所有文件進(jìn)行下載，所有這些下載數(shù)據(jù)將被記錄在用戶下載數(shù)量之中。盡管如此，這種方式已經(jīng)在沒有人工干預(yù)的情況下，很大程度上限制了網(wǎng)絡(luò)機(jī)器人的行為。

3.3 Digital Commons

Digital Commons是一個服務(wù)器托管機(jī)構(gòu)知識庫平臺，全球用戶數(shù)有400個機(jī)構(gòu)[20]。該平臺上的所有開放獲取資源都通過Digital Commons Network這一單一門戶來揭示，現(xiàn)有150多萬條OA數(shù)據(jù)。由于Digital Commons是一個集中管理的網(wǎng)絡(luò)知識庫，其機(jī)器人探測技術(shù)所需的數(shù)據(jù)集要大大多于單個的機(jī)構(gòu)知識庫系統(tǒng)。大規(guī)模的數(shù)據(jù)集可以提供更加準(zhǔn)確的用戶行為探測，這是本地部署的機(jī)構(gòu)知識庫所不能比擬的。此外，機(jī)構(gòu)知識庫所制定的數(shù)據(jù)規(guī)則，對使用平臺的所有機(jī)構(gòu)均適用，這使得多個計數(shù)器可以兼容跨機(jī)構(gòu)站點(diǎn)的下載統(tǒng)計數(shù)據(jù)。

Digital Commons 所使用的網(wǎng)絡(luò)機(jī)器人探測技術(shù)由一系列的過濾器組成。由用戶代理字符串已經(jīng)申明的已知網(wǎng)絡(luò)機(jī)器人產(chǎn)生的下載以及使HTTP產(chǎn)生除200與302響應(yīng)碼以外其他響應(yīng)碼的下載，均不計入用戶使用量統(tǒng)計中。用戶在30秒內(nèi)使用同一IP地址對同一資源的下載，也將被計數(shù)器排除在使用量統(tǒng)計之外[21]。referrer字段用來識別自動產(chǎn)生的鏈接地址。最后，Digital Commons使用內(nèi)部的加權(quán)算法進(jìn)行實(shí)時計算。這個算法有5個指標(biāo)，包括一個IP地址24小時之內(nèi)在平臺上對所有知識庫及所有文章的所有活動記錄、來自代理服務(wù)系統(tǒng)的請求、下載請求的定位信息、下載請求是否來自.edu 域名，第5個指標(biāo)來自于交叉比較一個IP地址所代理的用戶數(shù)量與由每一個IP—用戶代理配對所產(chǎn)生的條目下載請求數(shù)量。

3.4 Minho大學(xué)統(tǒng)計組件

Minho 大學(xué)統(tǒng)計組件開發(fā)于2006年，是一個與DSpace相結(jié)合的開源統(tǒng)計系統(tǒng)。開發(fā)的初衷是向全世界展示Minho大學(xué)機(jī)構(gòu)知識庫中的資源使用情況，促進(jìn)機(jī)構(gòu)知識庫的進(jìn)一步完善[22]。此系統(tǒng)還具有全面的工作流以及管理數(shù)據(jù)統(tǒng)計功能。

Minho統(tǒng)計組件在數(shù)據(jù)庫中存儲了DSpace中所有的下載比特流（包括PDF格式與其他格式）。該系統(tǒng)采用多樣化的方式來探測網(wǎng)絡(luò)機(jī)器人。包括與包含793個已知網(wǎng)絡(luò)機(jī)器人的預(yù)設(shè)表單進(jìn)行匹配，探測假網(wǎng)頁的訪問請求與來自 robots.txt 文件列表里的網(wǎng)址訪問請求。數(shù)據(jù)庫中包含被定義為網(wǎng)絡(luò)機(jī)器人的相關(guān)IP地址與用戶代理字符串，這些信息通過預(yù)先的日志分析產(chǎn)生。所有這些疑似網(wǎng)絡(luò)機(jī)器人的下載行為，在用戶使用數(shù)據(jù)統(tǒng)計中都會被過濾，不會被終端用戶所見。

為了標(biāo)注下載信息，網(wǎng)絡(luò)機(jī)器人探測腳本讀取服務(wù)器日志文件，檢查每一個訪問請求的IP地址以及代理信息是否已經(jīng)存儲在數(shù)據(jù)庫中。如果代理字符串在數(shù)據(jù)庫中找到，使用這個用戶代理字符串的所有新IP地址，將被標(biāo)注為潛在的網(wǎng)絡(luò)機(jī)器人。如果IP地址與用戶代理字符串信息都不在數(shù)據(jù)庫中，探測腳本將對代理信息與預(yù)設(shè)代理列表以及假網(wǎng)頁與robots.txt 文件列表相比對。如果匹配成功，這個新的IP/代理配對將被記錄，由這個地址所產(chǎn)生的下載歷史數(shù)據(jù)是否在使用量數(shù)據(jù)統(tǒng)計時被剔除，需要進(jìn)行人工決策[23]（Minho統(tǒng)計組件的網(wǎng)絡(luò)機(jī)器人探測腳本的決策過程見圖1）。

除網(wǎng)絡(luò)機(jī)器人探測腳本以外，Minho統(tǒng)計組件還向用戶提供綜合管理界面，在一分鐘之內(nèi)超過10次訪問請求或產(chǎn)生多次會話的IP地址將顯示在這個界面上[24]。在一定時間段內(nèi)，高頻出現(xiàn)的IP地址也會顯示在這個界面上。這個工具將有助于人工決策是否將單個IP地址加入到疑似網(wǎng)絡(luò)機(jī)器人列表中。

3.5 IRUS-UK

IRUS-UK是應(yīng)用于英國91個機(jī)構(gòu)知識庫的使用量統(tǒng)計系統(tǒng)[25]。該系統(tǒng)遵循COUNTER-PIRUS業(yè)務(wù)規(guī)程，旨在為英國機(jī)構(gòu)知識庫聯(lián)盟提供統(tǒng)一的用戶機(jī)構(gòu)知識庫使用量[26]。

與Digital Commons Network一樣，IRUS-UK是一項(xiàng)大規(guī)模的服務(wù)，應(yīng)用網(wǎng)絡(luò)機(jī)器人探測技術(shù)在中心服務(wù)上，在多個機(jī)構(gòu)知識庫中進(jìn)行跨平臺數(shù)據(jù)統(tǒng)計。這兩個系統(tǒng)都與開放獲取機(jī)構(gòu)知識庫聯(lián)盟（COAR）的使用量統(tǒng)計小組合作，與此同時，IRUS-UK還致力于促進(jìn)反網(wǎng)絡(luò)機(jī)器人工作組的成立[27]。

為了探測網(wǎng)絡(luò)機(jī)器人，IRUS-UK使用包含241個已知網(wǎng)絡(luò)機(jī)器人用戶代理模式的反網(wǎng)絡(luò)機(jī)器人列表，并且對過于活躍的IP地址進(jìn)行了訪問限制。最初，IRUS-UK設(shè)置過濾在一天之內(nèi)從91個機(jī)構(gòu)知識庫中下載超過200次的IP地址的所有下載次數(shù)數(shù)據(jù)，下載超過100次的IP地址下載數(shù)據(jù)的一部分也會被過濾[28]?，F(xiàn)階段，IRUS-UK將所有IP地址一天下載次數(shù)的最大值設(shè)置成了40次，并且長期進(jìn)行加強(qiáng)網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究。

3.6 網(wǎng)絡(luò)機(jī)器人探測技術(shù)應(yīng)用評價

5種OA機(jī)構(gòu)知識庫平臺網(wǎng)絡(luò)機(jī)器人探測方式各有特點(diǎn)。 Dspace采用了單一的綜合日志分析模式，數(shù)據(jù)需求較少，實(shí)現(xiàn)難度較低，且采用了高效的 Solr索引技術(shù)[29]，系統(tǒng)資源耗費(fèi)較少，執(zhí)行效率高，但有如下疏漏之處：一是IP地址列表并沒有實(shí)現(xiàn)自動更新，自2010年采用網(wǎng)絡(luò)機(jī)器人探測技術(shù)以來，DSpace使用的用于對比的IP地址列表就從未更新過；二是用戶代理字符串的更新并不及時，DSpace最后一次更新用戶代理字符串是在2015年4月；此外，DSpace的對比域名列表只包含了10種域名模式，以至于其網(wǎng)絡(luò)機(jī)器人探測更像是功能性或?qū)嶒?yàn)性的，在實(shí)際應(yīng)用中并不能發(fā)揮應(yīng)有作用。EPrints雖然只采用2種數(shù)據(jù)來進(jìn)行網(wǎng)絡(luò)機(jī)器人探測，卻兼顧了綜合日志分析模式與流量分析模式，數(shù)據(jù)分析方法比較全面，但存在網(wǎng)絡(luò)地址轉(zhuǎn)換給正確的識別網(wǎng)絡(luò)機(jī)器人帶來影響的問題。這就需要系統(tǒng)在查全率與查準(zhǔn)率之間做一個平衡。通常，超時時間設(shè)置的越短，查全率越低、查準(zhǔn)率越高；超時時間設(shè)置的越長，查全率越高、查準(zhǔn)率越低。多用戶使用同一IP地址訪問EPrints時，所產(chǎn)生的使用數(shù)據(jù)統(tǒng)計問題也已經(jīng)被多個用戶所提出[30]。Digital Commons采用了10個字段來進(jìn)行網(wǎng)絡(luò)機(jī)器人探測，在5個OA機(jī)構(gòu)知識庫平臺中為最多，大規(guī)模的數(shù)據(jù)集以使探測的全面性得到了保障。此外，服務(wù)器托管模式以及統(tǒng)一的規(guī)則有利于統(tǒng)計數(shù)據(jù)在更大范圍以及更多方向上應(yīng)用。但其內(nèi)部加權(quán)算法中的單個IP地址使用不同的代理字符串下載相同數(shù)量條目的計算是算法中的一個缺陷，在這種加權(quán)模式下，網(wǎng)絡(luò)機(jī)器人的行為將不被識別。Minho大學(xué)統(tǒng)計組件在數(shù)據(jù)需求上選擇了折中處理，同時引入自動機(jī)器探測與人工排查結(jié)合的兩階段探測模式重點(diǎn)突出對查準(zhǔn)率的保證，但存在缺乏API和代碼級文檔的問題[23-24]。在數(shù)據(jù)庫中過濾網(wǎng)絡(luò)機(jī)器人使用量以及進(jìn)行使用量重新統(tǒng)計需要耗費(fèi)大量時間及系統(tǒng)資源，包括CPU、內(nèi)存、數(shù)據(jù)量連接等。使用SQL語言進(jìn)行使用量統(tǒng)計時容易產(chǎn)生大量的錯誤代碼，需要大量的時間去修復(fù)，整體系統(tǒng)運(yùn)行效率較低。IRUSUK的部署模式與Digital Commons相近，但在探測字段需求上進(jìn)行了簡化，且開發(fā)團(tuán)隊長期重視網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究，算法版本迭代速度快，但其針對性強(qiáng)，應(yīng)用范圍僅限于英國，全球推廣難度較大。

IP地址的靜態(tài)檢測問題是5個OA機(jī)構(gòu)知識庫存在的共有問題。一是被檢測到的網(wǎng)絡(luò)機(jī)器人IP地址以及用戶代理字符串，并沒有自動被添加到列表中，這導(dǎo)致檢測結(jié)果具有很大的隨機(jī)性，某一次檢測中的正確結(jié)果可能在下次檢測時被忽略；二是一旦一個IP地址被標(biāo)注為來自于網(wǎng)絡(luò)機(jī)器人，這個IP地址將永遠(yuǎn)被加入黑名單。如果此后這個IP地址被正常使用者使用，此用戶的使用量還是會被系統(tǒng)過濾，而將IP地址從黑名單去除的方式極為有限；三是一旦一個用戶代理字符串與一個網(wǎng)絡(luò)機(jī)器人IP地址綁定，任何使用這個代理的新IP地址都會被認(rèn)為是網(wǎng)絡(luò)機(jī)器人。為了解決這些問題，與DHCP配置相結(jié)合的探測技術(shù)將是研究的重點(diǎn)方向。

4 機(jī)構(gòu)知識庫網(wǎng)絡(luò)機(jī)器人探測技術(shù)實(shí)施建議

4.1 探測方式

現(xiàn)階段主要的機(jī)器人探測技術(shù)主要是利用會話數(shù)據(jù)來識別網(wǎng)絡(luò)機(jī)器人。如本文所述，在實(shí)際的機(jī)構(gòu)知識庫中，實(shí)時會話數(shù)據(jù)很少或沒有，于是使用行為被限定為直接使用搜索引擎一次性下載文檔的行為。使用可擴(kuò)展的已知網(wǎng)絡(luò)機(jī)器人IP地址列表、可自動收割的用戶代理字符串來判定網(wǎng)絡(luò)機(jī)器人行為，是機(jī)構(gòu)知識庫可采用的較為節(jié)約成本的模式。同時，在這種情況下，人工判斷一些可疑的IP地址是否為網(wǎng)絡(luò)機(jī)器人對于提高查全率與查準(zhǔn)率有一定的幫助。筆者總結(jié)了可用于人工判斷網(wǎng)絡(luò)機(jī)器人行為的基本字段（見表4）。

4.2 探測對象

國外學(xué)者研究表明，對于OA學(xué)術(shù)期刊來說，大量的網(wǎng)絡(luò)機(jī)器人行為來自于少數(shù)幾個搜索引擎。在所調(diào)查的341個下載樣本中，有165個下載來自于Google學(xué)術(shù)的 Googlebot ，占總下載次數(shù)的48%[8]。在我國，學(xué)術(shù)類網(wǎng)絡(luò)搜索引擎近年來也快速發(fā)展。2014 年 6 月 13 日，“百度學(xué)術(shù)搜索”上線，旨在構(gòu)建為用戶提供海量中英文檢索的學(xué)術(shù)搜索平臺，涵蓋各類學(xué)術(shù)期刊、會議論文[31]，成為我國最大的學(xué)術(shù)類網(wǎng)絡(luò)搜索引擎。與國外的學(xué)術(shù)類搜索引擎一樣，百度學(xué)術(shù)也未向外公布其搜索來源，僅簡單介紹了收錄范圍?？梢酝茰y，各類OA機(jī)構(gòu)知識庫也是其獲取學(xué)術(shù)資源的一個主要渠道。因此，網(wǎng)絡(luò)機(jī)器人探測的重點(diǎn)對象應(yīng)放到主要的學(xué)術(shù)類搜索引擎上來。

4.3 數(shù)據(jù)利用

準(zhǔn)確的用戶使用數(shù)據(jù)統(tǒng)計是機(jī)構(gòu)知識庫功能升級的基礎(chǔ)，對用戶使用數(shù)據(jù)的合理利用，是網(wǎng)絡(luò)機(jī)器人探測技術(shù)應(yīng)用的最終目標(biāo)。Coyners[32]認(rèn)為電子資源統(tǒng)計數(shù)據(jù)的分析可以直接推動服務(wù)提升和增強(qiáng)用戶支持。網(wǎng)絡(luò)機(jī)器人探測技術(shù)所監(jiān)控的數(shù)據(jù)是挖掘讀者需求的重要數(shù)據(jù)來源，通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以實(shí)現(xiàn)對用戶數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘、聚類分析、趨勢預(yù)測等。在實(shí)際挖掘中可以采用C4.5決策樹算法，將用戶下載偏好類型作為類標(biāo)簽，對影響分類的評價規(guī)則進(jìn)行挖掘，揭示用戶偏好特點(diǎn)和規(guī)律，結(jié)合協(xié)同推薦算法，可以為用戶提供更加智能化、個性化的信息推送服務(wù)[33]。此外，國內(nèi)領(lǐng)先的中國科學(xué)院機(jī)構(gòu)知識庫通過利用用戶使用數(shù)據(jù)與其他科研數(shù)據(jù)的關(guān)聯(lián)、開放數(shù)據(jù)接口，實(shí)現(xiàn)了知識分析和信息可視化，以此來進(jìn)行科研成果管理、科研產(chǎn)出評價等信息增值服務(wù)，促進(jìn)了機(jī)構(gòu)知識庫平臺功能的擴(kuò)展和優(yōu)化[34]。

在用戶使用數(shù)據(jù)利用存在的問題方面，Baker和Read[35]指出缺乏統(tǒng)一的數(shù)據(jù)統(tǒng)計標(biāo)準(zhǔn)是阻礙大規(guī)?？缙脚_數(shù)據(jù)挖掘深入開展的根本原因。現(xiàn)階段，商用數(shù)據(jù)庫的用戶使用數(shù)據(jù)統(tǒng)計大多基于COUNTER標(biāo)準(zhǔn)。我國深圳大學(xué)設(shè)計了USSER平臺，基于數(shù)據(jù)庫商提供的原始 COUNTER報告，對其進(jìn)行深入整合與分析，針對電子資源使用統(tǒng)計整合與分析難題進(jìn)行了探索與實(shí)踐，初步取得了成效[36]。機(jī)構(gòu)知識庫平臺的用戶使用數(shù)據(jù)統(tǒng)計同樣可以統(tǒng)一采用此標(biāo)準(zhǔn)，在此基礎(chǔ)上實(shí)現(xiàn)用戶使用數(shù)據(jù)在更深更廣的尺度上被充分利用。

5 結(jié)語

開放獲取機(jī)構(gòu)知識庫的用戶使用量統(tǒng)計，不但是服務(wù)效果和服務(wù)價值體現(xiàn)的主要指標(biāo)，其自身也有許多問題需要進(jìn)一步研究，如網(wǎng)絡(luò)機(jī)器人探測技術(shù)在機(jī)構(gòu)知識庫中的應(yīng)用效果如何、向用戶提供的使用量數(shù)據(jù)準(zhǔn)確性如何等。隨著大數(shù)據(jù)時代的來臨，各個開放機(jī)構(gòu)知識庫構(gòu)建部門已經(jīng)意識到了使用統(tǒng)計數(shù)據(jù)的重要性，但是對如何方便地獲得和展示使用統(tǒng)計數(shù)據(jù)、進(jìn)行數(shù)據(jù)共享、方便地整合與加工使用統(tǒng)計數(shù)據(jù)、實(shí)現(xiàn)使用統(tǒng)計數(shù)據(jù)的長期保存等問題仍需進(jìn)一步研究。

參考文獻(xiàn)：

[1] 徐紅玉，李愛國.中國科學(xué)院系統(tǒng)與高等學(xué)校機(jī)構(gòu)知識庫建設(shè)比較研究[J].圖書情報工作，2014，58（12）：78-83.

[2] Cornell University Library （n.d.）.arXiv.org e-Print archive[EB/OL].[2016-12-03].http：//arxiv.org.

[3] Brody T，Harnad S，Carr L.Earlier Web Usage Statistics as Predictors of Later Citation Impact[J].Journal of the Association for Information Science and Technology，2006，57（8）：1060-1072.

[4] Doran D，Gokhale S S.Web robot detection techniques： overview and limitations[J].Data Mining and Knowledge Discovery，2011，22（1）：183-210.

[5] AlNoamany Y A，Weigle M C，Nelson M L.Access patterns for robots and humans in web archives[C].Proceedings of the 13th ACM/IEEE-CS joint conference on Digital libraries.ACM，2013：339-348.

[6] Tan P N，Kumar V.Discovery of Web Robot Sessions Based on their Navigational Patterns[J].Data Mining and Knowledge Discovery，2002，6（1）：9-35.

[7] Van De Sompel H，Bollen J.An architecture for the aggregation and analysis of scholarly usage data[C].Digital Libraries，2006.JCDL'06.Proceedings of the 6th ACM/IEEE-CS Joint Conference on.IEEE，2006：298-307.

[8] Huntington P，Nicholas D，Jamali H R.Web robot detection in the scholarly information environment[J].Journal of Information Science，2008，34（5）：726-741.

[9] Lamothe A R.The importance of identifying and accommodating e-resource usage data for the presence of outliers.： The negative impacts of inaccurate e-journal usage data[J].Information Technology & Libraries，2014，33（2）：31-44.

[10] Stassopoulou A，Dikaiakos M D.Web robot detection： A probabilistic reasoning approach[J].Computer Networks the International Journal of Computer & Telecommunications Networking，2009，53（3）：265-278.

[11] Geens N，Huysmans J，Vanthienen J.Evaluation of web robot discovery techniques：a benchmarking study[C].Industrial Conference on Data Mining.Springer Berlin Heidelberg，2006：121-130.

[12] Doran D，Gokhale S S.Detecting Web Robots Using Resource Request Patterns[C].International Conference on Machine Learning and Applications.IEEE Computer Society，2012：7-12.

[13] Duskin O，& Feitelson D G.Distinguishing humans from robots in web search logs： preliminary results using query rates and intervals[C].the Workshop on Web Search Click Data.ACM，2009：15-19.

[14] Dempsey L.Discovery happens elsewhere[EB/OL].[2016-12-03].http：//orweblog.oclc.org/ discovery-happens-elsewhere/.

[15] VandeVelde K，Diggory M.SpiderDetector.java [EB/OL].[2016-12-03].https：//github.com/DSpace/DSpace/blob/50b8cfd77

e2640c3ae07a4e8d3e2482cbaa8df6b/ dspace-api/src/main/java/org/dspace/statistics/util/SpiderDetector.java.

[16] D Space Community Advisory Team & Luyten B.DCAT Meeting October 2014[EB/OL].[2016-12-03].https：//wiki.duraspace.org/display/cmtygp/DCAT+Meeting+October+2014.

[17] University of Southampton and EPrints.org.Registry of open access repositories[EB/OL].[2016-12-03].http：//roar.eprints.org.

[18] Field A.IRStats2 technical documentation-eprints documentation[EB/OL].[2016-12-03].http：//wiki.eprints.org/w/IRStats_

2_Technical_Documentation.

[19] Fran？觭ois S.IRStats2—The EPrints Bazaar[EB/OL].[2016-12-03].http：//bazaar.eprints.org/365/.

[20] Digital Commons.Institutional repositories published with Digital Commons[EB/OL].[2016-12-03].http：//digitalcommons.bepress.com/subscriber_gallery/.

[21] Amshey S，Connolly A，Bankier J G.personal communication[EB/OL].[2016-12-03].http：//www.progectcounter.org.

[22] Carvalho J.Statistics AddOn DSpace DuraSpace[EB/OL].[2016-12-03].https：//wiki.duraspace.org/display/DSPACE/Statist

icsAddOn.

[23] Dantas A，Miranda A.Stats Addon Version 4 for DSpace1.8.2 [S].Braga：University of Minho and KEEP SOLUTIONS，2012.

[24] Dantas A，Miranda A.Stats Addon Version 4 for DSpace1.5.1[S].Braga：University of Minho and KEEP SOLUTIONS，2008.

[25] IRUS-UK.IRUS-UK[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/ .

[26] Needham P，Stone G.IRUS-UK： Making scholarly statistics count in UK repositories[J].Insights，2012，25（3）：262-266.

[27] MacIntyre R.IRUS-UK：making scholarly statistics count in UK repositories[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/

news/IRUS-UKatAltMetricConf2014.pdf .

[28] IRUS-UK.IRUS-UK position statement on the treatment of robots and unusual usage[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/news/IRUS-UK_position_statement_robots_and_ unusual_usage_v1_0_Nov_2013.pdf .

[29] Diggory M，Luyten B.SOLR statistics[EB/OL].[2016-12-03].https：//wiki.duraspace.org/ display/DSDOC5x/SOLR+Statistics.

[30] Joint N，F(xiàn)ield A，Gregson M.Please change the way IRstats works[EB/OL].[2016-12-03].www.eprints.org/tech.php/15695.html.

[31] 百度學(xué)術(shù)搜索[EB/OL].[2016-12-03].http： / /baike.baidu.com/view/5844732.htm？fromtitle=百度學(xué)術(shù) &type=syn.

[32] Conyers A.Building on sand：Using statistical measures to assess the impact of electronic services[J].Performance Measurement and Metrics，2006，7（1）：37-44.

[33] 劉軍，金淑娜.Kaas知識即服務(wù)：面向讀者需求的分層知識服務(wù)模型及實(shí)踐[J].情報科學(xué)，2014（3）：55-60.

[34] 劉巍，祝忠明，張旺強(qiáng)，等.基于機(jī)構(gòu)知識庫的知識分析及可視化功能實(shí)現(xiàn)[J].圖書與情報，2016（3）：125-131.

[35] Baker G，Read E J.Vendor-supplied usage data for electronic resources：A survey of academic libraries[J].Learned Publishing，2008，21（1）：48-57.

[36] 陳大慶，葉蘭，楊巍，等.電子資源使用統(tǒng)計平臺USSER的設(shè)計與實(shí)現(xiàn)[J].圖書情報工作，2015，59（1）：106-112.

作者簡介：胡文靜（1983-），女，蘭州大學(xué)圖書館館員，研究方向：信息資源管理。

圖書與情報2017年2期

圖書與情報的其它文章: 基于虛擬現(xiàn)實(shí)（VR）應(yīng)用的圖書館角色定位與創(chuàng)新服務(wù)研究; 代際學(xué)習(xí)：連接數(shù)字原住民和數(shù)字移民的新興研究領(lǐng)域; 大數(shù)據(jù)的影響與情報學(xué)的應(yīng)對策略; 我國政務(wù)信息資源目錄體系研究述評; 基于用戶滿意度的政務(wù)微信服務(wù)質(zhì)量評價模型及其實(shí)證研究; 基于國際評估體系的政府?dāng)?shù)據(jù)開放指標(biāo)特征與模式分析

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)絡(luò)機(jī)器人探測技術(shù)在開放獲取機(jī)構(gòu)知識庫用戶使用數(shù)據(jù)統(tǒng)計中的應(yīng)用