亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)機(jī)器人探測技術(shù)在開放獲取機(jī)構(gòu)知識庫用戶使用數(shù)據(jù)統(tǒng)計中的應(yīng)用

        2017-06-05 09:37:49胡文靜
        圖書與情報 2017年2期

        (1.蘭州大學(xué)圖書館 甘肅蘭州 730000)

        摘 要:文章通過文獻(xiàn)分析對網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究現(xiàn)狀進(jìn)行總結(jié);對DSpace、EPrints、Digital Commons、 University of Minho Statistics Add-on for DSpace以及 Institutional Repository Usage Statistics UK (IRUS-UK) 5個機(jī)構(gòu)知識庫平臺中網(wǎng)絡(luò)機(jī)器人探測技術(shù)的應(yīng)用進(jìn)行了比較。探討了開放獲取機(jī)構(gòu)知識庫建設(shè)過程中的用戶使用量統(tǒng)計問題的解決方案。分析得出:在開放獲取機(jī)構(gòu)知識庫中同時應(yīng)用網(wǎng)絡(luò)機(jī)器人探測技術(shù)與人工排除網(wǎng)絡(luò)機(jī)器人措施,對于提高用戶使用數(shù)據(jù)統(tǒng)計的準(zhǔn)確性有一定的幫助;學(xué)術(shù)類搜索引擎是網(wǎng)絡(luò)機(jī)器人探測技術(shù)監(jiān)控的重點(diǎn)對象。

        關(guān)鍵詞:網(wǎng)絡(luò)機(jī)器人探測;開發(fā)獲取機(jī)構(gòu)知識庫;用戶使用數(shù)據(jù)統(tǒng)計

        中圖分類號:G202 文獻(xiàn)標(biāo)識碼:A DOI:10.11968/tsyqb.1003-6938.2017042

        1 引言

        機(jī)構(gòu)知識庫(IR)建設(shè)與開放獲?。∣A)運(yùn)動正在全球范圍內(nèi)沖擊和改變著傳統(tǒng)的學(xué)術(shù)出版模式及傳播方式,影響和變革著傳統(tǒng)出版發(fā)行機(jī)制、知識交流利益分配方式、知識成果的價值判斷標(biāo)準(zhǔn)等,形成了一股不可逆轉(zhuǎn)的知識成果運(yùn)動方式變革潮流[1]。 截至2016年11月,全球范圍內(nèi)的學(xué)術(shù)性機(jī)構(gòu)知識庫數(shù)量已超過4000個,這些機(jī)構(gòu)知識庫中的很大一部分由學(xué)科聯(lián)盟或各高校自主建設(shè),以用戶自存儲的模式來保存和展示科研人員的研究成果,通常這些資源支持開放獲取。

        隨著用戶獲取信息的途徑越來越多,使用情況的統(tǒng)計數(shù)據(jù)成為分析和了解資源價值的重要手段。現(xiàn)階段對于下載量統(tǒng)計數(shù)據(jù)有兩種不同的觀點(diǎn),一些認(rèn)為下載量統(tǒng)計方式存在問題,統(tǒng)計結(jié)果為無用信息[2],另一些機(jī)構(gòu)和用戶使用這些數(shù)據(jù)進(jìn)行論文排名、作者排名、甚至定期將這些數(shù)據(jù)發(fā)布以進(jìn)行宣傳。文章下載量有時還被作為預(yù)測文章被引次數(shù)的前期指標(biāo)[3],可以說是學(xué)術(shù)和科學(xué)研究出版物的最重要指標(biāo)之一。

        無論持有哪種觀點(diǎn),任何數(shù)據(jù)作為一個度量或僅作為簡單的宣傳推廣目的使用都必須是準(zhǔn)確的。然而,各類搜索引擎以及惡意評論制造者對網(wǎng)絡(luò)機(jī)器人的使用對開放獲取機(jī)構(gòu)知識庫的數(shù)據(jù)統(tǒng)計準(zhǔn)確性提出了極大挑戰(zhàn)。有數(shù)據(jù)表明,由網(wǎng)絡(luò)機(jī)器人制造的流量,占到了網(wǎng)絡(luò)總流量的8.51%-32.6%[4]。網(wǎng)絡(luò)機(jī)器人在不同類型的網(wǎng)站上所制造的流量差別很大,有一項(xiàng)針對互聯(lián)網(wǎng)檔案館的調(diào)查表明,93%的使用請求來自于網(wǎng)絡(luò)機(jī)器人[5]。

        有哪些技術(shù)可用來探測網(wǎng)絡(luò)機(jī)器人?主要的機(jī)構(gòu)知識庫平臺是如何進(jìn)行網(wǎng)絡(luò)機(jī)器人探測的?這些問題的探討對我國開放獲取機(jī)構(gòu)知識庫建設(shè)過程中的用戶使用量統(tǒng)計問題的解決提供了參考。

        2 網(wǎng)絡(luò)機(jī)器人探測技術(shù)

        Tan 與 Kumar[6]最早開展了對網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究;Doran 與 Gokhale[4]對主要的網(wǎng)絡(luò)機(jī)器人探測技術(shù)進(jìn)行了總結(jié)。雖然這些研究主要來自于計算機(jī)科學(xué)領(lǐng)域,但已有研究人員將研究重點(diǎn)聚焦在其在學(xué)術(shù)信息系統(tǒng)的應(yīng)用上[7-9]。對Doran 與 Gokhale的分類體系進(jìn)行簡化后,列出了用于網(wǎng)絡(luò)機(jī)器人探測的23個獨(dú)立變量(見表1)。

        研究人員提出的變量分析方法各不相同,既有在服務(wù)器端對已知的機(jī)器人進(jìn)行數(shù)據(jù)匹配的方式[8]也有利用復(fù)雜的機(jī)器學(xué)習(xí)技術(shù)的方式[10]??梢悦鞔_的是,沒有一種方法可以保證精確的探測到所有訪問過網(wǎng)絡(luò)服務(wù)器的機(jī)器人。因此,網(wǎng)絡(luò)機(jī)器人探測技術(shù)的階段性目標(biāo)變成了在保證錯報數(shù)量最?。ú闇?zhǔn)率)的基礎(chǔ)上最大程度的探測出網(wǎng)絡(luò)機(jī)器人(查全率),即在盡量少的把人工行為標(biāo)注為網(wǎng)絡(luò)機(jī)器人行為的同時盡可能多的捕獲網(wǎng)絡(luò)機(jī)器人[11]。筆者對各項(xiàng)針對網(wǎng)絡(luò)機(jī)器人探測技術(shù)查全率、查準(zhǔn)率以及F-值(查全率與查準(zhǔn)率的調(diào)和平均數(shù))的研究進(jìn)行了匯總??梢钥闯?,網(wǎng)絡(luò)機(jī)器人探測技術(shù)的查全率在0.85與0.97之間,查準(zhǔn)率在0.82與0.95之間,F(xiàn)-值在0.84與0.94之間(見表2)。

        在測試一項(xiàng)機(jī)器人探測技術(shù)時,研究人員首先要知道日志文件中的哪一個會話是網(wǎng)絡(luò)機(jī)器人所創(chuàng)

        建。大部分情況下,檢測與標(biāo)注數(shù)據(jù)的工作是應(yīng)用另一項(xiàng)非測試的機(jī)器人探測技術(shù)以自動或半自動的形式完成的,但有時是通過人工形式進(jìn)行的。 Doran 與Gokhale [12]分析了人工檢測與自動檢測數(shù)據(jù)集的優(yōu)缺點(diǎn),指出人工檢測準(zhǔn)確率高,但可檢測的網(wǎng)絡(luò)機(jī)器人的范圍較小,且受到數(shù)據(jù)大小的限制,自動檢測所用到的技術(shù)本身就不可能完全準(zhǔn)確,與所測試技術(shù)結(jié)果的對比不具有可信度。

        由于專家的意見不統(tǒng)一、技術(shù)測試的局限性以及檢測技術(shù)精確度的影響,合理的機(jī)器人探測技術(shù)應(yīng)用應(yīng)該是一種混合模型,應(yīng)用多種技術(shù)與數(shù)據(jù)來達(dá)到一個盡可能好的效果[13]。

        3 網(wǎng)絡(luò)機(jī)器人探測技術(shù)在開放獲取知識庫中的應(yīng)用

        機(jī)構(gòu)知識庫中的內(nèi)容通常是通過主流搜索引擎的自動索引功能被用戶所發(fā)現(xiàn)。一方面,機(jī)構(gòu)知識庫需要吸引搜索引擎以提升其內(nèi)容的可見度;另一方面,出于準(zhǔn)確的用戶使用數(shù)據(jù)統(tǒng)計的需求,機(jī)構(gòu)知識庫需要應(yīng)用機(jī)器人探測技術(shù)來剔除網(wǎng)絡(luò)機(jī)器人對使用量的影響。

        通常,機(jī)構(gòu)知識庫中的日志信息有以下缺陷:除下載請求之外的會話數(shù)據(jù)有限或不存在;知識庫中的會話通常只包含單獨(dú)的下載信息,而不包含下載之前的點(diǎn)擊量信息與下載之后的瀏覽信息;在日志中可見的信息局限在日期、時間、HTTP方法與響應(yīng)碼、IP地址、用戶代理字符串以及referring 網(wǎng)站。這導(dǎo)致表1中所列的多種網(wǎng)絡(luò)機(jī)器人探測技術(shù)并不能在機(jī)構(gòu)知識庫中使用,如Web頁面組件請求、圖像鏈接比、資源類別請求等。由于機(jī)構(gòu)知識庫用戶實(shí)時交互技術(shù)使用較少,鼠標(biāo)移動與鍵盤聲監(jiān)測通常也無法進(jìn)行,而使用驗(yàn)證碼會導(dǎo)致機(jī)構(gòu)知識庫中的資源無法被搜索引擎發(fā)現(xiàn)。基于以上原因,筆者歸納了國外主要的OA機(jī)構(gòu)知識庫平臺所采用的網(wǎng)絡(luò)機(jī)器人探測方式(見表3)。

        3.1 DSpace

        DSpace是全世界范圍內(nèi)應(yīng)用最廣泛的機(jī)構(gòu)知識庫系統(tǒng),自2002年發(fā)布以來,已經(jīng)有超過1600家機(jī)構(gòu)使用。DSpace采用Apache SOLR進(jìn)行用戶使用數(shù)據(jù)統(tǒng)計,該系統(tǒng)從2010年起,采用了網(wǎng)絡(luò)機(jī)器人探測技術(shù)來進(jìn)行數(shù)據(jù)過濾[14]。

        DSpace采用了3種方式來探測網(wǎng)絡(luò)機(jī)器人。首先,對每一個下載與頁面瀏覽記錄的用戶代理字符串進(jìn)行檢測,使之與235個已知用戶代理模式(正則表達(dá)式)進(jìn)行對比;其次,檢測訪問請求的IP地址,使之與6個最大的搜索引擎的IP地址列表進(jìn)行對比。除此之外,對比列表還包括一份包含2528個IP地址的其他搜索引擎IP地址列表,以及與搜索引擎無關(guān)的48個已知網(wǎng)絡(luò)機(jī)器人列表。大部分IP地址列表可以通過網(wǎng)絡(luò)查詢自動更新。最后,對正式域名采用反向DNS名稱查找的方式使之與已知網(wǎng)絡(luò)機(jī)器人域名列表進(jìn)行對比[15]。從2014年開始,基于用戶使用數(shù)據(jù)統(tǒng)計準(zhǔn)確性的需求,DSpace 已經(jīng)開始對其網(wǎng)絡(luò)機(jī)器人探測方式進(jìn)行重新評估[16]。

        3.2 EPrints

        EPrints是全球最早上線的機(jī)構(gòu)知識庫平臺,全球用戶數(shù)量排在DSpace之后,位居第二,有578家機(jī)構(gòu)使用[17]。EPrints平臺中的用戶使用數(shù)據(jù)統(tǒng)計模塊叫IRStats 2,這個模塊中使用了網(wǎng)絡(luò)機(jī)器人探測技術(shù)[18]。

        IRStats 對下載量數(shù)據(jù)的過濾基于兩種方式。一種方式是利用用戶代理字符串列表,該列表包含960個已知網(wǎng)絡(luò)機(jī)器人及爬蟲軟件信息。如果使用請求的用戶代理字符串記錄與列表信息相匹配,下載記錄數(shù)據(jù)在用戶下載量統(tǒng)計時將被過濾;第二種方式通過檢測單個IP地址申請下載的時間間隔來進(jìn)行。默認(rèn)情況下,如果同一IP地址在24小時內(nèi)多次申請下載同一條信息,在進(jìn)行用戶下載量統(tǒng)計時,只按一次計算。這一過濾方式的階段性目標(biāo)是識別所謂的“重復(fù)下載”[19]。嚴(yán)格意義上來講,重復(fù)下載并不一定完全是網(wǎng)絡(luò)機(jī)器人的行為,但過濾軟件會把此類合法下載識別為網(wǎng)絡(luò)機(jī)器人行為,在數(shù)據(jù)統(tǒng)計時排除在外。此外,因?yàn)橥痪W(wǎng)絡(luò)機(jī)器人在24小時內(nèi)對機(jī)構(gòu)知識庫中所有文件進(jìn)行單次下載的行為是被允許的,如果這個網(wǎng)絡(luò)機(jī)器人每24小時對這個機(jī)構(gòu)知識庫中的所有文件進(jìn)行下載,所有這些下載數(shù)據(jù)將被記錄在用戶下載數(shù)量之中。盡管如此,這種方式已經(jīng)在沒有人工干預(yù)的情況下,很大程度上限制了網(wǎng)絡(luò)機(jī)器人的行為。

        3.3 Digital Commons

        Digital Commons是一個服務(wù)器托管機(jī)構(gòu)知識庫平臺,全球用戶數(shù)有400個機(jī)構(gòu)[20]。該平臺上的所有開放獲取資源都通過Digital Commons Network這一單一門戶來揭示,現(xiàn)有150多萬條OA數(shù)據(jù)。由于Digital Commons是一個集中管理的網(wǎng)絡(luò)知識庫,其機(jī)器人探測技術(shù)所需的數(shù)據(jù)集要大大多于單個的機(jī)構(gòu)知識庫系統(tǒng)。大規(guī)模的數(shù)據(jù)集可以提供更加準(zhǔn)確的用戶行為探測,這是本地部署的機(jī)構(gòu)知識庫所不能比擬的。此外,機(jī)構(gòu)知識庫所制定的數(shù)據(jù)規(guī)則,對使用平臺的所有機(jī)構(gòu)均適用,這使得多個計數(shù)器可以兼容跨機(jī)構(gòu)站點(diǎn)的下載統(tǒng)計數(shù)據(jù)。

        Digital Commons 所使用的網(wǎng)絡(luò)機(jī)器人探測技術(shù)由一系列的過濾器組成。由用戶代理字符串已經(jīng)申明的已知網(wǎng)絡(luò)機(jī)器人產(chǎn)生的下載以及使HTTP產(chǎn)生除200與302響應(yīng)碼以外其他響應(yīng)碼的下載,均不計入用戶使用量統(tǒng)計中。用戶在30秒內(nèi)使用同一IP地址對同一資源的下載,也將被計數(shù)器排除在使用量統(tǒng)計之外[21]。referrer字段用來識別自動產(chǎn)生的鏈接地址。最后,Digital Commons使用內(nèi)部的加權(quán)算法進(jìn)行實(shí)時計算。這個算法有5個指標(biāo),包括一個IP地址24小時之內(nèi)在平臺上對所有知識庫及所有文章的所有活動記錄、來自代理服務(wù)系統(tǒng)的請求、下載請求的定位信息、下載請求是否來自.edu 域名,第5個指標(biāo)來自于交叉比較一個IP地址所代理的用戶數(shù)量與由每一個IP—用戶代理配對所產(chǎn)生的條目下載請求數(shù)量。

        3.4 Minho大學(xué)統(tǒng)計組件

        Minho 大學(xué)統(tǒng)計組件開發(fā)于2006年,是一個與DSpace相結(jié)合的開源統(tǒng)計系統(tǒng)。開發(fā)的初衷是向全世界展示Minho大學(xué)機(jī)構(gòu)知識庫中的資源使用情況,促進(jìn)機(jī)構(gòu)知識庫的進(jìn)一步完善[22]。此系統(tǒng)還具有全面的工作流以及管理數(shù)據(jù)統(tǒng)計功能。

        Minho統(tǒng)計組件在數(shù)據(jù)庫中存儲了DSpace中所有的下載比特流(包括PDF格式與其他格式)。該系統(tǒng)采用多樣化的方式來探測網(wǎng)絡(luò)機(jī)器人。包括與包含793個已知網(wǎng)絡(luò)機(jī)器人的預(yù)設(shè)表單進(jìn)行匹配,探測假網(wǎng)頁的訪問請求與來自 robots.txt 文件列表里的網(wǎng)址訪問請求。數(shù)據(jù)庫中包含被定義為網(wǎng)絡(luò)機(jī)器人的相關(guān)IP地址與用戶代理字符串,這些信息通過預(yù)先的日志分析產(chǎn)生。所有這些疑似網(wǎng)絡(luò)機(jī)器人的下載行為,在用戶使用數(shù)據(jù)統(tǒng)計中都會被過濾,不會被終端用戶所見。

        為了標(biāo)注下載信息,網(wǎng)絡(luò)機(jī)器人探測腳本讀取服務(wù)器日志文件,檢查每一個訪問請求的IP地址以及代理信息是否已經(jīng)存儲在數(shù)據(jù)庫中。如果代理字符串在數(shù)據(jù)庫中找到,使用這個用戶代理字符串的所有新IP地址,將被標(biāo)注為潛在的網(wǎng)絡(luò)機(jī)器人。如果IP地址與用戶代理字符串信息都不在數(shù)據(jù)庫中,探測腳本將對代理信息與預(yù)設(shè)代理列表以及假網(wǎng)頁與robots.txt 文件列表相比對。如果匹配成功,這個新的IP/代理配對將被記錄,由這個地址所產(chǎn)生的下載歷史數(shù)據(jù)是否在使用量數(shù)據(jù)統(tǒng)計時被剔除,需要進(jìn)行人工決策[23](Minho統(tǒng)計組件的網(wǎng)絡(luò)機(jī)器人探測腳本的決策過程見圖1)。

        除網(wǎng)絡(luò)機(jī)器人探測腳本以外,Minho統(tǒng)計組件還向用戶提供綜合管理界面,在一分鐘之內(nèi)超過10次訪問請求或產(chǎn)生多次會話的IP地址將顯示在這個界面上[24]。在一定時間段內(nèi),高頻出現(xiàn)的IP地址也會顯示在這個界面上。這個工具將有助于人工決策是否將單個IP地址加入到疑似網(wǎng)絡(luò)機(jī)器人列表中。

        3.5 IRUS-UK

        IRUS-UK是應(yīng)用于英國91個機(jī)構(gòu)知識庫的使用量統(tǒng)計系統(tǒng)[25]。該系統(tǒng)遵循COUNTER-PIRUS業(yè)務(wù)規(guī)程,旨在為英國機(jī)構(gòu)知識庫聯(lián)盟提供統(tǒng)一的用戶機(jī)構(gòu)知識庫使用量[26]。

        與Digital Commons Network一樣,IRUS-UK是一項(xiàng)大規(guī)模的服務(wù),應(yīng)用網(wǎng)絡(luò)機(jī)器人探測技術(shù)在中心服務(wù)上,在多個機(jī)構(gòu)知識庫中進(jìn)行跨平臺數(shù)據(jù)統(tǒng)計。這兩個系統(tǒng)都與開放獲取機(jī)構(gòu)知識庫聯(lián)盟(COAR)的使用量統(tǒng)計小組合作,與此同時,IRUS-UK還致力于促進(jìn)反網(wǎng)絡(luò)機(jī)器人工作組的成立[27]。

        為了探測網(wǎng)絡(luò)機(jī)器人,IRUS-UK使用包含241個已知網(wǎng)絡(luò)機(jī)器人用戶代理模式的反網(wǎng)絡(luò)機(jī)器人列表,并且對過于活躍的IP地址進(jìn)行了訪問限制。最初,IRUS-UK設(shè)置過濾在一天之內(nèi)從91個機(jī)構(gòu)知識庫中下載超過200次的IP地址的所有下載次數(shù)數(shù)據(jù),下載超過100次的IP地址下載數(shù)據(jù)的一部分也會被過濾[28]?,F(xiàn)階段,IRUS-UK將所有IP地址一天下載次數(shù)的最大值設(shè)置成了40次,并且長期進(jìn)行加強(qiáng)網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究。

        3.6 網(wǎng)絡(luò)機(jī)器人探測技術(shù)應(yīng)用評價

        5種OA機(jī)構(gòu)知識庫平臺網(wǎng)絡(luò)機(jī)器人探測方式各有特點(diǎn)。 Dspace采用了單一的綜合日志分析模式,數(shù)據(jù)需求較少,實(shí)現(xiàn)難度較低,且采用了高效的 Solr索引技術(shù)[29],系統(tǒng)資源耗費(fèi)較少,執(zhí)行效率高,但有如下疏漏之處:一是IP地址列表并沒有實(shí)現(xiàn)自動更新,自2010年采用網(wǎng)絡(luò)機(jī)器人探測技術(shù)以來,DSpace使用的用于對比的IP地址列表就從未更新過;二是用戶代理字符串的更新并不及時,DSpace最后一次更新用戶代理字符串是在2015年4月;此外,DSpace的對比域名列表只包含了10種域名模式,以至于其網(wǎng)絡(luò)機(jī)器人探測更像是功能性或?qū)嶒?yàn)性的,在實(shí)際應(yīng)用中并不能發(fā)揮應(yīng)有作用。EPrints雖然只采用2種數(shù)據(jù)來進(jìn)行網(wǎng)絡(luò)機(jī)器人探測,卻兼顧了綜合日志分析模式與流量分析模式,數(shù)據(jù)分析方法比較全面,但存在網(wǎng)絡(luò)地址轉(zhuǎn)換給正確的識別網(wǎng)絡(luò)機(jī)器人帶來影響的問題。這就需要系統(tǒng)在查全率與查準(zhǔn)率之間做一個平衡。通常,超時時間設(shè)置的越短,查全率越低、查準(zhǔn)率越高;超時時間設(shè)置的越長,查全率越高、查準(zhǔn)率越低。多用戶使用同一IP地址訪問EPrints時,所產(chǎn)生的使用數(shù)據(jù)統(tǒng)計問題也已經(jīng)被多個用戶所提出[30]。Digital Commons采用了10個字段來進(jìn)行網(wǎng)絡(luò)機(jī)器人探測,在5個OA機(jī)構(gòu)知識庫平臺中為最多,大規(guī)模的數(shù)據(jù)集以使探測的全面性得到了保障。此外,服務(wù)器托管模式以及統(tǒng)一的規(guī)則有利于統(tǒng)計數(shù)據(jù)在更大范圍以及更多方向上應(yīng)用。但其內(nèi)部加權(quán)算法中的單個IP地址使用不同的代理字符串下載相同數(shù)量條目的計算是算法中的一個缺陷,在這種加權(quán)模式下,網(wǎng)絡(luò)機(jī)器人的行為將不被識別。Minho大學(xué)統(tǒng)計組件在數(shù)據(jù)需求上選擇了折中處理,同時引入自動機(jī)器探測與人工排查結(jié)合的兩階段探測模式重點(diǎn)突出對查準(zhǔn)率的保證,但存在缺乏API和代碼級文檔的問題[23-24]。在數(shù)據(jù)庫中過濾網(wǎng)絡(luò)機(jī)器人使用量以及進(jìn)行使用量重新統(tǒng)計需要耗費(fèi)大量時間及系統(tǒng)資源,包括CPU、內(nèi)存、數(shù)據(jù)量連接等。使用SQL語言進(jìn)行使用量統(tǒng)計時容易產(chǎn)生大量的錯誤代碼,需要大量的時間去修復(fù),整體系統(tǒng)運(yùn)行效率較低。IRUSUK的部署模式與Digital Commons相近,但在探測字段需求上進(jìn)行了簡化,且開發(fā)團(tuán)隊長期重視網(wǎng)絡(luò)機(jī)器人探測技術(shù)的研究,算法版本迭代速度快,但其針對性強(qiáng),應(yīng)用范圍僅限于英國,全球推廣難度較大。

        IP地址的靜態(tài)檢測問題是5個OA機(jī)構(gòu)知識庫存在的共有問題。一是被檢測到的網(wǎng)絡(luò)機(jī)器人IP地址以及用戶代理字符串,并沒有自動被添加到列表中,這導(dǎo)致檢測結(jié)果具有很大的隨機(jī)性,某一次檢測中的正確結(jié)果可能在下次檢測時被忽略;二是一旦一個IP地址被標(biāo)注為來自于網(wǎng)絡(luò)機(jī)器人,這個IP地址將永遠(yuǎn)被加入黑名單。如果此后這個IP地址被正常使用者使用,此用戶的使用量還是會被系統(tǒng)過濾,而將IP地址從黑名單去除的方式極為有限;三是一旦一個用戶代理字符串與一個網(wǎng)絡(luò)機(jī)器人IP地址綁定,任何使用這個代理的新IP地址都會被認(rèn)為是網(wǎng)絡(luò)機(jī)器人。為了解決這些問題,與DHCP配置相結(jié)合的探測技術(shù)將是研究的重點(diǎn)方向。

        4 機(jī)構(gòu)知識庫網(wǎng)絡(luò)機(jī)器人探測技術(shù)實(shí)施建議

        4.1 探測方式

        現(xiàn)階段主要的機(jī)器人探測技術(shù)主要是利用會話數(shù)據(jù)來識別網(wǎng)絡(luò)機(jī)器人。如本文所述,在實(shí)際的機(jī)構(gòu)知識庫中,實(shí)時會話數(shù)據(jù)很少或沒有,于是使用行為被限定為直接使用搜索引擎一次性下載文檔的行為。使用可擴(kuò)展的已知網(wǎng)絡(luò)機(jī)器人IP地址列表、可自動收割的用戶代理字符串來判定網(wǎng)絡(luò)機(jī)器人行為,是機(jī)構(gòu)知識庫可采用的較為節(jié)約成本的模式。同時,在這種情況下,人工判斷一些可疑的IP地址是否為網(wǎng)絡(luò)機(jī)器人對于提高查全率與查準(zhǔn)率有一定的幫助。筆者總結(jié)了可用于人工判斷網(wǎng)絡(luò)機(jī)器人行為的基本字段(見表4)。

        4.2 探測對象

        國外學(xué)者研究表明,對于OA學(xué)術(shù)期刊來說,大量的網(wǎng)絡(luò)機(jī)器人行為來自于少數(shù)幾個搜索引擎。在所調(diào)查的341個下載樣本中,有165個下載來自于Google學(xué)術(shù)的 Googlebot ,占總下載次數(shù)的48%[8]。在我國,學(xué)術(shù)類網(wǎng)絡(luò)搜索引擎近年來也快速發(fā)展。2014 年 6 月 13 日,“百度學(xué)術(shù)搜索”上線,旨在構(gòu)建為用戶提供海量中英文檢索的學(xué)術(shù)搜索平臺,涵蓋各類學(xué)術(shù)期刊、會議論文[31],成為我國最大的學(xué)術(shù)類網(wǎng)絡(luò)搜索引擎。與國外的學(xué)術(shù)類搜索引擎一樣,百度學(xué)術(shù)也未向外公布其搜索來源,僅簡單介紹了收錄范圍??梢酝茰y,各類OA機(jī)構(gòu)知識庫也是其獲取學(xué)術(shù)資源的一個主要渠道。因此,網(wǎng)絡(luò)機(jī)器人探測的重點(diǎn)對象應(yīng)放到主要的學(xué)術(shù)類搜索引擎上來。

        4.3 數(shù)據(jù)利用

        準(zhǔn)確的用戶使用數(shù)據(jù)統(tǒng)計是機(jī)構(gòu)知識庫功能升級的基礎(chǔ),對用戶使用數(shù)據(jù)的合理利用,是網(wǎng)絡(luò)機(jī)器人探測技術(shù)應(yīng)用的最終目標(biāo)。Coyners[32]認(rèn)為電子資源統(tǒng)計數(shù)據(jù)的分析可以直接推動服務(wù)提升和增強(qiáng)用戶支持。網(wǎng)絡(luò)機(jī)器人探測技術(shù)所監(jiān)控的數(shù)據(jù)是挖掘讀者需求的重要數(shù)據(jù)來源,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以實(shí)現(xiàn)對用戶數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘、聚類分析、趨勢預(yù)測等。在實(shí)際挖掘中可以采用C4.5決策樹算法,將用戶下載偏好類型作為類標(biāo)簽,對影響分類的評價規(guī)則進(jìn)行挖掘,揭示用戶偏好特點(diǎn)和規(guī)律,結(jié)合協(xié)同推薦算法,可以為用戶提供更加智能化、個性化的信息推送服務(wù)[33]。此外,國內(nèi)領(lǐng)先的中國科學(xué)院機(jī)構(gòu)知識庫通過利用用戶使用數(shù)據(jù)與其他科研數(shù)據(jù)的關(guān)聯(lián)、開放數(shù)據(jù)接口,實(shí)現(xiàn)了知識分析和信息可視化,以此來進(jìn)行科研成果管理、科研產(chǎn)出評價等信息增值服務(wù),促進(jìn)了機(jī)構(gòu)知識庫平臺功能的擴(kuò)展和優(yōu)化[34]。

        在用戶使用數(shù)據(jù)利用存在的問題方面,Baker和Read[35]指出缺乏統(tǒng)一的數(shù)據(jù)統(tǒng)計標(biāo)準(zhǔn)是阻礙大規(guī)??缙脚_數(shù)據(jù)挖掘深入開展的根本原因。現(xiàn)階段,商用數(shù)據(jù)庫的用戶使用數(shù)據(jù)統(tǒng)計大多基于COUNTER標(biāo)準(zhǔn)。我國深圳大學(xué)設(shè)計了USSER平臺,基于數(shù)據(jù)庫商提供的原始 COUNTER報告,對其進(jìn)行深入整合與分析,針對電子資源使用統(tǒng)計整合與分析難題進(jìn)行了探索與實(shí)踐,初步取得了成效[36]。機(jī)構(gòu)知識庫平臺的用戶使用數(shù)據(jù)統(tǒng)計同樣可以統(tǒng)一采用此標(biāo)準(zhǔn),在此基礎(chǔ)上實(shí)現(xiàn)用戶使用數(shù)據(jù)在更深更廣的尺度上被充分利用。

        5 結(jié)語

        開放獲取機(jī)構(gòu)知識庫的用戶使用量統(tǒng)計,不但是服務(wù)效果和服務(wù)價值體現(xiàn)的主要指標(biāo),其自身也有許多問題需要進(jìn)一步研究,如網(wǎng)絡(luò)機(jī)器人探測技術(shù)在機(jī)構(gòu)知識庫中的應(yīng)用效果如何、向用戶提供的使用量數(shù)據(jù)準(zhǔn)確性如何等。隨著大數(shù)據(jù)時代的來臨,各個開放機(jī)構(gòu)知識庫構(gòu)建部門已經(jīng)意識到了使用統(tǒng)計數(shù)據(jù)的重要性,但是對如何方便地獲得和展示使用統(tǒng)計數(shù)據(jù)、進(jìn)行數(shù)據(jù)共享、方便地整合與加工使用統(tǒng)計數(shù)據(jù)、實(shí)現(xiàn)使用統(tǒng)計數(shù)據(jù)的長期保存等問題仍需進(jìn)一步研究。

        參考文獻(xiàn):

        [1] 徐紅玉,李愛國.中國科學(xué)院系統(tǒng)與高等學(xué)校機(jī)構(gòu)知識庫建設(shè)比較研究[J].圖書情報工作,2014,58(12):78-83.

        [2] Cornell University Library (n.d.).arXiv.org e-Print archive[EB/OL].[2016-12-03].http://arxiv.org.

        [3] Brody T,Harnad S,Carr L.Earlier Web Usage Statistics as Predictors of Later Citation Impact[J].Journal of the Association for Information Science and Technology,2006,57(8):1060-1072.

        [4] Doran D,Gokhale S S.Web robot detection techniques: overview and limitations[J].Data Mining and Knowledge Discovery,2011,22(1):183-210.

        [5] AlNoamany Y A,Weigle M C,Nelson M L.Access patterns for robots and humans in web archives[C].Proceedings of the 13th ACM/IEEE-CS joint conference on Digital libraries.ACM,2013:339-348.

        [6] Tan P N,Kumar V.Discovery of Web Robot Sessions Based on their Navigational Patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9-35.

        [7] Van De Sompel H,Bollen J.An architecture for the aggregation and analysis of scholarly usage data[C].Digital Libraries,2006.JCDL'06.Proceedings of the 6th ACM/IEEE-CS Joint Conference on.IEEE,2006:298-307.

        [8] Huntington P,Nicholas D,Jamali H R.Web robot detection in the scholarly information environment[J].Journal of Information Science,2008,34(5):726-741.

        [9] Lamothe A R.The importance of identifying and accommodating e-resource usage data for the presence of outliers.: The negative impacts of inaccurate e-journal usage data[J].Information Technology & Libraries,2014,33(2):31-44.

        [10] Stassopoulou A,Dikaiakos M D.Web robot detection: A probabilistic reasoning approach[J].Computer Networks the International Journal of Computer & Telecommunications Networking,2009,53(3):265-278.

        [11] Geens N,Huysmans J,Vanthienen J.Evaluation of web robot discovery techniques:a benchmarking study[C].Industrial Conference on Data Mining.Springer Berlin Heidelberg,2006:121-130.

        [12] Doran D,Gokhale S S.Detecting Web Robots Using Resource Request Patterns[C].International Conference on Machine Learning and Applications.IEEE Computer Society,2012:7-12.

        [13] Duskin O,& Feitelson D G.Distinguishing humans from robots in web search logs: preliminary results using query rates and intervals[C].the Workshop on Web Search Click Data.ACM,2009:15-19.

        [14] Dempsey L.Discovery happens elsewhere[EB/OL].[2016-12-03].http://orweblog.oclc.org/ discovery-happens-elsewhere/.

        [15] VandeVelde K,Diggory M.SpiderDetector.java [EB/OL].[2016-12-03].https://github.com/DSpace/DSpace/blob/50b8cfd77

        e2640c3ae07a4e8d3e2482cbaa8df6b/ dspace-api/src/main/java/org/dspace/statistics/util/SpiderDetector.java.

        [16] D Space Community Advisory Team & Luyten B.DCAT Meeting October 2014[EB/OL].[2016-12-03].https://wiki.duraspace.org/display/cmtygp/DCAT+Meeting+October+2014.

        [17] University of Southampton and EPrints.org.Registry of open access repositories[EB/OL].[2016-12-03].http://roar.eprints.org.

        [18] Field A.IRStats2 technical documentation-eprints documentation[EB/OL].[2016-12-03].http://wiki.eprints.org/w/IRStats_

        2_Technical_Documentation.

        [19] Fran?觭ois S.IRStats2—The EPrints Bazaar[EB/OL].[2016-12-03].http://bazaar.eprints.org/365/.

        [20] Digital Commons.Institutional repositories published with Digital Commons[EB/OL].[2016-12-03].http://digitalcommons.bepress.com/subscriber_gallery/.

        [21] Amshey S,Connolly A,Bankier J G.personal communication[EB/OL].[2016-12-03].http://www.progectcounter.org.

        [22] Carvalho J.Statistics AddOn DSpace DuraSpace[EB/OL].[2016-12-03].https://wiki.duraspace.org/display/DSPACE/Statist

        icsAddOn.

        [23] Dantas A,Miranda A.Stats Addon Version 4 for DSpace1.8.2 [S].Braga:University of Minho and KEEP SOLUTIONS,2012.

        [24] Dantas A,Miranda A.Stats Addon Version 4 for DSpace1.5.1[S].Braga:University of Minho and KEEP SOLUTIONS,2008.

        [25] IRUS-UK.IRUS-UK[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/ .

        [26] Needham P,Stone G.IRUS-UK: Making scholarly statistics count in UK repositories[J].Insights,2012,25(3):262-266.

        [27] MacIntyre R.IRUS-UK:making scholarly statistics count in UK repositories[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/

        news/IRUS-UKatAltMetricConf2014.pdf .

        [28] IRUS-UK.IRUS-UK position statement on the treatment of robots and unusual usage[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/news/IRUS-UK_position_statement_robots_and_ unusual_usage_v1_0_Nov_2013.pdf .

        [29] Diggory M,Luyten B.SOLR statistics[EB/OL].[2016-12-03].https://wiki.duraspace.org/ display/DSDOC5x/SOLR+Statistics.

        [30] Joint N,F(xiàn)ield A,Gregson M.Please change the way IRstats works[EB/OL].[2016-12-03].www.eprints.org/tech.php/15695.html.

        [31] 百度學(xué)術(shù)搜索[EB/OL].[2016-12-03].http: / /baike.baidu.com/view/5844732.htm?fromtitle=百度學(xué)術(shù) &type=syn.

        [32] Conyers A.Building on sand:Using statistical measures to assess the impact of electronic services[J].Performance Measurement and Metrics,2006,7(1):37-44.

        [33] 劉軍,金淑娜.Kaas知識即服務(wù):面向讀者需求的分層知識服務(wù)模型及實(shí)踐[J].情報科學(xué),2014(3):55-60.

        [34] 劉巍,祝忠明,張旺強(qiáng),等.基于機(jī)構(gòu)知識庫的知識分析及可視化功能實(shí)現(xiàn)[J].圖書與情報,2016(3):125-131.

        [35] Baker G,Read E J.Vendor-supplied usage data for electronic resources:A survey of academic libraries[J].Learned Publishing,2008,21(1):48-57.

        [36] 陳大慶,葉蘭,楊巍,等.電子資源使用統(tǒng)計平臺USSER的設(shè)計與實(shí)現(xiàn)[J].圖書情報工作,2015,59(1):106-112.

        作者簡介:胡文靜(1983-),女,蘭州大學(xué)圖書館館員,研究方向:信息資源管理。

        国产精品女同一区二区免费站| 国产香蕉尹人综合在线观| 国产国拍亚洲精品永久69| 黄页免费人成网址大全| 午夜少妇高潮在线观看| 亚洲精品久久久久久久久久吃药| 国产亚洲精久久久久久无码77777| 亚洲无码性爱视频在线观看| 免费观看在线视频播放| 欧美熟妇另类久久久久久多毛| 亚洲综合精品伊人久久| AV无码一区二区三区国产| 经典亚洲一区二区三区| 超碰国产精品久久国产精品99| 看全色黄大色大片免费久久| 91精品国产色综合久久不卡蜜 | 精品丝袜人妻久久久久久| 黑人一区二区三区在线| 二区视频在线免费观看| 久久天堂综合亚洲伊人hd妓女| 无码欧亚熟妇人妻AV在线外遇 | 91精品人妻一区二区三区久久久| 人妻少妇精品中文字幕av| 国产农村妇女毛片精品久久久| 国产精品久久中文字幕亚洲| 国产人成精品免费久久久| 欧美人与物videos另类| 久久免费视亚洲无码视频| 国产亚洲av一线观看| 麻豆网神马久久人鬼片| 久久亚洲av成人无码国产| 午夜一区二区三区在线视频| 亚洲av色图一区二区三区| 国产成人精品无码一区二区老年人 | 亚洲a∨无码一区二区| 国产人成视频免费在线观看| 精品国内日本一区二区| 和外国人做人爱视频| 亚洲专区路线一路线二天美| av中文字幕在线直播| 秘书边打电话边被躁bd视频|