張計龍,殷沈琴,汪東偉(復(fù)旦大學圖書館)
基于COUNTER的電子資源使用統(tǒng)計中的標準問題探討與研究
張計龍,殷沈琴,汪東偉(復(fù)旦大學圖書館)
針對當前電子資源使用統(tǒng)計中普遍存在的標準不一,統(tǒng)計數(shù)據(jù)不全,無法進行電子資源橫向比較的問題,提出基于COUNTER規(guī)范和網(wǎng)絡(luò)底層技術(shù),從圖書館端進行電子資源使用統(tǒng)計的創(chuàng)新解決思路。以復(fù)旦大學圖書館為例,對電子資源使用統(tǒng)計中的COUNTER標準實施問題進行分析探討并給出了實證,對COUNTER規(guī)范提出改進建議,具有推廣應(yīng)用價值。
電子資源;使用統(tǒng)計;COUNTER;ERU;SUSHI
在泛在知識整體背景環(huán)境下,人們越來越多的依賴于更加容易獲取和利用的各類電子資源。圖書館近年來為適應(yīng)這種新的需求,逐步加大了電子資源的采訪力度。以復(fù)旦大學為例,2010年電子資源采購經(jīng)費為1131.03萬元,占文獻資源總采購經(jīng)費的38%;[1]2011年電子資源采購經(jīng)費為1057.28萬元,占文獻資源總采購經(jīng)費的30%以上;[2]2012年電子資源采購經(jīng)費為1565.17萬元,[3]占文獻資源總采購經(jīng)費的35%以上;而根據(jù)目前初步的統(tǒng)計,2013年電子資源采購經(jīng)費達到2149.86萬,占當年文獻資源采購總經(jīng)費的42%。根據(jù)北美研究型圖書館協(xié)會ARL的統(tǒng)計數(shù)據(jù),2007~2008年其成員館在數(shù)字資源上的開支平均達565余萬美元,占總開支的51%。[4]因此,圖書館對種類繁多的各類電子資源數(shù)據(jù)庫必須進行有效的使用統(tǒng)計,評價分析電子資源的使用效益,進一步優(yōu)化資源布局和采訪經(jīng)費投入比例。
在復(fù)雜網(wǎng)絡(luò)環(huán)境下,由于各個不同的數(shù)據(jù)庫廠商的網(wǎng)絡(luò)平臺存在應(yīng)用服務(wù)器和底層數(shù)據(jù)庫結(jié)構(gòu)的異構(gòu),不同的數(shù)據(jù)庫廠商或數(shù)據(jù)庫平臺提供的使用統(tǒng)計數(shù)據(jù)格式各異,標準不一,差別很大,導(dǎo)致圖書館無法對所購電子資源進行有效的橫向統(tǒng)計分析,難以真實、有效評價不同電子資源的利用效益。因此,亟需在統(tǒng)計數(shù)據(jù)標準規(guī)范和實施操作層面研究、制定能被數(shù)據(jù)庫廠商和圖書館接受的、可行的方法。
國外的研究機構(gòu)和學者很早就開展了電子資源使用統(tǒng)計方法和標準規(guī)范的研究和實踐。圖書館共同體國際聯(lián)盟(ICOLC)1998年發(fā)布基于網(wǎng)絡(luò)的信息資源使用統(tǒng)計指南,2001年發(fā)布修訂版,對使用統(tǒng)計數(shù)據(jù)收集、報告格式、數(shù)據(jù)保密性、訪問統(tǒng)計數(shù)據(jù)權(quán)限和數(shù)據(jù)傳遞方式提出明確要求。[5]1974年的圖書館統(tǒng)計數(shù)據(jù)標準ISO2789(Information and Documentation-In ternationalLibrary Statistics)在2003年的修訂版中給出了電子資源及服務(wù)的測量方法和評價指標。[6]其中影響最大、應(yīng)用最為廣泛的當屬2002年的COUNTER(Counter Online Usage of Networked Electronic Resources)項目,COUNTER提供了一個可擴展的、國際化的電子資源使用統(tǒng)計實施規(guī)范,使得利用數(shù)據(jù)商所提供的使用數(shù)據(jù),進行可靠、一致的網(wǎng)絡(luò)信息產(chǎn)品與服務(wù)評價成為可能。[7]SUSHI是一個ANSI/NISO標準,是一個能自動收割符合COUNTER標準的電子資源使用統(tǒng)計數(shù)據(jù)的協(xié)議。[8]COUNTER R4標準中數(shù)據(jù)商被要求成為COUNTER規(guī)范遵循者的同時必須遵守SUSHI。基于COUNTER規(guī)范的重要性和廣泛應(yīng)用,本文相關(guān)討論將以COUNTER R4規(guī)范為例。
國內(nèi)相關(guān)研究始于20世紀末,2002年肖瓏等論述了電子資源評價指標體系的建立方法及其主要內(nèi)容,并對北京大學電子資源的利用率、使用價值與成本進行了分析評價。[9]索傳軍認為解決數(shù)據(jù)的規(guī)范化和可獲取性的問題是電子資源使用統(tǒng)計領(lǐng)域的重點,而獲取深層次數(shù)據(jù)的方法和數(shù)據(jù)管理工具的開發(fā)則是研究難點。[5]陳大慶研究了ERMI(Electronic Resources Management Initiative)數(shù)據(jù)元素與電子資源管理標準的對應(yīng)情況,提出建立動態(tài)的標準維護機制和實現(xiàn)方法。[10]閆曉弟等針對當前大學圖書館網(wǎng)絡(luò)電子資源利用與統(tǒng)計存在的統(tǒng)計標準和計量方法的問題以及數(shù)據(jù)的真實性問題,提出建立“電子資源訪問網(wǎng)關(guān)系統(tǒng)”,來實現(xiàn)網(wǎng)絡(luò)電子資源利用與統(tǒng)計的方案。[11]
在數(shù)據(jù)收集方法上,目前國內(nèi)外比較主流的方法主要包括:本地日志分析和從數(shù)據(jù)商獲取數(shù)據(jù)。索傳軍研究介紹了日志分析的基本原理,分析了能從中獲取的數(shù)據(jù)和它的局限性,包括只能獲取一些最基本的服務(wù)器訪問日志,對日志的分析不深入,對數(shù)據(jù)挖掘的研究更少,不能獲取深層次的使用數(shù)據(jù)。因此,圖書館更多的是依靠數(shù)據(jù)商來獲取詳細的使用數(shù)據(jù),但這些數(shù)據(jù)存在不真實、不完整、不及時的問題。[5]沈鶴林提出通過網(wǎng)絡(luò)交換機取得電子資源訪問的源IP、目的IP和訪問URL信息的解決方案,保證了不同電子數(shù)據(jù)庫的使用數(shù)據(jù)信息的可比性,解決了數(shù)據(jù)的統(tǒng)一性問題的數(shù)據(jù)獲取方案。[12]閆曉弟在西安交通大學的電子資源使用統(tǒng)計和流量監(jiān)控平臺的設(shè)計實現(xiàn)上也采取了類似的技術(shù)路線。[11]
綜上,在電子資源使用統(tǒng)計標準上目前得到普遍認同和應(yīng)用的主要是COUNTER標準;在電子資源使用統(tǒng)計數(shù)據(jù)采集方法上目前主要有本地網(wǎng)絡(luò)日志分析和服務(wù)器端數(shù)據(jù)商獲取兩種方法,分別存在日志文件數(shù)據(jù)過于簡單,無法真實還原讀者信息行為,統(tǒng)計數(shù)據(jù)完整問題和僅從服務(wù)器端的數(shù)據(jù)商處獲得數(shù)據(jù)格式不統(tǒng)一,無法橫向比較問題。故目前尚沒有比較統(tǒng)一、完整的解決方案。
本文基于COUNTER最新標準,采用在用戶端部署的基于網(wǎng)絡(luò)底層技術(shù)的電子資源使用數(shù)據(jù)收集系統(tǒng)(Electric Resourse Utilities,簡稱ERU),彌補了目前基于本地日志或者基于網(wǎng)絡(luò)交換機流量數(shù)據(jù)技術(shù)路線存在的收集數(shù)據(jù)過于簡單,只能采集到簡單的“網(wǎng)絡(luò)流量級”的日志記錄數(shù)據(jù),難以真實、準確反映用戶行為,無法完全遵循COUNTER規(guī)范的問題。同時,ERU系統(tǒng)能完全、真實的仿真讀者在電子資源服務(wù)平臺上的所有行為,實現(xiàn)訪問行為數(shù)據(jù)“內(nèi)容級”的采集,可以做到完全符合COUNTER R4的實施規(guī)范,且不同于電子資源廠商在服務(wù)端實施COUNTER R4規(guī)范,從用戶端獲取的符合COUNTER R4數(shù)據(jù)可以更加真實、有效反映實際利用情況,從根本上解決不同數(shù)據(jù)庫廠商在服務(wù)端實施COUNTER規(guī)范必須面臨的在應(yīng)用層面和數(shù)據(jù)庫設(shè)計層面的各種異構(gòu)問題,有效避免諸如搜索引擎網(wǎng)絡(luò)爬蟲等無效訪問造成的統(tǒng)計不準確等難題。
本文將通過討論復(fù)旦大學圖書館在實施遵循COUNTER R4規(guī)范的電子資源使用數(shù)據(jù)統(tǒng)計過程中發(fā)現(xiàn)的、且無法用前述文獻中提到的實施方案解決的一些問題,包括統(tǒng)計口徑、服務(wù)可達性、數(shù)據(jù)處理等,研究探討通過ERU系統(tǒng)進行解決。同時針對發(fā)現(xiàn)的COUNTER R4規(guī)范中存在的規(guī)定不清和空白問題提出改進建議,供今后COUNTER新版升級中予以改進。
3.1 COUNTER研究項目
網(wǎng)絡(luò)電子資源在線使用統(tǒng)計(COUNTER)提出了電子期刊、電子書、數(shù)據(jù)庫和多媒體資源的使用統(tǒng)計報告應(yīng)遵循的標準規(guī)范。COUNTER項目組在2002年12月發(fā)布了《COUNTER期刊和數(shù)據(jù)庫實施規(guī)范》(第一版)(Release 1 of the COUNTER Code of Practice for Journalsand Databases),并在之后較短時間內(nèi)得到了廣泛的應(yīng)用。針對圖書館界對電子圖書使用統(tǒng)計報告的需求,該項目組于2006年3月發(fā)布了《COUNTER圖書與參考工具書實施規(guī)范》(第一版)。[13]2012年4月,COUNTER第四版——《COUNTER電子資源使用統(tǒng)計實施規(guī)范》[14]頒布。第四版是一個綜合的實施規(guī)范,涉及圖書、數(shù)據(jù)庫、期刊、工具書以及多媒體資源。它取代了《COUNTER期刊和數(shù)據(jù)庫實施規(guī)范》(第三版)[15]及《COUNTER圖書和參考工具書實施規(guī)范》(第一版)。2013年12月31日后,只有符合COUNTER第四版的供應(yīng)商,或符合《COUNTER期刊和數(shù)據(jù)庫實施規(guī)范》(第三版)及《COUNTER圖書和參考工具書實施規(guī)范》(第一版)的供應(yīng)商將被視為是遵循COUNTER的。從2014年1月到8月期間聲明遵循COUNTER R4的數(shù)據(jù)庫供應(yīng)商已達61家,[16]基本涵蓋了國際上最主要的數(shù)據(jù)庫供應(yīng)商。
3.2 ERU研究項目
ERU研究項目全稱是電子資源使用統(tǒng)計分析,由復(fù)旦大學在2011年發(fā)起。主要目的是解決不同數(shù)據(jù)庫廠商的數(shù)據(jù)庫平臺的應(yīng)用異構(gòu)和數(shù)據(jù)庫設(shè)計異構(gòu)問題,采用基于數(shù)據(jù)流建模技術(shù)對網(wǎng)絡(luò)底層傳輸?shù)碾娮淤Y源數(shù)據(jù)包的實時采集和重新封裝進行建模,從而完全仿真用戶的信息使用行為,彌補傳統(tǒng)服務(wù)器日志分析數(shù)據(jù)很難獲取和數(shù)據(jù)不完整問題。以及類似SUSHI協(xié)議需要數(shù)據(jù)庫廠商支持和對網(wǎng)絡(luò)爬蟲數(shù)據(jù)清洗困難的不足,實現(xiàn)完全不依賴于任何第三方的適用各種異構(gòu)電子資源使用數(shù)據(jù)的統(tǒng)一采集和統(tǒng)一統(tǒng)計分析,其對電子資源使用統(tǒng)計數(shù)據(jù)采集區(qū)別于已有的任何一種基于網(wǎng)絡(luò)流量或服務(wù)器日志分析技術(shù),可對用戶WEB訪問頁面進行仿真建模分析,實現(xiàn)基于“訪問內(nèi)容級”的統(tǒng)計分析和建模。
3.2.1 ERU系統(tǒng)部署設(shè)計
ERU系統(tǒng)部署圖如圖1所示。采集網(wǎng)探通過旁路方式連接到有讀者訪問的各種電子資源數(shù)據(jù)庫的網(wǎng)絡(luò)出口核心交換機上,對核心交換機的底層網(wǎng)絡(luò)通信進行全面采集。采集控制臺和采集數(shù)據(jù)庫通過IP過濾獲得相應(yīng)的訪問數(shù)據(jù)。解析器對圖書館購買的所有電子資源數(shù)據(jù)庫的檢索(單庫和跨庫)、瀏覽和下載行為的HTML數(shù)據(jù)進行解析還原,生產(chǎn)用戶訪問日志記錄。WEB展現(xiàn)平臺按照COUNTER規(guī)范生成使用統(tǒng)計報表,并提供學科分析應(yīng)用。
3.2.2 ERU采集流程
按照修改后的《指南》規(guī)定,上述權(quán)利要求1—4在撰寫形式上都是允許的。當然,這里僅僅給出了簡單的列舉。專利申請人還可以根據(jù)該輔助診斷方案的具體存在形態(tài),采用其他的主題名稱和撰寫形式來尋求專利保護。
ERU的數(shù)據(jù)采集過程主要包括以下流程:網(wǎng)絡(luò)底層采集、數(shù)據(jù)建模處理、頁面解析建模、數(shù)據(jù)規(guī)范入庫。網(wǎng)絡(luò)采集是基于核心交換機的鏡像端口,通過配置需要采集的數(shù)據(jù)庫的IP地址和URL,過濾無關(guān)的背景網(wǎng)絡(luò)流量數(shù)據(jù),對原始的電子資源訪問數(shù)據(jù)進行實時采集,然后進行數(shù)據(jù)包重新組裝拼接,形成原始HTML數(shù)據(jù)文件;數(shù)據(jù)建模處理階段是對采集到的原始HTML數(shù)據(jù)文件進行協(xié)議分析,運用特征分析技術(shù)從URL鏈接中抽取特征值進行數(shù)據(jù)流上數(shù)據(jù)建模,從而僅保留有效地網(wǎng)頁;頁面解析建模階段則根據(jù)不同數(shù)據(jù)庫頁面信息配置不同的解析模板,實現(xiàn)對前述采集的有效網(wǎng)頁內(nèi)容進一步建模,結(jié)合傳統(tǒng)交換機日志信息,僅保留如源IP、目的IP、Session會話、訪問時間、題名、主題、描述、主要責任者、標識符、語種、發(fā)表日期等必需字段,最后根據(jù)不同文獻類型所需的元數(shù)據(jù)模板,實現(xiàn)數(shù)據(jù)規(guī)范入庫。詳細的實現(xiàn)過程在參考文獻中有具體論述,[17]此處不再贅述。
3.2.3 ERU實施效果
圖1 ERU系統(tǒng)部署圖
在2012年9月至2014年4月期間,通過ERU采集到讀者訪問復(fù)旦圖書館電子資源行為數(shù)據(jù)已達90GB,數(shù)據(jù)庫存儲記錄條數(shù)6,080,896條。采集的字段包括:讀者IP、訪問時間、會話ID、檢索式、讀者所在校區(qū)、歸屬平臺、歸屬網(wǎng)站、歸屬數(shù)據(jù)庫,還包括讀者詳細瀏覽、下載資源的詳細信息,包括文章的題名、摘 要、刊物名稱、作者、關(guān)鍵字、刊物年卷期等。這些來自復(fù)旦大學用戶的對270余個數(shù)據(jù)庫的訪問統(tǒng)計數(shù)據(jù)加上數(shù)據(jù)庫商提供的使用統(tǒng)計數(shù)據(jù),為發(fā)現(xiàn)COUNTER R4規(guī)范實施中普遍存在的標準問題提供了數(shù)據(jù)支撐。
通過采集不同數(shù)據(jù)庫的用戶使用數(shù)據(jù)和從數(shù)據(jù)庫廠商后臺提供的按月使用統(tǒng)計數(shù)據(jù)進行比對分析,重點找出統(tǒng)計數(shù)據(jù)差異比較大的信息行為數(shù)據(jù),可發(fā)現(xiàn)在數(shù)據(jù)庫廠商聲明已經(jīng)遵守COUNTER R4標準的情況下。由于不同數(shù)據(jù)庫商提供的應(yīng)用界面操作功能差異較大,部分行為難以按照COUNTER R4規(guī)范要求準確歸類,按照前述文獻中已有的解決方案,在實際操作層面仍然存在諸多問題而無法有效解決。本文主要對常見的讀者檢索、瀏覽和下載行為的COUNTER規(guī)范實施問題進行探討,并基于ERU平臺技術(shù)給出有效的解決方法。
4.1 檢索行為
COUNTER R4實施規(guī)范附錄A:術(shù)語表中對標準的檢索行為定義為:用戶驅(qū)動的智能查詢,通常表現(xiàn)為提交檢索表單給服務(wù)器獲取在線服務(wù)。[18]因此,可以理解標準的檢索行為一般為在數(shù)據(jù)庫檢索頁面輸入檢索條件,然后點擊“檢索”、“搜索”或“高級檢索”等按鈕,數(shù)據(jù)庫服務(wù)器會根據(jù)輸入的檢索請求而返回檢索結(jié)果,這樣就形成一個完整的檢索行為,由于標準檢索頁面比較簡單,此處不做過多分析。下面結(jié)合常用的中國知網(wǎng)為例進行相關(guān)闡述。
在COUNTER R4規(guī)范中對初步檢索結(jié)果進行上述篩選、排序、改變顯示順序、翻頁和結(jié)果中檢索行為沒有相應(yīng)的定義,這些行為中全部或者部分是否應(yīng)該納入相應(yīng)檢索統(tǒng)計計數(shù)無法確定。由于ERU采取的技術(shù)可以完整捕捉到這些行為,通過數(shù)據(jù)比對,可以發(fā)現(xiàn)在實際應(yīng)用中不同的數(shù)據(jù)庫廠商對此定義亦大不相同。此種問題包括外文數(shù)據(jù)庫在內(nèi)的絕大部分電子資源中均廣泛存在。尤其對于“結(jié)果中檢索”行為是否應(yīng)該納入檢索計數(shù)統(tǒng)計更是很難判斷。ERU系統(tǒng)通過分析,統(tǒng)一采取對初次有檢索詞的檢索和在結(jié)果中檢索(此處也有用戶鍵入檢索詞行為)計為有效檢索,其他類似行為均不計入統(tǒng)計數(shù)據(jù)的方法。
此外,對ERU采集到的用戶不完整訪問行為數(shù)據(jù)進行分析,發(fā)現(xiàn)在用戶發(fā)起檢索請求后,由于互聯(lián)網(wǎng)傳輸以及可能的服務(wù)器響應(yīng)超時等因素,用戶端所接受到的檢索返回結(jié)果出現(xiàn)異常,包括以下三種情況。
(1)檢索結(jié)果未顯示完整,原因是數(shù)據(jù)庫所在服務(wù)器處理故障,造成后臺會話不完整,返回給用戶端部分結(jié)果數(shù)據(jù)。
(2)在用戶已經(jīng)發(fā)出檢索請求,數(shù)據(jù)庫所在服務(wù)器端也已經(jīng)開始返回結(jié)果,但此時檢索請求被用戶自行取消,導(dǎo)致最終用戶端結(jié)果數(shù)據(jù)不完整或沒有收到檢索結(jié)果數(shù)據(jù)。
(3)用戶在短時間內(nèi)不停的使用F5鍵或刷新頁面功能多次刷新頁面,造成后臺重復(fù)發(fā)出檢索請求。
針對上述三種檢索行為,COUNTER R4規(guī)范中規(guī)定對10秒內(nèi)的重復(fù)點擊/刷新頁面不重復(fù)計數(shù)。但對于檢索行為是否應(yīng)該以服務(wù)器端響應(yīng)為準還是以用戶端實際接受到完整結(jié)果為準未給出明確定義。在實踐中,由于技術(shù)限制,電子資源廠商目前的技術(shù)手段無法發(fā)現(xiàn)這些問題,因而采取的基本是以服務(wù)器端接受到請求開始進行統(tǒng)計,而不考慮用戶是否成功接受到數(shù)據(jù)。由于ERU平臺可以采集到用戶請求開始時間、請求結(jié)束時間、服務(wù)器響應(yīng)開始時間、服務(wù)器響應(yīng)結(jié)束時間等所有處理環(huán)節(jié)的時間點,可以實現(xiàn)根據(jù)用戶實際是否接受到完整結(jié)果為依據(jù)進行統(tǒng)計,可以做到不受這些問題的影響。此外,從公平交易角度,本文亦認為應(yīng)該以最終用戶接受到結(jié)果數(shù)據(jù)為統(tǒng)計依據(jù),對于未能成功滿足用戶需求的請求不應(yīng)計算在內(nèi)。
另外,在COUNTER R4實施規(guī)范中對數(shù)據(jù)庫使用報告1(Database Report 1,簡稱DR1)定義為:每月、每種數(shù)據(jù)庫的總檢索量、結(jié)果點擊量(Result Clicks)和記錄瀏覽量(Record Views)。DR1要求將常規(guī)檢索(Regular Searches)與來自集成搜索引擎(federated search engines)和自動搜索代理(automated search agents)的檢索分開統(tǒng)計,分別計入DR1中的常規(guī)檢索(Regular Searches)和聯(lián)邦自動檢索(Searches-federated and automated),見圖2。
圖2 COUNTER R4檢索統(tǒng)計報表DR1樣例
因此,為了數(shù)據(jù)庫供應(yīng)商能分辨出哪些檢索來自集成搜索引擎和自動搜索代理,COUNTER R4在附錄I和附錄J中分別給出了當前已知的集成和自動搜索引擎列表以及網(wǎng)絡(luò)機器人、網(wǎng)絡(luò)爬蟲、網(wǎng)頁爬蟲等列表,[7]并要求數(shù)據(jù)庫供應(yīng)商及時更新。這在實際操作中無疑會有遺漏和更新不及時問題,造成統(tǒng)計數(shù)據(jù)不準確。基于圖書館端部署ERU系統(tǒng)的技術(shù)路線完全不存在此類問題,大大提升了統(tǒng)計數(shù)據(jù)的準確性。
4.2 瀏覽行為
用戶在返回的檢索結(jié)果中點擊某一條記錄,頁面跳轉(zhuǎn)到該記錄的詳細信息頁面,完成一個標準的瀏覽行為,即完整的瀏覽行為包括用戶請求的發(fā)送和服務(wù)器返回完整的結(jié)果。有些數(shù)據(jù)庫在返回頁面中,可以選擇點擊展開或者切換頁面,此時相當于后臺發(fā)起一個新的瀏覽頁面請求。針對這種情況,COUNTER R4規(guī)范在附錄A中定義記錄瀏覽(Record view)和結(jié)果點擊(Result click)兩種行為進行描述。記錄瀏覽(Record view)是一個對數(shù)據(jù)庫記錄的成功請求,來源于一個檢索結(jié)果集,或瀏覽數(shù)據(jù)庫,或?qū)α硪粭l數(shù)據(jù)庫記錄的點擊(只計算完整的數(shù)據(jù)庫記錄,不包括對記錄的預(yù)覽)。結(jié)果點擊(Result click)定義為源于對一個檢索結(jié)果集的點擊,類同對一條檢索結(jié)果的點擊。[16]但是其定義無法套用到本例中一條記錄被多次點擊瀏覽的情況。本文認為因為是對同一條記錄的瀏覽,只是對頁面信息量的顯示數(shù)量進行了個性化設(shè)置,其本質(zhì)上仍然為對同一條記錄的瀏覽行為,故此時的瀏覽頁面的切換統(tǒng)計只統(tǒng)計為一次瀏覽行為。此外,對異常的瀏覽返回結(jié)果情況,包括瀏覽結(jié)果未能完整顯示、瀏覽行為被用戶中途取消和用戶短時間內(nèi)多次刷新瀏覽頁面等,問題基本類同4.1中對檢索行為的服務(wù)可達性的分析,此處不再贅述。
4.3 下載行為
電子資源的付費模式大部分和下載數(shù)有著密切的關(guān)系,因此對于下載數(shù)量的統(tǒng)計尤為重要。COUNTER R4中對情況比較復(fù)雜的電子書全文下載統(tǒng)計給出了相對明確的定義,包括在線HTML格式中已經(jīng)劃分章節(jié)的圖書全文下載瀏覽只記錄第一次對某個章節(jié)的閱讀數(shù),對后續(xù)其他章節(jié)的瀏覽閱讀不再重復(fù)計數(shù)等。但在實踐操作中,仍存在以下問題。
(1)統(tǒng)計口徑問題。數(shù)據(jù)庫服務(wù)器將接收到的下載請求跳轉(zhuǎn)到其他網(wǎng)站/服務(wù)器,由其他服務(wù)器進行文件的傳送,文件也可能被分為多次傳送。例如用戶在A平臺點擊下載,實際上下載行為發(fā)生在B平臺,此時A平臺為書目型數(shù)據(jù)庫,下載行為的統(tǒng)計口徑應(yīng)該歸屬到那一個平臺,這是目前新的網(wǎng)絡(luò)環(huán)境下出現(xiàn)的新問題,在目前最新版本的COUNTER R4中未給出明確定義。依據(jù)資源所在位置原則,本文建議按照實際下載行為發(fā)生地為統(tǒng)計歸屬地。
(2)服務(wù)可達性問題。由于下載文件往往需要傳輸較大的數(shù)據(jù),對網(wǎng)絡(luò)的要求比較高,由數(shù)據(jù)庫服務(wù)器處理能力和網(wǎng)絡(luò)速度影響而導(dǎo)致異常的返回結(jié)果相對更多,包括:①下載已經(jīng)開始但無法確定下載完成時間,服務(wù)器后臺由于超時而導(dǎo)致會話不完整的情況;②用戶看到下載對話框彈出后,點擊取消下載,此時服務(wù)器端已經(jīng)返回接受下載請求成功信息,并準備開始傳送文件的情況;③用戶點擊下載鏈接后,系統(tǒng)提示需要登錄或者提示訪問被拒絕;④用戶不斷刷新下載頁面而導(dǎo)致短時間內(nèi)發(fā)出多個下載請求。COUNTER R4中對拒絕訪問有單獨的統(tǒng)計要求,對于30秒內(nèi)的重復(fù)下載行為僅僅記錄一次,不重復(fù)計數(shù)。但是對于服務(wù)器端會話不完整和用戶自行點擊取消下載未給出明確定義,這也是導(dǎo)致下載統(tǒng)計數(shù)據(jù)不準確的重要因素之一。本文基于ERU技術(shù),建議應(yīng)采取用戶端是否真實下載成功為統(tǒng)計依據(jù),以準確反映用戶實際行為。
[1]復(fù)旦大學圖書館.2010年度圖書館經(jīng)費使用情況[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/1576.htm.
[2]復(fù)旦大學圖書館.2011年度圖書館經(jīng)費使用情況[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/1577.htm.
[3]復(fù)旦大學圖書館.2012年度圖書館經(jīng)費使用情況[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/3291.htm.
[4]劉蔚,王長宇.ISO2789、NISO Z39.7和E-METRICS數(shù)字資源評價標準比較[J].圖書館學刊2010(8):102-103.
[5]索傳軍,王建朋.國外電子資源在線使用統(tǒng)計研究述評[J].圖書館,2006(6):43-46.
[6]ISO.Information and Documentation-International Library Statistics[S].ISO2789:2003(E).
[7]COUNTER.CodeofPractice[EB/OL].[2014-08-28].http://www.projectcounter.org/code_practice.htm l.
[8]NISO.Standardized Usage Statistics Harvesting Initiative(SUSHI)[EB/OL].[2014-08-28].http://www.niso.org/workrooms/sushi.
[9]肖瓏,張宇紅.電子資源評價指標體系的建立初探[J].大學圖書館學報,2002(03):35-42
[10]陳大慶.電子資源管理標準述評[J].圖書情報工作,2013(3):125-130.
[11]閆曉弟,等.電子資源利用統(tǒng)計網(wǎng)關(guān)系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2008(8): 97-100.
[12]沈鶴林.學術(shù)全文電子資源使用統(tǒng)計分析研究[D].上海:上海交通大學,2011.
[13]COUNTER.Release 1 ofthe COUNTERCode ofPractice for Booksand Reference Works[EB/OL].[2014-08-29].http://www.projectcounter.org/cop/books/ cop_books_ref.pdf.
[14]COUNTER.Release 4 ofthe COUNTERCode ofPractice for e-Resources[EB/OL].[2014-08-29]. http://www.projectcounter.org/r4/COPR4.pdf.
[15]COUNTER.Release 3 ofthe COUNTERCode ofPracticeforJournalsand Databases[EB/OL].[2014-08-29].http://www.projectcounter.org/r3/r3_intro.pdf.
[16]COUNTER.CompliantVendors[EB/OL].[2014-08-29].http://www.projectcounter.org/compliantvendors.html.
[17]張計龍,等.基于ERU的圖書館用戶信息行為數(shù)據(jù)采集方法研究——以復(fù)旦大學圖書館為例[J].圖書館雜志,2014(12):10-16.
[18]COUNTER.Appendix A(Glossary of Terms)[EB/ OL].[2014-08-29].http://www.projectcounter.org/ r4/APPA.pdf.
Discussion and Research on the Practice Issues in the Standard for the Electric Resourse Usage Statistics Based on COUNTER
Zhang Ji-long,Yin Shen-qin,Wang Dong-wei
The article proposes the solution for the electric resources usage statistics based on the COUNTER and the underlying technology ofnetwork to resolve the issues that the statistics standards for the electric resources usage are widely incompatible and it is difficult to compare them with different e-resources.With a case study of Fudan university library,the practice issues of COUNTER,such as statistical caliber,service accessibility and data collection,are discussed.The method of the article can help other libraries to apply in practice and the result is helpful to improve the new version ofCOUNTER.
E-resource;Usage Statistics;COUNTER;ERU;SUSHI
G255.76
B
1005-8214(2016)05-0095-06
張計龍(1975-),男,復(fù)旦大學圖書館副研究館員,研究方向:數(shù)字圖書館、數(shù)據(jù)管理、教育信息化;殷沈琴(1977-)女,復(fù)旦大學圖書館副研究館員,研究方向:數(shù)字圖書館、數(shù)據(jù)管理;汪東偉(1986-)男,復(fù)旦大學圖書館館員,研究方向:數(shù)字圖書館、數(shù)據(jù)管理。
2015-11-03[責任編輯]邵晉蓉
本文系國家社科基金“泛在知識環(huán)境下圖書館知識發(fā)現(xiàn)技術(shù)與應(yīng)用研究”(項目編號:12CTQ006)研究成果之一。