李銘 翁淳光
[摘要]本文鑒于大數(shù)據(jù)時代機(jī)構(gòu)知識庫對于保存及共享科研成果,利用網(wǎng)絡(luò)實現(xiàn)自由傳播的重要意義,對我國內(nèi)地及港澳臺地區(qū)機(jī)構(gòu)知識庫網(wǎng)站的網(wǎng)絡(luò)影響力進(jìn)行指標(biāo)評價,除了應(yīng)用網(wǎng)絡(luò)影響力的多項基礎(chǔ)指標(biāo)外,還引入SEO分析。根據(jù)最終結(jié)果,本文運用TOPSIS法對網(wǎng)站進(jìn)行排名,并對內(nèi)地、臺灣及港澳地區(qū)的機(jī)構(gòu)知識庫進(jìn)行比較分析,找出內(nèi)地機(jī)構(gòu)知識庫現(xiàn)存的問題。本文建議要加大政府干預(yù)力度,改變重建設(shè)輕維護(hù)的現(xiàn)狀,重視SEO優(yōu)化,重視規(guī)范化與標(biāo)準(zhǔn)化建設(shè)機(jī)構(gòu)庫,盡快與國際接軌。
[關(guān)鍵詞]機(jī)構(gòu)知識庫;網(wǎng)絡(luò)影響力;SEO分析;評價
[中圖分類號]G250.74
[文獻(xiàn)標(biāo)識碼]A
[文章編號]1008-0821(2015)04-0017-05
機(jī)構(gòu)知識庫(Institutional Repository,IR)承擔(dān)著保存機(jī)構(gòu)知識資產(chǎn)和支持知識開放共享的重要職責(zé),是新型學(xué)術(shù)信息交流體系和教育科研知識基礎(chǔ)設(shè)施的有機(jī)組成部分,是機(jī)構(gòu)管理科研成果、傳播學(xué)術(shù)知識、支持社會科技創(chuàng)新的支撐性基礎(chǔ)設(shè)施。數(shù)字科研的迅速發(fā)展、數(shù)字知識內(nèi)容和科研成果的形態(tài)日益豐富、知識內(nèi)容的應(yīng)用形態(tài)和應(yīng)用方式日益活躍,科研機(jī)構(gòu)各個層級對IR的要求也越來越高,由此可見IR的質(zhì)量將直接影響我國的科技創(chuàng)新發(fā)展。
鑒于IR的網(wǎng)絡(luò)特性,因此對IR的網(wǎng)絡(luò)影響力進(jìn)行多指標(biāo)評價,既可以看出國內(nèi)IR質(zhì)量差異、結(jié)構(gòu)差異,也可以找出其存在的主要問題,有利于進(jìn)一步提高改進(jìn),與國際接軌。
1 網(wǎng)絡(luò)影響力綜合評價指標(biāo)的構(gòu)建
1.1網(wǎng)絡(luò)影響力指標(biāo)
網(wǎng)絡(luò)影響力是對網(wǎng)絡(luò)信息資源建設(shè)水平和綜合利用效率的客觀測度,評價的出發(fā)點通常是網(wǎng)絡(luò)信息資源間的鏈接關(guān)系或用戶訪問網(wǎng)絡(luò)信息資源的情況。我國著名的計量學(xué)專家邱均平教授對網(wǎng)絡(luò)影響力評價指標(biāo)使用了網(wǎng)站規(guī)模、外鏈數(shù)量、顯示度、內(nèi)容豐富度以及學(xué)術(shù)影響力,此外劉文云、黃賀方等對網(wǎng)絡(luò)影響力評價指標(biāo)也提出各自的見解,其具體指標(biāo)基本一致。
西班牙人文與社會科學(xué)研究中心網(wǎng)絡(luò)計量實驗室從2004年開始每年發(fā)布《世界大學(xué)網(wǎng)絡(luò)計量排名》,武漢大學(xué)中國科學(xué)評價研究中心從2008年起發(fā)布《中國重點大學(xué)網(wǎng)絡(luò)影響力排行榜》,這兩個排名也均包含了網(wǎng)站規(guī)模、外鏈數(shù)、文檔豐富度、學(xué)術(shù)文檔數(shù)、顯示度5個評價指標(biāo)。易程等在研究成果中顯示外鏈數(shù)、學(xué)術(shù)論文數(shù)與IR世界排名相關(guān)性比較強(qiáng),而文檔豐富度與世界排名呈現(xiàn)弱相關(guān)。鏈接效率為外鏈數(shù)/網(wǎng)站規(guī)模所取得的值,來源于外鏈的數(shù)量越多,其鏈接效率就越高,網(wǎng)站相對影響力就越大,而且鏈接效率與網(wǎng)絡(luò)影響因子存在顯著的線性正相關(guān)性,鏈接效率越高,網(wǎng)絡(luò)影響因子越大,其社會影響力就越大,因此鏈接效率是反映網(wǎng)站影響力大小的一個重要指標(biāo)。
SEO是搜索引擎優(yōu)化(Search Engine Optimization)的英文縮寫,是指通過采用易于搜索引擎索引的合理手段,使網(wǎng)站各項基本要素適合搜索引擎的檢索原則,并且對用戶更友好,從而更容易被搜索引擎收錄及優(yōu)先排序。據(jù)《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,84.5%的網(wǎng)絡(luò)用戶得知新的網(wǎng)站是依靠搜索引擎,58.2%的網(wǎng)絡(luò)用戶通過搜索引擎檢索所需信息,截止2014年6月,我國搜索引擎用戶規(guī)模達(dá)5.07億。所以網(wǎng)站如果想要提高自身網(wǎng)絡(luò)影響力就必須對自身進(jìn)行優(yōu)化,以便于搜索引擎索引,因此本次研究引入了SEO指標(biāo)。
1.2評價指標(biāo)體系形成
依據(jù)綜上所述,本研究將我國IR網(wǎng)絡(luò)影響力評價指標(biāo)確定為:目標(biāo)層與準(zhǔn)則層(見圖1)。目標(biāo)層的具體指標(biāo)為:可見度、認(rèn)可度、SEO分析。準(zhǔn)則層的具體指標(biāo)為:網(wǎng)站規(guī)模、文獻(xiàn)量、顯示度、外鏈數(shù)、網(wǎng)絡(luò)影響因子、鏈接效率、MozRank、Followed Linking Root Domains與Equity-Passing Links/Non-Equity-Passing。
2 數(shù)據(jù)來源及指標(biāo)說明
2.1數(shù)據(jù)來源與獲取時間
依據(jù)國際權(quán)威的開放存取知識庫名錄Open DOAR,點擊國家和機(jī)構(gòu)板塊,找到亞洲欄目下的中國(China)、香港(Hong Kong)、臺灣(Taiwan),共注冊有99個IR(其中內(nèi)地33個,香港7個,澳門1個,臺灣58個)。排除無法打開、網(wǎng)站規(guī)模過?。〝?shù)據(jù)量≤100)、Open Site Explorer抓取不到數(shù)據(jù)的網(wǎng)站32個,最終統(tǒng)計為67個(見表1)。
鑒于目前主流分析網(wǎng)絡(luò)影響力的搜索引擎,如Alltheweb、Altavista、Yahoo Site Exploere早已停用的問題,我們使用了測試工具集合的方式,即對于不同指標(biāo)采用不同測試工具。指標(biāo)數(shù)據(jù)收集時間為:2014年8月20~24日。
2.2指標(biāo)說明
2.2.1可見度
可見度包括網(wǎng)站規(guī)模、文獻(xiàn)量、顯示度。
網(wǎng)站規(guī)模:即搜索引擎索引到的該網(wǎng)站的網(wǎng)頁總數(shù)。采用百度、360搜索、搜狗、谷歌、必應(yīng)及雅虎,取其最大值。
文獻(xiàn)量:即IR擁有的文獻(xiàn)數(shù)量。從Open DOAR中獲取。
顯示度:即IR網(wǎng)站名稱在搜索引擎中的收錄數(shù)。鑒于Google在當(dāng)今全球的覆蓋面,故統(tǒng)一使用Google檢索其英文全稱。
2.2.2認(rèn)可度
認(rèn)可度包括外鏈數(shù)、網(wǎng)絡(luò)影響因子、鏈接效率。
外鏈數(shù):即IR域名被外部域名鏈接的次數(shù),是評價一個網(wǎng)站的核心指標(biāo),可衡量其網(wǎng)絡(luò)影響力。來源于Open Site Explorer。
網(wǎng)絡(luò)影響因子:即在指定時間,特定網(wǎng)絡(luò)對象的每個網(wǎng)頁平均被外部鏈接的次數(shù),WIF=外鏈/網(wǎng)站規(guī)模。
鏈接效率:指外鏈數(shù)/總鏈接數(shù),可客觀的表明網(wǎng)站鏈接來源的組成結(jié)構(gòu)。
2.2.3SEO分析
SEO分析的指標(biāo)包括MozRank、Followed Linking Root Domains、Equity-Passing Links/Non-Equity-Passing,均來源于Open Site Explorer。endprint
MozRank(簡稱“M”):通過抓取互聯(lián)網(wǎng)中的超鏈接的連接關(guān)系判定網(wǎng)站等級,滿分10分。影響分值的因素有外鏈數(shù)量和鏈接源(即鏈向這個網(wǎng)頁頁面的權(quán)重),分值越高說明該網(wǎng)站越重要,一般而言M≥7說明該網(wǎng)站SEO做得較好,網(wǎng)站質(zhì)量高。
Followed Linking Root Domains(簡稱“F”):即導(dǎo)入到這個域名的外部網(wǎng)站數(shù)量,外鏈?zhǔn)呛饬烤W(wǎng)站影響力的重要因素,這一指標(biāo)顯示向本站發(fā)出外鏈的網(wǎng)站數(shù)量,發(fā)出外鏈網(wǎng)站越多,影響力越大。
Equity-Passing Links/Non-Equity-Passing(簡稱“E”):即質(zhì)量鏈接占比,質(zhì)量鏈接是Open Site Explorer認(rèn)為擁有鏈接價值,能夠提升搜索引擎排名的鏈接,非質(zhì)量鏈接則相反。質(zhì)量鏈接占比=質(zhì)量鏈接/(質(zhì)量鏈接+非質(zhì)量鏈接)。
3 研究方法
本研究采用基于客觀評價的TOPSIS分析法,它是系統(tǒng)工程中有限方案多目標(biāo)決策的常見方法,是對基于歸一化后的數(shù)據(jù)矩陣分析,找出有限方案中的最優(yōu)方案和最劣方案,然后獲得某一方案與最優(yōu)方案和最劣方案的差距(用差的平方和的平方根表示),從而得出該方案與最優(yōu)方案的距離,并依此作為評價各方案優(yōu)劣的依據(jù)。
具體步驟如下:
(1)將網(wǎng)站規(guī)模、文獻(xiàn)量、顯示度等9項指標(biāo)從左至右構(gòu)成決策矩陣X;
(2)將矩陣X經(jīng)數(shù)據(jù)歸一后得到矩陣Z;
4 結(jié)果與分析
4.1IR總排序
將評價結(jié)果由高到低排序(見表3),顯然香港大學(xué)學(xué)術(shù)庫網(wǎng)絡(luò)影響力第一名,其文獻(xiàn)量達(dá)到14余萬條,外鏈數(shù)達(dá)到6934個,M值5.62,發(fā)出外鏈網(wǎng)站有357個,近2個月內(nèi)增加了9個外鏈(多數(shù)數(shù)據(jù)庫,特別是內(nèi)地的均是0)。說明香港大學(xué)的學(xué)術(shù)庫非常優(yōu)秀,因此其網(wǎng)站的影響力就很大。內(nèi)地的廈門大學(xué)學(xué)術(shù)典藏庫和清華大學(xué)IR建庫較早,得益于大學(xué)豐厚的學(xué)術(shù)沉淀,廈門大學(xué)學(xué)術(shù)典藏庫和清華大學(xué)IR在此次分別排名第9和第10名。
4.2IR地區(qū)分區(qū)情況
以17為間距,將67個IR分為4等分,得出內(nèi)地與港澳臺IR在4區(qū)中的數(shù)量分布(見表4)。第一區(qū)表示網(wǎng)站的網(wǎng)絡(luò)影響力各項評價指標(biāo)最優(yōu),第四區(qū)表示各項評價指標(biāo)最差。第一區(qū)的IR均為大學(xué),其中臺灣有14個,內(nèi)地2個,香港1個,這說明大學(xué)對于數(shù)字信息的需求與渴望。大學(xué)有豐富的數(shù)字資源、有形式多樣的數(shù)字創(chuàng)新成果,將這些資源整合共享,有利于社會創(chuàng)新與社會發(fā)展。因此臺灣從領(lǐng)導(dǎo)層開始重視IR的建設(shè),當(dāng)局政府將此作為重要工作交由大學(xué)圖書館執(zhí)行,無論在網(wǎng)站結(jié)構(gòu)建設(shè)、信息資源建設(shè)、服務(wù)器設(shè)備配置等方面都非常重視,并以臺灣大學(xué)為機(jī)構(gòu)典藏的營運范例,開發(fā)機(jī)構(gòu)典藏軟件,完備相關(guān)行政作業(yè)流程文件,標(biāo)準(zhǔn)規(guī)范,從而得到用戶的認(rèn)可,同時體現(xiàn)了網(wǎng)絡(luò)如何釋放大數(shù)據(jù)帶來的好處,并充分發(fā)揮其優(yōu)勢。
根據(jù)TOPSIS排序可見,IR的網(wǎng)絡(luò)影響力最大的是臺灣。臺灣在第一區(qū)和第二區(qū)占的比例最大,而內(nèi)地則有50%在第四區(qū),說明國內(nèi)各地區(qū)間在IR的建設(shè)中存在較大差異。臺灣IR充分利用了大學(xué)的各種資源優(yōu)勢,并由政府委托圖書館統(tǒng)一組織構(gòu)建,因此克服了由于學(xué)校規(guī)模、人力、財力不足等因素的干擾。《2014年全球信息技術(shù)報告》根據(jù)網(wǎng)絡(luò)就緒指數(shù)排名,顯示香港排名第8位,臺灣排名第14名,內(nèi)地排名第62位,這與本研究結(jié)果基本一致。
4.3內(nèi)地IR排序
內(nèi)地IR主要為兩大系統(tǒng),一是大學(xué);二是中科院。本研究中符合測試條件的大學(xué)系統(tǒng)有4個知識庫,中科院系統(tǒng)有16個知識庫。內(nèi)地IR在2011年呈現(xiàn)井噴式的發(fā)展,此后其數(shù)量也平穩(wěn)增長,但是根據(jù)表3顯示,大學(xué)系統(tǒng)知識庫在第一區(qū)有僅2個,第三第四區(qū)各1個。而中科院系統(tǒng)第一區(qū)未見,第四區(qū)卻有9個,看來內(nèi)地IR依然存在重建設(shè)輕維護(hù)的問題,網(wǎng)絡(luò)影響力總體有待提高。
4.4內(nèi)地IR發(fā)展
為推進(jìn)IR在內(nèi)地的發(fā)展,2012年成立了中國IR推進(jìn)組。但是目前尚有不少IR未在Open DOAR注冊,這說明內(nèi)地從國家政府層面和各大學(xué)、研究機(jī)構(gòu)的領(lǐng)導(dǎo)層面還沒有對IR的建設(shè)充分重視,因此對其如何規(guī)范化、制度化,標(biāo)準(zhǔn)化、政策化沒有相關(guān)政策支持,更難以與國際接軌。內(nèi)地如此多的大學(xué),但在Open DOAR注冊的IR只有5個(其中1個鏈接不上),臺灣卻有58個,香港有7個,內(nèi)地的情況與《2014年全球信息技術(shù)報告》顯示的排名也一致。
5 討論
5.1IR的可用性
國內(nèi)IR網(wǎng)站排除無法打開、規(guī)模太小以及Open Site Explorer抓取不到數(shù)據(jù)的網(wǎng)站后,內(nèi)地可評價的網(wǎng)站只占6l%,臺灣67%,而港澳卻是100%。這是否與網(wǎng)站的結(jié)構(gòu)、建設(shè)規(guī)范性、語言標(biāo)準(zhǔn)化有關(guān)。
5.2IR的可見度
IR的可見度直接影響其認(rèn)知度,因此必須重視機(jī)構(gòu)庫的網(wǎng)站建設(shè),擴(kuò)大網(wǎng)站規(guī)模,重視各種科學(xué)數(shù)據(jù)、音視頻資料、課件及社區(qū)檔案、計算機(jī)輔助軟件產(chǎn)生資料等非文本信息資源的收集。同時要重視和搜索引擎進(jìn)行良好的互動,注意內(nèi)容更新,不斷為網(wǎng)站建立有意義的鏈接,這些都會影響其網(wǎng)站的顯示度。
5.3內(nèi)地IR的認(rèn)可度
IR網(wǎng)站的網(wǎng)站規(guī)模和外鏈數(shù)直接影響其網(wǎng)絡(luò)影響因子,調(diào)查顯示網(wǎng)絡(luò)影響因子最高的是臺灣國立中央大學(xué)和真理大學(xué)機(jī)構(gòu)庫,分別為9.0814和0.0795;香港最高的嶺南大學(xué)機(jī)構(gòu)庫是0.03984;內(nèi)地最高的是中科院地理科學(xué)與資源研究所和北京大學(xué)的機(jī)構(gòu)庫,分別是0.0262和0.0167。由此可見內(nèi)地IR要提升自己的網(wǎng)站影響力必須提高網(wǎng)站技術(shù)支持的力度,重視網(wǎng)站維護(hù)。
5.4內(nèi)地IR的SEO分析
SEO分析工具是對網(wǎng)站質(zhì)量的優(yōu)化分析,其中M值是判斷網(wǎng)站質(zhì)量的指標(biāo),內(nèi)地的IR都在3~4之間,臺灣和港澳略高一點,最高的是臺灣的國立中央大學(xué)5.79,說明內(nèi)地的IR在網(wǎng)站質(zhì)量指標(biāo)上還有很大上升空間。F值的均數(shù)中內(nèi)地僅14.35,臺灣58.36,港澳93.5,差距之大,足以使內(nèi)地政府和機(jī)構(gòu)庫管理者深思。E值是質(zhì)量鏈接占比,這項指標(biāo)較好,區(qū)間差異也較小。
6 結(jié)論
(1)中國的大學(xué)應(yīng)利用自身豐富資源創(chuàng)建國際化學(xué)術(shù)環(huán)境,為學(xué)術(shù)社會網(wǎng)絡(luò)做貢獻(xiàn),因此大學(xué)IR不僅應(yīng)從數(shù)量上增加,而且要重視提高其網(wǎng)絡(luò)影響力。
(2)內(nèi)地IR與港澳臺相比有一定差距,其中的一個重要問題就是政府政策干預(yù)力度不夠,基層領(lǐng)導(dǎo)規(guī)范管理與國際接軌有差距,開放獲取與資源共享理念有障礙,阻礙了國內(nèi)的科技創(chuàng)新成果即時、無保留的公開、共享。
(3)國內(nèi)學(xué)術(shù)界對搜索引擎優(yōu)化的必要性和重要性認(rèn)識不夠,因此要增強(qiáng)SEO意識,更好地為讀者提供更優(yōu)質(zhì)的網(wǎng)絡(luò)服務(wù)是當(dāng)務(wù)之急。
(本文責(zé)任編輯:郭沫含)endprint