高祥永 董玉萍
(沈陽(yáng)工程學(xué)院圖書館,遼寧沈陽(yáng)110136)
基于鏈接分析法的農(nóng)業(yè)網(wǎng)站評(píng)價(jià)工具的選擇*——以遼寧省和山東省為例
高祥永董玉萍
(沈陽(yáng)工程學(xué)院圖書館,遼寧沈陽(yáng)110136)
我國(guó)的農(nóng)業(yè)信息化發(fā)展迅猛,農(nóng)業(yè)網(wǎng)站數(shù)量增幅明顯,農(nóng)業(yè)信息也越來越豐富,但農(nóng)業(yè)專業(yè)搜索引擎覆蓋率不高,不能很好地滿足農(nóng)業(yè)信息用戶的需求,阻礙了我國(guó)農(nóng)業(yè)信息化的進(jìn)一步發(fā)展。初選4種檢索工具對(duì)遼寧省和山東省政府、事業(yè)、企業(yè)龍頭等20個(gè)農(nóng)業(yè)網(wǎng)站樣本進(jìn)行鏈接分析和灰度關(guān)聯(lián)分析,并通過分析結(jié)果評(píng)價(jià)出目前最適合作為評(píng)價(jià)和利用農(nóng)業(yè)網(wǎng)站的檢索工具。
農(nóng)業(yè)網(wǎng)站鏈接分析灰度關(guān)聯(lián)分析搜索引擎評(píng)價(jià)
第四屆“全國(guó)農(nóng)業(yè)大數(shù)據(jù)農(nóng)業(yè)空間技術(shù)暨智慧農(nóng)業(yè)創(chuàng)新與發(fā)展交流研討會(huì)”于2015年4月17~19日在陜西西安召開。第二屆中國(guó)農(nóng)業(yè)展望大會(huì)于2015年4月20~21日在北京召開。在今年召開的兩會(huì)上,政府工作報(bào)告指出現(xiàn)代農(nóng)業(yè)、農(nóng)業(yè)電子商務(wù)等是未來政策扶持的重要方向。與此同時(shí),各地方政府也在大力扶持農(nóng)資巨頭以及互聯(lián)網(wǎng)巨頭進(jìn)行互聯(lián)網(wǎng)改造。而我國(guó)農(nóng)業(yè)互聯(lián)網(wǎng)發(fā)展并沒有像國(guó)外一樣先進(jìn)和完善;對(duì)農(nóng)業(yè)網(wǎng)站評(píng)估工具還沒有統(tǒng)一規(guī)范;各種檢索工具、搜索引擎并驅(qū)發(fā)展,搜索引擎不僅是網(wǎng)絡(luò)的導(dǎo)航者,也是網(wǎng)絡(luò)計(jì)量研究中最重要的數(shù)據(jù)收集工具之一。過去很多學(xué)者都運(yùn)用搜素引擎來收集數(shù)據(jù),他們運(yùn)用的搜索引擎包括Google、AllTheWeb、AltaVista等。但由于谷歌已經(jīng)在2010年退出中國(guó)大陸市場(chǎng),用它來做評(píng)價(jià)工具有一定的困難;All?TheWeb以及AltaVista分別在2011年4月4日和2013年7月8日關(guān)閉[1]。筆者采用最大的中文搜索引擎百度、搜狗、常用作鏈接分析工具的ChinaZ以及Alexa作為評(píng)定農(nóng)業(yè)網(wǎng)站的初選評(píng)價(jià)工具,并利用灰色關(guān)聯(lián)分析來驗(yàn)證初選工具。
1.1百度
百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文網(wǎng)站。2000年1月由李彥宏創(chuàng)立于北京中關(guān)村,致力于向人們提供“簡(jiǎn)單,可依賴”的信息獲取方式。用戶通過百度主頁(yè),可以迅速地找到相關(guān)的搜索結(jié)果,這些結(jié)果來自于百度超過數(shù)百億的中文網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。如今,百度已經(jīng)成為大多數(shù)中國(guó)人首選的網(wǎng)絡(luò)搜索引擎[2]。
1.2搜狗
搜狗是搜狐公司的旗下子公司,于2004年8月3日推出,目的是增強(qiáng)搜狐網(wǎng)的搜索技能,主要經(jīng)營(yíng)搜狐公司的搜索業(yè)務(wù)。2010年8月9日搜狐與阿里巴巴宣布將分拆搜狗成立獨(dú)立公司,引入戰(zhàn)略投資,注資后的搜狗有望成為僅次于百度的中文搜索工具[3]。
1.3ChinaZ
ChinaZ是“站長(zhǎng)之家”的簡(jiǎn)稱,“站長(zhǎng)之家”是國(guó)內(nèi)知名的站長(zhǎng)類網(wǎng)站,創(chuàng)建于2002年3月,是一家專門針對(duì)中文站點(diǎn)提供資訊、技術(shù)、資源、服務(wù)的網(wǎng)站。網(wǎng)站用戶104萬(wàn)余人,擁有專業(yè)的行業(yè)資訊頻道、國(guó)內(nèi)權(quán)威建站源碼下載中心、站長(zhǎng)聚集的交流社區(qū)以及強(qiáng)大建站素材庫(kù),Alexa世界排名為第96位[4]。ChinaZ提供的數(shù)據(jù)主要有外鏈接數(shù)和Google PR輸出值[5]。
1.4Alexa
Alexa Internet是亞馬遜公司的一家子公司,總部位于加利福尼亞州舊金山。于1996年由布魯斯特·卡利(Brewster Kahle)及布魯斯·吉里亞特(Bruce Gilliat)成立,作為Internet Archive的分支,受到杰奎琳·薩福拉的埃托勒投資支持。Al?exa是一家專門發(fā)布網(wǎng)站世界排名的網(wǎng)站。以搜索引擎起家的Alexa創(chuàng)建于1996年4月(美國(guó)),目的是讓互聯(lián)網(wǎng)網(wǎng)友在分享虛擬世界資源的同時(shí),更多地參與互聯(lián)網(wǎng)資源的組織。
Alexa每天在網(wǎng)上搜集超過1000GB的信息,不僅給出多達(dá)幾十億的網(wǎng)址鏈接,而且為其中的每一個(gè)網(wǎng)站進(jìn)行了排名??梢哉f,Alexa是當(dāng)前擁有URL數(shù)量最龐大、排名信息發(fā)布最詳盡的網(wǎng)站。Alexa免費(fèi)提供Alexa中文排名官方數(shù)據(jù)查詢、網(wǎng)站訪問量查詢、網(wǎng)站瀏覽量查詢、排名變化趨勢(shì)數(shù)據(jù)查詢[6]。
2.1樣本選擇
山東和遼寧都是我國(guó)的農(nóng)業(yè)大省,筆者以遼寧與山東的農(nóng)業(yè)門戶網(wǎng)站為研究目標(biāo),進(jìn)行鏈接分析。農(nóng)業(yè)網(wǎng)站可以分為3類,即政府網(wǎng)站、事業(yè)網(wǎng)站和企業(yè)網(wǎng)站,課題所選網(wǎng)站都是具有本地區(qū)代表性的單位。其中,政府網(wǎng)站和事業(yè)網(wǎng)站的數(shù)量少,但社會(huì)影響力大,企業(yè)網(wǎng)站數(shù)量多,但社會(huì)影響力較小,具體情況如表2、表3所示[7]。
2.2研究工具、指標(biāo)及檢索方法
網(wǎng)站的各種鏈接數(shù)據(jù)可以通過搜索引擎得到。筆者選擇百度、搜狗、Chinaz以及Alexa作為研究工具,檢索方法是在百度以及搜狗引擎輸入檢索式,檢索式如表1所示(這里以遼寧金農(nóng)網(wǎng)址為例),另將得到的數(shù)據(jù)錄入進(jìn)行處理。
2.2.1網(wǎng)頁(yè)數(shù)
一般是指某網(wǎng)站內(nèi)的網(wǎng)頁(yè)數(shù),在一定程度上反映了網(wǎng)站的大小,反映出網(wǎng)站的規(guī)模和內(nèi)容的豐富程度。
2.2.2總鏈接數(shù)
一般是指搜索到的與某網(wǎng)站存在鏈接的網(wǎng)頁(yè)總數(shù),反映了網(wǎng)站被鏈接的多少。鏈接總數(shù)是衡量網(wǎng)站鏈接數(shù)量特征最重要的指標(biāo)之一,它反映了網(wǎng)站被鏈接的總數(shù),體現(xiàn)了該網(wǎng)站的網(wǎng)絡(luò)輻射力和影響力。通常網(wǎng)站中的鏈接數(shù)量越多,揭示信息的程度就越高,有著更完備的組織體系,通過訪問此類型的網(wǎng)站用戶就能獲取更為豐富的信息資源。
2.2.3內(nèi)鏈接數(shù)
一般是指針對(duì)某網(wǎng)站范圍內(nèi)搜索得到的與該網(wǎng)站存在鏈接的網(wǎng)頁(yè)數(shù),反映了網(wǎng)站內(nèi)部結(jié)構(gòu)的完備性。
2.2.4外鏈接數(shù)
一般是指針對(duì)某網(wǎng)站范圍外搜索得到的與該網(wǎng)站存在鏈接的網(wǎng)頁(yè)數(shù),網(wǎng)站的外部鏈接數(shù)是評(píng)價(jià)網(wǎng)站影響力和價(jià)值的重要尺度。它能更好地反映網(wǎng)站建設(shè)的質(zhì)量。
2.2.5網(wǎng)絡(luò)影響因子
網(wǎng)絡(luò)影響因子=總鏈接數(shù)/網(wǎng)頁(yè)數(shù),反映的是網(wǎng)站網(wǎng)頁(yè)被外部鏈接的平均水平。
2.2.6外部網(wǎng)絡(luò)影響因子
外部網(wǎng)絡(luò)影響因子=外鏈接數(shù)/網(wǎng)頁(yè)數(shù),能反映網(wǎng)站的水平。
2.2.7PR值
PR值是Google特有的衡量網(wǎng)頁(yè)重要程度的指標(biāo),用來標(biāo)識(shí)網(wǎng)頁(yè)的等級(jí)和重要性。級(jí)別為1~10級(jí),10級(jí)為滿分。由于PR值最直接的影響因素是來自鏈接,所以網(wǎng)站所得到的高質(zhì)量導(dǎo)入鏈接越多,網(wǎng)站PR值就越高,PR值越高則說明該網(wǎng)站網(wǎng)頁(yè)在搜索排名中的地位越重要。
表1 檢索式列表[8]
表2 遼寧省樣本網(wǎng)站
表3 山東省樣本網(wǎng)站
表4 百度檢索指標(biāo)數(shù)據(jù)
表5 搜狗檢索指標(biāo)數(shù)據(jù)
表6 GooglePR輸出值
表7 ChinaZ數(shù)據(jù)(網(wǎng)頁(yè)總數(shù))
表8 Alexa數(shù)據(jù)
2.3灰度關(guān)聯(lián)分析
灰色關(guān)聯(lián)分析是灰色系統(tǒng)理論中探索系統(tǒng)內(nèi)各因素的數(shù)值關(guān)系,能夠?qū)σ粋€(gè)系統(tǒng)發(fā)展變化趨勢(shì)提出量化的度量。也適用于主要搜索引擎發(fā)展態(tài)勢(shì)的分析。我們可通過被分析對(duì)象因素間關(guān)聯(lián)度的大小次序描述,判斷搜索引擎各測(cè)度值對(duì)網(wǎng)頁(yè)對(duì)象的影響程度,使搜索引擎的綜合排序結(jié)果更為客觀可靠。
搜索引擎綜合評(píng)價(jià)步驟:
①確定分析數(shù)列,以網(wǎng)頁(yè)數(shù)、總鏈接數(shù)、內(nèi)鏈接數(shù)……PR值為參考序列和比較序列。
②對(duì)確定序列進(jìn)行無量綱化處理以便于比較,通過排序可以得出較準(zhǔn)確的判斷。
③求灰色關(guān)聯(lián)系數(shù)公式:
ρ∈(0,∞),稱為分辨系數(shù)。ρ越小,分辨力越大,一般ρ的取值區(qū)間為(0,1)。具體取值可視情況而定,當(dāng)ρ≤0.5463時(shí),分辨力最好,通常取ρ=0.5。
④計(jì)算
分別計(jì)算出百度、搜狗引擎的比較和參考序列各指標(biāo)、對(duì)應(yīng)因素的關(guān)聯(lián)系數(shù)均值,形成反映農(nóng)業(yè)網(wǎng)站和百度等公共搜索引擎各因素間的關(guān)聯(lián)序。
⑤關(guān)聯(lián)度按大小排序,得出綜合評(píng)價(jià)結(jié)果
根據(jù)以上步驟,首先選取各個(gè)鏈接指標(biāo)數(shù)據(jù)中最大數(shù)值作為參考數(shù)值,記作x0,具體數(shù)值如表9和表10。把表9、表10的數(shù)據(jù)帶入公式(1),計(jì)算出各個(gè)網(wǎng)站的關(guān)聯(lián)度并排序(見表11、12)。因?yàn)橛?jì)算方式的關(guān)系,筆者在表11、12中列出19個(gè)樣本網(wǎng)站的灰色關(guān)聯(lián)度。
表9 指標(biāo)數(shù)據(jù)灰度分析(百度)
表10 指標(biāo)數(shù)據(jù)灰度分析(搜狗)
表11 百度關(guān)聯(lián)度降序排列結(jié)果
表12 搜狗關(guān)聯(lián)度降序排列結(jié)果
基于以上鏈接分析工具與檢索方法相對(duì)有效的假設(shè)前提,我們可以對(duì)遼寧省與山東省農(nóng)業(yè)網(wǎng)站鏈接狀況及影響因素做出如下分析與討論,以便為評(píng)估農(nóng)業(yè)網(wǎng)站選擇檢索工具提供借鑒性信息,從而進(jìn)一步發(fā)揮農(nóng)業(yè)網(wǎng)站的價(jià)值[9]。
①總體看來,遼寧省與山東省的農(nóng)業(yè)網(wǎng)站在7個(gè)排序狀況中基本平分秋色,反映出兩個(gè)農(nóng)業(yè)大省的樣本網(wǎng)站在初選的檢索工具排序中不分伯仲,排名差別不大。
②表4、5、11中,前4名完全吻合,在表4-8、11中,前5名的網(wǎng)站均為政府及事業(yè)單位網(wǎng)站,尤其是在表4、6、7中,前10名均為政府事業(yè)單位,也就是說政府及事業(yè)單位的網(wǎng)站建設(shè)綜合質(zhì)量在初選的檢索工具中所得的數(shù)據(jù)分析結(jié)果一致,而且與GooglePR輸出值排列順序基本一致。山東農(nóng)業(yè)信息網(wǎng)在表6、8中位列第一,在其他3個(gè)排序中均為第二,遼寧金農(nóng)網(wǎng)在表4、5、7、11、和12中均為第一,其余剩下兩個(gè)排序均為第二,也就是說前兩名均被遼寧金農(nóng)網(wǎng)以及山東農(nóng)業(yè)信息網(wǎng)占據(jù)。綜合7個(gè)排序,大多政府及事業(yè)單位名列前位,但沈陽(yáng)農(nóng)業(yè)大學(xué)在以百度、搜狗為檢索工具中分別排在第20和第16位,在百度、搜狗的灰度關(guān)聯(lián)排名中分別為11、12位,筆者認(rèn)為百度與搜狗均為商業(yè)性網(wǎng)站,百度跟搜狗都是商業(yè)搜索引擎,沈陽(yáng)農(nóng)業(yè)大學(xué)屬于非營(yíng)利性組織的公辦大學(xué),并且以教學(xué)為主,因而在表4、5、11、12中位居后位。
③政府及事業(yè)單位(除公辦大學(xué))在7個(gè)排序中均名列前茅,這說明政府及事業(yè)單位相對(duì)于農(nóng)業(yè)企業(yè)單位對(duì)社會(huì)影響力總體更大。希森馬鈴薯產(chǎn)業(yè)集團(tuán)在表4、6、7、8中均排在企業(yè)農(nóng)業(yè)網(wǎng)站前列,甚至超過了一些政府及事業(yè)單位農(nóng)業(yè)網(wǎng)站,筆者認(rèn)為主要原因是由于百度屬于商業(yè)搜索引擎,一些企業(yè)在商業(yè)搜索引擎投入大量的資金來做廣告宣傳,因此排名會(huì)受到一定的影響。
④濟(jì)南圣泉集團(tuán)股份有限公司在表12中位列第三位,究其原因發(fā)現(xiàn)其在表5中的總鏈接數(shù)非常高,數(shù)值不準(zhǔn)確,可能有以下原因:①搜狗網(wǎng)站本身存在大量的非實(shí)質(zhì)的鏈接,譬如自鏈接、商業(yè)廣告、軟件下載等。②有可能是網(wǎng)站有病毒,影響了檢索結(jié)果,從而使其排名在搜狗灰色關(guān)聯(lián)分析中位居前列。百度雖然也是一種商業(yè)網(wǎng)站,但其在搜索過程中通過自定的設(shè)計(jì)方式剔除了相當(dāng)一部分的虛假鏈接。通過此排名也看出了百度在檢索工具中數(shù)據(jù)更為貼近其他5個(gè)表的結(jié)果。
⑤觀察比較兩大搜索引擎檢索得到的數(shù)據(jù)和經(jīng)過灰色關(guān)聯(lián)度計(jì)算后的結(jié)果,可以看出,表4-8、11中各個(gè)網(wǎng)站排名次序偏差不大。總體上看,涉及百度的排序與Google PR輸出值、Alexa數(shù)據(jù)、ChinaZ數(shù)據(jù)的排序反差不大,其次是在鏈接分析中,百度所能查到的數(shù)據(jù)更為全面與準(zhǔn)確,其影響力也較大。
⑥筆者初選的4個(gè)檢索工具中,Alexa的數(shù)據(jù)并不完全,一部分網(wǎng)站根本查不到排名信息,在以搜狗為檢索工具時(shí)也出現(xiàn)無法查詢到數(shù)據(jù)的情況。分析以上幾個(gè)表得知,以百度為檢索工具的數(shù)據(jù)較為完整,以搜狗為檢索工具的排序與其他6個(gè)排序有更大的偏差。在7個(gè)排序中,多數(shù)的農(nóng)業(yè)小企業(yè)的網(wǎng)站排名均在后面,尤其在Google PR輸出值的表6中有的Google PR輸出值甚至為0,Google PR輸出值在大多數(shù)的鏈接分析案例中均作為主要參考對(duì)象。因此筆者認(rèn)為通過百度與GooglePR值的綜合使用來評(píng)價(jià)網(wǎng)絡(luò)鏈接為最優(yōu)[10]。
網(wǎng)站的評(píng)價(jià)不僅要從網(wǎng)站的設(shè)計(jì)風(fēng)格、網(wǎng)站建設(shè)的內(nèi)容等方面考慮,而且還需要一種定量的方法來加以評(píng)價(jià),這樣會(huì)更加客觀和有說服力。筆者主要列舉了遼寧省、山東省20個(gè)具有代表性的樣本網(wǎng)站,選出4種檢索工具進(jìn)行鏈接分析,并利用灰色關(guān)聯(lián)度工具,旨在選出最適合作為農(nóng)業(yè)網(wǎng)站評(píng)價(jià)的檢索工具,雖然商業(yè)搜索引擎不太穩(wěn)定,但筆者選取了在同一時(shí)間段并采用相同的檢索方法與指令,采集的數(shù)據(jù)具有較高參考價(jià)值。在鏈接數(shù)據(jù)統(tǒng)計(jì)過程中,有些數(shù)據(jù)出現(xiàn)了異常,但也在合理解釋區(qū)間內(nèi)。因此,得到的數(shù)據(jù)分析結(jié)果的參考價(jià)值可取[11]。
在農(nóng)業(yè)網(wǎng)站領(lǐng)域,國(guó)外也已經(jīng)有了比較完善的農(nóng)業(yè)信息專業(yè)搜索引擎。比較著名的有:①美國(guó)農(nóng)業(yè)網(wǎng)絡(luò)信息中心(www.agnic.org),是美國(guó)國(guó)家農(nóng)業(yè)圖書館與一些大學(xué)、研究機(jī)構(gòu)以及政府機(jī)構(gòu)自愿組成的聯(lián)合體,其每個(gè)成員都負(fù)責(zé)農(nóng)業(yè)科學(xué)中某一領(lǐng)域的信息工作,各成員單位間互相提供信息服務(wù)。每個(gè)成員在享受服務(wù)的同時(shí),也有為其他成員提供服務(wù)的義務(wù),服務(wù)方式主要是通過互聯(lián)網(wǎng)相互提供電子形式的農(nóng)業(yè)信息和檢索服務(wù)。②法國(guó)Hyltel Multimedia公司在1998年創(chuàng)建的農(nóng)業(yè)垂直搜索引擎WEB-AGRI SEARCH(www.web-agri.com),有法、英雙語(yǔ)言版本,主要提供3種服務(wù):農(nóng)業(yè)搜索引擎、農(nóng)業(yè)期刊導(dǎo)航和農(nóng)業(yè)站點(diǎn)導(dǎo)航[12]。而在我國(guó),對(duì)農(nóng)業(yè)網(wǎng)站評(píng)估的檢索工具并沒有統(tǒng)一規(guī)范和普遍應(yīng)用,希望研究者進(jìn)一步完善現(xiàn)有的搜索引擎,并針對(duì)網(wǎng)絡(luò)信息計(jì)量學(xué)研究研制出專門的農(nóng)業(yè)搜索引擎,這對(duì)我國(guó)農(nóng)業(yè)信息化發(fā)展以及信息化的服務(wù)質(zhì)量有著非常重要的影響。
[1]邱均平.網(wǎng)絡(luò)計(jì)量學(xué)[M].北京:科學(xué)出版社,2010.
[2]百度百科.百度[EB/OL].[2015-04-20].http://baike.baidu. com/view/262.htm.
[3]百度百科.搜狗[EB/OL].[2015-04-03].http://baike.baidu. com/view/24982.htm.
[4]百度百科.站長(zhǎng)之家[EB/OL].[2014-12-20].http://baike. baidu.com/view/1687888.htm.
[5]馬健,等.基于主成分分析法的農(nóng)業(yè)科技網(wǎng)站評(píng)價(jià)方法研究[J].安徽農(nóng)業(yè)科學(xué),2011(39):6118-6122.
[6]百度百科.alexa[EB/OL].[2015-05-11].http://baike.baidu. com/subview/663/10876471.htm.
[7]劉偉剛.淺析鏈接分析在遼寧農(nóng)業(yè)網(wǎng)站評(píng)價(jià)方面的應(yīng)用[J].經(jīng)濟(jì)研究導(dǎo)刊,2014(30):63-65.
[8]姚湘中.我國(guó)211重點(diǎn)大學(xué)圖書館網(wǎng)站的鏈接分析[J].圖書館學(xué)刊,2007(4):138-140.
[9]岳峻,傅澤田,高文.農(nóng)業(yè)信息智能獲取技術(shù)[M].北京:科學(xué)出版社,2011.
[10]陳太洋.我國(guó)大學(xué)圖書館網(wǎng)站鏈接的實(shí)證分析——以中國(guó)“211工程”高校為例[J].圖書館雜志,2007(3):43-49.
[11]趙發(fā)珍.基于鏈接分析法的網(wǎng)絡(luò)社區(qū)影響力研究——以國(guó)內(nèi)30個(gè)網(wǎng)絡(luò)社區(qū)網(wǎng)站為例[J].現(xiàn)代情報(bào),2013(33):91-95.
[12]徐洋.基于用戶行為學(xué)習(xí)的農(nóng)業(yè)信息元搜索引擎研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2010.
高祥永男,1972年生。碩士,副研究館員,副館長(zhǎng)。研究方向:圖書館學(xué)、信息服務(wù)。
董玉萍女,1985年生。碩士,館員。
G350;S126
*本文系遼寧省社科規(guī)劃基金項(xiàng)目“典型省份農(nóng)業(yè)網(wǎng)站影響力評(píng)價(jià)研究”(項(xiàng)目編號(hào):L12DGL028)成果。
(2015-07-10;責(zé)編:姚雪梅。)