劉慶旭,夏小青
(南京工業(yè)大學(xué)浦江學(xué)院 圖書館,江蘇 南京 211200)
2012年3月,教育部頒發(fā)了《教育信息化十年發(fā)展規(guī)劃(2011-2020)》,就“促進(jìn)優(yōu)質(zhì)教育資源的建設(shè)與共享”等教育信息化資源建設(shè)內(nèi)容作了重點(diǎn)闡述[1]。2018年教育部印發(fā)《教育信息化2.0行動計(jì)劃》,強(qiáng)調(diào)以信息化引領(lǐng)構(gòu)建以學(xué)習(xí)者為中心的全新教育生態(tài),實(shí)現(xiàn)公平而有質(zhì)量的教育,并提出要到2022年基本實(shí)現(xiàn)“三全兩高一大”的發(fā)展目標(biāo),其中,“兩高”指的是信息化應(yīng)用水平和師生信息素養(yǎng)普遍提高[2]。高校圖書館網(wǎng)站是高校落實(shí)教育部規(guī)劃,積極推進(jìn)教育信息化的重要組成部分,高校圖書館網(wǎng)站建設(shè)水平直接關(guān)系到高校信息化的推進(jìn)程度。
目前,高校圖書館網(wǎng)站研究是學(xué)術(shù)界研究的重點(diǎn)領(lǐng)域,國內(nèi)外學(xué)者均給予重點(diǎn)關(guān)注和研究。White E等[3]研究了門戶網(wǎng)站的內(nèi)容對學(xué)術(shù)圖書館員和其他利益相關(guān)者的教育作用,同時(shí)還以恩克魯瑪科技大學(xué)作為案例,研究了圖書館門戶網(wǎng)站在增強(qiáng)用戶學(xué)術(shù)交流培訓(xùn)方面所起到的作用。Desmarais B等[4]描述了2020年春季學(xué)期在東北州立大學(xué)進(jìn)行的一項(xiàng)研究,該研究詳細(xì)介紹了網(wǎng)站重新設(shè)計(jì)過程的初始階段,這些過程是從網(wǎng)站設(shè)計(jì)和功能的在線調(diào)查中收集到的反饋信息。用戶體驗(yàn)調(diào)查后得到的結(jié)果用于衡量受訪者對圖書館網(wǎng)站的滿意度,并為以后的重新設(shè)計(jì)策略提供信息。數(shù)據(jù)將用于規(guī)劃和評估大學(xué)網(wǎng)站設(shè)計(jì)項(xiàng)目的下一階段。Brunskill A[5]采訪了12名殘疾大學(xué)生,了解他們對學(xué)術(shù)圖書館門戶網(wǎng)站導(dǎo)航、搜索詞以及網(wǎng)頁界面的看法,這些訪談揭示了圍繞網(wǎng)站可訪問性和包容性的許多重要考慮因素,并據(jù)此編制了一份建議清單。國內(nèi)學(xué)者張超[6]從用戶角度對高校圖書館網(wǎng)站進(jìn)行了多維分類。劉薈嶺[7]選取30所農(nóng)業(yè)類高校圖書館網(wǎng)站進(jìn)行調(diào)查,針對傳統(tǒng)服務(wù)、個(gè)性化信息服務(wù)、參考咨詢服務(wù)和用戶分類服務(wù)等欄目展開分析,并結(jié)合網(wǎng)站服務(wù)現(xiàn)狀提出了一些建議。宋愛林[8]基于前期調(diào)查的結(jié)果,設(shè)計(jì)一個(gè)包含TAG標(biāo)簽的復(fù)合分類導(dǎo)航系統(tǒng),并闡述了實(shí)現(xiàn)方案,力求創(chuàng)建一種允許讀者參與的立體化數(shù)字資源導(dǎo)航模式。
從現(xiàn)有研究成果看,國內(nèi)外學(xué)者對圖書館網(wǎng)站都保持了較高關(guān)注度和研究熱情,但運(yùn)用數(shù)據(jù)挖掘的方法,將決策樹算法運(yùn)用到高校圖書館網(wǎng)站分類的研究成果還較少。筆者將決策樹算法和鏈接分析法相結(jié)合運(yùn)用到高校圖書館網(wǎng)站分類研究中,以期解決如下三方面的問題:①哪些指標(biāo)對高校圖書館網(wǎng)站分類能夠產(chǎn)生較大影響?②各項(xiàng)指標(biāo)按照重要性如何排序?③基于決策樹算法和鏈接分析法的高校圖書館網(wǎng)站如何分類?文中的研究從理論層面可以推動我國高校圖書館網(wǎng)站分類研究的理論分析,在實(shí)踐層面上可以為高校圖書館網(wǎng)站的建設(shè)和分類起到參考和借鑒作用。
決策樹算法是一種以決策樹數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ)的分類算法[9],其基本思想是通過一些判斷條件對原始數(shù)據(jù)集逐步二分和細(xì)化。其中,每一個(gè)分叉點(diǎn)代表一個(gè)決策判斷條件,每個(gè)分叉點(diǎn)下有兩個(gè)葉節(jié)點(diǎn),分別代表滿足條件和不滿足條件[10]。決策樹算法的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)中潛在的分類規(guī)則,因而其核心內(nèi)容是構(gòu)造一個(gè)高精度、小規(guī)模的決策樹,通過從數(shù)據(jù)集中自動地構(gòu)造決策樹,從而可以根據(jù)這個(gè)決策樹對任意實(shí)例進(jìn)行判定[9]。
所謂鏈接分析法,是指一種基于引文分析法發(fā)展起來的,以網(wǎng)絡(luò)鏈接為研究對象,利用搜索引擎、網(wǎng)絡(luò)數(shù)據(jù)庫和數(shù)學(xué)統(tǒng)計(jì)分析方法,對網(wǎng)絡(luò)鏈接的分布規(guī)律和網(wǎng)絡(luò)信息單元之間的鏈接規(guī)律進(jìn)行分析研究的一種定量分析方法[11]。鏈接分析法是客觀定量評價(jià)中較為重要的方法之一。它主要利用網(wǎng)絡(luò)站點(diǎn)間鏈接正向肯定關(guān)系而對網(wǎng)站自身信息組織和揭示的科學(xué)性和合理性以及網(wǎng)站影響力進(jìn)行間接評價(jià)[12]。
本次高校名單來源于2021年江蘇省大學(xué)排名一覽表中所發(fā)布的高等院校,共收集到江蘇省高校數(shù)量137家,由于部分網(wǎng)站無法訪問或收集不到數(shù)據(jù)19家,實(shí)際共收集高校數(shù)據(jù)118家。本次研究將以所收集到的118家高校圖書館網(wǎng)站數(shù)據(jù)為基礎(chǔ)進(jìn)行分析,部分高校圖書館網(wǎng)站原始數(shù)據(jù)及指標(biāo)如圖1所示。
本次數(shù)據(jù)收集指標(biāo)共包括12項(xiàng),分別為總網(wǎng)頁數(shù)、總鏈接數(shù)、網(wǎng)絡(luò)影響因子、PC詞數(shù)、移動詞數(shù)、反鏈數(shù)、索引量、一月收錄、百度權(quán)重、移動權(quán)重、360權(quán)重、搜狗權(quán)重,總網(wǎng)頁數(shù)、總鏈接數(shù)、網(wǎng)絡(luò)影響因子指標(biāo)采集方式及其含義來自已有文獻(xiàn),總網(wǎng)頁數(shù)指標(biāo)數(shù)據(jù)采集方式為“site+域名”,總鏈接數(shù)指標(biāo)數(shù)據(jù)采集方式為“http://+域名”,網(wǎng)絡(luò)影響因子指標(biāo)數(shù)據(jù)為總鏈接數(shù)與總網(wǎng)頁數(shù)的比值。PC詞數(shù)、移動詞數(shù)、反鏈數(shù)、索引量、一月收錄、百度權(quán)重、移動權(quán)重、360權(quán)重、搜狗權(quán)重均通過第三方網(wǎng)站站長工具查詢獲得。百度權(quán)重、移動權(quán)重、360權(quán)重、搜狗權(quán)重其含義類似,但是考慮到百度PC端、百度移動端、360搜索、搜狗搜索在我國搜索引擎中均具有較大數(shù)量的用戶群,因此,筆者未做取舍,全部對數(shù)據(jù)進(jìn)行了收集。各項(xiàng)指標(biāo)的具體含義如下所述。
ZB1總網(wǎng)頁數(shù)[12]:是指網(wǎng)站內(nèi)網(wǎng)頁的總數(shù),在一定程度上反映了網(wǎng)站的規(guī)模和內(nèi)容的豐富程度。
ZB2總鏈接數(shù)[12]:即所有鏈接到該網(wǎng)站的鏈接數(shù)量,被普遍用于衡量網(wǎng)站的影響力和網(wǎng)絡(luò)輻射力。
ZB3網(wǎng)絡(luò)影響因子=總鏈接數(shù)/總網(wǎng)頁數(shù),反映了網(wǎng)站網(wǎng)頁被鏈接的能力。
ZB4 PC詞數(shù):指在電腦端有排名的關(guān)鍵詞詞數(shù)。
ZB5移動詞數(shù):指在移動端有排名的關(guān)鍵詞詞數(shù)。
ZB6反鏈數(shù)[13]:就是指從別的網(wǎng)站導(dǎo)入某網(wǎng)站的鏈接數(shù)量,導(dǎo)入鏈接對于網(wǎng)站優(yōu)化來說是非常重要的一個(gè)過程,導(dǎo)入鏈接的質(zhì)量直接決定了某網(wǎng)站在搜索引擎中的權(quán)重。
ZB7索引量:指的是搜索引擎抓取網(wǎng)頁并經(jīng)過層層篩選后選取的頁面數(shù)量,即當(dāng)網(wǎng)站提交給搜索引擎后,它會派蜘蛛或機(jī)器人去目標(biāo)網(wǎng)站抓取頁面,獲取到的網(wǎng)址會被整理,按照一定層次分配到索引庫中,對網(wǎng)站SEO優(yōu)化有很大的幫助。
ZB8一月收錄:指一個(gè)月內(nèi)網(wǎng)站中的某個(gè)頁面被百度收錄的次數(shù)。
ZB9百度權(quán)重:指的是站長工具等第三方平臺以百度關(guān)鍵詞排名情況所帶來的預(yù)估流量為標(biāo)準(zhǔn),對網(wǎng)站劃分等級。
ZB10移動權(quán)重:指的是站長工具等第三方平臺以百度移動端關(guān)鍵詞排名情況所帶來的預(yù)估流量為標(biāo)準(zhǔn),對網(wǎng)站劃分等級。
ZB11 360權(quán)重:指的是站長工具等第三方平臺以360關(guān)鍵詞排名情況所帶來的預(yù)估流量為標(biāo)準(zhǔn),對網(wǎng)站劃分等級。
ZB12搜狗權(quán)重:指的是站長工具等第三方平臺以搜狗關(guān)鍵詞排名情況所帶來的預(yù)估流量為標(biāo)準(zhǔn),對網(wǎng)站劃分等級。
本次共收集到118家江蘇高校圖書館網(wǎng)站數(shù)據(jù)參與研究,對高校所屬地域和層次進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),南京占比最大,共有39家,緊隨其后的是蘇州、常州等城市,數(shù)量最多的為高職院校,普通本科院校、民辦院校、重點(diǎn)高校的數(shù)量依次遞減。具體統(tǒng)計(jì)結(jié)果如圖2和圖3所示。運(yùn)用R語言軟件對各項(xiàng)統(tǒng)計(jì)指標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并總結(jié),統(tǒng)計(jì)結(jié)果包括各項(xiàng)指標(biāo)的最小值、第一分位數(shù)、中位數(shù)、平均值、第三分位數(shù)、最大值,各項(xiàng)統(tǒng)計(jì)指標(biāo)具體描述結(jié)果如表1所示。
表1 原始數(shù)據(jù)統(tǒng)計(jì)指標(biāo)數(shù)據(jù)
本次決策樹構(gòu)建使用rpart函數(shù),因總網(wǎng)頁數(shù)相對于其他指標(biāo)更能反映出網(wǎng)站建設(shè)的規(guī)模和質(zhì)量,因此選擇“總鏈接數(shù)”“網(wǎng)絡(luò)影響因子”“PC詞數(shù)”“移動詞數(shù)”“反鏈數(shù)”“索引量”“一月收錄”“百度權(quán)重”“移動權(quán)重”“360權(quán)重”“搜狗權(quán)重”共11個(gè)變量對“總網(wǎng)頁數(shù)”變量建立決策樹,且選擇樹的類型為回歸樹。具體執(zhí)行代碼如下所示:
> setwd("D:")
> getwd
function ()
.Internal(getwd())
> dat<-read.csv("gaoxiaoshuju.csv",header=F)
> dat<-read.csv("gaoxiaoshuju.csv",header=F)[,7:18]
> library(rpart)
Warning message:
程輯包‘rpart’是用R版本4.0.5 來建造的
> dat<-read.csv("gaoxiaoshuju.csv",header=T)[,7:18]
> formula=總網(wǎng)頁數(shù)~.
> rp=rpart(formula,dat,method="anova")
> print(rp)
n= 118
node), split, n, deviance, yval
* denotes terminal node
1) root 118 92068310000 13660.840
2) PC詞數(shù)< 38 78 2358097000 3125.372 *
3) PC詞數(shù)>=38 40 64170020000 34205.000
6) 一月收錄>=23.5 15 2327233000 4866.667 *
7) 一月收錄< 23.5 25 41185080000 51808.000
14) 百度權(quán)重< 1.5 10 1300020000 18900.000 *
15) 百度權(quán)重>=1.5 15 21836120000 73746.670 *
通過R語言軟件對本次構(gòu)建的決策樹進(jìn)行總結(jié),得出如下研究結(jié)果。
> summary(rp)
Call:
rpart(formula = formula, data = dat, method = "anova")
n= 118
CP nsplit rel errorxerrorxstd1 0.277 404 80 1.000 000 01.022 666 90.351 137 22 0.224 373 71 0.722 595 20.992 011 20.349 869 63 0.196 038 62 0.498 221 50.975 368 00.332 783 94 0.010 000 03 0.302 182 91.066 251 30.395 664 9
Variable importance
PC詞數(shù)移動詞數(shù)百度權(quán)重一月收錄移動權(quán)重總鏈接數(shù)收錄量反鏈數(shù) 2017151512777
Node number 1: 118 observations, complexity param=0.2774048
mean=13660.84, MSE=7.802399e+08
left son=2 (78 obs) right son=3 (40 obs)
Primary splits:
PC詞數(shù) < 38 to the left, improve=0.277 404 8, (0 missing)
百度權(quán)重 < 1.5 to the left, improve=0.266 369 3, (0 missing)
移動詞數(shù) < 20 to the left, improve=0.241 070 4, (0 missing)
總鏈接數(shù) < 84950 to the left, improve=0.179 401 9, (0 missing)
收錄量 < 710.5 to the left, improve=0.152 049 4, (0 missing)
Surrogate splits:
移動詞數(shù) < 20 to the left, agree=0.924, adj=0.775, (0 split)
百度權(quán)重 < 1.5 to the left, agree=0.881, adj=0.650, (0 split)
收錄量 < 710.5 to the left, agree=0.873, adj=0.625, (0 split)
一月收錄 < 4.5 to the left, agree=0.839, adj=0.525, (0 split)
移動權(quán)重 < 1.5 to the left, agree=0.839, adj=0.525, (0 split)
Node number 2: 78 observations
mean=3125.372, MSE=3.023201e+07
Node number 3: 40 observations, complexity param=0.224 373 7
mean=34205, MSE=1.604 25e+09
left son=6 (15 obs) right son=7 (25 obs)
Primary splits:
一月收錄 < 23.5 to the right, improve=0.32192150, (0 missing)
總鏈接數(shù) < 14 to the left, improve=0.29964500, (0 missing)
網(wǎng)絡(luò)影響因子 < 0.93 to the left, improve=0.26043570, (0 missing)
收錄量 < 6566.5 to the right, improve=0.12198390, (0 missing)
反鏈數(shù) < 87 to the right, improve=0.06842155, (0 missing)
Surrogate splits:
總鏈接數(shù) < 7.5 to the left, agree=0.800, adj=0.467, (0 split)
移動詞數(shù) < 62.5 to the right, agree=0.800, adj=0.467, (0 split)
PC詞數(shù) < 198 to the right, agree=0.775, adj=0.400, (0 split)
反鏈數(shù) < 95.5 to the right, agree=0.775, adj=0.400, (0 split)
移動權(quán)重 < 2.5 to the right, agree=0.775, adj=0.400, (0 split)
Node number 6: 15 observations
mean=4866.667, MSE=1.551 489e+08
Node number 7: 25 observations, complexity param=0.196 038 6
mean=51808, MSE=1.647 403e+09
left son=14 (10 obs) right son=15 (15 obs)
Primary splits:
百度權(quán)重 < 1.5 to the left, improve=0.4382398, (0 missing)
搜狗權(quán)重 < 1.5 to the left, improve=0.3660384, (0 missing)
PC詞數(shù) < 87 to the left, improve=0.3509475, (0 missing)
移動詞數(shù) < 24.5 to the left, improve=0.2264878, (0 missing)
總鏈接數(shù) < 78 to the left, improve=0.1951082, (0 missing)
Surrogate splits:
PC詞數(shù) < 65 to the left, agree=0.88, adj=0.7, (0 split)
移動詞數(shù) < 19 to the left, agree=0.84, adj=0.6, (0 split)
總鏈接數(shù) < 14 to the left, agree=0.76, adj=0.4, (0 split)
反鏈數(shù) < 14.5 to the left, agree=0.76, adj=0.4, (0 split)
移動權(quán)重 < 1.5 to the left, agree=0.76, adj=0.4, (0 split)
Node number 14: 10 observations
mean=18900, MSE=1.300 02e+08
Node number 15: 15 observations
mean=73746.67, MSE=1.455 741e+09
> library(rpart.plot)
Warning message:
程輯包‘rpart.plot’是用R版本4.0.5 來建造的
> rpart.plot(rp)
>
由圖4可知,在分類模型構(gòu)建過程中,PC詞數(shù)、一月收錄、百度權(quán)重3個(gè)指標(biāo)對整個(gè)決策樹構(gòu)建起到至關(guān)重要的作用。通過運(yùn)用決策樹算法和鏈接分析法對江蘇高校圖書館網(wǎng)站收集的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)本次高校圖書館網(wǎng)站的決策樹構(gòu)建共產(chǎn)生4個(gè)葉子節(jié)點(diǎn),且以PC詞數(shù)、一月收錄和百度權(quán)重作為了主要分類標(biāo)準(zhǔn),最終分類結(jié)果被劃分為四大類。第一類為PC詞數(shù)<38,占據(jù)樣本量的66%;第二類為PC詞數(shù)>38且一月收錄≥24,占據(jù)樣本量的13%;第三類為PC詞數(shù)>38且一月收錄<24且百度權(quán)重<2,占據(jù)樣本量的8%;第三類為PC詞數(shù)>38且一月收錄<24且百度權(quán)重≥2,占據(jù)樣本量的13%。在建立決策樹的過程中,各個(gè)變量按照重要性排序依次為:PC詞數(shù)、移動詞數(shù)、百度權(quán)重、一月收錄、移動權(quán)重、總鏈接數(shù)、收錄量、反鏈數(shù)。PC詞數(shù)和一月收錄指標(biāo)和網(wǎng)頁內(nèi)容的豐富度密切相關(guān),百度權(quán)重和網(wǎng)站的瀏覽量和檢索量密切相關(guān)。因此,優(yōu)化高校圖書館網(wǎng)站的重點(diǎn)在于網(wǎng)頁豐富度和網(wǎng)站瀏覽量。
以上研究成果表明,江蘇高校圖書館網(wǎng)站的決策樹分類模型構(gòu)建結(jié)果與PC詞數(shù)、一月收錄、百度權(quán)重3個(gè)指標(biāo)有較大關(guān)系,而這3個(gè)指標(biāo)又最終落腳于網(wǎng)頁豐富度和網(wǎng)站的瀏覽量。因此,筆者提出如下優(yōu)化策略:①合理設(shè)置網(wǎng)頁版面,豐富網(wǎng)頁內(nèi)容。網(wǎng)頁版面的設(shè)置并非越多越好,也并非越少越好,需要找到合適的數(shù)量。簡潔明快的網(wǎng)頁版面會增加網(wǎng)站內(nèi)容的清晰度,讓用戶對其使用功能一目了然,同時(shí),也會增加用戶了解和使用圖書館網(wǎng)站的興趣。因此,需要在明確網(wǎng)站版面的同時(shí),擴(kuò)充網(wǎng)頁的內(nèi)容。②及時(shí)更新網(wǎng)頁內(nèi)容,增強(qiáng)網(wǎng)站與用戶間的交流,提高用戶黏度。網(wǎng)站內(nèi)容的新穎度直接影響用戶對網(wǎng)站的瀏覽量,網(wǎng)站更新越及時(shí)、內(nèi)容越新穎,越容易提高用戶的檢索興趣和檢索行為。因此,當(dāng)與用戶和圖書館相關(guān)的通知、會議、新聞報(bào)道等出現(xiàn)時(shí),應(yīng)及時(shí)對圖書館網(wǎng)站的內(nèi)容進(jìn)行更新。③廣泛運(yùn)用新媒體資源,增加宣傳和推廣。當(dāng)今時(shí)代是新媒體盛行的時(shí)代,以“兩微一端”為代表的新媒體匯集了大量的用戶群體。新媒體的廣泛應(yīng)用增加了用戶接觸和了解圖書館網(wǎng)站的機(jī)會,同時(shí)新媒體信息傳播范圍廣、受眾面大的特點(diǎn)也有利于圖書館網(wǎng)站使用功能的傳播。傳播量的增加必然會增加網(wǎng)站的索引量。因此,高校圖書館網(wǎng)站可綜合運(yùn)用微信、微博、App客戶端以及抖音短視頻等平臺,增加圖書館網(wǎng)站功能的傳播。
筆者將數(shù)據(jù)挖掘中的決策樹算法引入高校圖書館網(wǎng)站分類研究中,利用決策樹算法和鏈接分析法相結(jié)合的方法,對高校圖書館網(wǎng)站的相關(guān)指標(biāo)數(shù)據(jù)進(jìn)行了收集和分析。研究結(jié)果表明,本次高校圖書館網(wǎng)站可分為四大類,在涉及的所有指標(biāo)中,PC詞數(shù)、一月收錄、百度權(quán)重3個(gè)指標(biāo)在決策樹分類模型構(gòu)建中占據(jù)重要位置。除此之外,PC詞數(shù)、移動詞數(shù)、百度權(quán)重、一月收錄、移動權(quán)重、總鏈接數(shù)、收錄量、反鏈數(shù)指標(biāo)對整個(gè)決策樹分類模型構(gòu)建的重要性依次降低?;谝陨涎芯砍晒?,筆者提出合理設(shè)置網(wǎng)頁版面,豐富網(wǎng)頁內(nèi)容;及時(shí)更新網(wǎng)頁內(nèi)容,增強(qiáng)網(wǎng)站與用戶間的交流,提高用戶黏度;廣泛運(yùn)用新媒體資源,增加宣傳和推廣。誠然,本次研究還有諸多不足,如數(shù)據(jù)量較小,指標(biāo)維度較少等,在日后的研究中,將進(jìn)一步收集網(wǎng)站信息,增加數(shù)據(jù)樣本量,同時(shí)拓寬指標(biāo)維度范圍,以提升研究成果的科學(xué)性。