●王雯霞 (中國醫(yī)科大學 沈陽 110122)
研究生教育是培養(yǎng)高層次人才的有效途徑。我國圖書情報研究生教育歷史較短,1978年全面恢復研究生培養(yǎng)制度后,武漢大學和南京大學圖書館學系開始招收首批碩士研究生[1]。面對信息時代出現(xiàn)的各種挑戰(zhàn),圖情領域的研究生教育發(fā)展方向更加多元化、專業(yè)化。國務院學位委員會于2010年通過了圖書情報碩士專業(yè)學位(MLIS)方案[2],標志著圖書情報碩士研究生教育進入一個新階段。筆者嘗試在總結國內圖書情報領域碩士研究生群體畫像的基礎上,為其科研能力的培養(yǎng)與發(fā)展提供解析和參考,有利于優(yōu)化圖書情報人才結構,提升核心競爭力。
關于圖書情報領域研究生培養(yǎng)的研究成果很豐富,有學者通過對我國臺灣地區(qū)[3]以及國外[4-7]圖書館學情報學碩士研究生教育和人才培養(yǎng)的詳細闡述,具體說明了新時代背景下研究生人才培養(yǎng)理念的轉變狀況。還有學者通過對中美圖書情報研究生培養(yǎng)方案的對比分析,提出對研究生培養(yǎng)應該基于職業(yè)需求,加強實踐和合作共享優(yōu)勢資源[8-9]。柯平等認為圖書情報學研究生教育是整個圖情教育體系的一個重要組成部分[10]。同時,對MLIS的研究近年來也受到學界的廣泛關注[11-13],這些研究成果一致認為通過優(yōu)化教學方式、完善師資隊伍等方式,能促進圖書情報碩士專業(yè)學位研究生的人才培養(yǎng)。
碩士研究生是充滿活力的科研生力軍,在導師的科研課題中承擔著重要角色,在科研活動中可以得到培養(yǎng),增長才干。目前有學者認為圖書情報碩士教育呈現(xiàn)出學術型和專業(yè)碩士并行的情況[14],相比側重理論研究的學術碩士,MLIS偏向應用,但在培養(yǎng)方式上都是理論學習、實踐實習、學位論文相結合[15]。在學位論文方面,兩者對科研能力的需求是重合的,但側重點不一致,學術碩士重點面向學術研究,對科研能力的需求高于專業(yè)碩士。學位論文是碩士研究生科研成果的重要產出形式,能展現(xiàn)圖情領域研究生教育的發(fā)展方向。針對學位論文的研究,有學者[16-17]采用關鍵詞和共詞分析的方法,對某一學科碩士論文進行分析,反映圖情領域的研究現(xiàn)狀和碩士選題特點。還有學者[18-20]對學位論文的研究是基于文獻計量的角度,指出圖書情報學碩士論文的研究主題日益多樣化,但稍落后于期刊論文。從現(xiàn)有研究結果來看,學者的關注點更多的是圍繞碩士學位論文,鮮有研究從整個攻讀碩士學位期間的科研成果角度展開,綜合分析碩士研究生作為學術研究后備軍的科研發(fā)展?jié)摿Α?/p>
虛擬用戶畫像的基礎是真實數(shù)據(jù),姓名、畢業(yè)院校、發(fā)表文獻題名、發(fā)表文獻被引量等差異化標簽可以區(qū)分不同用戶。畫像的標簽體系決定不同群體的細分程度,描述了不同碩士研究生群體的學術科研需求,因此搭建用戶畫像標簽數(shù)據(jù)集是首要目標。本文選擇中國知網(wǎng)“圖書情報與數(shù)字圖書館”專輯內的相關文獻,學位授予年度選擇2000—2018年,數(shù)據(jù)采集時間為2020年6月13日,共獲取7 045個樣本對象。以樣本對象的具體姓名和所在高校為檢索點,利用專業(yè)檢索式獲取每位碩士研究生的發(fā)文情況。為避免重復和兼顧查準率、查全率,姓名字段選擇精確匹配,單位字段選擇模糊匹配,檢索式設置為“AU=作者 and AF%學位授予單位”。采用Python作為爬蟲抓取語言,以知網(wǎng)公開的文獻網(wǎng)址為種子頁,共采集到7 045位作者發(fā)表的49 589篇文獻,數(shù)據(jù)采集時間為2020年10月。
根據(jù)樣本采集的源數(shù)據(jù)結構和研究目的,本文從用戶和行為兩個維度構建表格:用戶信息表存放圖情領域碩士研究生的基礎數(shù)據(jù),包含字段為姓名、畢業(yè)院校、學位授予時間、指導教師;文獻信息表描述該作者攻讀碩士學位期間發(fā)表文獻的相關信息,包含字段為作者、作者單位名稱、文獻題名、文獻來源、發(fā)表時間、被引量。
文獻信息表中的數(shù)據(jù)是冗余繁雜的原始資料,必須經過預處理才能變成有效信息。數(shù)據(jù)預處理分兩步進行。第一步是依據(jù)畢業(yè)院校的碩士研究生學制篩選特定時期內作者所發(fā)表文獻的相關信息。由于圖情領域部分期刊的出版周期為雙月刊、季刊等,文獻收錄見刊的時間較長,因此本文選取的特定時期是從作者入學到畢業(yè)后七個月以內。第二步是排除同單位中同名作者的情況,判斷依據(jù)首先是作者所發(fā)文獻中的簡介信息,其次是論文合著者。經過數(shù)據(jù)預處理后,僅擷取7 045位作者在攻讀碩士學位期間的16 352篇文獻。
群體用戶畫像構建與實現(xiàn)分三步展開:首先需要借助RFM模型對用戶行為特征進行篩選,提取可聚類變量近度R、頻度F、值度M;其次是在第一步的基礎上對碩士研究生群體進行聚類劃分;最后運用詞云分析可視化每類群體的論文顯著關鍵詞圍繞傾向,識別核心學術用戶,提供差異化的科研策略。
目前,多數(shù)學者認為用戶畫像的概念最早由Cooper A在1995年提出[21],最初的目的是加強軟件工程師之間的溝通。隨著精準信息服務需求的增加,用戶畫像逐步擴張到社交網(wǎng)絡[22]、健康醫(yī)療[23]、圖書館[24]等領域。何娟通過構建讀者的個人畫像和群體畫像推薦圖書,并結合問卷調查驗證此方法的有效性[25]。Kumar H等使用奇異值分解(SVD)為每個用戶建立一個聚類用戶興趣檔案(CUIP)[26]。Riccardo R等用微觀模擬工具模擬機場用戶的行動軌跡,構建決策支持系統(tǒng)為機場用戶管理提供建議[27]。用戶畫像方法作為實現(xiàn)精準服務的有效工具之一,也可以運用RFM模型構建用戶畫像。
RFM模型是由Hughes A M[28]提出的,該模型簡單易用,根據(jù)具體應用領域的差異,學者對傳統(tǒng)RFM模型中的指標含義進行修正。Miglautsch J R認為RFM模型的三個變量應該根據(jù)客戶差異賦予不同權重[29]。Liu D R等混合了基于加權RFM方法和基于偏好的協(xié)作過濾方法,改進硬件零售市場的有效個性化推薦[30]。Yeh I C等加入首次購買時間和客戶流失概率參數(shù)來擴展RFM模型[31]。Sarvari P A等人采用加權RFM(WRFM)和未加權RFM指標組成不同類型集群[32]。趙洪波為分析面向圖書館精準服務的讀者行為數(shù)據(jù),采用讀者最近相關活動數(shù)據(jù)(R) 、相關活動頻率數(shù)據(jù)(F) 、相關活動時間停留數(shù)據(jù)(M)三個指標為依據(jù)[33]。
群體畫像特征變量選取的是用戶的行為屬性,數(shù)據(jù)主要集中在文獻信息表中,包括6個字段,分別為作者、作者單位名稱、文獻題名、文獻來源、發(fā)表時間、被引量。借鑒上述的RFM模型指標含義,以進一步細分和識別碩士研究生為目標導向,根據(jù)發(fā)文行為的差異性,對RFM模型的指標含義進行調整。調整后的近度R表示在攻讀碩士學位期間,每個人最近一次文獻的發(fā)表時間與其畢業(yè)時間的間隔,以月為時間單位。頻度F表示在特定時間范圍內,每個人發(fā)表的文獻總量。被引量是衡量文獻學術價值的重要指標,值度M表示被引量的平均值。
(1)變量聚類。聚類分析可以通過指標的變量聚類,對不同指標的分類情況進行總體分析,以實現(xiàn)用戶分群的目標,但如何確定分類距離是聚類分析的關鍵。聚類算法中的距離測度要求變量之間具有一定的獨立性,因此在聚類之前,需要檢驗變量的分布狀態(tài)與獨立性。表1是對三個特征變量的基本統(tǒng)計量描述,從表中可以看出值度M具有較大的標準差,有的作者文獻被引均值為0,最大被引均值為88。根據(jù)表2中K-S檢驗的結果,顯著性sig均小于0.05,因此三個特征變量均不呈正態(tài)分布。
表1 描述統(tǒng)計量
如果聚類分析所選變量之間的相關性較強,會在度量個體“親疏”距離時進行重復計算,使同類變量占據(jù)較高權重,導致最終的聚類結果出現(xiàn)偏差,因此探索三個特征變量間的相關性關系是必要的。從表1中可以看出近度R和頻度F的極小值頻率均為3 048,百分比為43.3%,說明在7 045個樣本中,有3 048位作者只發(fā)表過1篇文章,考慮到此部分樣本占比近半且數(shù)據(jù)規(guī)律統(tǒng)一,可自成一類,需要對剩余的3 997個樣本對象進一步展開探討。表3是針對三個變量的相關系數(shù)檢驗表,表中顯示三個特征變量具有一定的獨立性,發(fā)文總量與被引均值呈微弱正相關,相關系數(shù)為0.237,發(fā)文總量較高,被引均值會略有提高;發(fā)文總量與時間間隔成微弱負相關,相關系數(shù)為-0.276,間隔越短的作者說明對學術的熱情較高,發(fā)文總量相應會高一些。
表3 Spearman的rho相關系數(shù)檢驗
(2)聚類分析結果。手肘法是一種利用SSE(Sum of the Squared Errors,誤差平方和)和K值的關系圖確認最優(yōu)K值的方式,其主要特點是隨著K值的不斷增大,樣本劃分的類別就越精細,SSE隨著聚類精確度的提高變得越小,呈現(xiàn)出下降趨勢[34]。按照手肘法的特點,選取K值范圍為2~10,繪制出K值與SSE的關系圖,如圖1所示。從圖中可知,隨著K值的增加,SSE不斷降低,當K>4時,下降幅度明顯降低,因此選取聚類數(shù)量的值為4。
圖1 K值與SSE的關系圖
使用手肘法根據(jù)三個特征變量將群體劃分為四類,再結合K-means聚類方法,7 045個樣本對象的聚類結果如表4所示。其中,第一類群體占比最高,數(shù)據(jù)個數(shù)為3 048;其次為第二類群體和第三類群體,兩者頻度F和值度M的聚類中心值很接近,但近度R有明顯差異;第四類群體共有367名,占比最小。
表4 聚類結果
7 045個樣本對象包含的發(fā)表文獻共16 352篇,根據(jù)四類群體的聚類結果進行劃分,群體一包含文獻3 048篇,群體二包含文獻9 496篇,群體三包含2 332篇,群體四包含1 476篇。關鍵詞能有效揭示文獻主題,是論文的必備要素,本文將各群體所包含文獻的關鍵詞單獨抽取出來,按照關鍵詞詞頻進行排序,依據(jù)詞頻表通過Python的中文分詞工具包制作出四類群體的詞云圖,如圖2~圖5所示。
圖2 群體一詞云圖
圖3 群體二詞云圖
圖4 群體三詞云圖
圖5 群體四詞云圖
群體一的顯著關鍵詞是服務、圖書館,具體涵蓋個性化信息服務、公共文化服務、公共圖書館。公共圖書館面向全社會,可以實現(xiàn)全民共享文化服務,個性化信息服務也是構建公共文化服務體系的基礎,三者的關聯(lián)可看出群體一的顯著關鍵詞的圍繞傾向是面向公眾的圖書館服務研究。
群體二的顯著關鍵詞是分析,包含比較分析、文獻計量分析、可視化分析、因子分析、內容分析。各種分析方法的使用基礎是豐富嚴謹?shù)臄?shù)據(jù),綜合運用這些方法可揭示研究現(xiàn)狀和熱點,為研究人員把握領域前沿提供有力的參考依據(jù)。
群體三的最顯著關鍵詞是信息,具體涵蓋信息需求和咨詢、信息組織、數(shù)字資源保存、信息資源管理等一系列信息行為。次顯著詞是被引次數(shù)、引文分析、MOOC、博客、微博,前兩者含義相近,后三者是在人工智能信息技術發(fā)展下興起的新事物。
群體四的最顯著關鍵詞是評價,具體包括網(wǎng)站評價、期刊評價等各種評價指標和體系的構建,次顯著關鍵詞比較分散,包含創(chuàng)客空間、共現(xiàn)分析、科學計量學、SERVQUAL(服務質量)、手機圖書館、特色數(shù)據(jù)庫、微信等。
本文聚焦于圖書情報碩士研究生群體的三個特征:在攻讀碩士學位期間的發(fā)文總量、最近一次文獻的發(fā)表時間與其畢業(yè)時間的間隔、文獻被引量的平均值,結合K-means算法將群體聚為四類。
群體一的特征是頻度F為1、近度R為0,說明在攻讀碩士學位期間,群體一的碩士研究生只發(fā)表了1篇文獻,即碩士畢業(yè)論文。碩士畢業(yè)論文是獲得碩士學位的必要條件之一,也是衡量研究生科研水平和創(chuàng)新能力的重要依據(jù),群體一只是完成了必不可少的畢業(yè)論文,處于碩士研究生群體的科研邊緣位置,可以歸屬為低價值群體。低價值群體的用戶基數(shù)在群體中分布最廣,對科研論文還處于起步階段,論文顯著關鍵詞方向偏向基礎理論,該群體在某種程度上是學術成果的宣傳大軍。針對這部分群體首先需要進行更加深入的信息素養(yǎng)教育,潛移默化地提升其信息處理能力;其次可以從研究領域內的綜述、高被引論文入手,讓群體用戶更加了解研究領域的熱點問題和發(fā)展趨勢,明晰不同用戶的科研興趣點。
群體三的特征是頻度F為3、近度R為14,說明在攻讀碩士學位期間,除了必要的碩士畢業(yè)論文,群體三的碩士研究生平均每人發(fā)表2篇文獻,發(fā)表時間距離畢業(yè)時間14個月,大約是在研二階段。根據(jù)詞云圖顯示,群體三發(fā)表文獻的最顯著關鍵詞涵蓋了各種信息行為,揭示出該群體已經具備信息檢索和利用等科研技能,結合數(shù)值為14的近度,可以歸屬為重要挽留群體。重要挽留群體具備承擔課題輔助工作或接受科學研究全面訓練的能力,發(fā)文總量多,但最近一次發(fā)文時間間隔較長,是容易發(fā)展為科研潛力軍的類型。重要挽留群體可被視為潛在的科研輸出型用戶,可以制定相應措施對這部分群體用戶進行引導,提高該群體的科研積極性和活躍度,縮短科研發(fā)文的時間間隔。
群體二的特征是頻度F為3、近度R為3,說明在攻讀碩士學位期間,群體二的碩士研究生平均每人發(fā)表3篇文獻,且發(fā)文時間間隔較短,基本與碩士畢業(yè)論文同步完成,結合文獻顯著關鍵詞傾向,可以歸屬為重要發(fā)展群體。重要發(fā)展群體能兼顧發(fā)文總量和發(fā)文時間間隔,表明該群體可以綜合運用知識發(fā)現(xiàn)問題、分析問題、解決問題,在某一研究方向有深層次的挖掘,在相應的研究方向中具有較高的科研基礎,可以極大地提升發(fā)文的效率。針對重要發(fā)展群體,可以判定此類用戶在發(fā)文需求方面較為突出,從發(fā)文行為模式來看,這類群體對文獻內容和分析方法有深入的思考,具有相對完善的理論應用系統(tǒng)性,相比于重要挽留群體,前者在快速產出科研成果方面有明顯優(yōu)勢。滿足重要發(fā)展群體的科研需求是首要影響因素,其次是聚合科研方向相近的同伴,給群體用戶之間進一步探討的空間。
群體四的特征是頻度F為4、近度R為5、值度M為22.21,說明在攻讀碩士學位期間,群體四的碩士研究生平均每人發(fā)表4篇文獻,發(fā)文時間間隔大約為5個月,文獻被引量的平均值很高,大約為其他三類群體的5~7倍,可以歸屬為高價值群體。高價值群體是碩士開展科研的核心用戶,從文獻顯著關鍵詞傾向可以看出,此類用戶的研究方向比較新穎熱門,發(fā)文活躍性也最高。高價值群體用戶數(shù)量較少,發(fā)文質量較高,首先可以為該群體推薦研究前沿的高質量文獻,便于用戶及時掌握科研發(fā)展動向。其次是開展差異化的專項指導,引導并鼓勵用戶積極參與科研或者申請項目課題,進一步促使該群體在不同科研成果類型中多開花。
碩士作為科研后備軍,具備較大的科研發(fā)展?jié)摿蛣?chuàng)新精神。本文基于用戶畫像相關理論方法,選擇2000—2018年圖書情報碩士在整個攻讀碩士學位期間的發(fā)文情況作為研究對象,根據(jù)碩士的發(fā)文偏好進行群體畫像描述,發(fā)現(xiàn)四類不同的研究生群體。在7 045個樣本對象中,43%的碩士只完成了必要的碩士畢業(yè)論文,57%的碩士發(fā)文數(shù)量在3篇以上,表明圖書情報領域碩士研究生不僅僅滿足于獲取學位,而且在科研方面有較強的需求。從發(fā)文質量角度衡量,只有5%的碩士研究生的文獻平均被引量比較突出,是核心學術用戶,是圖情領域可持續(xù)發(fā)展的基礎力量和核心競爭力。
梳理整個研究,仍然存在不足之處,首先受到中國知網(wǎng)學科分類的局限,本文僅以中國知網(wǎng)“圖書情報與數(shù)字圖書館”領域為樣本對象,實際上不同數(shù)據(jù)庫中碩士研究生的收錄情況可能是有少量不同的。其次是抓取時機問題,筆者選取的碩士學位授予年度是2000—2018年,如能結合不同數(shù)據(jù)庫中更多時間段內的碩士發(fā)文情況,將能更加清晰地了解碩士研究生的發(fā)文行為特征,從而提供精準化、個性化的科研發(fā)展策略。