——以《中華醫(yī)學雜志》為例"/>
■張 凱
中南財經(jīng)政法大學,信息與安全工程學院,武漢南湖大道182號 430073
大數(shù)據(jù)是新的技術革命,新的社會現(xiàn)象,也是新的沖擊,它使期刊研究工作面臨前所未有的挑戰(zhàn)和機遇[1]。在這一新的歷史條件和背景下,期刊的影響力,特別是在大眾百姓中的影響力已成為眾多期刊和學者都比較關心的新問題。各期刊迫切想了解其影響力有多大?讀者人群有哪些人?人群在全國各地區(qū)怎樣分布?男女比例多少?其影響力是上升還是下降?等等。另外,目前期刊研究工作者也比較關注大數(shù)據(jù)期刊研究新方法的探索,以及如何利用大數(shù)據(jù)計算機平臺進行其研究。
讀者的需求、心態(tài)和看法對科技期刊質(zhì)量的提高有較強的“驅動力”。早年的“讀者來信”是編輯了解讀者的重要途徑[2],讀者調(diào)查是另外一種方式[3],由此可以了解讀者的需求[4]和心理活動[5],并通過調(diào)查建立起作者和讀者的關系[6],讀者問卷是讀者調(diào)查的重要手段[7]。
“期刊大數(shù)據(jù)”方面的研究主要包括科技期刊的未來形態(tài)[8]、編輯的信息素養(yǎng)[9]、期刊出版方式[10]、期刊評價體系創(chuàng)新[11]等。 “知網(wǎng)” 檢索尚未發(fā)現(xiàn)“大數(shù)據(jù)期刊影響力”的文獻。
在“知網(wǎng)”檢索“期刊影響力”的文獻約1.2萬條,其研究主要有期刊質(zhì)量與期刊影響力[12]、期刊影響力評價指標體系[13]、國際影響力分析[14]、期刊影響力調(diào)查分析[15]等。
Tong Hey[16]在《第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)》一書中指出,科學研究范式經(jīng)歷了四個階段:經(jīng)驗科學、理論科學、計算科學和密集型數(shù)據(jù)科學。Jim Gray[17]提出:第四范式以數(shù)據(jù)為基礎,結合實驗、理論和計算機模擬為一體的數(shù)據(jù)密集計算。
綜上,近年期刊讀者調(diào)查,期刊影響力和期刊大數(shù)據(jù)方面的研究,均有學者涉足,但大數(shù)據(jù)期刊影響力方面調(diào)查和分析文獻相對少見。從樣本量大小看,大數(shù)據(jù)網(wǎng)絡調(diào)查較傳統(tǒng)讀者調(diào)查和分析得到的結果更有說服力。如果能將第四范式理論框架用于期刊影響力研究,并結合密集數(shù)據(jù)處理技術和計算機數(shù)據(jù)處理技術,將有可能提出新的方法并得到新的結論。
與傳統(tǒng)期刊影響力研究不同,本文試圖提出一種如何利用(百度)大型網(wǎng)絡計算節(jié)點進行大數(shù)據(jù)研究的方法,以及如何利用計算機網(wǎng)絡進行期刊讀者大數(shù)據(jù)調(diào)查的方法,并以有百年歷史的、有一定代表意義的科技期刊《中華醫(yī)學雜志》為例,借助百度指數(shù)[18]平臺,通過大數(shù)據(jù)分析和挖掘,發(fā)現(xiàn)其中的規(guī)律和結論。
21世紀初的人類基因組計劃開創(chuàng)了大數(shù)據(jù)處理的先河,其流程包括采集、處理、存儲、分析和解釋。密集型數(shù)據(jù)處理過程[19]包括第一步大數(shù)據(jù)采集;第二步原始數(shù)據(jù)處理;第三步用軟件工具進行數(shù)據(jù)計算;第四步數(shù)據(jù)挖掘;第五步數(shù)據(jù)可視化。
根據(jù)以上兩個流程,筆者提出一種研究期刊大數(shù)據(jù)的流程,見圖1。
圖1 研究分析期刊大數(shù)據(jù)的流程
第一步,尋找并采集大數(shù)據(jù)。百度每天響應6億用戶超過60億次的搜索請求,日處理數(shù)據(jù)超過100PB,相當于6000多個中國國家圖書館書籍信息總量。它是一個大數(shù)據(jù)倉庫,可作為學術研究的數(shù)據(jù)源。百度大數(shù)據(jù)對期刊研究有四個的優(yōu)勢,即沒有語言障礙,符合國情,對外開放和有免費工具。
第二步,尋找和準備大型計算平臺。因體量大,類型多,生產(chǎn)、傳輸和處理速度快,潛在價值大等特點,大數(shù)據(jù)處理起來比較困難,因此,需要合適的大型硬件平臺支持。大型計算平臺有兩種,一是網(wǎng)絡節(jié)點(多臺網(wǎng)絡設備相連的匯聚點,配刀片服務器,海量存儲和萬兆交換機等),比如百度網(wǎng)絡節(jié)點;二是大型超級計算機,比如“天河二號”。其使用有較大難度,需與專業(yè)人士合作。
第三步,大數(shù)據(jù)分析和挖掘,就是利用算法和軟件從數(shù)據(jù)中挖掘有用的信息。百度可基本滿足這一要求。如其能力不足,可輔助一些其他方法(如分形理論和灰色理論)和工具(如excel軟件)。
第四步,數(shù)據(jù)可視化,是利用計算機圖形方法直觀顯示復雜的計算數(shù)據(jù)。百度提供了一些可視化工具,如曲線、圖譜、指數(shù)、熱圖、輻射圖、流線圖等,可滿足要求。對其不足,可利用繪畫板和Photoshop進行數(shù)字圖像處理。
第五步,解釋結果和撰寫論文。
百度平臺不僅提供了一種大數(shù)據(jù)計算資源,也提供了一種大數(shù)據(jù)網(wǎng)絡調(diào)查方法。
網(wǎng)絡調(diào)查,即通過網(wǎng)絡信息系統(tǒng)進行某一主題的調(diào)查。百度是國內(nèi)最大的網(wǎng)民搜索系統(tǒng)。在目前大數(shù)據(jù)源不多的情況下,可以將其作為大數(shù)據(jù)源的選項之一。學者可利用這一免費資源。
指數(shù)是從研究對象中提取出的一種特征指標。百度指數(shù)是海量搜索行為在某一方面的特征量統(tǒng)計?!鞍俣戎笖?shù)”是百度的一個子系統(tǒng),可提供數(shù)據(jù)采集、存儲、挖掘、分析和可視化服務,包括四個模塊:①趨勢研究。進行關鍵詞搜索,提供搜索指數(shù)。②需求圖譜。提供中心詞搜索分布。③輿情洞察。提供媒體指數(shù)和十條頂級熱門新聞。④人群畫像。提供關鍵詞訪問人群的各省市分布,性別和年齡分布[18]。
其設計原理是:搜索關鍵詞可以反映用戶搜索前后的需求。百度用戶上億,每日搜索幾十億次,其大數(shù)據(jù)統(tǒng)計可從一個側面反映出用戶某個方面的“想法”。百度引擎篩選出的關鍵詞是下一步搜索的來源詞,按相關程度排序。搜索的關鍵詞可反映用戶搜索指數(shù)熱度,其排序算法通過計算關鍵詞所有相關詞的搜索指數(shù)在指定時間窗口內(nèi)的環(huán)比變化率排序得出。本文利用這一原理,研究網(wǎng)民搜索“中華醫(yī)學雜志”關鍵詞的需求,了解其變化趨勢,人群、地域和年齡分布及關聯(lián)性。
百度指數(shù)的使用方法是[18]:登錄其首頁,在搜索框內(nèi)輸入關鍵詞,按一下“查看指數(shù)”按鈕即可。
在“百度指數(shù)”中輸入關鍵字“中華醫(yī)學雜志”,可獲得相關數(shù)據(jù)和可視化圖形。下面進行“中華醫(yī)學雜志”的詞匯熱度變化分析,搜索熱度排名分析,搜索區(qū)域熱圖及排名分析,詞匯熱圖及相關性分析,以及關鍵詞熱度比較分析。
表1是2011年1月1日至2015年12月20日“中華醫(yī)學雜志”一詞每周的搜索次數(shù),共260周260個數(shù)。第一行第一列為第一周的百度搜索次數(shù),第一行第二列為第二周的百度搜索次數(shù),以此類推。圖2為該詞熱度變化的趨勢圖,它可以由表1產(chǎn)生。
為了解“中華醫(yī)學雜志”一詞搜索熱度趨勢,現(xiàn)運用“均值灰生成方法”進行數(shù)據(jù)處理?;疑碚撌切颖緮?shù)據(jù)處理工具,其灰生成方法可以處理曲線段數(shù)據(jù),用于其大致趨勢分析。將260個數(shù)據(jù)分為2組,分別求出其平均值。在此筆者設計了一個計算公式(1):
其中j=1,2,n=260/2。 利用公式(1)計算表1可以得到y(tǒng)1=344.36和y2=252.35。
比較發(fā)現(xiàn),y1>y2,且y1-y2=92.01。這說明“中華醫(yī)學雜志”搜索次數(shù)總體呈下降趨勢,且下降趨勢明顯。從百度指數(shù)300點(每周網(wǎng)民搜索的次數(shù))下降至200點,這意味五年減少了約三分之一。
觀察圖3發(fā)現(xiàn),曲線有若干個“最低點”,這段時間恰好為春節(jié)期間。同時還發(fā)現(xiàn)國慶節(jié)期間也有類似情況。元旦和勞動節(jié)期間有類似的情況,但不明顯。為深入了解這種現(xiàn)象,特選取了有代表性的2012-2015年時期的圖形,見圖3。矩形標識了春節(jié)期間曲線段,橢圓標識了國慶節(jié)期間曲線段。
表1 每周搜索次數(shù)(2011年1月1日至2015年12月20日)
圖2 詞匯熱度變化趨勢圖
圖3 詞匯熱度變化局部分形相似圖
近五年百度指數(shù)呈快速下降趨勢,從每周300多點下降到每周200多點。這從一個側面反映了“大眾百姓”對《中華醫(yī)學雜志》關注的減少,也反映其社會影響力的下降。
春節(jié)期間的休假對搜索次數(shù)影響最大,國慶節(jié)其次,勞動節(jié)和元旦的影響不明顯。這說明搜索次數(shù)與節(jié)假日相關,且節(jié)假日越長,影響越大。每年元旦、春節(jié)、勞動節(jié)和國慶節(jié)期間搜索次數(shù)下降形成的曲線呈現(xiàn)分形特征,即相似性。
其分形相似性表現(xiàn)在兩個方面:一是圖形的相似性,即元旦、春節(jié)、勞動節(jié)和國慶節(jié)期間搜索次數(shù)下降形成的曲線形狀相似,見圖3。二是周期相似性。這里的周期性指“準”周期性,因為每年的春節(jié)時間不固定。因此幾年的周期曲線不會完全重合,見圖3的節(jié)假日周期。
產(chǎn)生分形相似性的原因是混沌吸引子的作用。這里的吸引子就是節(jié)假日人們內(nèi)心休假放松力的驅動,導致周搜索量下降。當節(jié)假結束上班后,其周搜索又恢復正常。于是形成了上下起伏的波形。
圖4顯示了關鍵詞在“百度知道”上相關提問、回答和瀏覽熱度[18]。排名第一的是“中華醫(yī)學雜志有哪些?”其搜索的熱度最高,所占比例也最大,預覽熱度直線最長?!爸腥A醫(yī)學雜志是核心期刊嗎?”排名第二,其預覽熱度直線長度次之,只有第一名的三分之一。從第三到第十名,其預覽熱度直線長度都較短。
圖4 搜索關鍵詞熱度排名圖
這里的熱度詞匯提問人群只有一類,即學者,這類人幾乎占了全部。這說明關注《中華醫(yī)學雜志》的不是普通大眾百姓,而是醫(yī)學專業(yè)的學者。他們搜索的目的是要了解《中華醫(yī)學雜志》及系列雜志,中華醫(yī)學雜志是否為核心期刊,屬于哪個級別,是否容易投稿,怎么投稿,怎么訂閱等問題。
圖5根據(jù)百度用戶搜索數(shù)據(jù),采用數(shù)據(jù)挖掘方法,對關鍵詞的人群屬性進行聚類分析,給出用戶所屬的省份、城市,及城市級別的分布及排名[18]。其中前十名的排序為北京、江蘇、上海、廣東、浙江、河南、四川、山東、湖北、天津。省市前十名排序反映了搜索人群的三個等級。第一級在北京,人數(shù)最多,也最關心該雜志,是江蘇、上海、廣東和浙江地區(qū)的三倍;第二級在江蘇、廣東、浙江和上海地區(qū),即東南沿海地區(qū),這幾個地區(qū)的人群數(shù)差不多,其人群是四川、河南、山東、天津和湖北地區(qū)的兩倍;第三級在河南、四川、山東、湖北和天津地區(qū),即中部地區(qū),這幾個地區(qū)的人群數(shù)差不多。由東南向西北,關注人群逐步減少。男性占比72%,女性28%,男性是女性的2.6倍。其中30-39歲的最多,約52%;40-49歲的其次,約22%;20-29歲的再次,約占19%。20-49歲人占93%。
圖5 搜索區(qū)域熱圖及排名
圖6由綜合計算關鍵詞與相關詞的相關程度,以及相關詞自身的搜索需求大小得出。相關詞距圓心的距離表示相關詞與中心檢索詞的相關性強度,相關詞自身大小表示相關詞自身搜索指數(shù)大?。?8]?!爸腥A醫(yī)學雜志”一詞在熱圖中的圓直徑最大,“中國知網(wǎng)”一詞其次,“知網(wǎng)”一詞再次,其他關聯(lián)詞的圓直徑不大且大小差不多。
與“中華醫(yī)學雜志”一詞“強相關”的依次是“實用醫(yī)學雜志”“中華醫(yī)學會”“中華醫(yī)學雜志官網(wǎng)”和“中華醫(yī)學雜志英文版”4個詞。與“中華醫(yī)學雜志”一詞“相關”的包括:“中國知網(wǎng)”“知網(wǎng)”“中醫(yī)雜志”“中國醫(yī)學雜志”“官網(wǎng)”“內(nèi)科”“英文”“中國”“實用”“中華內(nèi)科雜志”“中華心血管雜志”11個詞。其他與“中華醫(yī)學雜志”一詞“弱相關”的9個詞。
與“中華醫(yī)學雜志”一詞“強相關”的詞只有4個,其數(shù)量偏少。“相關”的詞11個也不多,“弱相關”的詞9個,共24個。這從一個側面反映“中華醫(yī)學雜志”與其他詞、概念或學科的“弱相關性”。
圖6 詞匯熱圖及相關性
“中國知網(wǎng)”和“知網(wǎng)”圓直徑較大說明其被關注度高。《中華醫(yī)學雜志》沒有上中國知網(wǎng),因此,在知網(wǎng)上查不到其刊登的文章,學者只好轉向互聯(lián)網(wǎng)上查詢《中華醫(yī)學雜志》,于是它與“知網(wǎng)”產(chǎn)生了關聯(lián),這也反映出學者在用“知網(wǎng)”查閱學術論文方面的需求和習慣,以及查閱《中華醫(yī)學雜志》不便。進一步討論見本節(jié)第五部分。除“中國知網(wǎng)”和“知網(wǎng)”之外,所有“強相關”“相關”和“弱相關”詞的熱度(圓的直徑)都不大,這反映了相關詞、概念或學科的影響力不大。
“中華醫(yī)學雜志”一詞與所有相關詞的距離不很貼近說明“中華醫(yī)學雜志”與所有相關詞的相關性不強,或準確地說有點偏弱。這說明《中華醫(yī)學雜志》與其他學科關聯(lián)度低,相對獨立。
在百度指數(shù)中輸入“中華醫(yī)學雜志”“中國知網(wǎng)”和“知網(wǎng)”3個關鍵詞比較檢索可以得到圖7。在2015年12月30天內(nèi)《中華醫(yī)學雜志》周搜索次數(shù)整體同比和環(huán)比均下降2%。這與本節(jié)第一部分的結論一致。通過計算可知,“中國知網(wǎng)”和“知網(wǎng)”熱詞周搜索次數(shù)分別是《中華醫(yī)學雜志》的171和113倍,反之它只是其他二者周搜索的0.58%和0.88%?!爸袊W(wǎng)”和“知網(wǎng)”合計周搜索71201次,而《中華醫(yī)學雜志》僅為251次,二者合計是它的284倍。
《中華醫(yī)學雜志》每周搜索次數(shù)整體同比和環(huán)比均呈下降趨勢,與此同時,“中國知網(wǎng)”和“知網(wǎng)”每周搜索次數(shù)整體同比和環(huán)比均呈上升趨勢,并且“中國知網(wǎng)”和“知網(wǎng)”合計周搜索次數(shù)是《中華醫(yī)學雜志》的近300倍。這說明(中國)知網(wǎng)在網(wǎng)民中的影響力呈上升趨勢,而《中華醫(yī)學雜志》的影響力呈下降趨勢,前者的影響力是后者的近300倍。
圖7 關鍵詞熱度比較
信息搜索是網(wǎng)民對某一關鍵詞信息需要的行為操作,這種操作反映了其行為需求意向。百度引擎是一個信息搜索平臺,百度指數(shù)是對海量搜索行為的一種數(shù)據(jù)統(tǒng)計。百度每日搜索量達幾十億次,經(jīng)長期日積月累,網(wǎng)民搜索行為的大數(shù)據(jù)統(tǒng)計可從一個側面反映出網(wǎng)民某個方面的“人群意向”。百度指數(shù)通過對這個關鍵詞搜索量的統(tǒng)計,即可了解該關鍵詞在大眾中的影響力。如果將某個科技期刊名作為關鍵詞,就可以通過百度指數(shù)了解這個期刊的社會影響力。本文正是基于這一想法,將百度指數(shù)與期刊的社會影響力關聯(lián)起來,借助百度指數(shù)展開科技期刊影響力的研究。
如前所述,中國“知網(wǎng)”的百度指數(shù)是《中華醫(yī)學雜志》的284倍,而且前者的百度指數(shù)還在上升,后者則在快速下降。在此筆者友善提醒《中華醫(yī)學雜志》應認真思考其原因。據(jù)了解,《中華醫(yī)學雜志》的論文在2006年以前曾經(jīng)上過“知網(wǎng)”,后來退出“知網(wǎng)”改由自己的網(wǎng)站公開刊登論文,任由用戶查看。當然這是非常開明的舉措,但遺憾的是近年《中華醫(yī)學雜志》在網(wǎng)民中的影響力下降,而這又是《中華醫(yī)學雜志》不愿意看到的。因此,筆者建議《中華醫(yī)學雜志》在自己網(wǎng)站刊登論文的同時,也不妨將其論文上“知網(wǎng)”,借助“知網(wǎng)”進一步擴大其影響,同時方便學者多渠道查閱其論文。
(1)數(shù)據(jù)源不足。本研究數(shù)據(jù)僅來源于百度,過于單一。但百度搜索統(tǒng)計的樣本量較大,在數(shù)十億之上,從某個角度看,本研究結果可信。
(2)盡管百度指數(shù)取自于百度大數(shù)據(jù)源,但針對《中華醫(yī)學雜志》搜索獲得的數(shù)據(jù)量有限,只有200-300次,關注它的人群數(shù)量不大,因此分形相似比統(tǒng)計無法求出。
(3)百度指數(shù)只給出了四種可視化結果,對其研究的不同側面數(shù)量偏少,且主要是國內(nèi)數(shù)據(jù)。因此,得到的結論只是國內(nèi)大數(shù)據(jù)分析得到的結果。
下一步將針對其不足展開研究。
[1]吳鋒.“大數(shù)據(jù)時代”科技期刊的出版革命及面臨挑戰(zhàn)[J].出版發(fā)行研究,2013(8):66-70.
[2]楊穎,錢壽初,游蘇寧.中外醫(yī)學期刊《讀者來信》欄目現(xiàn)狀的分析與思考[J].編輯學報,2007(3):209-211.
[3]侯春梅,遲秀麗,朱曉文.為我國學術期刊質(zhì)量建設建言——一份學術期刊讀者調(diào)查報告解析[J].出版廣角,2008(5):21-24.
[4]李偉,關衛(wèi)屏,游蘇寧,等.醫(yī)學期刊讀者閱讀需求調(diào)查分析[J].中國科技期刊研究, 2012(3):419-422.
[5]亓國,張宜軍,馬迎杰,等.讀者對科技期刊傳播的心理需求及啟示[J].中國科技期刊研究,2015,26(1):23-26.
[6]程杰,諸靜英,楊美琴,等.醫(yī)學科技期刊作者與讀者調(diào)查[J].中國科技期刊研究,2013,24(5):992-994.
[7]曹娟.學術期刊讀者調(diào)查問卷的設計與調(diào)查方法分析[J].傳播與版權,2015(10):49-51,53.
[8]田丁.大數(shù)據(jù)時代科技期刊的未來形態(tài)[J].中國科技期刊研究,2014,25(2):232-236.
[9]彭遠紅,孫怡銘.簡論大數(shù)據(jù)時代科技期刊編輯的信息素養(yǎng)[J].科技與出版,2014(3):85-87.
[10]趙文義.學術期刊大數(shù)據(jù)出版研究[J].出版發(fā)行研究,2016(3):50-52.
[11]龐達.大數(shù)據(jù)時代學術期刊評價體系創(chuàng)新研究[J].新聞研究導刊,2016(3):16-17.
[12]程郁綴,劉曙光.論文質(zhì)量、期刊質(zhì)量與期刊影響力[J].陜西師范大學學報(哲學社會科學版),2010(5):64-69.
[13]張積玉.學術期刊影響力及其評價指標體系的構建[J].陜西師范大學學報(哲學社會科學版),2010(5):70-76.
[14]劉筱敏,馬娜.中國科協(xié)科技期刊國際影響力分析[J].中國科技期刊研究,2014,25(3):335-339.
[15]金鑫,李雪嬌,吳靖.中文OA期刊影響力調(diào)查分析[J].出版發(fā)行研究,2012(10):74-78.
[16]Tony Hey,Stewart Tansley, Kristin Tolle.The fourth paradigm[M].Washington: M icrosoft Press, 2009.
[17]Gray J, Hey T, Tansley S, et al.Jim Gray on eScience: A Transformed Scientific Method [M].Washington: Microsoft Press,2007.
[18]http://index.baidu.com[OL],百度指數(shù).
[19]宮學慶,金澈清,王曉玲,等.數(shù)據(jù)密集型科學與工程:需求與挑戰(zhàn)[J].計算機學報,2012(8):1563-1576.