張文飛 唐沛
海量內(nèi)容集成、高效信息處理、智能數(shù)據(jù)分析……數(shù)字技術(shù)和信息技術(shù)儼然已經(jīng)重構(gòu)了專業(yè)出版的方方面面,也帶來了學(xué)術(shù)服務(wù)無限暢想的可能,如信息組織集成化將帶來全面精準(zhǔn)的內(nèi)容提供,信息處理數(shù)據(jù)化使實時把握科研動態(tài)成為現(xiàn)實,信息管理智能化讓科研成果管理變得更加高效,信息傳播社交化促進即時互動的學(xué)術(shù)交流,信息載體多樣化形成隨時隨地多終端閱讀的便捷體驗等。本文擬以人大數(shù)媒科技(北京)有限公司(以下簡稱“人大數(shù)媒”)的探索為例,從學(xué)術(shù)內(nèi)容服務(wù)、學(xué)術(shù)分析服務(wù)、學(xué)術(shù)管理服務(wù)三個維度簡要探討如何借助數(shù)字技術(shù)和信息技術(shù)實現(xiàn)學(xué)術(shù)服務(wù)模式的創(chuàng)新。
一、重構(gòu)學(xué)術(shù)內(nèi)容服務(wù)模式
學(xué)術(shù)內(nèi)容服務(wù)中,信息的獲取是學(xué)者最迫切的常態(tài)化需求。數(shù)字技術(shù)影響下的學(xué)術(shù)領(lǐng)域中,學(xué)者用戶關(guān)注的不再是簡單的文獻、知識的獲取,而是如何從復(fù)雜的信息環(huán)境當(dāng)中汲取解決所面臨問題的信息內(nèi)容,并將這些信息動態(tài)重組為相應(yīng)的解決方案。然而,由于互聯(lián)網(wǎng)低質(zhì)信息泛濫,目標(biāo)信息極易被淹沒在海量信息中,更多的信息卻無法帶來更多的價值;快速瀏覽信息的互聯(lián)網(wǎng)閱讀方式也會受到海量內(nèi)容噪音(如廣告、圖片、彈出窗口、社交工具、電子郵件等)的干擾,令學(xué)者難以保持長時間的閱讀專注力,對學(xué)者的系統(tǒng)化思考、概念抽象、內(nèi)省、推理、批判性思維等方面帶來難以評估的不良影響;與此同時,完全市場化的互聯(lián)網(wǎng)消費模式中,學(xué)術(shù)內(nèi)容良莠不齊,大量吸引眼球的低質(zhì)重復(fù)性內(nèi)容充斥屏幕,真正優(yōu)質(zhì)的學(xué)術(shù)內(nèi)容難以脫穎而出,隱形信息極難捕捉,往往令學(xué)者搜索無方,有心無力。
解決這一現(xiàn)狀的創(chuàng)新探索主要可以著力于兩個方面:一方面是通過用戶分析技術(shù),整合用戶的身份屬性(如性別、職業(yè)、專業(yè)、研究方向等)、興趣屬性(如閱讀偏好、分類維度等)、行為屬性(如瀏覽、收藏、訂購記錄等)、統(tǒng)計數(shù)據(jù)(如ARPU付費率、PV瀏覽量等)等數(shù)據(jù)信息,實時向用戶推送其感興趣或有潛在需求的內(nèi)容,充分實現(xiàn)內(nèi)容與用戶興趣及專業(yè)方向的匹配;另一方面采用用戶上傳、自有信息建設(shè)、站外信息抓取等手段,實現(xiàn)網(wǎng)絡(luò)信息采集與動態(tài)重組,滿足用戶學(xué)術(shù)信息一站式獲取需求。
人大數(shù)媒“學(xué)者在線”項目組所進行的幾點探索,也許能帶給人們一定的啟發(fā)。“學(xué)者在線”人文社科學(xué)術(shù)成果發(fā)布和共享平臺,是人大數(shù)媒依托中國人民大學(xué)書報資料中心的期刊、文章、學(xué)者等學(xué)術(shù)數(shù)字資源,開發(fā)的一款致力于實現(xiàn)前沿學(xué)術(shù)研究成果追蹤、海量學(xué)術(shù)信息跨庫搜索及應(yīng)用、學(xué)者交流互動及成果自助出版等功能的多終端互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)應(yīng)用平臺。
首先,“學(xué)者在線”提供面向用戶興趣點的實時內(nèi)容推送,以保證用戶能準(zhǔn)確獲得目標(biāo)信息。平臺功能模塊引導(dǎo)用戶關(guān)注所在學(xué)科方向的期刊、文章、學(xué)者,主動向用戶推送目標(biāo)信息更新內(nèi)容。例如,某用戶關(guān)注了學(xué)者陳雨露,系統(tǒng)將根據(jù)用戶自定義條件,將陳雨露最新發(fā)表的論文及相關(guān)領(lǐng)域其他學(xué)者的論文主動推送給用戶。同時,用戶可進行“論文點擊量大于X(數(shù)量)、論文被引量大于X(數(shù)量)、論文引用我的文章、論文作者含我的關(guān)系學(xué)者、論文屬于我關(guān)注的學(xué)科”等個性化內(nèi)容推送方面的設(shè)置。
其次,“學(xué)者在線”提供面向用戶研究領(lǐng)域的學(xué)術(shù)資源整合,保證用戶在細(xì)分研究領(lǐng)域全面精準(zhǔn)地獲得信息。其“學(xué)術(shù)資源脈絡(luò)”產(chǎn)品整合了論文、期刊、圖書、學(xué)者、機構(gòu)、項目、會議等資訊信息,學(xué)者只需點擊進入所關(guān)注的領(lǐng)域頁面,就能一站式獲取其希望查詢的相對全面的學(xué)術(shù)資訊。
再次,“學(xué)者在線”提供面向內(nèi)部數(shù)據(jù)庫與外部數(shù)據(jù)庫之間的知識網(wǎng)絡(luò)鏈接,保證用戶在多個數(shù)據(jù)庫之間便捷地檢索內(nèi)容,不需要在多個網(wǎng)站或頻道間頻繁跳轉(zhuǎn)。例如,用戶搜索某篇論文,頁面將顯示出其來源出自萬方數(shù)據(jù)庫、中國知網(wǎng)、維普數(shù)據(jù)庫等鏈接地址。事實上,用戶關(guān)心的也僅僅是信息本身,而非信息提供方。
同時,“學(xué)者在線”應(yīng)用強大的LBS技術(shù),可以為學(xué)者提供隨時隨地的學(xué)術(shù)信息的實時獲取。例如,某學(xué)者來北京參加某個學(xué)科領(lǐng)域的研討會,“學(xué)者在線”移動端可根據(jù)學(xué)者所在位置的變化,實時為他推薦同城該領(lǐng)域及他所關(guān)注的學(xué)術(shù)領(lǐng)域的課程、會議、活動信息,以方便該學(xué)者利用出差在外的空余時間參與同行交流。
二、重構(gòu)學(xué)術(shù)分析服務(wù)模式
網(wǎng)絡(luò)時代的數(shù)據(jù)采集和分析方興未艾,基于精準(zhǔn)定量分析的學(xué)術(shù)觀察還不完善,無論是機構(gòu)還是學(xué)者個人,往往都只能看到自己一畝三分地里的變化,專注于現(xiàn)象而非規(guī)律,了解個體而非全貌,癡迷于量化而非分析,這讓各學(xué)術(shù)主體既缺乏溝通,也缺乏戰(zhàn)略前瞻性眼光,對其自身發(fā)展十分不利。當(dāng)前學(xué)術(shù)界的各項排名榜單和數(shù)據(jù)分析也多止步于封閉系統(tǒng)中的感性認(rèn)知,形成一個個信息孤島,較少關(guān)注信息的內(nèi)在聯(lián)系和學(xué)術(shù)發(fā)展脈絡(luò)走勢。比如說,我們可以從2012人大《復(fù)印報刊資料》轉(zhuǎn)載學(xué)術(shù)論文指數(shù)排名中得知在2012年度中,中國人民大學(xué)在哲學(xué)、理論經(jīng)濟學(xué)、應(yīng)用經(jīng)濟學(xué)、法學(xué)、政治學(xué)、社會學(xué)、新聞傳播學(xué)、工商管理、農(nóng)林經(jīng)濟管理、公共管理10個一級學(xué)科,轉(zhuǎn)載量、綜合指數(shù)排名中位列各高校第一名,但卻無法從指數(shù)排名中得出中國人民大學(xué)這10個學(xué)科的研究特色和發(fā)展走勢,缺乏對機構(gòu)學(xué)科發(fā)展的整合型數(shù)據(jù)分析,難以把握機構(gòu)學(xué)科的發(fā)展全貌,并據(jù)此向機構(gòu)提出學(xué)科發(fā)展的建設(shè)性意見。可以說,無論是宏觀層面的學(xué)科、學(xué)者、機構(gòu)、刊社基本情況,還是微觀層面的文章、讀者、地區(qū)、作者細(xì)分?jǐn)?shù)據(jù),都亟需投入大量的人力及時間成本進行采集和研究。
事實上,學(xué)術(shù)分析服務(wù)是一個極其復(fù)雜的過程,它不同于傳統(tǒng)的數(shù)據(jù)庫技術(shù)和簡單的知識發(fā)現(xiàn),它面對的海量信息不全是簡單的結(jié)構(gòu)化數(shù)據(jù),而常常為半結(jié)構(gòu)化的數(shù)據(jù),如文本、圖形、圖像數(shù)據(jù),甚至是異構(gòu)型數(shù)據(jù)。與此同時,發(fā)現(xiàn)知識的方法也對操作方提出了極高的要求,既要求學(xué)術(shù)專業(yè)深度,又要求技術(shù)深度,在智能化、精確化、交叉語言檢索、多媒體檢索、專業(yè)化等技術(shù)領(lǐng)域均提出了深度要求。
基于以上難點,學(xué)術(shù)分析服務(wù)模式的重構(gòu)宜著眼于四個步驟:第一是主動進行海量信息獲取,例如大規(guī)模搜集網(wǎng)頁,對大型學(xué)術(shù)網(wǎng)站的訪問日志進行挖掘,檢索出目標(biāo)信息群;第二是信息選擇和處理,即從檢索到的信息資源中挑選和處理得到有效信息,例如研究網(wǎng)民的行為模式,將網(wǎng)絡(luò)零散且隱形的內(nèi)容整合起來;第三是對信息進行梳理和概括,即依據(jù)不同的統(tǒng)計標(biāo)準(zhǔn),對隱形信息進行深度挖掘和概念歸納;第四是分析整合,通過整合計算,將挖掘出來的大量數(shù)據(jù)形成直觀并且完整的期刊、學(xué)科、學(xué)者相關(guān)數(shù)據(jù)集。
人大數(shù)媒的“學(xué)者在線”致力于提供面向?qū)W術(shù)界宏觀和微觀發(fā)展態(tài)勢的數(shù)據(jù)分析,將數(shù)據(jù)的各種屬性和變量用數(shù)據(jù)可視化(Data Visualization)的方式呈現(xiàn)出來。首先,基于一級學(xué)科、二級學(xué)科、三級學(xué)科不同范疇,分論文被引次數(shù)、論文閱讀統(tǒng)計、論文數(shù)量、項目數(shù)量、發(fā)文學(xué)者數(shù)量、新關(guān)鍵字增長、期刊數(shù)量、閱讀數(shù)量等不同數(shù)據(jù)類型,以及起始年份、終止年份不同查詢時間段,通過集群、分割、孤立點分析等數(shù)據(jù)挖掘算法,深入數(shù)據(jù)內(nèi)部挖掘價值;其次,采用語義引擎從紛雜的結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)中智能提取信息,同時輔以專業(yè)分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果作出一些預(yù)測性判斷;然后,通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進行處理,用直觀的文字、圖形、表格及數(shù)值模型表述復(fù)雜的信息內(nèi)容?!皩W(xué)者在線”的專業(yè)大數(shù)據(jù)分析流程,可以保證期刊社、學(xué)術(shù)機構(gòu)、學(xué)者、管理部門對學(xué)術(shù)發(fā)展趨勢和個體狀態(tài)有清晰、動態(tài)的掌握,以便采取及時的應(yīng)對措施。以學(xué)術(shù)機構(gòu)論文統(tǒng)計為例,“學(xué)者在線”“可以為該機構(gòu)提供其歷年發(fā)文走勢圖、論文總被引量排名、論文總下載排名等數(shù)據(jù)分析。
三、重構(gòu)學(xué)術(shù)管理服務(wù)模式
長期以來,學(xué)術(shù)管理服務(wù)模式未引起足夠的重視。學(xué)術(shù)管理應(yīng)該是研究學(xué)術(shù)發(fā)展和服務(wù)于學(xué)術(shù)研究的,但國內(nèi)學(xué)術(shù)不端、失范、腐敗現(xiàn)象層出不窮,學(xué)術(shù)自由的價值理念未得到應(yīng)有的保護,在學(xué)科建設(shè)、人才培養(yǎng)、科研方向等重大問題的決策和指導(dǎo)上,專家、教授、精英學(xué)者的領(lǐng)航作用尚待激發(fā)。經(jīng)濟學(xué)家張曙光曾在2011年5月召開的華人哈耶克年會上提出過“既然學(xué)術(shù)界是社會的良知,學(xué)者們都主張法治和憲政,主張權(quán)力制衡和社會監(jiān)督,為什么不從自己做起,先在學(xué)界逐步建立起一套憲政秩序、法治規(guī)則和糾錯機制,并使其正常運行和發(fā)揮作用呢?這是學(xué)術(shù)界可以擔(dān)當(dāng)和可以做到的事情。如果中國學(xué)術(shù)界連自己的事情都做不到和做不好,還遑論什么改造中國、服務(wù)世界,那真是沒救了?!弊杂傻膶W(xué)術(shù)空間、高效的激勵機制、醇厚的學(xué)術(shù)氛圍、專注的學(xué)者隊伍,離不開科學(xué)合理的學(xué)術(shù)管理服務(wù)模式。重構(gòu)學(xué)術(shù)管理服務(wù)模式,需要建立百花齊放百家爭鳴的學(xué)術(shù)評價機制體系,讓學(xué)術(shù)成果的評價更加多元化、前沿化、合理化,同時也離不開透明公正的學(xué)術(shù)成果匯總體系。
學(xué)術(shù)成果填報便是學(xué)術(shù)管理服務(wù)領(lǐng)域中鮮有人深究的灰色地帶。依慣例而言,學(xué)者、學(xué)校科研處、學(xué)校圖書館每年都需要對自身的學(xué)術(shù)成果進行整理填報工作,但由于信息海量無法迅速形成全面評估,更無法保證評判是否準(zhǔn)確,如同名學(xué)者冒名問題,使得填報工作不能準(zhǔn)確反映實際情況;同時,專業(yè)水準(zhǔn)如何展開評估,也給學(xué)術(shù)成果填報帶來困擾。相比較而言,學(xué)者發(fā)表的論文、出版的著作、所獲的獎項、參與的項目等簡單基礎(chǔ)數(shù)據(jù)不難采集,但論文收錄詳情、期刊及網(wǎng)站轉(zhuǎn)載詳情、被引詳情,以及學(xué)者被關(guān)注度、學(xué)術(shù)創(chuàng)新程度、論文相關(guān)領(lǐng)域排名等相關(guān)重要數(shù)據(jù)卻不易獲得。
用透明來滌清污濁,以科學(xué)來洗刷腐朽,還原學(xué)術(shù)領(lǐng)域的公平公正,重構(gòu)學(xué)術(shù)管理服務(wù)的品質(zhì)品位,可從兩個層面入手:一方面通過海量數(shù)據(jù)的抓取和挖掘,保證學(xué)者學(xué)術(shù)信息完整,能夠更全面定量地反映學(xué)者的學(xué)術(shù)成果;另一方面通過語義分析解決同名學(xué)者等問題,保證填報的真實性,以同時滿足學(xué)者成功填報和機構(gòu)成果填報的精準(zhǔn)度。
“學(xué)者在線”面向機構(gòu)、學(xué)者學(xué)術(shù)成果填報的內(nèi)容自助查詢系統(tǒng)保證填報者所填報的內(nèi)容能夠全面地反應(yīng)學(xué)術(shù)成果,輕松完成各項檢查評估。系統(tǒng)不僅提供機構(gòu)、學(xué)者個人的不同身份查詢路徑,同時可按姓名、曾用名、所在單位等不同主體信息查詢路徑,可自動生成及導(dǎo)出查詢該機構(gòu)、學(xué)者所有相關(guān)學(xué)術(shù)成果。例如,通過學(xué)者陳雨露的學(xué)者空間個人主頁,系統(tǒng)可以自動生成其研究方向、所在單位、關(guān)系學(xué)者、發(fā)表論文、參與學(xué)術(shù)研討活動等行為軌跡,既可以保證所有學(xué)術(shù)成果皆為當(dāng)事人所有,也能將非本人學(xué)術(shù)成果進行排除、篩選,滿足學(xué)者個人及機構(gòu)的學(xué)術(shù)填報需求。
在這個信息海量、噪音轟鳴的資訊大爆炸時代,學(xué)術(shù)界開始呼喚權(quán)威與規(guī)范,追求秩序與意義。打造一個隨時隨身隨地的觸控信息窗,提供全息、精準(zhǔn)、即時互動內(nèi)容和學(xué)術(shù)動態(tài)追蹤及管理服務(wù),是數(shù)字技術(shù)和信息技術(shù)推動學(xué)術(shù)服務(wù)創(chuàng)新的主要探索方向。