劉 姝 范蘭蘭
(社會科學(xué)文獻出版社,北京 100029)
黨的十八大以來,以習(xí)近平同志為核心的黨中央高度重視、有力推動媒體融合發(fā)展。出版融合,事關(guān)知識傳播、文化傳承,助力文化強國的重要著力點,事關(guān)行業(yè)轉(zhuǎn)型升級、做大做強,是出版業(yè)實現(xiàn)高質(zhì)量發(fā)展的迫切需要。[1]
數(shù)據(jù)庫產(chǎn)品建設(shè)作為出版融合發(fā)展的重點業(yè)務(wù)模式,需要主動對標出版深度融合發(fā)展的新任務(wù)、新要求,積極步入推動出版深度融合發(fā)展的新賽道。在強化內(nèi)容建設(shè)方面,堅持內(nèi)容為王,擴大優(yōu)質(zhì)內(nèi)容供給;積極貼近讀者,創(chuàng)新內(nèi)容呈現(xiàn)方式和傳播方式;圍繞服務(wù)黨和國家工作大局、滿足人民群眾精神文化生活新期待,打造重點領(lǐng)域內(nèi)容精品。在發(fā)揮技術(shù)支撐方面,更加強調(diào)內(nèi)容、技術(shù)、場景、用戶之間的適配性[2],以及對前沿技術(shù)探索應(yīng)用、出版新型業(yè)態(tài)和融合技術(shù)等領(lǐng)域的標準研制。在打造重點工程方面,推動出版單位實施品牌提升計劃,立足優(yōu)勢領(lǐng)域精耕細作,充分發(fā)揮內(nèi)容資源、作者資源、品牌資源優(yōu)勢,積極布局重點產(chǎn)品、服務(wù)和平臺。[3]這些具體要求都是出版機構(gòu)提升數(shù)據(jù)庫產(chǎn)品建設(shè)質(zhì)量、強化數(shù)據(jù)庫產(chǎn)品知識服務(wù)能力的具體方向和抓手。
社會科學(xué)文獻出版社是出版界最早開啟數(shù)字化轉(zhuǎn)型的出版社之一,并一直緊跟融合發(fā)展的政策導(dǎo)向,順應(yīng)知識傳播形態(tài)變革、學(xué)術(shù)研究范式轉(zhuǎn)型、讀者閱讀習(xí)慣變革,面向?qū)W術(shù)研究和智庫建設(shè)需求,開展學(xué)術(shù)數(shù)據(jù)庫產(chǎn)品建設(shè)。鄉(xiāng)村研究數(shù)據(jù)庫便是出版社將建設(shè)智庫產(chǎn)品服務(wù)國家社會與推進學(xué)術(shù)出版數(shù)字化轉(zhuǎn)型相結(jié)合的典型嘗試和重要成果。
鄉(xiāng)村研究數(shù)據(jù)庫秉承出版社聚焦中國發(fā)展與中國經(jīng)驗的出版?zhèn)鹘y(tǒng),旨在打造真實記錄中國鄉(xiāng)村發(fā)展、深度解析“三農(nóng)”問題、全面推進鄉(xiāng)村振興的學(xué)術(shù)成果庫和決策支持庫。數(shù)據(jù)庫于2020 年9 月上線,以特色資源、產(chǎn)品優(yōu)質(zhì)等得到業(yè)界與用戶認可,被近150 家國內(nèi)外機構(gòu)使用。
在數(shù)據(jù)庫建設(shè)過程中,始終堅持精品導(dǎo)向,以內(nèi)容為體、技術(shù)為翼,不斷創(chuàng)新運營模式,打通內(nèi)容整合、學(xué)術(shù)生產(chǎn)和知識服務(wù)等生產(chǎn)服務(wù)鏈條,助推學(xué)術(shù)成果的價值最大化和學(xué)術(shù)服務(wù)的平臺化。
鄉(xiāng)村研究數(shù)據(jù)庫的內(nèi)容建設(shè)以“擴大優(yōu)質(zhì)內(nèi)容供給”“創(chuàng)新內(nèi)容呈現(xiàn)方式”為重點。在資源整合和產(chǎn)品內(nèi)容設(shè)計上,遵循學(xué)術(shù)傳統(tǒng),緊跟國家戰(zhàn)略政策,打造內(nèi)容精品。
2.1.1 因循鄉(xiāng)村研究學(xué)術(shù)傳統(tǒng),發(fā)現(xiàn)數(shù)字資源藍海
鄉(xiāng)村研究學(xué)術(shù)傳統(tǒng)深厚,以問題研究為導(dǎo)向,主題性強,注重典型村落調(diào)研和實證研究。2012 年,社科文獻出版社在與復(fù)旦大學(xué)社會學(xué)系張樂天教授的溝通中,了解到張樂天教授從1988 年開始堅持收集浙江省海寧市聯(lián)民村的“民間生活史料”,包括村干部工作筆記、村民生活紀實以及大規(guī)模實地調(diào)查資料。這些來自民間的一手檔案資料和實地社會調(diào)查數(shù)據(jù)具有很高的研究價值,對理解當代中國現(xiàn)實具有重要作用,但并沒有得到出版和很好地利用。當時,社科文獻出版社正在大力推進數(shù)字化轉(zhuǎn)型,便決定用數(shù)字化手段,將這批典型村落調(diào)研的未出版資源,包括調(diào)查問卷、個案訪談資料、各種研究素材和原始文獻進行資源整合和學(xué)術(shù)呈現(xiàn),打造張樂天聯(lián)民村數(shù)據(jù)庫(鄉(xiāng)村研究數(shù)據(jù)庫的前身)。這是跳出出版社數(shù)據(jù)庫建設(shè)的資源整合困境和依托已出版資源的路徑依賴的成功嘗試。
2.1.2 以服務(wù)學(xué)術(shù)研究和助力智庫建設(shè)兩條線為抓手,全面聚合優(yōu)質(zhì)內(nèi)容
2018 年,為應(yīng)對張樂天聯(lián)民村數(shù)據(jù)庫的發(fā)展瓶頸,即單個村落調(diào)研產(chǎn)品的資源規(guī)模難以長期持續(xù)、在市場上銷售困難,項目組開啟了從典型村落的資源型數(shù)據(jù)庫產(chǎn)品,完善升級為鄉(xiāng)村研究主題的學(xué)術(shù)數(shù)據(jù)庫的建設(shè)之路。
一方面,從服務(wù)學(xué)術(shù)研究出發(fā),整合主題學(xué)術(shù)資源?;诔霭嫔缫殉霭娴恼{(diào)查研究成果,整合貴州屯堡村落,滿鐵調(diào)查村落,魁閣調(diào)研村落的內(nèi)容資源,再到中國社會科學(xué)院組織的“百縣市經(jīng)濟社會調(diào)查”“中國百村調(diào)查”“精準扶貧精準脫貧百村調(diào)研”等項目成果,進而到鄉(xiāng)村研究主題資源,如“三農(nóng)”問題、縣域發(fā)展、城鄉(xiāng)關(guān)系、海外鄉(xiāng)村研究等。
另一方面,從助力智庫建設(shè)出發(fā),圍繞政策聚合資源。緊跟國家“三農(nóng)”政策、精準扶貧精準脫貧基本方略、鄉(xiāng)村振興戰(zhàn)略,整合出版社“三農(nóng)”問題、脫貧攻堅和鄉(xiāng)村振興,以及城鄉(xiāng)關(guān)系的研究成果;全面采集政策文本并做好匯總分類;發(fā)揮學(xué)科編輯特長,做好數(shù)字資源的再生產(chǎn),自主策劃政策演變和邏輯關(guān)系的學(xué)術(shù)導(dǎo)讀、緊跟政策熱點策劃專家訪談等。
2.1.3 搭建鄉(xiāng)村研究知識體系,實現(xiàn)產(chǎn)品內(nèi)容專業(yè)呈現(xiàn)
鄉(xiāng)村研究以問題為導(dǎo)向,涉及多個學(xué)科領(lǐng)域,現(xiàn)有的中圖分類、學(xué)科分類標準很難直接用于鄉(xiāng)村研究內(nèi)容資源的呈現(xiàn)。項目組基于對1980 年代以來的鄉(xiāng)村研究主題文獻、1991 年以來的國家重大項目立項數(shù)據(jù)的分析,以及對中國社會科學(xué)院、中國人民大學(xué)等高校專家的調(diào)研,自主設(shè)計了包含研究成果、實地調(diào)查、史料檔案、典型學(xué)術(shù)案例、政策資訊和學(xué)術(shù)共同體等不同維度、完整系統(tǒng)的鄉(xiāng)村研究知識體系,實現(xiàn)了產(chǎn)品內(nèi)容的專業(yè)呈現(xiàn)。
2.1.4 產(chǎn)品建設(shè)專題化,服務(wù)學(xué)術(shù)研究與智庫建設(shè)
鄉(xiāng)村研究數(shù)據(jù)庫充分挖掘凸顯鄉(xiāng)村研究特點和庫內(nèi)資源特色,進而搭建產(chǎn)品架構(gòu)。下設(shè)“三農(nóng)”研究數(shù)據(jù)庫、鄉(xiāng)村振興研究數(shù)據(jù)庫、村落調(diào)查研究數(shù)據(jù)庫和縣市調(diào)查研究數(shù)據(jù)庫,并緊跟政策熱點、學(xué)術(shù)前沿持續(xù)推出熱點專題。服務(wù)學(xué)術(shù)研究方面,打造學(xué)術(shù)名村系列專題,重點呈現(xiàn)縣域發(fā)展典型模式等學(xué)術(shù)研究典型,為科研教學(xué)提供研究范式和學(xué)習(xí)范式。助力智庫建設(shè)方面,2021 年2 月《關(guān)于全面推進鄉(xiāng)村振興加快農(nóng)業(yè)農(nóng)村現(xiàn)代化的意見》發(fā)布,項目組依據(jù)鄉(xiāng)村振興戰(zhàn)略制度框架和政策體系,快速推出鄉(xiāng)村振興研究子庫,甫一上線,便受到多家黨政機構(gòu)關(guān)注;2022 年數(shù)字經(jīng)濟上升至國家戰(zhàn)略層面,《數(shù)字鄉(xiāng)村發(fā)展行動計劃(2022—2025 年)》發(fā)布,鄉(xiāng)村研究數(shù)據(jù)庫上線數(shù)字鄉(xiāng)村專題,多視角呈現(xiàn)數(shù)字賦能鄉(xiāng)村振興的實踐和經(jīng)驗,探討數(shù)字鄉(xiāng)村建設(shè)各領(lǐng)域縱深推進的模式和路徑。
鄉(xiāng)村研究數(shù)據(jù)庫的技術(shù)運用堅持以需求為導(dǎo)向,以安全為底線,積極嘗試新技術(shù)運用。借力自然語言處理、語義分析、機器學(xué)習(xí)等技術(shù),實現(xiàn)規(guī)模資源的機器標引和按需重組,為快速重組資源打造專題產(chǎn)品奠定基礎(chǔ),強化數(shù)據(jù)庫面向用戶個性化需求的知識服務(wù)能力。運用并持續(xù)優(yōu)化新詞發(fā)現(xiàn)、智能分詞等技術(shù),不斷提升數(shù)據(jù)庫智能檢索、智能推薦等功能體驗。
2.2.1 構(gòu)建網(wǎng)絡(luò)安全綜合防御體系,筑牢網(wǎng)絡(luò)安全與數(shù)據(jù)安全屏障
鄉(xiāng)村研究數(shù)據(jù)庫從四方面構(gòu)建網(wǎng)絡(luò)安全綜合防御體系。一是嚴格遵守國家網(wǎng)絡(luò)安全等級保護制度2.0標準。二是采用https 協(xié)議加密傳輸,利用SSL/TLS建立全信道,加密數(shù)據(jù)包,有效保障數(shù)據(jù)的隱私與完整性。三是運用阿里云云防火墻,對于DDOS 攻擊、XXS 跨站攻擊、SQL 注入等惡意攻擊都能有效防護。四是借力第三方成熟漏洞掃描和安全監(jiān)測服務(wù),堅持每月漏洞掃描,每周安全監(jiān)測,同時建立數(shù)據(jù)庫運行監(jiān)控系統(tǒng),實時監(jiān)控數(shù)據(jù)庫運行情況,確保數(shù)據(jù)庫產(chǎn)品的安全與穩(wěn)定性。此外,還建設(shè)內(nèi)容智能審核工具,對涉敏感主題、涉敏感人物等進行識別,助力保障內(nèi)容安全。
2.2.2 開發(fā)基于深度學(xué)習(xí)技術(shù)的機器標引,助力數(shù)字資源標引效率提升
標引是對數(shù)字資源進行組織的有效手段,標引效率和質(zhì)量直接影響數(shù)字資源的開發(fā)利用。鄉(xiāng)村研究數(shù)據(jù)庫的資源類型豐富、資源規(guī)模較大,單純依靠人工標引,無論是在標引效率還是質(zhì)量控制上都存在困難。
為解決這一業(yè)務(wù)痛點,數(shù)據(jù)庫建設(shè)初期,利用自動抽詞標引實現(xiàn)了邁向機器標引的第一步,在由專業(yè)編輯審核的標引信息積累到一定規(guī)模時,建立了標引語料庫,運用深度學(xué)習(xí)算法和機器學(xué)習(xí)技術(shù),構(gòu)建機器標引模型,并反復(fù)訓(xùn)練不斷提高標引準確率和速度。訓(xùn)練過程中,機器標引模型通過模擬人類的思維方式,對標引數(shù)據(jù)進行學(xué)習(xí)和識別,不斷調(diào)整自己的模型參數(shù)和策略,以適應(yīng)不同的標引場景和數(shù)據(jù),從而實現(xiàn)快速、準確地對大量的文本數(shù)據(jù)進行分類和標注,大大提升標引工作效率。目前,機器標引已作為一種工具,應(yīng)用到社科文獻出版社的各個數(shù)據(jù)庫。今后還將持續(xù)調(diào)優(yōu)語料質(zhì)量和模型參數(shù),不斷提升標引質(zhì)量。
2.2.3 實現(xiàn)基于知識分類計算的資源動態(tài)重組,提升面向個性化需求的服務(wù)能力
為更好地滿足不同行業(yè)、不同學(xué)科領(lǐng)域用戶的需求,鄉(xiāng)村研究數(shù)據(jù)庫在產(chǎn)品設(shè)計時特別注重資源的快速重組能力。在社會科學(xué)領(lǐng)域分類和領(lǐng)域?qū)I(yè)詞表的基礎(chǔ)上,結(jié)合鄉(xiāng)村研究所涉學(xué)科和行業(yè)特點,基于鄉(xiāng)村研究知識體系,通過對中圖分類、行業(yè)分類、學(xué)科分類、地區(qū)分類、時代分類、主題詞、關(guān)鍵詞、作者等20 余個條件的邏輯“與”“或”“非”的知識分類的計算,準確全面地表達資源應(yīng)用的各個維度和范圍。再結(jié)合系統(tǒng)的定時任務(wù),將經(jīng)過碎片化、格式化、結(jié)構(gòu)化的內(nèi)容資源進行自動地重新組合,實現(xiàn)動態(tài)資源的精準提取和自動聚合。以此實現(xiàn)個性化產(chǎn)品內(nèi)容的快速生成,大大縮短數(shù)字產(chǎn)品建設(shè)周期。
2.2.4 運用智能檢索技術(shù),提升檢索準確度和效率
檢索是數(shù)據(jù)庫基礎(chǔ)且重要的功能。智能檢索是一種利用自然語言處理和機器學(xué)習(xí)技術(shù),對大規(guī)模的資源進行信息檢索和處理的技術(shù)。與傳統(tǒng)信息檢索相比,智能檢索解決了傳統(tǒng)信息檢索準確率低、效率低和漏檢的問題。智能檢索通過分析用戶輸入的文本,實現(xiàn)自然語言的語法分析和語義分析,使系統(tǒng)能夠更好地理解用戶的意圖和需求,從而快速準確找到相關(guān)信息,大大提升用戶的檢索效率。鄉(xiāng)村研究數(shù)據(jù)庫運用智能檢索技術(shù),輔以自動補全、檢索糾錯、拼音檢索等功能來提升用戶檢索的使用體驗。
鄉(xiāng)村研究數(shù)據(jù)庫面向從事鄉(xiāng)村研究的高等院校、研究機構(gòu)、黨政智庫,以及關(guān)注鄉(xiāng)村發(fā)展、致力鄉(xiāng)村振興的社會公眾,提供文獻服務(wù)、資訊服務(wù)、數(shù)據(jù)服務(wù)和定制服務(wù)等。
“作者即用戶”是學(xué)術(shù)型產(chǎn)品的重要特點,在鄉(xiāng)村研究數(shù)據(jù)庫建設(shè)運營全過程中,項目組長期與學(xué)界保持密切聯(lián)系,以需求調(diào)研、專家咨詢、專家訪談、學(xué)術(shù)會議等多種方式,實現(xiàn)了用戶需求追蹤、用戶生產(chǎn)內(nèi)容、專業(yè)力量借力、學(xué)術(shù)營銷推廣等圍繞學(xué)術(shù)整體聯(lián)動的產(chǎn)品建設(shè)運營模式。
鄉(xiāng)村研究數(shù)據(jù)庫積極打造線上線下一體化傳播體系,助力學(xué)術(shù)成果縱深傳播。一是充分借力傳統(tǒng)線下營銷方式,與圖書發(fā)布會、學(xué)術(shù)會議等聯(lián)動推廣,推動圖書用戶和數(shù)據(jù)庫用戶池互通共享。二是結(jié)合政策時事熱點推出專家訪談、專家講座、學(xué)術(shù)研討等多樣化的學(xué)術(shù)營銷活動,以學(xué)術(shù)營銷推動用戶生產(chǎn)內(nèi)容,反哺數(shù)據(jù)庫內(nèi)容建設(shè)。以專家訪談為例,項目組以作者資源為基礎(chǔ),圍繞中央一號文件、鄉(xiāng)村振興促進法,針對鄉(xiāng)村振興、現(xiàn)代農(nóng)業(yè)、城鄉(xiāng)關(guān)系、農(nóng)村基層黨建等議題,采訪了社會學(xué)領(lǐng)域權(quán)威專家,包括中國社會科學(xué)院王春光研究員、中國人民大學(xué)陸益龍教授等,形成了訪談稿和短視頻等形式的原創(chuàng)內(nèi)容,通過數(shù)據(jù)庫專欄、微信公眾號、學(xué)術(shù)社群、核心學(xué)術(shù)期刊等多渠道傳播。
出版深度融合從根本上說是以數(shù)字技術(shù)為內(nèi)驅(qū)力的介質(zhì)、形式、組織、戰(zhàn)略的整合。[4]當前,新一輪科技革命和產(chǎn)業(yè)變革加速演進,以大數(shù)據(jù)、云計算、人工智能等為代表的數(shù)字技術(shù)賦能出版業(yè),驅(qū)動出版業(yè)智能化、數(shù)據(jù)化發(fā)展,應(yīng)用場景不斷拓展。[5]學(xué)術(shù)數(shù)據(jù)庫產(chǎn)品建設(shè)也將迎來更多的機遇和挑戰(zhàn)。
一是人工智能給學(xué)術(shù)內(nèi)容生產(chǎn)帶來變革。2023 年,ChatGPT 殺入學(xué)術(shù)界寫論文,由此AIGC(人工智能生成內(nèi)容)引發(fā)廣泛關(guān)注。對于學(xué)術(shù)數(shù)據(jù)庫產(chǎn)品而言,要將智能技術(shù)與學(xué)者的研究成果、研創(chuàng)場景、編輯的內(nèi)容生產(chǎn)場景深度結(jié)合,進一步釋放內(nèi)容生產(chǎn)力。例如,面向?qū)W者研究成果研創(chuàng)場景,提供學(xué)術(shù)趨勢分析、智能選題、智能寫作等科研輔助工具;面向編輯的內(nèi)容生產(chǎn)場景,提供智能審校等內(nèi)容生產(chǎn)輔助工具。
二是大數(shù)據(jù)技術(shù)為深化學(xué)術(shù)知識服務(wù)帶來更多可能。當前數(shù)據(jù)資源已經(jīng)成為關(guān)鍵生產(chǎn)要素。學(xué)術(shù)數(shù)據(jù)庫產(chǎn)品建設(shè)中,要真正把數(shù)據(jù)作為生產(chǎn)要素,運用大數(shù)據(jù)技術(shù),對內(nèi)容數(shù)據(jù)、用戶數(shù)據(jù)進行深入分析和挖掘,強化數(shù)據(jù)整合、管理及運用能力。例如,在產(chǎn)品建設(shè)中,深度挖掘、關(guān)聯(lián)分析內(nèi)容數(shù)據(jù),為產(chǎn)品選題、專業(yè)領(lǐng)域知識體系構(gòu)建提供支撐,探索發(fā)展數(shù)據(jù)出版新業(yè)態(tài);在產(chǎn)品運營中,加大用戶數(shù)據(jù)采集和分析力度,不斷完善用戶畫像,助力精準營銷和知識服務(wù)。