摘要:應用信息技術開展科技檔案資源知識服務是當前檔案利用服務的必然趨勢,有助于更好地支撐科技創(chuàng)新與戰(zhàn)略決策。論文通過調(diào)研、分析用戶對科技檔案資源的利用需求,及當前科技檔案資源組織現(xiàn)狀,從提升資源質(zhì)量、深化內(nèi)容挖掘與拓展利用方式三個方面提出了科技檔案資源知識服務策略,并以重大科技項目為例進行實踐探索,以促進科技檔案資源價值的發(fā)揮。
關鍵詞:科技檔案 知識服務 科技創(chuàng)新
科技檔案是科學研究活動中形成的具有保存價值的各種形式和載體記錄,是科研成果的重要組成部分,是支撐國家科技創(chuàng)新的重要基礎性、戰(zhàn)略性資源。為了更好地支撐科技創(chuàng)新與戰(zhàn)略決策,檔案部門可以應用信息技術開展知識服務,挖掘好、利用好科技檔案資源。這也是科技檔案利用服務工作發(fā)展的必然趨勢。
當前,關于檔案知識服務策略與技術路線[1]、新技術應用等[2],學者們已開展了廣泛的理論研究與實踐探索。在知識服務策略與技術路線方面,學者們通?;谟脩粜枨?,構(gòu)建覆蓋檔案收集、整理與組織、存儲與利用服務等的框架。在新技術應用方面,學者們主要集中于本體、關聯(lián)數(shù)據(jù)、數(shù)據(jù)挖掘、知識圖譜等技術研究與應用。在針對特定領域或主題開展檔案知識服務實踐探索方面,多數(shù)學者以名人檔案[3]、紅色資源[4]為對象,引入元數(shù)據(jù)、本體、關聯(lián)數(shù)據(jù)及知識圖譜等技術進行內(nèi)容挖掘與知識服務,側(cè)重于發(fā)揮檔案的“文化”價值屬性。僅有少數(shù)學者以推進科技檔案精細化管理為目的,針對科技檔案進行知識挖掘、組織與關聯(lián)研究。[5]可見,從科技檔案助力科技創(chuàng)新角度出發(fā),開展科技檔案知識服務策略的相關研究與實踐較少。
本文分析了用戶對科技檔案資源的利用需求,及當前科技檔案資源組織現(xiàn)狀,提出了科技檔案資源知識服務策略,并以重大科技項目為切入點進行實踐探索,以期為開展科技檔案資源知識服務提供具有可操作性的借鑒與參考。
科技檔案具有海量異構(gòu)、專業(yè)性強、語義復雜等特點;科技檔案的服務對象主要包括科研人員與決策人員。本文針對檔案人員、科研人員及決策人員,就科技檔案資源組織情況、利用現(xiàn)狀與需求等方面開展了問卷調(diào)查與訪談,并從資源利用需求和組織現(xiàn)狀兩個方面對91份有效問卷與訪談結(jié)果進行了分析。這為后續(xù)提出科技檔案資源知識服務策略奠定了基礎。
(一)資源利用需求分析
1.在利用方式上,用戶需要支持面向主題、全文、可視化等方面的多種在線查詢方式??萍紮n案資源體量龐大、異構(gòu)程度高,單一的檢索方式難以滿足用戶多樣化的信息需求。當前絕大部分科技檔案資源查詢方式與呈現(xiàn)結(jié)果對內(nèi)容信息揭示程度較弱,因此用戶難以快速了解資源內(nèi)容,需要花費較多時間和精力用于信息篩選。此外,科技檔案利用權限要求較為復雜,極大地降低了用戶獲取相關信息線索的可能。因此,開展科技檔案資源知識服務需要考慮如何應對檢索方式單一導致的查不準,以及權限受限導致的查不全等關鍵問題。
2.在利用內(nèi)容上,用戶需要實現(xiàn)科技檔案資源文本化、數(shù)據(jù)化與可視化結(jié)果呈現(xiàn)??蒲腥藛T期望科技檔案元數(shù)據(jù)不僅局限于科技檔案資源外部形式特征,而是能夠更加深入內(nèi)容或是語義層面,在利用內(nèi)容結(jié)果呈現(xiàn)方面能夠展示知識單元間的關聯(lián),以便更直觀、全方位地獲取所需具體知識內(nèi)容;決策人員希望整合各個科技項目的相關檔案資源,從學科領域布局、經(jīng)費執(zhí)行、成果管理、人才培養(yǎng)等方面更清晰地了解項目具體情況。因此,科技檔案資源知識服務需要加快科技檔案數(shù)據(jù)化、語義關聯(lián)化及結(jié)果可視化進程。
可以看出,在盡可能查全、查準的基礎上,用戶對科技檔案資源利用提出了個性化、精準化的服務需求。不同類型的用戶因利用需求及場景不同,重點關注的科技檔案資源內(nèi)容有所不同??蒲腥藛T更側(cè)重于實驗記錄、數(shù)據(jù)、方法模型、軟件代碼及專利等內(nèi)容,以期借鑒研究方法、啟發(fā)研究新思路等。決策人員較為關注宏觀層面的整體項目布局、單位合作及經(jīng)費執(zhí)行情況等,以期為部署科技任務、組織科技合作提供參考。
(二)資源組織現(xiàn)狀
1.資源著錄標準存在“不統(tǒng)一”現(xiàn)象??萍紮n案資源的著錄要求在不同時期會有所差異,導致科技檔案資源存在著錄標準、組織方式不同的問題。同時,科技檔案資源體量大、涉及單位多,且不同單位的檔案人員對歸檔要求、元數(shù)據(jù)著錄、“四性”檢測等規(guī)范理解與執(zhí)行存在不一致,容易使得著錄格式及內(nèi)容出現(xiàn)不統(tǒng)一的現(xiàn)象。
2.資源描述存在“重外輕內(nèi)”現(xiàn)象??萍紮n案資源元數(shù)據(jù)包括用于描述外部形式特征的數(shù)據(jù)(如責任者、日期、頁數(shù)、格式、容量大小等),以及關鍵詞、主題詞、摘要等內(nèi)容描述類元數(shù)據(jù)。但是,在絕大部分情況下,關于內(nèi)容描述類元數(shù)據(jù)著錄的強制性要求較少,且著錄較為困難,因此大多數(shù)科技檔案資源內(nèi)容描述類元數(shù)據(jù)基本為空?,F(xiàn)階段對于科技檔案資源內(nèi)容的深層次描述與揭示程度較弱。
3.資源分類存在“粗粒度”特征。目前我們主要從檔案門類、機構(gòu)、年份或保管期限等方面對科技檔案資源進行分類。這種分類方式能夠較為全面、客觀地刻畫資源間的外在邏輯聯(lián)系,便于族性檢索。但其對信息對象的組織與揭示主要停留在“線性”“粗粒度”階段,較少從科技檔案資源內(nèi)容及語義描述方面進行多維度、細粒度的關聯(lián)與組織。
整體來看,科研人員和決策人員對科技檔案資源具有較高的利用需求,但當前科技檔案利用權限限制了他們獲取相關信息來源的可能,而且科技檔案資源的現(xiàn)有組織方式也尚不足以支撐開展基于內(nèi)容關聯(lián)的個性化知識服務。因此,檔案部門需要進一步梳理并解決制約科技檔案資源知識服務的關鍵問題,以更好地發(fā)揮科技檔案資源的價值。
從上述分析可以看出,當前檔案部門開展科技檔案資源知識服務需要著重解決三個方面的關鍵問題:一是通過提升資源質(zhì)量,滿足用戶關于內(nèi)容關聯(lián)分析的需求;二是按照“數(shù)字化—文本化—數(shù)據(jù)化—知識化”的過程,不斷深化科技檔案資源內(nèi)容揭示和數(shù)據(jù)化程度,逐步在文本關聯(lián)基礎上實現(xiàn)內(nèi)容語義關聯(lián);三是不斷豐富科技檔案資源利用方式與呈現(xiàn)形式,從不同維度滿足不同用戶的個性化利用需求。因此,本文有針對性地從提升資源質(zhì)量、深化內(nèi)容挖掘、拓展利用方式三個方面提出了科技檔案資源知識服務策略。
(一)提升資源質(zhì)量
高質(zhì)量的科技檔案資源是開展知識服務的基石。本文認為檔案部門需要從全流程加強科技檔案質(zhì)量控制。首先,在前端管控環(huán)節(jié),檔案部門要進一步完善科技檔案管理體系,包括但不限于明確與完善科技文件材料歸檔范圍,并進一步強化元數(shù)據(jù)著錄要求及質(zhì)量審核機制,從源頭提高檔案質(zhì)量。其次,在過程管控中,檔案部門要充分利用信息技術手段,盡可能將質(zhì)量控制要求內(nèi)置到系統(tǒng)功能中。例如,在系統(tǒng)中設置字段著錄規(guī)則與要求,實現(xiàn)自動著錄,提升著錄規(guī)范性與效率。最后,在歸檔階段,檔案部門要不斷細化“四性”檢測要求,使用系統(tǒng)功能從著錄格式與歸檔資源內(nèi)容層面進行數(shù)據(jù)清洗與檢查,提升科技檔案的內(nèi)容質(zhì)量。
(二)深化內(nèi)容挖掘
1.推進檔案數(shù)據(jù)化。檔案數(shù)據(jù)化與用戶需求密切相關。[6]檔案部門應探索引入機器學習與人工相結(jié)合的方式,開展科技檔案內(nèi)容標注與知識抽取,提升科技檔案數(shù)據(jù)化水平。在篇章層面,檔案部門可以通過構(gòu)建科技檔案語料庫進行知識抽取,提升數(shù)據(jù)的一致性和標準化程度;在語句層面,檔案部門可以應用機器學習、深度學習等信息抽取模型,進行命名實體識別、事件抽取等;在字詞層面,檔案部門可以利用自然語言處理技術開展分詞、詞性標注、依存句法分析等。此外,由于早期科技檔案手寫體偏多且版式較為復雜,故檔案部門還需借助大模型不斷完善OCR識別算法,提升手寫體、繁體字和豎排版面等特殊情況下的OCR識別準確率,為推進檔案數(shù)據(jù)化奠定更好的文本基礎。
2.實現(xiàn)知識關聯(lián)化。檔案部門應根據(jù)檔案內(nèi)容挖掘粒度不同,采用不同的技術方式,有針對性地聚合知識碎片,不斷推進檔案知識關聯(lián)化。在文檔層面,檔案部門可以采用LDA主題模型等算法,從內(nèi)容主題、事件或情感表達等角度進行關聯(lián)或聚合;在術語層面,檔案部門可以借助本體、關聯(lián)數(shù)據(jù)等技術,抽取并關聯(lián)檔案資源中包含的實體、屬性及關系等;在語義層面,檔案部門可以引入Word2vec等深度學習算法學習特征詞的上下文語境信息,生成包含語義關系的詞向量,實現(xiàn)語義關聯(lián)。
(三)拓展利用方式
1.檢索智能化。傳統(tǒng)的基于關鍵詞匹配的全文檢索雖然直觀、實用,但面對復雜多變的信息需求,其局限性日益凸顯。一方面,檔案部門應積極探索并引入先進的信息檢索技術和方法,如向量空間模型、語言模型與概率模型等,以提升檢索效率和精度;另一方面,針對檢索中的詞義模糊、多義詞和同義詞等問題,檔案部門可引入本體、專業(yè)詞典或詞庫、語義網(wǎng)、知識圖譜及大模型等技術,以提升檢索查全率和查準率。
2.結(jié)果可視化。檔案部門應借助不同類型的可視化技術[7]讓用戶更加全面、直觀且快速地獲取所需知識,如通過標簽云或詞云可實現(xiàn)文本研究內(nèi)容或主題的可視化;采用單詞樹、TextArc等可視化技術以展現(xiàn)文本間不同類型的關聯(lián)關系,包括文本內(nèi)部結(jié)構(gòu)與語義關系、引用關系及主題相似性關系等。此外,檔案部門還可將各類可視化技術進行組合,從多維度全面呈現(xiàn)用戶所需知識,如借助Spark? Clouds[8]等技術,從時間、主題、控件、情感等更多視角呈現(xiàn)不同資源間的關聯(lián)關系。
為驗證科技檔案知識服務策略的可行性,本文以重大科技項目檔案為切入點,面向決策人員與科研人員進行了知識服務實踐探索,并取得了較好的應用成效。
(一)面向決策人員的合作關系圖譜
本文以重大科技項目實施責任書、結(jié)題報告為數(shù)據(jù)源,首先采用基于規(guī)則的信息抽取方法,提取了項目參與人員及所屬單位信息;然后,運用共現(xiàn)方法生成了科研人員及機構(gòu)合作關系表;最后,使用可視化技術,生成了科研人員及機構(gòu)合作關系圖(見圖1)。該圖譜支持節(jié)點數(shù)量設置和共現(xiàn)數(shù)據(jù)篩選,有助于決策人員直觀且全面地掌握項目合作情況,為后續(xù)優(yōu)化資源配置、促進協(xié)同創(chuàng)新提供參考。
(二)面向科研人員的研究主題知識圖譜
本文以重大科技項目結(jié)題報告為數(shù)據(jù)源,首先采用基于規(guī)則的信息抽取技術,提取摘要、關鍵詞及所屬學科字段;然后,引入自然語言處理技術,對文本內(nèi)容進行中文分詞、去停用詞、詞頻統(tǒng)計、合并同義詞等數(shù)據(jù)處理操作;最后,利用可視化技術生成了研究主題詞云及學科共現(xiàn)關系圖(見圖2)。該圖譜較為全面地呈現(xiàn)了項目研究關鍵內(nèi)容(研究主題、關鍵技術等),便于科研人員了解重大科技項目研究熱點、學科交叉研究情況,啟發(fā)研究創(chuàng)新思維。
(三)面向內(nèi)容關聯(lián)利用的可視化檢索
為提升科研人員、決策人員對于科技檔案的利用效率,我們可以采用多種方式優(yōu)化檢索效果及結(jié)果呈現(xiàn)方式。以中國科學院檔案館館藏的科技檔案為例,首先,我們以其為數(shù)據(jù)源,引入基于人工智能的OCR識別技術,提升豎排、表格等特殊版式及手寫體的識別正確率,實現(xiàn)早期科技檔案資源的全文檢索;其次,集成同義詞庫、機構(gòu)消歧語料庫,提升檢索結(jié)果的準確性??紤]到檔案借閱利用的權限要求,我們將檢索結(jié)果以不展現(xiàn)檔案具體內(nèi)容,僅展現(xiàn)其他開放信息的可視化方式呈現(xiàn),為用戶提供更多相關信息的可能來源。該可視化檢索能夠以項目關系圖的形式直觀反饋檢索檔案所處的項目層級,在有相應權限的前提下雙擊節(jié)點即可查看檢索檔案的題名、檔號等目錄信息,極大地提升了項目、機構(gòu)、人員間的學術交流與知識共享。
科技檔案是科研項目從立項論證、研究實施、結(jié)題驗收/績效評價,到成果推廣應用全過程的真實記錄,是國家科技戰(zhàn)略資源的重要組成部分。本文從科研人員和決策人員利用需求出發(fā),提出了具有可行性的科技檔案知識服務策略,有利于發(fā)揮科技檔案支撐科技創(chuàng)新、助力科技戰(zhàn)略決策的作用,也為后續(xù)檔案部門從內(nèi)容層面開展科技檔案資源開發(fā)利用與服務提供了借鑒與參考。
注釋及參考文獻:
[1]魏亮亮.面向數(shù)字人文的檔案知識服務模式轉(zhuǎn)型探析[J].檔案學研究,2021(4):72-79.
[2]夏天,錢毅.面向知識服務的檔案數(shù)據(jù)語義化重組[J].檔案學研究,2021(2):36-44.
[3]牛力,劉慧琳,高晨翔.數(shù)字記憶視角下的學術名人知識庫研究[J].情報理論與實踐,2022,45(9):164-172.
[4]陳海玉,向前,何劍鋒.面向知識服務的抗戰(zhàn)檔案資源聚合與可視化展現(xiàn)探究[J].檔案學研究,2021(2):111-118.
[5]雷潔,趙瑞雪,李思經(jīng),等.科研檔案管理知識圖譜構(gòu)建研究[J].科技管理研究,2020,40(11):162-169.
[6]祁天嬌,馮惠玲.檔案數(shù)據(jù)化過程中語義組織的內(nèi)涵、特點與原理解析[J].圖書情報工作,2021,65(9):3-15.
[7]唐家渝,劉知遠,孫茂松.文本可視化研究綜述[J].計算機輔助設計與圖形學學報,2013,25(3):273-285.
[8] LEE B,RICHE N H,KARLSON A K,et al. Sparkclouds:visualizing trends in tag clouds[J]. IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182-1189.
作者單位:1.中國科學院檔案館2.中國科學院文獻情報中心3.中國科學院大學經(jīng)濟管理學院信息資源管理系