周文泓 李新功
摘 要:本文以理論構建的方法概述了人工智能并梳理了人工智能與檔案網站建設的結合點,即有限的檔案在線利用、在線檔案產品需充分的投入、互動與社區(qū)功能有限。由此,本文提出在人工智能的背景下,檔案網站可從如下方面予以優(yōu)化:以建設整體智能中心為目標、融合數據管理理念、加強人工智能服務。
關鍵詞:人工智能;檔案網站;網站優(yōu)化
Abstract: The paper took the method of theory modeling to introduce artificial intelligence and its connecting points with archives websites like limited archival access, limited efforts to produce archival products, and limited interactive and community function. Then the paper proposed that archives websites should make use of artificial intelligence to construct website as intelligent center as a whole, establish methodology of data management and strengthen the artificial intelligence service.
Keywords: Artificial intelligence; Archives website; Website optimization
1 引言
在移動互聯網、大數據、超級計算、傳感網、腦科學等新理論新技術以及經濟社會發(fā)展強烈需求的共同驅動下,人工智能迅速發(fā)展,成為各領域重點關注與發(fā)展的方向。2017年7月,國務院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,進一步明確了人工智能在當下社會發(fā)展中的重要性。這對檔案領域而言,亦是其數字轉型中的重要契機。檔案管理既需要處理大量的信息資源,亦要通過技術優(yōu)化管理,這些無一不與人工智能相關。
作為與社會活動緊密相關的應用領域,如何應用人工智能需要得到檔案實踐與研究領域的關注。在研究層面,檔案智能檢索系統(tǒng)的研究一定程度上與之相關 [1],通過大數據建設與優(yōu)化檔案館的研究的重要方向之一就是實現檔案館的智能化,智慧檔案館的建設亦在倡導與人工智能的結合 [2]。然而,總的來說,當前的研究中尚未將人工智能正式與檔案管理直接關聯,例如,人工智能為什么能用于檔案管理、用于檔案管理的哪些方面、如何應用、應用的結果是什么都沒有得到解答。這樣的狀況同樣顯示在實踐領域中,除了在管理中實現了一定程度的自動化,或是在檔案館建筑有一定的智能元素外,尚未有全面與人工智能結合的檔案館落成。
因而,如何在人工智能背景下優(yōu)化檔案管理將有諸多可探討的方向。鑒于檔案網站作為檔案館線上門戶是關鍵的數字檔案資源整合與服務入口,本文將圍繞檔案網站建設探索如何通過人工智能優(yōu)化檔案管理,闡明為何以檔案網站為切入點、檔案網站與人工智能結合的要點是什么、如何將在檔案網站優(yōu)化中同人工智能相結合以及二者結合之后的結果是什么。
2 人工智能框架下檔案網站升級的觸發(fā)點
人工智能的迅速發(fā)展將深刻改變信息活動的方式與形態(tài),這也為檔案管理方法與工具的升級提供了契機,也為檔案理論中構思的更加高級的檔案館形態(tài)的落實提供了工具與技術。在這其中,檔案網站建設是重要的切入點。對應于實體檔案館的智能化,線上的數字檔案館同樣是當下檔案實踐的焦點,檔案網站作為重要的門戶是建設數字檔案館的基礎和實現的功能之一。因而,應用人工智能提供的理論、技術、基礎設施是大勢所趨,檔案網站長期以來已是檔案信息化建設中不可或缺的組成,需與信息技術同步發(fā)展。因而,在人工智能的框架下升級檔案網站建設將是檔案領域同人工智能融合的重要方面。
當前,檔案網站建設已是多數檔案館的基本構件,盡管限于理念、所處地區(qū)、設計框架等多方面的原因,各國與地區(qū)的檔案網站建設水平不盡一致,但基本功能相近,主要區(qū)別在于功能的完善程度。綜合以美國、加拿大、澳大利亞、英國等發(fā)達國家與我國省級地方的檔案網站來看,當前檔案網站是提供檔案服務以及檔案機構與社會展開互動的重要平臺,作為呈現檔案資源整合與服務的門戶,檔案網站的基本功能是要滿足用戶的檔案需求。隨著社會的發(fā)展,通過網站提供檔案服務的內容與形式要求將更加多元化,相比當前更多是提供靜態(tài)、單向或延時服務,檔案網站智能化是必然要求。然而,即便是發(fā)達國家,亦有需升級優(yōu)化之處,而人工智能能夠提供一定的方法、工具與技術予以解決,這也正是為何在人工智能的框架下探討檔案網站優(yōu)化建設的根本原因。因而,從檔案網站的功能來看,需借助人工智能升級檔案網站:
2.1 有限的檔案在線利用。在線提供檔案利用服務是檔案網站的核心功能,當前主要通過兩類途徑實現:一是在線提供全文,二是通過目錄檢索明確所需檔案,再通過線上申請獲取檔案。相比于館藏中豐富的檔案資源,檔案的在線利用并不充分,問題主要顯現在如下方面:
第一,非數字格式的檔案還處于數字化的進程中,當前各國的檔案數字化完成度有待提升。由于數字化涉及計劃、檔案選擇、掃描、著錄等一系列流程,當前有限的人力和財力使得數字化處于較緩慢的進程中。例如,美國檔案與文件署保管了125億頁的文件,但得到數字化的不過2.35億頁[3]。第二,由于多數檔案僅能通過目錄檢索以線上申請結合人工審核的方式獲取,這使得檔案難以實時獲取且可能需要若干工作日的等待,甚至當前多數檔案機構并未提供針對用戶在線申請的檔案服務,用戶仍然需要線下實地申請。第三,網站的在線檢索不盡完善,一方面在于數字化的檔案未能充分數據化或原生數字檔案的異構化,信息組織深度不足,檔案不能完成數據層面的自定義,檔案之間難以互聯互通,未能達到機器學習的要求,從而難以高效提供精確的檔案滿足用戶需求。另一方面,網站未能提供全面的在線專業(yè)指導或輔助,用戶在檢索中遇到的問題難以及時解決。例如,我國當前的檔案網站并未實現全文檢索,對所需檔案了解有限的用戶檢索策略難以與檔案網站提供目錄、主題詞或關鍵詞匹配[4]。第四,數字化檔案與原生數字檔案均存在智能開放問題,即技術上能夠實現在線檢索卻限于保障檔案利益相關者的權益所需面臨開放上的問題。例如,開放哪些檔案、開放檔案中的哪部分內容、對誰開放,合適開放是精細化的工作,亦需要更加嚴密的規(guī)則支持,在目前更多地依賴人工審查的狀況下開放受限,未能充分應用技術也導致開放存在一定問題。
2.2 在線檔案產品需充分的投入。檔案網站除了提供未加工的檔案以外,還通過資源整合與挖掘提供各類數字檔案產品,例如,網上展覽支持教育的歷史檔案專題。這些檔案產品在內容與形式上同原始檔案相比有著更高的要求,例如豐富的知識量、多樣性、趣味性、可視化等被視作檔案產品應當凸顯的特征。因而,在線檔案產品的開發(fā)需要充分的投入,但目前存在如下局限:
第一,如何選擇合適的主題以及相應的檔案開發(fā)整體性的產品。在這其中,用戶的需求如何更好識別,社會相關熱點如何及時抓取,如何明確所需的檔案等都面臨大量工作。第二,如何深度設計與開發(fā)檔案產品。例如,從我國現有網站提供的整合類產品來看,圖片式的平面展覽較多,如何提供在形式與內容上更多元且更具文化與視覺效應的產品、如何從整體上設計產品體系與搭配不同產品都較具難度。第三,檔案產品開發(fā)需借助專業(yè)的技術挖掘、整合與呈現現有資源,用哪些技術、怎么用對檔案管理人員都有較大的挑戰(zhàn)。在這其中,人工智能通過深度學習、數據挖掘等都可以幫助解決問題。
2.3 互動與社區(qū)功能有限。檔案網站的互動功能有限在各項圍繞檔案網站的研究中得到凸顯,當前主要是通過社交媒體來補足互動方面的局限。然而同檔案網站相比,社交媒體無法同時提供充足的信息資源,且社交媒體是依托第三方平臺提供服務,無論是功能、資源還是自主性上都無法替代檔案網站。在我國,當前即使開通了社交媒體賬號的機構也往往無法實現實時互動。當前,參與式的檔案館被視作是檔案館未來的發(fā)展方向,檔案網站作為重要載體亦在構建與完善相應的功能。例如,美國檔案與文件署在其網站開設了眾包平臺dashboard,為了更好地實現檔案館工作人員、志愿者以及公眾的共享與交流建立了歷史社區(qū)(history hub)。
然而,即使是網站建設較好的國家或地區(qū),依然在互動方面存有不足:第一,直接性的互動有限。當前網站主要通過郵箱、電話、在線表單、社交媒體等形式提供互動通道,本質上是依托檔案網站提供互動方式,并不是用戶與檔案網站展開互動。第二,及時性不足,通過上述的形式與檔案機構建立聯系時,用戶往往需要一定的時間才能得到反饋。例如,英國國家檔案館、加拿大圖書檔案館、美國檔案與文件署等對用戶在線提交的檔案利用申請的反饋時間規(guī)定在一到五個工作日。第三,技術未能有效支持公眾參與,當前的公眾參與的任務發(fā)布、成果的審核、參與過程中的相互交流等并不順暢,往往需要人工的干預,亦要在有限的數據分析的情況下優(yōu)化公眾參與的任務與流程,這在人員及其能力有限的情況下往往呈現出公眾參與不足以及成果質量參差不齊的情況,這也是各國的眾包項目中一致指出的問題[5]。第四,個性化服務不足,當前的網站主要是提供通用性的功能,除了如加拿大圖書與檔案館推出了個人檔案門戶的板塊外,多數檔案網站主要是在被動接收用戶的指令后提供內容與形式都一致的服務,未能識別用戶的特點與需求充分提供個性化的服務。
3 檔案網站智能化策略
當前檔案網站資源整合與服務、互動與社區(qū)功能尚需進一步拓展與深化。智能化建設技術發(fā)展背景下檔案網站的升級正是功能升級的有效途徑。隨著人工智能進入發(fā)展新階段,且我國乃至世界范圍內人工智能得到重點關注與倡導,檔案網站的智能化建設不再處于構想或是準備階段,而是能夠依托技術實現落地。當前檔案網站呈現的不足體現出三大問題:一是各功能的智能化水平均較低;二是數據管理理念與方法未融合于網站運營中;三是網站運營依賴于人工支持與運營團隊人員有限的矛盾較大?;谶@三大問題,開展系統(tǒng)的檔案網站智能化建設。
3.1 以建設整體智能中心為目標。建設整體智能中心意味著檔案網站的智能化建設是全面、系統(tǒng)、深入的,具體表現為:第一,檔案網站不僅是檔案機構同用戶互動的中介平臺,而且檔案機構能夠作為相對獨立的主體分析與解決運營的相關問題,以智能主體的定位開展工作。(1)檔案網站能自主整合檔案資源并提供各類檔案服務從而與用戶良好互動。(2)檔案網站可以同檔案機構或工作人員互動以明確檔案網站的運營需求從而獲取相應的內容與技術等資源。(3)檔案網站可以自主運營,包括組織檔案網站上活動的不同主體的社區(qū)建設。第二,檔案網站的智能化建設不是針對某項功能,而是要實現各個功能模塊協同的智能化。一方面,對現有功能予以智能化升級,例如,可以依靠人工智能優(yōu)化當前展覽的組織與呈現方面,可參考挪威國家博物館正在試驗的機器學習和深度神經網絡管理館藏,機器視覺增加元數據以識別和標記圖像,機器根據“脫離情境的捕捉和凝視” 技術呈現信息原貌,從而在展覽上往往呈現出不同于人類邏輯的意外結果。另一方面,開發(fā)基于人工智能的新功能,依托人工智能在機器學習、數據挖掘、信息整合、可視化等方面的優(yōu)勢,可以開拓更加多元的檔案信息服務模塊。
3.2 融合數據管理理念。檔案網站的運營優(yōu)化本質上如何將檔案機構的資源從內容與形式上同用戶匹配,很大程度上關乎兩大方面的事務:一是檔案機構對檔案網站的輸入;二是檔案網站對用戶的輸出以及用戶對網站的反饋乃至貢獻,這又直接體現為供求問題。因而,為了實現檔案資源供應與用戶檔案需求的平衡,人工智能的框架要在檔案網站運營中融合數據管理理念:第一,明晰可供利用的檔案資產,并明確檔案管理的規(guī)則。即可通過檔案網站實現在線開放與利用的檔案有哪些以及這些檔案如何開放與在線利用要有精細化的規(guī)則,包括利用的形式與內容有何要求、用戶權責如何設定、開放與利用的權限是什么等,從而能夠為網站智能化提供基本的規(guī)則。第二,實現檔案的數據化,保證檔案可以支持深度的檢索和整合。這需要做好數據的組織與挖掘工作,依靠語義網與本體實現檔案的數據分解和關聯,從數據層面完成檔案的自定義,從而將檔案整合為可支持機器學習的數據資源。例如,當前我國的地質資料館已實現對檔案的數據化,從而能夠根據各種維度與屬性呈現檔案并可應用可視化方式實現利用。這樣的方式應當在檔案網站的檔案產品中凸顯,并且要利用人工智能打造更多形式的產品。第三,依托人工智能及時收集各類用戶行為的數據,用以反饋檔案運營的優(yōu)勢與不足之處,從而明確能夠給用戶提供的資源以及如何提供。通過精細化的運營管理,實現網站資源整合、頁面布局、功能模塊設計等多方面的實時調整與優(yōu)化。例如,可以借鑒美國國家美術館使用Dexibit的工具分析用戶訪問數據并預測未來的訪問情況[6]。
3.3 加強人工智能服務。為彌補當前網站相對靜態(tài)的呈現,人工智能服務的導入也將是檔案網站智能化建設的核心內容之一,從而將檔案網站從單向性為主的門戶轉向更具智能與關聯意識的數字平臺。在無法提供足夠的工作人員應對來自不同用戶的檔案申請、反饋或咨詢時,檔案網站的人工智能服務的強化是必要的,從而將人力從自動化的工作中解放出來。這既可以令檔案機構專注于創(chuàng)造性的工作,又可以依托人工智能在一定標準框架內提供更加優(yōu)質的服務。一方面,在用戶端提供檔案網站助手服務,提升個性化服務的系統(tǒng)與智能化。即通過這項技術,檔案在線申請利用、政策咨詢、意見反饋乃至實體檔案館的路線個性化制定等活動都可以實時提出并獲得答案。另一方面,在資源端,人工智能幫助檔案工作人員完成檔案的整合、開發(fā)、利用以及保管等工作。面對海量且正在即時增長的信息,人工智能可以幫助承擔信息的標記、分類、描述等工作,尤其是對照片、視頻等非文本信息,更可以通過大數據、機器學習、深度神經網絡等進行更加系統(tǒng)的整合與開發(fā),從而保證能夠在用戶端提供充分的檔案信息資源,更能依據用戶端的需求與數據完成無縫鏈接的服務工作。
參考文獻:
[1]朱久蘭.檔案信息智能檢索[J].檔案學通訊,1994(4):57-59.
[2]楊智勇,周楓.試析智慧檔案館的興起與未來發(fā)展[J].檔案學通訊,2015(4):45-50.
[3]NARA. DRAFT FY 2018 - FY 2022 Strategic Plan[EB/OL].[2017-12-21]2017-09-11.https://usnationalarchives.github.io/strategic-plan/goal1/.
[4]王晨.省級檔案網站資源檢索現狀及其問題研究[J].浙江檔案,2016(9):10-12.
[5]顧麗婭.國外檔案眾包實踐及啟示[J].浙江檔案,2015(7):13-15.
[6]弘博網.人工智能:連接博物館與公眾的新方式[EB/OL].[2017-12-21]2017-11-30.http://www.hongbowang.net/e/wap/show.php?classid=59&id=8308&style=0&bclassid=58&cid=59&cpage=0.
(作者單位:周文泓,四川大學公共管理學院;李新功,中國人民大學信息資源管理學院 來稿日期:2019-02-02)