周楓 呂東偉
摘要:人工智能的發(fā)展正推動著以“智能+”為標志的普適性智能社會的到來。本文指出,人工智能在檔案管理中的應用,不僅是檔案管理業(yè)務的緊迫需要,更是社會需求的必然要求。智能+檔案管理的應用場景涵蓋智能收集、智能分類、智能利用等檔案管理全業(yè)務流程,給傳統檔案工作帶來了巨大變革。智能+檔案管理時代,業(yè)務核心在于特定場景規(guī)則的提出與相應模型的訓練,因此智能+檔案管理時代,需要更加專業(yè)的檔案人員。
關鍵詞:人工智能智能+檔案管理應用場景
在數據集聚、技術突破、國家戰(zhàn)略等多重力量的驅動下,人工智能(AI)迎來了一個爆發(fā)期,從2016年Alpha? Go一鳴驚人到如今AI“飛入尋常百姓家”,人工智能成為科技創(chuàng)新的“超級風口”。人工智能已經進入到場景應用階段,深入落地到各行各業(yè)以解決不同場景的問題,也給檔案工作帶來新的發(fā)展機遇。與以往其他技術不同,人工智能幾乎可以在檔案管理的各個業(yè)務環(huán)節(jié)中進行應用,這也就意味著我們需要站在戰(zhàn)略高度,更加全面深入地加強對人工智能在檔案工作中應用的研究。
人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的技術科學,目前在自然語言處理、模式識別、專家系統、圖像識別、語音識別、機器學習、智能機器人等方面已經發(fā)展得較為成熟。
自然語言處理是指讓計算機擁有人類般的文本處理能力,如識別文檔的核心議題、提取相關內容并制作成報表等,其主要原理包括句法語義分析、信息抽取、文本挖掘、信息檢索、人機交互等。自然語言處理主要應用于智能問答、機器翻譯、文本分類、文本摘要等方面。
模式識別是指對表征事物或現象的各種形式的信息進行處理和分析,從而達到對樣本進行分類的目的,是文本、語音、圖像等識別的一項基礎技術。
專家系統可看作一類具有專門知識的計算機智能程序系統,通過運用人工智能中的推理技術來求解和模擬通常由專家才能解決的各種復雜問題。目前專家系統在醫(yī)療診斷、化學和地質數據分析等方面的應用,已達到較高水平。
圖像識別是指從圖像中識別出物體、場景和活動的能力,如自動駕駛、醫(yī)療影像分析、人臉識別等都屬于圖像識別的應用;語音識別是指將語音轉化為文字,并對其進行識別認知和處理,如科大訊飛中的實時翻譯、蘋果手機中的Siri等。
機器學習是指機器從樣本中,通過特定算法,自動去尋找、提煉相關規(guī)律,并進行預測。機器學習正成為人工智能研究的核心之一,并廣泛應用于自然語言處理、專家系統、語音圖像識別等領域。
智能機器人在生活中已隨處可見,如掃地機器人、陪伴機器人,目前在安防監(jiān)控、互動交流等方面應用較廣。
綜上,人工智能在數據、信息與知識的提取、分類、分析等方面具有強大的技術優(yōu)勢,而恰好檔案工作的主要內容也在于數據的采集、處理、分析等,因此,人工智能在數據的規(guī)范性、準確性、一致性等方面的思維、技術和方法,能夠有效促進檔案資源的收集、管理、利用等業(yè)務工作。
人工智能時代已經到來,并正深刻地沖擊著傳統社會與生態(tài)。2013年,牛津大學的兩位學者在研究報告《就業(yè)的未來》中指出,估計到2033年,電話銷售人員和保險業(yè)務員有99%的概率失業(yè),而檔案管理員有76%的可能性。[1]在檔案管理領域進行人工智能的應用勢在必行。
(一)管理業(yè)務需要
大數據時代,電子化、數據化、數量龐大、增長迅速、類型多樣的檔案資源給檔案管理帶來了巨大的挑戰(zhàn)。如何實現海量檔案的收集?如何更有效率地進行鑒定?如何實現半結構化、非結構化文檔的檢索?如何實現數據檔案的管理……盡管我們應用了很多技術來提升檔案管理水平,但總體來看,檔案工作仍然屬于“勞動密集型”,很多工作依賴于人力,也很難跟上時代發(fā)展需要,迫切需要采取新模式、新思路來進行革新。同時,“人工智能時代,程式化的、重復性的、僅依靠記憶與練習就可以掌握的技能將是最沒有價值的,幾乎一定可以由機器完成”,[2]毋庸諱言,此類業(yè)務在檔案部門也大量存在,唯有更好地學習、應用、融合人工智能,通過人工智能來賦能傳統檔案工作,我們才能不被時代拋棄,才能更好地促進檔案工作發(fā)展。
(二)服務需求倒逼
“我們被信息淹沒,但是更渴求知識”,奈斯比特的困惑在大數據時代更加凸顯。從簡單的檔案借閱到希望提供專業(yè)化、精品化、知識化的服務內容和個性化、一站式、互動式服務方式,用戶需求不斷升級。在這個開放、競爭的社會中,當需求滿足途徑和方式日趨多元時,服務成為市場競爭的核心要素。如何幫助用戶從海量檔案資源中進行快速發(fā)現和獲取,如何深度挖掘用戶特征,提供個性化、多元化、人性化的智慧檔案服務,將決定著檔案部門的生存和地位,而這也正如特里·庫克所言:“如果我們這些信息工作者能夠引導利用者從泛濫的、具體的信息過渡到知識,甚至于智慧,我們在新時代的工作、地位就會得到保證”[3]。
人工智能可用于檔案管理的多個環(huán)節(jié),并且由于主要借助機器進行,很多的規(guī)則和數據可以復用,因此大量業(yè)務可以同步進行,如在收集的同時可以進行整理、鑒定、著錄等,從而很好地提高業(yè)務效率和準確性。
(一)數字檔案資源智能歸檔
大數據時代電子文件的爆發(fā)式增長給歸檔帶來較大困難。基于模式識別、機器學習、自然語言處理等技術,能夠實現歸檔范圍內電子文件的自動歸檔,并抓取相關元數據信息,同時還可結合庫藏抓取網絡上的各類文檔,構成多元、立體的館藏體系。針對歸檔文件質量較難把控的痛點,基于相關質量審核要點并經過機器學習形成歸檔文件質量審核模型,可以很好地發(fā)現并標注歸檔文件質量問題,提升歸檔文件質量。
(二)數字檔案資源智能整理
基于自然語言處理、機器學習、模式識別等技術,可以實現檔案的自動分類和排列組合。一是全宗內的檔案分類,如自動將相關文檔按文書、會計、基建或年度、組織機構、問題等進行分類;二是直接提取文件的相關特征,并進行快速、準確的排列組合,如正文與附件、正本與定稿、來文與復文等自動組合。
(三)檔案智能鑒定劃控輔助
檔案鑒定大多需要考慮內容、作者、時間、完整程度等進行綜合判斷,相對比較抽象,對專業(yè)性要求比較高。而采用專家系統和機器學習,可以從成熟的鑒定樣本中尋找規(guī)律,并運用這些規(guī)律對各類檔案的內容價值進行判斷,作為檔案人員鑒定的參考。這樣做不僅可以統一鑒定標準,而且可以有效提高鑒定效率。
(四)智能化安全保管
借助機器視覺和語音識別的相關技術,可以讓計算機具備像人類一樣的觀察和識別能力,目前常見的應用場景為庫房安全。如應用人臉識別、語音識別、指紋識別、虹膜識別等智能識別技術建立的安防系統,通過相關傳感器實現庫房環(huán)境的智能監(jiān)控等。
(五)智能化多維統計
檔案統計依賴于元數據的多寡和著錄顆粒度的高低,傳統環(huán)境下檔案統計維度相對較少、可視化程度相對較低。基于“智能+檔案統計”,可以采取自然語言處理技術,提取檔案的相關內容和屬性信息形成多類標簽,并建立標簽之間的內在關聯,進而實現檔案統計的按需調取、多維呈現。
(六)智能化檔案檢索
基于“智能+檔案檢索”,能夠將檢索從基于關鍵詞級別提高到基于知識級別,得到優(yōu)化檢索結果,使查全率和查準率能夠更好地滿足檢索需求,具體包括三個步驟:一是基于自然語言處理,提取檔案形式特征,自動進入檔案系統形成相關檢索項,減少人工錄入,提高著錄效率;二是運用機器學習,對檔案內容進行智能標引、智能摘取,并以規(guī)范化的檢索語言賦予檢索標識;三是基于語義搜索,更好地理解用戶的真實意圖,提供更加精確的檢索服務。
(七)智能化檔案編研
目前,利用數據撰寫新聞已經比較成熟,甚至基于人工智能寫詩也已成為現實,如微軟小冰所作的詩集《陽光失去了玻璃窗》已正式出版,成為人類歷史上首部100%由人工智能創(chuàng)作的詩集。盡管目前智能寫作與人的創(chuàng)造性還有一定差距,但至少已初具雛形。在檔案領域,針對一些相對簡單的編研工作,如檔案文件匯編、檔案文摘匯編、大事記、組織沿革、專題概要等,可以嘗試利用機器學習技術,實現智能編研。
(八)智能化檔案利用
檔案利用領域是人工智能應用的重點。一是運用自然語言處理,對檔案內容進行數據挖掘,深層次發(fā)掘檔案資源價值,多層次地滿足用戶需求,并根據需要形成知識圖譜;二是通過自然語言處理和模式識別,分析用戶特征和需求,對用戶進行畫像,并進行個性化、情景化的智能推送;三是充分利用智能機器人、聊天機器人,加強與用戶的溝通交流與互動。
盡管人工智能可以很好地幫助檔案部門解決很多問題,但人工智能技術不是萬能的,尚無法完全代替人類智能,在智能+檔案管理的過程中,核心工作依然由檔案人員負責。
(一)人工智能時代需要更清晰地了解業(yè)務規(guī)則
經過幾十年的積累,人工智能的應用在技術實現上已經不是關鍵。在技術之上,最核心的問題是特定場景規(guī)則的提出和模型的應用。對于檔案領域而言,如果文檔模板或結構本身相對比較固定,那么人工智能處理起來會相對容易一些。例如針對文書檔案,由于有《黨政機關電子公文格式規(guī)范》的約束,其文檔結構相對比較統一、文檔要素相對比較齊全,因此規(guī)則的制定與提取相對簡單,進行人工智能處理時會更加容易,應用效果也相對比較明顯。而針對科技檔案或一些專門檔案,由于其文檔特點不一,對規(guī)則的提取和樣本的訓練一定程度上會加大處理難度。
(二)人工智能時代需要更加專業(yè)的人員
每一次技術革命所產生的新行業(yè)都會帶來對應的新崗位,舊崗位被淘汰所釋放的資源會被重新定義和分配,正如轎車的普及消滅了黃包車夫這個崗位,卻創(chuàng)造了出租車司機這個新的崗位。因此,當人工智能將檔案工作者從煩瑣的常規(guī)檔案管理事務中解放出來時,并不意味著檔案人員被完全替代了。他們或許不再叫檔案管理員,或許將由數據工程師來從事檔案業(yè)務。同時,人工智能時代,程式化、重復性的檔案業(yè)務將由機器完成,但那些更有意義、更具價值且更能體現檔案人員綜合素質的技能,如規(guī)則的設定和把握、檔案價值的判斷、深層次的編研、各類創(chuàng)新利用等,仍然將由檔案人員來完成。同時,我們還需要更深入地了解相關人工智能技術,從而實現技術與規(guī)則的深度融合。
用新興的人工智能為古老的檔案工作裝上聰明的“大腦”,讓“故紙堆”重煥生機,這是當前檔案管理的前沿模式和巨大變革,甚至可能是檔案發(fā)展史上的一次“工業(yè)革命”?!翱v觀檔案發(fā)展史,從簡牘到電子,檔案工作無不是適應科技發(fā)展而不斷更新檔案管理內容和手段才獲取更大發(fā)展的。”[4]對于檔案工作者而言,要跟得上技術的發(fā)展變化,才能不被智能之風吹遠。
*本文系2017年國家檔案局科技項目“OFD格式在證券行業(yè)技術檔案管理中的應用研究”的部分成果,項目編號:2017-X-20。
注釋及參考文獻:
[1]尤瓦爾·赫拉利.未來簡史[M].林俊宏,譯.北京:中信出版集團股份有限公司,2015:17.
[2]李開復,王詠剛.人工智能[M].北京:文化發(fā)展出版社,2017:251.
[3]特里·庫克,劉越男.電子文件與紙質文件觀念:后保管及后現代主義社會里信息與檔案管理中面臨的一場革命[J].山西檔案,1997(2):7-13.
[4]楊冬權.楊冬權在全國數字檔案館(室)建設推進會上的講話[N].中國檔案報,2013-10-18(001).
作者單位:上海證券交易所