[摘要]人工智能已經(jīng)成為“互聯(lián)網(wǎng)+”時代下中國發(fā)展戰(zhàn)略之一,對中國各行各業(yè)產(chǎn)生深遠影響,檔案行業(yè)也不例外。論文概述了人工智能的發(fā)展歷程和代表性技術(shù),認為人工智能在檔案工作中的應用主要包括網(wǎng)絡(luò)檔案信息資源智能收集、數(shù)字檔案信息資源智能分類與檢索、智能化檔案價值鑒定、智能化檔案安全管理和智能化檔案提供利用服務。在實際應用中人工智能還存在一些問題,需要深入研究并加以解決。
[關(guān)鍵詞]人工智能檔案工作智能化
[分類號]G270.7
The Application of Artificial Intelligence in Archival Work
Sha Zhou
(Management School of Anhui University,Hefei,Anhui,230601)
Abstract: Artificial intelligence has become one of the development strategies in China under the"Internet +" era. It will have far-reaching impact on all walks of life in China, and the archives industry is no exception. This paper summarizes the development process and representative technology of artificial intelligence, and points out that the application of artificial intelligence in archives work mainly includes intelligent collection of network archives information resources, intelligent classification and retrieval of digital archives information resources, intelligent archives value appraisal, intelligent archives security management and intelligent archives utilization services. However, there are still some problems in the practical application of artificial intelligence, which need to be studied and solved.
Keywords: Artificial Intelligence; Archives Work; Intelligent
2017年7月,國務院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,指出到2030年我國的人工智能理論、技術(shù)與應用總體達到世界領(lǐng)先水平,成為世界主要人工智能創(chuàng)新中心[1]。因此,研究人工智能在檔案工作中的應用對實現(xiàn)“互聯(lián)網(wǎng)+檔案”的戰(zhàn)略目標有著十分重大的意義。
1人工智能概述
1.1人工智能的“前世今生”
人工智能一詞最早可以追溯到20世紀50年代在美國Dartmouth學院召開的“Dartmouth會議”,在會上Minsky等科學家將人工智能定義為用機器模擬人類智能的一門科學,他們也因此被稱為人工智能之父[2]。此后,人工智能的發(fā)展可謂跌宕起伏,總體上可以分為三個階段。第一階段是“推理期”,當時人們認為邏輯推理能力是機器具有智能的重要成分;第二階段是“知識期”,即認為知識是有智能的機器所必備的;第三階段是“學習期”,人工智能開始從數(shù)據(jù)中學習知識,通用的學習方法在許多商業(yè)應用中顯示出無可替代的價值[3]。
1.2人工智能的代表技術(shù)
人工智能的代表技術(shù)主要有自然語言處理、模式識別、專家系統(tǒng)、機器學習以及分布式人工智能。自然語言處理是用計算機對人類的口頭和書面形式的自然語言進行加工處理和應用的技術(shù)[4]。自然語言處理的應用包括機器翻譯、信息檢索和社會計算等[5]。模式識別研究的是使一個計算機系統(tǒng)具有模擬人類通過感官接受外界信息、識別和理解周圍環(huán)境的感知能力[6]。模式識別的應用包括文字識別、語音識別以及人臉識別等。專家系統(tǒng)是一個智能計算機程序系統(tǒng),其內(nèi)部含有大量的某個領(lǐng)域?qū)<宜降闹R與經(jīng)驗,能夠利用人類專家的知識和解決問題的方法來處理該領(lǐng)域問題[7]。機器學習是研究機器模擬人類的學習活動、獲取知識和技能的理論和方法,以改善系統(tǒng)性能的學科[8]。分布式人工智能研究的是由多個問題求解實體組成的系統(tǒng)中,各實體間交互作用、知識和動作如何分布與協(xié)作,從而提高系統(tǒng)的整體性能[9]。Agent(艾真體)是一種具有智能的實體,它通過傳感器感知環(huán)境并通過執(zhí)行器對所處的環(huán)境產(chǎn)生影響[10]。
2人工智能在檔案工作中的應用
2.1網(wǎng)絡(luò)檔案信息資源智能收集
網(wǎng)絡(luò)檔案信息資源是以數(shù)字化形式記錄,以多媒體形式表達,分布式存儲在網(wǎng)絡(luò)計算機磁介質(zhì)、光介質(zhì)以及各類通信介質(zhì)上,并通過計算機網(wǎng)絡(luò)通信方式進行傳遞和再現(xiàn)出來的檔案信息內(nèi)容的集合[11]。在“互聯(lián)網(wǎng)+”時代,網(wǎng)絡(luò)檔案信息資源的數(shù)量不斷增加,種類也越來越豐富。因此,在檔案工作中可以應用各種智能Agent對海量的網(wǎng)絡(luò)檔案信息資源進行搜索、分析和過濾,從而達到智能收集所需網(wǎng)絡(luò)檔案信息資源的目的。智能Agent有很多種結(jié)構(gòu),包括基于模型的反射Agent、基于目標的Agent以及學習Agent等[12]。智能Agent具有非常強的自主性和交互性,它可以根據(jù)使用者制定的收集規(guī)則主動地收集所需信息,并為使用者提供相應的服務。每種智能Agent的實際功能和所要達到的目標是不同的,比如百度和谷歌所使用的智能爬蟲就是智能Agent的一種,它的功能就是將定向或者非定向的網(wǎng)頁抓取下來進行分析并得到格式化的數(shù)據(jù)。在實際檔案工作中,檔案工作者可以根據(jù)不同的收集需要選擇不同的智能Agent。
2.2數(shù)字檔案信息資源智能分類與檢索
數(shù)字檔案信息資源一般包括文本類數(shù)字檔案信息資源和多媒體類數(shù)字檔案信息資源。在檔案工作中可以應用自然語言處理、模式識別和機器學習的相關(guān)技術(shù)對數(shù)字檔案信息資源進行智能分類。文本分類是自然語言處理技術(shù)的一種,它根據(jù)一個已經(jīng)被標注的訓練文本樣本集合,找到文本屬性和文本類別之間的關(guān)系模型,然后利用這種學習得到的關(guān)系模型對新的文本進行類別判斷[13]。文本分類可以實現(xiàn)對文本類數(shù)字檔案信息資源的智能分類:一方面,它可以通過檔案工作者預先設(shè)定的檔案分類法對數(shù)據(jù)庫中的文本類數(shù)字檔案信息資源進行智能分類;另一方面,它也可以對存在于網(wǎng)頁中的文本類數(shù)字檔案信息資源進行智能分類。此外,檔案工作者還可以采用基于圖像識別、語音識別和視頻識別等技術(shù)的智能分類技術(shù)對多媒體類數(shù)字檔案信息資源進行智能識別和分類。
由于數(shù)字檔案信息資源數(shù)量和種類的急劇增多,導致傳統(tǒng)信息檢索的弊端越來越明顯,特別是在檢索效率方面已經(jīng)無法達到檔案工作者的要求。因此,在檔案工作中可以應用智能檢索技術(shù)來提高檢索效率。智能檢索運用了自然語言處理和模式識別等多種人工智能技術(shù),它和傳統(tǒng)信息檢索最大的區(qū)別在于它可以檢出與用戶所輸入的檢索內(nèi)容關(guān)系最為密切的結(jié)果,并且可以對這些結(jié)果進行相關(guān)度排序,從而大幅度縮短用戶獲取所需信息的時間。智能檢索不僅可以檢索文本信息,也可以檢索圖像、聲音和視頻等多媒體信息,它在多媒體類數(shù)字檔案信息資源越來越多的“互聯(lián)網(wǎng)+”時代已經(jīng)發(fā)揮出傳統(tǒng)信息檢索無法比擬的能力。
2.3智能化檔案價值鑒定
檔案價值鑒定工作是一項非常復雜的系統(tǒng)工程,它直接決定了檔案的“生”或“死”,因此在鑒定過程中要注意各種規(guī)則和方法的綜合運用。建立檔案價值鑒定專家系統(tǒng)可以輔助檔案工作者開展鑒定工作,特別是對那些難以確定保存價值的文件,檔案價值鑒定專家系統(tǒng)不僅能夠像人類檔案價值鑒定專家一樣給出相對權(quán)威的建議,而且不受任何時間地點的限制。檔案價值鑒定專家系統(tǒng)的建立一般有三個步驟:設(shè)計初始知識庫是將人類檔案價值鑒定專家的知識(鑒定規(guī)則和方法等)獲取到知識庫中,并將這些知識轉(zhuǎn)化為計算機可以理解的形式;開發(fā)并實驗原型系統(tǒng)是在設(shè)計好初始知識庫之后,用一些足夠簡單的檔案價值鑒定任務來訓練整個系統(tǒng);改進與完善知識庫則是通過檔案價值鑒定的實踐反復對知識庫和推理規(guī)則進行改進,從而歸納出更加完善的結(jié)果。一個基本的檔案價值鑒定專家系統(tǒng)模型如圖1所示,將檔案價值鑒定專家的知識存入知識庫之后,檔案工作者通過接口向?qū)<蚁到y(tǒng)提出鑒定問題,專家系統(tǒng)經(jīng)過推理再通過接口將結(jié)果反饋給檔案工作者,其中解釋器負責對系統(tǒng)行為進行解釋。
2.4智能化檔案安全管理
檔案安全是檔案工作的底線,是檔案事業(yè)的根基[14]。檔案工作者可以將指紋識別、人臉識別以及虹膜識別等智能識別技術(shù)用于檔案庫房的門禁系統(tǒng)中,這樣既可以保證未經(jīng)許可的人員無法擅自進入庫房,也使得檔案工作者進入庫房更加便捷。智能監(jiān)控是第三代視頻監(jiān)控技術(shù),它可以通過對原始視頻圖像經(jīng)過背景建模、目標檢測與識別、目標跟蹤等一系列算法分析,進而分析其中的目標行為以及事件[15]。智能監(jiān)控系統(tǒng)最大的優(yōu)點在于能自動進行實時分析報警,能在威脅發(fā)生之前提醒工作人員注意防范,因此檔案部門采用智能監(jiān)控系統(tǒng)可以進一步提高檔案庫房的安全程度。此外,在檔案庫房中還可以將智能控制技術(shù)應用在恒溫恒濕系統(tǒng)中,從而達到自動控制環(huán)境溫濕度的目的。
目前,在數(shù)字檔案信息安全保護方面可以應用的人工智能產(chǎn)品主要是智能防火墻和智能入侵檢測系統(tǒng)。智能防火墻運用了多種人工智能技術(shù)來識別和決定訪問控制,在大多數(shù)情況下可以自主地完成病毒攔截和阻止網(wǎng)絡(luò)攻擊等任務,還可以提供強大的身份認證和審計管理等功能。傳統(tǒng)的入侵檢測系統(tǒng)雖然可以通過實時監(jiān)控檢測到入侵現(xiàn)象并發(fā)出警告,但缺點是效率低且誤報率高。智能入侵檢測系統(tǒng)不僅可以更加快速、準確地識別入侵現(xiàn)象,還能夠自動追擊攻擊者并收集攻擊數(shù)據(jù)。因此,在檔案工作中使用智能防火墻和智能入侵檢測系統(tǒng)能從多個方面來保護數(shù)字檔案的信息安全。
2.5智能化檔案提供利用服務
檔案提供利用工作是檔案工作的中心任務,是檔案工作為社會主義事業(yè)服務的直接體現(xiàn)[16]。傳統(tǒng)的檔案提供利用服務方式一般包括閱覽服務、展覽服務和咨詢服務等,而新型的檔案提供利用服務方式主要是網(wǎng)站服務和新媒體服務。2016年4月,工信部、國家發(fā)改委和財政部印發(fā)了《機器人產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》,其中指出要推進重大標志性產(chǎn)品率先突破,并將智能型公共服務機器人列為十大標志性產(chǎn)品之一[17]。未來,檔案工作者可以將智能型公共服務機器人應用在傳統(tǒng)的閱覽服務、展覽服務和咨詢服務中,為用戶提供各種智能化服務。比如在閱覽服務中給用戶定時提供茶水,在展覽服務中為用戶提供指引和講解,在咨詢服務中更加快速地幫用戶解答相關(guān)問題等等。由于新型的檔案提供利用服務方式是通過網(wǎng)絡(luò)進行的,因此用戶量巨大是其最明顯的特點,尤其是“兩微一端”的飛速發(fā)展,直接使得檔案利用者的數(shù)量呈幾何級數(shù)增長。檔案工作者可以應用數(shù)據(jù)挖掘技術(shù)對利用者的行為進行深度挖掘,以便及時準確地掌握利用者的個性化信息需求,從而真正地實現(xiàn)“以用戶為中心”。
3人工智能在檔案工作中應用的問題及對策
3.1人工智能與其它技術(shù)綜合應用
在“互聯(lián)網(wǎng)+”時代,移動互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)以及物聯(lián)網(wǎng)等技術(shù)在檔案工作中的應用并不是孤立,而是彼此相互促進。同樣,人工智能技術(shù)的應用也離不開云計算和大數(shù)據(jù)等技術(shù)的支持。但目前大多數(shù)檔案部門并沒有許多云計算和大數(shù)據(jù)技術(shù)的應用經(jīng)驗,應用物聯(lián)網(wǎng)技術(shù)對檔案實體進行管理的檔案部門也不是很多。在檔案信息化程度參差不齊的現(xiàn)狀下,盲目地應用人工智能技術(shù)不僅不利于檔案工作智能化的發(fā)展,而且在一定程度上可能適得其反。因此,檔案部門在應用人工智能技術(shù)時應注意其與云計算和大數(shù)據(jù)等技術(shù)的深度結(jié)合,做到均衡發(fā)展、綜合應用。
3.2人工智能的應用成本
由于人工智能的研究方向比較多,導致其技術(shù)應用成本大小不一。特別是在目前的實際檔案工作中,如果檔案部門在檔案工作的各個環(huán)節(jié)都應用人工智能技術(shù),其成本必然大大增加。比如開發(fā)各種功能的智能Agent和檔案價值鑒定專家系統(tǒng)、安裝智能防火墻和智能入侵檢測系統(tǒng)以及購買智能機器人等等,都需要大量的資金投入。其中開發(fā)檔案價值鑒定專家系統(tǒng)以及購買智能機器人的成本可能會很高,而目前一般的檔案部門顯然無法承受如此巨大的因技術(shù)升級所帶來的成本問題。因此,檔案部門要想全面應用人工智能技術(shù),降低其應用成本是十分必要的。
3.3人工智能的應用安全性
在檔案工作中應用人工智能技術(shù)的目標就是更多地減少人工干預,使各項工作更加智能化。然而,在檔案工作實際中許多環(huán)節(jié)都涉及到安全性問題,如果不能保證人工智能本身的應用安全性,那么所謂的智能化也只能是紙上談兵。目前,人工智能最大的安全性問題在于其最終是否能夠超越人類智能?,F(xiàn)階段這種可能性并不大,檔案工作使用人工智能技術(shù)還面臨著技術(shù)不可控進化以及被黑客控制的風險。因此,檔案部門在應用各種人工智能技術(shù)之前應充分了解其設(shè)計思路及具體功能,做好一定的安全評估和管理工作。
3.4檔案工作者與人工智能
檔案工作者難以適應人工智能主要表現(xiàn)在兩個方面:一是檔案工作者對人工智能的抵觸;二是檔案工作者自身的素質(zhì)不高,無法靈活運用各種人工智能技術(shù)。任何一種新技術(shù)在檔案工作中應用的初期都會使檔案工作者產(chǎn)生一定的抵觸情緒,特別像人工智能這樣的技術(shù),可以應用到檔案工作的方方面面,勢會顛覆檔案工作者的原始認知。因此,檔案部門可以通過一定的教育方式讓檔案工作者明白人工智能的優(yōu)點,從而改變他們的觀念。此外,在應用每種人工智能技術(shù)之前,都應安排一定的技術(shù)人員對檔案工作者進行全面的培訓,從而保證他們可以靈活地運用這些人工智能技術(shù)。
4結(jié)語
人工智能在檔案工作中的應用非常廣泛,包括網(wǎng)絡(luò)檔案信息資源智能收集、數(shù)字檔案信息資源智能分類與檢索、智能化檔案價值鑒定、智能化檔案安全管理和智能化檔案提供利用服務等。但目前人工智能在檔案工作實際中的應用還存在著與其它技術(shù)綜合應用的問題、成本問題、安全性問題和檔案工作者難以適應等問題。從國務院印發(fā)實施的《新一代人工智能發(fā)展規(guī)劃》中可以看出,人工智能的各項技術(shù)將會愈加成熟。因此,“互聯(lián)網(wǎng)+”時代下檔案工作者要緊緊抓住這次契機,通過不斷的探索和研究,將人工智能應用到檔案工作實際中,使檔案工作真正地實現(xiàn)智能化。
參考文獻
[1]國務院.國務院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[EB/OL].[2017-9-11].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2]Nilsson N J. The Quest for Artificial Intelligence: A History of Ideas and Achievements[M]. Cambridge: Cambridge University Press,2009:77-80.
[3]余揚.人工智能六十年[J].中國發(fā)展觀察,2016(6):11.
[4][6][7][8][9]蔡自興,等.人工智能及其應用[M].第5版.北京:清華大學出版社,2016:377,28,197,253,373.
[5][13]李生.自然語言處理的研究與發(fā)展[J].燕山大學學報,2013(9):380-382,379.
[10][12]Russell S J, Norvig P.人工智能:一種現(xiàn)代的方法[M].殷建平,等譯.第3版.北京:清華大學出版社,2013:32,43-49.
[11]曾娜.網(wǎng)絡(luò)檔案信息資源組織研究[J].檔案學通訊,2010(1):45.
[14]國家檔案局.國家檔案局關(guān)于印發(fā)李明華同志在全國檔案安全工作會議上的講話的通知[EB/OL].[2017-9-26].http:// www.saac.gov.cn/news/2017-06/26/content_192040.htm.
[15]黃凱奇,陳曉棠,康運鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計算機學報,2015(6):1095.
[16]王英瑋,陳智為,劉越男.檔案管理學[M].第4版.北京:中國人民大學出版社,2015:242.
[17]工業(yè)和信息化部,國家發(fā)展和改革委員會,財政部.三部委關(guān)于印發(fā)《機器人產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》的通知[EB/ OL].[2017- 9- 26]. http://www.miit.gov.cn/n1146295/n1652858/ n1652930/n3757018/c4746362/content.html.
[作者簡介]
沙洲,安徽大學管理學院2016級檔案學碩士研究生,研究方向是檔案利用理論與實踐、電子文件管理。