石博文
人工智能(AI)是研究用計(jì)算機(jī)來模仿人腦所從事的推理、證明、識別、學(xué)習(xí)、思考等活動(dòng)的理論、方法和技術(shù),被工業(yè)界稱為第四次工業(yè)革命。近年來,隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等的發(fā)展,各大科技巨頭公司都在布局人工智能,許多領(lǐng)域都在尋找突破口,對AI的研究和應(yīng)用如火如荼。本文在分析人工智能發(fā)展情況的基礎(chǔ)上,研究了AI在數(shù)字檔案館中的應(yīng)用,并對人工智能時(shí)代數(shù)字檔案館的發(fā)展進(jìn)行了思考。
一、人工智能蓬勃發(fā)展
(一)人工智能發(fā)展概況
1956年在美國的達(dá)特茅斯大學(xué)召開的學(xué)術(shù)研討會(huì)中提出了“人工智能”這一術(shù)語,標(biāo)志著這門學(xué)科的正式誕生。人工智能的發(fā)展先后經(jīng)歷了三次熱潮:二十世紀(jì)五六十年代,以圖靈測試為標(biāo)志,人工智能在研究者中掀起第一次熱潮;二十世紀(jì)八九十年代的第二次熱潮中,語音識別是最具代表性的突破性進(jìn)展之一;2006年至今,深度學(xué)習(xí)攜手大數(shù)據(jù)引領(lǐng)第三次AI浪潮,深度學(xué)習(xí)成為至今乃至未來很長一段時(shí)間引領(lǐng)人工智能發(fā)展的核心技術(shù)。
進(jìn)入21世紀(jì)后,許多國家都在積極探索人工智能。2016年10月,美國白宮科技政策辦公室發(fā)布題為Preparing for the Future of Artificial Intelligence和The National Artificial Intelligence Research and Development Strategic Plan兩份報(bào)告;英國也發(fā)布了Artificial Intelligence: opportunities and implications for the future of decision making(2016)等報(bào)告,兩國均將人工智能發(fā)展列為國家核心戰(zhàn)略。我國目前也在致力于人工智能的研究。2017年3月,人工智能首次被寫入全國政府工作報(bào)告,指出要加快培育壯大包括人工智能在內(nèi)的新興產(chǎn)業(yè),中國人工智能迎來真正的新元年。7月,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃的通知》,提出“把人工智能發(fā)展放在國家戰(zhàn)略層面系統(tǒng)布局、主動(dòng)謀劃”,這是首部國家層面的人工智能發(fā)展規(guī)劃。2018年,人工智能再次被寫入政府工作報(bào)告,同樣是寫進(jìn)政府工作報(bào)告,但與2017年不同的是提出了“加強(qiáng)新一代人工智能研發(fā)應(yīng)用”。
(二)人工智能研究的基本內(nèi)容
人工智能研究涉及內(nèi)容廣泛,包括“知識表示、搜索技術(shù)、機(jī)器學(xué)習(xí)、求解數(shù)據(jù)和知識不確定性問題的各種方法等?!彪S著人工智能理論研究的發(fā)展和成熟,人工智能的應(yīng)用領(lǐng)域更加寬廣,應(yīng)用的效果也更加顯著。人工智能的應(yīng)用領(lǐng)域則包括專家系統(tǒng),如診斷和治療細(xì)菌感染疾病的咨詢系統(tǒng)MYCIN、修理原油儲(chǔ)油槽之專家系統(tǒng)SECOFOR、制造和運(yùn)輸行程安排的專家系統(tǒng)ISA、探礦專家系統(tǒng)PROSPECTOR等;自然語言處理,自然語言處理技術(shù)包括機(jī)器翻譯、自然語言理解、文字識別、文字碼等;人工神經(jīng)網(wǎng)絡(luò),在信息領(lǐng)域中的應(yīng)用體現(xiàn)在信息處理、模式識別等方面,其中模式識別近些年被廣泛應(yīng)用到指紋識別、遙感圖像識別、手寫字符識別、人臉識別等方面;自動(dòng)定理證明,其理論價(jià)值和應(yīng)用范圍不局限于數(shù)學(xué)領(lǐng)域,如醫(yī)療診斷、信息檢索、規(guī)劃制定和難題求解等都可以轉(zhuǎn)化為相應(yīng)的定理證明問題;機(jī)器人,如亞馬遜公司的倉儲(chǔ)機(jī)器人、專門遞送包裹的無人機(jī)、教育機(jī)器人和家庭機(jī)器人等。
人工智能已深入各行各業(yè),包括交通、金融、教育、醫(yī)療等領(lǐng)域,并發(fā)展成為行業(yè)熱點(diǎn)。許多行業(yè)面臨著智能化轉(zhuǎn)型的迫切需要,檔案館也不例外。如何抓住人工智能發(fā)展機(jī)遇,打造新時(shí)代智慧檔案是檔案館必須要思考的問題。2018年4月,國家檔案局科研所與科大訊飛簽署全面戰(zhàn)略合作協(xié)議,雙方將利用人工智能打造智慧檔案并成立聯(lián)合實(shí)驗(yàn)室,共同構(gòu)建新型人工智能智慧檔案行業(yè)標(biāo)準(zhǔn),共同推動(dòng)人工智能技術(shù)在檔案管理中的應(yīng)用,共同打造“檔案超腦”新業(yè)態(tài)。這是檔案領(lǐng)域?qū)θ斯ぶ悄軙r(shí)代做出的一次積極回應(yīng),“檔案事業(yè)從此進(jìn)入人工智能的新時(shí)代”。
二、人工智能在數(shù)字檔案館中的應(yīng)用
AI在數(shù)字檔案館的中可應(yīng)用的技術(shù)包括自然語言處理、模式識別、專家系統(tǒng)、模糊邏輯等,可應(yīng)用領(lǐng)域分布在檔案的收集、整理、存儲(chǔ)、利用等環(huán)節(jié)。
(一)檔案收集
除接收常規(guī)電子檔案外,網(wǎng)絡(luò)采集與獲取的數(shù)字檔案信息資源至關(guān)重要,是對數(shù)字檔案館館藏的有效補(bǔ)充。而網(wǎng)絡(luò)信息資源的采集和獲取就需要智能Agent技術(shù),我們所熟知的谷歌爬蟲和百度蜘蛛就采用了這一技術(shù)。通過智能Agent,采集分布在其他數(shù)字檔案館、政府信息資源庫、行業(yè)數(shù)據(jù)庫、網(wǎng)站的數(shù)字檔案信息,捕獲具有地方特色的檔案和關(guān)系公眾利益的民生檔案等,以豐富館藏內(nèi)容,優(yōu)化館藏結(jié)構(gòu)。
(二)檔案整理
智能OCR識別。檔案全文數(shù)據(jù)庫是數(shù)字檔案館資源建設(shè)的主體,而庫內(nèi)檔案信息資源并非數(shù)字化檔案的簡單堆積,而是應(yīng)能對檔案內(nèi)容進(jìn)行引用、檢索等操作。因此,對傳統(tǒng)形式檔案進(jìn)行數(shù)字化加工后,還必須將其轉(zhuǎn)化為真正文本形態(tài)的電子檔案。光學(xué)字符識別(OCR)技術(shù)可將圖片、照片上的文字內(nèi)容直接轉(zhuǎn)換為可編輯的文本,但傳統(tǒng)OCR僅適用于經(jīng)過嚴(yán)格排版的文字,而對于不太規(guī)整的手寫卷宗則難以識別。但通過人工神經(jīng)網(wǎng)絡(luò)的輔助,可以對手寫字體和數(shù)字等進(jìn)行識別。梵蒂岡秘密檔案館(Vatican Secret Archives)的Codice Ratio項(xiàng)目,就是利用人工智能和OCR軟件的組合對館內(nèi)手寫古文進(jìn)行識別,且該軟件手寫字母識別準(zhǔn)確率已達(dá)96%。
檔案著錄和標(biāo)引。檔案著錄是在編制檔案目錄時(shí),對檔案文件的分類號、主題詞、摘要、時(shí)間、檔號、文種等記錄項(xiàng)進(jìn)行分析和揭示的過程;檔案標(biāo)引是賦予檔案規(guī)范化檢索標(biāo)識的過程。檔案著錄和標(biāo)引是輔助檢索的重要手段,是編制檔案檢索工具和建立檔案數(shù)據(jù)庫的前提。但大數(shù)據(jù)時(shí)代的到來,給人工進(jìn)行檔案著錄標(biāo)引帶來了巨大的工作量和壓力。人工智能就能夠幫助人類緩解這一工作壓力,通過對檔案中的人名、地名、時(shí)間等進(jìn)行自動(dòng)識別,提取著錄標(biāo)引信息,形成檔案目錄,甚至編制檔案摘要。
(三)檔案存儲(chǔ)
智能檔案實(shí)體存儲(chǔ)。檔案館庫是傳統(tǒng)檔案存儲(chǔ)的“棲身之所”,也是數(shù)字檔案資源保存的“母體”;此外,用戶對館舍空間體驗(yàn)的要求越來越高。因此,隨著人工智能技術(shù)和物聯(lián)網(wǎng)技術(shù)的發(fā)展,建設(shè)數(shù)字檔案館智能化建筑具有必要性和可行性。數(shù)字檔案館館舍建筑智能化包括兩部分:一是內(nèi)部設(shè)施物聯(lián)化。首先,通過物聯(lián)網(wǎng)技術(shù),將檔案館內(nèi)資源進(jìn)行預(yù)先定義、感知和采集,為智能化管理打下基礎(chǔ)。其后,借助人工智能語音識別、視頻識別技術(shù)進(jìn)行情景感知信息的收集,再通過信息收集后的數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)對館舍資源的控制和調(diào)配,如檔案工作者可通過智能手機(jī)來對所查檔案進(jìn)行定位。二是建筑系統(tǒng)智能化,包括智能照明系統(tǒng)、智能通風(fēng)系統(tǒng)、智能消防系統(tǒng)、智能安保系統(tǒng)、智能溫濕度控制系統(tǒng)等。例如,采用機(jī)器視覺技術(shù),包括聲音識別、指紋識別、虹膜識別等智能識別技術(shù)建立起的智能安防系統(tǒng),為檔案實(shí)體安全存儲(chǔ)提供保障。
檔案信息安全智能保護(hù)。檔案安全存儲(chǔ)不僅包括檔案實(shí)體的安全,還包括檔案信息安全;而人工智能技術(shù)又能為檔案信息安全提供保障,這體現(xiàn)在智能防火墻和智能入侵檢測技術(shù)在數(shù)字檔案館中的應(yīng)用上。智能防火墻技術(shù)“從技術(shù)特征上,是利用統(tǒng)計(jì)、記憶、概率和決策的智能方法來對數(shù)據(jù)進(jìn)行識別,并達(dá)到訪問控制的目的。”該技術(shù)能識別進(jìn)入數(shù)字檔案館的惡意流量數(shù)據(jù),能阻斷病毒惡意傳播,并對檔案館內(nèi)部局域網(wǎng)進(jìn)行監(jiān)控和管理。智能入侵檢測技術(shù)引入了AI領(lǐng)域的專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘等技術(shù),以此對惡意入侵進(jìn)行有效監(jiān)控和阻斷。
(四)檔案利用
谷歌很早就開始用機(jī)器學(xué)習(xí)技術(shù)幫助搜索引擎完成結(jié)果排序,計(jì)算網(wǎng)頁排序的數(shù)學(xué)模型及模型中的每一個(gè)參數(shù)不完全是由人預(yù)先定義的,而是由計(jì)算機(jī)在大數(shù)據(jù)的基礎(chǔ)上,通過復(fù)雜的迭代過程自動(dòng)學(xué)習(xí)得到的。谷歌搜索已經(jīng)是一個(gè)絕大部分由人工智能技術(shù)支撐的新一代搜索引擎。近年來,隨著語言識別、自然語言理解、知識圖譜、個(gè)性化推薦、網(wǎng)頁排序等技術(shù)在谷歌、百度等搜索引擎的應(yīng)用,他們已經(jīng)成為世界上最大的知識引擎和個(gè)人助理。
本文認(rèn)為商業(yè)搜索引擎成功的案例值得數(shù)字檔案館借鑒,數(shù)字檔案館可以將機(jī)器學(xué)習(xí)、自然語言理解、專家系統(tǒng)、語言識別等技術(shù)應(yīng)用到檢索工作中,打造智能化、個(gè)性化、交互式的檢索工具,實(shí)現(xiàn)以下功能:一是拓展檔案資源搜索數(shù)據(jù)來源,打破數(shù)字檔案館之間、與其他信息機(jī)構(gòu)間和網(wǎng)絡(luò)信息資源之間的鴻溝,并突破語言限制。二是實(shí)現(xiàn)檔案搜索智能問答,借助機(jī)器學(xué)習(xí),把搜索查詢轉(zhuǎn)化為可回答問句的交互形式,提升交互效果;三是優(yōu)化文獻(xiàn)資源利用搜索呈現(xiàn)技術(shù),通過深度學(xué)習(xí)算法,實(shí)現(xiàn)對用戶屬性、狀態(tài)、興趣等信息的判斷,借助知識圖譜,為用戶推送感興趣的檔案信息,使搜索結(jié)果更加人性化,為用戶提供更好的查檔體驗(yàn)。
三、人工智能時(shí)代數(shù)字檔案館發(fā)展的思考
(一)檔案工作者的未來發(fā)展
創(chuàng)新工廠創(chuàng)始人李開復(fù)曾提出“五秒鐘準(zhǔn)則”,即“一項(xiàng)本來由人從事的工作,如果人可以在5秒鐘以內(nèi)對工作中需要思考和決策的問題做出相應(yīng)的決定,那么,這項(xiàng)工作就有非常大的可能被人工智能技術(shù)全部或部分取代?!奔?xì)細(xì)想來,現(xiàn)在的檔案工作大部分具有機(jī)械性、可重復(fù)性,被取代的概率很高。檔案工作者應(yīng)該具有“危機(jī)意識”,需不斷進(jìn)行繼續(xù)教育和自我提升,提高檔案人員在工作中的知識含量和腦力運(yùn)用,使自身成為不可或缺的人才。一是培養(yǎng)自身創(chuàng)新意識。李彥宏曾說:“人工智能時(shí)代需要更有創(chuàng)意的人才。” “五秒鐘準(zhǔn)則” 并不意味著所有“5秒”以內(nèi)的工作將被取代,相反,很多工作將會(huì)轉(zhuǎn)變?yōu)樾碌墓ぷ鳈C(jī)會(huì)。人工智能時(shí)代檔案事業(yè)的發(fā)展需要具有創(chuàng)新和學(xué)習(xí)能力的人才,需要檔案人員在新的工作機(jī)會(huì)下提供更多創(chuàng)意。二是提高自身數(shù)據(jù)素養(yǎng)。人工智能迅速發(fā)展的基礎(chǔ)是大數(shù)據(jù),只有在大數(shù)據(jù)的支撐下人工智能才能發(fā)揮作用。對檔案工作者來說,保持?jǐn)?shù)據(jù)敏感性,掌握大數(shù)據(jù)收集、分析、處理和利用大數(shù)據(jù)進(jìn)行決策的能力,是提高自身含金量的方法。
(二)利用服務(wù)的變革
人工智能時(shí)代,檔案工作者不進(jìn)行自我改進(jìn)和提升,就極有可能被取代;而數(shù)字檔案館不對利用服務(wù)進(jìn)行創(chuàng)新和變革,就有可能被邊緣化,甚至走向消亡。人工智能技術(shù)在檔案利用服務(wù)變革中的作用體現(xiàn)在以下:一是開展精準(zhǔn)的智能信息服務(wù)。數(shù)字檔案館可基于大數(shù)據(jù)對用戶信息進(jìn)行收集,獲取檔案用戶的信息利用興趣、習(xí)慣、專業(yè)領(lǐng)域等內(nèi)容,通過模糊邏輯,向用戶進(jìn)行精準(zhǔn)、個(gè)性化、高質(zhì)量地知識推送。如2017年兩會(huì)期間光明日報(bào)推出的人工智能融媒體產(chǎn)品“小明AI兩會(huì)”,用戶只要用手機(jī)拍一張全國兩會(huì)代表委員的照片,小明就能識別出照片的身份信息,并以人物圖譜的形式,展示與其關(guān)注同樣領(lǐng)域的其他代表委員。二是通過人工智能產(chǎn)品,如機(jī)器人提供參考咨詢等服務(wù)。機(jī)器人技術(shù)基于機(jī)器學(xué)習(xí)和自然語言處理,這種目前已應(yīng)用于商業(yè)和圖書館領(lǐng)域的機(jī)器人可以為數(shù)字檔案館進(jìn)行館內(nèi)導(dǎo)航和提供參考咨詢服務(wù)。如甘肅敦煌市圖書館2017年引進(jìn)的機(jī)器人“小圖”,不僅可以幫助讀者搜索書籍、詢問館藏,而且可與用戶進(jìn)行聊天、講笑話、跳舞唱歌等互動(dòng)。2015年義烏市檔案館也引進(jìn)了機(jī)器人,用以講解侵華日軍細(xì)菌戰(zhàn)罪行及“義烏兵抗倭”的故事,但功能較少。數(shù)字檔案館可以學(xué)習(xí)圖書館的相關(guān)經(jīng)驗(yàn),引入人工智能產(chǎn)品,提升服務(wù)質(zhì)量。
總之,隨著社會(huì)與科學(xué)技術(shù)的不斷進(jìn)步,人工智能將滲入到我們工作和生活的各個(gè)方面。人工智能正迅速與工業(yè)、商業(yè)、金融業(yè)、服務(wù)業(yè)等行業(yè)融合,推動(dòng)經(jīng)濟(jì)和社會(huì)不斷演變。人工智能時(shí)代,數(shù)字檔案館應(yīng)當(dāng)不斷進(jìn)行技術(shù)創(chuàng)新,將人工智能與數(shù)字檔案館融合,真正實(shí)現(xiàn)“AI+數(shù)字檔案館”,創(chuàng)造數(shù)字檔案館新的發(fā)展生態(tài)。
(作者單位:上海海關(guān)學(xué)院)