劉鑫
摘 要:本文對核電廠文檔信息系統(tǒng)建設的現(xiàn)狀加以分析,從中總結(jié)出目前文檔信息系統(tǒng)建設中的先進經(jīng)驗,并對文檔系統(tǒng)應關(guān)注的前沿方向予以展望、探索。通過這些展望與探索,挖掘出文檔信息系統(tǒng)內(nèi)的數(shù)據(jù)優(yōu)勢,更好地為生產(chǎn)運行提供支持保障。
關(guān)鍵詞:文檔系統(tǒng);知識熱點;功能;建設
一、核電廠文檔信息系統(tǒng)現(xiàn)狀
核電廠文檔信息系統(tǒng)以Filenet、Documentum等平臺搭建。秦山核電依托Filenet平臺建立的ECM系統(tǒng)代表了目前核電廠文檔信息系統(tǒng)的最高能力。但該系統(tǒng)仍是以文檔存儲、文檔流程為主要功能,并不具備事物流、數(shù)據(jù)流、數(shù)據(jù)交互的功能。
1.核電廠文檔信息系統(tǒng)建設成果。ECM系統(tǒng)是以國家檔案局在2017年發(fā)布《企業(yè)數(shù)字檔案館(室)建設指南》中“數(shù)字化檔案館的建設”為指導思想,以“通過計算機系統(tǒng)將各生產(chǎn)系統(tǒng)、管理系統(tǒng)的數(shù)據(jù)進行自動捕獲歸檔”為實施思路,開發(fā)建立的國內(nèi)新型文檔信息系統(tǒng)??v觀核電文檔信息系統(tǒng)建設情況,已從離線收集檔案數(shù)據(jù),向在線收集檔案數(shù)據(jù)的方向發(fā)展,并向大數(shù)據(jù)管理與利用的方向發(fā)展。
2.核電廠文檔信息系統(tǒng)建設的良好實踐。核電廠文檔信息系統(tǒng)已實現(xiàn)從其他系統(tǒng)自動對接電子數(shù)據(jù)與電子文檔,減少了文檔數(shù)據(jù)離線傳遞而導致的出錯率,避免了電子文件重復加工?,F(xiàn)在的文檔信息系統(tǒng)也具備了多維度文檔分類的雛形,通過不同視角透視文檔結(jié)構(gòu),部分滿足不同用戶構(gòu)建文檔樹狀結(jié)構(gòu)的需求。文檔信息系統(tǒng)也具備了評價功能,用戶可對文檔的利用效果進行評價;通過用戶主動推薦對知識熱點加以標引,初步實現(xiàn)知識管理的雛形。
二、核電廠文檔信息系統(tǒng)建設存在的不足之處
1.與生產(chǎn)系統(tǒng)的嵌入能力不足。文檔信息系統(tǒng)的建設方向注重了數(shù)據(jù)的單向收集,而未注重文檔數(shù)據(jù)向外部信息系統(tǒng)的主動發(fā)送利用。不能與生產(chǎn)系統(tǒng)雙向?qū)踊蚯度耄a(chǎn)系統(tǒng)不能良好的調(diào)用文檔系統(tǒng)數(shù)據(jù),做不到互相標引。
2.“事物—文檔”數(shù)據(jù)流欠缺。目前文檔的產(chǎn)生來源于孤立事件,但系統(tǒng)化的文檔是產(chǎn)生于事物流、數(shù)據(jù)流。并能通過事物流、數(shù)據(jù)流將文檔信息加以動態(tài)整合。以某項目運作為例,立項、審批、論證、采購、驗收、完工等環(huán)節(jié),在不同系統(tǒng)或者離線完成,產(chǎn)生的文檔則離散存儲于不同之處,文檔系統(tǒng)性較差。
3.提取知識點的能力不足。核電廠主要的知識點集中在手冊、圖紙、記錄等各類文檔中。文檔信息系統(tǒng)不具備發(fā)現(xiàn)知識熱點的能力,不具備有效的算法對知識熱點標引,成為知識管理的瓶頸。傳統(tǒng)的用戶主動標引模式很難調(diào)動用戶積極性,知識熱點識別的準確度不高。
4.基于內(nèi)容的互相關(guān)聯(lián)未做好。文檔信息系統(tǒng)具備了全文檢索能力,但基于全文內(nèi)容的數(shù)據(jù)挖掘能力還不具備,也沒有采用數(shù)據(jù)挖掘工具。以系統(tǒng)流程圖為例,圖中均有設備、系統(tǒng)、流程指向等數(shù)據(jù),但無法基于內(nèi)容數(shù)據(jù)進行文檔自動關(guān)聯(lián)。
三、文檔信息系統(tǒng)未來建設的思考
首先,需要建立文檔數(shù)據(jù)與其他生產(chǎn)系統(tǒng)數(shù)據(jù)雙向?qū)拥哪芰?其次,應建立“事務—文檔”數(shù)據(jù)流;再次,應考慮知識熱點的自動發(fā)掘能力;最后,是基于文檔內(nèi)容的相互之間關(guān)聯(lián)功能。
1.其他系統(tǒng)的嵌入
(1)文檔數(shù)據(jù)雙向傳遞標準接口。文檔信息系統(tǒng)與外部系統(tǒng)之間進行數(shù)據(jù)交互,需建立雙向傳遞的功能。實現(xiàn)外部系統(tǒng)產(chǎn)生的文檔數(shù)據(jù)自動捕獲進入文檔信息系統(tǒng),文檔信息系統(tǒng)的數(shù)據(jù)能主動傳遞與外部系統(tǒng)或被外部系統(tǒng)調(diào)用。文檔信息系統(tǒng)成為文檔數(shù)據(jù)交換的中心,外部系統(tǒng)圍繞該中心無縫雙向傳遞文檔數(shù)據(jù)。實現(xiàn)此能力需建立標準數(shù)據(jù)傳遞接口,外部系統(tǒng)在系統(tǒng)開發(fā)時涉及到文檔傳遞,只需調(diào)用標準接口無需再次開發(fā)。但其缺陷是標準接口是普遍適用,難以滿足系統(tǒng)之間文檔使用的個性需求。
(2)嵌入式的文檔功能模塊??蓪⑽臋n管控基礎功能整合為功能模塊,各外部系統(tǒng)在建設時,可將此功能模塊嵌入。文檔功能模塊應用目標是外部系統(tǒng),模塊功能可略為簡化,能做到增、刪、改、查,簡單報表則可,文檔專業(yè)的歸檔、組卷、排架等功能可省略。文檔功能模塊應滿足跨平臺應用。
(3)文檔模塊元數(shù)據(jù)自定義。文檔模塊元數(shù)據(jù)定義,首先需滿足行業(yè)標準加以初始化定義。但文檔模塊應用于外部系統(tǒng),有自身業(yè)務元數(shù)據(jù)與生成的文檔緊密相關(guān)。因此應考慮在文檔模塊功能不變的前提下,在標準元數(shù)據(jù)的基礎上,允許外部系統(tǒng)增加個性元數(shù)據(jù)。及時將各外部系統(tǒng)個性化元數(shù)據(jù)收集分析,對于重復度高的可視為高耦合數(shù)據(jù),及時納入標準元數(shù)據(jù)之中。
2.基于事物流創(chuàng)建文檔流
(1)事物—文檔流模型。以項目建設為例,其生命周期內(nèi)不同階段均產(chǎn)生、使用文檔,生成記錄。文檔信息系統(tǒng)應考慮在系統(tǒng)內(nèi)建立事物流概念,如立項、評價、審批、上報、論證、執(zhí)行、驗收等事物環(huán)節(jié)。事物環(huán)節(jié)內(nèi)定義觸發(fā)事物所必需的文檔條件、事物執(zhí)行后產(chǎn)生文檔列表等。事物流概念與嵌入式文檔模塊相結(jié)合,外部系統(tǒng)生成文檔時將關(guān)聯(lián)事物信息一并歸檔到文檔信息系統(tǒng)。最終實現(xiàn)以事物的總體視角將相關(guān)文檔進行有序組合。
(2)從外部系統(tǒng)獲取事物流。事物流的創(chuàng)建,并非全部從文檔信息系統(tǒng)觸發(fā)。專業(yè)系統(tǒng)中已具備專業(yè)事物(辦理)流,文檔信息系統(tǒng)則應將專業(yè)事物流要素納入其中,與文檔系統(tǒng)數(shù)據(jù)相結(jié)合。但應考慮不同外部系統(tǒng)事物流數(shù)據(jù)結(jié)構(gòu)的不同,獲取外部事物流與文檔應優(yōu)先考慮標準封裝格式數(shù)據(jù),以便于讀取與解析。
(3)綜合組合事物流。事物流可從文檔信息系統(tǒng)觸發(fā),也可外部系統(tǒng)觸發(fā)。實際工作中,一項事物會切分為若干事物子項,每一事物子項具備自身的事物流。各子項事物流需鏈接與整合,各子項事務產(chǎn)生的文檔整合在一起才為完整的項目文檔。文檔信息系統(tǒng)需在獲取多子項事物流之后,進行事物流整合,最終保證全部過程產(chǎn)生的文檔數(shù)據(jù)為有序整體。
(4)事物流交互提供。事物流關(guān)系結(jié)構(gòu)中,上一事物流的結(jié)果往往是下一事物流觸發(fā)的條件。文檔信息系統(tǒng)在具備事物流整合能力時,應注重事物流生成文檔的可交互性,實現(xiàn)從不同系統(tǒng)獲取文檔,依照事物流總流程,自動提交與下一級事物流,從文檔的角度將綜合流程打通。
3.自動提取知識熱點
(1)檢索條件與結(jié)果統(tǒng)計知識熱點。文檔信息系統(tǒng)已實現(xiàn)多種檢索能力,應在檢索條件與檢索結(jié)果利用方面進行統(tǒng)計、算法計算。對用戶的檢索詞進行統(tǒng)計,可分析出搜索熱詞,可得知用戶關(guān)注的知識方向,提供熱詞自動提醒。檢索結(jié)果利用對點擊率高的文檔進行統(tǒng)計,得出搜索熱詞與文檔之間的相關(guān)性。相關(guān)性高可做優(yōu)先推送,提供精準利用。
(2)閱讀行為提取知識熱點。用戶查閱電子文檔時,有價值的部分閱讀時間長,無價值的略過。統(tǒng)計分析電子文檔有效閱讀時間,用戶對某文檔閱讀時間明顯高于其他文檔,則可認定該文檔的內(nèi)容價值較高,用戶較為關(guān)注。同一篇文檔中,某部分有效閱讀時間高于其他章節(jié),可認定該部分則包含了潛在的熱點知識??梢宰鳛闊狳c知識儲備。
(3)分詞分析知識熱點。熱點文檔、熱點片段包含了知識熱點。運用技術(shù)手段對內(nèi)容文字分詞分析、關(guān)鍵詞標引,通過用戶不斷積累有效閱讀時間,內(nèi)容中分詞標引次數(shù)則會明顯升高,可分析出熱點知識詞匯。進而通過與檢索熱詞對比,與其他熱點文檔所標引的熱點詞匯對比,逐步篩選出共性熱點詞匯,在大量自動標引與比對之后,熱點知識可以初見模型。
4.基于文檔內(nèi)容自動關(guān)聯(lián)
文檔之間是多對多的關(guān)系,樹狀目錄是一對多關(guān)系,需運用網(wǎng)狀關(guān)系進行描述。
(1)特定關(guān)鍵詞分析。以流程圖為例,特定文檔包含特定含義的關(guān)鍵詞,例如系統(tǒng)代碼等。特定關(guān)鍵詞與日常詞匯語義不同,沒有模糊含義,可作為基于文檔內(nèi)容管理的觸發(fā)條件。例如,對系統(tǒng)代碼進行提取,可知哪些文檔對該系統(tǒng)有記錄,多文檔提取后,可獲得該系統(tǒng)相關(guān)的文檔圖譜。
(2)特定關(guān)鍵詞建立網(wǎng)狀文檔關(guān)系。多份文檔具有多個特定關(guān)鍵詞,通過計算機自動建立網(wǎng)狀關(guān)系。通過一份文檔可以可視化的看到與其內(nèi)容有所關(guān)聯(lián)的文檔全集,用可視化手段實現(xiàn)用戶進行文檔逐步探索的需求。
(3)通過用戶行為,建立關(guān)系主干。網(wǎng)狀關(guān)系中關(guān)系程度有強弱之分。通過用戶行為分析,根據(jù)探索點擊率、被點擊文檔的有效閱讀時間,標注關(guān)系強弱。通過關(guān)系圖探索,點擊率越高,且有效閱讀時間越長,則文檔之間關(guān)系越強。根據(jù)強關(guān)系實現(xiàn)智能推薦。
四、結(jié)論
核電廠文檔信息系統(tǒng)經(jīng)過長期的建設,目前需要探索的是如何將文檔中所包含的浩瀚的知識加以有組織的利用。讓用戶搜索提取知識的模式已經(jīng)過時,需要通過計算機建立與用戶行為相似的學習模式,用信息系統(tǒng)自主學習的方法,幫助用戶預先規(guī)劃好文檔信息,提取關(guān)鍵數(shù)據(jù),建立出關(guān)聯(lián)文檔,主動精準推送與用戶利用。
參考文獻:
[1]錢 毅.《電子文件管理系統(tǒng)通用功能要求》(GB/T 29194)解讀[J].北京檔案,2018
[2]蘇 博.基于工作流的電子文件管理系統(tǒng)功能分析[J].機電兵船檔案,2019
[3]王 華,王 瑾,馮萍萍.企業(yè)重要業(yè)務平臺電子文件歸檔與電子檔案集成利用研究[J].浙江檔案,2018
(作者單位:中核核電運行管理有限公司)