宋魏巍
摘要:本文采用文獻研究法、理論構(gòu)建法對大數(shù)據(jù)環(huán)境下電子文件鑒定面臨的問題進行探索,構(gòu)建適應(yīng)大數(shù)據(jù)環(huán)境的電子文件鑒定理論與方法。在大數(shù)據(jù)環(huán)境下,傳統(tǒng)鑒定理論和方法受到較大沖擊,電子文件鑒定的發(fā)展呈現(xiàn)多元價值取向、功能拓展、方式轉(zhuǎn)變等特點。在大數(shù)據(jù)環(huán)境下,電子文件鑒定需要綜合考慮文件管理與存儲的成本衡量、價值判斷、風(fēng)險控制、安全保護等多重因素。
關(guān)鍵詞:大數(shù)據(jù)環(huán)境電子文件鑒定“綠色鑒定”理念
Abstract: With using literature analysis, theory building methods, this research focused on the prob? lems and challenges of digital records appraisal in the big data environment. In this new environment, archi? val appraisal presents the features of multi-value ori? entation, function expansion and methods and tools diversification. Based on efficiency and social effec? tiveness, this research developed the Green Apprais? al Theory and Methodology to synthetically evaluate the preservation cost, value, risk and privacy.
Keywords: The big data environment; Digital re? cords appraisal; The green appraisal theory
大數(shù)據(jù)環(huán)境下,數(shù)字化、存儲設(shè)備低廉、易于提取、全球性覆蓋這四個驅(qū)動因素已經(jīng)使世界進入記憶模式,無用、冗余的信息給決策造成了干擾。[1]如何在海量數(shù)據(jù)中發(fā)現(xiàn)具有價值的數(shù)據(jù)成為大數(shù)據(jù)環(huán)境下面臨的首要問題。[2][3]存儲技術(shù)和存儲空間的發(fā)展對傳統(tǒng)鑒定觀念的適用和發(fā)展帶來了影響。[4]在新環(huán)境下,傳統(tǒng)鑒定理論如分析來源原則、雙重價值論、利用決定論、職能鑒定論、宏觀鑒定論等理論也需要進一步發(fā)展以適應(yīng)新環(huán)境的要求。因此,在大數(shù)據(jù)環(huán)境下,電子文件鑒定理論與方法發(fā)展的新方向成為當(dāng)前文件與檔案管理領(lǐng)域亟待研究的重要課題。
一、大數(shù)據(jù)環(huán)境下電子文件鑒定面臨的挑戰(zhàn)和問題
(一)電子文件鑒定的功能發(fā)生轉(zhuǎn)變
傳統(tǒng)環(huán)境下,鑒定的目的是發(fā)現(xiàn)有價值的文件,同時也節(jié)省了文件與檔案的存儲成本。但是在大數(shù)據(jù)環(huán)境下,云存儲技術(shù)有了較大發(fā)展和廣泛應(yīng)用,存儲空間不再緊張,存儲成本和難度大大降低。另外,全文檢索技術(shù)的發(fā)展使大批量數(shù)據(jù)中的快速檢索與知識發(fā)現(xiàn)成為可能。因此,在數(shù)字環(huán)境下,電子文件鑒定工作應(yīng)由單純的價值判斷向價值、安全結(jié)合的方向轉(zhuǎn)變。[5] [6]也就是說,雖然處置與銷毀可能不再進行,但是文件篩選、價值判斷、安全保護會越來越受到重視。[7][8] [9]從安全角度說,大數(shù)據(jù)環(huán)境拓寬了文件的利用途徑,在鑒定過程中需要對這些可能涉及隱私的文件加以甄別和保護。[10] [11]隱私保護與電子文件的信息安全是開放的數(shù)據(jù)環(huán)境下所發(fā)展出來的新命題。電子文件是對事件的記錄,如果不注重隱私保護和信息安全,就會造成國家、組織和個人信息泄露。尤其是在大數(shù)據(jù)環(huán)境下,信息泄露所帶來危害的控制難度將會大大上升。[12][13]對隱私和安全問題的識別已是大數(shù)據(jù)環(huán)境下鑒定領(lǐng)域亟需關(guān)注的新問題,現(xiàn)有研究只是提出這一方向,而未能指出原因以及解決隱私和安全問題的辦法。
(二)電子文件鑒定的方法發(fā)生轉(zhuǎn)變
信息技術(shù)的發(fā)展使得傳統(tǒng)鑒定在為誰鑒定、由誰鑒定、如何鑒定三個方面發(fā)生了變化。[14]20世紀(jì)90年代,馮惠玲教授就認(rèn)為面對海量電子文件,“直接鑒定法”遭遇到嚴(yán)峻的挑戰(zhàn)。[15]在大數(shù)據(jù)時代,要制定電子文件鑒定策略以應(yīng)對社會對文件的價值需求,建立電子文件管理系統(tǒng)自動鑒定的原則和適用標(biāo)準(zhǔn)。[16] [17]澳大利亞國家檔案館認(rèn)為在新的數(shù)據(jù)環(huán)境下預(yù)測文件的價值具有較大難度,轉(zhuǎn)而對不保存該文件所帶來的風(fēng)險進行鑒定。[18]數(shù)據(jù)量的增大必然導(dǎo)致工作量的增加,大數(shù)據(jù)環(huán)境下鑒定的工作量將會成倍劇增,鑒定方式隨之轉(zhuǎn)變。同時,自動鑒定方式要求梳理鑒定流程,并在電子文件管理系統(tǒng)中設(shè)計鑒定模塊或獨立開發(fā)鑒定系統(tǒng),以實現(xiàn)系統(tǒng)自動處理。
(三)電子文件鑒定過程中需要對文件價值進行深度挖掘
張斌教授認(rèn)為在新的數(shù)據(jù)環(huán)境下,應(yīng)當(dāng)完善研究方法,加強信息分析方法、知識挖掘方法、計算機輔助決策工具等應(yīng)用。[19]可以采取系統(tǒng)捕獲文件、抓取文本信息、進行特征匹配等方式對電子文件開展智能鑒定。[20]大數(shù)據(jù)時代的信息價值密度低,需要對文件的價值進行全面而準(zhǔn)確的挖掘。[21][22]文本挖掘、語義分析是對文件進行內(nèi)容級管理的具體體現(xiàn)和有效方式,不僅體現(xiàn)了大數(shù)據(jù)環(huán)境下電子文件鑒定的自動化實現(xiàn),而且反映出復(fù)雜數(shù)據(jù)環(huán)境中數(shù)據(jù)特征提取、價值發(fā)現(xiàn)的難度提升。
二、大數(shù)據(jù)環(huán)境下電子文件鑒定的理論與方法基礎(chǔ)
(一)“綠色鑒定”理念的提出
在開放的數(shù)據(jù)存儲和利用的環(huán)境下,通過互聯(lián)網(wǎng)和社會媒體,以構(gòu)建集體記憶為目的,由計算機系統(tǒng)對社會中的多元價值取向進行分析,從而綜合評估文件的價值、隱私、安全等級、處置風(fēng)險等因素的過程,即“綠色鑒定”。這一鑒定理念的內(nèi)涵包括:(1)為何鑒定?新的數(shù)據(jù)存儲、傳輸、利用環(huán)境下,鑒定的功能和作用進一步拓展,不僅體現(xiàn)為價值判斷,也要考慮信息安全和隱私保護等問題。(2)誰來鑒定?大數(shù)據(jù)環(huán)境下,電子文件鑒定是開放的,因此其鑒定主體類型也更加豐富。通過互聯(lián)網(wǎng)和社會媒體,電子文件鑒定的主體類型更加多樣,能夠快速表達(dá)意見。(3)為誰鑒定?基于個人記憶和集體記憶構(gòu)建的需要,大數(shù)據(jù)環(huán)境下鑒定問題需要考慮多元價值取向。(4)鑒定什么?大數(shù)據(jù)環(huán)境下鑒定的對象與內(nèi)容極大擴展,包括電子文件的價值、隱私、安全、技術(shù)、環(huán)境等。(5)如何鑒定?新技術(shù)環(huán)境賦予電子文件鑒定的新方式,文本挖掘、語義分析、智能分析在鑒定中廣泛應(yīng)用。
(二)“綠色鑒定”的維度
1.價值維度:電子文件鑒定要體現(xiàn)大數(shù)據(jù)環(huán)境下多元價值取向。對利益相關(guān)者及其需求的考慮。在鑒定策略構(gòu)建中考慮電子文件的多元價值,利用利益相關(guān)者理論對不同主體需求進行綜合分析。對集體記憶構(gòu)建的價值貢獻。電子文件在集體記憶構(gòu)建中的作用凸顯,如虛擬網(wǎng)絡(luò)群體所產(chǎn)生的電子文件對其集體記憶的價值。
2.功能維度:大數(shù)據(jù)環(huán)境下電子文件鑒定功能得以拓展。高速、海量的數(shù)據(jù)傳輸特點要求鑒定隱私文件。大數(shù)據(jù)環(huán)境下文件的傳輸速度快,利用途徑廣,文件之間的關(guān)聯(lián)分析更加全面,要對涉及隱私信息的敏感文件進行甄別和權(quán)限設(shè)定。與傳統(tǒng)文件管理環(huán)境所不同,大數(shù)據(jù)環(huán)境下的電子文件管理系統(tǒng)具有高度的動態(tài)性。隨著數(shù)據(jù)存儲環(huán)境、管理環(huán)境的不斷更新,電子文件所面臨的安全風(fēng)險也不斷增加。安全評估也是大數(shù)據(jù)環(huán)境下電子文件鑒定的新的內(nèi)涵。開放的利用環(huán)境下需要鑒定文件的安全狀況。對大數(shù)據(jù)環(huán)境下的電子文件,及其存儲載體、管理系統(tǒng)的安全等級進行評估,并實施安全防護方案。
3.方法維度:大數(shù)據(jù)環(huán)境下電子文件鑒定方法發(fā)生轉(zhuǎn)變。數(shù)據(jù)量大、數(shù)據(jù)類型多樣要求鑒定策略實施自動鑒定。面對大數(shù)據(jù)環(huán)境下的海量數(shù)據(jù)以及復(fù)雜的數(shù)據(jù)類型,需要系統(tǒng)能夠采取語義分析,對電子文件進行自動鑒定。數(shù)據(jù)關(guān)聯(lián)要求鑒定策略關(guān)注處置風(fēng)險的評估。大數(shù)據(jù)環(huán)境下電子文件鑒定工作量巨大,如果難以從正面對文件價值、安全等進行評估,可以逆向思考,從處置風(fēng)險的角度對文件進行鑒定。
三、大數(shù)據(jù)環(huán)境下電子文件鑒定策略與關(guān)鍵問題
(一)電子文件鑒定策略
大數(shù)據(jù)環(huán)境下電子文件鑒定策略包括:第一,選取鑒定方法。結(jié)合“檔案在集體記憶構(gòu)建、國家資源建設(shè)”方面的作用,以及鑒定的影響因素,分析電子文件鑒定在多元價值取向、內(nèi)容智能分析、處置風(fēng)險評估、隱私保護、安全評估等方面的關(guān)鍵點。第二,識別鑒定的維度?;诖髷?shù)據(jù)環(huán)境下的鑒定需求,分析電子文件的鑒定對象維度、鑒定主體維度、鑒定方式維度、技術(shù)維度等所包含的影響因素。第三,構(gòu)建鑒定的指標(biāo)體系。基于鑒定的維度,分析電子文件鑒定的指標(biāo)體系,以及各指標(biāo)所占的比重。第四,設(shè)計鑒定流程。設(shè)計大數(shù)據(jù)環(huán)境下電子文件鑒定的基本流程。即如何對國家層面、組織層面的職能與業(yè)務(wù)體系進行評估、選擇與組合鑒定方案、鑒定的實施等。第五,開發(fā)與實施鑒定工具。根據(jù)大數(shù)據(jù)環(huán)境和鑒定的需要,構(gòu)建內(nèi)容分析模型、價值評估模型、風(fēng)險評估模型、安全評估模型等,分析鑒定在系統(tǒng)中的功能需求,從而開發(fā)相應(yīng)的鑒定工具。
(二)電子文件鑒定的關(guān)鍵問題
1.建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系。大數(shù)據(jù)環(huán)境下的文件鑒定雖然具有智能性、語義性的特點,但是需要依賴一定的數(shù)據(jù)標(biāo)準(zhǔn)。對大數(shù)據(jù)的處理不是隨機和無序的,而是對隨機和無序的數(shù)據(jù)進行規(guī)律總結(jié),從而發(fā)現(xiàn)鑒定的標(biāo)準(zhǔn)。因此,對于大數(shù)據(jù)環(huán)境下電子文件的處理同樣依賴于標(biāo)準(zhǔn)數(shù)據(jù)管理體系的建立。第一,遵循基本的數(shù)據(jù)封裝標(biāo)準(zhǔn)。目前,國際標(biāo)準(zhǔn)數(shù)據(jù)封裝參考OSI7層參考模型。在該模型中,每層主要負(fù)責(zé)與其他機器上的對等層進行通信。每一層的協(xié)議數(shù)據(jù)單元一般由本層的協(xié)議頭、協(xié)議尾和數(shù)據(jù)封裝構(gòu)成。電子文件管理系統(tǒng)中數(shù)據(jù)封裝也應(yīng)參考這一基本模型。在同一封裝標(biāo)準(zhǔn)下,基于統(tǒng)一的數(shù)據(jù)類型,系統(tǒng)可以實現(xiàn)對數(shù)據(jù)字段的抽取和分析。第二,建立規(guī)范的術(shù)語體系。電子文件鑒定依賴于標(biāo)準(zhǔn)術(shù)語體系的建設(shè)。參照術(shù)語體系中的關(guān)鍵詞與電子文件進行對應(yīng)匹配,可以快速定義文件的內(nèi)容和所涉項目單元。第三,構(gòu)建可行的元數(shù)據(jù)采集標(biāo)準(zhǔn)和實施方案。大數(shù)據(jù)環(huán)境下電子文件元數(shù)據(jù)標(biāo)準(zhǔn)需要對文件的來源、文件在網(wǎng)絡(luò)與數(shù)據(jù)庫中的關(guān)聯(lián)關(guān)系進行詳細(xì)描述,便于構(gòu)建文件之間的關(guān)聯(lián)網(wǎng)絡(luò),從而對文件的關(guān)聯(lián)價值進行判斷。
2.建設(shè)具有大數(shù)據(jù)處理能力的文件鑒定系統(tǒng)。受制于海量的文件、多樣的文件類型,大數(shù)據(jù)環(huán)境下對電子文件進行鑒定完全脫離人工鑒定模式和流程,依賴計算機系統(tǒng)進行自動識別和鑒定。因此,在大數(shù)據(jù)環(huán)境中鑒定電子文件,具有大批量處理能力、智能化價值判定功能的文件管理系統(tǒng)成為該項工作開展的技術(shù)基礎(chǔ)。已有文件管理系統(tǒng)在對文件采集、分類、鑒定、處置、利用等模塊,按照已有的傳統(tǒng)文件與檔案管理流程進行設(shè)計,對于大數(shù)據(jù)環(huán)境下電子文件管理存在明顯的滯后性。系統(tǒng)建設(shè)應(yīng)在既有的電子文件管理系統(tǒng)上重點關(guān)注以下模塊的功能設(shè)計:第一,智能化的文件識別模塊。在大數(shù)據(jù)環(huán)境下,存儲文件的數(shù)據(jù)庫具有動態(tài)性的特征,文件管理系統(tǒng)能夠自動識別需要鑒定的電子文件,并對數(shù)據(jù)庫進行跟蹤,不斷更新文件鑒定的內(nèi)容和標(biāo)準(zhǔn)。第二,語義級別的文件內(nèi)容分析模塊。大數(shù)據(jù)環(huán)境下文件鑒定應(yīng)深入文件的內(nèi)容,進行語義級別的分析。因此,電子文件鑒定系統(tǒng)應(yīng)當(dāng)具有分詞、詞間關(guān)系處理、重點詞語與術(shù)語庫自動匹配的功能。
3.制定規(guī)范的電子文件鑒定標(biāo)準(zhǔn)。鑒定標(biāo)準(zhǔn)是判斷文件價值、有用性、可用性的依據(jù)和核心。因此,在大數(shù)據(jù)環(huán)境下有效開展文件的鑒定工作,需要制定統(tǒng)一的鑒定標(biāo)準(zhǔn),并形成可行的鑒定方案?!熬G色鑒定”理念不僅關(guān)注大數(shù)據(jù)環(huán)境下電子文件的價值,而且需要對電子文件的安全、隱私保護充分考慮,并評估電子文件的處置風(fēng)險。第一,價值判斷標(biāo)準(zhǔn)。價值判斷是大數(shù)據(jù)環(huán)境下電子文件鑒定的核心工作。文件價值的發(fā)現(xiàn)、判定和保護是文件與檔案管理的使命所在。在大數(shù)據(jù)環(huán)境下,制定具有明確參考價值的文件價值判斷標(biāo)準(zhǔn),為鑒定的開展提供可靠依據(jù)。在這一標(biāo)準(zhǔn)中,充分考慮文件的利益相關(guān)者、文件所反映事實的利益相關(guān)者、文件與文件之間的關(guān)聯(lián)、事實與事實之間的關(guān)聯(lián)關(guān)系,這樣才能有效定義多元化的價值訴求。第二,隱私保護標(biāo)準(zhǔn)。隱私保護是開放的大數(shù)據(jù)環(huán)境下電子文件鑒定的功能拓展。隱私保護標(biāo)準(zhǔn)就是要明確哪些類型的文件可能存在侵犯隱私的可能、可能涉及的隱私有哪些、這些隱私會涉及哪些利益主體。通過隱私保護標(biāo)準(zhǔn)在電子文件鑒定過程中定位具體的文件、隱私和相關(guān)主體,起到保護隱私的作用。第三,安全評估標(biāo)準(zhǔn)。在大數(shù)據(jù)環(huán)境下,要從文件內(nèi)容、軟硬件存儲環(huán)境、系統(tǒng)安全性等角度對電子文件的安全進行評估。因此,電子文件鑒定中的安全評估也要綜合考慮文件內(nèi)容的可獲取性、文件存儲的合理性和穩(wěn)定性、系統(tǒng)設(shè)計的安全性和兼容性。第四,處置風(fēng)險判斷標(biāo)準(zhǔn)。處置風(fēng)險判斷標(biāo)準(zhǔn)需要考慮一旦對文件進行處置,其后果會有哪些。因此,處置風(fēng)險判斷標(biāo)準(zhǔn)應(yīng)包括處置的類型、每一類型所面臨的風(fēng)險、各種風(fēng)險的類型和等級、風(fēng)險的降低策略和可能性等。
注釋及參考文獻:
[1]Mayer-Schonberger, V. Delete: The Virtue of For? getting in the Digital Age[M]. Princeton University Press. 2011.
[2][15]馮惠玲.電子文件的雙重鑒定:《擁有新記憶——電子文件管理研究》摘要之三[J].檔案學(xué)通訊,1998(3): 32-35.
[3]Foscarini, F. Diplomatics and genre theory as comple? mentaryapproaches.ArchivalScience.2012,12(4):389-409.
[4]Alsup, M.Is Traditional Records Management Dead?[EB/OL]. [2014-5-9] http://www.aiim.org/community/ blogs/expert/is-records-management-dead .
[5]Baily, S. Managing the Crowd: Rethinking Records Management in the Web 2.0 World, London: Facet Publish? ing, 2008.
[6]Caron D J, Brown R. The Documentary Moment in the Digital Age: Establishing New Value Propositions for Public Memory[J]. Archivaria, 2011(71):1-20.
[7]庫俊平.大數(shù)據(jù)環(huán)境中企業(yè)文書檔案的信息化管理及利用[J].創(chuàng)新科技,2013(9):50-51.
[8]GillilandAJ.ReflectionsontheValueofMetadataAr? chaeology for Recordkeeping in a Global, Digital World[J]. JournaloftheSocietyofArchivists,2011,32(1):103-118.
[9]Blair, B. T. Girding For Battle: A Clash Is Brewing Between Big Data and E-Discovery[EB/OL]. [2014-5-9] http://barclaytblair.com/2013/03/04/a- clash- is- brew? ing-between-big-data-and-ediscovery/ .
[10]Cox R. Appraisal and the Future of Archives in the Digital Era, Jenny Hill ed., The Future of Archives and Re? cordkeeping: A Reader[M]. London: Facet. 2011.
[11]Lee, Christopher A., and Tibbo, H. Wheres the Archivist in Digital Curation Exploring the Possibilities through a Matrix of Knowledge and Skills[J], Archivar? ia2011(72): 123-168.
[12]李小晨.大數(shù)據(jù)時代背景下的檔案管理探討[J].云南檔案,2013(6):48-50.
[13]楊冬權(quán).在全國檔案局長館長會議上的講話[EB/ OL].[2014-6-11]http://www.saac.gov.cn/news/2014-01/ 06/content_32080.htm .
[14]劉越男.關(guān)于檔案價值鑒定的理論與實踐(五)——對電子文件鑒定問題的思考[J].檔案學(xué)通訊,2001(5):35-38.
[16]Guercio, M. Automating and Constructing Rules for Appraisal in the Digital Environment[C], Appraisal in the Digital World. Vancouver:InterPARES, 2007.
[17]NELSON, M., WALTONN, A. New record man? agement requirements impact public and private sector[EB/ OL].[2014-6-9] http://www.insidecounsel.com/2013/05/ 29/new-record-management-requirements-impact-pub? lic-a.
[18]Upward, F, McKemmish S. and Reed B.“Archi? vists and Changing Social and Information Spaces: A Con? tinuum Approach to Recordkeeping and Archiving in On? line Cultures,”Archivaria 2011(72): 197-238.
[19]張斌.構(gòu)建檔案思想庫,提升檔案工作服務(wù)能力.檔案與建設(shè)[J].2013(1):4.
[20]李雯.電子文件價值智能鑒定探析[J].檔案學(xué)研究, 2011(6):41-45.
[21]邱世魁,陳玉朕.大數(shù)據(jù),企業(yè)檔案信息系統(tǒng)的技術(shù)架構(gòu)[J].中國檔案,2013(10):69-71.
[22]王蘭成,劉曉亮.網(wǎng)上數(shù)字檔案大數(shù)據(jù)分析中的知識挖掘技術(shù)研究[J].浙江檔案,2013(10):14-19.
作者單位:中央財經(jīng)大學(xué)政府管理學(xué)院