夏磊 方思怡 顧曉虹 蔡焱
關鍵詞:標準文獻數字化轉型,標準文獻,標準化,數據挖掘
0 引言
當前社會,數字化轉型正前所未有地改變各行各業(yè)的生態(tài)面貌,標準領域也不例外?!秶覙藴驶l(fā)展綱要》指出要加速推動標準化工作向數字化、網絡化和智能化發(fā)展。近年來,標準數字化轉型已逐漸成為標準領域的一大熱點,旨在通過數字化手段來突破標準化工作的瓶頸進而實現數字化驅動標準化工作的轉型升級[1,2]。
標準文獻是指通過標準化活動,按規(guī)定程序經協(xié)商一致后制定的技術性文件,旨在為相關的活動提供規(guī)則和指南,具有可共同使用和重復使用的特性。作為標準化工作的重要載體,標準文獻也同樣面臨數字化轉型的發(fā)展需求。目前標準文獻數字化轉型在概念定義、范疇界定、基礎理論體系、應用場景等方面仍存在大量的研究空白,其中基礎理論體系是實現標準文獻數字化轉型落地應用的重要根基。本研究從標準文獻數字化轉型的實際需求和發(fā)展趨勢出發(fā),提出了標準文獻數字化轉型的相關概念,在此基礎上構建了適用于標準文獻的數字化轉型基礎理論體系模型,以期能為相關研究者提供一定的工作參考。
1 標準文獻數字化轉型的相關概念
1.1 標準文獻數字化的定義
“數字化”(Digitization)是一種通過特定的信息技術將存儲于非數字載體上的信息轉化為計算機設備可識別和處理的數字信息的過程,其本質在于實現信息的數字化,數據是數字化的核心所在[3]。
“標準文獻數字化”是采用數字技術對標準文獻內容和標準文獻服務的全過程賦能,進而實現其在數字設備上讀取、傳輸和使用的過程[4]。與其他領域的數字化類似,標準文獻數字化的核心也在于標準文獻相關數據的數字化。
1.2 標準文獻數字化轉型的定義
“標準文獻數字化轉型”是指采用數字技術對標準文獻的自身內容、服務模式和組織管理進行重構的變革性過程。作為一項復雜的系統(tǒng)性工程,標準文獻數字化轉型涉及硬件設備投入、業(yè)務流程優(yōu)化、組織管理、數字化人才培養(yǎng)等方面。
1.3 標準文獻數字化轉型的范疇
根據標準文獻數字化轉型的相關概念和實際需求,可以發(fā)現當前標準文獻數字化轉型的范疇主要包括標準文獻自身內容的數字化、標準文獻服務模式的數字化以及標準文獻組織管理的數字化,其中標準文獻自身內容的數字化是指通過數字技術將現有的紙質標準轉化為機器可讀取和操作的數字模態(tài),標準文獻服務模式的數字化是指標準文獻核心業(yè)務的數字化重塑,主要包括標準文獻編目加工、標準文獻讀者服務、標準文獻數據挖掘等,標準文獻組織管理的數字化則涉及標準文獻數據、人員和管理方面的數字化。
2 標準文獻數字化轉型的基礎理論體系模型
本研究從標準文獻數字化轉型的主要方面、主體對象和維度類型出發(fā),將標準文獻數字化轉型的基礎理論劃分為“3方面-3主體-2維度”模型(簡稱“3-3-2”模型),在基礎上形成適用于標準文獻的數字化轉型理論框架和技術體系?;A理論體系模型的概況如圖1所示。
標準文獻數字化轉型“3-3 -2”模型的“3方面”是指標準文獻的自身內容、服務模式和組織管理,“3主體”是指標準文獻涉及的各類人員、數據和業(yè)務,“2維度”是指技術維度和非技術維度。
2.1 3個主要方面——“3方面”
2.1.1 主要方面I:標準文獻自身內容的數字化轉型
標準文獻的自身內容也即標準文獻本身,標準文獻內容的數字化轉型是標準文獻服務模式和組織管理數字化轉型的重要基礎,其目的旨在實現標準文獻內容的數字化,通過一系列數字技術將紙質標準轉化為機器可讀取和操作的數字模態(tài),由此突破標準文獻的紙質形態(tài)[5,6]。目前我國的標準文獻大多以紙質文本的形式存儲,從紙質文本到機器可讀標準,需要歷經文字識別、文本結構化、文本挖掘、知識組織和深度加工等多個流程。
2.1.2 主要方面II:標準文獻服務模式的數字化轉型
標準文獻服務主要包括標準文獻編目加工、標準文獻知識服務、標準文獻產品研發(fā)等。標準文獻服務模式的數字化轉型也即在轉變服務理念的基礎上,通過數字技術重塑上述服務的流程和工具,實現服務模式的變革。
2.1.3 主要方面III:標準文獻組織管理的數字化轉型
數字化轉型的成敗與組織的文化意識密切相關,因此管理變革是數字化轉型的重要組成,通常需要遵循系統(tǒng)性、共享性、集成性和安全性的原則。本研究從標準文獻數字化轉型的管理需求和未來發(fā)展出發(fā),將標準文獻組織管理的數字化轉型劃分為戰(zhàn)略管理、組織管理、數字化成熟度評估、數字化人才培養(yǎng)等方面。
2.2 3個主體對象——“3主體”
2.2.1 主體對象I:數據
富有價值的數據是驅動數字化轉型的關鍵動力[ 7 ],也是布局數字戰(zhàn)略的基礎,因此“數據”是標準文獻數字化轉型的一大重要主體。標準文獻數字化轉型的相關數據主要有標準文獻的文本數據、標準文獻的業(yè)務數據、標準文獻用戶的行為數據等。
2.2.2 主體對象II:人
“人”是標準文獻數字化轉型的制定者、參與者和執(zhí)行者,故標準文獻數字化轉型的主體對象之一是“人”。根據角色差異,可以將標準文獻數字化轉型的有關人員劃分為標準文獻用戶、標準文獻工作人員和標準文獻管理人員,其中標準文獻用戶的需求是標準文獻數字化轉型的重要驅動力。
2.2.3 主體對象III:業(yè)務
標準文獻業(yè)務是標準文獻的具體任務,業(yè)務流程的優(yōu)化與升級是標準文獻數字化轉型的重要目標,因此本研究將業(yè)務列為標準文獻數字化轉型的主體對象之一。
2.3 兩個維度類型——“2維度”
2.3.1 維度類型I:技術維度
技術維度主要包括標準文獻數字化轉型所涉及的技術范式和其他技術應用相關的部分。
2.3.2 維度類型II:非技術維度
非技術維度則主要是指標準文獻數字化轉型中與技術無關的內容。
3 標準文獻數字化轉型的關鍵核心理論
標準文獻的不同業(yè)務板塊相互聯(lián)系,故基礎理論體系模型中不同方面、主體和維度的理論并非完全分隔,而是存在一定程度的重疊。本研究梳理并總結了標準文獻數字化轉型中的關鍵核心理論,并做了簡要說明,具體內容如下。
3.1 標準文獻的光學字符識別理論
光學字符識別(Optical Character Recognition,OCR)是指將圖像信息轉化為計算機可識別字符的過程,主要包括界定文字字符所在區(qū)域、記錄字符內容、確定字符識別的唯一性等流程[8]。
鑒于當前國內仍處于紙質標準為主的局面,標準文獻的OCR被視為構建機器可讀標準和實現標準文獻內容數字化的必由之路。標準文獻OCR的實施流程可以被概括為預處理、文字區(qū)域檢測與文字字符識別、優(yōu)化處理這3個步驟[9]。當前標準文獻的OCR理論仍在發(fā)展階段,存在基于工具和基于算法兩大類OCR技術路線[10],但兩者在準確性上仍有較大的提升空間。
3.2 標準文獻的結構化與數據規(guī)范理論
文本結構化是指將非結構化或半結構化文本轉化為結構化文本的過程。標準文獻是典型的非結構化技術文本,標準文獻內容的結構化處理是繼OCR后又一個與標準文獻內容數字化密切相關的流程。
自步入數字化轉型時代以來,以數字對象描述為中心的文獻信息資源描述框架開始成為大勢所趨,主要包括基于資源描述框架(Re sou rceDescription Framework, RDF)模型的描述框架、基于實體關系(Entity-Relation, E-R)模型的描述方式等。作為圖情領域的一大分支,標準文獻的館藏資源描述同樣應當結合不同業(yè)務的需要建立以標準數字資源為中心的數據規(guī)范,形成適用于不同業(yè)務場景的數據框架,例如:在標準文獻資源建設、編目和讀者服務領域,可根據業(yè)務工作的實際需求制定相應的標準元數據體系,而對于有深度挖掘需求的標準文獻應用研究領域,則需根據實際的業(yè)務目標,構建顆粒度更細、機器可讀性更高的標準文獻標注結構化數據集規(guī)范。
3.3 面向標準文獻的自然語言處理理論
自然語言處理(Natural Language Processing,NLP)是指用計算機來處理、理解和運用人類語言的過程。標準文獻是具有科技屬性的自然語言文本,標準文獻的加工與挖掘同樣需要借助強大的NLP技術。
本研究深入分析了NL P通用任務在標準文獻數字化場景中的應用前景,總結了NLP技術在標準文獻數字化轉型中的典型應用場景(詳見表1)。
3.4 標準文獻的數據分析與挖掘理論
數據是標準文獻數字化轉型的一大主體。標準文獻數據是重要的基礎性戰(zhàn)略資源,標準數據分析與挖掘能為標準知識服務和組織管理提供必要的客觀引導。
大數據分析的常用方法主要有關聯(lián)分析(Association Analysis, AA)、分類分析、預測分析、聚類分析、可視化分析、離群點或孤立點分析等[12,13],其主要的流程包括數據預處理、數據挖掘和數據綜合分析這3個步驟,分別對應數據層、知識層和應用層[14]。從大數據的定義上來看,標準文獻數據也屬于大數據家族的一員。標準文獻數據具有多源異構、數據量大、類型多樣和價值密度大等特點。作為重要的經濟資產和戰(zhàn)略資源,標準文獻大數據中蘊含許多有望帶來經濟效益的深度知識和價值[15 ],梳理并形成適用于標準文獻應用場景的數據分析與挖掘路徑對于標準文獻數字化轉型的深入開展具有重要的實踐性意義。
3.5 標準文獻的知識組織理論
高效敏捷的標準文獻知識組織能力是實現標準文獻數字化轉型的重要基礎。標準文獻的知識組織模式包括標準文獻知識組織方式和存儲工具兩方面,前者主要是通過標準知識圖譜來實現,后者則主要是指存儲知識圖譜所需的圖數據庫。
作為人工智能(Artificial Intelligence, AI)的重要組成,知識圖譜(Knowledge Graph, KG)為數字化轉型提供了從海量非結構化數據中抽取知識并通過圖挖掘關聯(lián)關系和實現知識組織的技術手段,被視為各行業(yè)產業(yè)鏈數字化轉型的新引擎[16]。近來的研究團隊逐漸意識到了知識圖譜技術在標準文獻數字化轉型中的重要性,陸續(xù)形成了標準文獻知識圖譜的初步成果,但截至目前,尚未形成業(yè)內統(tǒng)一的成熟理論體系。
3.6 標準文獻的數據治理理論
數據治理(Data Governance, DG)是指在確保數據安全的條件下,通過一套特定的規(guī)則對數據的全生命周期進行全面而有序的規(guī)范化監(jiān)管以優(yōu)化數據配置、實現數據合理流動并釋放其最大潛在價值的過程[17,18]。
數據治理是標準文獻數字化轉型中不可或缺的一環(huán)。當前標準文獻的數據治理普遍存在數據治理體系缺乏、戰(zhàn)略意識欠缺、數據孤島、數據質量不高和數據安全風險隱患等問題[19],亟需構建適用于標準文獻的數據治理體系和數據標準。
3.7 標準文獻的產品設計與用戶行為分析理論
標準文獻服務模式的數字化轉型是標準文獻數字化轉型的重要組成。從廣義上來看,每一種標準文獻服務都可以被視為一種標準文獻“產品”。標準文獻服務模式數字化轉型的最終目的在于為標準文獻用戶提供智慧化的定制服務,解決以往標準文獻用戶獲取標準文獻信息的局限性,包括獲取高質量的標準文獻知識、幫助用戶在海量數據中快速定位個人所需內容、根據用戶實際需求定制個性化知識等[20],在這其中,產品分析(ProductAnalysis, PA)是實現標準文獻服務模式智慧化的重要基礎。在標準文獻的產品分析框架中,標準文獻用戶分析是一大重點,構建適用于標準文獻的用戶分析和用戶畫像理論對標準文獻服務模式的數字化轉型至關重要。
3.8 標準文獻數字化轉型的成熟度評估理論
正確評估數字化轉型的成熟度對標準文獻數字化轉型的順利推進至關重要。構建科學合理的標準文獻數字化轉型的成熟度評估模型能夠便于標準文獻的相關從業(yè)者判斷標準文獻所處的數字化階段,找出不利因素,及時查漏補缺,制定相應的對策。已有的研究大多圍繞標準數字化轉型開展,而標準文獻數字化轉型的成熟度評估仍存在大量空白。
3.9 標準文獻數字人才的培養(yǎng)與發(fā)展理論
人才已成為數字經濟的核心生產要素,標準文獻數字化轉型的核心是人的思維方式、成長模式以及工作模式的轉變[21]。當前深入推進標準文獻數字化轉型的一大難題在于標準文獻數字人才的短缺[22],如何整合現有人力資源、培育一流的標準文獻數字人才已成為標準文獻數字化轉型順利推進的重要課題。
4 結語
本研究根據標準文獻的現狀和發(fā)展趨勢提出了標準文獻數字化轉型的相關概念,基于此構建了標準文獻數字化轉型的基礎理論體系,形成了標準文獻數字化轉型基礎理論體系的“3-3-2”模型,并重點羅列了其中的核心基礎理論,在后續(xù)工作中將圍繞此模型開展標準文獻數字化轉型的相關研究與應用,進一步提高標準文獻的數字化發(fā)展水平。