摘 要:在數(shù)字化轉(zhuǎn)型的大背景下,推動我國產(chǎn)業(yè)鏈和供應(yīng)鏈數(shù)字化轉(zhuǎn)型已成為提升產(chǎn)業(yè)競爭力和韌性的重要舉措。面對產(chǎn)業(yè)發(fā)展對標(biāo)準(zhǔn)制定效率和使用方式的新需求,標(biāo)準(zhǔn)化工作必須進行主動、系統(tǒng)的轉(zhuǎn)型升級。本文通過分析現(xiàn)有標(biāo)準(zhǔn)數(shù)字化概念和機器可讀能力分級模型,梳理現(xiàn)有研究標(biāo)準(zhǔn)數(shù)字化關(guān)鍵技術(shù)的概念、優(yōu)勢與不足,探討了未來標(biāo)準(zhǔn)數(shù)字化技術(shù)路線圖,涵蓋層級間和大類技術(shù)內(nèi)容,還展望了標(biāo)準(zhǔn)數(shù)字化的未來發(fā)展方向,對于推動機器可讀標(biāo)準(zhǔn)的發(fā)展和應(yīng)用具有重要的理論和實踐價值。
關(guān)鍵詞:標(biāo)準(zhǔn)數(shù)字化,機器可讀,技術(shù)路線
DOI編碼:10.3969/j.issn.1002-5944.2024.015.004
0 引 言
在產(chǎn)業(yè)數(shù)字化進程中,數(shù)字技術(shù)得到廣泛的應(yīng)用和推廣,使得生產(chǎn)效率和創(chuàng)新能力得到關(guān)鍵提升。數(shù)字經(jīng)濟作為當(dāng)下的一種主要經(jīng)濟形態(tài),通過信息技術(shù)融合與全要素數(shù)字化轉(zhuǎn)型,快速、廣泛、深刻地影響著生產(chǎn)生活治理方式的革新。2022年,中國的數(shù)字經(jīng)濟總量達(dá)到了50.2萬億元,按名義值計算年增長率為10.3%,這標(biāo)志著數(shù)字經(jīng)濟增速已經(jīng)連續(xù)第11年明顯超過同期的GDP增速。此外,數(shù)字經(jīng)濟在國內(nèi)生產(chǎn)總值(GDP)中的占比為41.5%,與第二產(chǎn)業(yè)在整個國民經(jīng)濟中的比重相當(dāng)。
數(shù)字化的歷史洪流要求我國全要素轉(zhuǎn)型,其中產(chǎn)業(yè)鏈和供應(yīng)鏈數(shù)字化轉(zhuǎn)型是重中之重。標(biāo)準(zhǔn)作為國家質(zhì)量基礎(chǔ)設(shè)施,對于產(chǎn)業(yè)鏈和供應(yīng)鏈的發(fā)展與穩(wěn)定意義深刻。為滿足服務(wù)主體轉(zhuǎn)型完成后的用標(biāo)新型需求,適應(yīng)產(chǎn)業(yè)高速發(fā)展,杜絕“扯后腿”現(xiàn)象,標(biāo)準(zhǔn)化工作同樣需要將數(shù)字化理念引入工作流程,系統(tǒng)改革、橫縱接納,從標(biāo)準(zhǔn)呈現(xiàn)形式與標(biāo)準(zhǔn)化活動雙向推進,培育標(biāo)準(zhǔn)高新服務(wù)模式,持續(xù)跟進發(fā)揮標(biāo)準(zhǔn)的基礎(chǔ)性、引領(lǐng)性作用。
本文圍繞標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的概念與核心要素,對轉(zhuǎn)型所需要的新興技術(shù)進行分析,重點梳理知識圖譜、大數(shù)據(jù)、機器學(xué)習(xí)、大模型等新興數(shù)字化技術(shù)的優(yōu)缺點,并結(jié)合機器可讀標(biāo)準(zhǔn)分級模型,構(gòu)建標(biāo)準(zhǔn)數(shù)字化技術(shù)路徑。
1 標(biāo)準(zhǔn)數(shù)字化概念
隨著數(shù)字化技術(shù)的不斷進步,標(biāo)準(zhǔn)領(lǐng)域的數(shù)字化轉(zhuǎn)型正成為一項迫切且充滿挑戰(zhàn)的任務(wù)。在我國,關(guān)于標(biāo)準(zhǔn)數(shù)字化的規(guī)范和操作框架尚未完全確立,但對其基本概念與理論基礎(chǔ)的探討已成為推動行業(yè)發(fā)展的關(guān)鍵一環(huán)。鑒于此,對標(biāo)準(zhǔn)數(shù)字化的基本概念和理論基礎(chǔ)進行深入研究與分析顯得尤為重要。
1.1 標(biāo)準(zhǔn)數(shù)字化
標(biāo)準(zhǔn)數(shù)字化是一種將傳統(tǒng)標(biāo)準(zhǔn)化活動與先進數(shù)字技術(shù)融合的創(chuàng)新實踐,通過電子化文檔、結(jié)構(gòu)化數(shù)據(jù)格式及線上協(xié)作平臺,極大提升標(biāo)準(zhǔn)的制定、執(zhí)行與監(jiān)控的效率與精確性。此過程涉及將標(biāo)準(zhǔn)內(nèi)容轉(zhuǎn)換為易于機器處理的電子格式,利用物聯(lián)網(wǎng)、大數(shù)據(jù)分析等技術(shù)進行實時的標(biāo)準(zhǔn)執(zhí)行監(jiān)控,從而實現(xiàn)標(biāo)準(zhǔn)實施的高度精準(zhǔn)與動態(tài)調(diào)整。標(biāo)準(zhǔn)數(shù)字化不僅加速了標(biāo)準(zhǔn)的迭代更新和廣泛傳播,還提高了標(biāo)準(zhǔn)施行的透明度和公眾參與度,是推動行業(yè)快速響應(yīng)市場變化、提升全球競爭力的關(guān)鍵驅(qū)動力。
在數(shù)字經(jīng)濟時代,我國正在經(jīng)歷標(biāo)準(zhǔn)數(shù)字化發(fā)展,出現(xiàn)了諸如開源標(biāo)準(zhǔn)、機器可讀標(biāo)準(zhǔn)、SMART標(biāo)準(zhǔn)等多種概念。全球趨勢也顯示標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型是不可避免的,各國紛紛推動數(shù)字化、網(wǎng)絡(luò)化的標(biāo)準(zhǔn)化工作。開源標(biāo)準(zhǔn)是指一種公開發(fā)表的標(biāo)準(zhǔn),為多個團隊和開發(fā)者提供了共同參與和改進的機會,推動了技術(shù)的共享和創(chuàng)新,其關(guān)鍵特征包括開放的源代碼、可自由獲取、可修改和可分發(fā)。關(guān)于機器可讀標(biāo)準(zhǔn),依據(jù)IEC和ISO的相關(guān)文件,機器可讀標(biāo)準(zhǔn)指的是那些可以直接被機器、軟件或自動化系統(tǒng)解讀并應(yīng)用的技術(shù)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)以一種用戶和應(yīng)用特定的數(shù)字化格式提供。SMART標(biāo)準(zhǔn)是指用戶(人類和機器)與標(biāo)準(zhǔn)互動所需的格式、流程和工具等形式,可滿足鏈條用戶利益相關(guān)者的需求。
1.2 機器可讀能力分級模型
在2019年,IEC、ISO以及其他區(qū)域性和國家級標(biāo)準(zhǔn)化機構(gòu)提出了一個機器可讀標(biāo)準(zhǔn)的分級模型。此模型依據(jù)標(biāo)準(zhǔn)的機器可讀程度進行等級劃分,規(guī)范對機器可讀標(biāo)準(zhǔn)范疇的理解,同步規(guī)劃策略的演進層級。在2021年,德國國家標(biāo)準(zhǔn)化機構(gòu)(DIN)與德國電工委員會(DKE)基于第一版分級模型向更高層級延伸了一級,并定義了Level 4以上的高級別機器可讀標(biāo)準(zhǔn)為機器可控內(nèi)容,具體如圖1所示。
在標(biāo)準(zhǔn)分級模型中,0級代表傳統(tǒng)的紙質(zhì)標(biāo)準(zhǔn);1級代表數(shù)字文檔格式,如Word、PDF文件;2級為機器可讀文檔,標(biāo)準(zhǔn)文檔的架構(gòu)被數(shù)字化解析,可以導(dǎo)出局部塊狀內(nèi)容,初步分離內(nèi)容與標(biāo)題表現(xiàn)形式;3級為機器可讀和可執(zhí)行內(nèi)容,對標(biāo)準(zhǔn)中的信息單元模塊可以精準(zhǔn)識別,關(guān)聯(lián)關(guān)系詳細(xì)標(biāo)記;4級為機器可解釋內(nèi)容,標(biāo)準(zhǔn)信息與其應(yīng)用信息關(guān)聯(lián),支持機器直接、自動執(zhí)行復(fù)雜狀況和決策;5級為機器可控內(nèi)容,標(biāo)準(zhǔn)可以被系統(tǒng)設(shè)備機器自主修改,支持自主決策,并將成果標(biāo)準(zhǔn)通過標(biāo)準(zhǔn)化組織的發(fā)布渠道進行自動審查與發(fā)布。從3級起,這些標(biāo)準(zhǔn)被稱為“SMART Standards”。此模型的每個級別都是基于前一級別的技術(shù)進一步構(gòu)建的,可以細(xì)致評估標(biāo)準(zhǔn)的機器互操作性能力級別。
在機器可讀標(biāo)準(zhǔn)的分級模型中,等級2至等級5展示了從傳統(tǒng)的文檔管理到高度自動化和智能化的標(biāo)準(zhǔn)應(yīng)用的演進。等級2主要涉及以PDF格式存儲的文檔,這些文檔通過成熟的技術(shù)和流程提供廣泛的信息和深入的索引,便于用戶查找和應(yīng)用標(biāo)準(zhǔn)。隨著等級的提升至等級3,標(biāo)準(zhǔn)不僅可讀,還可執(zhí)行,能夠直接集成到企業(yè)的產(chǎn)品設(shè)計、生產(chǎn)和售后服務(wù)中,通過自動化提高效率和降低成本。到了等級4,標(biāo)準(zhǔn)信息被進一步細(xì)化為可由機器解釋的語義組件,這些組件能夠根據(jù)特定的應(yīng)用需求進行智能化的決策和自動化處理,使得標(biāo)準(zhǔn)的應(yīng)用更加靈活和個性化。最終,在等級5中,標(biāo)準(zhǔn)化過程完全自動化,由人工智能驅(qū)動的決策流程取代傳統(tǒng)標(biāo)準(zhǔn),實現(xiàn)動態(tài)更新和適應(yīng)技術(shù)及監(jiān)管框架的變化,從而支持全球生態(tài)系統(tǒng)的可持續(xù)發(fā)展。這一系列的演進不僅反映了技術(shù)在標(biāo)準(zhǔn)化工作中的應(yīng)用深度,也展示了向數(shù)字化和自動化轉(zhuǎn)型的巨大潛力。
2 標(biāo)準(zhǔn)數(shù)字化關(guān)鍵技術(shù)
據(jù)統(tǒng)計分析,全球數(shù)字化轉(zhuǎn)型的七大重要數(shù)字技術(shù)分別是人工智能(AI)、大數(shù)據(jù)、區(qū)塊鏈技術(shù)(DLT)、物聯(lián)網(wǎng)(IoT)、機器人、3D打印和無人載具。對于標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型,調(diào)研國內(nèi)外相關(guān)機構(gòu)、學(xué)者的研究成果發(fā)現(xiàn),所涉及的數(shù)字化技術(shù)涵蓋面廣、類別跨度大,主要包含人工智能、云服務(wù)、大數(shù)據(jù)、通信安全等大類。具體來說,大部分研究工作中均使用和推薦的技術(shù)集中在知識圖譜、大數(shù)據(jù)、機器學(xué)習(xí)、自然語言處理上,且絕不是單一技術(shù)就可滿足標(biāo)準(zhǔn)數(shù)字化的需求,往往是核心技術(shù)與輔助技術(shù)集成處理。
2.1 知識圖譜技術(shù)
(1)概述
知識圖譜的概念最早可以追溯到20世紀(jì)60年代,但直到2012年,當(dāng)Google引入其“知識圖譜”來增強其搜索引擎的語義搜索能力時,這一概念才廣為人知。知識圖譜是一種通過圖形結(jié)構(gòu)來組織和表達(dá)知識的方法,它標(biāo)志著信息檢索從關(guān)鍵詞匹配向深層語義理解的轉(zhuǎn)變。在知識圖譜中,實體(如人、地點、物體等)被表示為節(jié)點,實體的屬性用于描述節(jié)點的特性,而實體間的關(guān)系則由邊來表示。這種結(jié)構(gòu)使得知識圖譜不僅能表達(dá)實體的屬性,還能描述實體之間的各種復(fù)雜關(guān)系,從而提供更豐富的語義信息。
(2)研究現(xiàn)狀
知識圖譜技術(shù)是當(dāng)下標(biāo)準(zhǔn)數(shù)字化研究過程中突出重視的一環(huán)。知識圖譜技術(shù)通過構(gòu)建和利用標(biāo)準(zhǔn)知識的結(jié)構(gòu)化表示,顯著提升了標(biāo)準(zhǔn)內(nèi)容的查詢效率和關(guān)聯(lián)分析能力,進而提高了標(biāo)準(zhǔn)的應(yīng)用價值[1]。對于標(biāo)準(zhǔn)知識關(guān)鍵信息的識取,構(gòu)建標(biāo)準(zhǔn)知識模型,并進行可視化展示,解決了標(biāo)準(zhǔn)知識未成體系的問題[1-2],有助于提高標(biāo)準(zhǔn)信息的可視化和互聯(lián)互通,增強標(biāo)準(zhǔn)內(nèi)容的理解和應(yīng)用。對于關(guān)聯(lián)分析能力的形成,該技術(shù)將關(guān)鍵信息以圖譜形式表達(dá),建立了各知識元之間的顯隱關(guān)聯(lián)關(guān)系[2-3],通過構(gòu)建標(biāo)準(zhǔn)中實體之間的關(guān)系網(wǎng)絡(luò),使得復(fù)雜的標(biāo)準(zhǔn)信息可以以圖的形式表達(dá),還可處理一些復(fù)雜要素信息,如表格數(shù)據(jù)和公式[4]。并且當(dāng)對信息單元進一步擴展應(yīng)用場景時,可以支持標(biāo)準(zhǔn)知識的關(guān)聯(lián)分析、智能推薦和推理等高級功能[4]。
在特定行業(yè)中,如電力行業(yè),知識圖譜技術(shù)已經(jīng)實現(xiàn)了對領(lǐng)域知識的結(jié)構(gòu)化表達(dá),這極大地提高了相關(guān)知識的查詢效率和利用率[5]。同時,在航空行業(yè),基于實際操作經(jīng)驗,已經(jīng)開發(fā)出一種構(gòu)建標(biāo)準(zhǔn)知識圖譜的方法。該方法從原始的標(biāo)準(zhǔn)數(shù)據(jù)開始,運用一系列的自動化或半自動化技術(shù),支持知識圖譜的創(chuàng)建、輸出和輸入[6]。將標(biāo)準(zhǔn)內(nèi)容轉(zhuǎn)換為互聯(lián)的知識點,知識圖譜技術(shù)構(gòu)筑了一個行業(yè)內(nèi)的知識網(wǎng)絡(luò)。這種轉(zhuǎn)換使得標(biāo)準(zhǔn)內(nèi)容變得更加系統(tǒng)化和結(jié)構(gòu)化,從而支持更復(fù)雜的查詢和決策流程,增強了標(biāo)準(zhǔn)應(yīng)用的靈活性和智能化[7]。
(3)技術(shù)優(yōu)缺點
綜合知識圖譜技術(shù)在標(biāo)準(zhǔn)領(lǐng)域的應(yīng)用情況,總結(jié)提煉標(biāo)準(zhǔn)知識圖譜技術(shù)優(yōu)缺點。其中,知識圖譜技術(shù)的優(yōu)點,主要體現(xiàn)在:
一是標(biāo)準(zhǔn)知識結(jié)構(gòu)化表示。知識圖譜以圖形結(jié)構(gòu)的方式組織和表示知識,能夠清晰地展示實體之間的關(guān)系和屬性,有助于知識的理解和推理。二是標(biāo)準(zhǔn)知識關(guān)聯(lián)性。知識圖譜能夠捕捉到不同實體之間的關(guān)聯(lián)性,包括層級關(guān)系、相似性、關(guān)聯(lián)屬性等,幫助用戶發(fā)現(xiàn)新的知識。三是標(biāo)準(zhǔn)知識擴展性。知識圖譜可以不斷擴展和更新,添加新的實體、關(guān)系和屬性,適應(yīng)不斷變化的知識和需求。四是標(biāo)準(zhǔn)多領(lǐng)域應(yīng)用。知識圖譜可以應(yīng)用于各個領(lǐng)域,實現(xiàn)跨領(lǐng)域的知識共享和應(yīng)用。
對應(yīng)缺點也比較明確:
一是標(biāo)準(zhǔn)知識獲取難度大。構(gòu)建完整和準(zhǔn)確的知識圖譜需要大量的人力和時間,進行數(shù)據(jù)收集和整理時可能遇到數(shù)據(jù)不一致、缺失和錯誤的問題。二是標(biāo)準(zhǔn)知識表示限制。知識圖譜通常以實體、關(guān)系和屬性的方式表示,對于復(fù)雜和抽象的知識可能無法很好地表示,如主觀知識、情感信息和隱含知識。三是標(biāo)準(zhǔn)知識更新延遲。知識圖譜的更新可能存在延遲,無法及時反映最新的信息,尤其是在快速變化的領(lǐng)域。四是標(biāo)準(zhǔn)知識推理限制。知識圖譜提供基于關(guān)聯(lián)性的簡單推理能力,但對于復(fù)雜的推理和推斷任務(wù)可能存在限制。
2.2 大數(shù)據(jù)技術(shù)
(1)概述
大數(shù)據(jù)技術(shù)是指從多源類型的數(shù)據(jù)中,快速挖掘獲取價值信息,即對大量數(shù)據(jù)進行采集、存儲、處理和分析的技術(shù)手段。這一技術(shù)體系繁雜,涵蓋了從數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲到數(shù)據(jù)庫管理、機器學(xué)習(xí)、并行計算、數(shù)據(jù)可視化等多個技術(shù)領(lǐng)域和層面。在標(biāo)準(zhǔn)化領(lǐng)域,盡管標(biāo)準(zhǔn)文本的數(shù)量本身并未達(dá)到大數(shù)據(jù)的規(guī)模,但標(biāo)準(zhǔn)知識則是典型的大數(shù)據(jù)技術(shù)處理范疇。
(2)研究現(xiàn)狀
在標(biāo)準(zhǔn)數(shù)字化工作研究中,大數(shù)據(jù)技術(shù)的作用體現(xiàn)在對于標(biāo)準(zhǔn)數(shù)據(jù)信息的處理與分析。從大規(guī)模的標(biāo)準(zhǔn)數(shù)據(jù)集中挖掘價值和模式,支持標(biāo)準(zhǔn)的決策制定,提供精準(zhǔn)的標(biāo)準(zhǔn)制定和實施建議[1,8-9],更好地理解和預(yù)測標(biāo)準(zhǔn)的應(yīng)用效果和市場需求,優(yōu)化標(biāo)準(zhǔn)的設(shè)計和實施[10]。具體來說,大數(shù)據(jù)技術(shù)通過信息抽取、數(shù)據(jù)挖掘等手段,解決標(biāo)準(zhǔn)信息內(nèi)容零散的問題,為標(biāo)準(zhǔn)知識主題、章節(jié)架構(gòu)、核心內(nèi)容的識別與應(yīng)用等提供支持[8],還支持復(fù)雜的數(shù)據(jù)分析,如趨勢分析、模式識別等[3,7]。此外,采用IEC62599用例方法學(xué)作為建模工具,有助于評析規(guī)范多源輸入,確保了標(biāo)準(zhǔn)開發(fā)過程中用戶需求的準(zhǔn)確捕捉和實現(xiàn)[11]。
(3)技術(shù)優(yōu)缺點
綜合大數(shù)據(jù)技術(shù)在標(biāo)準(zhǔn)領(lǐng)域的應(yīng)用情況,總結(jié)提煉標(biāo)準(zhǔn)大數(shù)據(jù)技術(shù)優(yōu)缺點。其中,大數(shù)據(jù)技術(shù)的優(yōu)點,主要體現(xiàn)在:一是數(shù)據(jù)驅(qū)動決策。大數(shù)據(jù)可以提供額外的數(shù)據(jù)信息,幫助用戶做出更好的決策。二是實時性和即時性。大數(shù)據(jù)技術(shù)可以實時地收集、處理和分析數(shù)據(jù),提供即時的數(shù)據(jù)分析和反饋。三是高效的數(shù)據(jù)處理能力。大數(shù)據(jù)技術(shù)具有高效、快速的數(shù)據(jù)處理能力,能夠在短時間內(nèi)處理和分析大量的數(shù)據(jù)。
對應(yīng)缺點也比較明確:一是非結(jié)構(gòu)化數(shù)據(jù)處理難度大。大數(shù)據(jù)收集的數(shù)據(jù)可能以隨機信息的形式排列或呈現(xiàn),需要進行有效的整理和處理。二是數(shù)據(jù)安全問題。大數(shù)據(jù)存在安全問題,對于高度安全的數(shù)據(jù)或機密信息,需要高度安全的網(wǎng)絡(luò)保護。三是隱私問題。大數(shù)據(jù)涉及大量的個人和敏感信息,需要妥善處理和保護,防止數(shù)據(jù)泄露和濫用。四是技術(shù)和人力成本高。處理和分析大數(shù)據(jù)需要先進的技術(shù)和大量的計算資源,以及專業(yè)的數(shù)據(jù)科學(xué)家和分析師團隊,可能帶來較高的技術(shù)和人力成本。
2.3 機器學(xué)習(xí)技術(shù)
(1)概述
機器學(xué)習(xí)是人工智能領(lǐng)域的一個重要分支,它賦予計算機系統(tǒng)從經(jīng)驗中學(xué)習(xí)并自我改進的能力,而無需進行明確的程序編碼。這個概念最早可以追溯到20世紀(jì)50年代,當(dāng)時由阿蘭·圖靈提出的“圖靈測試”首次探討了機器是否能展現(xiàn)出類似人類的智能行為。1959年,阿瑟·薩繆爾(Arthur Samuel)開發(fā)了一款能自學(xué)玩跳棋的程序,這是機器學(xué)習(xí)早期應(yīng)用的一個例子。機器學(xué)習(xí)算法主要分為三類:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí),各自適用于不同的數(shù)據(jù)集和應(yīng)用場景。這些算法使得機器能夠處理從簡單的數(shù)據(jù)分類到復(fù)雜的決策制定等多種任務(wù)。在處理標(biāo)準(zhǔn)文本數(shù)據(jù)、推理標(biāo)準(zhǔn)知識、智能化決策和預(yù)測分析等方面,機器學(xué)習(xí)技術(shù)展示了廣泛的應(yīng)用潛力,這對提高標(biāo)準(zhǔn)制定的效率和服務(wù)的精確性具有顯著的意義。
(2)研究現(xiàn)狀
機器學(xué)習(xí),主要用于自動化處理和解析標(biāo)準(zhǔn)文檔,提高標(biāo)準(zhǔn)文檔的智能查詢和應(yīng)用效率。通過人工智能,可以實現(xiàn)標(biāo)準(zhǔn)文檔的自動分類、摘要生成、關(guān)鍵信息提取等功能,從而提升標(biāo)準(zhǔn)的易用性和訪問速度[9],支持標(biāo)準(zhǔn)的智能應(yīng)用,如自動化的標(biāo)準(zhǔn)合規(guī)檢查和標(biāo)準(zhǔn)推薦系統(tǒng)[10]。在航空行業(yè)中,AI可以幫助設(shè)計更加智能的標(biāo)準(zhǔn)使用工具,實現(xiàn)按需、智能的標(biāo)準(zhǔn)應(yīng)用[6]。
(3)技術(shù)優(yōu)缺點
綜合機器學(xué)習(xí)技術(shù)在各個垂直領(lǐng)域的應(yīng)用情況,總結(jié)提煉機器學(xué)習(xí)技術(shù)優(yōu)缺點。其優(yōu)點主要體現(xiàn)在:
一是自動化和高效率。機器學(xué)習(xí)可自動分析大規(guī)模數(shù)據(jù)集,顯著減少人工干預(yù),從而提升處理速度和結(jié)果的準(zhǔn)確性。二是模式識別和預(yù)測能力。通過訓(xùn)練模型識別數(shù)據(jù)中的規(guī)律和趨勢,支持更精準(zhǔn)的決策和預(yù)測分析。三是處理復(fù)雜問題。機器學(xué)習(xí)可以處理復(fù)雜的問題和任務(wù),包括圖像識別、自然語言處理、推薦系統(tǒng)等,為解決現(xiàn)實世界中的多樣化挑戰(zhàn)提供支持。四是持續(xù)學(xué)習(xí)和改進。機器學(xué)習(xí)模型可以通過不斷的學(xué)習(xí)和反饋來改進自身的性能和準(zhǔn)確性,具有自我適應(yīng)和持續(xù)改進的能力。
對應(yīng)缺點也比較明確:
一是數(shù)據(jù)依賴性強。機器學(xué)習(xí)的性能和準(zhǔn)確性很大程度上依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量,如果數(shù)據(jù)不充分或不具有代表性,可能導(dǎo)致模型的性能下降。二是解釋性問題。某些機器學(xué)習(xí)模型(如深度學(xué)習(xí))可能具有較高的復(fù)雜性和黑盒特性,難以解釋模型的決策過程和推理邏輯,給人們帶來一定的困擾。三是需要大量的算力資源和時間。訓(xùn)練和優(yōu)化機器學(xué)習(xí)模型需要大量計算和時間資源,尤其是在處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)時,可能需要昂貴的硬件和大量的時間。四是數(shù)據(jù)隱私和安全。機器學(xué)習(xí)需要大量的數(shù)據(jù)進行訓(xùn)練和優(yōu)化,可能涉及個人和敏感信息,需要妥善處理和保護,防止數(shù)據(jù)泄露和濫用。
2.4 標(biāo)準(zhǔn)大模型技術(shù)
(1)概述
自2022年底OpenAI發(fā)布ChatGP T 3.5之后,因其所表現(xiàn)出的卓越的自然語言理解能力與交互及推理能力,引起了全球范圍內(nèi)對于大模型的研究關(guān)注。大型語言模型,也稱大語言模型、大模型(Large Language Model,LLM;Large LanguageModels,LLMs),是一種深度學(xué)習(xí)模型,屬于自然語言處理(NLP)的領(lǐng)域,是指包含千億級別以上參數(shù)的語言模型,通過學(xué)習(xí)大量的文本數(shù)據(jù)來預(yù)測下一個詞或生成與給定文本相關(guān)的內(nèi)容。為了順利推進標(biāo)準(zhǔn)領(lǐng)域大模型技術(shù)的廣泛應(yīng)用,需要全面借鑒典型行業(yè)(如醫(yī)療、金融等)開源微調(diào)大模型項目調(diào)研的研究成果,以及相關(guān)具有可復(fù)用或者可參考價值的工具接口及數(shù)據(jù)集。
(2)研究現(xiàn)狀
自然語言處理技術(shù)主要用于處理和分析標(biāo)準(zhǔn)文本,使之能夠進行智能檢索、智能問答等,提高標(biāo)準(zhǔn)應(yīng)用的便利性??梢酝ㄟ^機器翻譯幫助實現(xiàn)國際標(biāo)準(zhǔn)的本地化和本地標(biāo)準(zhǔn)的國際化,同時也支持術(shù)語詞典的構(gòu)建和問答系統(tǒng)的開發(fā)[2]。自然語言處理技術(shù)在標(biāo)準(zhǔn)數(shù)字化中用于理解和處理轉(zhuǎn)換后的文本數(shù)據(jù),可以幫助分析文本內(nèi)容的語義,提取關(guān)鍵信息,并進行內(nèi)容的分類和標(biāo)記[7]。ChatGPT等大模型逐漸通用,其發(fā)展到圖像、視頻等其他類型的數(shù)據(jù),對于標(biāo)準(zhǔn)文本中的曲線、圖形、照片、公式、表格等越發(fā)適配。
(3)技術(shù)優(yōu)缺點
綜合大模型技術(shù)在各個垂直領(lǐng)域的應(yīng)用情況,總結(jié)提煉機器學(xué)習(xí)技術(shù)優(yōu)缺點。其優(yōu)點主要體現(xiàn)在:一是訓(xùn)練數(shù)據(jù)規(guī)模更大,ChatGPT等大模型的訓(xùn)練數(shù)據(jù)規(guī)模是其他語言模型的數(shù)倍甚至數(shù)十倍,可以學(xué)習(xí)到更多的語言知識和語言規(guī)律,具備更強的用戶交互能力和語言生成能力。二是模型參數(shù)更多,算力要求更高:ChatGPT等大模型使用了大量的模型參數(shù),并基于極高的算力,通過不斷優(yōu)化算法和模型結(jié)構(gòu),使得它在語言模型的各項任務(wù)上表現(xiàn)優(yōu)異。三是語言生成能力更強:ChatGPT等大模型可以自動生成流暢、自然的文本,包括自然對話、見解文章,乃至于規(guī)范代碼等。四是自然語言理解能力更強,對話交互性更好:ChatGPT等大模型可以進行對話交互,能夠理解用戶提出的問題并生成相應(yīng)的回答,且能生成長文本密集型答案。
雖然大模型于多個產(chǎn)業(yè)研究領(lǐng)域都表現(xiàn)出了卓越的性能,但其仍然有著不可忽視的弊端:一是不及時性,以ChatGPT 3.5為例,其所使用的訓(xùn)練數(shù)據(jù)的截止日期為2021年底,也就是說大模型并不能針對實時問題進行回答,并且由于其模型訓(xùn)練所需數(shù)據(jù)量極大,訓(xùn)練周期較長,所以模型更新速度較慢。二是不可靠性,由于語言生成模型生成文本的模型特征,大模型可能寫出看似合理但不正確的答案。這既源于生成模型的語言生成機制,也與訓(xùn)練時所用數(shù)據(jù)的專業(yè)性和真實性不夠有關(guān)。三是不可解釋性,大模型采用的依然是深度學(xué)習(xí)的訓(xùn)練策略,其訓(xùn)練過程依然是不可解釋的“黑盒”,那么也就導(dǎo)致在船舶工業(yè)制造領(lǐng)域,大模型生成的結(jié)果不敢用、不可用。四是不穩(wěn)定性,大模型對輸入文本的變化和相同的提示很敏感,前后兩次相同用戶輸入對應(yīng)的輸出不一樣。
3 標(biāo)準(zhǔn)數(shù)字化技術(shù)路徑
技術(shù)路線涵蓋標(biāo)準(zhǔn)數(shù)字化的各個方面,從數(shù)據(jù)資源建設(shè)、內(nèi)容處理、平臺開發(fā)、服務(wù)應(yīng)用、智慧決策到基礎(chǔ)設(shè)施建設(shè)和質(zhì)量控制。它們相互關(guān)聯(lián),共同構(gòu)成了一個完整的標(biāo)準(zhǔn)數(shù)字化技術(shù)體系,旨在提高標(biāo)準(zhǔn)管理和應(yīng)用的效率,促進標(biāo)準(zhǔn)的數(shù)字化轉(zhuǎn)型。
標(biāo)準(zhǔn)數(shù)字化的技術(shù)路線可以分為以下幾類:
(1)數(shù)據(jù)資源建設(shè)與管理。通過建立包括標(biāo)準(zhǔn)文本庫、元數(shù)據(jù)庫、章節(jié)庫、表格庫、圖片庫、公式庫、術(shù)語庫、指標(biāo)庫以及標(biāo)準(zhǔn)知識圖譜庫在內(nèi)的綜合標(biāo)準(zhǔn)數(shù)據(jù)資源庫,實現(xiàn)對標(biāo)準(zhǔn)規(guī)范及相關(guān)資料的有效整合和管理。
(2)標(biāo)準(zhǔn)內(nèi)容的數(shù)字化處理。標(biāo)準(zhǔn)內(nèi)容結(jié)構(gòu)化,如使用XML技術(shù)對標(biāo)準(zhǔn)文檔進行結(jié)構(gòu)化處理;標(biāo)準(zhǔn)題錄屬性抽取,從標(biāo)準(zhǔn)文獻中抽取關(guān)鍵屬性信息;標(biāo)準(zhǔn)條款(段落)抽取,精確抽取具體的條款或段落;主題詞生成,自動抽取標(biāo)準(zhǔn)文獻的主題詞,將傳統(tǒng)的標(biāo)準(zhǔn)文本轉(zhuǎn)化為機器可識別的文檔類型。
(3)標(biāo)準(zhǔn)數(shù)字化平臺與工具開發(fā)。搭建標(biāo)準(zhǔn)信息公共服務(wù)平臺,實現(xiàn)標(biāo)準(zhǔn)全生命周期管理,開發(fā)支持XML格式標(biāo)準(zhǔn)文檔的軟件工具,實現(xiàn)標(biāo)準(zhǔn)數(shù)據(jù)、技術(shù)、業(yè)務(wù)中臺的共享和共用。
(4)標(biāo)準(zhǔn)數(shù)字化服務(wù)與應(yīng)用。完善標(biāo)準(zhǔn)數(shù)字化服務(wù)能力,如標(biāo)準(zhǔn)知識語義搜索、語義問答、場景推送、指標(biāo)比對與更新預(yù)警、即時翻譯等;根據(jù)具體場景需求,開發(fā)應(yīng)用工具,實現(xiàn)標(biāo)準(zhǔn)與業(yè)務(wù)場景融合的服務(wù),規(guī)劃設(shè)計標(biāo)準(zhǔn)數(shù)字化應(yīng)用場景,確保標(biāo)準(zhǔn)數(shù)字化的有效實施,實現(xiàn)標(biāo)準(zhǔn)的自動執(zhí)行和決策支持。
(5)標(biāo)準(zhǔn)數(shù)字化的智慧化決策。對標(biāo)準(zhǔn)管理、服務(wù)、實施的數(shù)據(jù)進行自動采集和監(jiān)測,開展標(biāo)準(zhǔn)大數(shù)據(jù)分析,實現(xiàn)對標(biāo)準(zhǔn)管理、服務(wù)、實施的評價,形成基于數(shù)據(jù)驅(qū)動的標(biāo)準(zhǔn)科學(xué)化決策能力。
(6)標(biāo)準(zhǔn)數(shù)字化的質(zhì)量控制。標(biāo)準(zhǔn)數(shù)字化結(jié)果審核標(biāo)注,通過人工審核確保準(zhǔn)確性和可靠性,修正不通過審核的數(shù)據(jù),并用于訓(xùn)練和優(yōu)化NLP模型。
基于以上研究,本文面向機器可讀標(biāo)準(zhǔn)分級模型設(shè)計了如圖2所示的標(biāo)準(zhǔn)數(shù)字化技術(shù)路線。
對標(biāo)國際公認(rèn)的標(biāo)準(zhǔn)數(shù)字化等級劃分方法,提出標(biāo)準(zhǔn)數(shù)字化關(guān)鍵技術(shù)路線,向信息單元和機器可控內(nèi)容等數(shù)字化形態(tài)轉(zhuǎn)型。標(biāo)準(zhǔn)每個階段所蘊含的知識打散、解構(gòu)、分類、辨析、聚合,標(biāo)準(zhǔn)中統(tǒng)領(lǐng)知識的智慧被階段之間的技術(shù)手段層層釋放出來,如當(dāng)下標(biāo)準(zhǔn)處于Level0~Level1層級間的核心技術(shù),包括成熟的光學(xué)識別技術(shù)、智能版面技術(shù)、三維掃描技術(shù)以及數(shù)據(jù)庫等,未來短時間內(nèi)布局的核心技術(shù)包括元數(shù)據(jù)、結(jié)構(gòu)化語言、自然語言處理以及CAD建模語言等。
4 結(jié) 語
隨著人工智能、大數(shù)據(jù)等新興技術(shù)的快速發(fā)展,構(gòu)建面向機器可讀的標(biāo)準(zhǔn)分級模型已成為標(biāo)準(zhǔn)化工作的重要發(fā)展方向。本文通過分析現(xiàn)有標(biāo)準(zhǔn)數(shù)字化技術(shù)的優(yōu)勢與不足,探討了未來標(biāo)準(zhǔn)數(shù)字化技術(shù)路線圖。未來標(biāo)準(zhǔn)數(shù)字化應(yīng)圍繞以下方面展開:建立統(tǒng)一的標(biāo)準(zhǔn)描述語言和元數(shù)據(jù)規(guī)范,提高不同領(lǐng)域標(biāo)準(zhǔn)的互操作性;開發(fā)智能化的標(biāo)準(zhǔn)編制與管理工具,提升標(biāo)準(zhǔn)編制效率與質(zhì)量;構(gòu)建基于知識圖譜的標(biāo)準(zhǔn)語義關(guān)聯(lián)模型,實現(xiàn)標(biāo)準(zhǔn)內(nèi)容的智能檢索與推薦;探索區(qū)塊鏈等技術(shù)在標(biāo)準(zhǔn)版本管理、標(biāo)準(zhǔn)實施評估等方面的應(yīng)用。
總之,標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型是大勢所趨,需要產(chǎn)學(xué)研各界通力合作,加快關(guān)鍵技術(shù)突破,助力我國標(biāo)準(zhǔn)化事業(yè)實現(xiàn)高質(zhì)量發(fā)展。只有不斷探索創(chuàng)新,建立完善、智能、開放的標(biāo)準(zhǔn)數(shù)字化生態(tài),才能更好地服務(wù)經(jīng)濟社會發(fā)展,推動形成全球統(tǒng)一、國內(nèi)外兼容的標(biāo)準(zhǔn)化新格局。
參考文獻
[1]王立璽,呂千千,牛艷茹.標(biāo)準(zhǔn)數(shù)字化工作關(guān)鍵路徑探究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(10):27-30+42.
[2]王一禾,呂千千,祝賀.標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型關(guān)鍵技術(shù)及其應(yīng)用分析[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(10):51-55+59.
[3]呂黔蘇,林正平,王昕,等.電力標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型路徑與策略研究[J].品牌與標(biāo)準(zhǔn)化,2023(3):10-12.
[4]陳家賓,趙鑫,王琮,等.機器可讀標(biāo)準(zhǔn)表達(dá)方式探討[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(10):43-46.
[5]馬超,鄧桃,周勤勇,等.面向電力領(lǐng)域的標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型工作研究——需求分析、轉(zhuǎn)型路徑與應(yīng)用場景[J].中國標(biāo)準(zhǔn)化,2022(23):87-92.
[6]李翔宇,傅田,潘鑫,等.標(biāo)準(zhǔn)數(shù)字化在航空行業(yè)應(yīng)用探索與實踐[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(10):68-72+78.
[7]陳心怡,張華,賈君君,等.數(shù)字經(jīng)濟下工業(yè)生產(chǎn)標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型探索研究[J].中國標(biāo)準(zhǔn)化,2023(1):48-52.
[8]崔靜,王立璽.標(biāo)準(zhǔn)數(shù)字化工作路線圖探究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2023(6):43-46.
[9]馬超,宋琛.電力標(biāo)準(zhǔn)數(shù)字化:概念、核心挑戰(zhàn)、治理路線圖及發(fā)展趨勢[J].電網(wǎng)技術(shù),2024,48(2):480-497.
[10]狄矢聰.標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型發(fā)展趨勢與策略研究[J].標(biāo)準(zhǔn)科學(xué),2023(3):36-42.
[11]張寶林,侯常靚,鄔雨筍,等.國際標(biāo)準(zhǔn)化組織機器可讀標(biāo)準(zhǔn)工作動態(tài)[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(10):18-22.
作者簡介
王明皓,碩士,助理工程師,研究方向為船舶標(biāo)準(zhǔn)數(shù)字化。
殷濤,碩士,通信作者,助理工程師,研究方向為船舶標(biāo)準(zhǔn)數(shù)字驗證。
胡杰鑫,博士,高級工程師,研究方向為標(biāo)準(zhǔn)數(shù)字驗證、船舶標(biāo)準(zhǔn)化理論研究。
楊玉婷,本科,工程師,研究方向為船舶標(biāo)準(zhǔn)化。
陳家賓,碩士,高級工程師,研究方向為船舶標(biāo)準(zhǔn)化與開發(fā)。
高超,本科,工程師,研究方向為船舶標(biāo)準(zhǔn)化。
金建海,碩士,高級工程師,研究方向為船舶標(biāo)準(zhǔn)化。
(責(zé)任編輯:袁文靜)