大模型賦能標(biāo)準(zhǔn)數(shù)字化應(yīng)用的路徑思考與發(fā)展建議

2025-07-30 00:00:00方思怡

標(biāo)準(zhǔn)科學(xué) 2025年6期

摘要：【目的】大模型技術(shù)能有效推進(jìn)標(biāo)準(zhǔn)數(shù)字化的深入發(fā)展，對標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型有重要的意義?！痉椒ā客ㄟ^文獻(xiàn)分析、文本挖掘、定性分析等方法，探討大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用前景，總結(jié)大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀，并基于小樣本國家標(biāo)準(zhǔn)數(shù)據(jù)集初步探索大模型在特定標(biāo)準(zhǔn)數(shù)字化場景中的應(yīng)用效果?！窘Y(jié)果】提出大模型賦能不同層級標(biāo)準(zhǔn)數(shù)字化應(yīng)用的技術(shù)路線圖，并針對大模型的潛在問題給出了大模型在標(biāo)準(zhǔn)數(shù)字化應(yīng)用中的發(fā)展建議?！窘Y(jié)論】從大模型的角度出發(fā)，為標(biāo)準(zhǔn)數(shù)字化的深入發(fā)展提供一定的技術(shù)性參考。

關(guān)鍵詞：大模型；標(biāo)準(zhǔn)數(shù)字化；標(biāo)準(zhǔn)語料；標(biāo)準(zhǔn)智能體；人工智能

DOI編碼：10.3969/j.issn.1674-5698.2025.06.004

0引言

隨著數(shù)字經(jīng)濟(jì)時代的到來，標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型已經(jīng)成為國內(nèi)外標(biāo)準(zhǔn)領(lǐng)域的重大戰(zhàn)略發(fā)展方向，目前普遍將實現(xiàn)機器可讀標(biāo)準(zhǔn)視為標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的核心[1]。近年來，我國圍繞標(biāo)準(zhǔn)數(shù)字化的頂層設(shè)計、基礎(chǔ)建設(shè)、應(yīng)用場景等方面陸續(xù)開展了一系列研究[2]。在眾多信息技術(shù)中，人工智能已成為標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的關(guān)鍵核心技術(shù)之一[3]。隨著標(biāo)準(zhǔn)數(shù)字化技術(shù)路線不斷完善，人工智能在標(biāo)準(zhǔn)數(shù)字化中的應(yīng)用深度和廣度也在不斷拓展。作為人工智能領(lǐng)域的新興技術(shù)，快速發(fā)展的大語言模型（Largelanguagemodel，LLM）技術(shù)已一躍成為賦能行業(yè)發(fā)展的焦點。大語言模型，簡稱為“大模型”，是一種包含千億級參數(shù)且在大規(guī)模、多模態(tài)語料庫上預(yù)訓(xùn)練而得的大型深度學(xué)習(xí)模型[4]。它的出現(xiàn)標(biāo)志著自然語言處理和生成進(jìn)入了新階段[5]。與以往的深度學(xué)習(xí)模型相比，大模型具有較強的涌現(xiàn)（Emergent）能力，其優(yōu)勢主要來自思維鏈（Chain-of-Thought，CoT）、知識蒸餾[6]、基于人類反饋的強化學(xué)習(xí)（ReinforcementLearningfromHumanFeedback，RLHF）等技術(shù)。自O(shè)penAI在2022年發(fā)布ChatGPT后，國內(nèi)外的大語言模型呈現(xiàn)迅猛發(fā)展之勢，開啟“百模大戰(zhàn)”。以DeepSeek為代表的國產(chǎn)開源大模型在2024年底迅速崛起，帶領(lǐng)國產(chǎn)大模型進(jìn)入新一輪的發(fā)展歷程。作為新質(zhì)生產(chǎn)力的重要組成部分[7]，大模型在標(biāo)準(zhǔn)領(lǐng)域的應(yīng)用已是大勢所趨。如何在標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型浪潮中把握好大模型的“東風(fēng)”，加快標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的步伐，已成為當(dāng)前標(biāo)準(zhǔn)數(shù)字化工作的焦點之一[8]。

本文主要探討大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用前景，總結(jié)大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀，并以小樣本國家標(biāo)準(zhǔn)數(shù)據(jù)集為例，初步分析大模型在部分標(biāo)準(zhǔn)數(shù)字化場景中的應(yīng)用效果，針對大模型的潛在問題，提出大模型在標(biāo)準(zhǔn)數(shù)字化應(yīng)用中的發(fā)展建議，以期能夠為標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型提供一定的技術(shù)參考。

1大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用前景

標(biāo)準(zhǔn)是一種經(jīng)由相關(guān)方協(xié)商一致、按照特定程序所制定的可共同和重復(fù)使用的技術(shù)性文件[9]。當(dāng)前與標(biāo)準(zhǔn)存在密切關(guān)聯(lián)的標(biāo)準(zhǔn)衍生數(shù)據(jù)主要有相關(guān)政策文件、專利文本、論文、法律法規(guī)、標(biāo)準(zhǔn)體系、產(chǎn)品信息等。由此可見，當(dāng)前的標(biāo)準(zhǔn)文本及其衍生數(shù)據(jù)以文本和圖片模態(tài)的數(shù)據(jù)為主。截至目前，國內(nèi)外已發(fā)布一系列基礎(chǔ)大模型和行業(yè)垂類大模型。大模型的能力圖譜已經(jīng)涵蓋了常規(guī)數(shù)據(jù)模態(tài)的處理能力，包括文本生成、語音識別、視頻生成、圖像理解等，已具備實現(xiàn)標(biāo)準(zhǔn)數(shù)字化應(yīng)用的能力基礎(chǔ)。

從標(biāo)準(zhǔn)文本及衍生數(shù)據(jù)的機器可讀水平出發(fā)，基于信息管理領(lǐng)域DIKW模型的4層結(jié)構(gòu)[10]，將標(biāo)準(zhǔn)數(shù)字化工作由低到高依次劃分為標(biāo)準(zhǔn)數(shù)據(jù)獲取層、標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層、標(biāo)準(zhǔn)知識管理層和標(biāo)準(zhǔn)應(yīng)用場景層，其水平分別與DIKW模型的數(shù)據(jù)（Data）、信息（Infomation）、知識（Knowledge）、智慧（Wisdom）相對應(yīng)。根據(jù)目前國內(nèi)外常見大模型的能力特點，圍繞標(biāo)準(zhǔn)數(shù)字化的發(fā)展需求，提出大模型賦能不同層級標(biāo)準(zhǔn)數(shù)字化應(yīng)用的技術(shù)路線圖，見圖1。

1.1標(biāo)準(zhǔn)數(shù)據(jù)獲取層

標(biāo)準(zhǔn)數(shù)據(jù)獲取層處于DIKW模型的數(shù)據(jù)層級，旨在獲取標(biāo)準(zhǔn)文本數(shù)據(jù)、直接來自標(biāo)準(zhǔn)文本的標(biāo)準(zhǔn)衍生數(shù)據(jù)及標(biāo)準(zhǔn)文本以外的標(biāo)準(zhǔn)衍生數(shù)據(jù)。

在標(biāo)準(zhǔn)數(shù)據(jù)獲取層，大模型能夠參與標(biāo)準(zhǔn)文本及標(biāo)準(zhǔn)衍生數(shù)據(jù)的獲取，通過多模態(tài)數(shù)據(jù)的處理能力解決當(dāng)前部分標(biāo)準(zhǔn)在高質(zhì)量語料數(shù)據(jù)獲取上存在的問題。與國外標(biāo)準(zhǔn)相比，目前我國的國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)大多以紙質(zhì)文本和掃描件PDF文本等非結(jié)構(gòu)化的形式流通，機器可讀等級較低。為了獲取上述格式的標(biāo)準(zhǔn)文本內(nèi)容，通常需要采用光學(xué)字符識別（OpticalCharacterRecognition，OCR）工具將非結(jié)構(gòu)化標(biāo)準(zhǔn)文本轉(zhuǎn)化為機器可讀取和可操作的電子數(shù)據(jù)形式[11]。標(biāo)準(zhǔn)中的技術(shù)信息通常以公式、指標(biāo)數(shù)值等細(xì)粒度的數(shù)據(jù)形式出現(xiàn)，部分標(biāo)準(zhǔn)的插圖也蘊含關(guān)鍵的技術(shù)信息，但此類圖像數(shù)據(jù)長期以來大多未能得到知識化加工。傳統(tǒng)的OCR技術(shù)在自動識別上述類型的數(shù)據(jù)時準(zhǔn)確度不夠高，泛化能力不足，已無法充分滿足掃描件PDF文本的數(shù)據(jù)獲取需求。與以往的OCR工具相比，基于大規(guī)模預(yù)訓(xùn)練而來的大模型具有更強的泛化能力，在跨語種和多模態(tài)的復(fù)雜文檔識別上表現(xiàn)更優(yōu)異。將特定的大模型應(yīng)用于非結(jié)構(gòu)化標(biāo)準(zhǔn)文本，將有效解決現(xiàn)階段機器可讀能力低水平標(biāo)準(zhǔn)的痛點，從而提升標(biāo)準(zhǔn)語料數(shù)據(jù)的獲取質(zhì)量，為標(biāo)準(zhǔn)數(shù)字化工作奠定更為堅實的數(shù)據(jù)基礎(chǔ)。

1.2標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層

標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層處于DIKW模型的“信息”層級，其目的在于打造和儲存源自標(biāo)準(zhǔn)文本及標(biāo)準(zhǔn)衍生數(shù)據(jù)的語料庫。

在標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層，以文本挖掘與生成能力見長的大模型能夠優(yōu)化和加快標(biāo)準(zhǔn)語料數(shù)據(jù)庫的構(gòu)建。近年來，大模型賦能的語料庫建設(shè)已在圖情領(lǐng)域取得一定的實踐成果[12]。就標(biāo)準(zhǔn)文本的功能屬性而言，標(biāo)準(zhǔn)是科技文獻(xiàn)的一大分支，與圖情領(lǐng)域密不可分。本文根據(jù)標(biāo)準(zhǔn)語料數(shù)據(jù)的類型，將常見的標(biāo)準(zhǔn)數(shù)據(jù)資源劃分為標(biāo)準(zhǔn)全文語料庫、標(biāo)準(zhǔn)核心要素語料庫、標(biāo)準(zhǔn)元數(shù)據(jù)語料庫和標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)語料庫。其中，標(biāo)準(zhǔn)核心要素語料庫包括直接和間接來自標(biāo)準(zhǔn)原文數(shù)據(jù)的核心要素；標(biāo)準(zhǔn)元數(shù)據(jù)語料庫涵蓋了標(biāo)準(zhǔn)編目、標(biāo)注、訓(xùn)練數(shù)據(jù)等方面的元數(shù)據(jù)；標(biāo)準(zhǔn)業(yè)務(wù)語料庫與標(biāo)準(zhǔn)應(yīng)用相關(guān)，以標(biāo)準(zhǔn)業(yè)務(wù)的用戶數(shù)據(jù)為主。

對于標(biāo)準(zhǔn)核心要素語料庫的構(gòu)建而言，在大模型時代之前，直接來自標(biāo)準(zhǔn)原文數(shù)據(jù)的核心要素通常有3種收集渠道：（1）標(biāo)準(zhǔn)題錄數(shù)據(jù)，以標(biāo)準(zhǔn)號、標(biāo)準(zhǔn)名稱、標(biāo)準(zhǔn)實施時間等不深入涉及標(biāo)準(zhǔn)技術(shù)信息的核心要素為主；（2）通過基于規(guī)則和深度學(xué)習(xí)相結(jié)合的命名實體識別（NamingEntityRecognition，NER）技術(shù)抽取標(biāo)準(zhǔn)文本中的術(shù)語、指標(biāo)、范圍、規(guī)范性引用文件等核心要素，其中標(biāo)準(zhǔn)指標(biāo)在標(biāo)準(zhǔn)文本中的分布位置和構(gòu)成形式較為復(fù)雜，是標(biāo)準(zhǔn)核心要素語料庫構(gòu)建的一大難點；（3）采用傳統(tǒng)機器學(xué)習(xí)方法獲取基于標(biāo)準(zhǔn)原文數(shù)據(jù)的核心要素，這一類要素以標(biāo)準(zhǔn)主題關(guān)鍵詞為典型代表，可采用文本挖掘中的潛在狄利克雷分配（LatentDirichletAllocation，LDA）模型獲得。相比以往的深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型，大模型在長文本的自然語言處理上優(yōu)勢顯著，主動學(xué)習(xí)能力更強，可通過微調(diào)迅速適應(yīng)全新的領(lǐng)域[13]。標(biāo)準(zhǔn)是一種橫跨不同專業(yè)領(lǐng)域的技術(shù)性文本，大模型的上述優(yōu)勢能節(jié)省標(biāo)準(zhǔn)命名實體識別在跨專業(yè)領(lǐng)域上的訓(xùn)練成本，其自然語言生成能力也能在標(biāo)準(zhǔn)主題關(guān)鍵詞等生成式的核心要素獲取上得到充分應(yīng)用。

1.3標(biāo)準(zhǔn)知識管理層

標(biāo)準(zhǔn)知識管理層處于DIKW模型的知識層級，旨在建立不同標(biāo)準(zhǔn)語料之間的關(guān)聯(lián)性，構(gòu)建標(biāo)準(zhǔn)知識圖譜，將不同類型的標(biāo)準(zhǔn)語料進(jìn)一步轉(zhuǎn)化為機器可理解的標(biāo)準(zhǔn)綜合知識庫，并開展標(biāo)準(zhǔn)知識管理與數(shù)據(jù)治理。其中，標(biāo)準(zhǔn)知識圖譜是對標(biāo)準(zhǔn)知識進(jìn)行重組并建立關(guān)聯(lián)性關(guān)系的新型結(jié)構(gòu)化知識庫[14]，主要涵蓋來自標(biāo)準(zhǔn)文本和標(biāo)準(zhǔn)文本衍生數(shù)據(jù)的知識；而標(biāo)準(zhǔn)綜合知識庫則是在標(biāo)準(zhǔn)知識圖譜的基礎(chǔ)上與大模型技術(shù)深度結(jié)合后優(yōu)化而成的知識庫[15]。

在標(biāo)準(zhǔn)知識管理層，大模型能參與標(biāo)準(zhǔn)知識圖譜的構(gòu)建與應(yīng)用，整合源自標(biāo)準(zhǔn)文本及衍生數(shù)據(jù)的標(biāo)準(zhǔn)知識，形成更為豐富、全面的標(biāo)準(zhǔn)知識網(wǎng)絡(luò)，加強標(biāo)準(zhǔn)綜合知識庫的建設(shè)，提升標(biāo)準(zhǔn)知識圖譜的應(yīng)用效能。具體而言，標(biāo)準(zhǔn)知識圖譜的構(gòu)建流程通常包括知識抽取、知識表征、知識融合和知識推理[16]。與基于規(guī)則的自然語言處理技術(shù)和以往的深度學(xué)習(xí)模型相比，大模型在語義理解、內(nèi)容生成上具有較強的通用能力。近來科技情報領(lǐng)域的知識融合研究顯示了大模型在知識融合上的優(yōu)勢[17]。在標(biāo)準(zhǔn)知識融合中采用大模型技術(shù)能提升標(biāo)準(zhǔn)知識融合的效率。大模型與知識圖譜的有機結(jié)合也逐漸成為構(gòu)建高質(zhì)量知識庫的全新方式。將大模型與標(biāo)準(zhǔn)知識圖譜深度結(jié)合，能有效降低大模型的“幻覺”現(xiàn)象，以共同協(xié)作的方式打造的標(biāo)準(zhǔn)綜合知識庫也可作為優(yōu)化大模型性能的重要輸入，從而進(jìn)一步提升大模型在標(biāo)準(zhǔn)數(shù)字化中的應(yīng)用效果。

1.4標(biāo)準(zhǔn)應(yīng)用場景層

標(biāo)準(zhǔn)應(yīng)用場景層處于DIKW模型的智慧層級。當(dāng)前大模型技術(shù)主要以人工智能體（AIAgent）為載體實現(xiàn)落地應(yīng)用。隨著人工智能體的框架愈發(fā)成熟，知識智能體化的趨勢愈發(fā)明顯?；诖竽Ｐ偷娜斯ぶ悄荏w已成為大模型近來的重要發(fā)展方向。它以大模型為核心控制器，通過整合規(guī)劃、記憶等不同模塊的組件[18]，基于自主規(guī)劃的指令完成任務(wù)。人工智能體的一大優(yōu)勢在于能夠?qū)?fù)雜場景簡單化，將復(fù)雜的應(yīng)用場景分解為可復(fù)用、可推廣的簡單子任務(wù)。

在標(biāo)準(zhǔn)應(yīng)用場景層，大模型將通過人工智能體的方式，面向標(biāo)準(zhǔn)業(yè)務(wù)打造具體的標(biāo)準(zhǔn)應(yīng)用場景，主要包括標(biāo)準(zhǔn)智能編寫、標(biāo)準(zhǔn)智能翻譯、基于標(biāo)準(zhǔn)全文或核心要素的標(biāo)準(zhǔn)智能比對、標(biāo)準(zhǔn)體系智能構(gòu)建、標(biāo)準(zhǔn)決策輔助、標(biāo)準(zhǔn)查新輔助、標(biāo)準(zhǔn)輿情智能追蹤與分析、標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)智能分析與診斷、標(biāo)準(zhǔn)用戶畫像自動構(gòu)建與分析等。

2大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀與探索

2.1大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀

鑒于標(biāo)準(zhǔn)是具有版權(quán)保護(hù)的技術(shù)性文本[19]，目前標(biāo)準(zhǔn)數(shù)據(jù)資源尚未被國內(nèi)外大多數(shù)大模型納入語料訓(xùn)練的范疇。當(dāng)前大模型技術(shù)在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用尚處于起步階段，聚焦標(biāo)準(zhǔn)領(lǐng)域的行業(yè)垂類大模型數(shù)量較少，大多采用直接調(diào)用或微調(diào)大模型的應(yīng)用方式。

在行業(yè)垂類大模型的構(gòu)建與應(yīng)用方面，作為國內(nèi)知名的知識服務(wù)提供機構(gòu)，同方知網(wǎng)于2024年4月正式發(fā)布了中華知識大模型2.0版本（簡稱為華知大模型2.0），并與中國標(biāo)準(zhǔn)出版社聯(lián)合制定了面向標(biāo)準(zhǔn)領(lǐng)域的中華標(biāo)準(zhǔn)大模型。截至2025年2月，中華標(biāo)準(zhǔn)大模型的功能尚未全部上線。根據(jù)其官網(wǎng)信息可知，該模型以華知大模型為底座，其數(shù)據(jù)資源涵蓋大量國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)、團(tuán)體標(biāo)準(zhǔn)及部分規(guī)程規(guī)范，以標(biāo)準(zhǔn)知識問答為核心能力，打造標(biāo)準(zhǔn)文檔輔助閱讀、標(biāo)準(zhǔn)文件智能寫作、智能翻譯、標(biāo)準(zhǔn)比對等功能應(yīng)用。

在直接調(diào)用或微調(diào)大模型開展相關(guān)應(yīng)用方面，鄭佳明等[14]提出了適用于船舶標(biāo)準(zhǔn)領(lǐng)域的大模型與知識圖譜的融合應(yīng)用方法。該方法能有效發(fā)揮大模型輔助知識圖譜構(gòu)建和知識圖譜輔助大模型研發(fā)的雙向增強作用，為其他領(lǐng)域的標(biāo)準(zhǔn)數(shù)字化建設(shè)提供了一定的技術(shù)參考。王立璽等[8]總結(jié)了中國電子技術(shù)標(biāo)準(zhǔn)化研究院在開展大模型應(yīng)用實踐方面的初步成果，包括知識標(biāo)注、檢索增強、智能問答、內(nèi)容生成、閱讀輔助理解、技術(shù)要素比對與分析等方面。從中可見，大模型在標(biāo)準(zhǔn)細(xì)粒度知識抽取與標(biāo)注、標(biāo)準(zhǔn)內(nèi)容語義理解與摘要生成等任務(wù)上取得明顯成效。

2.2基于大模型的國家標(biāo)準(zhǔn)數(shù)字化應(yīng)用的初步探索

標(biāo)準(zhǔn)的中文名稱是揭示標(biāo)準(zhǔn)主題的標(biāo)準(zhǔn)核心要素，通常涉及標(biāo)準(zhǔn)中的重要術(shù)語，與標(biāo)準(zhǔn)編寫的目的、范圍也存在一定的相關(guān)性。本文聚焦強制性國家標(biāo)準(zhǔn)的中文名稱，開展大模型在國家標(biāo)準(zhǔn)數(shù)字化應(yīng)用中的初步探索。

為了能夠深入比較不同大模型和傳統(tǒng)機器學(xué)習(xí)模型的應(yīng)用效果，采用DeepSeek-R1模型、DeepSeek-V3模型、訊飛星火Spark-Max模型及傳統(tǒng)機器學(xué)習(xí)下的LDA模型。在上述4種模型中，DeepSeek-R1模型在后訓(xùn)練階段采用強化學(xué)習(xí)技術(shù)，以推理能力見長；DeepSeek-V3模型在百科知識和長文本處理上表現(xiàn)較好；Spark-Max模型適用于對知識專業(yè)性要求較高的知識服務(wù)應(yīng)用場景；傳統(tǒng)的LDA模型則是自然語言處理中的經(jīng)典方法，其通過一系列概率分布判斷詞語與主題的相關(guān)性[20-21]，常被用來揭示文本的核心內(nèi)容。

以上海標(biāo)準(zhǔn)文獻(xiàn)館“標(biāo)準(zhǔn)文獻(xiàn)發(fā)行服務(wù)系統(tǒng)”中食品安全與化學(xué)領(lǐng)域的100篇現(xiàn)行強制性國家標(biāo)準(zhǔn)為樣本（截至2025年2月），采用大模型技術(shù)基于強制性國家標(biāo)準(zhǔn)的標(biāo)準(zhǔn)中文名稱獲取5個中文關(guān)鍵詞和5個英文關(guān)鍵詞?？紤]到當(dāng)前的LDA模型不具備大模型通常具有的文本翻譯、內(nèi)容推理等能力，采用LDA模型基于強制性國家標(biāo)準(zhǔn)的標(biāo)準(zhǔn)中文名稱獲取中文關(guān)鍵詞。為了進(jìn)一步比較不同技術(shù)方法的語義加工效果，采用jieba分詞工具，對100篇現(xiàn)行強制性國家標(biāo)準(zhǔn)的標(biāo)準(zhǔn)中文名稱進(jìn)行詞語切分和數(shù)據(jù)處理后獲得對應(yīng)的詞語序列。上述4種模型和jieba分詞工具的結(jié)果各計100條。采用人工方式逐一判斷上述運行結(jié)果的合理性與準(zhǔn)確性。表1為4種模型和jieba分詞工具運行結(jié)果的部分實例，展示了不同模型和工具對于GB29940—2013的處理效果。

通過表1可以發(fā)現(xiàn)，對于GB29940—2013《食品安全國家標(biāo)準(zhǔn)食品添加劑檸檬酸亞錫二鈉》，3種大模型均能準(zhǔn)確提取標(biāo)準(zhǔn)中文名稱的有效語義單元，但語義理解和聯(lián)想廣度存在差異：DeepSeek-R1能識別出檸檬酸亞錫二鈉在食品安全中的基本功能及其化學(xué)屬性，得出檸檬酸亞錫二鈉是食品防腐劑、隸屬于亞錫化合物的結(jié)論并基于此輸出中、英文關(guān)鍵詞，所給結(jié)果與標(biāo)準(zhǔn)中文名稱存在較強的語義關(guān)聯(lián)性；相比之下，DeepSeek-V3的輸出結(jié)果雖然在語義理解上較為準(zhǔn)確，但語義聯(lián)想的廣度不及DeepSeek-R1；Spark Max能在準(zhǔn)確提取標(biāo)準(zhǔn)中文名稱有效語義單元的基礎(chǔ)上進(jìn)一步給出模型自身對關(guān)鍵詞的理解，但其輸出內(nèi)容與標(biāo)準(zhǔn)中文名稱的語義關(guān)聯(lián)緊密性不如DeepSeek-R1。與大模型相比，LDA模型與jieba分詞工具在語義單元識別的準(zhǔn)確性上存在一定偏差，也無法提供語義聯(lián)想和推理層面的有效結(jié)果。

上述模型和工具的人工評估結(jié)果顯示，DeepSeek-R1僅在少數(shù)回答中表現(xiàn)出了幻覺現(xiàn)象和內(nèi)容錯誤，不僅能準(zhǔn)確識別標(biāo)準(zhǔn)中文名稱的有效語義單元，也能根據(jù)標(biāo)準(zhǔn)中文名稱的語義內(nèi)容進(jìn)行聯(lián)想，獲取與之相關(guān)的領(lǐng)域?qū)I(yè)知識和標(biāo)準(zhǔn)文本信息，在部分情況下也可根據(jù)自身回答提供關(guān)鍵詞結(jié)果的應(yīng)用參考建議。相比之下，DeepSeek-V3所輸出的關(guān)鍵詞大多直接與標(biāo)準(zhǔn)中文名稱相關(guān)，Spark-Max能根據(jù)標(biāo)準(zhǔn)中文名稱進(jìn)行一定的語義聯(lián)想，但聯(lián)想的廣度和深度不及DeepSeek-R1。整體而言，大模型對于標(biāo)準(zhǔn)中文名稱的語義理解準(zhǔn)確性高于LDA模型和jieba分詞工具，體現(xiàn)出明顯的文本加工優(yōu)勢。

3大模型賦能標(biāo)準(zhǔn)數(shù)字化的潛在風(fēng)險與發(fā)展建議

3.1大模型賦能標(biāo)準(zhǔn)數(shù)字化的潛在風(fēng)險

3.1.1數(shù)據(jù)治理風(fēng)險

盡管大模型技術(shù)在語義理解、內(nèi)容生成等方面體現(xiàn)出卓越的處理能力，但數(shù)據(jù)治理風(fēng)險是大模型在標(biāo)準(zhǔn)數(shù)字化應(yīng)用過程中無法回避的潛在問題。數(shù)據(jù)治理風(fēng)險主要包括數(shù)據(jù)質(zhì)量風(fēng)險和數(shù)據(jù)安全風(fēng)險[22]。近來的研究顯示，現(xiàn)階段的大模型在應(yīng)用過程中普遍存在時效性、穩(wěn)定性、可解釋性、可靠性等方面的不足[23]，其隱患主要來自數(shù)據(jù)合規(guī)、算法合規(guī)、隱私保護(hù)、幻覺問題等方面[4]，存在侵權(quán)、數(shù)據(jù)泄露、數(shù)據(jù)偏差等現(xiàn)象[24]。在初步探索中也發(fā)現(xiàn)了DeepSeek-R1的回答存在低比例的幻覺問題，在后續(xù)工作中將繼續(xù)加以重視，提高數(shù)據(jù)結(jié)果的可信度。

3.1.2版權(quán)風(fēng)險

隨著人工智能時代的到來，數(shù)據(jù)兼具數(shù)據(jù)資源與訓(xùn)練數(shù)據(jù)的雙重價值，訓(xùn)練數(shù)據(jù)的版權(quán)信息披露已成為人工智能法治問題的熱點[25]。標(biāo)準(zhǔn)是受著作權(quán)保護(hù)的技術(shù)性文本，大模型賦能標(biāo)準(zhǔn)數(shù)字化將引發(fā)一定的版權(quán)風(fēng)險。標(biāo)準(zhǔn)數(shù)字化工作者應(yīng)當(dāng)重點關(guān)注數(shù)字時代二次創(chuàng)作的合理使用方式[26]，確保標(biāo)準(zhǔn)數(shù)據(jù)的使用合法合規(guī)。

3.2大模型賦能標(biāo)準(zhǔn)數(shù)字化的發(fā)展建議

本研究基于大模型技術(shù)的整體應(yīng)用現(xiàn)狀，從標(biāo)準(zhǔn)數(shù)字化的發(fā)展需求入手，提出以下發(fā)展建議。

3.2.1夯實標(biāo)準(zhǔn)語料基礎(chǔ)

語料數(shù)據(jù)、算法和算力是人工智能的“三駕馬車”。隨著大模型發(fā)展逐漸步入模型的后訓(xùn)練時代，語料數(shù)據(jù)被視為決定模型性能上限的關(guān)鍵因素。高質(zhì)量的語料庫建設(shè)與應(yīng)用已成為我國近年來人工智能領(lǐng)域的重要方向。對于標(biāo)準(zhǔn)數(shù)字化而言，不論是構(gòu)建標(biāo)準(zhǔn)垂類大模型，還是調(diào)用基礎(chǔ)大模型加以微調(diào)，都需要高質(zhì)量標(biāo)準(zhǔn)語料庫的支撐?，F(xiàn)階段的標(biāo)準(zhǔn)數(shù)字化工作在數(shù)據(jù)基礎(chǔ)方面還存在較大的提升空間，后續(xù)工作應(yīng)當(dāng)重點聚焦標(biāo)準(zhǔn)語料庫的建設(shè)，根據(jù)標(biāo)準(zhǔn)數(shù)字化任務(wù)的具體要求打造大模型所需的標(biāo)準(zhǔn)知識庫，從而有助于大模型給出針對性的回答，降低其出現(xiàn)幻覺問題的可能性。

3.2.2加強標(biāo)準(zhǔn)提示詞工程建設(shè)

與以往的深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型不同，大模型需要提供提示詞（Prompt）作為任務(wù)的輸入文本或指令[27]。提示詞通常是問句、上下文信息、指令說明等形式。提示詞工程（PromptEngineering）的質(zhì)量與大模型的回答準(zhǔn)確性密切相關(guān)。為了提高大模型賦能標(biāo)準(zhǔn)數(shù)字化的應(yīng)用效果，應(yīng)當(dāng)制定契合特定標(biāo)準(zhǔn)數(shù)字化應(yīng)用場景和大模型自身特性的提示詞數(shù)據(jù)集，在標(biāo)準(zhǔn)領(lǐng)域形成可復(fù)制、可推廣的提示詞生成方法。

3.2.3在實踐中擇優(yōu)選取基準(zhǔn)型

當(dāng)前國內(nèi)外大模型類型眾多。盡管大模型在語義理解、文本生成等方面表現(xiàn)優(yōu)異，但其與已有的深度學(xué)習(xí)和機器學(xué)習(xí)模型并非完全的對立關(guān)系。標(biāo)準(zhǔn)數(shù)字化工作者應(yīng)當(dāng)意識到模型“各司其職”在標(biāo)準(zhǔn)數(shù)字化工作中的重要性，從具體應(yīng)用場景的實際需求出發(fā)，通過比較不同模型在特定任務(wù)中的表現(xiàn)結(jié)果，擇優(yōu)選取該應(yīng)用場景的基準(zhǔn)型。

3.2.4構(gòu)建基于大模型的標(biāo)準(zhǔn)智能體

近年來，基于大模型的智能體已被證實能提升知識服務(wù)模式的智能化程度[28]，能處理復(fù)雜的任務(wù)，在多個領(lǐng)域得到廣泛應(yīng)用。標(biāo)準(zhǔn)智能體也將成為大模型賦能標(biāo)準(zhǔn)數(shù)字化應(yīng)用的重要載體。與其他模式相比，基于大模型的標(biāo)準(zhǔn)智能體以大模型為“大腦”。大模型通過掌握完成標(biāo)準(zhǔn)數(shù)字化應(yīng)用任務(wù)所需的工具操作方式和領(lǐng)域?qū)I(yè)知識，能夠快速適應(yīng)標(biāo)準(zhǔn)數(shù)字化應(yīng)用場景的實際需求，靈活應(yīng)對標(biāo)準(zhǔn)數(shù)字化應(yīng)用需求的變化。

3.2.5制定大模型回答審查方法

鑒于目前大模型的回答尚存在“幻覺問題”，而標(biāo)準(zhǔn)數(shù)字化工作普遍對結(jié)果精確性有較高的要求，標(biāo)準(zhǔn)數(shù)字化工作者應(yīng)當(dāng)針對大模型的大規(guī)模批量調(diào)用結(jié)果制定科學(xué)有效的審查方法，形成大模型回答的質(zhì)量評估方法，以此確保大模型結(jié)果的精確性和可信度。

4結(jié)語

在人工智能時代，大模型賦能標(biāo)準(zhǔn)數(shù)字化應(yīng)用已成為大勢所趨。依靠出色的語義理解與文本生成能力[29]，大模型有望加快機器可讀標(biāo)準(zhǔn)的構(gòu)建，通過在標(biāo)準(zhǔn)智能比對、標(biāo)準(zhǔn)智能編寫等多個標(biāo)準(zhǔn)數(shù)字化應(yīng)用場景中發(fā)揮重要的作用，提升標(biāo)準(zhǔn)知識服務(wù)的供給能力，進(jìn)而推動標(biāo)準(zhǔn)向數(shù)字化、網(wǎng)絡(luò)化和智能化發(fā)展。

參考文獻(xiàn)

標(biāo)準(zhǔn)數(shù)字化理論研究與發(fā)展趨勢洞察[J].中國標(biāo)準(zhǔn)化，2025（3）：14-15.

袁文靜，方洛凡.標(biāo)準(zhǔn)對話：標(biāo)準(zhǔn)數(shù)字化的階段性目標(biāo)與實踐[J].中國標(biāo)準(zhǔn)化，2024（3）：6-29.

程云，陳國祥，陳寒竹，等.基于人工智能的標(biāo)準(zhǔn)數(shù)字化關(guān)鍵技術(shù)路徑探索[J].信息技術(shù)與標(biāo)準(zhǔn)化，2022（10）：60-67.

劉澤垣，王鵬江，宋曉斌，等.大語言模型的幻覺問題研究綜述[J].軟件學(xué)報，2025，36（3）：1152-1185.

張澤華，柴豪.國內(nèi)外大模型在情感分析中對比與應(yīng)用策略[J].重慶工商大學(xué)學(xué)報（自然科學(xué)版），1-11[2025-03-04].http：//kns.cnki.net/kcms/detail/50.1155.N.20241015.1411.004.html.

鄧建鵬，趙治松.DeepSeek的破局與變局：論生成式人工智能的監(jiān)管方向[J].新疆師范大學(xué)學(xué)報（哲學(xué)社會科學(xué)版），2025，46（4）：99-108.

鐘新龍，渠延增，王聰聰，等.國內(nèi)外人工智能大模型發(fā)展研究[J].軟件和集成電路，2024（1）：80-92.

王立璽，呂千千，孔慶煒，等.大語言模型加快標(biāo)準(zhǔn)數(shù)字化發(fā)展進(jìn)程實踐與思考[J].信息技術(shù)與標(biāo)準(zhǔn)化，2024（8）：32-37.

標(biāo)準(zhǔn)化工作導(dǎo)則第1部分：標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則：GB/T1.1—2020[S].

曹亞威，陳月艷，曹倩倩.基于DIKW模型的零售業(yè)數(shù)字化轉(zhuǎn)型路徑研究[J].生產(chǎn)力研究，2023（7）：101-105.

劉曙.多模態(tài)文檔知識庫問答研究及應(yīng)用[D].上海：華東師范大學(xué)，2023.

翟蓉.大模型賦能的智能問答FAQ語料庫建設(shè)實踐與思考：以國家圖書館為例[J].四川圖書館學(xué)報，2025（2）：80-87.

梁佳，張麗萍，閆盛，等.基于大語言模型的命名實體識別研究進(jìn)展[J].計算機科學(xué)與探索，2024，18（10）：2594-2615.

鄭佳明，陳家賓，胡杰鑫，等.基于大模型和知識圖譜的標(biāo)準(zhǔn)領(lǐng)域融合應(yīng)用方法研究[J].中國標(biāo)準(zhǔn)化，2023（23）：39-46.

金寶生，郭越，侯守立.金融業(yè)融合大模型多模態(tài)知識圖譜的構(gòu)建研究[J].中國科技論文在線精品論文，2024，17（4）：420-424.

方思怡.標(biāo)準(zhǔn)知識圖譜的技術(shù)路徑與應(yīng)用場景探討[J].中國標(biāo)準(zhǔn)化，2023（11）：49-55.

楊倩，林鶴.科技情報基礎(chǔ)服務(wù)知識融合流程自動化框架研究[J].信息與管理研究，2024，9（4）：65-72.

劉煒，劉倩倩.生成式人工智能十大趨勢與公共文化機構(gòu)的應(yīng)對策略[J].圖書館建設(shè)，2025（1）：4-14.

黃波.人工智能解決標(biāo)準(zhǔn)版權(quán)問題芻議[J].中國標(biāo)準(zhǔn)化，2024（20）：16-17.

王軼群，陳成鑫.基于LDA的歐盟信息迷霧政策報告主題挖掘與治理研究[J].圖書情報工作，2025，69（5）：94-106.

孫亞洲，李曉松.采用LDA模型的美國《芯片與科學(xué)法案》主題挖掘及分析[J].信息工程大學(xué)學(xué)報，2025，26（1）：120-126.

張欣.生成式人工智能的數(shù)據(jù)風(fēng)險與治理路徑[J].法律科學(xué)（西北政法大學(xué)學(xué)報），2023，41（5）：42-54.

肖建力，邱雪，張揚，等.交通大模型綜述[J].交通運輸工程學(xué)報，2025，25（1）：8-28.

黃锫.人工智能大模型訓(xùn)練數(shù)據(jù)的風(fēng)險類型與法律規(guī)制[J].政法論叢，2025（1）：23-37.

李安.人工智能訓(xùn)練數(shù)據(jù)的版權(quán)信息披露：理論基礎(chǔ)與制度安排[J].比較法研究，2024（5）：136-152.

鐵婧可.數(shù)字時代二次創(chuàng)作的合理使用：憲法視角下著作權(quán)法的規(guī)范性重構(gòu)[J/OL].海南大學(xué)學(xué)報（人文社會科學(xué)版），1-9[2025-03-04].https：//doi.org/10.15886/j.cnki.hnus.202412.0199.

孫晨偉，侯俊利，劉祥根，等.面向工程圖紙理解的大語言模型提示生成方法[J].計算機應(yīng)用，2025，45（3）：801-807.

孫蒙鴿，付蕓，劉細(xì)文.智能體賦能科研知識服務(wù)的路徑解析[J].智庫理論與實踐，2025，10（1）：3-18.

秦小林，古徐，李弟誠，等.大語言模型綜述與展望[J].計算機應(yīng)用，2025，45（3）：685-696.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大模型賦能標(biāo)準(zhǔn)數(shù)字化應(yīng)用的路徑思考與發(fā)展建議