亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大模型賦能標(biāo)準(zhǔn)數(shù)字化應(yīng)用的路徑思考與發(fā)展建議

        2025-07-30 00:00:00方思怡
        標(biāo)準(zhǔn)科學(xué) 2025年6期
        關(guān)鍵詞:大模型人工智能

        摘要:【目的】大模型技術(shù)能有效推進(jìn)標(biāo)準(zhǔn)數(shù)字化的深入發(fā)展,對標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型有重要的意義?!痉椒ā客ㄟ^文獻(xiàn)分析、文本挖掘、定性分析等方法,探討大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用前景,總結(jié)大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀,并基于小樣本國家標(biāo)準(zhǔn)數(shù)據(jù)集初步探索大模型在特定標(biāo)準(zhǔn)數(shù)字化場景中的應(yīng)用效果?!窘Y(jié)果】提出大模型賦能不同層級標(biāo)準(zhǔn)數(shù)字化應(yīng)用的技術(shù)路線圖,并針對大模型的潛在問題給出了大模型在標(biāo)準(zhǔn)數(shù)字化應(yīng)用中的發(fā)展建議?!窘Y(jié)論】從大模型的角度出發(fā),為標(biāo)準(zhǔn)數(shù)字化的深入發(fā)展提供一定的技術(shù)性參考。

        關(guān)鍵詞:大模型;標(biāo)準(zhǔn)數(shù)字化;標(biāo)準(zhǔn)語料;標(biāo)準(zhǔn)智能體;人工智能

        DOI編碼:10.3969/j.issn.1674-5698.2025.06.004

        0引言

        隨著數(shù)字經(jīng)濟(jì)時代的到來,標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型已經(jīng)成為國內(nèi)外標(biāo)準(zhǔn)領(lǐng)域的重大戰(zhàn)略發(fā)展方向,目前普遍將實現(xiàn)機器可讀標(biāo)準(zhǔn)視為標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的核心[1]。近年來,我國圍繞標(biāo)準(zhǔn)數(shù)字化的頂層設(shè)計、基礎(chǔ)建設(shè)、應(yīng)用場景等方面陸續(xù)開展了一系列研究[2]。在眾多信息技術(shù)中,人工智能已成為標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的關(guān)鍵核心技術(shù)之一[3]。隨著標(biāo)準(zhǔn)數(shù)字化技術(shù)路線不斷完善,人工智能在標(biāo)準(zhǔn)數(shù)字化中的應(yīng)用深度和廣度也在不斷拓展。作為人工智能領(lǐng)域的新興技術(shù),快速發(fā)展的大語言模型(Largelanguagemodel,LLM)技術(shù)已一躍成為賦能行業(yè)發(fā)展的焦點。大語言模型,簡稱為“大模型”,是一種包含千億級參數(shù)且在大規(guī)模、多模態(tài)語料庫上預(yù)訓(xùn)練而得的大型深度學(xué)習(xí)模型[4]。它的出現(xiàn)標(biāo)志著自然語言處理和生成進(jìn)入了新階段[5]。與以往的深度學(xué)習(xí)模型相比,大模型具有較強的涌現(xiàn)(Emergent)能力,其優(yōu)勢主要來自思維鏈(Chain-of-Thought,CoT)、知識蒸餾[6]、基于人類反饋的強化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback,RLHF)等技術(shù)。自O(shè)penAI在2022年發(fā)布ChatGPT后,國內(nèi)外的大語言模型呈現(xiàn)迅猛發(fā)展之勢,開啟“百模大戰(zhàn)”。以DeepSeek為代表的國產(chǎn)開源大模型在2024年底迅速崛起,帶領(lǐng)國產(chǎn)大模型進(jìn)入新一輪的發(fā)展歷程。作為新質(zhì)生產(chǎn)力的重要組成部分[7],大模型在標(biāo)準(zhǔn)領(lǐng)域的應(yīng)用已是大勢所趨。如何在標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型浪潮中把握好大模型的“東風(fēng)”,加快標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的步伐,已成為當(dāng)前標(biāo)準(zhǔn)數(shù)字化工作的焦點之一[8]。

        本文主要探討大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用前景,總結(jié)大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀,并以小樣本國家標(biāo)準(zhǔn)數(shù)據(jù)集為例,初步分析大模型在部分標(biāo)準(zhǔn)數(shù)字化場景中的應(yīng)用效果,針對大模型的潛在問題,提出大模型在標(biāo)準(zhǔn)數(shù)字化應(yīng)用中的發(fā)展建議,以期能夠為標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型提供一定的技術(shù)參考。

        1大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用前景

        標(biāo)準(zhǔn)是一種經(jīng)由相關(guān)方協(xié)商一致、按照特定程序所制定的可共同和重復(fù)使用的技術(shù)性文件[9]。當(dāng)前與標(biāo)準(zhǔn)存在密切關(guān)聯(lián)的標(biāo)準(zhǔn)衍生數(shù)據(jù)主要有相關(guān)政策文件、專利文本、論文、法律法規(guī)、標(biāo)準(zhǔn)體系、產(chǎn)品信息等。由此可見,當(dāng)前的標(biāo)準(zhǔn)文本及其衍生數(shù)據(jù)以文本和圖片模態(tài)的數(shù)據(jù)為主。截至目前,國內(nèi)外已發(fā)布一系列基礎(chǔ)大模型和行業(yè)垂類大模型。大模型的能力圖譜已經(jīng)涵蓋了常規(guī)數(shù)據(jù)模態(tài)的處理能力,包括文本生成、語音識別、視頻生成、圖像理解等,已具備實現(xiàn)標(biāo)準(zhǔn)數(shù)字化應(yīng)用的能力基礎(chǔ)。

        從標(biāo)準(zhǔn)文本及衍生數(shù)據(jù)的機器可讀水平出發(fā),基于信息管理領(lǐng)域DIKW模型的4層結(jié)構(gòu)[10],將標(biāo)準(zhǔn)數(shù)字化工作由低到高依次劃分為標(biāo)準(zhǔn)數(shù)據(jù)獲取層、標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層、標(biāo)準(zhǔn)知識管理層和標(biāo)準(zhǔn)應(yīng)用場景層,其水平分別與DIKW模型的數(shù)據(jù)(Data)、信息(Infomation)、知識(Knowledge)、智慧(Wisdom)相對應(yīng)。根據(jù)目前國內(nèi)外常見大模型的能力特點,圍繞標(biāo)準(zhǔn)數(shù)字化的發(fā)展需求,提出大模型賦能不同層級標(biāo)準(zhǔn)數(shù)字化應(yīng)用的技術(shù)路線圖,見圖1。

        1.1標(biāo)準(zhǔn)數(shù)據(jù)獲取層

        標(biāo)準(zhǔn)數(shù)據(jù)獲取層處于DIKW模型的數(shù)據(jù)層級,旨在獲取標(biāo)準(zhǔn)文本數(shù)據(jù)、直接來自標(biāo)準(zhǔn)文本的標(biāo)準(zhǔn)衍生數(shù)據(jù)及標(biāo)準(zhǔn)文本以外的標(biāo)準(zhǔn)衍生數(shù)據(jù)。

        在標(biāo)準(zhǔn)數(shù)據(jù)獲取層,大模型能夠參與標(biāo)準(zhǔn)文本及標(biāo)準(zhǔn)衍生數(shù)據(jù)的獲取,通過多模態(tài)數(shù)據(jù)的處理能力解決當(dāng)前部分標(biāo)準(zhǔn)在高質(zhì)量語料數(shù)據(jù)獲取上存在的問題。與國外標(biāo)準(zhǔn)相比,目前我國的國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)大多以紙質(zhì)文本和掃描件PDF文本等非結(jié)構(gòu)化的形式流通,機器可讀等級較低。為了獲取上述格式的標(biāo)準(zhǔn)文本內(nèi)容,通常需要采用光學(xué)字符識別(OpticalCharacterRecognition,OCR)工具將非結(jié)構(gòu)化標(biāo)準(zhǔn)文本轉(zhuǎn)化為機器可讀取和可操作的電子數(shù)據(jù)形式[11]。標(biāo)準(zhǔn)中的技術(shù)信息通常以公式、指標(biāo)數(shù)值等細(xì)粒度的數(shù)據(jù)形式出現(xiàn),部分標(biāo)準(zhǔn)的插圖也蘊含關(guān)鍵的技術(shù)信息,但此類圖像數(shù)據(jù)長期以來大多未能得到知識化加工。傳統(tǒng)的OCR技術(shù)在自動識別上述類型的數(shù)據(jù)時準(zhǔn)確度不夠高,泛化能力不足,已無法充分滿足掃描件PDF文本的數(shù)據(jù)獲取需求。與以往的OCR工具相比,基于大規(guī)模預(yù)訓(xùn)練而來的大模型具有更強的泛化能力,在跨語種和多模態(tài)的復(fù)雜文檔識別上表現(xiàn)更優(yōu)異。將特定的大模型應(yīng)用于非結(jié)構(gòu)化標(biāo)準(zhǔn)文本,將有效解決現(xiàn)階段機器可讀能力低水平標(biāo)準(zhǔn)的痛點,從而提升標(biāo)準(zhǔn)語料數(shù)據(jù)的獲取質(zhì)量,為標(biāo)準(zhǔn)數(shù)字化工作奠定更為堅實的數(shù)據(jù)基礎(chǔ)。

        1.2標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層

        標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層處于DIKW模型的“信息”層級,其目的在于打造和儲存源自標(biāo)準(zhǔn)文本及標(biāo)準(zhǔn)衍生數(shù)據(jù)的語料庫。

        在標(biāo)準(zhǔn)數(shù)據(jù)建設(shè)層,以文本挖掘與生成能力見長的大模型能夠優(yōu)化和加快標(biāo)準(zhǔn)語料數(shù)據(jù)庫的構(gòu)建。近年來,大模型賦能的語料庫建設(shè)已在圖情領(lǐng)域取得一定的實踐成果[12]。就標(biāo)準(zhǔn)文本的功能屬性而言,標(biāo)準(zhǔn)是科技文獻(xiàn)的一大分支,與圖情領(lǐng)域密不可分。本文根據(jù)標(biāo)準(zhǔn)語料數(shù)據(jù)的類型,將常見的標(biāo)準(zhǔn)數(shù)據(jù)資源劃分為標(biāo)準(zhǔn)全文語料庫、標(biāo)準(zhǔn)核心要素語料庫、標(biāo)準(zhǔn)元數(shù)據(jù)語料庫和標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)語料庫。其中,標(biāo)準(zhǔn)核心要素語料庫包括直接和間接來自標(biāo)準(zhǔn)原文數(shù)據(jù)的核心要素;標(biāo)準(zhǔn)元數(shù)據(jù)語料庫涵蓋了標(biāo)準(zhǔn)編目、標(biāo)注、訓(xùn)練數(shù)據(jù)等方面的元數(shù)據(jù);標(biāo)準(zhǔn)業(yè)務(wù)語料庫與標(biāo)準(zhǔn)應(yīng)用相關(guān),以標(biāo)準(zhǔn)業(yè)務(wù)的用戶數(shù)據(jù)為主。

        對于標(biāo)準(zhǔn)核心要素語料庫的構(gòu)建而言,在大模型時代之前,直接來自標(biāo)準(zhǔn)原文數(shù)據(jù)的核心要素通常有3種收集渠道:(1)標(biāo)準(zhǔn)題錄數(shù)據(jù),以標(biāo)準(zhǔn)號、標(biāo)準(zhǔn)名稱、標(biāo)準(zhǔn)實施時間等不深入涉及標(biāo)準(zhǔn)技術(shù)信息的核心要素為主;(2)通過基于規(guī)則和深度學(xué)習(xí)相結(jié)合的命名實體識別(NamingEntityRecognition,NER)技術(shù)抽取標(biāo)準(zhǔn)文本中的術(shù)語、指標(biāo)、范圍、規(guī)范性引用文件等核心要素,其中標(biāo)準(zhǔn)指標(biāo)在標(biāo)準(zhǔn)文本中的分布位置和構(gòu)成形式較為復(fù)雜,是標(biāo)準(zhǔn)核心要素語料庫構(gòu)建的一大難點;(3)采用傳統(tǒng)機器學(xué)習(xí)方法獲取基于標(biāo)準(zhǔn)原文數(shù)據(jù)的核心要素,這一類要素以標(biāo)準(zhǔn)主題關(guān)鍵詞為典型代表,可采用文本挖掘中的潛在狄利克雷分配(LatentDirichletAllocation,LDA)模型獲得。相比以往的深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型,大模型在長文本的自然語言處理上優(yōu)勢顯著,主動學(xué)習(xí)能力更強,可通過微調(diào)迅速適應(yīng)全新的領(lǐng)域[13]。標(biāo)準(zhǔn)是一種橫跨不同專業(yè)領(lǐng)域的技術(shù)性文本,大模型的上述優(yōu)勢能節(jié)省標(biāo)準(zhǔn)命名實體識別在跨專業(yè)領(lǐng)域上的訓(xùn)練成本,其自然語言生成能力也能在標(biāo)準(zhǔn)主題關(guān)鍵詞等生成式的核心要素獲取上得到充分應(yīng)用。

        1.3標(biāo)準(zhǔn)知識管理層

        標(biāo)準(zhǔn)知識管理層處于DIKW模型的知識層級,旨在建立不同標(biāo)準(zhǔn)語料之間的關(guān)聯(lián)性,構(gòu)建標(biāo)準(zhǔn)知識圖譜,將不同類型的標(biāo)準(zhǔn)語料進(jìn)一步轉(zhuǎn)化為機器可理解的標(biāo)準(zhǔn)綜合知識庫,并開展標(biāo)準(zhǔn)知識管理與數(shù)據(jù)治理。其中,標(biāo)準(zhǔn)知識圖譜是對標(biāo)準(zhǔn)知識進(jìn)行重組并建立關(guān)聯(lián)性關(guān)系的新型結(jié)構(gòu)化知識庫[14],主要涵蓋來自標(biāo)準(zhǔn)文本和標(biāo)準(zhǔn)文本衍生數(shù)據(jù)的知識;而標(biāo)準(zhǔn)綜合知識庫則是在標(biāo)準(zhǔn)知識圖譜的基礎(chǔ)上與大模型技術(shù)深度結(jié)合后優(yōu)化而成的知識庫[15]。

        在標(biāo)準(zhǔn)知識管理層,大模型能參與標(biāo)準(zhǔn)知識圖譜的構(gòu)建與應(yīng)用,整合源自標(biāo)準(zhǔn)文本及衍生數(shù)據(jù)的標(biāo)準(zhǔn)知識,形成更為豐富、全面的標(biāo)準(zhǔn)知識網(wǎng)絡(luò),加強標(biāo)準(zhǔn)綜合知識庫的建設(shè),提升標(biāo)準(zhǔn)知識圖譜的應(yīng)用效能。具體而言,標(biāo)準(zhǔn)知識圖譜的構(gòu)建流程通常包括知識抽取、知識表征、知識融合和知識推理[16]。與基于規(guī)則的自然語言處理技術(shù)和以往的深度學(xué)習(xí)模型相比,大模型在語義理解、內(nèi)容生成上具有較強的通用能力。近來科技情報領(lǐng)域的知識融合研究顯示了大模型在知識融合上的優(yōu)勢[17]。在標(biāo)準(zhǔn)知識融合中采用大模型技術(shù)能提升標(biāo)準(zhǔn)知識融合的效率。大模型與知識圖譜的有機結(jié)合也逐漸成為構(gòu)建高質(zhì)量知識庫的全新方式。將大模型與標(biāo)準(zhǔn)知識圖譜深度結(jié)合,能有效降低大模型的“幻覺”現(xiàn)象,以共同協(xié)作的方式打造的標(biāo)準(zhǔn)綜合知識庫也可作為優(yōu)化大模型性能的重要輸入,從而進(jìn)一步提升大模型在標(biāo)準(zhǔn)數(shù)字化中的應(yīng)用效果。

        1.4標(biāo)準(zhǔn)應(yīng)用場景層

        標(biāo)準(zhǔn)應(yīng)用場景層處于DIKW模型的智慧層級。當(dāng)前大模型技術(shù)主要以人工智能體(AIAgent)為載體實現(xiàn)落地應(yīng)用。隨著人工智能體的框架愈發(fā)成熟,知識智能體化的趨勢愈發(fā)明顯?;诖竽P偷娜斯ぶ悄荏w已成為大模型近來的重要發(fā)展方向。它以大模型為核心控制器,通過整合規(guī)劃、記憶等不同模塊的組件[18],基于自主規(guī)劃的指令完成任務(wù)。人工智能體的一大優(yōu)勢在于能夠?qū)?fù)雜場景簡單化,將復(fù)雜的應(yīng)用場景分解為可復(fù)用、可推廣的簡單子任務(wù)。

        在標(biāo)準(zhǔn)應(yīng)用場景層,大模型將通過人工智能體的方式,面向標(biāo)準(zhǔn)業(yè)務(wù)打造具體的標(biāo)準(zhǔn)應(yīng)用場景,主要包括標(biāo)準(zhǔn)智能編寫、標(biāo)準(zhǔn)智能翻譯、基于標(biāo)準(zhǔn)全文或核心要素的標(biāo)準(zhǔn)智能比對、標(biāo)準(zhǔn)體系智能構(gòu)建、標(biāo)準(zhǔn)決策輔助、標(biāo)準(zhǔn)查新輔助、標(biāo)準(zhǔn)輿情智能追蹤與分析、標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)智能分析與診斷、標(biāo)準(zhǔn)用戶畫像自動構(gòu)建與分析等。

        2大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀與探索

        2.1大模型在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用現(xiàn)狀

        鑒于標(biāo)準(zhǔn)是具有版權(quán)保護(hù)的技術(shù)性文本[19],目前標(biāo)準(zhǔn)數(shù)據(jù)資源尚未被國內(nèi)外大多數(shù)大模型納入語料訓(xùn)練的范疇。當(dāng)前大模型技術(shù)在標(biāo)準(zhǔn)數(shù)字化領(lǐng)域的應(yīng)用尚處于起步階段,聚焦標(biāo)準(zhǔn)領(lǐng)域的行業(yè)垂類大模型數(shù)量較少,大多采用直接調(diào)用或微調(diào)大模型的應(yīng)用方式。

        在行業(yè)垂類大模型的構(gòu)建與應(yīng)用方面,作為國內(nèi)知名的知識服務(wù)提供機構(gòu),同方知網(wǎng)于2024年4月正式發(fā)布了中華知識大模型2.0版本(簡稱為華知大模型2.0),并與中國標(biāo)準(zhǔn)出版社聯(lián)合制定了面向標(biāo)準(zhǔn)領(lǐng)域的中華標(biāo)準(zhǔn)大模型。截至2025年2月,中華標(biāo)準(zhǔn)大模型的功能尚未全部上線。根據(jù)其官網(wǎng)信息可知,該模型以華知大模型為底座,其數(shù)據(jù)資源涵蓋大量國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)、團(tuán)體標(biāo)準(zhǔn)及部分規(guī)程規(guī)范,以標(biāo)準(zhǔn)知識問答為核心能力,打造標(biāo)準(zhǔn)文檔輔助閱讀、標(biāo)準(zhǔn)文件智能寫作、智能翻譯、標(biāo)準(zhǔn)比對等功能應(yīng)用。

        在直接調(diào)用或微調(diào)大模型開展相關(guān)應(yīng)用方面,鄭佳明等[14]提出了適用于船舶標(biāo)準(zhǔn)領(lǐng)域的大模型與知識圖譜的融合應(yīng)用方法。該方法能有效發(fā)揮大模型輔助知識圖譜構(gòu)建和知識圖譜輔助大模型研發(fā)的雙向增強作用,為其他領(lǐng)域的標(biāo)準(zhǔn)數(shù)字化建設(shè)提供了一定的技術(shù)參考。王立璽等[8]總結(jié)了中國電子技術(shù)標(biāo)準(zhǔn)化研究院在開展大模型應(yīng)用實踐方面的初步成果,包括知識標(biāo)注、檢索增強、智能問答、內(nèi)容生成、閱讀輔助理解、技術(shù)要素比對與分析等方面。從中可見,大模型在標(biāo)準(zhǔn)細(xì)粒度知識抽取與標(biāo)注、標(biāo)準(zhǔn)內(nèi)容語義理解與摘要生成等任務(wù)上取得明顯成效。

        2.2基于大模型的國家標(biāo)準(zhǔn)數(shù)字化應(yīng)用的初步探索

        標(biāo)準(zhǔn)的中文名稱是揭示標(biāo)準(zhǔn)主題的標(biāo)準(zhǔn)核心要素,通常涉及標(biāo)準(zhǔn)中的重要術(shù)語,與標(biāo)準(zhǔn)編寫的目的、范圍也存在一定的相關(guān)性。本文聚焦強制性國家標(biāo)準(zhǔn)的中文名稱,開展大模型在國家標(biāo)準(zhǔn)數(shù)字化應(yīng)用中的初步探索。

        為了能夠深入比較不同大模型和傳統(tǒng)機器學(xué)習(xí)模型的應(yīng)用效果,采用DeepSeek-R1模型、DeepSeek-V3模型、訊飛星火Spark-Max模型及傳統(tǒng)機器學(xué)習(xí)下的LDA模型。在上述4種模型中,DeepSeek-R1模型在后訓(xùn)練階段采用強化學(xué)習(xí)技術(shù),以推理能力見長;DeepSeek-V3模型在百科知識和長文本處理上表現(xiàn)較好;Spark-Max模型適用于對知識專業(yè)性要求較高的知識服務(wù)應(yīng)用場景;傳統(tǒng)的LDA模型則是自然語言處理中的經(jīng)典方法,其通過一系列概率分布判斷詞語與主題的相關(guān)性[20-21],常被用來揭示文本的核心內(nèi)容。

        以上海標(biāo)準(zhǔn)文獻(xiàn)館“標(biāo)準(zhǔn)文獻(xiàn)發(fā)行服務(wù)系統(tǒng)”中食品安全與化學(xué)領(lǐng)域的100篇現(xiàn)行強制性國家標(biāo)準(zhǔn)為樣本(截至2025年2月),采用大模型技術(shù)基于強制性國家標(biāo)準(zhǔn)的標(biāo)準(zhǔn)中文名稱獲取5個中文關(guān)鍵詞和5個英文關(guān)鍵詞??紤]到當(dāng)前的LDA模型不具備大模型通常具有的文本翻譯、內(nèi)容推理等能力,采用LDA模型基于強制性國家標(biāo)準(zhǔn)的標(biāo)準(zhǔn)中文名稱獲取中文關(guān)鍵詞。為了進(jìn)一步比較不同技術(shù)方法的語義加工效果,采用jieba分詞工具,對100篇現(xiàn)行強制性國家標(biāo)準(zhǔn)的標(biāo)準(zhǔn)中文名稱進(jìn)行詞語切分和數(shù)據(jù)處理后獲得對應(yīng)的詞語序列。上述4種模型和jieba分詞工具的結(jié)果各計100條。采用人工方式逐一判斷上述運行結(jié)果的合理性與準(zhǔn)確性。表1為4種模型和jieba分詞工具運行結(jié)果的部分實例,展示了不同模型和工具對于GB29940—2013的處理效果。

        通過表1可以發(fā)現(xiàn),對于GB29940—2013《食品安全國家標(biāo)準(zhǔn)食品添加劑檸檬酸亞錫二鈉》,3種大模型均能準(zhǔn)確提取標(biāo)準(zhǔn)中文名稱的有效語義單元,但語義理解和聯(lián)想廣度存在差異:DeepSeek-R1能識別出檸檬酸亞錫二鈉在食品安全中的基本功能及其化學(xué)屬性,得出檸檬酸亞錫二鈉是食品防腐劑、隸屬于亞錫化合物的結(jié)論并基于此輸出中、英文關(guān)鍵詞,所給結(jié)果與標(biāo)準(zhǔn)中文名稱存在較強的語義關(guān)聯(lián)性;相比之下,DeepSeek-V3的輸出結(jié)果雖然在語義理解上較為準(zhǔn)確,但語義聯(lián)想的廣度不及DeepSeek-R1;Spark Max能在準(zhǔn)確提取標(biāo)準(zhǔn)中文名稱有效語義單元的基礎(chǔ)上進(jìn)一步給出模型自身對關(guān)鍵詞的理解,但其輸出內(nèi)容與標(biāo)準(zhǔn)中文名稱的語義關(guān)聯(lián)緊密性不如DeepSeek-R1。與大模型相比,LDA模型與jieba分詞工具在語義單元識別的準(zhǔn)確性上存在一定偏差,也無法提供語義聯(lián)想和推理層面的有效結(jié)果。

        上述模型和工具的人工評估結(jié)果顯示,DeepSeek-R1僅在少數(shù)回答中表現(xiàn)出了幻覺現(xiàn)象和內(nèi)容錯誤,不僅能準(zhǔn)確識別標(biāo)準(zhǔn)中文名稱的有效語義單元,也能根據(jù)標(biāo)準(zhǔn)中文名稱的語義內(nèi)容進(jìn)行聯(lián)想,獲取與之相關(guān)的領(lǐng)域?qū)I(yè)知識和標(biāo)準(zhǔn)文本信息,在部分情況下也可根據(jù)自身回答提供關(guān)鍵詞結(jié)果的應(yīng)用參考建議。相比之下,DeepSeek-V3所輸出的關(guān)鍵詞大多直接與標(biāo)準(zhǔn)中文名稱相關(guān),Spark-Max能根據(jù)標(biāo)準(zhǔn)中文名稱進(jìn)行一定的語義聯(lián)想,但聯(lián)想的廣度和深度不及DeepSeek-R1。整體而言,大模型對于標(biāo)準(zhǔn)中文名稱的語義理解準(zhǔn)確性高于LDA模型和jieba分詞工具,體現(xiàn)出明顯的文本加工優(yōu)勢。

        3大模型賦能標(biāo)準(zhǔn)數(shù)字化的潛在風(fēng)險與發(fā)展建議

        3.1大模型賦能標(biāo)準(zhǔn)數(shù)字化的潛在風(fēng)險

        3.1.1數(shù)據(jù)治理風(fēng)險

        盡管大模型技術(shù)在語義理解、內(nèi)容生成等方面體現(xiàn)出卓越的處理能力,但數(shù)據(jù)治理風(fēng)險是大模型在標(biāo)準(zhǔn)數(shù)字化應(yīng)用過程中無法回避的潛在問題。數(shù)據(jù)治理風(fēng)險主要包括數(shù)據(jù)質(zhì)量風(fēng)險和數(shù)據(jù)安全風(fēng)險[22]。近來的研究顯示,現(xiàn)階段的大模型在應(yīng)用過程中普遍存在時效性、穩(wěn)定性、可解釋性、可靠性等方面的不足[23],其隱患主要來自數(shù)據(jù)合規(guī)、算法合規(guī)、隱私保護(hù)、幻覺問題等方面[4],存在侵權(quán)、數(shù)據(jù)泄露、數(shù)據(jù)偏差等現(xiàn)象[24]。在初步探索中也發(fā)現(xiàn)了DeepSeek-R1的回答存在低比例的幻覺問題,在后續(xù)工作中將繼續(xù)加以重視,提高數(shù)據(jù)結(jié)果的可信度。

        3.1.2版權(quán)風(fēng)險

        隨著人工智能時代的到來,數(shù)據(jù)兼具數(shù)據(jù)資源與訓(xùn)練數(shù)據(jù)的雙重價值,訓(xùn)練數(shù)據(jù)的版權(quán)信息披露已成為人工智能法治問題的熱點[25]。標(biāo)準(zhǔn)是受著作權(quán)保護(hù)的技術(shù)性文本,大模型賦能標(biāo)準(zhǔn)數(shù)字化將引發(fā)一定的版權(quán)風(fēng)險。標(biāo)準(zhǔn)數(shù)字化工作者應(yīng)當(dāng)重點關(guān)注數(shù)字時代二次創(chuàng)作的合理使用方式[26],確保標(biāo)準(zhǔn)數(shù)據(jù)的使用合法合規(guī)。

        3.2大模型賦能標(biāo)準(zhǔn)數(shù)字化的發(fā)展建議

        本研究基于大模型技術(shù)的整體應(yīng)用現(xiàn)狀,從標(biāo)準(zhǔn)數(shù)字化的發(fā)展需求入手,提出以下發(fā)展建議。

        3.2.1夯實標(biāo)準(zhǔn)語料基礎(chǔ)

        語料數(shù)據(jù)、算法和算力是人工智能的“三駕馬車”。隨著大模型發(fā)展逐漸步入模型的后訓(xùn)練時代,語料數(shù)據(jù)被視為決定模型性能上限的關(guān)鍵因素。高質(zhì)量的語料庫建設(shè)與應(yīng)用已成為我國近年來人工智能領(lǐng)域的重要方向。對于標(biāo)準(zhǔn)數(shù)字化而言,不論是構(gòu)建標(biāo)準(zhǔn)垂類大模型,還是調(diào)用基礎(chǔ)大模型加以微調(diào),都需要高質(zhì)量標(biāo)準(zhǔn)語料庫的支撐?,F(xiàn)階段的標(biāo)準(zhǔn)數(shù)字化工作在數(shù)據(jù)基礎(chǔ)方面還存在較大的提升空間,后續(xù)工作應(yīng)當(dāng)重點聚焦標(biāo)準(zhǔn)語料庫的建設(shè),根據(jù)標(biāo)準(zhǔn)數(shù)字化任務(wù)的具體要求打造大模型所需的標(biāo)準(zhǔn)知識庫,從而有助于大模型給出針對性的回答,降低其出現(xiàn)幻覺問題的可能性。

        3.2.2加強標(biāo)準(zhǔn)提示詞工程建設(shè)

        與以往的深度學(xué)習(xí)模型和傳統(tǒng)機器學(xué)習(xí)模型不同,大模型需要提供提示詞(Prompt)作為任務(wù)的輸入文本或指令[27]。提示詞通常是問句、上下文信息、指令說明等形式。提示詞工程(PromptEngineering)的質(zhì)量與大模型的回答準(zhǔn)確性密切相關(guān)。為了提高大模型賦能標(biāo)準(zhǔn)數(shù)字化的應(yīng)用效果,應(yīng)當(dāng)制定契合特定標(biāo)準(zhǔn)數(shù)字化應(yīng)用場景和大模型自身特性的提示詞數(shù)據(jù)集,在標(biāo)準(zhǔn)領(lǐng)域形成可復(fù)制、可推廣的提示詞生成方法。

        3.2.3在實踐中擇優(yōu)選取基準(zhǔn)型

        當(dāng)前國內(nèi)外大模型類型眾多。盡管大模型在語義理解、文本生成等方面表現(xiàn)優(yōu)異,但其與已有的深度學(xué)習(xí)和機器學(xué)習(xí)模型并非完全的對立關(guān)系。標(biāo)準(zhǔn)數(shù)字化工作者應(yīng)當(dāng)意識到模型“各司其職”在標(biāo)準(zhǔn)數(shù)字化工作中的重要性,從具體應(yīng)用場景的實際需求出發(fā),通過比較不同模型在特定任務(wù)中的表現(xiàn)結(jié)果,擇優(yōu)選取該應(yīng)用場景的基準(zhǔn)型。

        3.2.4構(gòu)建基于大模型的標(biāo)準(zhǔn)智能體

        近年來,基于大模型的智能體已被證實能提升知識服務(wù)模式的智能化程度[28],能處理復(fù)雜的任務(wù),在多個領(lǐng)域得到廣泛應(yīng)用。標(biāo)準(zhǔn)智能體也將成為大模型賦能標(biāo)準(zhǔn)數(shù)字化應(yīng)用的重要載體。與其他模式相比,基于大模型的標(biāo)準(zhǔn)智能體以大模型為“大腦”。大模型通過掌握完成標(biāo)準(zhǔn)數(shù)字化應(yīng)用任務(wù)所需的工具操作方式和領(lǐng)域?qū)I(yè)知識,能夠快速適應(yīng)標(biāo)準(zhǔn)數(shù)字化應(yīng)用場景的實際需求,靈活應(yīng)對標(biāo)準(zhǔn)數(shù)字化應(yīng)用需求的變化。

        3.2.5制定大模型回答審查方法

        鑒于目前大模型的回答尚存在“幻覺問題”,而標(biāo)準(zhǔn)數(shù)字化工作普遍對結(jié)果精確性有較高的要求,標(biāo)準(zhǔn)數(shù)字化工作者應(yīng)當(dāng)針對大模型的大規(guī)模批量調(diào)用結(jié)果制定科學(xué)有效的審查方法,形成大模型回答的質(zhì)量評估方法,以此確保大模型結(jié)果的精確性和可信度。

        4結(jié)語

        在人工智能時代,大模型賦能標(biāo)準(zhǔn)數(shù)字化應(yīng)用已成為大勢所趨。依靠出色的語義理解與文本生成能力[29],大模型有望加快機器可讀標(biāo)準(zhǔn)的構(gòu)建,通過在標(biāo)準(zhǔn)智能比對、標(biāo)準(zhǔn)智能編寫等多個標(biāo)準(zhǔn)數(shù)字化應(yīng)用場景中發(fā)揮重要的作用,提升標(biāo)準(zhǔn)知識服務(wù)的供給能力,進(jìn)而推動標(biāo)準(zhǔn)向數(shù)字化、網(wǎng)絡(luò)化和智能化發(fā)展。

        參考文獻(xiàn)

        標(biāo)準(zhǔn)數(shù)字化理論研究與發(fā)展趨勢洞察[J].中國標(biāo)準(zhǔn)化,2025(3):14-15.

        袁文靜,方洛凡.標(biāo)準(zhǔn)對話:標(biāo)準(zhǔn)數(shù)字化的階段性目標(biāo)與實踐[J].中國標(biāo)準(zhǔn)化,2024(3):6-29.

        程云,陳國祥,陳寒竹,等.基于人工智能的標(biāo)準(zhǔn)數(shù)字化關(guān)鍵技術(shù)路徑探索[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(10):60-67.

        劉澤垣,王鵬江,宋曉斌,等.大語言模型的幻覺問題研究綜述[J].軟件學(xué)報,2025,36(3):1152-1185.

        張澤華,柴豪.國內(nèi)外大模型在情感分析中對比與應(yīng)用策略[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),1-11[2025-03-04].http://kns.cnki.net/kcms/detail/50.1155.N.20241015.1411.004.html.

        鄧建鵬,趙治松.DeepSeek的破局與變局:論生成式人工智能的監(jiān)管方向[J].新疆師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2025,46(4):99-108.

        鐘新龍,渠延增,王聰聰,等.國內(nèi)外人工智能大模型發(fā)展研究[J].軟件和集成電路,2024(1):80-92.

        王立璽,呂千千,孔慶煒,等.大語言模型加快標(biāo)準(zhǔn)數(shù)字化發(fā)展進(jìn)程實踐與思考[J].信息技術(shù)與標(biāo)準(zhǔn)化,2024(8):32-37.

        標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則:GB/T1.1—2020[S].

        曹亞威,陳月艷,曹倩倩.基于DIKW模型的零售業(yè)數(shù)字化轉(zhuǎn)型路徑研究[J].生產(chǎn)力研究,2023(7):101-105.

        劉曙.多模態(tài)文檔知識庫問答研究及應(yīng)用[D].上海:華東師范大學(xué),2023.

        翟蓉.大模型賦能的智能問答FAQ語料庫建設(shè)實踐與思考:以國家圖書館為例[J].四川圖書館學(xué)報,2025(2):80-87.

        梁佳,張麗萍,閆盛,等.基于大語言模型的命名實體識別研究進(jìn)展[J].計算機科學(xué)與探索,2024,18(10):2594-2615.

        鄭佳明,陳家賓,胡杰鑫,等.基于大模型和知識圖譜的標(biāo)準(zhǔn)領(lǐng)域融合應(yīng)用方法研究[J].中國標(biāo)準(zhǔn)化,2023(23):39-46.

        金寶生,郭越,侯守立.金融業(yè)融合大模型多模態(tài)知識圖譜的構(gòu)建研究[J].中國科技論文在線精品論文,2024,17(4):420-424.

        方思怡.標(biāo)準(zhǔn)知識圖譜的技術(shù)路徑與應(yīng)用場景探討[J].中國標(biāo)準(zhǔn)化,2023(11):49-55.

        楊倩,林鶴.科技情報基礎(chǔ)服務(wù)知識融合流程自動化框架研究[J].信息與管理研究,2024,9(4):65-72.

        劉煒,劉倩倩.生成式人工智能十大趨勢與公共文化機構(gòu)的應(yīng)對策略[J].圖書館建設(shè),2025(1):4-14.

        黃波.人工智能解決標(biāo)準(zhǔn)版權(quán)問題芻議[J].中國標(biāo)準(zhǔn)化,2024(20):16-17.

        王軼群,陳成鑫.基于LDA的歐盟信息迷霧政策報告主題挖掘與治理研究[J].圖書情報工作,2025,69(5):94-106.

        孫亞洲,李曉松.采用LDA模型的美國《芯片與科學(xué)法案》主題挖掘及分析[J].信息工程大學(xué)學(xué)報,2025,26(1):120-126.

        張欣.生成式人工智能的數(shù)據(jù)風(fēng)險與治理路徑[J].法律科學(xué)(西北政法大學(xué)學(xué)報),2023,41(5):42-54.

        肖建力,邱雪,張揚,等.交通大模型綜述[J].交通運輸工程學(xué)報,2025,25(1):8-28.

        黃锫.人工智能大模型訓(xùn)練數(shù)據(jù)的風(fēng)險類型與法律規(guī)制[J].政法論叢,2025(1):23-37.

        李安.人工智能訓(xùn)練數(shù)據(jù)的版權(quán)信息披露:理論基礎(chǔ)與制度安排[J].比較法研究,2024(5):136-152.

        鐵婧可.數(shù)字時代二次創(chuàng)作的合理使用:憲法視角下著作權(quán)法的規(guī)范性重構(gòu)[J/OL].海南大學(xué)學(xué)報(人文社會科學(xué)版),1-9[2025-03-04].https://doi.org/10.15886/j.cnki.hnus.202412.0199.

        孫晨偉,侯俊利,劉祥根,等.面向工程圖紙理解的大語言模型提示生成方法[J].計算機應(yīng)用,2025,45(3):801-807.

        孫蒙鴿,付蕓,劉細(xì)文.智能體賦能科研知識服務(wù)的路徑解析[J].智庫理論與實踐,2025,10(1):3-18.

        秦小林,古徐,李弟誠,等.大語言模型綜述與展望[J].計算機應(yīng)用,2025,45(3):685-696.

        猜你喜歡
        大模型人工智能
        基于騰訊混元大模型的老年教育智能體構(gòu)建與應(yīng)用研究
        科技資訊(2025年13期)2025-08-18 00:00:00
        以患者為中心的“互聯(lián)網(wǎng)+”診后管理平臺的構(gòu)建
        基于大模型與檢索增強生成(RAG)的高校財務(wù)管理應(yīng)用研究
        大模型技術(shù)驅(qū)動下的無錫智慧城市發(fā)展路徑探索
        時代汽車(2025年15期)2025-08-12 00:00:00
        大模型的“智能插座”
        我校新增“人工智能”本科專業(yè)
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        下一幕,人工智能!
        亚洲丰满熟女一区二亚洲亚洲| 久久久精品久久波多野结衣av| 国产九色AV刺激露脸对白| av有码在线一区二区| 日韩在线精品视频一区| 高清偷自拍亚洲精品三区 | 北条麻妃毛片在线视频| 国产精品国产三级国产an| 小池里奈第一部av在线观看| 亚洲乳大丰满中文字幕| 乱子伦视频在线看| 精品国产91久久久久久久a| 免费观看日本一区二区三区| 国产精品亚洲色婷婷99久久精品| 日本又黄又爽gif动态图| 国产午夜视频免费观看| 国产丝袜美腿一区二区三区| 无码aⅴ精品一区二区三区| 四虎影库久免费视频| 一本一道AⅤ无码中文字幕| 亚洲国产最新免费av| 成 人 免 费 黄 色| 7878成人国产在线观看| 放荡人妻一区二区三区| 一区二区三区国产内射| 午夜毛片不卡免费观看视频| 久久综合成人网| 国产精品午夜福利天堂| 久久久久成人精品免费播放动漫| 丰满人妻被黑人中出849| 日韩av中出在线免费播放网站| 黄色精品一区二区三区| 99国产精品自在自在久久| 亚洲夜夜骑| 国产在线视频一区二区三区 | 久久少妇高潮免费观看| 在线亚洲高清揄拍自拍一品区 | 先锋影音av资源我色资源| 国产福利一区二区三区视频在线看| 日本a级特级黄色免费| 香蕉人人超人人超碰超国产|