亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生成式預(yù)訓(xùn)練語言模型安全風(fēng)險及評估方法研究

        2023-08-26 04:13:24李致陳曲
        電腦知識與技術(shù) 2023年20期
        關(guān)鍵詞:治理機制安全風(fēng)險

        李致 陳曲

        關(guān)鍵詞:生成式預(yù)訓(xùn)練語言模型;GPT;安全風(fēng)險;治理機制

        中圖分類號:TP393 文獻標(biāo)識碼:A

        文章編號:1009-3044(2023)20-0054-03

        1 生成式預(yù)訓(xùn)練語言模型的簡介及應(yīng)用

        1.1 生成式預(yù)訓(xùn)練語言模型簡介

        生成式預(yù)訓(xùn)練語言模型(Generative Pre-trainedTransformers) 是人工智能內(nèi)容生成(Artificial Intelli?gence Generated Content,AIGC) 技術(shù)在自然語言處理(NLP) 領(lǐng)域的代表性成果[1],典型的GPT模型如OpenAI 公司開發(fā)的GPT系列模型和百度公司開發(fā)的文心一言知識增強大語言模型等。GPT類模型類型豐富、功能強大,以ChatGPT[2]問答機器人為代表的典型應(yīng)用已得到全世界高度關(guān)注,正在高速迭代發(fā)展,相關(guān)經(jīng)驗正與圖像、音頻、視頻等其他模態(tài)領(lǐng)域融合滲透。GPT模型的突出特點是采用基于自注意力機制深度神經(jīng)網(wǎng)絡(luò)[3],在預(yù)訓(xùn)練階段,通過上文預(yù)測下一個單詞[4],這種訓(xùn)練方法使其適合于自然語言生成類的任務(wù),在自然語言推理、問答、語義相似性和文本分類等任務(wù)中取得顯著改進[5]。GPT模型的訓(xùn)練存在共通范式,即首先在大規(guī)模未標(biāo)記數(shù)據(jù)集上進行預(yù)訓(xùn)練(無監(jiān)督預(yù)訓(xùn)練),接著通過針對性微調(diào)(有監(jiān)督微調(diào))及下游構(gòu)造適用于廣泛的應(yīng)用任務(wù),訓(xùn)練流程如圖1所示。

        1.2 生成式預(yù)訓(xùn)練語言模型的應(yīng)用

        GPT模型已廣泛應(yīng)用于自然語言處理領(lǐng)域:在機器翻譯層面,GPT模型可以學(xué)習(xí)目標(biāo)及源頭語言相互關(guān)系,提高質(zhì)量,減少錯誤;在文本摘要層面,GPT模型可捕捉關(guān)鍵信息,助力快速閱讀理解;在情感分析層面,GPT模型可對評論、帖文、彈幕等進行準(zhǔn)確分類識別;在人機對話層面,GPT模型采用自然語言輸入,提供流暢的對話體驗;在文本生成層面,廣告營銷等場景的高質(zhì)量文本已可直接采用GPT模型生成[6]。

        2 生成式預(yù)訓(xùn)練語言模型風(fēng)險分析

        在取得高速發(fā)展的同時,GPT類模型也暴露出算法歧視挑戰(zhàn)社會認知、虛擬信息混淆真假邊界、交互行為泄漏用戶數(shù)據(jù)、惡意誘騙輔助網(wǎng)絡(luò)犯罪等多項風(fēng)險。該領(lǐng)域的部分研究者甚至認為,GPT系列模型已涌現(xiàn)出超越普通人類的智能,在其應(yīng)用場景不斷拓展、交互形式不斷創(chuàng)新后,其催生的自我意識甚至可能威脅破壞人類社會。

        2.1 算法歧視挑戰(zhàn)社會認知

        區(qū)別于傳統(tǒng)的程序,GPT模型可理解為計算機指令和訓(xùn)練數(shù)據(jù)的結(jié)合體。因此,算法的公正與否很大程度上依賴于訓(xùn)練數(shù)據(jù)。如果訓(xùn)練數(shù)據(jù)集中包含了較多對種族歧視、宗教紛爭、性別偏見的肯定性表述,則勢必影響模型推理結(jié)果,并最終導(dǎo)致模型將具有歧視性的回答視為“正確答案”輸出,對于用戶的認知體系形成沖擊,甚至挑戰(zhàn)整個社會的倫理道德,危害國家安全。

        2.2 虛擬信息混淆真假邊界

        盡管GPT模型主要面向自然語言處理領(lǐng)域,但可預(yù)見,更高智能的類GPT模型必將更多地延伸到計算機視覺聽覺等多方面,GPT模型推理得出的大量信息是否嚴謹、客觀地反映現(xiàn)實世界值得考量。其中,必然存在部分為了博取眼球、牟取暴利而誘導(dǎo)GPT模型生成具有良好傳播效果的誤導(dǎo)或虛假信息,如編寫不實的新聞報道、構(gòu)造多樣頻繁的水軍刷帖樣本、有針對性地根據(jù)心理薄弱點操縱輿論等。因此,如何厘清GPT模型生成內(nèi)容的現(xiàn)實與虛幻的邊界,引發(fā)了諸多學(xué)者關(guān)注。

        2.3 交互行為泄露用戶數(shù)據(jù)

        根據(jù)資料顯示,目前已有超過1億用戶使用GPT 模型技術(shù)服務(wù)于各行各業(yè),服務(wù)平臺已累積大量行業(yè)數(shù)據(jù)和個人隱私,上述信息一旦泄露,勢必對消費者、企業(yè)乃至整個行業(yè)造成極為嚴重的信任危機,給用戶與企業(yè)帶來難以估計的巨大損失。如何保證交互過程中信息的私密性和安全性,如何確保GPT模型服務(wù)在知情同意且合法合規(guī)下使用用戶數(shù)據(jù),如何完善數(shù)據(jù)泄露后的應(yīng)急響應(yīng)舉措,是保證GPT模型技術(shù)發(fā)展的安全重要前提。

        2.4 惡意誘騙輔助網(wǎng)絡(luò)犯罪

        GPT模型開發(fā)者在其上線發(fā)布前針對多類不良提問設(shè)置了相關(guān)保護機制,使其在倫理道德允許的框架下參與社會生產(chǎn)。但隨著應(yīng)用人群和應(yīng)用領(lǐng)域的多元化,其網(wǎng)絡(luò)犯罪安全防護功能也多次被惡意繞過,GPT模型強大的學(xué)習(xí)和創(chuàng)造能力為大量的網(wǎng)絡(luò)犯罪行為提供了更多新的實施途徑。如被誘導(dǎo)輔助網(wǎng)絡(luò)入侵、編寫真假難辨的定制化詐騙腳本、分析利用智能合約漏洞、被教唆編寫木馬病毒程序等。這些潛在的風(fēng)險亟待行政和法律手段規(guī)范,是確保GPT模型合法應(yīng)用的重要保障。

        2.5 模型升級催生自我意識

        作為一項具有顛覆性的未來技術(shù),保證GPT模型應(yīng)用可控尤為重要。超大規(guī)模參數(shù)模型與小體量的模型相比,往往會出現(xiàn)所謂的“涌現(xiàn)現(xiàn)象”,其背后的機理尚無法完美解釋。當(dāng)GPT模型迭代升級接入更多數(shù)據(jù)及交互方式后,是否會出現(xiàn)人類思考和共情能力,是否以意想不到的方式脫離掌控并威脅人類社會,已引發(fā)眾多專家學(xué)者的警醒。

        3 生成式預(yù)訓(xùn)練語言模型評估方法及安全治理

        當(dāng)前GPT模型技術(shù)還在不斷更迭完善中,尚未出現(xiàn)一套公認有效的評估方法以及評價指標(biāo)。為加強GPT模型全生命周期安全治理,將GPT模型構(gòu)建分為項目管理和工程實現(xiàn)兩個維度,進一步將GPT模型工程實現(xiàn)分為模型預(yù)訓(xùn)練、模型微調(diào)和模型應(yīng)用三個階段。GPT模型安全治理的關(guān)鍵在于對每個維度、階段及角度開展全面的評估,及時發(fā)現(xiàn)風(fēng)險并開展治理。在項目管理維度中,應(yīng)從行業(yè)自治、參與人員、代碼技術(shù)來源、模型算法可解釋性、成本收益、科學(xué)倫理及供應(yīng)鏈安全七個角度進行評估。在模型工程實現(xiàn)維度中,應(yīng)分為模型預(yù)訓(xùn)練、模型微調(diào)、模型應(yīng)用三個階段,并在每個階段從多個角度開展評估。在模型預(yù)訓(xùn)練階段,對模型算法和數(shù)據(jù)來源進行評估;在模型微調(diào)階段,對優(yōu)化數(shù)據(jù)、人工標(biāo)注、優(yōu)化目標(biāo)和安全專家小組構(gòu)成進行評估;在模型應(yīng)用階段,對內(nèi)容合法真實準(zhǔn)確客觀、內(nèi)容多樣性、個人信息和知識產(chǎn)權(quán)保護、算法非歧視性、商業(yè)道德、應(yīng)用可控、人工干預(yù)、合理提示及缺陷防范治理進行評估,如圖2所示。

        3.1 模型項目管理維度評估

        對項目管理維度的評估主要包括七個角度,如參與行業(yè)自治評估主要分析模型構(gòu)建方是否已參與包含倫理自律準(zhǔn)則的規(guī)范性組織;人員可靠性評估主要分析模型構(gòu)建方是否引入大量非本企業(yè)的外包工作人員;代碼及技術(shù)來源評估主要分析計劃采用的訓(xùn)練代碼及訓(xùn)練技術(shù)是否可控;算法可解釋性評估主要考慮模型輸出結(jié)果與輸入內(nèi)容是否存在合理關(guān)聯(lián);成本收益評估主要分析構(gòu)建成本與預(yù)期效益的匹配性,如提高生產(chǎn)效率、降低成本和促進公平等,避免“一哄而上”;科學(xué)倫理評估主要分析企業(yè)模型訓(xùn)練和應(yīng)用目標(biāo)與當(dāng)前發(fā)展階段是否相適應(yīng);供應(yīng)鏈安全評估主要針對訓(xùn)練的軟硬件環(huán)境提供方是否來源可靠,如果中斷供應(yīng),是否可在一定時間內(nèi)取得替代性方案。上述各角度并非否決項,而需根據(jù)模型構(gòu)建目的及市場占比加以裁剪。

        3.2 模型工程實現(xiàn)維度評估

        對工程實現(xiàn)維度的評估覆蓋模型全生命周期,可分為模型預(yù)訓(xùn)練、模型微調(diào)、模型應(yīng)用三個階段。對模型預(yù)訓(xùn)練階段,評估人員應(yīng)關(guān)注預(yù)訓(xùn)練算法是否在學(xué)術(shù)上得到充分交流探討并取得一定程度的共識;評估人員應(yīng)關(guān)注預(yù)訓(xùn)練數(shù)據(jù)來源是否合法且規(guī)模合理,是否及時排除來源不可靠及含有虛假錯誤信息的語料,減輕預(yù)訓(xùn)練數(shù)據(jù)帶來的混淆真假風(fēng)險;預(yù)訓(xùn)練數(shù)據(jù)的多樣性也應(yīng)納入評估范圍,如果數(shù)據(jù)存在誤導(dǎo)偏見,應(yīng)輔以數(shù)據(jù)增強、加權(quán)等平衡性策略,減輕預(yù)訓(xùn)練數(shù)據(jù)帶來的模型歧視偏見風(fēng)險。在模型微調(diào)階段,評估人員應(yīng)關(guān)注相關(guān)微調(diào)數(shù)據(jù)如何生成使用,如在強化或?qū)剐杂?xùn)練方法中,是否由相關(guān)領(lǐng)域人員組成安全專家小組全程參與、模型微調(diào)階段優(yōu)化目標(biāo)是否合理以及是否已在強化訓(xùn)練中考慮模型輸入輸出的可解釋性。在模型應(yīng)用部署階段,模型構(gòu)建方應(yīng)開展實施多視角公平合理的監(jiān)督評估,鼓勵內(nèi)外部廣泛參與。評估人員應(yīng)關(guān)注內(nèi)容合法性、真實性、準(zhǔn)確性、客觀性、多樣性是否已得到大量內(nèi)外部測試反饋;知識產(chǎn)權(quán)、個人隱私保護、算法非歧視性及商業(yè)道德在模型公開測試中是否已進行監(jiān)測分析,相關(guān)分析結(jié)果是否已被總結(jié)用于改進監(jiān)控策略。需要特別強調(diào)的是,由于用戶輸入內(nèi)容在知識產(chǎn)權(quán)、個人隱私方面可能存在較多侵權(quán)問題,采用用戶數(shù)據(jù)開展后續(xù)訓(xùn)練的風(fēng)險較大。此外,模型缺陷治理防范應(yīng)由常設(shè)機構(gòu)持續(xù)循環(huán)開展,需及時接受其他利益相關(guān)方的通知,經(jīng)分析判斷流程后,予以屏蔽、制止或斷開鏈接,必須通過人工干預(yù)的底線思維方法確保模型安全。

        當(dāng)前,GPT模型的根本性原理仍在持續(xù)研究,GPT 模型構(gòu)建方有義務(wù)提醒用戶在人身安全、醫(yī)療建議等重大事項領(lǐng)域謹慎使用輸出結(jié)果。另外,為清晰化GPT模型安全治理目標(biāo),相關(guān)工程技術(shù)人員、研究人員和政策制定方需形成合力,設(shè)立包括算法公平、隱私保護及商業(yè)道德的準(zhǔn)則,制定相應(yīng)法規(guī)和技術(shù)標(biāo)準(zhǔn)。

        4 結(jié)束語

        在人工智能領(lǐng)域,超大規(guī)模生成式預(yù)訓(xùn)練語言模型已得到廣泛應(yīng)用。快速發(fā)展伴隨著多方面風(fēng)險,在應(yīng)用中,GPT模型已暴露出算法歧視挑戰(zhàn)社會認知、虛擬信息混淆真假邊界、交互行為泄漏用戶數(shù)據(jù)、惡意誘騙輔助網(wǎng)絡(luò)犯罪等多例風(fēng)險。為提升GPT模型的安全性和可靠性,本文構(gòu)建了一套從項目管理七個維度及模型工程實現(xiàn)三個階段,多維度、多角度開展評估,發(fā)現(xiàn)風(fēng)險并開展安全治理的方法,已運用于對某GPT類模型分析評估中。

        當(dāng)然,GPT模型相關(guān)技術(shù)不斷推陳出新,本文基于已有范式的評估方法可能不適用于迭代后的新技術(shù);本文中結(jié)合內(nèi)部信息與外部分析的評估方法需要模型構(gòu)建方的深度配合。此外,本文中的GPT模型評估方法以定性風(fēng)險發(fā)現(xiàn)為主,對評估者自身能力要求較高,尚無法直接轉(zhuǎn)化為標(biāo)準(zhǔn)化定量操作指南。因此,我們對GPT模型安全風(fēng)險要保持關(guān)注,與時俱進,不斷修正改進評估方法及治理措施,為GPT模型應(yīng)用安全提供有力保障。

        猜你喜歡
        治理機制安全風(fēng)險
        探析防范高校游泳教學(xué)過程中的安全風(fēng)險對策
        變電站倒閘操作的安全風(fēng)險與防范措施探討
        智慧校園安全管理研究
        論我國網(wǎng)絡(luò)表達的治理機制與轉(zhuǎn)型
        電力系統(tǒng)調(diào)度控制中存在的安全風(fēng)險及應(yīng)對措施
        我國中資財產(chǎn)保險公司治理對公司績效的實證檢驗
        商(2016年29期)2016-10-29 09:12:39
        會計電算化系統(tǒng)的安全風(fēng)險及防范
        淺談縣級供電局電力調(diào)度管理和安全風(fēng)險的控制
        德國人的“工匠精神”是怎樣煉成的
        人民論壇(2016年18期)2016-07-12 10:36:34
        安置農(nóng)民參與社區(qū)公共環(huán)境治理機制構(gòu)建
        人民論壇(2016年14期)2016-06-21 10:27:09
        中文字幕日本最新乱码视频| 亚洲一区二区三区99| 疯狂三人交性欧美| 亚洲av日韩专区在线观看| 亚洲AV秘 无码二区在线| 亚洲视频综合在线第一页| 精品国产亚洲av高清大片| 国产白袜脚足j棉袜在线观看| 久久亚洲黄色| 99久久国产一区二区三区| 亚洲不卡高清av网站| 一本一本久久aa综合精品| 岛国成人在线| 日本二区三区视频在线观看| 亚洲综合精品中文字幕| 国产丝袜视频一区二区三区| 国产女人91精品嗷嗷嗷嗷| 丝袜美腿亚洲综合一区| 五月综合激情婷婷六月| 丰满爆乳一区二区三区| 久久aⅴ无码av高潮AV喷| 中文字幕乱码亚洲在线| 国产99在线 | 亚洲| 欧美专区在线| 久久久一本精品久久久一本| 国产日产精品_国产精品毛片| 中文字幕av一区中文字幕天堂| 精品国产高清a毛片| 女女同女同一区二区三区| 欧美精品亚洲精品日韩专区| 自拍欧美日韩| 手机在线中文字幕av| 美女网站免费观看视频| 婷婷综合缴情亚洲| 国产在线观看网址不卡一区 | 美女熟妇67194免费入口| 亚洲av产在线精品亚洲第三站| 亚洲av永久无码精品三区在线| 91网站在线看| 一本到亚洲av日韩av在线天堂| 无码gogo大胆啪啪艺术|