中圖分類號:B82-057 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-6916(2025)13-0009-04
Ethical Risks in the Training of Open-Source Artificial Intelligence(AI) Models
Yan MingLong Lida (JilinNormalUniversity,Siping136000)
Abstract:From a techno-ethical perspective,large AI models exhibit two distinct development models,open Π-Π source and closedsource,eachemonstratinguqueadantagesandnherentiitatios.Troughsystematicnalysisofeticalisksintetraiingofe sourceAImodels,tisstudyidentifiessignificantchallngesinareassuchasdataprivacymodelatacks,technologicalmonopliesand algorithmicdiscriminationAlthoughoensourcemodelspromotetechnologicalinovation,issuessuchasunauthorizeddatausealiciouscodeinjectioandalgoriticdisriiationayexacerbateocialijusticeThisdypropossacollborativegoveaefa work,emphasiingteanementofrasparencyataqualityssuraneandericipleofticalpririadvocatingforulti stakeholder co-governance to balance technological openness and risk prevention.
Keywords:AI;open-source models;ethical risks;data privacy;algorithmic discrimination
隨著人工智能技術(shù)的飛速發(fā)展,人工智能開源大模型的訓(xùn)練逐漸成為行業(yè)內(nèi)部技術(shù)升級的主流趨勢,開源模式的開放性和透明性使得人工智能技術(shù)獲得了更廣泛的應(yīng)用和技術(shù)創(chuàng)新,但開源模型訓(xùn)練在推動技術(shù)進(jìn)步的同時引發(fā)了大量的倫理風(fēng)險和挑戰(zhàn)。開源模型訓(xùn)練在應(yīng)用過程中出現(xiàn)了一系列倫理問題,這些問題不僅關(guān)系到人工智能技術(shù)的未來發(fā)展,還影響社會的公平與和諧。深人探討人工智能開源模型在訓(xùn)練過程中的倫理風(fēng)險顯得十分重要,本文旨在對這些倫理風(fēng)險進(jìn)行深入分析,探索其背后的成因并提出相應(yīng)的應(yīng)對策略,以期助力人工智能技術(shù)的健康發(fā)展。
一、開源與閉源的博弈 技術(shù)倫理的選擇
人工智能大模型的開源與閉源代表著兩種不同的發(fā)展模式,并各自具有不同的動力和優(yōu)勢[1]。開源開發(fā)注重核心技術(shù)的開放共享與協(xié)同創(chuàng)新,在這一模式下源代碼(SourceCode)對公眾完全開放,任何人都可以對源代碼進(jìn)行使用、加工和修改[1]。開源模式通常是由研發(fā)機構(gòu)、開源社區(qū)(OpenSourceCommunity)和部分企業(yè)發(fā)起的,秉持著鼓勵多元人才踴躍參與的理念,核心目標(biāo)是借助開放與共享的力量實現(xiàn)技術(shù)的更新迭代。開源模式誕生的初衷是降低技術(shù)的入門門檻,讓更多開發(fā)者投入技術(shù)的普及推廣和開發(fā)創(chuàng)新之中,推動技術(shù)朝著民主化的方向發(fā)展。我們熟知的人工智能大模型開源,像是Meta的Llama模型和OpenAI的GPT模型的開源,成功地吸引了全球范圍內(nèi)開發(fā)者的熱情參與。通過整合多元的集體智慧,逐步構(gòu)建起協(xié)作式的創(chuàng)新生態(tài)(InnovationEcology)體系,顯著提升了模型的性能和適用能力。在技術(shù)倫理層面,開源模式契合開放共享與創(chuàng)新協(xié)同的價值理念,有助于構(gòu)建公平、包容的技術(shù)發(fā)展格局,避免技術(shù)壟斷與信息繭房(InformationCocoon)的形成,保障不同主體在技術(shù)創(chuàng)新進(jìn)程中平等的參與權(quán)與受益權(quán)。
與開源開發(fā)相對的,閉源開發(fā)強調(diào)對知識產(chǎn)權(quán)和商業(yè)利益的保護(hù),更多的是由壟斷企業(yè)等市場龍頭主導(dǎo)。閉源模式的目標(biāo)是通過控制源代碼保證企業(yè)的市場優(yōu)勢和利潤回報,確保技術(shù)的壟斷性。為了減少技術(shù)被濫用或盜用的風(fēng)險,閉源開發(fā)更加注重技術(shù)的商業(yè)化和安全性。閉源系統(tǒng)的封閉性使得外部開發(fā)者無法隨意窺探核心源代碼,這為系統(tǒng)的安全性提供了更高的保障。Google公司的Android系統(tǒng)雖然部分開源,但核心代碼部分依然是閉源的,在這種策略幫助下谷歌在保證技術(shù)創(chuàng)新的同時,還能保持對核心技術(shù)的控制和保護(hù)。這些閉源技術(shù)的成功應(yīng)用,顯示出閉源模式所具有的獨特優(yōu)勢,保護(hù)商業(yè)利益,提高安全性,保持市場盈利。
從技術(shù)倫理的視角看,開源與閉源兩種發(fā)展路徑各自呈現(xiàn)出獨特的優(yōu)勢與局限性。開源模式的核心在于開放共享和協(xié)同創(chuàng)新,有助于縮小數(shù)字鴻溝(Dig-italDivide)和破除信息壁壘(InformationBarriers),為知識的傳播與技術(shù)的普及創(chuàng)造有利條件。閉源模式著重于技術(shù)安全性與穩(wěn)定性的強化,在技術(shù)產(chǎn)權(quán)的保護(hù)方面表現(xiàn)突出,對于企業(yè)商業(yè)利益的維持和市場地位的鞏固極為關(guān)鍵。這兩種模式在所屬的特定領(lǐng)域中,都展現(xiàn)出了與自身發(fā)展模式相得益彰的特質(zhì),共同構(gòu)成了技術(shù)發(fā)展路徑的多元化。這種開源與閉源模式之間的互相博弈,恰恰反映出在技術(shù)發(fā)展進(jìn)程中倫理層面的艱難抉擇,即如何在追求技術(shù)開放性與創(chuàng)新性的同時,兼顧技術(shù)的安全性與企業(yè)利益。
二、開源模型訓(xùn)練的倫理風(fēng)險
(一)數(shù)據(jù)隱私與修改授權(quán)一開源模型訓(xùn)練的隱性風(fēng)險
人工智能的基礎(chǔ)是大數(shù)據(jù)和算法,在人工智能產(chǎn)品設(shè)計和開發(fā)過程中,一是數(shù)據(jù)的采集、預(yù)處理、使用和退役過程中設(shè)計不周密有可能導(dǎo)致隱私泄露和不平等;二是系統(tǒng)開發(fā)過程如果存在數(shù)據(jù)集代表性差、規(guī)模不清晰、均衡性不足等問題就會導(dǎo)致不公平,產(chǎn)生算法偏見和歧視;三是如果存在系統(tǒng)漏洞,則可能存在更多的隱私泄露并加劇上述不平等和不公平[2]
在開源模型訓(xùn)練過程中,數(shù)據(jù)來源的合法性、數(shù)據(jù)隱私的保護(hù)以及數(shù)據(jù)訪問權(quán)限的管理都是所面臨的隱性倫理風(fēng)險。在此過程中,需要使用大量的數(shù)據(jù)集(Datasets)來對模型進(jìn)行算力訓(xùn)練(ComputingPowerTraining),以讓模型能夠更加契合使用者的需求,不同開源項目需要使用的數(shù)據(jù)集是完全不同的,那么大量數(shù)據(jù)集的來源是否合法合規(guī)?有沒有經(jīng)過正規(guī)的途徑檢測?以往的數(shù)據(jù)采集皆由人工進(jìn)行,被采集人一般都會被告知,而如今的大數(shù)據(jù)時代,數(shù)據(jù)采集由智能設(shè)備實施,被采集對象往往并不知情[3]。從數(shù)據(jù)主體角度講,人工智能挑戰(zhàn)隱私權(quán)表現(xiàn)在個人信息被收集、存儲、處理、使用等各個環(huán)節(jié),包括竊取、篡改、泄露個人數(shù)據(jù)和未經(jīng)知情同意而非法搜集和利用個人數(shù)據(jù),侵犯個人的數(shù)據(jù)權(quán)。個人數(shù)據(jù)權(quán)被侵犯不僅意味著隱私權(quán)被侵犯,而且其他與個人數(shù)據(jù)相關(guān)的權(quán)利也面臨極大風(fēng)險。開源系統(tǒng)中數(shù)據(jù)的開放性使得更多人能夠獲取并利用這些數(shù)據(jù),使得數(shù)據(jù)隱私面臨極大的泄漏風(fēng)險,這在提升技術(shù)創(chuàng)新效率的同時增加了數(shù)據(jù)被不當(dāng)利用的可能性[2]
數(shù)據(jù)的修改與訪問權(quán)限管理是開源模型訓(xùn)練過程中另一個重要的隱性倫理風(fēng)險。當(dāng)數(shù)據(jù)在未經(jīng)過嚴(yán)格授權(quán)流程就被擅自修改時,其引發(fā)的后果是多方面且嚴(yán)重的。一方面,訓(xùn)練數(shù)據(jù)的質(zhì)量必然會大打折扣,難以滿足模型精準(zhǔn)訓(xùn)練的要求;另一方面,這種數(shù)據(jù)層面的不良操作極有可能在數(shù)據(jù)內(nèi)部產(chǎn)生缺陷,會持續(xù)削弱模型的可靠性,并且逐步侵蝕社會大眾對相關(guān)技術(shù)的信任根基。更為嚴(yán)重的是,這種數(shù)據(jù)管理上的漏洞還為惡意代碼的悄然注人提供了極為便利的途徑。加之開源項目通常會吸引眾多參與者,在代碼審核環(huán)節(jié)往往難以做到盡善盡美,極易出現(xiàn)疏忽與遺漏之處,而這些薄弱之處恰恰為各類漏洞的產(chǎn)生與廣泛傳播埋下了極具危險性的隱患,隨時可能引發(fā)難以預(yù)估的嚴(yán)重后果。
(二)模型攻擊與惡意應(yīng)用一開源模型訓(xùn)練的顯性挑戰(zhàn)
在人工智能開源模型訓(xùn)練過程中,對模型的攻擊與惡意應(yīng)用的產(chǎn)生成為顯性挑戰(zhàn)之一。人工智能模型的基礎(chǔ)是算法指令和代碼運行,算法存在的模型漏洞或邏輯缺陷會使其容易招致其他算法使用主體的攻擊,從而放大算法模型的缺陷,甚至操控算法的運行,導(dǎo)致算法安全問題[4]。通過對開源模型的攻擊,攻擊者可以獲取敏感信息、操縱模型的權(quán)限,甚至將模型用于惡意用途。
在開源模型訓(xùn)練中,開發(fā)者的惡意應(yīng)用是隨之而來的棘手問題。開源模型公開透明,任何個體都能夠?qū)υ创a進(jìn)行觀摩并加以修改利用,其中也涵蓋了那些圖謀不軌的人。在對模型進(jìn)行惡意數(shù)據(jù)訓(xùn)練后,該模型可能被用于生成欺詐、誤導(dǎo)和傳播虛假內(nèi)容的信息,這會對社會造成負(fù)面影響。這些惡意應(yīng)用的出現(xiàn),不僅會降低公眾對相關(guān)技術(shù)的信任,還有可能在社會范圍內(nèi)引發(fā)恐慌情緒,致使社會秩序陷人混亂狀態(tài)。開源模型具備便捷操作的優(yōu)勢,在助力創(chuàng)新進(jìn)步的同時,也為居心不良者打開了達(dá)成其不良目的的大門。
盜竊復(fù)制和模型篡改是開源模型訓(xùn)練中的另一大顯性挑戰(zhàn)。開源模型的獨特之處就在于其代碼和架構(gòu)都是對外界公開的。正是源于這種公開的特質(zhì),任何個體都能夠毫無阻礙地去復(fù)制模型,依據(jù)自身意圖對模型進(jìn)行修改調(diào)整,盜竊復(fù)制的現(xiàn)象便應(yīng)運而生。那些原本被規(guī)劃用于合法且有益處用途的模型,經(jīng)過盜竊復(fù)制與惡意篡改后,極有可能就轉(zhuǎn)變成了實施非法行徑的有效手段。盜竊復(fù)制現(xiàn)象的肆意蔓延還會引發(fā)“技術(shù)擴散”[1](TechnologyDiffusion)的無序狀態(tài)。通常開發(fā)者很難對模型的傳播路徑及其被使用的目的進(jìn)行有效的把控,這就導(dǎo)致對模型的監(jiān)管工作陷入極為不利的被動局面,想要保證模型能夠正常運行并且被合法使用變得異常困難。
(三)公平正義與技術(shù)壟斷一開源模型訓(xùn)練的公平倫理
大數(shù)據(jù)是人工智能的原料,算法的開發(fā)和優(yōu)化往往需要經(jīng)過海量數(shù)據(jù)的訓(xùn)練[5]。在開源模式下,人工智能開源模型的訓(xùn)練過程中直接存在顯著的算法偏差,這些偏差往往源于訓(xùn)練數(shù)據(jù)的選擇和數(shù)據(jù)集的偏向性,數(shù)據(jù)集可能并沒有被充分利用,或者這些數(shù)據(jù)帶有社會歧視,導(dǎo)致算法的結(jié)果存在偏向性。
開源模式著重于知識的自由交流共享以及技術(shù)在更大范圍內(nèi)的普及推廣,其核心目標(biāo)在于構(gòu)建一個開放包容、充滿活力的創(chuàng)新生態(tài)環(huán)境。但是在實際的操作運作過程中,開源社區(qū)的主導(dǎo)權(quán)常常被少數(shù)處于技術(shù)領(lǐng)先地位的大型科技公司所把控。這些實力雄厚的公司憑借自身強大的技術(shù)資源、資金實力以及廣泛的影響力,積極投身并主導(dǎo)各類開源項目(OpenSourceProject)。在這個過程中,它們逐步掌控了關(guān)鍵的技術(shù)標(biāo)準(zhǔn)設(shè)定權(quán)以及整體的技術(shù)發(fā)展走向,由此在開源領(lǐng)域形成了一種雖然并非傳統(tǒng)意義上但卻具有實質(zhì)影響的技術(shù)壟斷局面。這一狀況所引發(fā)的結(jié)果便是,開源社區(qū)的整體發(fā)展趨勢逐漸傾向于體現(xiàn)這些大型公司的利益訴求與戰(zhàn)略意圖,原本開源模式所倡導(dǎo)的技術(shù)普惠性以及開放性理念難以得到切實的彰顯與踐行。
技術(shù)壟斷現(xiàn)象的存在,使得創(chuàng)新所帶來的種種益處無法實現(xiàn)均衡地分配與覆蓋,廣大群體難以從中普遍受益,反而被少數(shù)大型企業(yè)所獨自占有與瓜分。如此一來,它們便無奈地被阻擋在技術(shù)快速進(jìn)步的涵涌浪潮之外,難以充分參與其中并獲取應(yīng)有的發(fā)展機遇。這種局面致使經(jīng)濟(jì)社會領(lǐng)域的不平等現(xiàn)象持續(xù)加劇,貧富差距不斷拉大,資源分配愈發(fā)失衡,對整個經(jīng)濟(jì)社會的健康、可持續(xù)發(fā)展構(gòu)成嚴(yán)重的威脅。這種明顯不平等的技術(shù)發(fā)展環(huán)境,使得開源模式在某種程度上偏離了其最初所設(shè)定的理想目標(biāo)與美好愿景,最終催生出一種新的不公平競爭格局,這無疑給整個技術(shù)創(chuàng)新生態(tài)系統(tǒng)的健康、均衡發(fā)展帶來了諸多不利影響。
三、應(yīng)對策略與倫理建議一開源模型訓(xùn)練的框架保護(hù)
人工智能模型猶如一座構(gòu)建于算法與代碼基礎(chǔ)之上的宏偉大廈,算法透明原則能夠促進(jìn)算法可信,算法公平與公正是輸出質(zhì)量的基石[。算法透明原則的核心內(nèi)涵在于將算法的設(shè)計邏輯、決策流程以及關(guān)鍵參數(shù)予以公開化,基于此,無論是普通終端用戶還是肩負(fù)監(jiān)管職責(zé)的專業(yè)機構(gòu),均能夠?qū)λ惴ǖ倪\行操作予以切實有效的監(jiān)督。算法的公平性與公正性直接關(guān)聯(lián)著算法在社會多元應(yīng)用場景中被接納的程度。公平性強調(diào)算法在處理數(shù)據(jù)時務(wù)必杜絕偏見的帶入,確保數(shù)據(jù)處理過程的客觀與中立;公正性則要求算法輸出的結(jié)果必須與道德規(guī)范及法律條文的基本要求相契合。
第一,協(xié)同共治,涵蓋算法監(jiān)管、算法安全、社會效益、算法可責(zé)[6。在開源模型訓(xùn)練中,需依托多方協(xié)同治理模式,實現(xiàn)技術(shù)與社會的平衡。這種治理超越算法監(jiān)管與安全,還需關(guān)注社會效益與算法可責(zé)性。算法監(jiān)管的核心是確保技術(shù)全流程嚴(yán)格遵守法律與倫理規(guī)范;算法安全則聚焦防范濫用與惡意行為,構(gòu)筑堅實防線;社會效益要求技術(shù)應(yīng)用具備普惠性,避免因技術(shù)發(fā)展加劇社會不平等,確保成果惠及廣泛群體;算法可責(zé)性則強調(diào)開發(fā)者與應(yīng)用者對算法決策與結(jié)果承擔(dān)責(zé)任,保障訓(xùn)練與應(yīng)用的有序、公正與可靠。通過這一治理模式,推動人工智能健康、可持續(xù)發(fā)展,更好地服務(wù)社會多元需求。
第二,提升透明度,涵蓋目的正當(dāng)、算法透明、保護(hù)隱私、數(shù)據(jù)安全[6。在開源模型訓(xùn)練中,透明度應(yīng)涵蓋源代碼開放、算法決策流程、數(shù)據(jù)運用及處理手段等多維度。開源設(shè)計需公開設(shè)計初衷、應(yīng)用界限與核心邏輯,確保開發(fā)者和監(jiān)管機構(gòu)了解算法運行規(guī)范。在數(shù)據(jù)處理環(huán)節(jié),應(yīng)嚴(yán)格遵循透明化原則,公開數(shù)據(jù)篩選標(biāo)準(zhǔn)、處理流程及使用規(guī)范,符合法律和倫理準(zhǔn)則。隱私保護(hù)是透明度的核心,需采取嚴(yán)密措施防止信息泄露。透明度還包括設(shè)立算法偏差審查與修正機制,及時解決公平性問題,保障開源模型合法合規(guī)、公正透明運行,維護(hù)各方權(quán)益與公共利益。
第三,保障數(shù)據(jù)質(zhì)量,涵蓋算法可信、算法公平、算法公正[6。在開源模型訓(xùn)練中,數(shù)據(jù)的來源、質(zhì)量與處理方式需嚴(yán)格管控。數(shù)據(jù)集應(yīng)具備高質(zhì)量與多樣性,全面反映不同群體和社會階層特征,避免數(shù)據(jù)采集與處理環(huán)節(jié)引入偏見。數(shù)據(jù)處理必須遵守倫理準(zhǔn)則,杜絕歧視性傾向,防止算法訓(xùn)練階段產(chǎn)生偏差。高質(zhì)量的數(shù)據(jù)為可信算法決策提供基礎(chǔ),保障模型在復(fù)雜場景中穩(wěn)定高效運行。為維護(hù)算法的公正性,應(yīng)采取措施防止數(shù)據(jù)偏差加劇社會不平等;算法公平性則要求結(jié)果對各群體平等對待,構(gòu)建公平可靠的數(shù)據(jù)環(huán)境,推動人工智能模型健康發(fā)展,以更好地滿足社會多元需求。
第四,倫理先行,涵蓋以人為本、價值多元、反對歧視[6。人工智能技術(shù)的發(fā)展應(yīng)以倫理為先導(dǎo),以人為本是人工智能倫理的核心。一切技術(shù)應(yīng)用應(yīng)以增進(jìn)人類福祉和社會利益為目標(biāo),尊重個體權(quán)利,與人類價值體系相輔相成。價值多元化要求算法設(shè)計充分考慮不同文化背景和社會群體需求,避免成為單一價值觀的載體。反對歧視是人工智能倫理的關(guān)鍵,需杜絕因性別、種族、年齡等引發(fā)的歧視現(xiàn)象。在倫理先行框架下,人工智能可推動社會進(jìn)步,避免加劇不平等或引發(fā)道德危機,從而實現(xiàn)技術(shù)與倫理的和諧共生,為人類社會創(chuàng)造更加美好的未來。
參考文獻(xiàn):
[1]高奇琦,張皓淼.技術(shù)擴散基礎(chǔ)上的整體性對齊:大模型的開源與閉源之爭[J].上海大學(xué)學(xué)報(社會科學(xué)版),2024(5) :84-97.
[2]程新宇,楊佳.人工智能時代人權(quán)的倫理風(fēng)險及其治理路徑[J].湖北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2024(3):159-166.
[3]黃欣榮.大數(shù)據(jù)技術(shù)的倫理反思[J].新疆師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2015(3):46-53,2.
[4]張龍輝.數(shù)字社會建設(shè)中的算法安全風(fēng)險及其化解策略[J].東北師大學(xué)報(哲學(xué)社會科學(xué)版),2024(2):134-144.
[5]殷繼國.人工智能時代算法壟斷行為的反壟斷法規(guī)制[J].比較法研究,2022(5):185-200.
[6]商建剛.生成式人工智能風(fēng)險治理元規(guī)則研究[J].東方法學(xué),2023(3):4-17.
作者簡介:閆明(1996—),男,漢族,山東臨沂人,單位為吉林師范大學(xué),研究方向為政治倫理
通信作者:龍麗達(dá)(1978—),女,漢族,北京人,博士,吉林師范大學(xué)副教授,研究方向為倫理學(xué)、思想政治教育。
(責(zé)任編輯:王寶林)