摘要:[目的/意義]分析學術研究中使用AIGC工具可能存在的風險,對規(guī)避風險的策略展開研究,為科研人員合規(guī)使用AIGC工具提供參考和借鑒。[方法/過程]梳理國內外學術領域有關AIGC應用的政策規(guī)定,歸納分析使用AIGC的主要風險,結合科研人員的學術研究過程,提出規(guī)避風險的策略以及在不同階段使用AIGC的可行性建議。[結果/結論]科研人員使用AIGC工具面對的風險主要集中在輸入內容的安全性、輸出結果的可靠性、學術倫理風險以及潛在法律風險。科研人員應提高風險意識,理解政策規(guī)定,明確不同研究階段和場景的使用邊界,規(guī)范使用行為,以確保AIGC工具在學術研究中發(fā)揮積極作用。
關鍵詞:AIGC;生成式人工智能;學術研究;風險分析;應對策略
分類號:TP18;G2;B82-057
引用格式:張艷麗, 管玉燕, 宛雪, 等. 學術研究中使用AIGC工具的風險審視與應對策略研究[J/OL]. 知識管理論壇, 2024, 9(4): 341-352 [引用日期]. http://www.kmf.ac.cn/p/397/. (Citation: Zhang Yanli, Guan Yuyan, Wan Xue, et al. The Risk Review and Countermeasures of Using AIGC in Academic Research[J/OL]. Knowledge Management Forum, 2024, 9(4): 341-352 [cite date]. http://www.kmf.ac.cn/p/397/.)
1 研究背景/Research background
2022年末問世的ChatGPT,改變傳統(tǒng)內容生成方式,在人工智能領域產生轟動性效應。隨之涌現(xiàn)出大量人工智能生成內容(artificial intelligence generated content, AIGC)工具的研發(fā)和應用,為科學研究和學術出版領域提供新機遇,也提出新挑戰(zhàn)。對于廣大科研人員而言,AIGC工具正在成為科學工作和學術研究的助手,如輔助文獻調研和綜述,啟發(fā)選題思路,進行數(shù)據(jù)分析和挖掘,從大量文獻中比較發(fā)現(xiàn)科學關聯(lián)和研究方向,可視化呈現(xiàn)研究結果等,為科研人員提供更便利、更高效、更具個性化的支持。然而,風險與發(fā)展并存。AIGC在助力科研人員完成科研任務的同時也帶來潛在風險和局限,如內容可靠性、版權歸屬、隱私和數(shù)據(jù)泄露、法律和倫理問題等。
這些由AIGC技術生成性特征帶來的應用風險,也引發(fā)研究人員對科研誠信和學術出版的廣泛討論,由此帶來的法律、倫理等風險受到國際組織、政府機構的密切關注。國內外眾多政府部門、企事業(yè)單位,鑒于AIGC工具內容生成對訓練語料、提問傾向性的高度依賴,生成結果無法確保準確性等事實,頒發(fā)多項政策予以管控。例如:在國內,國家網信辦、發(fā)改委、教育部、科技部、工信部、公安部和廣電總局七部門于2023年7月聯(lián)合發(fā)布《生成式人工智能服務管理暫行辦法》[1],該條例是全球范圍內首個由國家層面制定的、關于AIGC的專門監(jiān)管規(guī)章,引起聯(lián)合國教科文組織等機構的廣泛關注。中國科學技術信息研究所聯(lián)合愛思唯爾、施普林格·自然、約翰威立國際出版集團于2023年9月發(fā)布《學術出版中AIGC使用邊界指南》[2],對AIGC用于學術出版的行為進行規(guī)范,以防范AIGC不當使用,引導相關利益主體就AIGC使用達成共識。國際上,2023年5月召開的G7領導人日本峰會著重探討生成式人工智能監(jiān)管問題,計劃起草“負責任的AI”標準并于2023年底出臺對生成式人工智能的監(jiān)管措施[3]。歐盟的《人工智能法案》(European Union Artificial Intelligence Act)自2021年首次提出,直到2024年3月13日由歐洲議會投票通過,這是全球人工智能領域監(jiān)管進入新時代的標志性事件[4-5]。
由此,科研人員需要對AIGC建立較為全面的認知,了解應用AIGC工具的風險,確保負責任、安全且合乎倫理地使用AIGC工具,嚴格對待其生成內容的準確性和有效性,避免因不當使用帶來難以預估的后果。
2 學術研究中使用AIGC工具的風險分析/Risk analysis of using AIGC tools in academic research
學術領域中研究者使用AIGC工具,主要是通過向AIGC工具輸入指令,AIGC工具根據(jù)指令輸出相應的成果內容,研究者將輸出的結果應用到相關研究材料中,因此,其風險也主要集中在4個方面:輸入內容的安全風險、輸出內容的可靠性風險、學術倫理和道德風險、潛在的法律風險。
2.1 輸入內容的安全風險
使用AIGC工具過程中,互動內容可能成為大型語言模型訓練語料庫的一部分,很可能帶來敏感內容泄露、研究數(shù)據(jù)篡改、機密信息濫用等安全問題。AIGC開發(fā)者通常在其用戶使用協(xié)議中單方面聲明:用戶上傳的提示詞/內容授予AIGC開發(fā)者使用。如騰訊混元模型《用戶使用協(xié)議》第五部分“知識產權”中的第三條明確表示:“您理解并且同意,除非您與我們另有約定,您上傳至本服務平臺的內容(包括但不限于作為提示詞的文本或其他一切用于協(xié)助騰訊混元模型產生人工智能生成內容的提示性內容)即代表您不可撤銷地授予騰訊公司及其關聯(lián)方一項不可撤銷的、非排他的、無地域限制的、永久的、免費的許可使用,以使我們得以對上傳內容進行存儲、使用、復制、修訂、編輯、發(fā)布、展示、翻譯、分發(fā)上述內容或制作派生作品等商業(yè)或非商業(yè)使用,及可再許可第三方使用的權利,以及可以自身名義對第三方侵權行為取證及提起訴訟的權利”。在其他AIGC工具的用戶使用協(xié)議中也有類似描述,這類用戶使用協(xié)議給用戶帶來內容泄露風險。
科研人員在使用AIGC工具時輸入的提示語可能與自身研究內容密切相關,也可能上傳研究過程中的文檔獲得AIGC輔助分析或糾錯潤色等,這些提示語和相關文檔可能納入AIGC訓練數(shù)據(jù),參與生成新的輸出內容,被未經授權的第三方獲取,導致正在研究的內容、數(shù)據(jù)、成果等泄露,從而可能為科研人員帶來安全風險。
根據(jù)韓國媒體《經濟學人》報道,三星公司于2023年3月批準半導體業(yè)務部門引入ChatGPT,同時向員工發(fā)布“注意公司內部信息安全,不要輸入私人內容”的警示公告。然而,在此后不到20天的時間內,半導體業(yè)務部門就接連發(fā)生3起機密信息泄露事件,導致相關半導體設備測量資料和產品良率等機密數(shù)據(jù)被完整傳輸保存至ChatGPT學習數(shù)據(jù)庫。泄密事件發(fā)生后,三星公司迅速啟動事故調查和應急方案,火速出臺公司內控新舉措。不僅將員工向ChatGPT提問的上傳容量限定在1 024字節(jié)以內,而且聲明如遇緊急情形會考慮切斷公司內網與ChatGPT的連接。2023年5月,三星公司進一步收緊管理政策,要求員工不得在工作場所使用類似ChatGPT的生成式人工智能應用[6]。
由此可見,用戶在使用AIGC工具過程中無法保障“知情同意”權益,在互動提問、信息收集、統(tǒng)計分析、存儲備份等環(huán)節(jié)均存在研究內容、隱私信息、敏感數(shù)據(jù)、商業(yè)秘密甚至是國家機密泄露的安全風險和隱患。
2.2 輸出內容的可靠性風險
AIGC工具通常需要處理大量的數(shù)據(jù)和信息,在處理過程中采用AIGC進行推理和決策。然而,這些過程涉及許多不確定性因素,如訓練數(shù)據(jù)有偏差缺少多樣性、模型參數(shù)的不確定性、數(shù)據(jù)的時效性、算法的穩(wěn)定性和魯棒性、提示詞的傾向性等。這些因素均可導致AIGC工具生成內容的不準確和不可靠。另外,訓練數(shù)據(jù)和算法模型也會造成在訓練過程中可能引入偏見和歧視,導致不公平的輸出結果。AIGC模型繼承并延續(xù)其訓練數(shù)據(jù)中存在的偏差,鑒于模型的不透明性質,這些偏差很難檢測和排除。
2023年2月,谷歌公司AI聊天機器人工具Bard的發(fā)布演示中,有用戶提問“該如何告訴一個9歲孩子關于詹姆斯·韋伯空間望遠鏡的發(fā)現(xiàn)”,Bard回答:詹姆斯·韋布空間望遠鏡拍攝太陽系以外行星的第一批照片。隨后,哈佛—史密森天體物理中心的專家格蘭特·特朗布萊指出,這并非事實,2004年歐洲南方天文臺的甚大望遠鏡(Very Large Telescope, VLT)拍攝第一張系外行星照片。Bard回答出錯被發(fā)現(xiàn)后,隨之谷歌母公司Alphabet股價下跌超7%,市值蒸發(fā)約1 000億美元[7]。由此可見,AIGC工具輸出內容的不可靠將帶來巨大風險。
本研究對多個AIGC工具進行實驗。對同一個模型多次提問,提示語略有差異時給出的答案也不完全相同,若不進行驗證,相關結果容易混淆。例如,筆者對同一模型分別提問:“2020年中國人口普查總人數(shù)是多少?”與“2020年中國人口普查全國總人口是多少?”獲得的答案,分別是“2022年中國總人口數(shù)為141 175萬人,即14.117 5億人”與“2020年中國進行的第七次全國人口普查結果顯示,全國總人口為1 411 780 000人(14.117 8億人)”,結果略有差異。
2.3 學術倫理和道德風險
科學研究是人類知識生產的重要途徑,在實踐中形成一套約定俗成的道德規(guī)范和行為準則,包括要求嚴謹求實的作風和誠實守信的行為。AIGC工具可能被用來生成偽造的實驗數(shù)據(jù)或輸出不真實的結果等,容易違背道德規(guī)范和行為準則,造成學術不端行為。
科學研究過程包括:科研選題、文獻閱讀和綜述、實踐調研論證、實驗觀察驗證、分析數(shù)據(jù)得出結論、論文撰寫等,每個過程都需要十分嚴謹。近些年來,人工智能技術突飛猛進,在為社會各個領域提供便捷的同時,也帶來“學術造假”的“低成本”現(xiàn)象。缺失道德規(guī)范和行為準則的科研人員將研究過程演變?yōu)椋合駻IGC工具提問,直接生成論文,再由AIGC工具修改,完成論文。在這個過程中,一旦科研人員缺乏對整體內容的基礎研究和理解,缺少對AIGC工具生成內容的嚴格把關和確認,大量不可靠的學術論文就會出現(xiàn),這不僅存在學術倫理與道德規(guī)范方面的風險,對于整個學術領域與社會發(fā)展來說均是一場災難。
2024年2月,科學網轉發(fā)文章《發(fā)表3天被撤稿!中國作者用AI生成論文插圖,每幅都荒謬》。被撤論文的作者在發(fā)表于開放獲取期刊《細胞與發(fā)育生物學前沿》(Fron.Cell Dev. Biol)論文中不負責任地采用由AI繪圖工具Midjourney生成的三組圖片,這些圖片夸張、荒謬、違背事實真相,在解剖學和科學上都是不正確的,插圖中還出現(xiàn)生造的、不具備任何意義的字母排列標簽。該論文在線發(fā)表3天即被撤稿,編輯部表示“該文章不符合本刊的編輯和科學嚴謹性標準,因此予以撤稿”[8-9]。這是一個違背科學研究應具備嚴謹求實作風和誠實守信原則、無視研究成果應具有真實性和可靠性基礎的典型例子。該事件引發(fā)一輪對“人工智能技術以及學術論文科學性”的討論,也令人擔憂未來AIGC工具生成的、更多更逼真的學術圖片將會以假亂真,這將對科研論文的可信度和科學性產生負面影響。
2.4 潛在法律風險
科研人員使用AIGC工具輸出內容,首當其沖面對的是版權風險,同時還存在潛在的其他法律風險。
(1)輸出內容的版權風險分為兩個方面:一是AIGC模型的形成和完善依賴于大量的數(shù)據(jù)訓練,這些數(shù)據(jù)可能包含受版權法保護的內容,存在訓練數(shù)據(jù)的版權侵權風險。當下,多數(shù)AI公司對訓練數(shù)據(jù)集的來源秘而不宣,缺乏透明度。2022年3月非營利組織LAION(全名Large-scale Artificial Intelligence Open Network)發(fā)布的LAION-5B包含58.5億個圖像文本,彭博社曾報道其來源包括從亞馬遜網、Shopify等公司獲取的視覺數(shù)據(jù),還有YouTube縮略圖、各類新聞網站上的抓取內容等。2023年1月,英美發(fā)生兩起AIGC版權侵權案,均與被告使用LAION數(shù)據(jù)集中的未授權數(shù)據(jù)有關。許多知名AI公司未經授權,就將這些數(shù)據(jù)用于訓練各種大模型,如谷歌Imagen、Stable Diffusion等[10]。二是使用AIGC工具生成內容的版權歸屬問題?,F(xiàn)階段,AIGC的版權歸屬各個國家均沒有明確規(guī)定,其在理論和實踐上存在五種可能性:歸屬AI(非人)、歸屬AI開發(fā)者、歸屬AI使用者、歸屬AI開發(fā)者和使用者共享、不授予版權而采用其他方式保護。2023年1月,Nature期刊公開聲明,任何大型語言模型工具都不會被接受作為研究論文的署名作者。這是因為任何作者的歸屬權都伴隨著對工作的責任,而AI工具無法承擔這種責任[11]。
AIGC的版權風險給學術研究領域帶來巨大沖擊,也推動AIGC開發(fā)者做出響應。2023年11月,Open AI在開發(fā)者大會上推出“Copyright Shield”(版權盾)服務,為AI大模型的版權問題提供新思路。這項服務實質上是一種賠償條款,當企業(yè)級用戶使用ChatGPT面臨版權侵權法律指控時,Open AI會為用戶提供素材來源、內容生成過程等證據(jù),同時承擔判定侵權后的賠償金(這一承諾主要針對ChatGPT機構用戶和開發(fā)者平臺的使用者,對普通用戶不提供賠償)。這個功能旨在緩解用戶對于生成式人工智能存在潛在版權風險的擔憂。類似的版權包賠模式并非Open AI獨有,其他公司如谷歌、微軟、亞馬遜、Getty Images、Shutterstock、Adobe等也向企業(yè)級用戶承諾支付大模型使用所涉版權糾紛的訴訟費用。這類侵權包賠模式在前期訓練數(shù)據(jù)合規(guī)的情況下具備可行性,也體現(xiàn)AIGC開發(fā)者對于AI技術應用中版權風險的廣泛關切,以及對用戶合法權益的重視。
(2)使用輸出內容潛在的其他法律風險包括隱私泄露、商業(yè)秘密和國家安全風險。
AIGC工具未經同意使用個人數(shù)據(jù)或未能妥善保護這些數(shù)據(jù),就可能泄露用戶隱私信息,違反數(shù)據(jù)保護法規(guī),侵犯公民個人信息自決權。
2023年3月,ChatGPT發(fā)生用戶的個人數(shù)據(jù)泄露事件,開源組件Redis中的競爭條件漏洞(race condition vulnerability)導致用戶的聊天歷史中顯示其他用戶的信息內容,包括用戶的姓名、電子郵件地址、付款地址、信用卡號后4位,以及信用卡有效期等個人信息均被泄露。這個漏洞使得大約1.2%的ChatGPT Plus訂閱用戶的個人敏感數(shù)據(jù)被直接暴露。ChatGPT發(fā)布聲明,向用戶和社區(qū)致歉,并表示將緊急維護ChatGPT。
AIGC工具生成的虛假內容可能造成國家安全風險。2023年以來,AIGC驅動圖像生成器制作的虛假圖像和視頻在社交媒體上廣泛流傳,如美國前總統(tǒng)特朗普和俄羅斯總統(tǒng)普京被捕的照片,以及烏克蘭總統(tǒng)澤連斯基宣布投降的視頻,這些虛假新聞傳播混淆公眾對事實的判斷,也可能引發(fā)對全球政治形勢的誤判并給國家安全帶來威脅。
若AIGC輸出內容中存在個人隱私數(shù)據(jù)、商業(yè)秘密和國家安全的信息,科研人員一旦采用,相關權利主體進行追責,會給科研人員帶來相應的法律風險。
3 學術出版領域AIGC使用政策及規(guī)定分析/Analysis of AIGC usage policies and regulations in the academic publishing field
AIGC被廣泛應用以來,國內外學術出版領域相繼發(fā)布政策聲明。
國際上,Nature[11]、Science[12]、The Lancet[13]等多家頂級權威期刊在2023年陸續(xù)更新投稿指南或發(fā)布政策,規(guī)定AIGC使用細則。國外大多數(shù)學術期刊沒有明文規(guī)定禁止使用AIGC,但均聲明須基于學術誠信和研究透明的原則,在有限制條件的情況下使用。Elsevier[14]、Taylor & Francis[15]等多家知名出版社及著名預印本平臺arXiv[16]等學術組織也陸續(xù)出臺AIGC使用條件、限制、相關倡議等官方聲明。
在國內,我國政府不僅及時出臺專門監(jiān)管規(guī)章《生成式人工智能服務管理暫行辦法》,而且初步形成一套監(jiān)管規(guī)范體系,已發(fā)布多項法律、行政法規(guī)等規(guī)范性文件,涉及科技發(fā)展、網絡安全、個人信息保護、互聯(lián)網信息等方面,構成人工智能領域多層級、多角度的規(guī)范治理體系[17]。學術期刊《暨南學報(哲學社會科學版)》《文獻與數(shù)據(jù)學報》《中國科技期刊研究》《智庫理論與實踐》《圖書情報工作》《中華醫(yī)學會雜志》等也陸續(xù)發(fā)布有關AI的政策聲明或有關規(guī)定。
趨勢調研表明,越來越多學術期刊、出版機構以及學術聯(lián)盟相繼發(fā)布政策聲明或使用規(guī)定,界定AIGC在學術領域的使用邊界,規(guī)范學術共同體的使用行為,以確保學術研究/成果的可信度與可靠性。不同機構、組織針對AIGC應用所制定的政策或規(guī)定不盡相同,但在主要問題和原則上基本達成共識。主要包括如下幾點:
(1)透明度和問責制。所有學術出版領域(包括科研人員、作者、同行評議人和出版方)都應該了解并明確披露AIGC的使用情況,明確AIGC的應用責任,包括底層數(shù)據(jù)集、數(shù)據(jù)來源和數(shù)據(jù)處理方法的透明度,以及知識產權和版權的歸屬和責任。
(2)遵守法律和倫理標準。AIGC的應用要遵守相應的法律法規(guī)和倫理標準,包括數(shù)據(jù)隱私和版權問題。
(3)確保研究質量和誠信。確保AIGC的應用建立在信任基礎上,通過透明標注和聲明等手段表明對AIGC生成內容的使用,保證學術研究的質量和誠信不受AIGC技術應用的影響。
(4)公平使用。確保AIGC的應用秉持公平原則,避免偏見,評估潛在的偏差來源,并建立反饋機制監(jiān)測和審查可能的不公平現(xiàn)象。
(5)AIGC沒有署名權。論文作者必須是能夠對論文真實性、完整性、科學性等負責的自然人,AIGC不能作為論文作者。
(6)使用標注聲明。使用AIGC工具的作者須在方法、致謝或者其他適當部分說明使用情況,包括:AIGC開發(fā)者、AIGC工具名稱和版本、使用時間、使用過程、完整提示詞等。
(7)論文主要內容不能源于AIGC工具。作者不能將AIGC工具生成的內容作為一手來源資料進行引用。如論文主要內容是利用AIGC工具生成的,一旦被發(fā)現(xiàn),將以學術不端行為處理。
(8)視覺內容不能源于AIGC工具。不接受作者在文章中完全或部分使用AIGC工具生成圖像、圖形、視頻和其他多媒體內容。
(9)參考文獻驗證。經AIGC工具提供的參考文獻須經人工驗證其真實性和時效性,參考文獻中不應包含將AIGC列為作者的論文。
不同機構、組織針對AIGC使用政策和規(guī)定的細則有所不同,差別主要體現(xiàn)在限制使用范圍和使用程度上。這些原則和共識體現(xiàn)出學術出版界對于AIGC技術應用的謹慎態(tài)度和對學術誠信的重視,也體現(xiàn)出學術出版界希望基于規(guī)范和政策的制定,從而進一步促進AIGC技術的健康發(fā)展和負責任地應用。
4 學術研究中AIGC工具使用風險規(guī)避策略/Risk avoidance strategies for AIGC tools usage in academic research
基于對學術領域使用AIGC工具的風險分析和對國內外學術出版領域發(fā)布的AIGC使用條件、限制與相關倡議等官方聲明的調研,筆者提出在學術研究中使用AIGC工具的應用策略與注意事項,以幫助科研人員在研究過程中結合自身情況,規(guī)范使用AIGC工具,從行為層面規(guī)避AIGC帶來的風險。
4.1 提高風險防范意識
4.1.1 輸入內容的安全風險防范
科研人員在選擇使用AIGC工具時需仔細研讀其用戶協(xié)議與隱私政策,選擇可接受可信任的模型。若所研究內容涉密,則應禁止使用AIGC工具開展相關工作;若所研究內容還在成果保護期,則避免上傳到AIGC工具中,避免使用個人隱私信息、涉密信息進行提問。
對可信任AIGC工具的評估包括:①經過各層級管理部門的登記備案和風險評估,一旦出現(xiàn)問題,便于溯源追責;②確認AIGC模型訓練數(shù)據(jù)具有可靠合法的來源并獲得正式授權,避免侵權糾紛;③確認AIGC工具對各類數(shù)據(jù)的采集、保管、使用及刪除均有精細化的合規(guī)設置;④確認AIGC服務提供者掌握隱私保護計算技術,采取防止用戶信息泄露的技術措施;⑤確認AIGC工具對生成內容具有審查過濾機制,具有從產品側對敏感內容屏蔽和阻斷虛假信息、偏見歧視、違法和違背公序等信息的技術手段,確保生成內容符合相關法律法規(guī)的要求。
4.1.2 輸出內容的可靠性驗證
學術研究是一個嚴肅的過程,AIGC工具使用者需要對研究內容的真實性、可靠性負直接責任。AIGC模型無法根據(jù)現(xiàn)實世界觀察、科學規(guī)律和方法、人類社會的價值觀進行實時調整,因而AIGC工具所生成的內容在邏輯、科學、時效性方面都存在不確定性,容易生成一些不符合科學規(guī)律、現(xiàn)實生活中不存在的、被稱之為“幻覺”的內容,因此難以直接實現(xiàn)真正可靠的學術創(chuàng)新。使用者需要對AIGC工具生成的內容采取批判態(tài)度,不能盲目信任和直接采用,使用前需要逐字逐句進行驗證和把關,需要審核這些內容是否包括偽造內容、不準確信息、錯誤的數(shù)據(jù)、無依據(jù)的結論或偏頗的觀點等。
4.1.3 恪守學術道德,嚴守誠信底線
科研人員須在恪守學術倫理和道德的情況下,誠實可信、負責任地使用AIGC工具,避免在研究過程中依賴和沉迷于AIGC生成的內容。隨著AIGC的廣泛應用,其生成內容缺乏透明度和可解釋性的問題越來越多,經常生成貌似正確而實質錯誤的內容,這些內容很可能對人類的認知造成干擾,如引導人們去質疑真實的信息,甚至背棄學術誠信的原則??蒲腥藛T需要對此有高度警惕和預先防范。
科技部監(jiān)督司在2023年12月發(fā)布的《負責任研究行為規(guī)范指引》中提出科學研究實踐中應普遍遵循的科學道德準則和學術研究規(guī)范,也對生成式人工智能的使用作出明確要求,如“不得使用生成式人工智能直接生成申報材料”“應遵循相關法律法規(guī)及學術規(guī)范,依規(guī)合理使用生成式人工智能處理文字、數(shù)據(jù)或學術圖像,防范偽造、篡改數(shù)據(jù)等風險”“不得直接使用未經核實的由生成式人工智能生成的參考文獻”“生成式人工智能不得列為成果共同完成人。應在研究方法或附錄等相關位置披露使用生成式人工智能的主要方式和細節(jié)”“在評議活動中使用生成式人工智能的,應事先征得評議活動組織者同意,操作中應防止泄漏評議內容,如發(fā)生信息泄漏應及時采取必要補救措施”[18]。同日,國家自然科學基金委也發(fā)布《科研誠信規(guī)范手冊》,對生成式人工智能在研究過程中的使用做出明確要求,相關條款與《負責任研究行為規(guī)范指引》基本一致[19]。
因此,學術領域工作者,在使用AIGC工具時須保持初心,不能觸碰學術倫理與道德規(guī)范底線。
4.1.4 公開透明標注,規(guī)避法律風險
AIGC的出現(xiàn)正在迅速改變科學、藝術和文學作品的創(chuàng)作、傳播和消費方式,為了規(guī)避相關法律風險,使用者必須負責地使用AIGC工具生成內容,公開透明標注,并清楚使用風險,承擔所有責任。
一方面,現(xiàn)行的版權政策規(guī)定,未經版權所有者的許可而以任何方式復制、分發(fā)或使用受版權保護的作品均構成對版權的侵權,并可能導致法律后果。在目前AIGC工具生成內容版權歸屬不明確的情況下,科研人員直接采用AIGC工具所生成內容與當前版權政策存在沖突,有一定的版權風險。所以,不建議使用者直接將AIGC生成內容作為自己的最終成果,而是將AIGC作為實現(xiàn)目標的工具,要驗證AIGC生成的內容,并盡可能地增加自己的創(chuàng)新思路和實質投入。
另一方面,使用AIGC工具時,使用者不僅要嚴格把關和審核其生成的內容,以確保信息的真實性和準確性,而且要對內容進行詳盡的溯源和明確標注,以確保內容的可靠性、合規(guī)性和合法性,規(guī)避潛在的法律風險。
4.2 遵循AIGC工具使用原則
在AIGC技術快速發(fā)展且缺乏監(jiān)管的情況下,堅持原則既是對使用者的要求,也是對使用者的保護。根據(jù)業(yè)界發(fā)布的各項政策法規(guī)與大眾共識,筆者將使用AIGC工具應遵循原則總結如下:
(1)誠信原則。使用者應保持良好的誠信意識,恪守學術道德,堅守學術誠信,自覺遵守學術研究與出版規(guī)范。
(2)透明原則。使用者在學術成果形成和撰寫過程中無論哪個環(huán)節(jié)、何種程度使用AIGC,均須清晰地進行聲明和標注,以便管理機構進行查證和評估。學術出版機構應履行或制定相關的出版規(guī)范,引導使用者正確、規(guī)范地使用AIGC,從而保障學術出版物的質量和公信力。
(3)適度原則。使用者應根據(jù)實際需求和目的,合理、適度地應用AIGC工具,避免過度依賴或不恰當使用。
(4)保密原則。使用者應有學術成果保密意識,在成果形成和撰寫過程中使用AIGC工具導致自有涉密成果泄露,責任應由使用者承擔。
4.3 學術研究過程中使用AIGC工具的注意事項
根據(jù)對AIGC工具的特點、使用風險與政策的分析,筆者結合科研人員學術研究過程的特點,對于學術研究中不同階段能否使用該工具以及使用時的注意事項,給出明確的參考意見,以輔助科研人員進行風險判斷與規(guī)避。
4.3.1 不應使用AIGC工具的場景
Science期刊主編H. H. Thorp在該刊2023年1月發(fā)表的一篇社論中指出,ChatGPT采用“從人類反饋中強化學習”技術來訓練語言模型,使其具有很強的對話性。盡管如此,正如工具開發(fā)者所述,“ChatGPT有時會寫出看似合理但不正確或荒謬的答案”。比如,引用一項不存在的科學研究導致最后結論發(fā)生偏差,這對于追求準確性的科學研究來說是致命性的[12]。國內《中華醫(yī)學會雜志》規(guī)定,生成式人工智能(Generative Artificial Intelligence,GenAI)不能用于整篇論文或論文重要部分的撰寫(如研究方法、結果和對結果的解釋分析等)。所有屬于科學貢獻或智力勞動范疇的內容均應由作者完成,如論文主要內容使用GenAI完成,編輯部將按照學術不端行為進行處理[20]。因此,科研人員需要樹立規(guī)范使用AIGC工具的意識,規(guī)避使用不當帶來的學術誠信、涉嫌偽造、篡改數(shù)據(jù)等風險。學術研究中不應使用AIGC工具的場景如表1所示:
4.3.2 不建議直接使用AIGC工具生成內容的場景
隨著AI技術的快速發(fā)展,AIGC工具缺乏透明度和可解釋性帶來的問題日益凸顯,其黑匣子的特征不僅會導致產生意想不到的或不想要的結果,也會編造一些現(xiàn)實生活中不存在的東西。生成式人工智能開發(fā)者承認這一點,在ChatGPT公共接口的底部聲明:“ChatGPT可能會產生關于人、地點或事實的不準確信息”[21]??蒲腥藛T尤其需要認識到,AIGC工具并不理解它所生成的內容,可能會經常生成不準確的陳述,直接采用AIGC工具生成的研究大綱、領域知識、專家觀點等均須承擔相關風險。因此,科研人員需要對AIGC工具所生成的內容采取謹慎參考和審核批判的態(tài)度。學術研究中不建議直接使用AIGC工具生成內容的場景如表2所示:
4.3.3 可適當使用AIGC工具的場景
科技部監(jiān)督司在2023年12月發(fā)布的《負責任研究行為規(guī)范指引》中指出“應嚴格遵守相關安全保密、經費使用、資源和數(shù)據(jù)共享、知識產權歸屬等規(guī)定。依規(guī)合理使用生成式人工智能參與研究實施”[18]。2023年11月,Science期刊更新編輯政策,聲明“只要在研究方法部分對AI輔助技術(如大型語言模型、聊天機器人和圖像生成工具)的使用進行合適的披露,在研究中使用這些工具是可以接受的”[12]。由此,科研人員在學術研究和成果發(fā)表的各個階段,包括論文選題、研究設計與開展以及論文撰寫過程中,可適當使用AIGC工具。學術研究中可適當使用AIGC工具的場景如表3所示:
4.4 使用AIGC的引用標注與聲明
4.4.1 使用AIGC的引用標注
在國際上,APA格式和MLA格式是兩種頗具影響的用于學術論文寫作的引用格式。
APA格式由美國心理學會(American Psychological Association, APA)制定。APA認為其他讀者無法檢索ChatGPT“聊天”的結果,而且AIGC的主要貢獻來自于算法,所以AIGC工具的制作者應當被標注為作者,引用者不需要在參考文獻表中列出AIGC的具體內容,但可以將交互記錄作為附錄[22]。APA給出AIGC引用格式的示例如下:
OpenAI.(2023).ChatGPT(Mar 14 version)[Large language model]. https://chat.openai.com/chat
MLA格式由美國現(xiàn)代語言協(xié)會(Modern Language Association, MLA)制定。MLA格式指南建議作者在參考文獻中引用ChatGPT內容時,應包括完整檢索提示句,以及“ChatGPT”、版本號、“OpenAI”、使用ChatGPT的日期和網頁鏈接URL[23]。MLA給出AIGC引用格式的示例如下:
“In 200 words, describe the symbolism of the green light in The Great Gatsby” follow-up prompt to list sources. ChatGPT, 13 Feb. version, OpenAI, 9 Mar. 2023, chat.openai.com/chat.
2023年12月,科技部監(jiān)督司發(fā)布的《負責任研究行為規(guī)范指引》中指出,“使用生成式人工智能生成的內容,特別是涉及事實和觀點等關鍵內容的,應明確標注并說明其生成過程,確保真實準確和尊重他人知識產權”[18]。
由于國內對AIGC生成內容尚未明確其引用格式,筆者參照《信息與文獻 參考文獻著錄規(guī)則(GB/T 7714-2015)》[24]提供以下兩種引用格式的參考建議:
(1)參考文獻中引用。將AIGC工具的開發(fā)者作為主要責任者,AIGC工具作為主題名,簡要描述AIGC交互內容作為其他題目信息,文獻類型標識為[CP]:計算機程序(computer program),文獻載體標識為[OL]:聯(lián)機網絡(online),更新或修改日期為AIGC工具的版本更新時間,引用日期注明內容生成時間,并注明訪問路徑。推薦如下參考文獻格式:
[序號]主要責任者. 題名: 其他題目信息[文獻類型標識/文獻載體標識].出版年(更新或修改日期)[引用日期].獲取或訪問路徑.
示例如下:
[1]同方知網.知網AI智能寫作:請闡述放射源事故急性外照射的計算方法并詳細解釋[CP/OL].(2023-05-16)[2023-11-17].https://aidoc.cnki.net/.
(2)參考文獻+附錄引用。如果使用AIGC工具的交互內容或提示語過長(或者有多項交互內容或提示語),無法在參考文獻中詳細展示,可以將交互記錄(包括提示語和結果等)移至文后的附錄中。參考文獻列表中的引用可以不再標注與AIGC工具的交互內容或提示語。示例如下:
[1]百度.文心一言[CP/OL].(2024-01-19)[2024-01-24]. https://yiyan.baidu.com/.
[2]北京智譜華章科技有限公司.智譜清言[CP/OL].[2024-01-25]. https://chatglm.cn/main/detail.
詳細的AIGC交互內容或提示語展示在附錄中,示例如下:
[1]近十年中國南水北調規(guī)模的曲線圖.(百度.文心一言[CP/OL].[2024-01-24])
[2]近十年中國南水北調工程的投資概況.(百度.文心一言[CP/OL].[2024-01-24])
[3]中國、美國、印度、歐盟近十年的人口規(guī)模數(shù)據(jù).(北京智譜華章科技有限公司.智譜清言[CP/OL].[2024-01-25])
[4]中國、美國、印度、歐盟近十年的糧食生產規(guī)模概況.(北京智譜華章科技有限公司.智譜清言[CP/OL].[2024-01-25])
4.4.2 使用AIGC工具的聲明
基于學術誠信原則,在研究過程的任何環(huán)節(jié)使用AIGC工具,均須在方法部分、附錄部分或者其他適當部分公開、透明、詳細地做出使用聲明。使用聲明內容包括:使用AIGC工具解決研究中什么問題;使用AIGC工具產生的想法或結論;由AIGC工具生成內容所占全文比例;作者對AIGC工具生成的內容承擔全部責任;等等。示例如下:
“在本研究中,作者在研究設計章節(jié)采用ChatGPT作為輔助工具,進行基于學術文獻特征的數(shù)據(jù)清洗、文本分類和信息抽取的相關工作;得出學術文獻可以通過ChatGPT實現(xiàn)自動分類,為大規(guī)模地按學科知識揭示文獻提供更好的支持結論;ChatGPT生成內容約300字,在全文內容中的占比約為3%;本人對使用ChatGPT生成的內容承擔全部責任。 ”
5 結語/Conclusions
任何一項新技術的出現(xiàn),對于社會的發(fā)展均是一把雙刃劍。AIGC技術的應用可推動學術研究的創(chuàng)新與發(fā)展,促進學術生產的質量與效率大幅提升。同時,鑒于這項技術的原理與局限性,也帶來一系列的應用風險。面對技術的進步,科研人員需要在了解AIGC風險的基礎上積極探索規(guī)范使用之道。筆者通過分析學術研究中使用AIGC工具的風險,對相關政策聲明和規(guī)定進行梳理,提出使用AIGC工具的風險規(guī)避策略。一方面,這些應對策略可助力科研人員更好地理解AIGC政策聲明和相關規(guī)定,自覺規(guī)范使用行為,規(guī)避使用風險,促進AIGC工具在學術研究中的合法合規(guī)的使用;另一方面,也為立法、教育、技術和產業(yè)協(xié)同等多層面尋求AIGC應用落地的解決方案提供參考依據(jù)。
參考文獻/References:
國家網信辦, 國家發(fā)展改革委, 教育部, 等. 生成式人工智能服務管理暫行辦法[EB/OL]. [2023-12-20]. https://www.gov.cn/zhengce/zhengceku/202307/content_6891752.html. (Cyberspace Administration of China, National Development and Reform Commission, Ministry of Education, et al. Interim Measures for the Management of Generative Artificial Intelligence Services[EB/OL]. [2023-12-20]. https://www.gov.cn/zhengce/zhengceku/202307/content_6891752.html.)
中國科學技術信息研究所, 愛思唯爾, 施普林格·自然, 等. 學術出版中AIGC使用邊界指南[EB/OL]. [2023-12-20]. https://www.istic.ac.cn/html/1/284/338/1701698014446298352.html. (Institute of Scientific and Technical Information of China, ELSEVIER, SPRINGER NATURE, et al. Guideline on the Boundaries of AIGC Usage in Academic Publishing[EB/OL]. [2023-12-20]. https://www.istic.ac.cn/html/1/284/338/1701698014446298352.html.)
和軍, 楊慧. ChatGPT類生成式人工智能監(jiān)管的國際比較與借鑒[J]. 湖南科技大學學報(社會科學版), 2023, 26(6): 119-128. (HE J, YANG H. International comparison and reference on ChatGPT-like Generative Artificial Intelligence Regulation[J]. Journal of Hunan University of Science and Technology (social science edition), 2023, 26(6): 119-128.)
European Parliament. Artificial Intelligence Act[EB/OL]. [2023-12-20]. https://www.europarl.europa.eu/doceo/document/TA-9-2023-0236_EN.pdf.
閆宏秀, 宋勝男. 雙重脆弱性與適度信任:從ChatGPT到Sora[J/OL]. 新疆師范大學學報(哲學社會科學版)[2024-04-21]. https://doi.org/10.14100/j.cnki.65-1039/g4.20240408.001. (YAN H X, SONG S N. Dual vulnerability and moderate trust: from ChatGPT to Sora [J/OL]. Journal of Xinjiang Normal University (philosophy and social sciences edition) [2024-04-21]. https://doi.org/10.14100/j.cnki.65-1039/g4.20240408.001.)
李艷. 三星ChatGPT泄密事件及啟示 [J]. 保密工作, 2023(9): 65-68. (LI Y. Samsung due to ChatGPT leakage incident and its inspiration [J]. Confidentiality, 2023(9): 65-68.)
ZHAO R, LI X, CHIA Y K, et al. Can ChatGPT-like generative models guarantee factual accuracy? on the mistakes of new generation search engines[EB/OL]. [2024-02-26]. https://arxiv.org/abs/2304.11076.
孫滔.發(fā)表3天被撤稿!中國作者用AI生成論文插圖, 每幅都荒謬[EB/OL]. [2024-02-27]. https://news.sciencenet.cn/htmlnews/2024/2/517714.shtm. (SUN T. Published for 3 days and was withdrawn! Chinese authors use AI to generate paper iEKYs2BWeVCsUmZo2pn1ydg==llustrations, and each one is absurd[EB/OL]. [2024-02-27]. https://news.sciencenet.cn/htmlnews/2024/2/517714.shtm.)
ELISABETH B. The rat with the big balls and the enormous penis – how Frontiers published a paper with botched AI-generated images[EB/OL]. [2024-02-27]. https://scienceintegritydigest.com/2024/02/15/the-rat-with-the-big-balls-and-enormous-penis-how-frontiers-published-a-paper-with-botched-ai-generated-images/.
種曉明. AIGC賦能出版業(yè)背景下版權監(jiān)管新路徑研究[J]. 科技與出版, 2023(8): 96-104. (ZHONG X M. A study on the new path of copyright supervision under the background of AIGC empowering the publishing industry[J]. Science-technology & publication, 2023(8): 96-104.)
Nature. Why Nature will not allow the use of generative AI in images and video[EB/OL]. [2023-12-20]. https://www.nature.com/articles/d41586-023-01546-4.
THORP H H. ChatGPT is fun, but not an author[J]. Science, 2023, 379(6630): 313.
The lancet. Information for authors[EB/OL]. [2023-12-20]. https://www.thelancet.com/pb/assets/raw/Lancet/authors/tl-info-for-authors.pdf.
Elservier. The use of generative AI and AI-assisted technologies in writing for Elsevier[EB/OL]. [2023-12-25]. https://www.elsevier.com/about/policies-and-standards/the-use-of-generative-ai-and-ai-assisted-technologies-in-writing-for-elsevier.
Taylor & Francis Group. Taylor & Francis editorial policies on authorship[EB/OL]. [2023-12-25]. https://authorservices.taylorandfrancis.com/editorial-policies/defining-authorship-research-paper/.
ame5. arXiv announces new policy on ChatGPT and similar tools[EB/OL]. [2023-12-25]. https://blog.arxiv.org/2023/01/31/arxiv-announces-new-policy-on-chatgpt-and-similar-tools/.
王威.《布萊奇利宣言》:人工智能國際合作監(jiān)管的新起點[J]. 服務外包, 2023(12): 46-52. (WANG W. Bletchley Declaration: a new starting point for international cooperation and regulation of artificial intelligence[J]. China outsourcing, 2023(12): 46-52.)
科技部監(jiān)督司.負責任研究行為規(guī)范指引(2023)[EB/OL]. [2023-12-22]. https://www.most.gov.cn/kjbgz/202312/t20231221_189240.html. (Supervision Department of the Ministry of Science and Technology. Guidelines for responsible research code of conduct (2023)[EB/OL]. [2023-12-22]. https://www.most.gov.cn/kjbgz/202312/t20231221_189240.html.)
國家自然科學基金委員會.科研誠信規(guī)范手冊[EB/OL]. [2023-12-22]. https://www.nsfc.gov.cn/publish/portal0/tab442/info91294.html. (National Natural Science Fundation of China. Handbook of scientific research integrity standards[EB/OL]. [2023-12-22]. https://www.nsfc.gov.cn/publish/portal0/tab442/info91294.html.)
胡彬.人工智能可否被用來寫醫(yī)學論文[N]. 健康報, 2024-01-17(5). (HU B. Can AI be used to write medical papers[N]. Health, 2024-01-17(5).)
Silvia Vaccino-Salvadore.Exploring the Ethical Dimensions of using ChatGPT in language learning and beyond[J]. Languages, 2023, 8(3): 191.
MCADOO T. How to cite ChatGPT[EB/OL]. [2024-01-29]. https://apastyle.apa.org/blog/how-to-cite-chatgpt.
MLA style center. How do I cite generative AI in MLA style?[EB/OL]. [2023-12-25]. https://style.mla.org/citing-generative-ai/.
全國信息與文獻標準化技術委員會.信息與文獻 參考文獻著錄規(guī)則: GB/T 7714-2015 [S]. 北京: 中國標準出版社, 2015. (Information and Documentation. Information and documentation—rules for bibliographic references and citations to information resources: GB/T 7714-2015[S]. Beijing: Standard Press of China, 2015.)
作者貢獻說明/Author contributions:
張艷麗:確定研究思路,撰寫論文初稿,修改論文與定稿;
管玉燕:相關政策資料收集整理,修改論文和校對格式;
宛 雪:調研、分析AIGC工具,進行數(shù)據(jù)分析和解釋,校對論文;
趙晶浩:調研、論證AIGC工具生成原理和存在風險。
The Risk Review and Countermeasures of Using AIGC in Academic Research
Zhang Yanli Guan Yuyan Wan Xue Zhao Jinghao
Tongfang Knowledge Network Digital Publishing Technology Co., Ltd.(Beijing), Beijing 100192
Abstract: [Purpose/Significance] This study aims to analyze the potential risks of using AIGC tools during academic research, study the strategies to avoid these risks and provide references and guidance for researchers so that they can use AIGC tools in compliance with rules and laws. [Method/Process] This study sorted out the policies and regulations related to the application of AIGC in academic fields at home and abroad, summarized and analyzed the main risks of using AIGC. Then, combined with the researchers’ academic research process, risk avoidance strategies and feasible suggestions for using AIGC at different stages were proposed. [Result/Conclusion] The risks of using AIGC tools for researchers mainly focus on the security of input content, the reliability of output results, academic ethical risks, and potential legal risks. Researchers should enhance their risk-awareness, understand the policy regulations, know the usage boundaries for different research stages and scenarios very well, and regulate their usage behavior to ensure that AIGC tools play a positive role in academic research.
Keywords: AIGC Generative AI academic research risk analysis countermeasure
Author(s): Zhang Yanli, master, E-mail: zyl11604@cnki.net; Guan Yuyan, master; Wan Xue, master; Zhao Jinghao, master.
Received: 2024-05-12 Published: 2024-07-22