這款名為SynthID的工具,是生成式人工智能輸出水印工具家族的一部分。去年,谷歌公司推出了用于圖像的水印,隨后又推出了用于人工智能生成視頻的水印。2024年5月,谷歌宣布在其Gemini應用和在線聊天機器人中使用SynthID,并在HuggingFace這一開放的人工智能數據集和模型庫中免費提供。水印已成為幫助人們識別人工智能生成內容的重要工具,這有助于防范如虛假信息等的潛在危害。
“現在,其他生成式人工智能開發(fā)者可以使用這一技術,幫助他們檢測文本輸出是否來自自己的大語言模型,這將使更多開發(fā)者能夠更負責任地構建人工智能。”谷歌DeepMind研究副總裁普什米特·科利說。
SynthID通過在人工智能模型生成文本時,直接在文本中加入一個不可見的水印。
大型語言模型通過將語言分解為“令牌”,然后預測哪個令牌最有可能接在前一個令牌之后來運作。一個令牌可以是單個字符、單詞或短語的一部分,每個令牌都會得到一個百分比分數,表示其成為句子中下一個詞的可能性。百分比越高,模型使用該令牌的可能性就越大。
“SynthID通過在生成的那一刻引入額外的信息來改變令牌生成的概率?!笨评忉尩?。
要檢測水印并確定文本是否由人工智能工具生成,SynthID通過比較帶水印和不帶水印文本中單詞的預期概率分數來實現。
GoogleDeepMind發(fā)現,使用SynthID水印并未影響生成文本的質量、準確性、創(chuàng)造力或生成速度。這一結論來自SynthID在Gemini產品中的大規(guī)模實地測試,數百萬人使用了帶有水印的文本。Gemini允許用戶對人工智能模型的回復進行評分,選擇“贊”或“踩”。
科利和他的團隊分析了約2000萬條帶水印和不帶水印的聊天機器人回復的評分。他們發(fā)現,用戶并未察覺兩者在質量和實用性上有何差別。此次實驗的結果詳見最近發(fā)表在《自然》上的論文。目前,SynthID僅適用于谷歌的模型生成的內容,但開源這一工具的目的是希望擴大其兼容工具的范圍。
然而,SynthID也存在一些局限性。水印在應對文本裁剪、輕度編輯或重寫時具有一定的抗干擾能力,但當人工智能生成的文本被重寫或翻譯成另一種語言時,效果不如預期。在回答諸如“法國的首都是哪里”這種事實性問題時,水印的可靠性也較低。原因在于,在不改變事實的前提下,調整句子中下一個可能單詞的概率空間更為有限。
“在生成式人工智能文本中實現可靠且不可察覺的水印是極具挑戰(zhàn)性的,尤其是在輸出結果接近確定性的場景中,例如事實性問題或代碼生成任務?!瘪R里蘭大學副教授費茲說,他曾研究過人工智能水印的脆弱性。
費茲表示,GoogleDeepMind決定開源其水印方法,是對人工智能社區(qū)的一個積極信號。“這讓社區(qū)可以測試這些檢測器,并在不同的環(huán)境中評估其魯棒性,從而更好地理解這些技術的局限性?!彼a充道。
HuggingFace的機器學習工程師若昂指出,開源工具還有另一個好處,開源意味著任何人都可以使用代碼,并無附加限制地將水印整合到他們的模型中。這將提升水印的隱私性,因為只有擁有者知道其加密秘密。
“隨著可訪問性的提升和功能的驗證,我希望水印技術能成為標準,這有助于我們檢測語言模型的惡意使用?!比舭赫f道。
但水印并非萬能的解決方案,HuggingFace全球政策負責人索萊曼指出?!八∈潜U夏P桶踩囊徊糠?,但整個生態(tài)系統(tǒng)還需要許多互補的安全措施。類似地,即便是人工生成的內容,事實核查的效果也因情境而異?!彼硎?。