黃珊 李亞山
你在鍵盤上輸入開頭:“這是一個關于小狗Boo的故事?!逼讨螅珹I為你返回一個完整的敘事:“這是一個關于小狗Boo的故事。Boo是一只拉布拉多犬,它愛人類勝過一切。一年多前,弗吉尼亞州阿靈頓市的狗狗救援行動救助了Boo,它是一只被遺棄的小狗(現(xiàn)在兩歲)。Boo的故事令人動容?!?/p>
這不是假新聞,而是OpenAI開發(fā)出來的最新語言模型所能實現(xiàn)的效果。在此前的DOTA2 AI慘敗后,這家馬斯克倡導成立(現(xiàn)已退出董事會)的AI機構在今天發(fā)布了其自然語言處理(NLP)模型——GFF-2。GFF-2最大的亮點是可以生成給定單詞或句子的連貫文本,而且在一系列NLP測試中實現(xiàn)最佳(或接近最佳)性能。我們可以簡單地將其理解為一款“洋蔥新聞AI”,但它的價值遠不止于此。
自然語言處理專家、Salesforce首席科學家Richard Socher對《麻省理工科技評論》表示,OpenAI這次的工作展示了一個更通用的語言學習系統(tǒng),這些通用學習系統(tǒng)代表著未來。
人類語言的力量已經(jīng)不必多說,但也正是因為其強大,構建真正理解人類語言的AI的過程也異常艱辛。目前,我們已經(jīng)迎來幾項標志性成果,例如谷歌的BERT,它利用預訓練好的模型,可以在幾個小時內在單個顯卡上訓練最先進NLP模型,而Facebook的PyText,則可以每天為社交網(wǎng)絡的應用程序和服務生成超過10億個預測。這些成果已經(jīng)推動了NLP相關的研究。但是,在沒有人工制作的語法規(guī)則和精心標記的數(shù)據(jù)集輔助的情況下,AI目前還難以實現(xiàn)自然“說話”。這也是為什么OpenAI這次的研究非常值得關注的原因。
先前的研究表明,無監(jiān)督學習從非分類、無注釋的數(shù)據(jù)中學習可以用于從通用模型到特定的語言任務。OpenAI認為,GFF-2的誕生表明,足夠大的語言模型可以在不需要特定領域數(shù)據(jù)集或修改的情況下學習NLP任務。
這些模型核心的神經(jīng)網(wǎng)絡由神經(jīng)元組成,這些神經(jīng)元仿照生物神經(jīng)元松散建模實現(xiàn)數(shù)學功能。這些神經(jīng)元與層層排列的能傳遞信號給其他神經(jīng)元的“突觸”相連。數(shù)據(jù)信號從一層傳遞到另一層,然后通過調整每個連接的突觸強度(權重)來緩慢地“調整”神經(jīng)網(wǎng)絡。隨著時間的推移,神經(jīng)網(wǎng)絡就能從數(shù)據(jù)集中提取特征并識別樣本之間的趨勢,最終學會做出預測。
GFF-2基于OpenAI先前的研究成果GPT。有意思的是,2018年轟動NLP領域的谷歌BERT模型,其很多思想也與GPT這個“前輩”有關系。GPT-2繼承了GPT的一些特性,在一定程度上同樣依賴Transformers實現(xiàn)其效果Transformers是一種相對新穎的神經(jīng)結構,于2017年由Google Brain團隊在論文《Attention Is All You Need》中引入。
Transformers為這一復雜過程增添了“自注意力機制”。神經(jīng)元群以不同的速率傳遞信號,并將信號以某種智能的方式傳送到下一層。這種結合40GB、800萬條網(wǎng)絡評論、帖子和文章相當于100億個單詞的架構調整,可以讓OpenAI模型查詢之前經(jīng)驗的相關信息,而且十分簡單快速。OpenAI數(shù)據(jù)解決方案和語言研究主管Alec Radford在一次電話簡報中告訴表示:“一些人工智能模型強行將上下文的所有信息匯總或壓縮成一個固定長度,這是一項非常困難的任務。這與以自我關注為基礎的模型截然相反,自我關注模型將所有不同的單詞放在上下文中,并學習如何查詢之前信息的功能。如果模型看到像‘先生或‘太太這樣的單詞,就可以學習如何查看文檔和前面所有的單詞,并判斷出哪一個名字可能跟在這一稱謂后面。”
已有的測試顯示,輸入“敏捷的棕色狐貍躍過了一只狗”,模型處理后寫到:“敏捷的棕色狐貍躍過了一只狗。這只狗真懶!這有什么了不起的?我問到,棕色狐貍笑了,狗也舔了舔嘴唇。我不知道。但你不必知道,因為一旦你懂了……我懂了,我說。輸入“John今天早上醒來感覺很餓”,模型返回“John今天早上醒來感覺很餓。這是因為這家餐廳一般會營業(yè)到7月份,但由于感恩節(jié)假期,餐廳有些窗口關門了。John的晚飯只有一份拌上奶酪和調味品的新鮮蔬菜沙拉。土豆是棕色的,沙拉很有味道?!?/p>
而在另一類Amazon模型的測試中(用于指定產(chǎn)品類別、產(chǎn)品名稱、評論得分和評論摘要),輸入“一個很棒的手機”,隨后,產(chǎn)品切換設置為“手機及配件”,評論等級設置為“5”。它生成的是:“這款手機太棒了!我是2013年7月買的。我還會購買第二部的。它能通過麥克風發(fā)短信、播放音樂和與他人交談,而且音質很好。不過耳塞戴上幾個小時后,耳朵有點不舒服。我遇到的唯一問題是電池的壽命。這只是技術上的問題,手機使用一段時間后就會耗電嚴重。除此之外,我喜歡這款手機。這是我用過的最好的手機。這是一款很棒的手機。機殼的觸感很好,但是很容易變臟。如果你的手機上有攝像頭,你可以用它拍照。我上傳了自從我有了手機后的照片。不得不說上面這個評論已經(jīng)和人類用戶給出的評論非常接近了,無論是表達還是信息組織的邏輯。
對此,OpenAI表示,模型在第一次運行時,大約有一半的時間會生成“有趣的”和“連貫的”文本。Radford說:“它試圖在盡可能少的信息下預測下一個單詞。你能給出的上下文越多,它就會表現(xiàn)得越好?!倍趜ero-shot任務遷移的實驗中,模型沒有事先在任何特定于測試的數(shù)據(jù)集上進行訓練,OpenAI表示,該模型的四種語言系統(tǒng)中最大的語言系統(tǒng)OpenAI gps-2在八個基準測試中,成功地在七個測試中獲得了最佳分數(shù),包括LAMBADA測試(模型在文本中建模長期依賴關系能力的測試)、Winograd模式挑戰(zhàn)(解決文本中歧義的能力的測試)和Penn Treebank(包含數(shù)百萬個標記了部分的文本的演講集合)。
它還顯示出無監(jiān)督學習任務的執(zhí)行能力。在回答問題的測試中,它在獲得上下文的情況下的準確率達到83.4%?!八軌蚶酶蟮哪P秃透嗟臄?shù)據(jù)成為一個‘多面手,一般的語言預測任務都能執(zhí)行得很好。在一些非常有針對性的任務中,如匯總或翻譯,它也展示了初步的潛力。這太令人興奮了,因為我們沒有明確針對這些任務進行訓練?!盧adford說。盡管如此,Radford和OpenAI技術人員杰弗里·吳(Jeffrey Wu)也承認,這還遠遠不是自然語言處理的終點:這些模型一次只能看到一頁以下的數(shù)據(jù),而且在推理時邏輯并不完全一致——有時會有很夸張的數(shù)字,或者以一種荒謬的方式跑題了。OpenAI團隊未來將繼續(xù)改進這些問題。
與以往的做法不同的是,這一次,OpenAI既不發(fā)布用于培訓NLP模型的數(shù)據(jù)集,也不發(fā)布相關的語言模型或培訓代碼。它認為,發(fā)布這些信息可能會為濫用打開大門。OpenAI在博客中寫道:“同樣的工具,一個藝術家可以利用來幫助他們寫一個短篇小說的故事,可以用來制作關于某個公司的財務新聞,也可以在知名網(wǎng)站上創(chuàng)建虛假評論,甚至是強化政治性輿論影響……基于這些考慮,我們本著負責任的態(tài)度發(fā)布這個模型,希望貢獻或者得到溝負責任的討論,從而使記者、決策者等其他重要利益相關者也能夠理解和驗證我們所做的事情?!?/p>
OpenAI所做的這項工作,其實也呼應了當下全球信息傳播中的一個重要議題——可以用來生成誤導性內容的AI系統(tǒng)正受到越來越多的審查。2018年9月,美國國會議員就要求情報機構就deepfake(AI視頻造假)對國家安全的潛在影響提交報告。在2018年末的一次國會聽證會上,國會議員們在與Facebook首席運營官謝麗爾-桑德伯格和推特首席執(zhí)行官杰克-多爾西交談時,也表達了對操縱deepfake的潛在影響的擔憂。
我們不排除,甚至可以肯定的說,未來OpenAI最新的這款語言模型或者其他類似的模型一定會被用來生成不真實或誤導性的故事。數(shù)據(jù)顯示,2018年3月,半數(shù)美國人表示在新聞網(wǎng)站上看到了故意誤導的文章。有機構預測,如果目前的趨勢持續(xù)下去,到2022年,大多數(shù)發(fā)達國家的人每天將看到更多的虛假信息,而非真實信息。因此,OpenAI的顧慮是完全合理的。
現(xiàn)在也有不少團隊正在開發(fā)能夠與假新聞AT對抗的AI。例如,麻省理工學院的研究人員就在試圖用自動化工具來對抗人工和AI編寫的假新聞,這些工具可以判斷消息來源的準確性或政治偏見。但是,一些專家不相信這樣的做法能取得多顯著的效果。
卡內基梅隆大學機器人研究所的科學家迪安·波默洛參與組織了“假新聞挑戰(zhàn)賽”,這是一項眾包偏見檢測算法的競賽。他在一次采訪中透露,AI缺乏對語言的細微理解,而這些理解是研究不真實和虛假陳述所必需的?!皩嶋H上,我們一開始就有一個更宏偉的目標,那就是創(chuàng)建一個能夠回答‘這是假新聞嗎,是還是不是?這個問題的系統(tǒng)。”“他說。“但我們很快意識到機器學習無法勝任這項任務。”但也不用如此消極。很明顯,各國在政策領域還有很多改善的空間。OpenAI也希望通過這次研究,不僅能展示它在NLP領域取得的成果,還能在研究人員和監(jiān)管機構之間引發(fā)辯論。
除了對假新聞的擔憂以外,這次的研究還繼續(xù)佐證了目前深度學習研究領域的一個“法則”(甚至可以認為是“詛咒”):數(shù)據(jù)、計算資源和人才三大關鍵因素缺一不可,突破性成果越來越可能只有大機構大企業(yè)才能支撐完成。無論是去年3億參數(shù)的BERT,還是現(xiàn)在動用了15億參數(shù)、每小時訓練價格高達2048美元的GVF-2,都沒有避開。(摘自美《深科技》)(編輯/多洛米)