2024年5月21日,著名影星斯嘉麗·約翰遜指控OpenAI的ChatGPT非法使用其聲音并要求下架,表示對(duì)OpenAI的行為感到“震驚”和“憤怒”。對(duì)此,OpenAI回應(yīng)稱,將暫停使用“Sky”模式的聲音,并詳細(xì)介紹了語(yǔ)音選擇的創(chuàng)作流程,強(qiáng)調(diào)所有配音均來(lái)自專(zhuān)業(yè)演員。
此前,OpenAI推出新旗艦?zāi)P虶PT-4o,該模型在保留了之前的五種語(yǔ)音模式的基礎(chǔ)上,大大提升了圖像和音頻理解方面的能力,能夠進(jìn)行實(shí)時(shí)語(yǔ)音通信,可以識(shí)別說(shuō)話者音調(diào)和背景噪音,甚至可以輸出笑聲、歌唱聲和表達(dá)情感的語(yǔ)氣聲。
5月21日,斯嘉麗·約翰遜在社交平臺(tái)發(fā)長(zhǎng)文指控OpenAI非法使用她的聲音, 要求下架“S k y ”模式。她表示,這種行為不僅侵犯了她的權(quán)利,還引發(fā)了公眾對(duì)AI技術(shù)濫用的擔(dān)憂。
斯嘉麗在其長(zhǎng)文中透露, 早在2023年9月,OpenAI曾聯(lián)系她,希望她為ChatGPT的語(yǔ)音模式配音,但因個(gè)人原因她拒絕了這個(gè)邀請(qǐng)。就在產(chǎn)品發(fā)布會(huì)前兩天,OpenAI再次嘗試說(shuō)服她配音,依舊遭到拒絕。然而,斯嘉麗在最終發(fā)布的產(chǎn)品中發(fā)現(xiàn)“Sky”模式的聲音與她本人非常相似。她表示,自己聽(tīng)到演示的聲音后,感到震驚、憤怒和難以置信, 無(wú)法相信O p e n A I竟會(huì)使用一個(gè)如此像她的聲音,連她的親密朋友和新聞媒體都分辨不出“Sky”和她本人聲音的差別。
此外, 斯嘉麗提到,OpenAI首席執(zhí)行官薩姆·阿爾特曼在GPT-4o發(fā)布時(shí),在社交平臺(tái)上只發(fā)了一個(gè)詞“Her”,不禁讓人聯(lián)想到,斯嘉麗在2013年科幻AI電影《Her》中為“女主角”(人工智能系統(tǒng)OS1)配音的經(jīng)歷,是否在暗示這種相似是故意為之?
斯嘉麗強(qiáng)調(diào),“在這個(gè)我們都在努力應(yīng)對(duì)深度偽造,保護(hù)自身形象、作品和身份的時(shí)代, 我認(rèn)為這些問(wèn)題需要得到絕對(duì)的明確。我期待通過(guò)立法和透明的處理方式來(lái)解決這些問(wèn)題,以確保個(gè)人權(quán)利得到保護(hù)。”
面對(duì)指控,OpenAI迅速做出反應(yīng),宣布暫停使用“Sky”模式的聲音。他們?cè)诠倬W(wǎng)上詳細(xì)介紹了ChatGPT語(yǔ)音模式的創(chuàng)作流程,強(qiáng)調(diào)所有聲音都是從400多名專(zhuān)業(yè)配音演員中挑選出來(lái)的,并經(jīng)過(guò)嚴(yán)格的審核。
OpenAI的官方聲明中提到:“我們收到了關(guān)于ChatGPT選取聲音方式的一些質(zhì)疑,尤其是針對(duì)‘Sky’。目前,我們正積極采取措施,暫?!甋ky’的使用,以解決這些問(wèn)題?!?/p>
此前,ChatGPT的語(yǔ)音模式包括Breeze、Cove、Ember、Juniper和Sky等5種聲音。這些聲音經(jīng)過(guò)精心挑選,以滿足用戶的多樣化需求。每種聲音都擁有獨(dú)特的情感和聲音特質(zhì),為用戶提供了更加豐富的交互體驗(yàn)。
而最新發(fā)布的GPT-4o版本不僅保留了之前的5種語(yǔ)音模式,還進(jìn)一步提升了語(yǔ)音交互的自然度和情感表達(dá)能力。GPT-4o在語(yǔ)音識(shí)別和生成方面進(jìn)行了多項(xiàng)改進(jìn),使得AI助手更加智能和人性化。
據(jù)介紹, 新模型使Chat GPT能夠處理50種不同的語(yǔ)言,同時(shí)提高了速度和質(zhì)量。
GPT-4o是邁向更自然人機(jī)交互的一步,它可以接受文本、音頻和圖像三者組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,與現(xiàn)有模型相比,GPT-4o在圖像和音頻理解方面大有改進(jìn)。
在GPT-4o之前, 用戶使用語(yǔ)音模式與ChatGPT對(duì)話時(shí),GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,音頻在輸入時(shí)還會(huì)由于處理方式丟失大量信息,使得GPT-4無(wú)法直接識(shí)別說(shuō)話者音調(diào)和背景噪音,也無(wú)法輸出笑聲、歌唱聲和表達(dá)情感的語(yǔ)氣聲。
與之相比,GPT-4o可以在232毫秒內(nèi)對(duì)音頻輸入做出反應(yīng),與人類(lèi)在對(duì)話中的反應(yīng)時(shí)間相近。在錄播視頻中,兩位高管做出了演示:機(jī)器人能夠從急促的喘氣聲中理解“緊張”的含義,并且指導(dǎo)他進(jìn)行深呼吸,還可以根據(jù)用戶要求變換語(yǔ)調(diào)。
OpenAI稱,“我們跨文本、視覺(jué)和音頻端到端地訓(xùn)練了一個(gè)新模型,這意味著所有輸入和輸出都由同一神經(jīng)網(wǎng)絡(luò)處理。由于GPT-4o是我們第一個(gè)結(jié)合所有這些模式的模型,因此我們只是淺嘗輒止地探索該模型的功能,還存在較大局限性?!?(綜合整理報(bào)道)(策劃/李嘉婧)
海外星云 2024年7期