文/翼 德
北京環(huán)球度假區(qū)開園后,“話嘮機(jī)器人”威震天成了第一網(wǎng)紅,不少人去環(huán)球影城就為一睹威震天,跟他嘮上幾句。飽滿的聲音以及拿捏極好的人設(shè),讓威震天一度被認(rèn)為是AI控制的。實際上,聲音來自機(jī)甲里的真人。
當(dāng)前AI的高速發(fā)展,讓人們毫不懷疑一臺機(jī)器也可以與游客聊得妙趣橫生、充滿個性。
跟機(jī)器聊天早就不是新鮮事。比如Siri、天貓精靈、小度等早已為人們所熟知,連火星車都能直接從火星發(fā)布短信息,有時候我們說不清某些BOT賬號是人還是機(jī)器。
這讓“人工智能之父”艾倫·圖靈的假想測試走到了我們身邊,也讓我們開始懷疑:這個經(jīng)典的人工智能測試,似乎沒那么難以逾越,它還有那么大意義嗎?
圖靈測試,曾被認(rèn)為是評估人工智能熟練程度的最好辦法。1952年,圖靈的《計算機(jī)與智能》開篇是一個問題:“機(jī)器能思考嗎?”。而圖靈認(rèn)為機(jī)器“思考”與否只能體現(xiàn)為一個實驗:人類面試官與藏在幕后的家伙筆談,去猜這是人還是機(jī)器。如果面試官猜不出,那機(jī)器在思考能力上就和人沒有區(qū)別。
但圖靈測試的實質(zhì),不是機(jī)器有多強(qiáng),而是機(jī)器和人的對話是否合乎人的習(xí)慣。而一臺不怎么高級的機(jī)器,也能被大家認(rèn)為聊天聊得挺成功。
比如蘋果的Siri或亞馬遜的Alexa,為了確保機(jī)器能聰明對話,蘋果和亞馬遜公司先是記錄用戶都怎么跟系統(tǒng)聊天,收集常見的提問和查詢,再讓創(chuàng)意團(tuán)隊一條條編寫相應(yīng)的回答。
讓許多技術(shù)觀察家驚訝的是,這種笨辦法的效果非常好。雖然一句話對應(yīng)一個預(yù)設(shè)腳本,機(jī)制特簡單,不涉及什么復(fù)雜的社交思考能力。然而機(jī)器回復(fù)多用幾句諷刺妙語,就讓許多用戶感到震驚,并因此大大肯定機(jī)器的智能水準(zhǔn)了。Siri大受歡迎表明,俗人對AI的評價,與AI的實力并不對應(yīng)。
簡單機(jī)制不變,只要我們再多收集它一千萬億條對話,再多寫一堆“有個性有情感有靈氣”的回應(yīng),那機(jī)器不僅會被認(rèn)作人,可能還會被認(rèn)作一個情商頗高的人。
甚至不需要多少創(chuàng)意寫手,圖靈當(dāng)年還沒有互聯(lián)網(wǎng),所以他可能想不到,好多人類提出的問題,都被問爛了,AI可以在互聯(lián)網(wǎng)上輕松找到最佳回復(fù),顯得比一般水準(zhǔn)的人聰明得多呢。
這就涉及對人類所謂的智能和意識的反思了。我們要問問自己,我們真的比機(jī)器更加有意識,有靈魂,有創(chuàng)意嗎?我們是否也只是偶然學(xué)了幾句套話,就鸚鵡學(xué)舌了一輩子?這么一群淺薄的,不挑剔的,容易被糊弄的大腦,去做圖靈測試的面試官,面試結(jié)果有多大價值?
其實,現(xiàn)在有些AI研發(fā)者,已經(jīng)放棄了圖靈測試。
亞馬遜在2016年推出Alexa時,就如何評估AI激烈辯論。是爭取讓人相信社交機(jī)器人是人類,好通過圖靈測試?還是讓AI做到自然交談,幫助人學(xué)習(xí)和娛樂就可以?
亞馬遜要開發(fā)一個具備類人對話能力的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。它確定了一個新測試,要求社交機(jī)器人與人類就娛樂、體育、政治和技術(shù)等廣泛的熱門話題進(jìn)行20分鐘的連貫和引人入勝的對話。人類評委按連貫性和自然度打分——如果任何社交機(jī)器人能連續(xù)聊20分鐘,并且被評分4.0以上,就算達(dá)標(biāo)了。
目前來看,亞馬遜的聊天AI挺成功,他們的思路也很受重視。而亞馬遜也認(rèn)為,AI應(yīng)該有效地完成任務(wù),而不是假裝人。
圖靈的思路和亞馬遜的思路,是對AI本質(zhì)的理解的大相徑庭。圖靈繼承的是歐洲傳統(tǒng)的機(jī)器模擬人的奇幻思想,機(jī)器能與人對話,并且表現(xiàn)得像人,是一個讓人極感興奮愉悅的事兒,靈性價值是第一,實用價值不考慮。而亞馬遜明確把AI看作工具:拖拉機(jī)會說話也是為了更好地耕田。
這兩種思路無所謂對錯,你贊同哪種思路,主要看你的興奮點在哪里。很多人覺得Siri已經(jīng)足夠好玩,并不需要更有“深度”的機(jī)器陪他們談星星月亮人生理想,那么亞馬遜的創(chuàng)新正是他們應(yīng)該資助的方向。