2018年1月13日,微軟和阿里巴巴同時(shí)宣布已開(kāi)發(fā)出“在閱讀上勝過(guò)人類(lèi)”的人工智能軟件。隨后,媒體的發(fā)酵更是讓這項(xiàng)技術(shù)突破承載了“奪走數(shù)百萬(wàn)份人類(lèi)工作”的可能。不過(guò)用理性的眼光看,該技術(shù)還遠(yuǎn)不能在閱讀方面與人類(lèi)真正達(dá)到同等水平。
兩家科技巨頭的信心來(lái)源于自家AI軟件在一項(xiàng)閱讀理解測(cè)試上得分超過(guò)普通人類(lèi)的表現(xiàn)。但是,開(kāi)發(fā)該測(cè)試的斯坦福大學(xué)科研人員表示,這兩家公司用于與機(jī)器數(shù)值對(duì)比的人類(lèi)平均水平值,并不能反映英語(yǔ)母語(yǔ)人群的實(shí)際閱讀能力,所以“機(jī)器比人類(lèi)更會(huì)閱讀”一說(shuō)有失偏頗。一位直接參與此項(xiàng)目的微軟研究人員也表示:只有人才能充分理解語(yǔ)言中的細(xì)節(jié)和含義,而機(jī)器確實(shí)還差得遠(yuǎn)。
過(guò)往科技公司在AI上的技術(shù)突破,尤其是豪言“超越人類(lèi)”的突破,大多都值得商榷。2015年,谷歌和微軟同時(shí)宣布自家的算法在圖像辨別方面已勝過(guò)人類(lèi)。事實(shí)上,當(dāng)時(shí)作為評(píng)判依據(jù)的那項(xiàng)測(cè)試,要求被測(cè)試者將圖像分為1000類(lèi),其中120類(lèi)是不同狗的品種。自然,這對(duì)于普通人類(lèi)的難度,要遠(yuǎn)遠(yuǎn)高于能預(yù)先通過(guò)大量樣本學(xué)習(xí)的機(jī)器。
另一方面,人類(lèi)在真正理解圖像上的能力仍遠(yuǎn)勝于機(jī)器,因?yàn)楹笳卟痪哂谐WR(shí)性的認(rèn)知能力:谷歌目前仍在特意審查“大猩猩”詞條的搜索結(jié)果,以防自家的圖像搜索引擎將其與黑人圖像相混淆。
類(lèi)似地,2016年微軟宣布已開(kāi)發(fā)出“歷史性的”、能真正達(dá)到人類(lèi)水準(zhǔn)的語(yǔ)音識(shí)別軟件。而幾個(gè)月后,IBM重新評(píng)估了人類(lèi)在微軟所用評(píng)測(cè)中的平均水平,并發(fā)現(xiàn)人類(lèi)的表現(xiàn)遠(yuǎn)比微軟先前所取的數(shù)值高。到目前為止,機(jī)器還遠(yuǎn)不能像人類(lèi)一樣“聽(tīng)懂”在嘈雜環(huán)境中的閑聊內(nèi)容、口語(yǔ)化或含糊的言談、抑或是不同口音的對(duì)話。
無(wú)獨(dú)有偶,微軟和阿里巴巴近日提出的關(guān)于軟件在閱讀理解方面超越人類(lèi)的宣言也是建立在很多附加條件之上。這次用于橫向比較機(jī)器和人類(lèi)的測(cè)試叫SQuAD,由斯坦福大學(xué)開(kāi)發(fā),形式類(lèi)似于大家以前上學(xué)做的閱讀理解題。機(jī)器學(xué)習(xí)軟件就從維基百科上摘錄的文段答一萬(wàn)個(gè)問(wèn)題,例如“水滴與冰晶碰撞形成降水的地方在哪里?”,作答形式是將答案(“云層中”)從原文中找出來(lái)并高亮。參與測(cè)試前,軟件制作者可以通過(guò)分析九萬(wàn)個(gè)附有答案的樣本題來(lái)搭建軟件。
在一月早些時(shí)候,微軟和阿里巴巴向斯坦福大學(xué)提交了模型并分別做到在測(cè)試中準(zhǔn)確高亮出82.65%和82.44%的答案,而斯坦福大學(xué)所取用的代表人類(lèi)水平的數(shù)值是82.304%。阿里巴巴的官方報(bào)道中稱(chēng)自家軟件“在最具難度的閱讀理解測(cè)試中超越人類(lèi)”,微軟也自詡“已做出可以像真人一樣閱讀文件并答題的軟件。”
SQuAD的創(chuàng)造者之一、斯坦福大學(xué)教授PercyLiang表示自己在2016年設(shè)計(jì)該測(cè)試時(shí)的初衷并非為了精準(zhǔn)比較機(jī)器和人類(lèi)的能力,而且從設(shè)計(jì)原理上看,這項(xiàng)測(cè)試對(duì)機(jī)器更有利,因?yàn)闄C(jī)器和人類(lèi)的評(píng)分標(biāo)準(zhǔn)是不一樣的:微軟和阿里巴巴使用的人類(lèi)成績(jī)來(lái)自Mechanical Terk,每道題目會(huì)選出三個(gè)答案,一個(gè)是所謂的“測(cè)試者答案”,兩個(gè)是用來(lái)對(duì)比的答案,只用兩個(gè)對(duì)比答案降低了“測(cè)試者答案”答對(duì)的幾率,讓人類(lèi)和機(jī)器相比落了下風(fēng)。
學(xué)界對(duì)科技行業(yè)這種結(jié)論也提出了質(zhì)疑。以色列巴伊蘭大學(xué)的一位高級(jí)講師瑤夫·戈德伯格就表示,該測(cè)試用Amazon Mechanical Turk上的普通勞動(dòng)力資源答題,本質(zhì)上就不能代表人類(lèi)的真實(shí)水平。首先,眾包平臺(tái)上的勞動(dòng)力水平參差不齊,其次這些一小時(shí)掙9美金的人在接這種科研性質(zhì)的“活”時(shí)也不太可能認(rèn)真閱讀那些wiki文段或者在乎答案的對(duì)錯(cuò)。82.304%這個(gè)數(shù)字更多代表的是一群AMT worker答題的統(tǒng)一性,而非人類(lèi)閱讀理解的實(shí)際平均水平。
就此次“宣言”接受美國(guó)《連線》雜志詢(xún)問(wèn)時(shí),微軟科研經(jīng)理高建峰(音譯)也通過(guò)一封公開(kāi)信表示:“目前我們所做的研發(fā)和測(cè)試仍有很多限制和紕漏??偟膩?lái)看,人類(lèi)確實(shí)在理解語(yǔ)言這種復(fù)雜且微妙的事物時(shí),遠(yuǎn)遠(yuǎn)強(qiáng)于機(jī)器?!?/p>
不過(guò),微軟和阿里巴巴借此展現(xiàn)出的在AI領(lǐng)域取得的突破是有目共睹的。參與SQuAD的斯坦福大學(xué)科研團(tuán)隊(duì)成員普拉納夫·拉普卡就對(duì)兩家公司的科研團(tuán)隊(duì)大加贊賞。同時(shí),他表示SQuAD團(tuán)隊(duì)要繼續(xù)優(yōu)化測(cè)試的機(jī)制,從而讓SQuAD繼續(xù)做衡量機(jī)器學(xué)習(xí)軟件在閱讀理解領(lǐng)域成功與否的標(biāo)尺。前文提到的SQuAD創(chuàng)始人之一梁教授也評(píng)論說(shuō):“[SQuAD]現(xiàn)有的評(píng)估機(jī)器能力的方法太過(guò)側(cè)重于表面上的內(nèi)容連線,而非考察真正的對(duì)文字含義的理解。”
美國(guó)西雅圖艾倫人工智能研究所的CEO,奧倫·埃奇奧尼對(duì)AI領(lǐng)域頻頻出現(xiàn)的突破既感到激動(dòng),又保持審慎:“看到機(jī)器學(xué)習(xí)已能在一些單一任務(wù)上趕超人類(lèi),我感到很高興。開(kāi)發(fā)專(zhuān)門(mén)應(yīng)對(duì)某項(xiàng)任務(wù)的軟件,比如廣告定向、家用音響,將會(huì)是很實(shí)用且賺錢(qián)的行業(yè)?!辈贿^(guò)同時(shí),AI還有很長(zhǎng)的路要走——“人類(lèi)在進(jìn)化中培養(yǎng)出的這種自然性的語(yǔ)言交流和理解,仍給AI留了很深遠(yuǎn)的探索空間?!卑F鎶W尼補(bǔ)充道。(摘自美《深科技》)(編輯/小文)