蔡立英/編譯
谷歌人工智能顯露廣泛技能
蔡立英/編譯
●谷歌的多任務(wù)模型擅長(zhǎng)多種技能,很難將其歸類到任何一個(gè)專門的深度學(xué)習(xí)系統(tǒng)。
深度學(xué)習(xí)系統(tǒng)往往在單個(gè)技能方面創(chuàng)造奇跡:很擅長(zhǎng)受訓(xùn)要完成的任務(wù),而做其他事情則相當(dāng)糟糕?,F(xiàn)在,搜索引擎巨頭谷歌公司研發(fā)的神經(jīng)網(wǎng)絡(luò)則表明,人工智能還是能多才多藝的。
大多數(shù)深度學(xué)習(xí)系統(tǒng)被設(shè)計(jì)出來(lái)都是解決特定問(wèn)題的,比如識(shí)別坦桑尼亞的塞倫蓋蒂平原圖片中的動(dòng)物,或是從事不同語(yǔ)種之間的翻譯。但是,如果你給某個(gè)深度學(xué)習(xí)系統(tǒng)設(shè)計(jì)的是圖像識(shí)別的算法,卻重新訓(xùn)練它去完成另一個(gè)截然不同的任務(wù),比如識(shí)別語(yǔ)音,那么通常它對(duì)原本設(shè)計(jì)的圖像識(shí)別任務(wù)會(huì)變得不擅長(zhǎng)。
人類不存在這樣的問(wèn)題。我們會(huì)利用解決某個(gè)問(wèn)題的知識(shí)去完成新的任務(wù),并且當(dāng)我們開始學(xué)習(xí)一項(xiàng)新技能時(shí),通常不會(huì)忘記如何運(yùn)用已學(xué)會(huì)的技能。谷歌研發(fā)的神經(jīng)網(wǎng)絡(luò)朝著這個(gè)方向前進(jìn)了一小步,它同時(shí)學(xué)習(xí)解決各種不同的問(wèn)題,而不僅僅是專長(zhǎng)于某個(gè)領(lǐng)域。
谷歌的大腦團(tuán)隊(duì)是深度學(xué)習(xí)研發(fā)團(tuán)隊(duì)之一,其研發(fā)的神經(jīng)網(wǎng)絡(luò)能完成8個(gè)任務(wù),包括圖像和語(yǔ)音識(shí)別、翻譯和句子分析。這個(gè)深度學(xué)習(xí)系統(tǒng)被稱為“多任務(wù)模型(MultiModel)”,由一個(gè)中樞神經(jīng)網(wǎng)絡(luò)及其周圍的多個(gè)分網(wǎng)絡(luò)組成,這些分網(wǎng)絡(luò)專長(zhǎng)于理解音頻、圖像或文本相關(guān)的任務(wù)。
盡管MultiModel并沒(méi)有打破其所嘗試的各個(gè)任務(wù)的紀(jì)錄,它的成績(jī)卻全面地得到一貫的高分。例如,它的圖像識(shí)別能力準(zhǔn)確度達(dá)到86%,只比最好的專業(yè)算法差9個(gè)百分點(diǎn),能和5年前使用的最好算法相媲美。
MultiModel還顯示出了其他優(yōu)點(diǎn)。深度學(xué)習(xí)系統(tǒng)通常需要經(jīng)過(guò)大量數(shù)據(jù)的訓(xùn)練,才能很好地完成一項(xiàng)任務(wù)。但是,MultiModel似乎完全繞開了過(guò)去的這種訓(xùn)練套路,而是直接從另一個(gè)完全不同的任務(wù)的相關(guān)數(shù)據(jù)中學(xué)習(xí)。
比如,谷歌神經(jīng)網(wǎng)絡(luò)分析句子語(yǔ)法的能力,在它接受圖像數(shù)據(jù)庫(kù)的訓(xùn)練時(shí)得到了提升,盡管這個(gè)圖像數(shù)據(jù)庫(kù)與句子分析八竿子打不著。
對(duì)于神經(jīng)網(wǎng)絡(luò)已經(jīng)積累了大量數(shù)據(jù)的問(wèn)題,當(dāng)它從其他任務(wù)中學(xué)習(xí)時(shí),其表現(xiàn)大致上是相同的。
愛爾蘭都柏林?jǐn)?shù)據(jù)分析中心的塞巴斯蒂安·路德(Sebastian Ruder)對(duì)谷歌的方法印象深刻。如果一個(gè)神經(jīng)網(wǎng)絡(luò)能運(yùn)用某個(gè)任務(wù)的知識(shí)去幫助解決另一個(gè)截然不同的問(wèn)題,那么,它將更擅長(zhǎng)那些因?yàn)槿狈τ杏脭?shù)據(jù)而很難學(xué)會(huì)的任務(wù)。路德說(shuō):“這讓我們更接近強(qiáng)人工智能的目標(biāo)了?!?/p>
路德認(rèn)為,谷歌的這種方法對(duì)于制造高端的人工智能機(jī)器人同樣有用,這種人工智能機(jī)器人能在游歷世界的過(guò)程中學(xué)習(xí)。世界上充滿了無(wú)條理的音頻、圖像和文本,一個(gè)從很多不同類型的數(shù)據(jù)中學(xué)習(xí)的深度學(xué)習(xí)系統(tǒng),可能比高度專業(yè)化的機(jī)器人更容易理解這些東西。
谷歌發(fā)布了MultiModel的代碼,作為其開源項(xiàng)目TensorFlow的一部分,為其他工程師提供了體驗(yàn)這一神經(jīng)網(wǎng)絡(luò)和進(jìn)行測(cè)試的機(jī)會(huì)。不過(guò),路德指出,這一神經(jīng)網(wǎng)絡(luò)非常復(fù)雜,可能令研究者們難以弄明白它是如何習(xí)得多任務(wù)技能的。
[資料來(lái)源:New Scientist][責(zé)任編輯:田 心]