編譯 許林玉
近十年來(lái),許多令人印象最深刻的人工智能系統(tǒng)都使用大量帶有標(biāo)記的數(shù)據(jù)進(jìn)行學(xué)習(xí)。例如,一幅圖像可能被標(biāo)記為“虎斑貓”或“山貓”,以便“訓(xùn)練”人工神經(jīng)網(wǎng)絡(luò)能夠正確區(qū)分虎斑貓和山貓。這種策略極其成功,但同時(shí)也存在嚴(yán)重的缺陷。
這種“監(jiān)督式”訓(xùn)練需要人工標(biāo)記數(shù)據(jù),極為費(fèi)力,而神經(jīng)網(wǎng)絡(luò)通常會(huì)走捷徑,學(xué)會(huì)將這些標(biāo)記與最少的信息相關(guān)聯(lián),而這些信息有時(shí)只是表象。例如,神經(jīng)網(wǎng)絡(luò)可能會(huì)根據(jù)是否有草來(lái)識(shí)別奶牛的照片,因?yàn)樵谂臄z時(shí),通常會(huì)讓奶牛待在田野中。
加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家阿列克謝·埃夫羅斯(Alexei Efros)介紹說(shuō):“我們正在培養(yǎng)新一代算法。它們就像整個(gè)學(xué)期都沒(méi)有上課的大學(xué)本科生,然后在期末考試前一晚臨時(shí)抱佛腳。他們并沒(méi)有學(xué)習(xí)這些資料,但也可以在考試中取得好成績(jī)?!?/p>
此外,對(duì)于關(guān)注動(dòng)物與機(jī)器智能交叉領(lǐng)域的研究人員來(lái)說(shuō),這種“監(jiān)督學(xué)習(xí)”在揭示生物大腦工作原理方面可能會(huì)受到限制。包括人類在內(nèi)的動(dòng)物并不是通過(guò)標(biāo)記數(shù)據(jù)集進(jìn)行學(xué)習(xí)。在大多數(shù)情況下,他們會(huì)自己探索環(huán)境,進(jìn)而全面、深刻地了解世界。
目前,一些計(jì)算神經(jīng)科學(xué)家已經(jīng)開(kāi)始使用含有少量甚至沒(méi)有人工標(biāo)記的數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這些“自監(jiān)督學(xué)習(xí)”算法在建模人類語(yǔ)言以及識(shí)別圖像方面已經(jīng)頗具成效。在最近的研究中,與監(jiān)督學(xué)習(xí)得到的模型相比,使用自監(jiān)督學(xué)習(xí)算法構(gòu)建的哺乳動(dòng)物視覺(jué)和聽(tīng)覺(jué)系統(tǒng)的計(jì)算模型更接近大腦功能。在一些神經(jīng)科學(xué)家看來(lái),人工網(wǎng)絡(luò)似乎開(kāi)始展現(xiàn)人類大腦實(shí)際使用的一些學(xué)習(xí)方法。
大約在10年前,受人工神經(jīng)網(wǎng)絡(luò)啟發(fā)而構(gòu)建的大腦模型就已經(jīng)成熟。與此同時(shí),一個(gè)名為AlexNet的神經(jīng)網(wǎng)絡(luò)徹底改變了未知圖像的分類任務(wù)。與所有神經(jīng)網(wǎng)絡(luò)一樣,該網(wǎng)絡(luò)由多層人工神經(jīng)元構(gòu)成。這些計(jì)算單元相互連接,但強(qiáng)度或“權(quán)重”可以有所不同。如果神經(jīng)網(wǎng)絡(luò)無(wú)法正確對(duì)圖像進(jìn)行分類,學(xué)習(xí)算法就會(huì)更新神經(jīng)元之間連接的權(quán)重,以降低下一輪訓(xùn)練中出現(xiàn)錯(cuò)誤分類的概率。該算法對(duì)所有的訓(xùn)練圖像多次重復(fù)這一過(guò)程,并調(diào)整權(quán)重,直到網(wǎng)絡(luò)的錯(cuò)誤率低至可接受水平。
加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家阿列克謝·埃夫羅斯認(rèn)為,大多數(shù)現(xiàn)代人工智能系統(tǒng)都過(guò)于依賴人類創(chuàng)造的標(biāo)簽,它們并沒(méi)有真正地學(xué)習(xí)
與此同時(shí),神經(jīng)科學(xué)家使用AlexNet及其衍生網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò),開(kāi)發(fā)了靈長(zhǎng)類視覺(jué)系統(tǒng)的第一個(gè)計(jì)算模型。這種結(jié)合看起來(lái)前景光明。例如,當(dāng)猴子和人工神經(jīng)網(wǎng)絡(luò)看到相同的圖像時(shí),真實(shí)神經(jīng)元和人工神經(jīng)元的活動(dòng)表現(xiàn)出有趣的對(duì)應(yīng)關(guān)系。檢測(cè)聽(tīng)力和氣味的人工模型也隨之出現(xiàn)。
但隨著該領(lǐng)域的發(fā)展,研究人員意識(shí)到了監(jiān)督式訓(xùn)練的局限性。例如,2017年,當(dāng)時(shí)任職于德國(guó)圖賓根大學(xué)的計(jì)算機(jī)科學(xué)家萊昂·蓋蒂斯(Leon Gatys)和他的同事拍攝了一張福特T型車(chē)的照片,然后在照片上覆蓋豹皮圖案,生成了一張奇異但易于辨認(rèn)的圖像。一個(gè)行業(yè)領(lǐng)先的人工神經(jīng)網(wǎng)絡(luò)正確地將原始圖像分類為福特T型車(chē),但將修改后的圖像視為豹子。它專注于紋理,對(duì)汽車(chē)(或豹子)的形狀卻一無(wú)所知。
自監(jiān)督學(xué)習(xí)策略旨在避免這些問(wèn)題。通過(guò)這種方法,人類不用給數(shù)據(jù)貼上標(biāo)簽?!皹?biāo)簽來(lái)自數(shù)據(jù)本身?!比鹗堪腿麪柛ダ锏吕锵!っ咨釥柹镝t(yī)學(xué)研究所的計(jì)算神經(jīng)科學(xué)家弗里德曼·岑克(Friedemann Zenke)介紹道。自監(jiān)督算法本質(zhì)上是在數(shù)據(jù)中制造空白,然后讓神經(jīng)網(wǎng)絡(luò)填補(bǔ)空白。例如,在一個(gè)所謂的大型語(yǔ)言模型中,訓(xùn)練算法會(huì)向神經(jīng)網(wǎng)絡(luò)展示句子的前幾個(gè)單詞,并要求它預(yù)測(cè)下一個(gè)單詞。當(dāng)使用從互聯(lián)網(wǎng)上收集的大量文本語(yǔ)料庫(kù)進(jìn)行訓(xùn)練時(shí),模型似乎學(xué)會(huì)了語(yǔ)言的句法結(jié)構(gòu),并展現(xiàn)出極其出色的語(yǔ)言能力——所有這些都沒(méi)有施加外部標(biāo)簽或監(jiān)督。
計(jì)算機(jī)視覺(jué)領(lǐng)域也正在開(kāi)展類似的研究。2021年底,臉書(shū)的人工智能實(shí)驗(yàn)室研究科學(xué)家何凱明和他的同事展示了他們的“掩碼自動(dòng)編碼器”。該編碼器以埃夫羅斯團(tuán)隊(duì)在2016年開(kāi)創(chuàng)的技術(shù)為基礎(chǔ)。這種自監(jiān)督學(xué)習(xí)算法隨機(jī)對(duì)每張圖像的近四分之三使用掩碼。掩碼自動(dòng)編碼器將未使用掩碼的部分轉(zhuǎn)換為隱層表示——包含關(guān)于物體重要信息的壓縮式數(shù)學(xué)描述。(就圖像而言,隱層表示可能是捕捉圖像中物體形狀等信息的數(shù)學(xué)描述。)之后,解碼器將這些表述重新轉(zhuǎn)換成完整的圖像。
自監(jiān)督學(xué)習(xí)算法對(duì)編碼器和解碼器組合進(jìn)行訓(xùn)練,以將掩碼圖像恢復(fù)為完整圖像。真實(shí)圖像和重構(gòu)圖像之間的任何差異都會(huì)反饋到系統(tǒng)中,以幫助系統(tǒng)學(xué)習(xí)。該過(guò)程對(duì)一組訓(xùn)練圖像重復(fù)進(jìn)行,直到系統(tǒng)的錯(cuò)誤率降至合理程度。例如,當(dāng)一個(gè)經(jīng)過(guò)訓(xùn)練的掩碼自動(dòng)編碼器碰到一張之前沒(méi)見(jiàn)過(guò)、幾乎80%的圖像使用掩碼的公共汽車(chē)圖像時(shí),該系統(tǒng)成功地重構(gòu)了該公共汽車(chē)的結(jié)構(gòu)。
“這一結(jié)果令人印象深刻?!卑7蛄_斯說(shuō)。
相比起先前的算法,此類系統(tǒng)創(chuàng)建的隱層表示包含更深層信息。例如,該系統(tǒng)可以學(xué)習(xí)汽車(chē)或豹子的形狀,而不僅僅是它們的圖案。埃弗羅斯說(shuō):“從下至上構(gòu)建知識(shí),正是自監(jiān)督學(xué)習(xí)的基本理念?!痹僖膊挥脼榱送ㄟ^(guò)考試而臨時(shí)抱佛腳。
這類系統(tǒng)讓一些神經(jīng)科學(xué)家想到了人腦的學(xué)習(xí)方式。加拿大麥吉爾大學(xué)和魁北克人工智能研究所的計(jì)算神經(jīng)科學(xué)家布萊克·理查茲(Blake Richards)表示:“毫無(wú)疑問(wèn),大腦90%的學(xué)習(xí)活動(dòng)都是自監(jiān)督學(xué)習(xí)?!比藗冋J(rèn)為,生物大腦一直在不斷做出預(yù)測(cè),如一個(gè)移動(dòng)物體接下來(lái)的位置,或者句子中的下一個(gè)單詞,就像自監(jiān)督學(xué)習(xí)算法試圖預(yù)測(cè)圖像或文本片段中的空白一樣。大腦也會(huì)從自己的錯(cuò)誤中學(xué)習(xí)——在大腦的反饋中,只有一小部分來(lái)自外部,其他基本上都是“錯(cuò)誤答案”。
例如,參考人類和其他靈長(zhǎng)類動(dòng)物的視覺(jué)系統(tǒng)。所有動(dòng)物感覺(jué)系統(tǒng)得到了最充分的研究,但神經(jīng)科學(xué)家一直在努力解釋為什么它們包含兩個(gè)獨(dú)立的通路:用于識(shí)別物體和面部的腹側(cè)視覺(jué)流和處理運(yùn)動(dòng)的背側(cè)視覺(jué)流。
計(jì)算神經(jīng)科學(xué)家布萊克·理查茲幫助創(chuàng)造了一種人工智能,可以模仿活體大腦中的視覺(jué)網(wǎng)絡(luò)
理查茲和他的團(tuán)隊(duì)創(chuàng)建了一個(gè)自監(jiān)督模型來(lái)尋求答案。他們訓(xùn)練了一種結(jié)合兩種不同神經(jīng)網(wǎng)絡(luò)的算法:第一種稱為ResNet架構(gòu),用于處理圖像;第二種稱為回饋式架構(gòu),它可以跟蹤一系列先前的輸入,從而對(duì)下一個(gè)預(yù)期的輸入做出預(yù)測(cè)。為了訓(xùn)練聯(lián)合人工智能,該團(tuán)隊(duì)從一個(gè)序列開(kāi)始,例如從一個(gè)視頻中的10幀畫(huà)面開(kāi)始,讓ResNet逐一對(duì)其進(jìn)行處理。然后,回饋式架構(gòu)預(yù)測(cè)第11幀畫(huà)面的潛在表示,而不是簡(jiǎn)單地匹配前10幀畫(huà)面。自監(jiān)督學(xué)習(xí)算法將預(yù)測(cè)值與實(shí)際值進(jìn)行比較,并指導(dǎo)神經(jīng)網(wǎng)絡(luò)更新其權(quán)重,使預(yù)測(cè)更加準(zhǔn)確、合理。
理查茲團(tuán)隊(duì)發(fā)現(xiàn),使用單一ResNet訓(xùn)練的人工智能擅長(zhǎng)識(shí)別物體,但不擅長(zhǎng)運(yùn)動(dòng)分類。當(dāng)他們將一個(gè)ResNet拆分為兩個(gè),在不改變神經(jīng)元總數(shù)的情況下創(chuàng)建兩條通路時(shí),人工智能將其中一個(gè)用于識(shí)別物體,另一個(gè)用于運(yùn)動(dòng)分類,從而能夠像我們的大腦一樣對(duì)這些屬性進(jìn)行下游分類。
為了進(jìn)一步測(cè)試人工智能,該團(tuán)隊(duì)向其展示了一組西雅圖艾倫腦科學(xué)研究所的研究人員此前曾給小鼠播放的視頻。和靈長(zhǎng)類動(dòng)物一樣,小鼠的大腦也有專門(mén)處理靜態(tài)圖像和運(yùn)動(dòng)的區(qū)域。艾倫的研究人員記錄了小鼠觀看視頻時(shí)視覺(jué)皮層的神經(jīng)活動(dòng)。
同樣,理查茲團(tuán)隊(duì)也發(fā)現(xiàn)了人工智能和活體大腦對(duì)視頻的反應(yīng)方式具有相似之處。在訓(xùn)練過(guò)程中,人工神經(jīng)網(wǎng)絡(luò)中的一條通路變得更類似于老鼠大腦內(nèi)檢測(cè)物體的腹側(cè)區(qū)域,而另一條通路則變得類似于專注運(yùn)動(dòng)的背側(cè)區(qū)域。
據(jù)理查茲介紹,研究結(jié)果表明,只有一條通路是不夠的,因此我們的視覺(jué)系統(tǒng)有兩條專門(mén)的有助于預(yù)測(cè)視覺(jué)的未來(lái)的通路。
人類聽(tīng)覺(jué)系統(tǒng)的模型與此相似。2022年6月,由Meta AI研究員讓-雷米·金(Jean-Rémi King)領(lǐng)導(dǎo)的團(tuán)隊(duì)訓(xùn)練了名為Wav2Vec 2.0的人工智能。該人工智能使用神經(jīng)網(wǎng)絡(luò)將音頻轉(zhuǎn)換為隱層表示。研究人員隱藏了其中的一些表示,然后將其輸入到另一個(gè)被稱為轉(zhuǎn)換器的組件神經(jīng)網(wǎng)絡(luò)中。在訓(xùn)練過(guò)程中,轉(zhuǎn)換器預(yù)測(cè)被隱藏的信息。在這個(gè)過(guò)程中,該人工智能學(xué)會(huì)了將聲音轉(zhuǎn)化為隱層表示——不需要標(biāo)簽。金介紹說(shuō):“團(tuán)隊(duì)使用了大約600小時(shí)的語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò),這大約相當(dāng)于一個(gè)孩童在最初兩年接收的語(yǔ)音信息量?!?/p>
該系統(tǒng)完成訓(xùn)練后,研究人員就用英語(yǔ)、法語(yǔ)和普通話給它播放有聲讀物中的部分內(nèi)容。然后,研究人員將人工智能的性能與來(lái)自412人的語(yǔ)音數(shù)據(jù)進(jìn)行了比較。這些人由上述三種語(yǔ)言之一為母語(yǔ)的人組成。在他們聽(tīng)取同一段音頻的同時(shí),用功能性磁共振成像掃描儀對(duì)他們的大腦進(jìn)行成像。金說(shuō),盡管功能性核磁共振成像圖像有干擾信息而且分辨率低,但神經(jīng)網(wǎng)絡(luò)和人腦不僅相互關(guān)聯(lián),而且以系統(tǒng)的方式相互關(guān)聯(lián):人工智能早期層的活動(dòng)與初級(jí)聽(tīng)覺(jué)皮層的活動(dòng)一致,而人工智能最深層的活動(dòng)與大腦中較高層(即前額葉皮層)的活動(dòng)一致。“這些數(shù)據(jù)真的很漂亮,”理查茲說(shuō),“雖然它們不具有決定性作用,但這是一個(gè)令人信服的證據(jù)。它們表明,我們?cè)趯W(xué)習(xí)語(yǔ)言時(shí),很大程度上是通過(guò)預(yù)測(cè)接下來(lái)要說(shuō)的話實(shí)現(xiàn)的。”
讓-雷米·金幫助訓(xùn)練了一種人工智能,它可以模擬大腦對(duì)音頻進(jìn)行加工—部分是通過(guò)預(yù)測(cè)接下來(lái)會(huì)說(shuō)什么
這種說(shuō)法并不能讓每個(gè)人都信服。美國(guó)麻省理工學(xué)院計(jì)算神經(jīng)學(xué)家喬?!溈说履兀↗osh McDermott)利用監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)對(duì)視覺(jué)和聽(tīng)覺(jué)感知模型進(jìn)行了研究。他的實(shí)驗(yàn)室設(shè)計(jì)了一種合成音頻和視頻信號(hào)(他稱之為“metamers”)。對(duì)人類而言,這些信號(hào)只是難以理解的噪音。但對(duì)于人工神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),它們與真實(shí)信號(hào)幾乎沒(méi)有差異。這表明,即使是自監(jiān)督學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)深層形成的表示也與我們大腦中的表示不相匹配。麥克德莫特說(shuō),這些自監(jiān)督學(xué)習(xí)方法“在某種意義上是一種進(jìn)步,因?yàn)槟悴恍枰魏螛?biāo)記就可以學(xué)習(xí)支持多種識(shí)別行為的表示。不過(guò),這種方法仍然存在許多監(jiān)督模型的缺陷”。
該算法本身也有很多需要改進(jìn)的地方。例如,在Meta AI的Wav2Vec 2.0中,人工智能只能預(yù)測(cè)幾十毫秒聲音的隱層表示,這比發(fā)出能夠在感知上區(qū)分的噪聲所需的時(shí)間還短,更不用說(shuō)一個(gè)單詞了。金說(shuō):“要想讓人工智能像大腦一樣工作,依然任重而道遠(yuǎn)?!?/p>
要想真正了解大腦功能,需要的不僅僅是自監(jiān)督學(xué)習(xí)。一方面,大腦充滿了反饋連接,而目前的模型幾乎沒(méi)有這種連接。顯而易見(jiàn),研究工作的下一步是使用自監(jiān)督學(xué)習(xí)來(lái)訓(xùn)練高度循環(huán)的網(wǎng)絡(luò)——這是一個(gè)艱難的過(guò)程。此外,還要觀察這類網(wǎng)絡(luò)中的活動(dòng)與真實(shí)的大腦活動(dòng)有多大的可比性。另一個(gè)關(guān)鍵步驟是將自監(jiān)督學(xué)習(xí)模型中的人工神經(jīng)元的活動(dòng)與單個(gè)生物神經(jīng)元的活動(dòng)相匹配。金表示:“將來(lái),我們的研究結(jié)果也有望通過(guò)單細(xì)胞記錄得到證實(shí)?!?/p>
如果大腦與自監(jiān)督學(xué)習(xí)模型之間被觀察到的相似之處同樣適用于其他感官,那么這將更有力地表明,無(wú)論我們的大腦有什么魔力,都需要某種形式的自監(jiān)督學(xué)習(xí)。金說(shuō):“如果我們能在截然不同的系統(tǒng)之間找到系統(tǒng)上的相似之處,那就意味著也許沒(méi)有那么多方法能夠以智能的方式加工信息。至少,這正是我們想要尋根究底的一種美好假設(shè)?!?/p>
資料來(lái)源 Quanta Magazine