徐雷
人工智能第三次浪潮以及若干認(rèn)知
徐雷
從 1956年夏在達(dá)特茅斯(Dartmouth)學(xué)院召開的研討會(huì)算起,人工智能研究已過一甲子,潮起潮落,如今迎來了第三波浪潮。2017年是中國智能研究的重要年份,“人工智能2.0”和“腦科學(xué)計(jì)劃”兩個(gè)國家長(zhǎng)期計(jì)劃即將啟動(dòng),眾多高科技企業(yè)競(jìng)相參與。
長(zhǎng)期以來,智能一直用來表示大腦思維的能力。智能究竟是什么?這個(gè)問題至今沒有公認(rèn)的答案,不斷有人試圖從本質(zhì)上給出一個(gè)簡(jiǎn)短而精確的定義。其實(shí),早在60年前,就有一個(gè)接受度較高的提法——智能的本質(zhì)是大腦的信息處理或計(jì)算能力。這比思維能力具體了一些,有信息理論和人造的計(jì)算機(jī)做參照,但仍太籠統(tǒng),除了思辨沒有多大用途。追求智能的簡(jiǎn)要精確定義可能是個(gè)迷思,因?yàn)榇竽X是一個(gè)非常復(fù)雜的系統(tǒng),智能是該系統(tǒng)多種屬性、功能和外在表現(xiàn)的綜合。
對(duì)大腦智能的了解,可以通過對(duì)大腦智能外在描述的觀察,及對(duì)其內(nèi)在的進(jìn)一步探索。
大腦智能的外在描述可以從廣義和狹義兩個(gè)角度來討論。廣義上,所有需要經(jīng)過大腦的信息處理或計(jì)算都可以視作智能活動(dòng),主要包括心智方面的感知、注意、識(shí)別、反應(yīng)、情緒、推理、理解、覺悟、發(fā)現(xiàn)、動(dòng)機(jī)、意圖、規(guī)劃、搜索、評(píng)估、決策,以及更為一般的控制和通信活動(dòng)等。狹義上,常用“智、慧、聰、能”等字描述大腦智能,多指人類大腦獨(dú)有的、而非人類大腦所不具有的能力。隨著時(shí)代發(fā)展,人們開始發(fā)現(xiàn),過去被認(rèn)為是“智、慧、聰、能”的能力,人造計(jì)算機(jī)以及某些動(dòng)物的大腦也具備。換言之,這種狹義的智能概念是隨著人們認(rèn)識(shí)的擴(kuò)展而不斷發(fā)展的。
大腦智能的內(nèi)在探索至少應(yīng)該包含信息處理和神經(jīng)科學(xué)兩個(gè)方面。
信息處理方面,率先探索的是大腦的最基本元件?;仡櫄v史,對(duì)這方面存在一系列疑問,比如大腦系統(tǒng)究竟存在幾個(gè)基本單元?每個(gè)單元擔(dān)任什么樣角色?這些基本元件將形成幾種不同的基本通路并發(fā)揮什么作用?這些通路以怎樣的結(jié)構(gòu)形成不同功能的模塊,并如何構(gòu)成系統(tǒng)?更進(jìn)一步,還想了解在這個(gè)系統(tǒng)里信息是如何流動(dòng)的,有幾種機(jī)制協(xié)調(diào)管理這些流動(dòng)實(shí)現(xiàn)各種智能活動(dòng)等。與由電阻、電容、電感、互補(bǔ)金屬氧化物半導(dǎo)體(complementary metal oxide semiconductor,CMOS)等基本元件構(gòu)成的電路系統(tǒng)相類似,腦信息系統(tǒng)也應(yīng)該不止有一種元件。從 1943年麥卡洛克(W. S. McCulloch)和皮茨(W. Pitts)提出的神經(jīng)元模型,1959年羅森布拉特(F. Rosenblatt)的感知機(jī),1985年美國加州大學(xué)圣迭戈分校的并行分布處理(parallel distributel processing,PDP)團(tuán)隊(duì)的多層神經(jīng)網(wǎng)絡(luò),到2006年多倫多大學(xué)欣頓(G. Hinton)團(tuán)隊(duì)展示深度學(xué)習(xí)用的受限玻爾茲曼機(jī),他們考慮的都是一種元件,數(shù)學(xué)上用邏輯斯諦(Logistic)線性模型來近似其多輸入單輸出的關(guān)系。另外,從 1960年代初維塞爾(T. Wiesel)和休伯爾(D. H. Hubel)的特征檢測(cè)理論,到現(xiàn)今深度學(xué)習(xí)中廣為使用的卷積神經(jīng)網(wǎng)絡(luò),采用的是稱為S元(simple cell,簡(jiǎn)單細(xì)胞)和 C元(complex cell,復(fù)雜細(xì)胞)的兩種基本單元。
神經(jīng)科學(xué)方面,也有許多問題引起眾人關(guān)注。例如神經(jīng)元主要由哪些關(guān)鍵性物質(zhì)構(gòu)成?哪些物質(zhì)調(diào)制神經(jīng)元功能(神經(jīng)科學(xué)稱其為調(diào)質(zhì))?哪些物質(zhì)作為信息流載體(神經(jīng)科學(xué)稱其為遞質(zhì))?近年來,已被發(fā)現(xiàn)的遞質(zhì)和調(diào)質(zhì)有近百種,有待鑒定的可能性更多,可分為膽堿類、單胺類、氨基酸和神經(jīng)肽。隨著時(shí)間的推移,還會(huì)發(fā)現(xiàn)更多種這樣的物質(zhì)。
然而智能的內(nèi)在探索在上述兩個(gè)方面的發(fā)展存在很大的不平衡,投入的力量相差懸殊。盡管在關(guān)于神經(jīng)元的結(jié)構(gòu)和物質(zhì)組成上,已有不少研究發(fā)現(xiàn),但這些成果對(duì)弄清智能行為少有幫助。筆者認(rèn)為應(yīng)該將兩方面的進(jìn)展聯(lián)系起來,并思考哪些生化物質(zhì)對(duì)應(yīng)哪種基本單元,哪些物質(zhì)支撐信息流動(dòng),哪些物質(zhì)可能影響神經(jīng)元的生存和能耗,但并不直接起信息處理作用,找到這些問題的答案或許能加深對(duì)智能的理解。
近二三十年腦科學(xué)的研究進(jìn)展與人工智能第三次浪潮關(guān)系不大,不過,1960年代的特征檢測(cè)理論和1980年代的多層神經(jīng)網(wǎng)絡(luò)對(duì)第三次浪潮頗有影響。
馮·諾依曼結(jié)構(gòu)的計(jì)算機(jī)誕生后,人們產(chǎn)生了種種期待,覺得計(jì)算機(jī)像人一樣有智能,機(jī)器替代人完成各種工作的時(shí)代來臨了。著名的圖靈測(cè)試讓機(jī)器模擬人類智能行為,以此來判別機(jī)器是否擁有人工智能。當(dāng)時(shí)的研究兵分兩路,一路是人按照特別設(shè)計(jì)的語言編程,機(jī)器通過喬姆斯基(N. Chomsky)形式語法系統(tǒng)和相應(yīng)的樹搜索技術(shù)讀懂并完成可編程求解的問題或活動(dòng);另一路針對(duì)那些難以編程的問題,主要是語言理解、機(jī)器視覺、知識(shí)表示、推理規(guī)劃等。智能研究的多個(gè)分支紛紛出現(xiàn),并在1950年代掀起第一次研究浪潮。
巴洛(H. B. Barlow)、萊特溫(J.Y. Lettvin)、維塞爾和休伯爾關(guān)于特征檢測(cè)器及其理論的研究,開創(chuàng)了計(jì)算神經(jīng)科學(xué)?;邴溈蹇撕推ご纳窠?jīng)元模型的羅森布拉特的感知機(jī),既是人工神經(jīng)網(wǎng)絡(luò)研究的起始標(biāo)志,也與統(tǒng)計(jì)決策理論、霍夫變換(Hough transform)一起成為模式識(shí)別和機(jī)器視覺的源頭。喬姆斯基形式語法系統(tǒng)影響巨大,不僅是計(jì)算機(jī)程序編譯和符號(hào)人工智能的源頭,而且還推動(dòng)心理學(xué)派生出計(jì)算心理學(xué),令物理符號(hào)主義取代了起源于20世紀(jì)初的行為主義。
在其后一二十年里,這些分支分別自立門戶。符號(hào)人工智能的發(fā)展規(guī)模最大,形成了知識(shí)表示、規(guī)則推理、啟發(fā)搜索的基本體系。但是符號(hào)人工智能的知識(shí)和規(guī)則的獲取需要通過人工,然后才是機(jī)器進(jìn)行演繹,整個(gè)流程其實(shí)是編程求解的“同宗兄弟”,因而有類似的局限。這一期間,人工神經(jīng)網(wǎng)絡(luò)的研究則受到符號(hào)人工智能中某些大師的錯(cuò)誤排擠,發(fā)展停滯。
經(jīng)歷了那一段艱苦時(shí)期,曙光終于出現(xiàn)。1980年代中期,計(jì)算心理學(xué)逐步發(fā)展為認(rèn)知科學(xué),在加州大學(xué)圣迭戈分校 PDP團(tuán)隊(duì)的倡導(dǎo)下,建立在人工神經(jīng)網(wǎng)絡(luò)模擬大腦神經(jīng)元及其聯(lián)結(jié)基礎(chǔ)上的聯(lián)結(jié)主義活躍起來,其部分主要旗手轉(zhuǎn)而扛起人工神經(jīng)網(wǎng)絡(luò)的族幟,推動(dòng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)在其后十余年間掀起高潮。同時(shí),停滯了20余年的行為主義在薩頓(R. Sutton)等人的推動(dòng)下,以強(qiáng)化學(xué)習(xí)(reinforcement learning)為主題,再現(xiàn)活力。另外,模式識(shí)別和機(jī)器視覺研究也開始沿著多條線發(fā)展。一時(shí)間,人工智能研究蓬勃發(fā)展,春色滿園。這一時(shí)期可以認(rèn)為是智能研究的第二次浪潮。我國相應(yīng)地進(jìn)行了各種跟蹤研究,迎來了第一次浪潮。
1990年代中末期開始,人工神經(jīng)網(wǎng)絡(luò)的一些主要研究力量轉(zhuǎn)向推動(dòng)人工智能發(fā)展。先以貝葉斯網(wǎng)絡(luò)推理為主流,后又將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)研究進(jìn)一步推廣為研究各種機(jī)器學(xué)習(xí)方法,智能研究的第三波浪潮掀起。此次浪潮帶動(dòng)模式識(shí)別與機(jī)器視覺方向的研究再度趨熱。而集成電路、無線通信、互聯(lián)網(wǎng)、信息采集、傳感控制、物聯(lián)網(wǎng)等多種技術(shù)的積累,尤其海量數(shù)據(jù)和超級(jí)計(jì)算能力的提升,為辛頓團(tuán)隊(duì)在2006年重新審視深度神經(jīng)網(wǎng)絡(luò)創(chuàng)造了條件,他們很快在認(rèn)識(shí)上有了新突破,由此推動(dòng)人工神經(jīng)網(wǎng)絡(luò)急速升溫,促進(jìn)了神經(jīng)科學(xué)、認(rèn)知科學(xué)的繁榮和相互融入。經(jīng)過60年,智能研究相關(guān)各分支再度大整合。AlphaGo系統(tǒng)進(jìn)一步成功整合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),并讓入們?cè)俅侮P(guān)注到一甲子以前曾風(fēng)靡了一甲子的行為主義。
第三次浪潮與前兩次浪潮最為不同的是 IBM、谷歌等科技巨頭的加入,它們以雄厚資源和大兵團(tuán)作戰(zhàn)能力,雄踞龍頭,通過推出沃森(Watson)系統(tǒng)、AlphaGo系統(tǒng)等智能產(chǎn)品,持續(xù)推高第三次浪潮。這意味著針對(duì)超級(jí)復(fù)雜大系統(tǒng)的智能研究已從學(xué)者們個(gè)人的沙盤推演轉(zhuǎn)變?yōu)榇笠?guī)模團(tuán)體作戰(zhàn),這個(gè)轉(zhuǎn)變是必然的。
對(duì)于我國人工智能的發(fā)展境遇,筆者有 3點(diǎn)管見:首先,研究的龍頭應(yīng)是大科技公司或綜合體系,而非高?;蚴聵I(yè)單位的研究院所。龍頭企業(yè)的興起才是評(píng)判國家人工智能發(fā)展水平的重要因素。第二,國家規(guī)劃有助于扶持這類綜合體系的產(chǎn)生,但關(guān)鍵是領(lǐng)導(dǎo)整合能力。第三,事業(yè)型研究單位和小的高科技公司應(yīng)專注薄弱及重要環(huán)節(jié)的新方法、新技術(shù),這樣會(huì)有效加快我國人工智能前進(jìn)的步伐。
智能研究各分支的這番大整合,產(chǎn)生了不少新術(shù)語,并出現(xiàn)了若干可能會(huì)引起誤解的新提法。為避免混淆,需要對(duì)它們進(jìn)行系統(tǒng)梳理。
類腦計(jì)算(brain-inspired com-puting)最早在美國流行,是指受大腦神經(jīng)元結(jié)構(gòu)和機(jī)制啟發(fā)而研制的計(jì)算芯片,以及由這種計(jì)算芯片組建的計(jì)算系統(tǒng)。類腦計(jì)算主要包括神經(jīng)形態(tài)芯片和脈沖神經(jīng)元芯片,它的功耗遠(yuǎn)低于CMOS芯片。2017年年初,《自然材料》(Nature Materials)報(bào)道了一種更接近大腦神經(jīng)元機(jī)制的新型憶阻器芯片,或許由它組建的計(jì)算系統(tǒng)會(huì)更接近人類大腦智能。
類腦智能(brain-like intelligence)在20多年前就經(jīng)常出現(xiàn)在亞太神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)的會(huì)議上。日本理化學(xué)研究所(RIKEN)前腦科學(xué)研究院院長(zhǎng)甘利俊一(S. Amari)教授在建議用信息幾何理論對(duì)腦的學(xué)習(xí)建模時(shí),也常使用這個(gè)詞。其實(shí),它與大腦內(nèi)在沒有直接關(guān)系,只是人工智能的同義詞。它還有另外一層意思,指模擬智能的系統(tǒng)至少有一些與大腦內(nèi)在類似的東西(brain-like system)。現(xiàn)今該詞的用法多為后者,卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)嵌入了維塞爾和休伯爾特征檢測(cè)結(jié)構(gòu),也算一例。由此可見,可以認(rèn)為類腦計(jì)算是類腦智能研究的一部分。但是,從神經(jīng)科學(xué)得到的關(guān)于大腦內(nèi)在的已有知識(shí)甚少,制約了類腦智能研究的發(fā)展,算得上是類腦智能的事例至今不多。
增強(qiáng)智能(augmented intelligence)又稱腦機(jī)智能或腦機(jī)合一,源于拓展大腦對(duì)外信息輸出的通道(語言、動(dòng)作、表情、文字等)。先由機(jī)器如可穿戴設(shè)備直接獲取大腦的信息(目前主要是腦電信號(hào)),接著對(duì)其進(jìn)行不同程度的處理。增強(qiáng)智能可以用于控制各種伺服機(jī)構(gòu),如假肢、輪椅、各種裝置、人造器官等,也可以實(shí)現(xiàn)機(jī)器的高水平智能活動(dòng),形成人腦一機(jī)器接續(xù)合一,甚至完成機(jī)器的信息輸出,通過人的自然感官成人工通道(如附加電極)反饋,從而影響大腦的智能。增強(qiáng)智能不同于模擬大腦能力的人工智能,也非聳動(dòng)視聽的“對(duì)抗人工智能”,而是指“大腦智能+新的信息通道+人工智能”以增強(qiáng)或延拓大腦的智能。
群體智能(crowd intelligence)又稱群智計(jì)算,是指大量個(gè)體通過交流合作實(shí)現(xiàn)超越個(gè)體的智能。這個(gè)名詞源于30多年前對(duì)蟻群、蜂群等行為的研究,該研究主要是觀察沒有中心控制的分布式初級(jí)個(gè)體如何發(fā)生自組織。如今,群體智能關(guān)注的是高級(jí)智能個(gè)體,嚴(yán)格地說,大腦智能就是人類群體智能在每一個(gè)體大腦上的不同體現(xiàn),現(xiàn)實(shí)中很難看到一個(gè)孤立大腦的智能。人類智能實(shí)質(zhì)就是以大量個(gè)體大腦通過通信交流和儲(chǔ)存積累兩個(gè)基本要素,再由第三個(gè)要素——某些核心人物或團(tuán)體進(jìn)一步歸納提煉,逐步形成的;反之,它又會(huì)影響、教育、提升每一個(gè)體的大腦智能。當(dāng)今超級(jí)互聯(lián)網(wǎng)和強(qiáng)大的服務(wù)器大大提升了前兩個(gè)要素,而第三個(gè)要素也有人工智能、類腦智能和增強(qiáng)智能為幫手,人類智能的后續(xù)發(fā)展非常令人期待。
認(rèn)知計(jì)算(cognitive computing)這是IBM倡導(dǎo)的名詞,即其推出的超級(jí)計(jì)算機(jī)沃森的主題詞。它是近幾年IBM力推的發(fā)展方向。從概念上看,認(rèn)知活動(dòng)涵蓋感知、識(shí)別、推理、評(píng)估、決策、理解等,構(gòu)成了大腦智能的主要部分。用機(jī)器實(shí)現(xiàn)這一部分的計(jì)算,當(dāng)然屬于圖靈測(cè)試認(rèn)可的人工智能。IBM強(qiáng)調(diào),與通常計(jì)算機(jī)的數(shù)據(jù)分析所面對(duì)的人工編程和人工制表的結(jié)構(gòu)化數(shù)據(jù)不同,認(rèn)知計(jì)算可以處理非結(jié)構(gòu)化的大數(shù)據(jù)。其實(shí),非結(jié)構(gòu)化的數(shù)據(jù)處理也是人工智能的原有目標(biāo)之一,只不過之前符號(hào)人工智能實(shí)現(xiàn)不了,而今可以用大數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)來實(shí)現(xiàn)。從認(rèn)知科學(xué)角度來看,認(rèn)知計(jì)算是聯(lián)結(jié)主義和符號(hào)主義聯(lián)姻的成功案例,可大致視其為人工智能1.5。
AlphaGo是谷歌DeepMind研制的人工智能圍棋系統(tǒng)。2016年3月,它 4︰1戰(zhàn)勝李世石;2016年末和2017年初,它又在中國棋類網(wǎng)站與中日韓數(shù)十位圍棋高手進(jìn)行快棋對(duì)決,連續(xù)60局無一敗績(jī)。該系統(tǒng)也是以代表聯(lián)結(jié)主義的深度學(xué)習(xí)作為驅(qū)動(dòng)引擎。它利用大數(shù)據(jù)通過深度網(wǎng)絡(luò)學(xué)習(xí)得出對(duì)當(dāng)前棋局好壞的經(jīng)驗(yàn)評(píng)估和下一步各種落子的經(jīng)驗(yàn)概率分布;還利用大數(shù)據(jù)通過淺層網(wǎng)絡(luò)學(xué)習(xí)得出快速走子策略,驅(qū)動(dòng)蒙特卡洛樹搜索進(jìn)行前瞻性偵察,獲得關(guān)于獲勝機(jī)會(huì)的前瞻評(píng)估。此外,代表行為主義的Q學(xué)習(xí)進(jìn)一步綜合落子概率、經(jīng)驗(yàn)評(píng)估和前瞻評(píng)估后,系統(tǒng)才真正落子。不僅如此,它還要與過去的自己對(duì)弈,反復(fù)內(nèi)省之前所學(xué),鞏固贏面。從認(rèn)知科學(xué)角度來看,AlphaGo是成功整合聯(lián)結(jié)主義、行為主義、符號(hào)主義,甚至還有內(nèi)省主義的經(jīng)典案例,可以將其看作人工智能1.8。
“人工智能 2.0”是中國“科技創(chuàng)新2030重大項(xiàng)目”的幾個(gè)專項(xiàng)之一,由潘云鶴院士牽頭提出,旨在發(fā)展新一代人工智能,最近已獲國務(wù)院批準(zhǔn),將在2017年下半年進(jìn)入實(shí)施。該計(jì)劃提及的新方法和新技術(shù),囊括了大數(shù)據(jù)智能、人機(jī)混合增強(qiáng)智能和群體智能等,敦促分類型處理多媒體數(shù)據(jù)(如視覺、聽覺、文字等)邁向認(rèn)知、學(xué)習(xí)和推理的跨媒體智能,將研究的理念從機(jī)器人轉(zhuǎn)向更加廣闊的智能自主系統(tǒng)?!叭斯ぶ悄?2.0”在應(yīng)用落地方面,致力于滿足智能城市、智能經(jīng)濟(jì)、智能制造、智能醫(yī)療、智能家居、智能駕駛等從宏觀到微觀的智能化新需求。它的實(shí)施有望使我國的科研與產(chǎn)業(yè)從“跟跑”,轉(zhuǎn)變成“并跑”甚至“領(lǐng)跑”。
深度學(xué)習(xí)是人工智能第三次浪潮的引擎,它成功的原因通常被歸結(jié)于 3點(diǎn):大數(shù)據(jù)、超級(jí)計(jì)算能力和新的數(shù)學(xué)方法。前 2個(gè)原因毋庸置疑,而對(duì)第 3點(diǎn)原因的認(rèn)識(shí)卻時(shí)有爭(zhēng)議。下面就兩個(gè)常見的觀點(diǎn)作一些探討。
一種觀點(diǎn)是,以前的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)只考慮三層(即只有一個(gè)隙單元層),而現(xiàn)在的深度學(xué)習(xí)考慮很多層。這種看法有悖于歷史事實(shí)。魯梅爾哈特(D. Rumelhart)和欣頓等人在1980年代中期提出的誤差反向傳播學(xué)習(xí)針對(duì)的就是多層網(wǎng)絡(luò),當(dāng)時(shí)還有許多研究考慮的也是多層網(wǎng)絡(luò)。西本科(G. Cybenko)、霍尼克(K. Hornik)等人從1980年代末應(yīng)用函數(shù)逼近表示理論,指出三層網(wǎng)絡(luò)有所謂數(shù)學(xué)上的通用近似能力,即只要隱單元數(shù)目足夠大,用它近似任何函數(shù),都可把誤差控制得足夠小。這類研究或許影響了一部分人只關(guān)注三層網(wǎng)絡(luò),但仍有很多人在研究多層網(wǎng)絡(luò)。
另一種觀點(diǎn)是,以前的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)依靠的是誤差反向傳播,其缺陷是局部極值和誤差積累等因素導(dǎo)致反傳的深度有限。而深度學(xué)習(xí)反向行之,用無監(jiān)督學(xué)習(xí)方法,從數(shù)據(jù)輸入層開始,先學(xué)第一層參數(shù),并將數(shù)據(jù)傳到第二層,這樣第二層的情形就等同于第一層,如法炮制……最后直至監(jiān)督層。然后根據(jù)監(jiān)督標(biāo)簽得到的誤差進(jìn)行反向傳播學(xué)習(xí),精調(diào)每一層的參數(shù)。他們認(rèn)為這是突破過去的一個(gè)新數(shù)學(xué)方法。
其實(shí)這種觀點(diǎn)也與歷史不符。筆者在1990年代初提出的多層自組織學(xué)習(xí),就包含數(shù)據(jù)從輸入層傳人的逐層自組織學(xué)習(xí)與從監(jiān)督層進(jìn)入的逐層反向傳播學(xué)習(xí)。在逐層反向傳播學(xué)習(xí)中,監(jiān)督標(biāo)簽由上而下從監(jiān)督層進(jìn)入,通過改變各層使得誤差不斷減小。這個(gè)反向的監(jiān)督學(xué)習(xí),可以與由下而上的自組織學(xué)習(xí)先后進(jìn)行,也可同時(shí)實(shí)施線性疊加。這個(gè)雙向?qū)W習(xí),還可用來解釋注意和想象機(jī)制。遺憾的是,當(dāng)時(shí)由于沒有如今出色的計(jì)算能力和大數(shù)據(jù)支撐,計(jì)算實(shí)驗(yàn)只在單層上進(jìn)行,無法繼續(xù)深入。
深度卷積神經(jīng)網(wǎng)絡(luò)是另一個(gè)主要的深度學(xué)習(xí)模型,也誕生于人工智能第二次浪潮中,福島邦彥(K.Fukushima)和楊立昆(Y. LeCun)早期都做出了杰出貢獻(xiàn)。
筆者認(rèn)為,盡管深度學(xué)習(xí)過去已有“深度”,也考慮過監(jiān)督和非監(jiān)督的協(xié)同雙向?qū)W習(xí),但沒有大數(shù)據(jù)和超級(jí)計(jì)算支撐實(shí)際的計(jì)算,進(jìn)展非常不盡如人意。2006年,欣頓團(tuán)隊(duì)采用“大+超+深”(大數(shù)據(jù)+超級(jí)計(jì)算+深度)并輔以自組織的雙向?qū)W習(xí)(即監(jiān)督學(xué)習(xí)+非監(jiān)督預(yù)訓(xùn)練),產(chǎn)生了認(rèn)識(shí)上的突破,讓人們看清原來“路在腳下”。經(jīng)過十余年的發(fā)展。深度網(wǎng)絡(luò)學(xué)習(xí)終于攀上了前所未有的高峰。
在了解了深度學(xué)習(xí)成功的主要原因后,再進(jìn)一步追問兩個(gè)問題,深度學(xué)習(xí)為什么要深?監(jiān)督學(xué)習(xí)+自組織雙向?qū)W習(xí)真的可以提升學(xué)習(xí)效果嗎?
簡(jiǎn)單來說,監(jiān)督誤差會(huì)隨著學(xué)習(xí)逐漸減小,這個(gè)過程常遇到一片局部極小值眾多的區(qū)域,一旦進(jìn)入,就會(huì)很長(zhǎng)時(shí)間走不出來。倘若深度加大到一定程度,就算進(jìn)入此區(qū)域也不要緊,因?yàn)槠渲腥我粋€(gè)局部極小點(diǎn)的誤差已與全局最小誤差相差不大。而輔以非監(jiān)督預(yù)學(xué)習(xí),可減少進(jìn)入該區(qū)域的概率。如果采用隨機(jī)梯度下降算法,效果會(huì)更好些。這個(gè)說法似乎解釋了為什么要深,但又帶來一個(gè)新問題——太深是否會(huì)引起過擬合問題?
對(duì)此,一種解釋是,現(xiàn)在的深度學(xué)習(xí)采用海量的數(shù)據(jù),不存在過擬合問題,關(guān)鍵是盡量增加層數(shù)以減少欠擬合誤差。而以前的機(jī)器學(xué)習(xí)是小樣本集學(xué)習(xí),關(guān)鍵是控制模型復(fù)雜度以避免過擬合。但是,這個(gè)解釋需要證據(jù)來說明就算沒有其他輔助措施避免過擬合,“大+超+深”依然行得通。理論上,還需要分析估計(jì)深度神經(jīng)網(wǎng)絡(luò)的等效復(fù)雜度,由它來判斷數(shù)據(jù)的規(guī)模是否大到了使欠擬合轉(zhuǎn)變?yōu)橹饕堋?/p>
筆者認(rèn)為,還可以從模式層次表示的角度來回答本節(jié)開頭的兩個(gè)問題。維塞爾和休伯東的特征檢測(cè)理論認(rèn)為,每個(gè)圖像模式都由不同層次的子結(jié)構(gòu)和特征構(gòu)成。不僅是圖像,現(xiàn)實(shí)中那些已被人類所認(rèn)知的事物一般都具有這樣有效的層次表示?;谶@種層次表示,筆者對(duì)深度學(xué)習(xí)也曾給出過兩個(gè)解釋。
其一,這類可層次化的模式或概念可對(duì)應(yīng)一個(gè)因果樹(causal tree)。只要知道因果樹的根節(jié)點(diǎn)為真(即已知某種模式),便可推斷必有子節(jié)點(diǎn)為真(即必有對(duì)應(yīng)的子結(jié)構(gòu)出現(xiàn))。按此規(guī)則可以類推出所有節(jié)點(diǎn)。例如,根節(jié)點(diǎn)確定是眼睛,往下一層,應(yīng)該有一個(gè)圓形和一個(gè)橢圓形子結(jié)構(gòu);更下一層,就應(yīng)有若干弧形特征片段。這種性質(zhì)對(duì)應(yīng)于馬爾科夫(Markov)條件獨(dú)立性,即若一個(gè)節(jié)點(diǎn)的值已知,其下各支子樹之間就會(huì)變成獨(dú)立。設(shè)想一個(gè)真實(shí)反映某個(gè)模式的樹,已知標(biāo)簽告知根節(jié)點(diǎn)為真,那么真值就可以一路下傳,到達(dá)位于不同層次的那些子結(jié)構(gòu)或特征片段。下傳得越深,底層上那些節(jié)點(diǎn)就越接近獨(dú)立或分組獨(dú)立。僅靠用監(jiān)督誤差的反向傳播學(xué)習(xí),難以滿足這種約束性很強(qiáng)的結(jié)構(gòu)。
當(dāng)年筆者在研究多層自組織學(xué)習(xí)時(shí)發(fā)現(xiàn),每個(gè)神經(jīng)元引入一個(gè) S型的非線性函數(shù)后,這種從數(shù)據(jù)層開始的逐層向上的自組織學(xué)習(xí)會(huì)使得同層的神經(jīng)元變得盡量獨(dú)立或分組獨(dú)立。這個(gè)特征與監(jiān)督誤差的反向傳播學(xué)習(xí)結(jié)合,有利于發(fā)現(xiàn)和學(xué)習(xí)樹狀層次結(jié)構(gòu)。換言之,監(jiān)督學(xué)習(xí)+自組織雙向?qū)W習(xí)可以顯著提高學(xué)習(xí)效果,而且層次越多,監(jiān)督學(xué)習(xí)+自組織雙向?qū)W習(xí)越有必要。分析發(fā)現(xiàn),欣頓團(tuán)隊(duì)所用的受限玻爾茲曼機(jī)的學(xué)習(xí),情況類似。
不難發(fā)現(xiàn),樹狀層次越近底層的特征片段越小,這有利于自組織學(xué)習(xí)逐層向上變成獨(dú)立或分組獨(dú)立。不僅如此,對(duì)應(yīng)兩個(gè)或多個(gè)模式概念的因果樹可能會(huì)在不同層次上共享一些子結(jié)構(gòu)或特征片段。這不僅將顯著裁剪掉多余的結(jié)構(gòu)復(fù)雜度,而且兩樹的共同節(jié)點(diǎn)被驅(qū)動(dòng)為真的機(jī)會(huì)增加了,有利于它們下方底層上那些節(jié)點(diǎn)變成獨(dú)立或分組獨(dú)立。而神經(jīng)網(wǎng)絡(luò)的層次越多就越有利于多個(gè)模式的因果樹在不同層次上實(shí)現(xiàn)共享。
其二,基于上述模式層次表示,也可從分治—整合的角度來理解深度學(xué)習(xí)。即從監(jiān)督層向下的過程,將模式的復(fù)雜結(jié)構(gòu)分而治之地逐層分解為更簡(jiǎn)單的子結(jié)構(gòu),直到底層的基本單元;而從數(shù)據(jù)層向上的過程,驅(qū)動(dòng)與其相匹配的特征逐層向上整合,實(shí)現(xiàn)對(duì)復(fù)雜模式的認(rèn)知。按照丘奇—圖靈學(xué)說(Church-Turing Thesis),深度神經(jīng)網(wǎng)絡(luò)的計(jì)算能力應(yīng)該與圖靈可計(jì)算等價(jià)。
觀察由簡(jiǎn)單基元遞歸產(chǎn)生的層次模式,會(huì)注意到,遞歸產(chǎn)生一個(gè)特定模式至少需要一定層數(shù)。若用少于這個(gè)層數(shù)的神經(jīng)網(wǎng)絡(luò)來表示這個(gè)模式,則無法準(zhǔn)確描述該模式結(jié)構(gòu),只能是達(dá)到某種程度的近似。只要三層網(wǎng)絡(luò)的隱單元數(shù)目足夠大,就可以近似任何函數(shù)輸入—輸出之間的點(diǎn)對(duì)關(guān)系,把誤差控制得足夠小。但是,這樣做不一定能保持其函數(shù)結(jié)構(gòu),要保持結(jié)構(gòu),就必須有足夠的深度。那么,是否越深越好呢?可以把一層分為幾個(gè)更細(xì)的層,也可以把多叉樹變成深度增加的二叉樹,這些做法都不會(huì)降低準(zhǔn)確描述層次結(jié)構(gòu)的可能性,從這點(diǎn)看,似乎越深越好。不過,深度越深,對(duì)剪枝能力的要求越高,不然冗余的層間連線將造成許多虛假分支,造成過擬合的表述錯(cuò)誤。實(shí)際上,稀疏學(xué)習(xí)和嵌入特殊結(jié)構(gòu)的各種現(xiàn)有努力,針對(duì)的就是過擬合問題,這些似乎并不支持關(guān)于“大數(shù)據(jù)深度學(xué)習(xí)沒有過擬合問題,而只是欠擬合問題”的說法。
【作者單位:上海交通大學(xué)電子信息與電氣工程學(xué)院】
(摘自《科學(xué)》2017年第3期)