沈建苗
機(jī)器學(xué)習(xí)、尤其是深度學(xué)習(xí)這一主題是許多科技刊物競(jìng)相報(bào)道的最熱門話題之一。這個(gè)領(lǐng)域值得重點(diǎn)關(guān)注和報(bào)道有充足的理由。
機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的范圍和影響已在眾多學(xué)科的無數(shù)應(yīng)用領(lǐng)域一再得到了體驗(yàn)和證明。廣告、自動(dòng)駕駛車輛、聊天機(jī)器人、網(wǎng)絡(luò)安全、無人機(jī)、電子商務(wù)、金融技術(shù)、工業(yè)機(jī)械、醫(yī)療保健、市場(chǎng)營(yíng)銷、機(jī)器人和搜索引擎,這些只是受到機(jī)器學(xué)習(xí)/深度學(xué)習(xí)重大影響的幾個(gè)關(guān)鍵領(lǐng)域而已。
機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的好處不再只有買得起高端裝備的少數(shù)精英群體才能享用。產(chǎn)品推薦工具和價(jià)位合理的聊天機(jī)器人在普通群體中流行起來,這點(diǎn)不可否認(rèn)。明眼人都看得出來,機(jī)器學(xué)習(xí)/深度學(xué)習(xí)在一大批新的未開拓領(lǐng)域還有待發(fā)揮所長(zhǎng)。
開發(fā)和部署機(jī)器學(xué)習(xí)/深度學(xué)習(xí)管道的成本在迅速下降。連最懷疑這種技術(shù)的人士只要分析一下其用途,也極有可能找到價(jià)值所在。
據(jù)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)界的幾位名人聲稱,深層神經(jīng)網(wǎng)絡(luò)“效果異常好”,盡管他們并不確信個(gè)中原委,但他們堅(jiān)信機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的應(yīng)用前景不可限量。
深度學(xué)習(xí)領(lǐng)域在迅速演變,而且是在許多維度上演變。許多新的技術(shù)、架構(gòu)和算法層出不窮,各自具有獨(dú)特的價(jià)值。然而,我認(rèn)為三個(gè)主要的宏觀趨勢(shì)未來幾年會(huì)在機(jī)器學(xué)習(xí)領(lǐng)域真正改變游戲規(guī)則。
機(jī)器學(xué)習(xí)/深度學(xué)習(xí)領(lǐng)域第一個(gè)、也是最重要的宏觀趨勢(shì)是,監(jiān)督學(xué)習(xí)模式逐漸向非監(jiān)督學(xué)習(xí)模式轉(zhuǎn)變。
原來實(shí)施的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)絕大多數(shù)是監(jiān)督式學(xué)習(xí)系統(tǒng)。換句話說,只有對(duì)被大量標(biāo)記的訓(xùn)練數(shù)據(jù)加以訓(xùn)練,它們才有用。雖然監(jiān)督式學(xué)習(xí)系統(tǒng)為我們提供了很好的服務(wù),但收集和標(biāo)記龐大數(shù)據(jù)集費(fèi)時(shí)又費(fèi)錢,還很容易出錯(cuò)。數(shù)據(jù)集規(guī)模變大后,這些挑戰(zhàn)變得極其棘手。另一方面,非監(jiān)督學(xué)習(xí)系統(tǒng)具有巨大的優(yōu)勢(shì),因?yàn)樗鼈儾恍枰嫶蟮挠?xùn)練數(shù)據(jù)集,可以邊訓(xùn)練邊學(xué)習(xí)。這可以解釋為什么機(jī)器學(xué)習(xí)方面的許多高級(jí)研究與非監(jiān)督學(xué)習(xí)有關(guān)。
此外,機(jī)器學(xué)習(xí)/深度學(xué)習(xí)應(yīng)用的第二個(gè)應(yīng)用趨勢(shì)是在生成式對(duì)抗網(wǎng)絡(luò)(GAN)方面。
生成式對(duì)抗網(wǎng)絡(luò)(GAN)是什么?它在整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域有著怎樣的地位?GAN其實(shí)不是一種新的模型類別,它只是一種極其巧妙、高效的訓(xùn)練生成式模型的方法。它的優(yōu)點(diǎn)是減少了對(duì)龐大訓(xùn)練數(shù)據(jù)集的需要。
GAN通常使用充當(dāng)對(duì)手的兩個(gè)神經(jīng)網(wǎng)絡(luò)來構(gòu)造。一個(gè)生成酷似有效樣本的假樣本,另一個(gè)網(wǎng)絡(luò)(判別器網(wǎng)絡(luò))不斷接收生成器網(wǎng)絡(luò)發(fā)來的偶爾混有假樣本的訓(xùn)練樣本,并負(fù)責(zé)將兩種樣本區(qū)別開來。這個(gè)迭代過程的最終結(jié)果是,整個(gè)模型經(jīng)受了更完備的訓(xùn)練,其優(yōu)點(diǎn)在于,在外部干預(yù)最少的情況下進(jìn)行改進(jìn)。
第三個(gè)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)應(yīng)用趨勢(shì)是強(qiáng)化學(xué)習(xí)領(lǐng)域。機(jī)器學(xué)習(xí)原則上是通過實(shí)驗(yàn)和探索來學(xué)習(xí)。這有別于監(jiān)督學(xué)習(xí)模式,因?yàn)楹笳咭蕾囈阎己玫挠?xùn)練數(shù)據(jù),而強(qiáng)化學(xué)習(xí)(Reinforcement Learning)最初對(duì)“世界如何運(yùn)轉(zhuǎn)”幾乎一無所知。強(qiáng)化學(xué)習(xí)基于三個(gè)基本要素,即“狀態(tài)”(States)、“動(dòng)作”(Actions)和“獎(jiǎng)勵(lì)”(Rewards)。
舉例子有助于我們了解它們的重要性。不妨假設(shè)一家網(wǎng)上運(yùn)動(dòng)衫商戶使用強(qiáng)化學(xué)習(xí)來說服訪客購(gòu)買其產(chǎn)品。不妨在這種上下文中探究狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)的意義??赡苁沁@種情況:一個(gè)潛在的加拿大訪客花兩分鐘來比較一件運(yùn)動(dòng)衫的各種顏色,并閱讀了該產(chǎn)品的兩則評(píng)論。另一方面,動(dòng)作是指商戶為說服潛在顧客實(shí)際購(gòu)買而采取的動(dòng)作(比如提供即時(shí)折扣,或名人穿著類似運(yùn)動(dòng)衫的照片)。在某個(gè)狀態(tài)下運(yùn)用動(dòng)作導(dǎo)致轉(zhuǎn)換到一個(gè)新狀態(tài)。每次轉(zhuǎn)換之后,基于成交概率的增加(或減?。?,獎(jiǎng)勵(lì)(或懲罰)強(qiáng)化學(xué)習(xí)。這里的關(guān)鍵是,應(yīng)用強(qiáng)化學(xué)習(xí)的設(shè)備最初可能一無所知,但隨著時(shí)間的推移,它們學(xué)會(huì)選擇在特定的狀態(tài)(人口特征、環(huán)境和消費(fèi)偏好)下效果最好的策略(動(dòng)作序列)。
強(qiáng)化學(xué)習(xí)非常重要,這有兩個(gè)原因。它們?cè)谥T如機(jī)器人、廣告和游戲之類的應(yīng)用領(lǐng)域中具有顯著效果。更重要的是,強(qiáng)化學(xué)習(xí)高度模仿人類大腦從嬰兒到成年的演變。這種飛躍讓機(jī)器智能向接近人類智能更邁出了一步,讓機(jī)器能夠?qū)⒏杏X和直覺等軟技能運(yùn)用到學(xué)習(xí)上。