Yaser Abu-Mostaf PhD
談一下AI的相關(guān)內(nèi)容,讓大家了解一下AI和機器學(xué)習(xí)的相關(guān)內(nèi)容。
首先,我和大家用很簡單的語言解釋一下什么是機器學(xué)習(xí),之后講兩個方面:一個就是演進,就是機器學(xué)習(xí)的演化,三四十年的變化;再講一下革命,革命是指過去五年發(fā)生的突變。最后講一些挑戰(zhàn),有些挑戰(zhàn)非常有意思,有些是技術(shù)的挑戰(zhàn),有些是道德和社會方面的挑戰(zhàn),他們也影響了我們。
簡單介紹一下機器學(xué)習(xí)。實際上大家都知道數(shù)據(jù)科學(xué)或者說大數(shù)據(jù)、統(tǒng)計學(xué)、數(shù)據(jù)挖掘,機器學(xué)習(xí)可以說是智能的核心,這就是為什么叫它AI,人工智能。我們這里看到很多名字,比如說統(tǒng)計學(xué)或者說AI或者說數(shù)據(jù)挖掘等等這些術(shù)語,這里有一個共同點,它們都是基于數(shù)據(jù)技術(shù)規(guī)律的自動探測。比如說我們假設(shè)有一個嬰兒,一旦孩子看到一種圖案或者說看到一個規(guī)律,眼睛都會閃光,他們自己識別出了規(guī)律。實際上我們要讓數(shù)據(jù)自動識別規(guī)律,這樣我們就可以說獲得了一定的智能。給大家介紹一下和拍拍貸相關(guān)的內(nèi)容。比如說我們想申請信用卡,不希望信用不好的人申請信用卡,我們希望了解基本的情況,比如說我們了解一下有沒有可能不及時還款。機器學(xué)習(xí)可以給我們帶來什么好處?我們看以前的客戶,好的行為和壞的行為是什么樣的,這些行為是好的,這些行為是不好的。他們申請的時候每個人都提供了申請信息,我們問一下自己,我們用什么來區(qū)分好壞?;跉v史數(shù)據(jù),一旦發(fā)生規(guī)律之后,有了新的申請者的時候,就可以判斷是屬于好的那一類還是不好的那一類,這就是用機器學(xué)習(xí)進行自動信用評級的原理。
這是兩年前哈佛商業(yè)評論的文章,他說機器學(xué)習(xí)非常有潛力,可以用在很多行業(yè)上面,改變這些公司。事實上機器學(xué)習(xí)可以用在很多項目上,比如說時尚、工業(yè)設(shè)備、腦部損傷診斷,都可以利用機器學(xué)習(xí)。可能只有工程師,但是沒有金融專業(yè)的領(lǐng)域知識。機器學(xué)習(xí)是基于數(shù)據(jù)的,不管是什么領(lǐng)域,只要給我數(shù)據(jù)就可以自動識別里面的規(guī)律。比如說時尚,我就可以自己進行分析,我們基于不同女性的購買行為,我會給她們提供一些建議,她們最有可能買什么樣的衣服。我其實對女性的時尚是完全不知道的,一無所知的,可以說是一個外行,但是基于數(shù)據(jù),還是可以給她們很有幫助的建議。
這就是機器學(xué)習(xí)的本質(zhì)。
數(shù)據(jù)是一家公司的最大資產(chǎn)
什么是機器學(xué)習(xí)呢?首先要有這樣一個規(guī)律,比如說信用卡申請,假如說幾年一直做的都是同一個工作,這個是和信用表現(xiàn)是息息相關(guān)的,因此我們要找出這里的規(guī)律。實際上有的時候我們沒有辦法用一個數(shù)學(xué)模型直接告訴我們該怎么做,我們必須要通過數(shù)據(jù)來提取其中的規(guī)律,我們希望有代表性的數(shù)據(jù)組。這一點是很有意思的,我剛才和公司的創(chuàng)始人聊天,比如說我們要看拍拍貸的歷史的話,一開始的時候沒發(fā)生什么,突然公司就起飛了。但實際上,在蜇伏期間,他們一直在收集數(shù)據(jù),有了數(shù)據(jù)就有了別人沒有的東西,我們積累是需要時間的,因此我們的數(shù)據(jù)是資產(chǎn),你要有資產(chǎn)才能進入游戲。
現(xiàn)在我給大家介紹一下演進部分,就是機器學(xué)習(xí)的發(fā)展情況。為什么過去五年發(fā)生了變革,現(xiàn)在人工智能和機器學(xué)習(xí)都發(fā)生了突變?我們從八十年代的時候開始,那個時候神經(jīng)網(wǎng)絡(luò)剛剛興起,那個時候數(shù)據(jù)量很少,之后越來越多的數(shù)據(jù)開始被積累起來。越來越多的數(shù)據(jù),越來越復(fù)雜的模型,以前我們用的是線性的模型,現(xiàn)在用的非線性模型。而且現(xiàn)在計算越來越多,實際上我們預(yù)測計算機的速度會發(fā)展得越來越快,這也是需要三四十年的積累。
所以雖然現(xiàn)在已經(jīng)達到了飽和的階段,但是這個飽和的階段仍然有非常大的金礦,這個過程當中我們會做出來更多的進化或者說進展,機器學(xué)習(xí)也不例外。
回到剛才信用卡申請的例子,我們來看一下這樣的一個申請人,給大家解釋一下我們現(xiàn)在的進化在哪里。首先我們有一個非常簡單的模型,就是剛才說的一個線性的模型,就是人們剛開始來批貸的時候有的線性模型,評估工作,以及工作的年限、年齡、工資等等。畫這樣一條線來區(qū)分好的客戶和壞的客戶。隨著數(shù)據(jù)的積累,我們可以開始建立一個非線性模型,我們知道有一些因素之間是有一些相關(guān)性的,這里面可能也有一些規(guī)律或者說模式。
因為這個我們就會有很多不同的模型,比如說神經(jīng)網(wǎng)絡(luò),這是非常著名的模型,這就不同于原來所說的線性模型,這種非線性模型就是我們的進化。相比之前的線性模型要強得多。可以讓你做出來更好的預(yù)測,也就是說現(xiàn)在客戶用這樣的模型做出更加復(fù)雜的決策??梢杂迷诜浅6嗟膽?yīng)用領(lǐng)域,比如說二十世紀九十年代的時候,股票市場等金融數(shù)據(jù)可以用機器學(xué)習(xí),里面有非常多的數(shù)據(jù),有很多模型,用戶主要是投資銀行等等。在2000年的時候,像亞馬遜、阿里巴巴電子商務(wù)開始起步,他們也開始使用機器學(xué)習(xí),然后網(wǎng)站就開始向你推薦一些東西,這些推薦都是基于數(shù)據(jù),可以檢測一些模式推薦給你買一些東西。在2010年的時候又可以應(yīng)用于醫(yī)療領(lǐng)域。因為在醫(yī)療領(lǐng)域我們積累了大量的數(shù)據(jù),所以我們可以用大數(shù)據(jù)來做診斷等等。十年前是沒有這么多醫(yī)療數(shù)據(jù)的,經(jīng)過十年的發(fā)展,積累了大量的醫(yī)療數(shù)據(jù),我們可以用機器學(xué)習(xí)來做診斷分析等等。有了這種數(shù)據(jù)積累,我們就能夠有更多的機器學(xué)習(xí)方面的應(yīng)用。這些數(shù)據(jù)就是你所擁有的最大資產(chǎn),可以讓你和競爭對手對比的時候具有優(yōu)勢。
AI,將在各行業(yè)無處不在
我們現(xiàn)在又從進化進入革命階段,這是過去五年的變化。這五年內(nèi)發(fā)生了什么東西呢?首先我不想勸說或者說服這里面有多大的區(qū)別,大家已經(jīng)看的非常清楚了。在很多領(lǐng)域里面,比如說機器翻譯,過去的機器翻譯讓大家覺得非常的可笑,而現(xiàn)在因為有神經(jīng)網(wǎng)絡(luò)的介入,不斷改進,就是利用了機器學(xué)習(xí)的方法。還有語音識別、對象檢測等等,在數(shù)據(jù)、模型、計算方面上都發(fā)生了質(zhì)變。從這樣的應(yīng)用,有這么多的數(shù)據(jù),有更多的申請人的數(shù)據(jù),可以做決策,這樣的決策基于大數(shù)據(jù)就可以更加智能。這樣可以做出全面的剖析。比如說有的人可能喜歡巧克力,這是一個信息,有的人可能喜歡喜劇等等,你覺得他們會去看加勒比海盜,還是不看加勒比海盜這部電影?這樣的兩個信息可能不足以做出決策,如果有更多更全面的信息,可以對這個人有全面的了解,做出來的決策也是非常切合實際的。我覺得拍拍貸做工作的時候,其實和剛才所說的這些都有非常強的關(guān)系,你們看到客戶的各個方面的一些信息,然后決定是好的客戶還是壞的客戶,這是第一點。
我們再來看模型。模型現(xiàn)在有深度神經(jīng)網(wǎng)絡(luò),原來只有兩三層,現(xiàn)在已經(jīng)有十層二十層了,區(qū)別是什么呢?因為有了這么多的層級,有里面的計算,就可以用最好的輸入變量給大家進行分析,比如說你看到我,不是根據(jù)一個像素進行分析我的,你可以通過各個方面進行分析。比如說這個人有數(shù)千數(shù)萬的像素,可以通過像素了解人,然后對它進行剖析,我們做這一點的時候,我們可能會失去某些細節(jié)。我們要深入分析各個細節(jié),然后再分析哪個細節(jié)哪個像素對你整個人的分析是最重要的。然后進入神經(jīng)元分析。
接下來是計算方面。計算速度快速提升,過去十幾年二十幾年你的計算機可能運算速度非常慢,但是現(xiàn)在完全不一樣了,速度大幅度提升,還有一些商用硬件,比如說圖形處理器GPU等等,現(xiàn)在機器學(xué)習(xí)速度方面提高了兩個量級。也就是說在過去如果你要用一些計算的話,可能要一個月,甚至一年才能得到一個結(jié)果。但是現(xiàn)在因為計算速度的提升,可能下一周甚至本周就可以得到答案,而且我們用了這么多的模型。也使計算速度和智能水平大幅度提升。一個非常智能的例子就是AlphaGo,打敗了人類的智慧。這個機器是自身學(xué)習(xí)的,也就是說自己和自己下象棋,然后找到一些新的動作,這是人類之前從來沒有用過的動作,他就打敗了人類的智慧。我們發(fā)現(xiàn)這樣一種方法可以極大地改善智能水平。剛才有說到Fendy,我們說Fendy Fendy你得醒過來等等。以后不需要叫兩遍才讓Fendy醒過來,這是我們努力的方向。我們的人工智能取得的進步是長足的。
我再講一下挑戰(zhàn)。實際上技術(shù)挑戰(zhàn)沒什么好講的,我們從某種程度上講,有兩個挑戰(zhàn)。剛才講到了技術(shù)挑戰(zhàn),再講一下安全的風(fēng)險,以及其他的風(fēng)險,對于人工智能和機器學(xué)習(xí)來說有很多社會上的挑戰(zhàn)。我們看現(xiàn)在的計算機或者說現(xiàn)在的程序,最可怕的問題就是安全問題,比如說黑客的入侵,還有泄露的問題是很可怕的。大家發(fā)展技術(shù)的時候并沒有想太多安全問題,現(xiàn)在我們正在補足,我們必須要好好想一下安全問題?,F(xiàn)在很多人擔心超級智能,我覺得這不需要擔心,我覺得黑客入侵還是一個主要威脅。還有很多社會方面的挑戰(zhàn),大家可能會失業(yè),AI可以做人的工作了,我們必須要提前規(guī)劃。還有另外一個方面的社會問題,比如說大家都用智能手機,iPhone自己就成為了一個非常有趣的人了。以后大家都不愿意和人溝通了,像孩子一樣,實際上大家只想和手機玩,也是另外一個方面的考慮,供大家參考。
* 作者系加州理工學(xué)院(California Institute of Technology)電氣工程和計算機科學(xué)(Electrical Engineering and Computer Science)教授,主要研究領(lǐng)域為機器學(xué)習(xí)(Machine Learning)和計算金融學(xué)(Computational Finance);IEEE神經(jīng)網(wǎng)絡(luò)協(xié)會(IEEE NNC)創(chuàng)始人之一;神經(jīng)信息處理系統(tǒng)進展大會(NIPS)創(chuàng)始人之一;第二屆和第四屆國際資本市場中的神經(jīng)網(wǎng)絡(luò)會議(NNCM)主席;第六屆國際計算金融學(xué)會議主席;他的《Learning from Data》是亞馬遜機器學(xué)習(xí)領(lǐng)域全美最暢銷書,全球超過400萬人通過他的線上教學(xué)視頻學(xué)習(xí)機器學(xué)習(xí)。Abu-Mostafa教授分別擁有開羅大學(xué)(Cairo University)、佐治亞理工學(xué)院(Georgia Institute of Technology)、加州理工學(xué)院(California Institute of Technology)的本科、碩士、和博士學(xué)位。
● 本文由智慧金融研究院、拍拍貸授權(quán);原題方向為“人工智能: 過去、當前、未來”,為最大程度保障文本精華、原意,以及閱讀需要,本刊僅做題目及內(nèi)容分層進行編輯。