盧希鵬
三十多年前(1986年),我開始在臺灣的清華大學學習AI。1992年,我在美國取得博士學位,回到臺灣科技大學教授的第一門課,也是人工智能。教了幾年,人潮散去、預算刪減,覺得人工智能沒有什么產(chǎn)業(yè)價值。這時期的AI我稱之為“舊AI”,工程師必須設計出復雜的遞推(recursive)算法,相信經(jīng)過知識工程師的觀察,可以分析出人類的知識,是一種白盒子AI(有清楚的推理邏輯)。漸漸地我們發(fā)現(xiàn),人們知道的遠比說得出來的多很多。當時也有黑盒子AI的機器學習,但是受限于計算能力與人類定義的輸入特征值的好壞而無法進步,這些都是我當初教與學的“舊AI”。
這波“新AI”革命約從2006年的深度學習(deep learning)論文發(fā)表開始,但是所有的“舊AI”都紅了,投資者要特別小心。在“舊AI”的機器學習上,人類有一項重要的工作是定“特征量”。像是在人臉辨識上,“舊AI”會先定義人臉的特征(如五官間的距離等等);或是在預測股票時,“舊AI”也要先定義股票市場的特征(如基本面、技術面、消息面等變量),再做監(jiān)督下的機器學習(就是有老師告訴學習結(jié)果的對與錯)。機器學習的好壞取決于人類是否能夠定義出好的特征量(輸入變量),“新AI”最大的貢獻就是電腦可以自己找到特征表達的方式,不需要人類的監(jiān)督教導,效果卻比人類找到的還要好。
這波革命,對管理界到底產(chǎn)生了什么影響? 我認為是企業(yè)多了四雙“眼睛”。過去企業(yè)只有收集來的數(shù)據(jù),數(shù)據(jù)欄位都是由人類定義出來的?;ヂ?lián)網(wǎng)與物聯(lián)網(wǎng)的世界中卻充滿著沉淀的數(shù)據(jù),這種不經(jīng)意留下來的數(shù)據(jù),卻代表著真實的世界。但是這些沉淀出來的數(shù)據(jù)雜亂無章,毫無規(guī)則。這些特性正好符合了“新AI”的強項,不再倚靠人類設計的邏輯,反而依靠大量無序的數(shù)據(jù),進而找到特征表達,做出分類、判斷與推論?!靶翧I”是人類的新眼睛,讓我們看見了真實的世界(沉淀的數(shù)據(jù)),眼睛明亮了,就將產(chǎn)生一系列的新物種大爆發(fā)。
最近一本書提到,寒武紀物種大爆發(fā)是因為生物有了眼睛。早在五億四千四百萬年前,單細胞生物就已在地球上出沒,當時的動物物種只有三個動物門。而在短短的五百萬年后(這段時期僅占生物演化史的千分之一),這三個動物門的物種突然演化成三十八個動物門,幾乎現(xiàn)今所有動物的祖先,全在一瞬間蜂擁而出!這個物種快速暴增的現(xiàn)象發(fā)生在寒武紀初期,稱為寒武紀大爆發(fā)。
為什么會發(fā)生寒武紀物種大爆發(fā)? 最近的研究(Andrew Parker)指出是因為出現(xiàn)了第一雙眼睛。Parker認為眼睛改變了生物生存的兩項法則。第一項生命法則是“吃”,“避免被吃掉”與“吃掉別人”。第二項生命法則是“性”,找到優(yōu)質(zhì)的對象繁衍后代。在沒有眼睛的時代,生物的捕食與繁衍靠的是機率;有了眼睛之后,就是主動的捕食與求偶,靠的是戰(zhàn)術,也就是智慧的開端。
在工業(yè)時代,人類藉由科技如POS系統(tǒng)來看見市場端的變化;在互聯(lián)網(wǎng)時代,人類藉由數(shù)字足跡看見每一個人的精準。
簡單的說,有了眼睛之后,生物可以經(jīng)由戰(zhàn)術,來戰(zhàn)勝機率。
人類的經(jīng)濟歷史不也是一直借由“看見”的戰(zhàn)術來戰(zhàn)勝機率嗎? 在狩獵時代,人類借由看見足跡與糞便來預測獵物的位置;在農(nóng)業(yè)時代,人類借由看見四季天氣時令來決定何時播種與收割;在工業(yè)時代,人類借由科技如POS系統(tǒng)來看見市場端的變化;在互聯(lián)網(wǎng)時代,人類借由數(shù)字足跡看見每一個人的精準。緊接著來的是人工智能時代,人工智能的眼睛,又看見了什么?
我認為人工智能共有四雙眼睛,已經(jīng)睜開了三雙眼睛,而第四雙眼睛,也即將要睜開。第一雙眼睛是互聯(lián)網(wǎng),讓我們經(jīng)由人們在網(wǎng)絡上沉淀的數(shù)據(jù),精準看見個人與社群;第二雙眼睛是物聯(lián)網(wǎng),讓我們經(jīng)由實體世界中沉淀的數(shù)據(jù),看見了智能生活;第三雙眼睛是讓電腦有了人類的視覺與聽覺,成為這個世界上最方便攜帶的感知器,看見了真實世界; 第四雙眼睛,讓人工智能開始與世界博弈互動。有了四雙AI眼睛,企業(yè)將更看清這個世界,發(fā)展新的戰(zhàn)術,吃掉獵物與繁衍后代。
建立商業(yè)信任最好的方法,就是你看得見我,我也看得見你。有了信任之后,就產(chǎn)生了物種大爆發(fā),出現(xiàn)了大量P2P的商業(yè)模式。
第一雙人工智能眼睛讓我們看見數(shù)字世界中所沉淀的數(shù)據(jù)。為什么叫做沉淀的數(shù)據(jù),因為這些數(shù)據(jù)不是規(guī)劃出來的,而是遺留下來的,數(shù)量很大,而且很亂。沉淀的數(shù)據(jù)是一開始不知道要做什么? 但是沉淀到一定的數(shù)量,它的用處是被挖掘出來的。挖掘數(shù)據(jù)的人稱之為數(shù)據(jù)科學家,因為這些人必需要懂數(shù)據(jù)工具、懂領域知識、懂數(shù)學模型,導致人才非常缺乏?;旧嫌幸韵聨最惖膽?。
商業(yè)決策,不再靠因果機率,而是靠看見關聯(lián)后的戰(zhàn)術。產(chǎn)生了數(shù)據(jù)公司的大爆發(fā)。
借由建構好的數(shù)據(jù)模型,分析大量儲存好的結(jié)構化(表格化)數(shù)據(jù)。像是阿里巴巴,在淘寶光棍節(jié)累積了相當大的交易數(shù)據(jù),經(jīng)過各類數(shù)據(jù)模型的分析,馬云可以知道:哪一省的客戶買最多的比基尼泳裝(答案竟然是內(nèi)蒙古);光棍節(jié)到了,各城鎮(zhèn)的人都在買什么?此外,常用的還有關聯(lián)分析,像是亞馬遜分析買過這本書的人,也買過其他幾本書?;蚴菦Q策樹分析,經(jīng)由過去大量數(shù)據(jù)的分析,我們可以判斷什么樣子的人是比較高風險的人,幫助第一線的員工做決策。
遇見客戶,不再靠機率,而是靠看見精準后的戰(zhàn)術。產(chǎn)生了個人化服務與營銷的新物種大爆發(fā)。
沉淀的數(shù)據(jù)為什么巨量,因為這是為精準的個人化預備的。因為聯(lián)網(wǎng)了,所有的數(shù)據(jù)都在為個人化服務,所以數(shù)據(jù)就巨量了。
這是一個共享開放數(shù)據(jù)的概念,POS、電子支付、電商、朋友圈、百度、微信與Fintech等數(shù)據(jù)的開放共享。POS系統(tǒng)讓我們看到幾點幾分在什么地方賣出了什么? 電子支付又告訴了我們交易的人是誰。電商看到這個人的過去購物紀錄,可以判斷這個人的信用與喜好。朋友圈看見這個人何時對什么文章點贊、分享與留言,借此判斷這個人的喜好。百度關鍵字搜尋表示這個人對什么議題有興趣。微信更是知道你哪位朋友在溝通什么議題。第一雙眼睛看見了一個人所在的“人時地事物”的場景,給予精準化的個人服務。
相信陌生人,不靠機率,而是靠看見公開透明后的戰(zhàn)術。于是產(chǎn)生了許多P2P的新物種大爆發(fā)。
弱連結(jié)指的是陌生人,網(wǎng)絡上交易的對象可能都是陌生人。但陌生人可以相信嗎? 當然不行。過去對陌生人的信任主要來自于第三方的認證,像是出租車的品牌、推薦信、銀行的收入證明錄等。但是這些第三方認證,都不如數(shù)據(jù)的公開透明。
另外,你比較相信專家還是大數(shù)據(jù)? 過去亞馬遜網(wǎng)絡書店會聘請一批專家來幫助你挑選好書與寫書評,但是現(xiàn)在這些專家都被解聘了,因為人們比較相信上百位讀者為一書所寫的書評。在智能手機上下載APP時,如果已經(jīng)有上百萬人下載,給的評語很好的話,這個APP就不會差到哪去。
人工智四雙眼睛第一雙眼睛是互聯(lián)網(wǎng),讓我們經(jīng)由人們在網(wǎng)絡上沉淀的數(shù)據(jù),精準看見個人與社群。第二雙眼睛是物聯(lián)網(wǎng),讓我們經(jīng)由實體世界中沉淀的數(shù)據(jù),看見了智能生活。第三雙眼睛是讓電腦有了人類的視覺與聽覺,成為這個世界上最方便攜帶的感知器,看見了真實世界。第四雙眼睛,讓人工智能開始與世界博奕互動。有了四雙AI眼睛,企業(yè)將更看清這個世界,發(fā)展新的戰(zhàn)術,吃掉獵物與繁衍后代。
舊金融對支付的看法就是轉(zhuǎn)帳的功能,但是在新金融中,卻是生活,因為生活,才能沉淀出個人與社群互動的大數(shù)據(jù),因為普惠金融需要信任,在新金融中,卻是由現(xiàn)在與過去的生活足跡來建立征信系統(tǒng)。像是臺灣的玉山銀行,只要回答18個選擇題,三分鐘內(nèi),配合網(wǎng)絡大數(shù)據(jù),就能決定可以貸款給你的額度與個人化的利息。讓這類小額借貸的對象擴大,依據(jù)玉山銀行的資料,這類貸款的呆帳率比人工審閱還要低。
新零售不也是如此,我們在挑選店家的時候,網(wǎng)友的推薦,也遠勝過企業(yè)公關發(fā)言人說的話。
市場預測,不只靠機率,還靠看見市場底層聲音后的戰(zhàn)術。于是產(chǎn)生了社會傾聽(social listening)新物種。
網(wǎng)絡上有許多輿情言論,處理的主要是大量儲存好的非結(jié)構化數(shù)據(jù)。如果企業(yè)想知道網(wǎng)絡社群上討論的輿情是什么,可以通過網(wǎng)絡爬蟲技術、關鍵字的聲量(出現(xiàn)次數(shù))計算、正負評論的分析。也有人用做品牌監(jiān)控,特別是當有廣告出去了,評估廣告對品牌聲量效果,或是企業(yè)在做危機處理時,想知道網(wǎng)絡輿論的正負評論聲量。
閱讀文件機器人將是另一項新物種爆發(fā)。
每年上市公司有許多財報需要閱讀,已經(jīng)高出人類能夠閱讀的數(shù)量。未來的智能理財機器人可以幫忙閱讀上市公司的財報與新聞事件,提出投資的建議與警訊,同時也可以讀到犯罪或洗錢跡象的數(shù)據(jù);協(xié)助律師閱讀條文與過去判例;協(xié)助醫(yī)生閱讀醫(yī)學期刊;也能夠由保險人提出的相關文件發(fā)現(xiàn)不一致的詐保嫌疑。
因為物聯(lián)網(wǎng)與感知器的普及,要處理大量即時偵測,并沒有儲存的大數(shù)據(jù),這些應用需要即時的運算。像是智慧工廠、智慧城市、智慧家庭、智慧健康、智慧能源等應用越來越普及,這些即時收集到的感知器與物聯(lián)網(wǎng)資料,開啟了人工智能革命的第二雙眼睛。
物聯(lián)網(wǎng)讓萬物皆可聯(lián)網(wǎng),問題是,聯(lián)網(wǎng)后要做什么?
我認為,第一雙眼睛(商業(yè)互聯(lián)網(wǎng))看見的是人(P2P),所以產(chǎn)生了C2B逆商業(yè)時代。第二雙眼睛(工業(yè)互聯(lián)網(wǎng))看見的是物品(M2M),因為萬物聯(lián)網(wǎng),產(chǎn)生了智慧星球的概念。讓未來互聯(lián)網(wǎng)的中心不再是平臺,而是你所在的地方,就是網(wǎng)絡的中心。
具體而言,人工智能的第二雙眼睛有三個層次:
(1) 端點感知(sensing or UI): 感知器的種類非常多,這類科技,又稱數(shù)據(jù)科技。
(2)云端智能(meaning or DB):不只是收集數(shù)據(jù),還需要整合不同數(shù)據(jù)、探索數(shù)據(jù)的意義、歸類與場景(context)。
(3) 啟動服務 (judgement or AP),對判斷與未來行為的推估,啟動適合的服務應用。
過去沉淀的數(shù)據(jù)多半來自于網(wǎng)絡世界,但是人們主要活動的世界卻是實體,因此如何從實體世界取得沉淀的數(shù)據(jù),就是萬物聯(lián)網(wǎng)下的人工智能眼睛。
物聯(lián)網(wǎng)是一個很模糊的名詞,舉凡能將物體與互聯(lián)網(wǎng)連結(jié)的技術如感知器,統(tǒng)稱物聯(lián)網(wǎng)。重點不只在技術,而在聯(lián)網(wǎng)做什么? 舉例來說,這篇文章可以聯(lián)網(wǎng)嗎? 聯(lián)網(wǎng)要做什么?目的確定了,才思考要用什么技術聯(lián)網(wǎng)(晶片、條碼、AR技術等等),一旦聯(lián)網(wǎng),這本書就是物聯(lián)網(wǎng)中的一份子了。端點感知器種類非常的多,在我們?nèi)粘I钪?,有溫度感知器、濕度感知器、速度感知器、生理?shù)據(jù)感知器、監(jiān)視器、汽車倒車雷達、聲音感知器、手機定位感知器等等
舉例來說,綠能科技需要感知環(huán)境監(jiān)測、物聯(lián)網(wǎng)產(chǎn)業(yè)需要感知器資料收集與網(wǎng)實整合、智能機器需要機臺元件感測整合、國防工業(yè)需要精密感測IC、生技醫(yī)療需要生物感測IC,借以收集數(shù)據(jù),做出智能判斷,并回應做出管理行動。物聯(lián)網(wǎng)將是未來工業(yè)的基礎,需要基礎建設來支撐。這個基礎建設就是物聯(lián)網(wǎng)的數(shù)據(jù)要整合上傳到云端數(shù)據(jù)庫,由人工智能的學習判斷給予分類,最后啟動該有的服務。這種“端點感知、云端判斷、啟動回應”,就成了人工智能第二雙眼睛的基礎建設。
不過端點感知器不久將來就會有一千億個以上,為避免網(wǎng)絡的負荷并兼顧回應速度,感知科技也會讓產(chǎn)品主動發(fā)號施令。過去,產(chǎn)品是被制造的,未來產(chǎn)品的晶片能告訴設備,你要怎么制造我。像是制造墨水,墨水的染料配方,不是由自動化電腦所決定的,而是由瓶子的智慧晶片所決定。紅綠燈的秒數(shù)也不是中央控制的,而是隨著老人智慧手環(huán)的晶片,告訴紅綠燈說,我是老人,綠燈的秒數(shù)需要長一點。
通常我們在說大數(shù)據(jù)時,不是因為你擁有的數(shù)據(jù)大,而是聯(lián)網(wǎng)了,云端的數(shù)據(jù)就無限大了。這是一個分享經(jīng)濟的概念,許多銀行跟我說,他們擁有許多的數(shù)據(jù),但是不知道要怎么用? 我提醒他們,大數(shù)據(jù)不是分析大量數(shù)據(jù),而是聯(lián)網(wǎng)后的整合數(shù)據(jù)。
舉例來說,傳統(tǒng)零售業(yè)的POS系統(tǒng)累積了大量的數(shù)據(jù),傳統(tǒng)銀行存折上也累積了大量的數(shù)據(jù),但是這些數(shù)據(jù)都只能做報表,跟過去沒有差別,但是一旦連線了,就是個人化的服務。舉例來說,當人們用手機作為支付工具,因為聯(lián)網(wǎng),我們馬上看見他所在的位置、過去的交易紀錄、銀行的信用、社交媒體的貼文、年齡性別……這些聯(lián)網(wǎng)的信息,構成了大數(shù)據(jù)。大數(shù)據(jù)是為個人化預備的,不是為產(chǎn)生分析報表的。
當所有感知器的內(nèi)容都送到云端之后,除了數(shù)據(jù)可以跨屏(讓手機、電腦、電視等等屏幕同步),更重要的是,這些整合的數(shù)據(jù),可以經(jīng)由數(shù)據(jù)科學家,設計出算法,做人工智能的判斷。
端點感知、云端判斷之后,最重要的就是啟動應用服務。舉例來說,當我知道車子的駕駛不是車主、當智能手表發(fā)現(xiàn)老年人摔倒、當智能電表發(fā)現(xiàn)有異常的用電,下一步要啟動什么服務? 這就是最早提及的,萬物都可以聯(lián)網(wǎng),重點不再是科技,而是聯(lián)網(wǎng)之后,可以做什么?
從智慧生活的角度,人才是物聯(lián)網(wǎng)的核心。為了管理這么多的連結(jié),未來智慧生活的入口將不是電腦,也不是手機,而是一個跨平臺智能生活助理。最近亞馬遜的智慧音箱(Amazon Echo)走入了家庭,成為了智慧家庭的整合中心,或是智慧家庭的入口,但是智慧家庭要成功,必須仰賴更多的“萬物聯(lián)網(wǎng)”。而亞馬遜最近也開放軟件公司能夠在Amazon Echo上開發(fā)應用服務,未來相關應用將如APP一樣的多元起來。譬如冷氣機家店可以與Amazon Echo聯(lián)網(wǎng),可用聲音做溫度的調(diào)控;電視、廣播、網(wǎng)錄影音也可以與智能音箱連結(jié),做音樂電臺的自動播放;電商業(yè)者也可以與Echo連結(jié)等等,讓Echo成為智能家庭中的平臺。如此一來,未來的智能家庭就會迅速發(fā)展起來,產(chǎn)生物種大爆發(fā),成為一個以機器人為中心收集家庭大數(shù)據(jù),提供更精準的服務。
從智慧生活的角度,人才是物聯(lián)網(wǎng)的核心。為了管理這么多的連結(jié),未來智慧生活的入口將不是電腦,也不是手機,而是一個跨平臺智能生活助理。
汽車可以上網(wǎng)嗎? 目前手機的GPS不僅能夠?qū)Ш?,還把大家的時速地點上傳到云端,Google就可以算出各路段的平均時速,引導你走最不塞車的一條路。此外,輪胎泄氣了,冷卻水不夠了、煞車油與機油不夠了,感知器會在第一時間讓駕駛知道。如果汽車發(fā)生事故,車子也會把時間地點的信息自動傳給救援公司,同時也統(tǒng)計了發(fā)生事故的機率,未來事先可以提供警示。當然,如果是貨車,司機就不能偷懶,因為你開車的路徑都有紀錄,對于貨車的調(diào)配也更精準。
關于醫(yī)療健康保健,微軟早在2008年就用視頻的方式勾勒出未來的夢想,可是常常實踐夢想的卻不是微軟自己。譬如人們可以借由可穿戴設備將自己的健康數(shù)據(jù)上傳到個人化的健康平臺,或整合第三方醫(yī)療數(shù)據(jù),提供更精準的醫(yī)療服務。阿里巴巴的未來醫(yī)院,更將醫(yī)療就醫(yī)流程與支付寶完美地結(jié)合,以搭建未來大健康產(chǎn)業(yè)的醫(yī)療平臺,這些都成為聯(lián)網(wǎng)的目的。
同樣的道理,血壓計、血糖計、運動手表、藥罐都可以上網(wǎng),看見你個人的行為,影響你的個人化保費。在智慧醫(yī)療照護上,醫(yī)生可以看見內(nèi)視鏡而微創(chuàng)手術,病人身上可以接上感知器隨時知道生理數(shù)據(jù)、甚至可以知道老人的位置與是否跌倒的判斷。
在智能工廠上,評估生產(chǎn)系統(tǒng)性能的關鍵指標如產(chǎn)量、品質(zhì)、成本、零組件的精密度,感知器要收集影響關鍵指標的數(shù)據(jù)以做事前自動察覺與自我預測性的警示,而不是事后報表式的信息。在智慧設備上,感知器收到的資訊不斷被收集,是一種江河運算,隨時監(jiān)測異常狀態(tài),并記錄設備狀況。與過去正常模式做對比,以判斷當前的設備健康狀態(tài)與故障預測。也可與相同或相似機臺做信息感知、相對比較、異常偵查,這是一種機器對機器的聯(lián)網(wǎng),借此發(fā)現(xiàn)異常,并建立異常數(shù)據(jù)庫,以做未來判斷數(shù)據(jù)的學習。
我們需要更多想象力,萬物可以上網(wǎng),便在真實世界中,沉淀了數(shù)據(jù)。這些數(shù)據(jù),經(jīng)過機器學習,就可以產(chǎn)生無限智能化的應用。
這一波人工智能的革命主要在第三雙眼睛,電腦可以聽見與看見這個世界了。
電腦視覺一直是人工智能中最難突破的環(huán)節(jié),因為真實世界中的“特征值”太多。人們對復雜世界的認知處理,都會有一個“降維”的處理,將復雜真實世界的維度,降低到到可以接受的特征值。舉例來說,真實的股票市場太過復雜,于是投資專家便會定義重要的變量,希望用較少的變量,能夠解釋最多的變異量。人類必須要定義有效的變量,電腦幫忙運算。
過去,人類負責降維,但是找到的特征值都不夠好;未來,將由AI負責降維。
舉例來說,目前臺灣桃園機場的人臉辨識系統(tǒng)就是“舊AI”,工程師定義了人臉五官的特征比例,借此運算辨認人臉,所以在機場辨識人臉時你必須立正站好,兩眼直視鏡頭,因為鏡頭要確認你五官的位置。人類降維的數(shù)量不會太多,當你在林志玲臉上只定義出20個特征(五官的幾何位置),你能夠很容易地在十億人口中找到她嗎? 如果人工智能能夠在林志玲臉上找到一百萬個特征(臉形的勾邊特征),再逐步降維,就比較容易在十億人口中找到林志玲。
一百萬個特征如何找?這種用電腦自己歸納出林志玲臉上特征值的降維方法,是深度學習的重大突破。過去的機器學習比較類比像是非線性回歸分析,人類定義出輸入特征值X(數(shù)量無法太多),來調(diào)整權重預測Y。深度學習比較類比像是因素分析,讓輸入等于輸出時,經(jīng)過多層降維的運算,就能逐步歸納出最佳的特征值。過去人類定義人臉辨識的變量,多半是五官間的幾何距離,再由人類設計精妙的算法來辨別人臉;而電腦則是由不斷地試誤,找到最小誤差的特征值,多半是細微的勾邊,再逐步降維到簡化過的圖像。只要有夠多的圖片去訓練電腦,讓電腦找到這些勾邊如何繼續(xù)降維。深度學習算法是固定的,不像過去必須倚賴程序設計師的邏輯能力,反而重點是誰掌握到夠多的人臉照片,誰就能在人臉辨識上勝出。
在線上與線下數(shù)據(jù)整合上,我們過去都需要代碼(如客戶編號、二維條碼、電話號碼等等),未來如果人臉就是代碼,就可以用人臉配合密碼來支付,用人臉取代會員編號,只要你一走進店家,店家就知道誰來了,我們在真實人類的世界上,本來就是靠人臉辨識你是誰。
除了人臉,電腦開始可以辨別這個世界的物件與意義。
如果電腦要開始辨別出更多的物件,必須要有龐大標簽化的圖片庫來學習。人工智能科學家李飛飛在2007年開始了一項ImageNet的圖片庫建立的計劃,他們在網(wǎng)絡上下載了大量的圖片,并由全世界約五萬名義工幫忙給每一幅圖片分類與下標簽(圖的意義)。2009年,ImageNet圖片庫中有了一千五百萬張圖片,超過二萬兩千個分類標簽。這些龐大標簽化的圖片庫讓許多人工智能算法在其中比賽準確度。2012年,加拿大多倫多大學Prof Hinton的團隊,居然以新的算法(卷積神經(jīng)網(wǎng)絡,Convolutional Neural Network)與GPU處理器(擅長處理矩陣運算),讓他們的準確度遙遙領先其他團隊10%以上。至此,有了附有說明的練習圖片,有了新的算法,電腦視覺產(chǎn)生了顯著的進步,能夠辨識許多真實世界的物件,并且能夠以自然語言,說出圖片的意義。
這項突破是這波人工智能主要帶來的里程碑,讓電腦逐漸可以取代人類的眼睛看見這個世界的物件與意義,并以人類的語言說出來。
舉例來說,未來人工智能的眼睛可以看到駕駛正在打瞌睡或酒醉,是否摔跤,可以看出人們的喜怒哀樂、可以看得出自駕車前方路上出現(xiàn)的是紙袋還是石頭,可以幫助醫(yī)生判讀X光,辨別人際關系、辨別美丑、提供穿衣服與化妝的建議等等。螞蟻金服也提出了定損寶的服務,汽車如果有事故,只要在指定位置照三張照片上傳,打通電話說明發(fā)生了什么事,就可以在幾小時內(nèi),完成理賠的服務,原來,那通電話在測謊,而你上傳的幾張照片,由人工智能程序判斷應該理賠多少,準確度不輸給真實人類定損員。
這波人工智能的革命主要發(fā)生在圖片的特征表達,因此舉凡能夠轉(zhuǎn)換成類似圖片像素二維矩陣格式的數(shù)據(jù)都可以使用深度學習,但是每一行列的像素如果換了位置,意義就不一樣的數(shù)據(jù),就不擁有圖片像素的特征。過去一般資料庫的表格因為欄位變動意義還是一樣,像是欄位信息是“編號、姓名、地址”,還是“編號、地址、姓名”,如果換了欄位順序沒有影響的數(shù)據(jù),就不是圖片像素數(shù)據(jù),就無法使用深度學習算法。
聲音是一個很容易轉(zhuǎn)換成圖片像素檔案格式的另一個應用,譬如縱軸是音頻高低,橫軸是聲音的時間排序,因此聲音很容易轉(zhuǎn)換成類似圖片像素的檔案格式,一旦轉(zhuǎn)換成功,電腦就可以自行發(fā)現(xiàn)聲音的特征值。過去數(shù)十年語音識別的聲音模型一直很難突破,因為人類制定的語音特征模型的方式不夠好且因人而異,但是2006年 Hinton提出了深度學習的算法,由電腦自行找到的特征值,讓語音識別的錯誤率,降到5%甚至更低的水準,產(chǎn)生許多智能音箱的物種大爆發(fā)。
當AI聽懂了聲音,接下來還需要了解語言的意義。過去靠的是語言學家的文法結(jié)構,文法是人類定義出的結(jié)構,但是人類知道的比說出來得多,文法的例外可能與規(guī)則一樣多。譬如我看過一則中文文法,是“動詞+名詞”=“把名詞動詞掉”,“吃飯”=“把飯吃掉”,“關燈”=“把燈關掉”,但是“開燈”=“把燈開了”,到底是開掉還是開了,就是例外狀況。其實只要中文講多了,根本不需要記憶文法,因為從大量生活對話中,人們有一種統(tǒng)計直覺本能,找到正確的介系詞。
人工智能正用統(tǒng)計智能取代規(guī)則智能。語言翻譯也因為網(wǎng)絡上翻譯對照的網(wǎng)頁越來越多,一種以統(tǒng)計對應而不是用字典對應的新方法產(chǎn)生。過去的人工智能對語言的翻譯是要先將語言按照文法句型結(jié)構(parsing)辨認出主詞、動詞、形容詞、副詞、名詞,再依照字典加以解釋,但是翻譯的品質(zhì)一直不到小學程度,而且無法充分考慮上下文情境對于翻譯的影響。早期IBM也嘗試由三百萬句完美翻譯中找出翻譯的統(tǒng)計關系,但是效果并不好,但是在網(wǎng)頁上累計了九百億句的翻譯網(wǎng)頁,品質(zhì)良莠不齊,但是因為數(shù)量龐大,反而開始有了良好的表現(xiàn)。舉例來說,看電視、看書、看醫(yī)生都是用看,但是如果從大量中英對照的網(wǎng)頁中統(tǒng)計出“看”這個字會因為不同的受詞而有不同的英文翻譯,反而有更好的翻譯表現(xiàn)。
語音比圖片單純太多,語音辨識將是“新AI”第一個產(chǎn)業(yè)化的應用,目前我們已經(jīng)能夠用語音對著手機發(fā)號指令,如“打電話給某某某”、“今晚會不會下雨”、“高速公路路況”等的查詢,各種類似Amazon Echo的智能音箱也問世了,Amazon智能助理Alexa可以幫助主人處理家庭內(nèi)的問題解答與家電控制,而Amazon的智能助理Alexa的自然語言介面已經(jīng)開放給各行各業(yè)使用,像是福特汽車開始使用Alexa成為儀表板的聲音控制,未來你只要說“Alexa,開大燈,Alexa,聽音樂,Alexa,幫我導航到……”即可;當然,未來你的購物助理、理財助理、健康助理可以通通都是Alexa,如此一來,Alexa就掌握了未來你所有的拼圖,比你自己還要了解你自己。這會侵犯你的隱私嗎? 當然會,所以有人說在人工智能時代,隱私權將要被數(shù)據(jù)權保護,因為若要使用臉書、谷歌、LINE等等精準服務時,你的隱私已經(jīng)被機器閱讀了,機器閱讀你的個人信息算不算是侵犯隱私? 還是我們必須先立法制定各種數(shù)據(jù)權,允許在什么情況下,機器可以使用你的個人信息,反而是更重要的一件事。
當電腦有了視覺與聽覺,就開始可以與真實世界互動,甚至是博弈了。
過去,人類負責降維,但是找到的特征值都不夠好;未來,將由AI負責降維。
在“舊AI”時代最喜歡挑戰(zhàn)的游戲之一就是走迷宮,其實任何迷宮只要任機器人多走幾遍,畫出探索決策樹之后,未來的決策就是照著探索決策樹走。如圖1所示,如果你的位置在B,走到出口最快的方式,就是依照探索樹,B-A-C-G就出來了。重點是要如何畫出探索決策樹?目前先進的掃地機器人到了你家之后,會先探索把你家都走一遍,建立你家的探索樹,未來就能很快地到達想要去的一個點。物流搬運機器人也是,建立了倉庫的探索樹,就能很快的移動。
探索樹是機器人自己的探索,如果有了對手,就表示探索樹的結(jié)構不再固定不變了,而是我每走一步,對手都會有不同的走法,那我要走哪一步能讓我勝出的機率最大? 這時必須沙盤推演與模擬對手的各種可能回應,并計算出我的勝率。這個博弈游戲如果簡單如井字游戲就簡單了,我可以畫出整個所有可能,但是如果復雜到西洋棋或圍棋,就復雜了很多。Alpha GO的勝出所代表的即使復雜如圍棋,我都能快速地計算出所有的沙盤推演與模擬,算出每步的可能勝率。博弈階段包含了開局、中局與殘局,開局在布局、中局在攻防、一但到了殘局,因為棋子較少,能使用的策略也較少,一但人工智能能建立整個殘局的博弈樹,人類將必敗無疑。AlphaGo的成功代表電腦在處理與環(huán)境互動的能力往前增進了一步,未來無論是投資理財、無人自駕都可以解釋成一種博弈。
兩個人工智能程序在彼此博弈的時候,就有可能損害第三者。
比較可怕的是,電腦可以在人類無法感知的時間內(nèi)替人們做決策并采取行動,像是Google可以精準地投放廣告;Amazon Echo更可以接受語音,替你訂餐、購物與控制家電;臉書可以幫你自動辨識人臉與挑選資訊;理財機器人可以在計算大數(shù)據(jù)的同時,以每秒10萬次的高頻交易幫你低買高賣。當然,智慧工廠、智慧城市、各種機器人、無人自駕車……都是自動執(zhí)行的代表。目前許多公司已經(jīng)開始免費提供具有機器學習、視覺、語言等功能模組的機器人作業(yè)系統(tǒng)(ROS)給各界使用,未來機器人的開發(fā)門檻愈來愈低,甚至會像安卓系統(tǒng)一樣普及。
人工智能各為其主,有可能為了保護自己的主人而不經(jīng)意地毀滅他人,如2010年5月6日,道瓊斯工業(yè)指數(shù)莫名其妙跌了9%,1兆美元瞬間蒸發(fā),美國證券交易委員會(SEC)六個月后才搞清楚,原來是一群高頻交易的理財機器人,在試探并利用彼此交易策略的行動上失控了。我們再有一點想像,如果兩輛自駕無人車要相撞了,唯一能夠保護主人安全的方式就是要犧牲十幾位路人的生命,這時人工智能程告訴你為了要拯救十幾位路人,我們決定要犧牲你,這時,你還會買這輛車嗎? 當兩個人工智能在博弈的時候,就有可能犧牲第三者,如果這是武器系統(tǒng)呢?
人工智能已經(jīng)來了。傳統(tǒng)企業(yè)“對過去的堅持,與對未來的無知”,才是人工智能發(fā)展的隱憂。