過馨露
摘 要:人工智能涉及的技術(shù)繁多,應(yīng)用領(lǐng)域廣泛。人工智能技術(shù)的核心思想是為訓(xùn)練集找到一個優(yōu)化的擬合函數(shù),用以對數(shù)據(jù)進(jìn)行預(yù)測和分類。從主流技術(shù)出發(fā),介紹了不同技術(shù)的應(yīng)用場景,闡述了人工智能技術(shù)的核心思想,梳理了不同模型和算法的共性,從而提高學(xué)習(xí)和應(yīng)用效率。
關(guān)鍵詞:人工智能;機(jī)器學(xué)習(xí);語音識別;圖像識別
DOIDOI:10.11907/rjdk.173262
中圖分類號:TP3-0
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)002-0035-03
0 引言
隨著AlphaGo打敗圍棋大師李世石,人工智能逐漸進(jìn)入了人們的視野。如果說AlphaGo還是基于人類經(jīng)驗(yàn)的學(xué)習(xí),那么AlphaZero的成功則是顛覆人們認(rèn)知的,人工智能機(jī)器能夠從零開始學(xué)習(xí),完全不需要人類經(jīng)驗(yàn)的介入,其技術(shù)的發(fā)展甚至讓人產(chǎn)生了一些恐懼。面對這日新月異的技術(shù)革新,國務(wù)院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,將人工智能技術(shù)提到了國家發(fā)展戰(zhàn)略的高度[1]。其后,教育部考試中心又將Python這一人工智能領(lǐng)域最通用的編程語言納入了全國計(jì)算機(jī)二級考試科目,全國各地也紛紛將Python加入高考科目,這說明我國進(jìn)入了人工智能時代。
人工智能概念最早由麥卡賽等[2]于1956年提出,20世紀(jì)90年代初發(fā)展到了頂峰,然而,受當(dāng)時神經(jīng)網(wǎng)絡(luò)技術(shù)的限制,又一度陷入低迷[3]。2000年,Sharma等 [4]的實(shí)驗(yàn)發(fā)現(xiàn)鼬鼠的視覺和聽覺算法是相通的,這給了研究者很大的啟發(fā)。其后多個實(shí)驗(yàn)證明,人類的很多活動是靠大腦后天習(xí)得的,因而大腦學(xué)習(xí)算法成為研究的熱點(diǎn)[5-6]。2006年,Hinton等 [7]開發(fā)出了高效的深度學(xué)習(xí)算法,打破了原先神經(jīng)網(wǎng)絡(luò)算法的限制,使得人工智能研究再次成為焦點(diǎn)。
1 人工智能實(shí)現(xiàn)方式
目前的人工智能處于弱人工智能階段。所謂弱人工智能是指機(jī)器能夠智能學(xué)習(xí)一些事物的規(guī)律,但其本身并沒有人類的知覺和思維。
弱人工智能階段,機(jī)器實(shí)現(xiàn)智能化主要有兩種方式:①事先給定某種數(shù)據(jù)處理的規(guī)則,機(jī)器按照既定的規(guī)則編寫程序,處理指定的任務(wù)。這種方式從結(jié)果上看,機(jī)器智能地完成了給定的任務(wù),但實(shí)際上其處理數(shù)據(jù)的過程采用的邏輯并非機(jī)器本身習(xí)得,而是人為規(guī)定的;②另一種方式恰好與之相反,事先并未給機(jī)器指定任何規(guī)則,而是給機(jī)器提供大量與指定任務(wù)相關(guān)的數(shù)據(jù),機(jī)器自己通過某種處理方式,從數(shù)據(jù)中找出規(guī)律,并習(xí)得解決問題的邏輯,從而完成指定的任務(wù),后者稱為機(jī)器學(xué)習(xí)[8-9]。
舉例來說,想讓機(jī)器具有識別鹿的能力有兩種方式,第一種是給定規(guī)則的,即需要事先告訴機(jī)器,鹿的特征是頭上有角、四條腿、有尾巴等等,然后讓機(jī)器將滿足給定特征的圖片識別為鹿。第二種方式是不給定規(guī)則,即并未告訴機(jī)器鹿有哪些特征,但是提供給機(jī)器10萬張關(guān)于鹿的圖片,讓機(jī)器自己從這些圖片中學(xué)習(xí)到鹿的特征是頭上有角、四條腿、有尾巴等等,從而具有從不同動物的圖片中識別出鹿的能力。前一種方法會受到人類經(jīng)驗(yàn)的限制,也就是說事先給定的規(guī)則越多,識別越準(zhǔn)確。而事先若提供了錯誤的規(guī)則,那么機(jī)器無法自行更正。而后一種方法則不受人類經(jīng)驗(yàn)的限制,只要提供訓(xùn)練的數(shù)據(jù)越充分識別就越準(zhǔn)確。因而,機(jī)器學(xué)習(xí)是人工智能研究的重點(diǎn)內(nèi)容。
2 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的本質(zhì)是數(shù)據(jù)與算法以及模型的總和。若要讓機(jī)器獲得區(qū)分鹿和馬的智能,必須具備3個要素。
2.1 數(shù)據(jù)
數(shù)據(jù)就是需要準(zhǔn)備大量的關(guān)于鹿和馬的圖片,并且給這些圖片打上對應(yīng)的標(biāo)簽,標(biāo)明哪個是鹿,哪個是馬,用于訓(xùn)練機(jī)器,讓其自行獲得鹿和馬的特征區(qū)別,從而能夠準(zhǔn)確地區(qū)分鹿和馬。這里需要強(qiáng)調(diào)的是,圖片的數(shù)量必須多。因?yàn)槲覀冎?,鹿與馬有許多相似的特征,例如都有四條腿、都有尾巴、體表都無絨毛等。當(dāng)數(shù)據(jù)量不夠充分時,這些相似的特征將會覆蓋各自獨(dú)有的特征,例如鹿頭上有角,而馬頭上沒有角等,從而使機(jī)器無法準(zhǔn)確區(qū)分出兩種動物的差別。機(jī)器對于鹿或馬的識別是以概率的形式存在的,也就是說,如果給定一張鹿的圖片,即使在數(shù)量足夠充分的情況下,還是會有一定的概率將其識別為馬。而數(shù)據(jù)量越大,識別為馬的概率越低,而識別為鹿的概率越接近于1,測試結(jié)果就越準(zhǔn)確。
2.2 算法
機(jī)器學(xué)習(xí)根據(jù)其學(xué)習(xí)算法的層次深度,分為淺層學(xué)習(xí)和深度學(xué)習(xí)。
淺層學(xué)習(xí)在其模型中一般不含隱含層或只有一層隱含層。常見的淺層學(xué)習(xí)有線性回歸、隨機(jī)森林、K-mean等,淺層學(xué)習(xí)主要用于預(yù)測數(shù)據(jù)走向、進(jìn)行數(shù)據(jù)分類、實(shí)現(xiàn)智能推薦系統(tǒng)等領(lǐng)域[8-9]。
深度學(xué)習(xí)含有較多的隱含層,因而能夠完成更復(fù)雜的學(xué)習(xí)任務(wù),目前的研究熱點(diǎn)主要有CNN和RNN兩種[8-10]。CNN稱為卷積神經(jīng)網(wǎng)絡(luò),是通過卷積操作提取數(shù)據(jù)的特征值,從而降低冗余信息的噪音,提高計(jì)算效率,主要應(yīng)用于圖像識別領(lǐng)域。RNN稱為遞歸神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠記住過去的信息,可處理具有時序性的數(shù)據(jù),主要應(yīng)用于語音識別等領(lǐng)域。
無論使用哪種算法,其基本原理都是一致的。仍以鹿馬識別為例說明算法的實(shí)現(xiàn)方式。用函數(shù)Y=f(W,x,b)表示圖片與其對應(yīng)動物的相關(guān)性,其中,x表示向機(jī)器輸入的各種關(guān)于鹿和馬的圖片,Y表示圖片所對應(yīng)的標(biāo)簽,即圖片顯示的是鹿還是馬的標(biāo)識,W和b是一組參數(shù),W表示權(quán)重,即圖片對應(yīng)于鹿或馬的概率,而b表示權(quán)重,即對識別結(jié)果的修正,W和b這組參數(shù)是未知的,正是需要機(jī)器自行學(xué)習(xí)才能獲得。
2.3 模型
模型就是將事先提供的關(guān)于鹿和馬的圖片數(shù)據(jù)代入到算法中,對其函數(shù)模型進(jìn)行訓(xùn)練,不斷迭代,得到最優(yōu)的參數(shù)W和b,完成訓(xùn)練,確定出函數(shù)Y=f(W,x,b)關(guān)系。在訓(xùn)練集數(shù)據(jù)以外再提供一系列關(guān)于鹿和馬的圖片數(shù)據(jù),代入確定的函數(shù)中,輸出該圖片到底是鹿還是馬,用于測試模型的準(zhǔn)確率。endprint
人工智能的根本目標(biāo)是通過數(shù)據(jù)、算法、模型的有機(jī)結(jié)合與不斷優(yōu)化,獲得一個良好的擬合函數(shù)Y=f(W,x,b),使得該函數(shù)能夠在未知的數(shù)據(jù)集上有良好的預(yù)測表現(xiàn),如圖1所示。算法優(yōu)化的最終目的也是為了提高擬合函數(shù)的精度,降低計(jì)算的復(fù)雜度。
3 人工智能應(yīng)用場景
目前,人工智能已應(yīng)用到政務(wù)、公安、交通、環(huán)境、醫(yī)療、金融、教育等諸多領(lǐng)域。應(yīng)用由技術(shù)衍生而來,人工智能的主流技術(shù)分類并不復(fù)雜。表1展示了美國與中國在人工智能領(lǐng)域申請專利的細(xì)分領(lǐng)域所占百分比[11]。從表中可以看出,人工智能的應(yīng)用場景主要對應(yīng)于機(jī)器人、語音識別、圖像識別等技術(shù)。下面從主流技術(shù)角度進(jìn)行分類,探究人工智能的應(yīng)用場景。
3.1 機(jī)器人應(yīng)用
機(jī)器人,顧名思義就是要制造出可以模仿人類各種行為舉止的機(jī)器[12-14]。目前機(jī)器人已經(jīng)能夠模仿人類的很多動作,除了基本的跑、跳、翻轉(zhuǎn)外,還可進(jìn)行細(xì)致作業(yè),如開瓶蓋等。圖2展示了本田于2011年發(fā)布的“ASIMO2011”機(jī)器人[15],他具有視覺和觸覺的識別功能,能根據(jù)人類發(fā)出的指令完成任務(wù)。當(dāng)然,若要實(shí)現(xiàn)機(jī)器人對人類的完全仿真,還有很長的路要走。
3.2 語音識別應(yīng)用
語音識別就是將語音轉(zhuǎn)化成文本的技術(shù),包括對語義的分析和識別[15-16]。2013年,Hinton與微軟合作開發(fā)的同聲傳譯,其錯誤率已經(jīng)低至17.7%[17]。截止到2016年,運(yùn)用神經(jīng)網(wǎng)絡(luò)算法制成的同聲速記已經(jīng)能夠達(dá)到95%的準(zhǔn)確率,打敗了人類速記員[15]。在語義分詞分析方面,神經(jīng)網(wǎng)絡(luò)算法也有很好的表現(xiàn)。例如,谷歌的翻譯系統(tǒng)目前已經(jīng)可以完勝人類翻譯。此外,語音識別還被廣泛應(yīng)用于對話機(jī)器人,如Siri等。機(jī)器能夠通過對自然語言的學(xué)習(xí),識別出語音的含義,并作出合理的回答,從而實(shí)現(xiàn)人機(jī)對話。將語音識別與家居相結(jié)合,則可以實(shí)現(xiàn)語音控制,免除了對遙控器的依賴[18]。
3.3 圖像識別應(yīng)用
圖像識別的重要應(yīng)用之一便是人臉識別[15]。截止2015年,基于神經(jīng)網(wǎng)絡(luò)的人臉識別已達(dá)到99.53%的準(zhǔn)確率,超過了人類識別的97.53%[19]。目前,人臉識別已應(yīng)用于諸多場景,如FaceU等美顏相機(jī),可通過面部的精準(zhǔn)捕獲進(jìn)行圖片美化。圖像識別還可應(yīng)用于交通方面,攝像頭獲取的車輛圖片可用于識別車輛信息及車牌號。在無人車方面,可通過圖像識別技術(shù)判斷行車路線、躲避障礙物等。
4 結(jié)語
本文詳細(xì)介紹了人工智能的核心思想,數(shù)據(jù)、算法與模型,介紹了機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的基本概念,展示了人工智能的應(yīng)用場景。人工智能的發(fā)展,必將給人們的生活帶來巨大的變化,我們應(yīng)以擁抱變革的心態(tài)迎接新的技術(shù),實(shí)現(xiàn)可持續(xù)發(fā)展。
參考文獻(xiàn):
[1] 國務(wù)院.新一代人工智能發(fā)展規(guī)劃[EB/OL]. http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2] 沈威.國內(nèi)人工智能應(yīng)用研究進(jìn)展[J].軟件導(dǎo)刊,2007(2):11-12.
[3] 顧險峰.人工智能的歷史回顧和發(fā)展現(xiàn)狀[J].自然雜志,2016,38(3):157-166.
[4] SHARMA J, ANGELUCCI A, SUR M. Induction of visual orientationmodules in auditory cortex [J]. Nature, 2000(404):841-847.
[5] VUILLERME N, CUISINIER R. Sensory supplementation through tongue electrotactile stimulation to preserve head stabilization in space in the absence of vision [J]. Investigative Ophthalmology & Visual Science, 2008, 50(1):476-811.
[6] 鐘義信.人工智能:概念·方法·機(jī)遇[J].科學(xué)通報(bào),2017,62(22):2473-2479.
[7] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back propagating errors [J]. Nature, 1986,323(6088):533-536.
[8] 張潤,王永濱.機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報(bào):自然科學(xué)版, 2016, 23(2):10-24.
[9] 何清,李寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識別與人工智能,2014,27(4):327-336.
[10] 尹寶才,王文通,王立春.深度學(xué)習(xí)研究綜述[J].北京工業(yè)大學(xué)學(xué)報(bào),2015,41(1):48-59.
[11] 李尊.為什么說目前人工智能主要應(yīng)用在這七個領(lǐng)域 [EB/OL] . https://www.leiphone.com/news/201610/v4WFmCMykIztIWpG.html.
[12] 劉建軍.淺談人工智能應(yīng)用[J].現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化,2013(52):74-75.
[13] 王國彪,陳殿生,陳科位,等.仿生機(jī)器人研究現(xiàn)狀與發(fā)展趨勢[J].機(jī)械工程學(xué)報(bào),2015,51(13):27-44.
[14] HONDA. Honda Corporation again published new ASIMO robot after four years[J]. Sensor World,2011(11):38-39.
[15] 章毅,郭泉,王建勇.大數(shù)據(jù)分析的神經(jīng)網(wǎng)絡(luò)方法[J].工程科學(xué)與技術(shù),2017,49(1):9-18.
[16] 黎亞雄,張堅(jiān)強(qiáng),潘登,等.基于RNN-RBM語言模型的語音識別研究[J].計(jì)算機(jī)研究與發(fā)展,2014, 51(9):1936-1944.
[17] GRAVES A, MOHAMED A, HINTON G. Speech recognition with deep recurrent neural networks[C]. Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing.Vancouver: IEEE, 2013:6645-6649.
[18] 劉榮輝,彭世國,劉國.基于智能家居控制的嵌入式語音識別系統(tǒng)[J].廣東工業(yè)大學(xué)學(xué)報(bào),2014,31(2):49-53.
[19] SUN YI,LIANG DING,WANG XIAOGANG,et al. Deepid3: face recognition with very deep neural networks[J]. Computer Science,2015(150):873-875.endprint