呂 偉, 鐘臻怡, 張 偉
上海電氣集團股份有限公司 中央研究院 上海 200070
人工智能是一門涉及信息學、邏輯學、認知學、思維學、系統(tǒng)學和生物學的交叉學科,已在知識處理、模式識別、機器學習、自然語言處理、博弈論、自動定理證明、自動程序設計、專家系統(tǒng)、知識庫、智能機器人等多個領域取得實用成果[1]。目前,對人工智能還沒有廣泛認可的統(tǒng)一定義,很多專家學者給出了一些有代表性的解讀。美國麻省理工學院Winston 教授在《人工智能》一書中指出:“人工智能就是研究如何使計算機去做過去只有人才能做的智能的工作?!泵绹固垢4髮WNilson教授認為:“人工智能是關于知識的學科,是怎樣表示知識、獲得知識并使用知識的學科?!?/p>
人工智能經歷了漫長的發(fā)展過程,已有70多年的發(fā)展歷史[2]。人工智能的發(fā)展過程可分為幾個階段: 1943年,人工神經元模型被提出,開啟了人工神經網絡研究的時代;1956年,達特茅斯會議召開,提出了人工智能這一概念,標志著人工智能的誕生,這一時期國際學術界人工智能研究潮流興起,學術交流頻繁;20世紀60年代,作為主要流派的連接主義與符合主義進入消沉,由于硬件能力不足、算法缺陷等原因,人工智能技術陷入發(fā)展低迷期;20世紀70年代,反向傳播算法開始研究,計算機成本和計算能力逐步提高,專家系統(tǒng)的研究和應用艱難前行,人工智能逐漸開始取得突破;20世紀80年代,反向傳播神經網絡得到廣泛認知,基于人工神經網絡的算法研究突飛猛進[3],計算機硬件能力快速提升,加之互聯(lián)網的發(fā)展,降低了人工智能的計算成本,人工智能平穩(wěn)發(fā)展;2006年,深度學習被提出,人工智能再次取得突破性發(fā)展;21世紀前十年,移動互聯(lián)網的發(fā)展為人工智能帶來更多應用場景;2012年,深度學習算法在語音和視覺識別上實現(xiàn)突破;2016年,“α圍棋”的出現(xiàn)引發(fā)了人工智能將如何改變人類社會的思考。
從人工智能的發(fā)展歷程來看,20世紀80年代的算法創(chuàng)新研究為人工智能帶來了突破性發(fā)展,之后,大數(shù)據(jù)、計算力、深度學習等方面的進展促進了人工智能的高速發(fā)展。算法、計算力、大數(shù)據(jù)是人工智能的基礎支撐層,而建立在這之上的基礎技術便是計算機視覺、自然語言理解、語音識別。人工智能通過這三種技術,使機器能夠看懂、聽懂人類世界,用人類的語言和人類交流[4-5]。
3.1.1 算法
算法是指用系統(tǒng)的方法描述解決問題的策略機制,能夠基于一定規(guī)范的輸入,在有限時間內輸出所要求的結果。近幾年,新算法的發(fā)展提升了機器學習的能力,尤其是隨著深度學習理論的成熟,很多企業(yè)采用云服務或開源方式向行業(yè)提供先進技術,將先進算法封裝于易用的產品中,大大推動了人工智能技術的發(fā)展。目前,市場上有很多廠家都在搭建通用的人工智能機器學習和深度學習計算底層平臺,如谷歌的TensorFlow軟件、微軟的Computational Network Toolkit深度學習工具包、亞馬遜的AWS分布式機器學習平臺、百度的AI開放平臺等。
3.1.2 計算力
人工智能對計算力的要求很高。以往在研究人工智能時,經常受到單機計算力的限制。近幾年,云計算的發(fā)展對計算力的提升起到了至關重要的作用。機器學習,特別是深度學習是極耗計算資源的,而云計算可以達到每秒10萬億次的運算能力。此外,圖形處理器的進步對人工智能的發(fā)展也有很大推動作用,這種多核并行計算流的方式能夠大大提高運算速度。通過云計算,圖形處理器可以以較低的成本獲取大規(guī)模的計算力。
3.1.3 大數(shù)據(jù)
移動互聯(lián)網的爆發(fā)式發(fā)展,以及各種社交媒體、移動設備、廉價傳感器使當今社會積累了大量數(shù)據(jù)。隨著對數(shù)據(jù)價值的挖掘,各種管理和分析數(shù)據(jù)的技術得到了較快發(fā)展。人工智能中很多機器學習算法需要大量數(shù)據(jù)作為訓練樣本,如圖像、文本、語音的識別,都需要大量樣本數(shù)據(jù)進行訓練并不斷優(yōu)化?,F(xiàn)在這些條件隨處可得,大數(shù)據(jù)是人工智能發(fā)展的助推劑,為人工智能的學習和發(fā)展提供了非常好的基礎。
3.2.1 計算機視覺
計算機視覺是計算機從圖像中識別出物體、場景和活動的能力[6]。計算機視覺技術一般通過機器視覺產品將被攝目標轉換為圖像信號,經過圖像處理系統(tǒng)的專業(yè)分析得到被攝目標的形態(tài)信息,按照需求進行各種運算,提取目標的特征值以便進行后續(xù)任務。計算機視覺的應用案例十分豐富,如在安防及監(jiān)控領域用于指認嫌疑人;醫(yī)療成像分析用于提高對疾病的預測、診斷和治療;車間現(xiàn)場用于自動化控制,識別生產零件等。
3.2.2 自然語言處理
自然語言處理是使用自然語言與計算機進行通信的技術[7],研究的是實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理使計算機能夠理解和運用人類語言,進而通過人機之間的語言通信來代替人的部分腦力勞動,如整理資料、摘錄文獻、解答問題等。自然語言處理包括自然語言理解和自然語言生成兩個部分,這兩個部分的研究難度都很大。目前,通用高質量的自然語言處理系統(tǒng)還有待進一步實現(xiàn),但專家系統(tǒng)自然語言接口、機器翻譯系統(tǒng)、信息檢索系統(tǒng)這些針對一定應用領域,具有一定自然語言處理能力的系統(tǒng)已經出現(xiàn)。
3.2.3 語音識別
語音識別指通過識別及理解過程,使計算機可以將語音信號變換為等價文字信息或命令的技術[8]。通過語音識別技術,計算機與人可以以語音的方式直接交流,計算機接收到語音信號后能夠理解人的意圖,并根據(jù)意圖作出相應的反應。在應用方面,目前國內的語音識別研究已經涉及小波技術、高級人工智能、機器學習等多個領域[9],語音識別的主要應用包括醫(yī)療聽寫、語音書寫、計算機系統(tǒng)聲控、電話客服等。
美國、歐盟、中國、日本、韓國等國家和組織對人工智能技術高度重視,基于國家戰(zhàn)略布局,通過政策和資金等方式推動語音識別、深度學習、圖像識別等產業(yè)的布局和發(fā)展[10],其中IBM、微軟、臉書、谷歌、百度等企業(yè)發(fā)展迅速,目前正基于人工智能技術與整體解決方案逐步形成開源平臺,最終將形成完整的產業(yè)應用生態(tài)系統(tǒng)。
IBM公司開發(fā)了認知計算系統(tǒng)Watson,目的是應用人工智能及自然語言處理技術,通過對大量非結構化數(shù)據(jù)進行處理,實現(xiàn)對現(xiàn)實世界各類信息內在規(guī)律性的理解和應用,已推出的相關產品包括Watson發(fā)現(xiàn)顧問、Watson參與顧問、Watson分析、Watson探索、Watson知識工作室、Watson腫瘤治療、Watson臨床試驗匹配等。谷歌在醫(yī)藥研發(fā)、無人駕駛汽車、血糖實時監(jiān)測隱形眼鏡、即時翻譯攝像頭、聊天機器人等方面取得顯著成果,同時計劃將人工智能研發(fā)成果與其搜索引擎、廣告、視頻網站和電子商務等核心業(yè)務結合起來。臉書掌握著全球領先的圖像識別技術和自然語言處理技術,圍繞用戶的社交關系和社交信息發(fā)展社交虛擬現(xiàn)實業(yè)務。微軟著力于Cortana智能助理系統(tǒng)的開發(fā),在2015年還展示了Skype語言轉換系統(tǒng)。此外,蘋果的Siri智能助理、亞馬遜的機器人飛行器等項目對人工智能的發(fā)展也產生了巨大影響。
人工智能技術近幾年來發(fā)展迅速,在很多行業(yè)取得了成功應用。結合人工智能的特點來看,流程性、規(guī)則相對明確的工作內容更容易為人工智能所取代。個人助理領域,人工智能的應用主要有智能手機語音助理、家用機器人等,微軟小冰、百度度秘、蘋果Siri、亞馬遜Echo都屬于個人助理領域的人工智能產品。安防領域人工智能的應用包括智能監(jiān)控產品、巡邏機器人,代表企業(yè)有商湯科技、格靈深瞳、神州云海等。自動駕駛領域人工智能的應用包括谷歌無人駕駛汽車、亞馬遜無人送貨機等。醫(yī)療健康領域人工智能的應用主要有醫(yī)療健康監(jiān)測診斷、智能醫(yī)療設備,如Enlitic的診斷平臺、Intuitive Sirgical的達芬奇外科手術系統(tǒng)、碳云智能的智能健康管理平臺等。電商零售領域人工智能的應用主要有倉儲物流、智能導購和客服等,阿里巴巴、京東、亞馬遜等電商巨頭在這方面都快速發(fā)展。金融領域人工智能的應用包括智能投資顧問、智能客服、安防監(jiān)控、金融監(jiān)管等,產品有螞蟻金服、交通銀行智能機器人等。教育領域人工智能的應用包括智能評測、個性化輔導、兒童陪伴等,代表企業(yè)有學吧教育、科大訊飛、云知聲[11]。
人工智能的概念從1956年提出至今,經歷了幾十年的發(fā)展,基于算法、計算力、大數(shù)據(jù)三大基礎技術的突破,在近幾年得到了迅速發(fā)展。人工智能技術的基礎支撐層屬于高投入、高回報領域,但這一領域依賴于長期布局。技術層面投入適中,短期價值回收適中,適合中長期布局。在應用方面,投入低,變現(xiàn)快,在垂直行業(yè)或跨行業(yè)找到合適的切入點,針對現(xiàn)有的問題可以通過人工智能的思路給出有效解決方案??梢姡斯ぶ悄芪磥砣詫⑷〉每焖俚陌l(fā)展。
[1] 王志宏,楊震.人工智能技術研究及未來智能化信息服務體系的思考[J].電信科學,2017,33(5): 1-11.
[2] 艾媒咨詢.2017年中國人工智能行業(yè)白皮書[R/OL].http:∥www.iimedia.cn/59710.html.
[3] 徐胤,樂珺,袁浩巍.基于不變矩特征和RBF神經網絡的圖像識別[J].上海電氣技術,2015,8(3): 33-36.
[4] 36氪研究院.人工智能行業(yè)研究報告[R/OL].http:∥36kr.com/p/5064125.html.
[5] 億歐智庫.人工智能產業(yè)綜述報告[R/OL].https:∥www.iyiou.com/intelligence/report525.
[6] 周宇超.復雜場景下的多目標跟蹤算法研究[D].長春: 吉林大學,2014.
[7] 王燦輝,張敏,馬少平.自然語言處理在信息檢索中的應用綜述[J].中文信息學報, 2007, 21(2): 35-45.
[8] 王秀景.語音識別技術研究與實現(xiàn)[D].青島: 山東科技大學,2011.
[9] 周英.關于語音識別技術發(fā)展趨勢的分析[J].計算機光盤軟件與應用,2012(19): 141-142.
[10] 國家工業(yè)信息安全發(fā)展研究中心,極客公園.2016全球人工智能發(fā)展報告[R/OL].http:∥www.geekpark.net/news/220761.
[11] 烏鎮(zhèn)智庫,網易科技,網易智能.烏鎮(zhèn)指數(shù): 全球人工智能發(fā)展報告(2016): 產業(yè)與應用篇[R/OL].http:∥tech.163.com/special/airport2016c/.