徐心宇
摘要:文章首先介紹了人工智能技術(shù)與人機界面的基本概念,其次介紹了人工智能技術(shù)在人機界面領(lǐng)域的應用及發(fā)展現(xiàn)狀,從推薦系統(tǒng)、計算機視覺、語音識別三方面分析了人工智能導向下界面發(fā)展趨勢,闡述了人工智能對人機界面方面的影響。最后對人機界面未來的發(fā)展方向作了總結(jié)和展望。
關(guān)鍵詞:人工智能;人機界面;推薦系統(tǒng);計算機視覺;語音識別
中國分類號:J524 文獻標識碼:A
文章編碼:1672-7053(2019)02-0137-02
1 人工智能技術(shù)與人機界面的基本概念
1.1 人工智能技術(shù)
人工智能技術(shù)是計算機學科的重要分支之一,其核心思想是使用機器模擬人的思維過程,進而代替人完成相應的工作?!叭斯ぶ悄堋币辉~出現(xiàn)于1956年,由美國幾位數(shù)學、信息科學、計算機科學、神經(jīng)學、心理學方面的科學家提出。實際應用中,人工智能指機器可以感知環(huán)境的變化,系統(tǒng)根據(jù)設(shè)定的規(guī)則執(zhí)行目標任務[1]。 相對于普通程序,Al具備“認知”層面的進化,其特點是能夠自適應、自學習、自成長,通過人工智能、模式識別、機器學習等技術(shù)實現(xiàn)機器對現(xiàn)實世界各類數(shù)據(jù)及現(xiàn)象之間內(nèi)在關(guān)系的理解。通過對客觀世界及目前可以觀測、測量的各類信息、數(shù)據(jù)內(nèi)在含義的認知并有效地表達。使用機器模擬人的思維過程,代替人類從事大部分工作。同時處理大量信息,并針對多個“目標的集合”進行綜合決策,提供詳盡的客觀數(shù)據(jù)以協(xié)助用戶進行決策。
1.2 人機界面
人機界面分為廣義人機界面與狹義人機界面。廣義人機界面指人機系統(tǒng),由人、機和環(huán)境三個部分構(gòu)成的一個整體,相互聯(lián)系、相互影響。在人機系統(tǒng)中,通過人機界面實現(xiàn)人機之間的信息交流和控制活動。
狹義人機界面指的是計算機系統(tǒng)中的人機界面,用戶通過人機界面實現(xiàn)與計算機的信息交流傳遞。
與人工智能技術(shù)相結(jié)合的人機界面又被稱為智能界面,智能界面主要使用人工智能技術(shù)實現(xiàn)人機交流,提高了人機交互的可用性[2]。
2 人工智能在人機界面中的應用及發(fā)展
作為一門綜合學科,人工智能目前已在計算機視覺、機器學習、自然語言處理、智能機器人等多個領(lǐng)域發(fā)揮重要作用。隨著社會、經(jīng)濟和科學技術(shù)的發(fā)展,傳統(tǒng)人機界面已不能滿足當前的用戶需求。人工智能技術(shù)將引領(lǐng)人機界面的變革。近幾年來深度學習、神經(jīng)網(wǎng)絡(luò)技術(shù)呈現(xiàn)爆發(fā)式發(fā)展,尤其在個性化推薦系統(tǒng)、計算機視覺、語音識別等方面。
2.1 個性化推薦系統(tǒng)
互聯(lián)網(wǎng)的迅猛發(fā)展造成信息接收量的膨脹,同時也提高了用戶篩選信息的成本。如何有效地捕獲用戶的興趣偏好,正是個性化推薦系統(tǒng)的研究方向。個性化系統(tǒng)能夠依據(jù)用戶習慣和愛好推薦合適的服務,減低用戶信息篩選的成本。。
在人工智能導向下,人機界面從信息的被動傳輸轉(zhuǎn)變?yōu)橹鲃油扑],人機界面向真正意義上的智能界面轉(zhuǎn)變。Cheng等[3]提出了一種基于網(wǎng)站評價信息文本自適應的注意力模型,該模型通過分析用戶評價抽取用戶偏好和商品特征,實現(xiàn)用戶評價的智能排序。Tan[4]等人提出一種基于內(nèi)容的推薦系統(tǒng)的深度學習方法。使用時間遞歸神經(jīng)網(wǎng)絡(luò)展示語境和引用的分布式意義,用于提升文本和對話中的推薦領(lǐng)域。Wang[5]等開發(fā)了一種新型文章推薦模型,使用深度學習系統(tǒng)學習編輯選取文章的習慣,形成一套篩選文章的動態(tài)標準。
通過個性化推薦系統(tǒng),人機界面能夠識別并預測用戶的意圖,為每個用戶在不同時間、不同地點推薦最適合當前場景與興趣偏好的內(nèi)容。
2.2 計算機視覺技術(shù)
計算機視覺(CV),又稱機器視覺,是指機器感知外界環(huán)境的能力。機器視覺從客觀圖像中識別并提取信息,并對這些信息進行理解、分析、處理,對結(jié)果做出反饋[6],最典型的應用就是人臉識別和圖像識別。人臉識別技術(shù)使計算機能夠區(qū)分并記住每個不同用戶,實現(xiàn)個體需求的超細分化。而圖像處理技術(shù)使人工智能能夠識別用戶周圍的環(huán)境,從而能更加完全地把握用戶的狀況。
目前計算機視覺的主要研究方向為提高識別算法的精度及拓展計算機能夠識別的類型。Chao[7]等提出了以步態(tài)識別視頻序列為基礎(chǔ)的GaitSet算法。借助全連接網(wǎng)絡(luò)提高系統(tǒng)對目標特征鑒別性能。Wang[8]等人提出了一種以運動信息為核心的端到端物體檢測模型,該系統(tǒng)將像素級和實例級的特征同時校準從而提高檢測精度。Joo[9]等人提出了一種可以追蹤身體的姿勢、面部表情及手勢的三維人體生成模型。鄒國鋒等[10]介紹了現(xiàn)有的人臉識別技術(shù)以及多姿態(tài)三維的人臉識別;李學龍等[11]提到現(xiàn)有的用于場景圖像識別的分類法在目前的數(shù)據(jù)量龐大繁雜的環(huán)境下逐漸顯出其局限性,必須嘗試用計算機模擬人腦的思維方式,在理解場景深層語義的基礎(chǔ)上進行分類
借助計算機視覺技術(shù),人機界面能夠感知用戶的狀態(tài)及周邊環(huán)境,并做出相應反饋。人交互方式也從鍵盤鼠標等向手勢操作,眼部操作等新型操作方式發(fā)展。同時指紋識別、面部識別及步態(tài)識別等生物特征識別技術(shù)的應用,使個人財產(chǎn)、信息安全系數(shù)增加。
2.3 語音識別技術(shù)
語音識別是一種將語音實時轉(zhuǎn)換為可讀文本的技術(shù)。語音識別在人工智能領(lǐng)域應用廣泛。隨著深度學習技術(shù)的發(fā)展,語音識別從理論走向?qū)嵱没?。在輸入法、翻譯和搜索引擎等人機交互場景下,語音識別技術(shù)都有著廣泛應用。
目前語音識別的應用研究較為熱門,谷歌、百度、滴滴、小米等企業(yè)都成立了相應的研究團隊。當前的研究方向在提高識別的準確率,通過語音識別用戶的情緒與意圖。Xiong[12]等結(jié)合了基于神經(jīng)網(wǎng)絡(luò)的聲學和語言建模的最新進展成果,提高交換機識別任務的技術(shù)水平,該系統(tǒng)取得了6.3%的詞錯率。20u[13]等人提出了滴滴attention端對端語音識別系統(tǒng),并在實際應用中有顯著的性能提升。Taol[4]等人提出了一套復合情感識別框架。該框架通過深入挖掘輸入語音中與情感相關(guān)的信息,提高系統(tǒng)準確性。Shan[15]等使用基于注意力機制的端對端方法,在小米電視測試數(shù)據(jù)上成功獲得了2.81%的詞錯率。
語音識別技術(shù)豐富了人機界面的交互方式,使計算機能夠理解自然語言,更準確地了解用戶的意圖,進一步提高工作效率,滿足用戶需求。
3 人工智能導向下人機界面的變化及發(fā)展趨勢分析
傳統(tǒng)的人機界面已經(jīng)不能滿足用戶多樣化、個性化的需求。隨著人工智能技術(shù)的發(fā)展,未來人機界面將在信息呈現(xiàn)方式、界面使用方式上發(fā)生變化。人機界面的向智能化、多層次互動方向發(fā)展。
3.1 界面使用方式改變
1)身份識別方式多樣化。在信息化時代,個人信息安全急需保障。傳統(tǒng)的身份認證方式存在漏洞,生物識別驗證將逐漸取代傳統(tǒng)身份驗證方式,目前的生物識別技術(shù)有指紋識別、人臉識別、虹膜識別、步態(tài)識別及聲紋識別,前三者的應用較為廣泛。將來個人身份認證功能將會逐漸普及,驗證方式從單一生物指標識別轉(zhuǎn)變?yōu)槎嘀厣镏笜司C合識別。
2)操作方式多元化。通過語音操作的方式比重逐漸增大。通過語音操控硬件,提高工作效率,解放雙手。同時計算機對外部環(huán)境噪音進行降噪與語音提取,語音操作的交互體驗將不斷優(yōu)化,實現(xiàn)高擬人化、高識別度的語音控制。
3)信息搜索智能化。信息搜索的方式從單一的輸入文字,轉(zhuǎn)變?yōu)檩斎雸D像、語音文字的多種方式的綜合搜索引擎。通過上下文語義分析,視覺感知,情感理解,快速精準地為用戶進行多媒體內(nèi)容的推薦。信息從被動查詢向主動推薦轉(zhuǎn)變,根據(jù)用戶的歷史數(shù)據(jù)發(fā)掘用戶搜索內(nèi)容的潛在含義。
4)智能助理普遍化。通用型人工智能的出現(xiàn),使智能助理能夠覆蓋更多的場景,當前手機、智能音箱和電腦上的智能助理,僅是智能助理的形式之一。理想化的智能助理應提供人性化的交互體驗和個性化的服務體驗,使服務覆蓋不同場景。
3.2 界面呈現(xiàn)方式改變
1)界面呈現(xiàn)載體變化。傳統(tǒng)人機界面通過硬件載體實現(xiàn)信息的傳遞,而未來人機界面將不拘泥于屏幕顯示。視覺界面的呈現(xiàn)載體從二維平面向三維空間延伸,虛擬現(xiàn)實、增強現(xiàn)實、腦機接口、全息投影等新型交互方式將被逐漸應用于人機界面。用戶通過語音和手勢即可操作。
2)界面信息呈現(xiàn)形式改變。隨著多媒體技術(shù)的發(fā)展,信息的呈現(xiàn)由靜態(tài)向動態(tài)化轉(zhuǎn)變,動態(tài)的視頻信息將占據(jù)主導地位。越來越多的信息以三維形式呈現(xiàn),更加直觀、易理解,用戶的體驗更加真實。信息的呈現(xiàn)方式由單一的文字轉(zhuǎn)變?yōu)檎Z音、圖像、視頻的多樣化呈現(xiàn)。
4 總結(jié)和展望
隨著人工智能技術(shù)在人機界面領(lǐng)域的不斷發(fā)展,人機界面取得了一定的成果,但現(xiàn)有人工智能技術(shù)仍有許多局限性。(1)人臉識別、圖像識別的準確性受到訓練樣本的限制,無法適用于所有情況;(2)語音識別目前仍存在隱私暴露、噪音干擾,信息不可修改逆轉(zhuǎn)等問題,并不能完全取代圖形類界面。人工智能導向下人機界面的發(fā)展,還有很長的一段路要走。未來人機界面功能將會更加完善,用戶體驗更加良好。人工智能技術(shù)必將在人機界面中發(fā)揮越來越重要的作用。
參考文獻
[1]王志宏,楊震,人工智能技術(shù)研究及未來智能化信息服務體系的思考[J],電信科學,2017,33 (05):1-11.
[2]胡文婷,周獻中,王友發(fā),等.基于智能界面的交互模型研究[C]//2013中國指揮控制大會,2013.
[3]Cheng Z, Ding Y, Zhu L, et al Aspect-Aware Latent Factor Model: Rating Prediction withRatings and Reviews[J]. 2018
[4]Tan J, Wan X,Xiao J A Neural Network Approach to Cluote Recommendation inWritings[C]// Acm International on Conference on Information&Knowledge ManagementACM, 2016
[5]Wang X, Yu L, Ren K, et aI Dynamic Attention Deep Model for Article Recommendationby Learning Human Editors' Demonstration[C]// Acm Sigkdd International Conference onKnowledge Discovery&Data Mining. ACM, 2017
[6]卞正崗,機器視覺技術(shù)的發(fā)展[J].中國儀器儀表,2015 (6).
[7]Chao H, He Y Zhang J, et al GaitSet: Regarding Gait as a Set for Cross-View GaitRecognition[Jl. 2018
[8]Wang S, Zhou丫Yan J, et aI Fully Motion-Aware Network for Video Object Detection[C]//European Conference on Computer Vision. Springer, Cham, 2018
[9] Joo H, Simon T Sheikh丫Total Capture:A 3D Deformation Model for Tracking Faces,Hands, and Bodies[J]. 2018
[10]鄒國鋒,傅桂霞,李海濤,高明亮,王科俊,多姿態(tài)人臉識別綜述[J],模式識別與人工智能,2015,28 (07):613-625.
[11]李學龍,史建華,董永生,陶大程.場景圖像分類技術(shù)綜述[J].中國科學:信息科學,2015,45 (07):827-848.
[12] ChiuC C,Sainath T N,Wu Y et aI State-ot-the-art Speech Recognition With Sequenceto-Sequence Models[J]. 2018
[13] XiongW,Droppo J, HuangX, et al The Microsoft 2016 Conversational Speech RecognitionSystem[J]. 2016
[14] ZouW,Jiang D,Zhao S,et al A comparable study of modeling units for end-to-endMandarin speech recognition[J]. 2018
[15] Tao F,Liu G,Zhao Q AN ENSEMBLE FRAMEWORK OF VOICE-BASED EMOTIONRECOGNITION SYSTEM FOR FILMS AND TV PROGRAMS[J]. 2018
[16] Shan C, Zhang J, Wang Y, et al [IEEE ICASSP 2018 - 2018 IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP) - Calgary, AB, Canada (2018.4.152018.4.20)] 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) - Attention-Based End-to-End Speech Recognition on Voice Search[J]. 2018:4764-4768