徐秋平,任 玲,樊璽炫,王義華
(青島地鐵集團(tuán)有限公司,山東青島 266000)
語音識別技術(shù),又稱為語音人機交互技術(shù),是以語音作為主要信息載體,使機器具備能說會聽、學(xué)習(xí)思考的能力,實現(xiàn)人類與機器之間類似人類互相之間的自然語音交互過程。隨著城市軌道交通線網(wǎng)規(guī)模的不斷增大,乘客購選票時間會延長,尤其對于不熟悉自己出行路徑和設(shè)備操作的乘客,購選票花費時間則更長。另外,由于存在車站乘客的問詢量大,問詢內(nèi)容涉及站內(nèi)外信息、票務(wù)政策等業(yè)務(wù)知識廣等問題,站務(wù)人員需承擔(dān)高負(fù)荷、高強度的問詢答疑工作。因此,將語音識別技術(shù)應(yīng)用于城市軌道交通,對實現(xiàn)車站服務(wù)的自助化、智能化、人性化,具有重要意義。目前,國內(nèi)部分城市軌道交通已將語音識別技術(shù)應(yīng)用于自動售檢票(AFC)系統(tǒng)中,如上海、合肥、南京和深圳等城市軌道交通對原有自動售票機進(jìn)行改造實現(xiàn)語音購票功能;深圳、青島、寧波和西安等城市軌道交通上線集票務(wù)服務(wù)、語音問詢、車站信息資訊于一體的智能客服中心。由于語音識別技術(shù)可實現(xiàn)無接觸式交互,特別在受新冠肺炎疫情影響的情況下,更加體現(xiàn)出其優(yōu)勢價值。隨著語音識別技術(shù)在城市軌道交通AFC系統(tǒng)中的應(yīng)用推廣,傳統(tǒng)AFC系統(tǒng)設(shè)備業(yè)務(wù)流程和系統(tǒng)架構(gòu)將隨之改變。
語音識別技術(shù)在城市軌道交通AFC系統(tǒng)中的應(yīng)用包括語音購票和語音問詢2類業(yè)務(wù)。
語音購票功能是在傳統(tǒng)自動售票機上增加語音處理模塊,支持乘客通過語音對話來完成車票的購買,從而替代傳統(tǒng)觸摸式購票操作,避免因不熟悉自動售票機而導(dǎo)致的車票購買困難,有效縮短原本需點選屏幕選站、售票的時間。語音購票實現(xiàn)的重點和難點在于嘈雜環(huán)境下的自動語音識別,當(dāng)乘客走近自動售票機,攝像頭自動喚醒語音處理模塊,準(zhǔn)確接收和識別乘客語音輸入的目的地信息,進(jìn)而完成人機互動。對于部分乘客只知目的地而不知具體車站名的問題,可在語音識別技術(shù)的基礎(chǔ)上應(yīng)用模糊地點搜索,將單一的購票行為升級為問路、路徑選擇、購票相結(jié)合的復(fù)合行為。語音購票業(yè)務(wù)流程如圖1所示。
圖1 語音購票業(yè)務(wù)流程圖
語音購票的功能需求包括:在強噪聲環(huán)境下準(zhǔn)確識別并顯示乘客語音;能完全屏蔽左右兩旁自動售票機使用者對中間售票機的影響;能完全屏蔽當(dāng)前乘客背后排隊者的語音干擾;理解乘客意圖,判斷出乘客的目的地名稱,支持車站外各種地點的查詢,例如小區(qū)、大樓等;結(jié)合云端地圖數(shù)據(jù)搜索出距離乘客目的地最近的車站;提供從當(dāng)前站點到目的地的詳細(xì)換乘路徑信息;具備人臉識別能力,能判斷使用者數(shù)量,無需乘客喚醒或者手動激活語音;乘客可進(jìn)行語音購票與觸摸購票2種方式的自由切換。
乘客通過語音識別終端設(shè)備可自助語音查詢站內(nèi)服務(wù)設(shè)施、出入口、導(dǎo)航、運行時間、票務(wù)政策等信息;也可選擇人工服務(wù),與遠(yuǎn)程坐席客服進(jìn)行語音交互,實現(xiàn)在線問詢,解決知識盲點及投訴問題,以及突發(fā)狀況時的緊急求助。語音問詢業(yè)務(wù)流程如圖2所示。
圖2 語音問詢業(yè)務(wù)流程圖
語音問詢功能需求包括:乘客可轉(zhuǎn)人工服務(wù),與后臺客服人員進(jìn)行實時語音問詢;具有完善的知識庫系統(tǒng),涵蓋地鐵出行所涉及的各種業(yè)務(wù)知識;具備后臺運維管理功能,可對乘客的問詢內(nèi)容進(jìn)行統(tǒng)計、分析,并針對知識盲點補充知識庫系統(tǒng)。
語音識別技術(shù)的關(guān)鍵在于在強噪聲環(huán)境下通過攝像頭和麥克風(fēng)陣列檢測目標(biāo)乘客,并能準(zhǔn)確接收和識別乘客語音信息,精準(zhǔn)理解乘客意圖,對獲取的目的地信息做模糊地點搜索,推薦距離目的地最近的地鐵站并提供相關(guān)的換乘信息;或者對乘客咨詢的問題進(jìn)行知識圖譜庫檢索,以文字、圖片、聲音、動畫等形式輸出答案。實現(xiàn)上述功能涉及的關(guān)鍵技術(shù)包括:人臉唇動檢測、定向語音增強、模糊地點搜索及知識庫系統(tǒng)。
城市軌道交通車站環(huán)境嘈雜,人臉唇動檢測技術(shù)可有效監(jiān)測、捕獲需進(jìn)行語音交互的乘客,實現(xiàn)免喚醒語音輸入。設(shè)備前端安裝高清攝像頭,支持不同身高乘客的場景需求。根據(jù)攝像頭檢測到的人臉尺寸,系統(tǒng)自動判斷乘客與設(shè)備間的距離,當(dāng)距離值在系統(tǒng)定義的允許測距范圍內(nèi)則可喚醒語音服務(wù)進(jìn)行語音采集。
為避免受周圍人聲、環(huán)境背景聲、乘客長時間滯留等因素的影響,需要唇動檢測來提高語音識別質(zhì)量。攝像頭通過持續(xù)采集圖像獲取乘客唇部狀態(tài)變化,再經(jīng)唇動檢測算法,得出乘客開始說話和結(jié)束說話的時間階段,在乘客嘴唇活動的時間段內(nèi),進(jìn)行語音采集;反之,乘客嘴唇未動的情況下不進(jìn)行采集。
大客流車站人群密集,語音購票和乘客問詢會受到全方位語音干擾,多人操作聲音、車站廣播、各種聲音產(chǎn)生的混響均會導(dǎo)致設(shè)備收到的語音信息嘈雜,導(dǎo)致語音識別的效果難以保證。語音增強是指當(dāng)語音信號被各種各樣的噪聲干擾甚至淹沒后,從含噪聲的語音信號中提取純凈語音的過程。
定向語音增強的麥克風(fēng)陣列可實現(xiàn)對設(shè)備前方某個固定扇形區(qū)域的人聲增強,而對其他方向的人聲和噪聲進(jìn)行抑制。
傳統(tǒng)模式只能通過選擇具體車站名稱來進(jìn)行購票。語音識別技術(shù)搭載地圖軟件可實現(xiàn)模糊地點搜索,可覆蓋到景點、地標(biāo)、樓宇、小區(qū)和道路等各種非車站名稱。語音識別乘客所述的地點信息后,若為車站名稱,則直接進(jìn)入購票界面,并提供換乘路徑、距離等信息;若非車站名稱,則訪問地圖軟件查詢附近的地點站名,返回對應(yīng)的車站名稱引導(dǎo)乘客購票。當(dāng)檢索到多個候選目的車站時,提供多個目的車站名稱供乘客選擇。
知識庫系統(tǒng)是向乘客提供語音咨詢各項服務(wù)的核心,可通過對文字、圖片、視頻等信息進(jìn)行錄入、管理和加工,為乘客提供智能化顯示。乘客可通過智能客服中心、智能咨詢機等語音咨詢終端,對運營線路、首末班車、票價、票務(wù)政策、站內(nèi)設(shè)施、站外路線、車站出入口等城市軌道交通常見信息進(jìn)行語音自助查詢。
語音識別硬件包括攝像頭、錄音分壓板、線性麥克風(fēng)陣列、語音識別模組,其中,語音識別模組可集成人臉檢測、唇動檢測、麥克風(fēng)陣列降噪、語音交互算法。語音終端設(shè)備架構(gòu)圖如圖3所示。
圖3 語音終端硬件架構(gòu)圖
攝像頭感知到乘客后,發(fā)送信號給語音識別模組,控制錄音分壓板和線性麥克風(fēng)陣列工作,麥克風(fēng)陣列降噪算法對兩側(cè)噪聲進(jìn)行抑制、回聲消除等降噪處理,確保錄音音頻的質(zhì)量。語音識別模組將錄音通過語音交互算法發(fā)送到語音云平臺進(jìn)行處理,獲取語義理解結(jié)果;語音識別模組在獲取語義理解結(jié)果后通過串口傳給工控機;工控機在接收到語義結(jié)果后,根據(jù)業(yè)務(wù)類型、意圖、關(guān)鍵詞判斷是否執(zhí)行操作,即可快速實現(xiàn)語音交互功能。
嵌入語音識別功能后的AFC系統(tǒng)架構(gòu)如圖4所示。
圖4 嵌入語音識別的AFC系統(tǒng)架構(gòu)圖
自動售票機、票務(wù)處理終端、智能客服中心等設(shè)備通過有線網(wǎng)絡(luò),智能咨詢機、智能機器人和智能手持終端通過無線網(wǎng)絡(luò)接入AFC系統(tǒng)專網(wǎng),并通過互聯(lián)網(wǎng)票務(wù)平臺的安全接口連接外網(wǎng)接入語音云平臺實現(xiàn)終端設(shè)備的語音交互功能。購票、票卡處理交易依次上傳至車站計算機系統(tǒng)、線路中央計算機系統(tǒng)、清分系統(tǒng),由清分系統(tǒng)與城市一卡通、金融IC卡等外部系統(tǒng)進(jìn)行清分結(jié)算,由互聯(lián)網(wǎng)票務(wù)平臺統(tǒng)一接入微信、支付寶、銀聯(lián)等第三方支付系統(tǒng)完成互聯(lián)網(wǎng)支付功能。
針對城市軌道交通語音業(yè)務(wù),全線網(wǎng)建設(shè)統(tǒng)一的語音處理平臺,具體系統(tǒng)架構(gòu)如圖5所示,整個系統(tǒng)劃分為4層,從下到上分別為硬件層、算法層、接入層、應(yīng)用層。
圖5 語音云平臺系統(tǒng)架構(gòu)圖
4.3.1 硬件層
硬件層在機房搭載部署語音交互引擎、人工智能(AI)語義結(jié)構(gòu)化可視化開發(fā)平臺所需的圖形處理服務(wù)器(GPU)、中央處理服務(wù)器(CPU),并部署引擎及平臺運行所需的服務(wù)組件,包括但不限于調(diào)度服務(wù)、消息中間件、數(shù)據(jù)庫。
4.3.2 算法層
算法層部署語音交互所需的語音識別、語義理解、語音合成引擎,并部署AI語義結(jié)構(gòu)化可視化開發(fā)平臺,使終端設(shè)備具備“聽”“懂”“說”這3項能力。同時支持購票、線網(wǎng)圖查詢、站內(nèi)導(dǎo)航等語義技能的可視化開發(fā),滿足持續(xù)優(yōu)化語義理解效果的需求,從而不斷提升自動售票機、智能客服中心等語音交互的智能度。
語音識別好比“機器的聽覺系統(tǒng)”,它讓機器通過識別和理解,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。語音識別的效果直接影響系統(tǒng)設(shè)備能否獲取乘客真實的需求,應(yīng)特別關(guān)注語音識別的準(zhǔn)確率,以及支持所在服務(wù)地區(qū)方言語種的需求。語音識別應(yīng)支持線網(wǎng)所有語音終端設(shè)備接入的需求,語音識別準(zhǔn)確率至少達(dá)98%,語音輸入速度至少180 字/min,并實時返回識別結(jié)果,達(dá)到邊錄入邊識別的效果。
語義理解最大的挑戰(zhàn)是如何理解乘客同一個意圖的不同問法。系統(tǒng)應(yīng)支持詞槽抽取,以及乘客模糊表達(dá)、斷句、多音字的容錯理解,采用多輪會話、上下文語義理解。為提高語義理解效果,需要不斷積累城市軌道交通行業(yè)語料。
語音合成解決的主要問題是將文字轉(zhuǎn)換為聲音,語音的自然度取決于發(fā)音聲調(diào)的變化,而在連續(xù)語音流中,字的發(fā)音不僅與這個字本身發(fā)音有關(guān),還受到前后相鄰字的發(fā)音以及語氣表達(dá)的影響。基于城市軌道交通應(yīng)用場景,調(diào)整合成的語速、音色、音量以及各種發(fā)音細(xì)節(jié),極大提升合成音的“擬人度”,從而讓語言終端設(shè)備提供親切自然的服務(wù)。
4.3.3 接入層
接入層是通過語音識別模組、軟件開發(fā)工具包(SDK)等接入方式,實現(xiàn)硬件采集音頻,軟件通過SDK上傳到算法層進(jìn)行語音識別、語義理解處理,并進(jìn)行業(yè)務(wù)結(jié)果回答播報的語音交互接入方案。
4.3.4 應(yīng)用層
應(yīng)用層包含自動售票機、智能客服終端、智能機器人等語音交互設(shè)備。自動售票機在原有觸屏購票的基礎(chǔ)上增加語音購票功能,實現(xiàn)語音購票與觸屏交互的結(jié)合;智能客服終端、智能機器人為乘客提供線網(wǎng)圖查詢、乘車路線查詢、票價查詢、站內(nèi)導(dǎo)航等業(yè)務(wù)咨詢服務(wù)。后期可接入城市軌道交通app、微信公眾號和小程序等,滿足乘客隨時隨地語音問詢的需求。
語音識別技術(shù)作為一項高度智能的科技手段,應(yīng)用于城市軌道交通,可實現(xiàn)無接觸式交互,為乘客提供購票、問詢等業(yè)務(wù)功能,實現(xiàn)車站服務(wù)的自助化、智能化、人性化。通過對語音識別技術(shù)在城市軌道交通AFC系統(tǒng)應(yīng)用的全方位整體規(guī)劃,極大推動語音識別技術(shù)在城市軌道交通智慧乘客服務(wù)領(lǐng)域的應(yīng)用,促進(jìn)城市軌道交通智能化轉(zhuǎn)型升級。