周健文,王宇帆,王明洋
(上海核工程研究設計院有限公司,上海 200233)
在核電廠日常運維中,存在畫面切換操作繁瑣、系統(tǒng)級設備級信息零散,信息爆炸,過多依賴操作人員個人經驗等問題。本文從人機交互、智能表達的角度出發(fā),基于深度推理技術,根據電廠所處不同運行模式和應用情景,對人機交互的需求、緊急性、信息量、目的等方面進行分析。應用自然語言識別、語義理解等技術,實現目標畫面及信息的快速定位,并通過對交互意圖的深度推理?;谠踊闹悄苤R庫提取與目標參數相關的知識體系對信息進行甄選、統(tǒng)計、組織,根據不同情景的需求進行目標參數群組的顯示及智能化統(tǒng)計,提供更加友好、便捷的智能人機交互,實時、有效地輔助運維人員進行決策,減少電廠運維中對人員經驗的過度依賴,減少因信息不全面、操作不便捷等因素帶來的人員誤操作,大幅提升電廠運維的效率及可靠性。
本文從核電廠運維畫面的需求角度出發(fā),在對智能語音交互的語音識別、自然語言處理、文本轉語音等關鍵技術研究的基礎上,以運維畫面智能語音交互為例開發(fā)了原型系統(tǒng),驗證關鍵技術的可行性。
圖1 智能語音交互系統(tǒng)架構Fig.1 Architecture of intelligent voice interaction system
智能語音交互系統(tǒng)通過有針對性地對語音進行分析和處理,將運維人員關心的信息直觀地呈現出來,并將重要信息以語音播報形式進行呈現,為運維人員運行和維護電廠提供參考和支持。智能語音交互系統(tǒng)的架構如圖1所示。
智能語音交互系統(tǒng)架構簡要描述如下:
1)語音接入:采用標準化接口及開發(fā)框架,輸出多種產品解決方案。智能語音交互系統(tǒng)軟件可應用于移動設備、Web網頁端、大屏等畫面終端。移動設備主要為現場運維人員提供支持,包括平板、VR眼鏡等;Web頁面主要針對運維辦公室的運維人員和遠程技術支持中心;大屏主要面向的是集團應急指揮中心和對外宣傳展示。因此,在語音接入端應支持通過移動設備、Web網頁端、大屏等進行語音交互,將用戶聲音采集,記錄并發(fā)送給智能引擎,智能引擎再根據音源做進一步處理操作。
2)智能引擎:提供面向應用的能力引擎模塊化封裝。通過移動設備APP、Web網頁端、大屏、話筒采集的聲音,綜合自然語言處理、語音識別、語義分析等多種AI能力,實現對語音數據的分析和處理。智能引擎主要由語音識別引擎(ASR)、自然語言處理引擎(NLP)和文本轉語音引擎(TTS)組成。語音識別引擎將自然語言轉換成文本信息;自然語言處理引擎通過對語音的上下文理解和關鍵詞識別,生成相應的指令信息;文本轉語音引擎能將任意文字信息實時轉化為標準流暢的語音朗讀出來。
圖2 語音識別流程圖Fig.2 Flow chart of speech recognition
3)結果輸出:提供統(tǒng)一的知識、語義、數據的融合體系,接入的語音通過智能引擎的處理產生結果輸出,輸出內容包括:文本信息、指令信息、語音播報等。文本信息為用戶語音文字化的結果;通過對文本信息的分析處理將得到指令信息,指令信息包括有數據庫查詢指令、畫面導航指令、軟控制器操作指令等;語音播報是在文本信息和指令信息的基礎上,通過例如數據庫查詢及數據處理后得到用戶所關心的問題,并將問題回答以語音播報的形式與用戶進行交互。
輸出的結果最終可在運維系統(tǒng)、應急指揮系統(tǒng)等畫面中進行呈現,實現與用戶的動態(tài)交互。
智能語音交互系統(tǒng)的關鍵技術主要包括語音識別、自然語言處理和文本轉語音。
語音識別是讓機器通過識別和理解過程,把語音信號轉變?yōu)橄鄳奈谋荆R別流程如圖2所示。
語音識別核心部分是聲學模型、語言模型和解碼器3部分。聲學模型主要用來構建輸入語音和輸出聲學單元之間的概率映射關系;語言模型用來描述不同字詞之間的概率搭配關系,使得識別出的句子更像自然文本;解碼器負責結合聲學單元概率數值和語言模型在不同搭配上的打分進行篩選,最終得到最可能的識別結果。
目前,在語音識別中已經開展了大量的研究,主要算法為基于神經網絡算法的各種改良和優(yōu)化,具體算法比較見表1。
從以上比較中可以看出,LFR-DFSMN是一種新穎的非遞歸結構的神經網絡,可以像RNN一樣對信號的長時相關進行建模,同時可以獲得更穩(wěn)定的訓練效果和更好的識別準確度。語言模型是在傳統(tǒng)N-Gram語言模型基礎上,利用神經網絡對長序列進行建模,彌補了N元文法對于序列長度建模的不足,同時其各層間的全向連接也保證了建模的平滑,進一步提升模型性能。因此,本文系統(tǒng)方案中采用LFR-DFSMN算法進行語音識別。
圖3 自然語言處理流程圖Fig.3 Flow chart of natural language processing
圖4 語音合成流程圖Fig.4 Flow chart of speech synthesis
圖5 通用導航熱點層級結構Fig.5 Hierarchy of general navigation hotspots
自然語言處理(NLP)技術是通過對問句在詞法分析、簡易句法分析等基礎上,根據統(tǒng)計模型來對知識意圖進行初步定位,得到候選集。然后,在候選集基礎上,根據自主研發(fā)的“基于語義表達式和普通問句混合運算”的語義相似度算法來定位最終的知識意圖。
大致過程為:詞法分析→句法分析→分級搜索→語義運算→語義推理→答案生成。其中,詞法分析指分詞、詞性、詞類語義應用等功能;句法分析指核心詞判定、權重調整等功能;分級搜索主要是為了確定語義運算的候選集合,縮小語義運算的范圍,語義運算是語義表達式與普通問句混合的自主的相似性相關的各種判斷方法;語義推理指在前述運算的結果(意圖定位)基礎上,依據領域庫、本體類關系、意圖推理配置等,結合預置于引擎的推理機模塊算法進行的各種形式的推理(如:多意圖推理、上下文推理等);答案生成是指將前述分析得到的語義信息(如:實體信息、slot信息等)結合答案模版得到最終的結果輸出。
NLP算法通常采用深度學習算法或機器學習算法。目前,在NLP中有許多現成的處理工具可直接進行使用。本文采用OPENNLP,是一個基于Java的機器學習工具包,可用于處理自然語言文本,支持主流常用的NLP任務,例如:標識化、句子切分、詞性標注、名詞抽取、組塊、解析等。
圖6 智能語音交互扁平式導航結構Fig.6 Intelligent voice interactive flat navigation structure
文本轉語音技術能將任意文字信息實時轉化為標準流暢的語音朗讀出來,語音合成流程如圖4所示。
在系統(tǒng)中,語音合成利用Multi-Speaker Model與Speaker-aware Advanced Transfer Learning相結合的方法,深度融合了目前主流的端到端TTS技術和傳統(tǒng)TTS技術,從多個方面改進了語音合成效果,大幅提高合成語音與真人發(fā)聲的相似度。
傳統(tǒng)的核電廠運維平臺畫面導航通過顯示畫面中的通用導航熱點或菜單欄/工具欄進行導航。對于運維畫面,存在集團/廠址/機組/系統(tǒng)/設備等多個層級的畫面,圖5描述了運維畫面的通用導航,該圖中的雙向箭頭表示雙向導航,該圖中顯示的系統(tǒng)都有多個詳細的顯示畫面。
以運維畫面為例,按傳統(tǒng)的畫面導航方法,從集團總貌出發(fā)到具體系統(tǒng)、設備畫面需通過多次點擊到達目標畫面。如果系統(tǒng)規(guī)模一旦很龐大,操縱員用于搜索和切換的“接口管理”工作量會急劇上升,導致操縱員執(zhí)行任務的時間增加,操縱員腦力負荷加重。
智能語音交互技術的使用,可以使畫面導航扁平化。通過支持語音感知和語義控制技術在運維平臺的應用研究和驗證,可部分解決當前數字化儀控系統(tǒng)人機交互的技術短板,最小化接口管理任務。通過語音結合語義技術,可以直接訪問關注的過程信息,而不需要層層畫面導航或鏈接。NUREG0700 Rev.2[5]中針對語音交互也給出了相應設計導則建議,也為本次試驗的驗證和研究工作提供理論依據。智能語音交互技術的成功應用對后續(xù)核電廠的人機交互新模式的推廣有極大的示范效應和經濟價值。圖6描述了智能語音交互扁平式導航結構。
經過智能化語音交互方式的改造,打破了原有層級導航的畫面結構,所有畫面均可通過一次語音導航到達,極大提升了運維人員的畫面導航效率。運維人員可直接通過語音指令到達想要操作或關注的畫面。
在智能語音交互系統(tǒng)設計中,采用第2節(jié)所述關鍵技術,以運維畫面智能語音交互為例,進行原型系統(tǒng)開發(fā),其開發(fā)流程如圖7所示。
運維平臺畫面語音導航模式可分為兩類:一類為當自然語言處理技術分辨出來具有可選的多幅畫面可以導航時,系統(tǒng)可根據畫面情況給運維人員進行相應的選擇;第二類為當自然語言處理技術分辨出來為僅有一幅畫面可以導航時,系統(tǒng)可直接導航至該畫面。與用戶動態(tài)交互模式同樣可分為兩類:一類為當自然語言處理技術分辨出來與唯一的標準問答對應時,系統(tǒng)直接給出回答;第二類為當自然語言處理技術分辨出來與多個標準問答對應時,系統(tǒng)將匹配的標準問答給運維人員進行相應的選擇。當自然語言處理無法識別用戶的交互時,應給出提示,并將該問題提交給后臺服務,進行不斷地機器學習迭代。典型的運維畫面智能交互示意圖如圖8所示。
本文在研究了智能語音交互系統(tǒng)的設計方案后,通過對智能語音交互系統(tǒng)的語音識別、自然語言處理、文本轉語音等關鍵技術的研究,對智能語音交互系統(tǒng)的原型進行了初步開發(fā)。采用本文設計方法設計的智能語音交互系統(tǒng)的創(chuàng)新點如下:
圖8 運維平臺畫面交互設計示意圖Fig.8 Schematic diagram of operation and maintenance platform screen interaction design
圖7 智能語音交互原型系統(tǒng)開發(fā)流程Fig.7 Development process of intelligent voice interaction prototype system
◇ 目前在國內外核電領域,畫面之間的導航、信息查詢都需要通過鼠標鍵盤進行操作,本文創(chuàng)新性地提出了將智能語音交互技術應用于運維平臺畫面,以減輕操縱員的接口管理和信息查詢負荷。
◇ 本文采用扁平化的導航設計理念,即所有畫面均處于同一層級,通過語音交互即可實現畫面的快速導航,避免傳統(tǒng)的層層導航的復雜操作。
◇ 本文設計的智能語音交互技術方案能應用于不同平臺的畫面中,通過語音/語義識別,模塊能直接生成指令信息,只需通過簡單的接口修改,即可實現對于不同運行環(huán)境畫面的智能導航及與用戶的動態(tài)交互。
◇ 本文所設計的智能語音交互系統(tǒng)具備自我學習的能力,即后續(xù)可通過該系統(tǒng)自主進行機器學習、訓練。通過訓練,可對運維平臺畫面場景進行優(yōu)化完善,并能實現新的畫面的智能導航和與用戶動態(tài)交互。
本文在研究了智能語音交互系統(tǒng)的關鍵技術后,對原型系統(tǒng)進行了初步開發(fā),并以運維平臺畫面為例對本文提出的關鍵技術進行了驗證。結果表明,采用本文提出的關鍵技術設計的智能語音交互系統(tǒng)具有自主知識產權、可移植性好等特點,后續(xù)通過工程樣機開發(fā)可應用于實際核電廠和技術支持中心,并可擴展至核電廠主控制室畫面以及其他工業(yè)領域,具有一定的市場前景。