摘要:針對當前水利工程防汛“四預(yù)”系統(tǒng)交互方式繁瑣、嚴重依賴實際操作人員經(jīng)驗、智能化應(yīng)用不足等問題,開展了語音技術(shù)在防汛“四預(yù)”平臺中的應(yīng)用研究工作。首先,集成智能語音識別的開放式服務(wù)系統(tǒng),通過標準化服務(wù)接口實時交互音頻數(shù)據(jù)和識別結(jié)果;然后,梳理水利工程防汛“四預(yù)”中的業(yè)務(wù)流程,總結(jié)凝練3類實際應(yīng)用場景;最后,以服務(wù)實際應(yīng)用場景為目標,整理并匯集相關(guān)的水利專業(yè)詞匯和句式,搭建語音數(shù)據(jù)語料庫和場景技能庫。在大藤峽防汛“四預(yù)”平臺中的應(yīng)用表明,該研究提供了更全面的信息獲取渠道,有效提高了系統(tǒng)的智能交互能力及使用人員的工作效率,為水利工程管理工作提供了技術(shù)服務(wù)支撐。
關(guān)鍵詞:語音識別;智慧水利;防汛“四預(yù)”
中圖分類號:TV1 文獻標識碼:A 文章編號:1001-9235(2024)04-0011-07
Speech Technology Application of “FEDE” Platform for Flood Control
QIU Wenjian1,TIAN Maochun1,2,YANG Yue1,F(xiàn)AN Guangwei1,2,HUANG Lu3
(1.Pearl River Water Resources Research Institute,Pearl River Water Resources Commission,Guangzhou 510611,China;
2.Key Laboratory of Water Security Guarantee in Guangdong-Hong Kong-Marco Greater Bay Area of Ministry of Water Resources,Guangzhou 510611,China;
3.Guangxi Datengxia Gorge Water Conservancy Development Co.,Ltd.,Nanning 530000,China)
Abstract: There are currently cumbersome and inefficient interaction methods in the “FEDE” system for flood control in water conservancy projects,heavy reliance on the experience of actual operators,and insufficient intelligent application.To this end,this paper carries out research on the application of voice technology to the “FEDE” platform for flood control.Firstly,an open service system that integrates intelligent speech recognition allows for real-time interaction of audio data and recognition results by standardized service interfaces.Then,this paper sorts out the business processes in the “FEDE” for flood prevention in water conservancy projects,and summarizes and refines three types of practical application scenarios.Finally,relevant water conservancy vocabulary and sentence structures are organized and compiled,and a speech data corpus and scenario skill library are built to serve practical application scenarios.The applications of the “FEDE” platform for flood control in Datengxia indicate that this paper offers a more comprehensive channel for information acquisition,and improves the intelligent interaction of the system and work efficiency of users,providing technical service support for water conservancy engineering management.
Keywords:speech recognition;intelligent water conservancy;“FEDE” for flood control
當前,社會的信息技術(shù)發(fā)展呈現(xiàn)出百花齊放之勢,新一代的信息技術(shù),如人工智能、云計算、物聯(lián)網(wǎng)和大數(shù)據(jù)的方興未艾,新興的信息技術(shù),如元宇宙、5G通信、全息投影等技術(shù)也正席卷各個行業(yè),信息技術(shù)正與傳統(tǒng)業(yè)務(wù)進行深度融合。
國家“十四五”規(guī)劃綱要明確提出“構(gòu)建智慧水利體系,以流域為單元提升水情測報和智能調(diào)度能力”[1]。水利部高度重視智慧水利建設(shè),在2021年10月發(fā)布了《“十四五”智慧水利建設(shè)規(guī)劃》,對中國水利發(fā)展的下一階段目標和任務(wù)作出明確指示,規(guī)劃中提出構(gòu)建模型平臺需建設(shè)水利專業(yè)模型、智能模型、可視化模型、數(shù)字模擬仿真引擎的要求,其中語音識別是智能模型里面重要的功能模塊[2]。2022年3月,水利部印發(fā)了《數(shù)字孿生流域建設(shè)技術(shù)大綱(試行)》,明確了數(shù)字孿生流域的具體建設(shè)內(nèi)容和技術(shù)要求,其中再次明確智能模型包括智能分析模型和智能識別模型[3],智能識別包括遙感、視頻和語音識別。但是目前水利工程仍存在智能化管理水平不高,大數(shù)據(jù)、人工智能等新一代信息技術(shù)研究和應(yīng)用不足的現(xiàn)象[4],語音識別技術(shù)在水利行業(yè)的應(yīng)用仍處于探索階段,在實際防汛“四預(yù)”業(yè)務(wù)的應(yīng)用場景仍不清晰,距離構(gòu)建智慧水利體系的智能調(diào)度能力仍有不小距離。
語音技術(shù)是人工智能領(lǐng)域中技術(shù)最為成熟的分支之一,主要包括語音識別、自然語言理解、語音合成和聲紋識別等技術(shù),其研究最早可追溯到20世紀50年代,貝爾實驗室研發(fā)了第1臺孤立數(shù)字識別系統(tǒng)Audrey,實現(xiàn)了可以識別10個英文數(shù)字[5]。20世紀70年代,以動態(tài)時間規(guī)整技術(shù)為代表的語音識別技術(shù)有了新的突破[6]。隨著以隱馬爾可夫模型法(HMM)和基于神經(jīng)網(wǎng)絡(luò)技術(shù)模型(ANN)為代表的新技術(shù)不斷出現(xiàn),識別的算法開始從模板匹配轉(zhuǎn)變?yōu)榛诮y(tǒng)計的模型[7-8]。2011年,微軟研究院在隱馬爾可夫模型基礎(chǔ)上引入上下文關(guān)聯(lián)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),對大詞匯量的連續(xù)語音識別的準確率有了顯著的提高,從此大量研究人員開始轉(zhuǎn)向深度學(xué)習(xí)在智能語音領(lǐng)域的研究。直到2016年,機器語音識別的準確率首次達到人類水平[9],語音技術(shù)正式實現(xiàn)實用化。中國的語音技術(shù)雖然起步較晚,但是發(fā)展非常迅速,至今已掌握自主知識產(chǎn)權(quán)并達到國際領(lǐng)先水準。其中科大訊飛、思必馳、百度、阿里、騰訊等頭部企業(yè)持續(xù)推進“平臺+賽道”發(fā)展模式,通過開放平臺為開發(fā)者提供場景創(chuàng)新的技術(shù)支持[10],支撐傳統(tǒng)行業(yè)的智能語音場景應(yīng)用落地。
語音技術(shù)在水利行業(yè)應(yīng)用研究方面,1999年,水利部淮河水利委員會研制開發(fā)電話語音卡報汛技術(shù),利用語音播報技術(shù)輔助報訊者通過電話上傳水情信息[11]。次年,水利部黃河水利委員會研發(fā)水情語音查詢系統(tǒng),實現(xiàn)水情信息實時查詢播報[12],但是語音識別技術(shù)的應(yīng)用一直處于空白。2019年,北京市水務(wù)信息管理中心把語音識別技術(shù)應(yīng)用到北京河長制系統(tǒng)中,實現(xiàn)智能識別人類語音并按業(yè)務(wù)要求錄入信息的業(yè)務(wù)場景[13]。2021年,科大訊飛股份有限公司實現(xiàn)聲紋識別技術(shù)對泵站設(shè)備進行實時監(jiān)測預(yù)警[14],同年,水利部淮河水利委員會在安徽省基層防汛監(jiān)測預(yù)警系統(tǒng)應(yīng)用語音識別技術(shù),實現(xiàn)語音查詢和上報數(shù)據(jù)的業(yè)務(wù)場景[15]。2022年,黃河勘測規(guī)劃設(shè)計研究院有限公司在水資源管理系統(tǒng)中應(yīng)用語音識別技術(shù)提高系統(tǒng)操作效率[16]。
本文從水利工程的防汛“四預(yù)”業(yè)務(wù)場景出發(fā),探索語音技術(shù)在水利工程防汛與水量調(diào)度工作中的具體應(yīng)用。
1 技術(shù)路線
語音交互系統(tǒng)基于科大訊飛的AIUI開放平臺,通過語料庫和技能庫提供基礎(chǔ)的數(shù)據(jù)服務(wù)支撐;語音作為人機交互的入口之一,平行于傳統(tǒng)的操作模式,在已有應(yīng)用系統(tǒng)建設(shè)成果基礎(chǔ)上,調(diào)用前端、地圖引擎和數(shù)據(jù)后臺的接口,實現(xiàn)語音場景的智能交互,邏輯架構(gòu)見圖1。
a)語音交互系統(tǒng)。實現(xiàn)場景化語音交互的系統(tǒng),作為與AIUI平臺、前端和后端進行對接的平臺,具備語音喚醒、語音播報、語義分析、業(yè)務(wù)場景交互等功能。
b)語料庫?;诿嫦?qū)ο蟮臄?shù)據(jù)模型構(gòu)建水利工程防汛“四預(yù)”業(yè)務(wù)的語料庫,分為水利相關(guān)專業(yè)詞匯和通用詞匯,其中專業(yè)詞匯包括水利工程、監(jiān)測站點、流域、行政區(qū)域、水情、天氣、預(yù)警類型、預(yù)警方式、調(diào)度類型、調(diào)度方式和預(yù)演方案等類型;通用詞匯包括時間、數(shù)量、日期、單位和操作等日常使用詞匯。另外,為有效提高語音識別的準確率,通過提高語料庫中詞匯的權(quán)重和歸并同音詞以解決同音詞引起的歧義問題。
c)技能庫?;谒こ谭姥础八念A(yù)”業(yè)務(wù)場景,梳理業(yè)務(wù)場景中用到的話術(shù),對話術(shù)進行拆解并與語料庫中的詞匯相互匹配,形成明確表達語境意圖和操作目標的語音技能庫。
d)AIUI開放平臺。面向服務(wù)的開放平臺,提供第三方語音識別和語音合成服務(wù),具備音頻處理和語義理解能力,采用HTTP/REST的通信機制,通過對語音交互系統(tǒng)實時上傳的聲音波形數(shù)據(jù)進行解析和識別,檢測其中包含的語料庫詞匯,根據(jù)語料庫詞匯的組合匹配技能庫技能,把技能的意圖和語料實體以JSON的數(shù)據(jù)格式返回語音交互系統(tǒng)。
e)防洪“四預(yù)”系統(tǒng)。負責(zé)展示“四預(yù)”系統(tǒng)的業(yè)務(wù),包括:預(yù)報、預(yù)警、預(yù)演和預(yù)案等模塊,為語音交互系統(tǒng)提供頁面更新接口,根據(jù)語音交互場景切換前端頁面展示內(nèi)容。
f)可視化引擎。提供GIS地圖和三維模型的可視化服務(wù),展示流域范圍內(nèi)的河流、湖泊、測站、水利工程、山地等元素,結(jié)合水文模型通過可視化方式表達水情、降雨、水位等關(guān)鍵數(shù)據(jù),具備圖層管理、空間定位和三維操作等能力。
2 語音場景梳理及構(gòu)建
2.1 場景梳理
水利工程防汛“四預(yù)”系統(tǒng)的功能復(fù)雜,在實際工作中比較依賴操作人員的經(jīng)驗,加上防汛與調(diào)度規(guī)則涉及的信息龐雜且嚴謹,查找資料存在諸多不便。故本研究從水利工程防汛“四預(yù)”系統(tǒng)工作人員的日常調(diào)度工作出發(fā),梳理了涵蓋態(tài)勢感知、預(yù)報、預(yù)警、調(diào)度預(yù)演和調(diào)度預(yù)案5個應(yīng)用模塊的工作流程,總結(jié)出3類35項應(yīng)用場景,分別是圖層管理類、查詢計算類和調(diào)度應(yīng)用類,見圖2。
2.1.1 圖層管理類
圖層管理類負責(zé)控制數(shù)字孿生三維場景內(nèi)的所有元素,包括遙感地圖、地形地圖、傾斜攝影模型、BIM模型、降雨分布、水系、行政區(qū)域、水情數(shù)據(jù)等可視化元素。
2.1.2 查詢計算類
查詢計算類負責(zé)查詢水利工程及其相關(guān)測站的實時監(jiān)測數(shù)據(jù)、預(yù)報數(shù)據(jù)、實時水情、歷史水情、工程信息、調(diào)度規(guī)則等信息和計算水庫不同工況下的庫容、泄流能力等重要指標。通過語音合成的功能把查詢和計算的結(jié)果從字符串轉(zhuǎn)化為音頻數(shù)據(jù)進行語音回復(fù)。
2.1.3 調(diào)度應(yīng)用類
調(diào)度應(yīng)用類負責(zé)具有復(fù)雜調(diào)度流程的應(yīng)用場景,往往需要考慮前后操作關(guān)系、接收用戶語音數(shù)據(jù)、進行語音指引等情況,比如:閘門開閘調(diào)度、預(yù)警廣播、預(yù)警短信、調(diào)度預(yù)演、計算方案等場景。
2.2 場景搭建
在水利工程防汛“四預(yù)”系統(tǒng)的日常工作流程中總結(jié)了3類35項應(yīng)用場景,而35項應(yīng)用場景由26個技能進行組合完成,其中涉及約41類語料。場景、技能庫和語料庫之間的架構(gòu)關(guān)系見圖3。
以圖層管理類中打開某一個圖層的場景為例,比如“打開潯江兩岸”的場景搭建可以拆解為以下幾個步驟。
2.2.1 場景句式設(shè)計及拆解
需求場景為:在三維場景中打開潯江兩岸站點的傾斜攝影模型并把視口定位到該站點位置上。根據(jù)需求場景設(shè)計日常工作中使用頻率較高的句式:“打開潯江兩岸”。根據(jù)對場景的意圖理解把“打開潯江兩岸”的句式拆解為“打開”和“潯江兩岸”2個關(guān)鍵詞。
2.2.2 語料庫設(shè)計
根據(jù)“打開”和“潯江兩岸”的關(guān)鍵詞,考慮在語料庫中設(shè)計“open”和“position”2個類別,“open”作為通用的語料類別,用以表達打開、定位、查看一類的操作意圖,故在“open”類別中錄入“打開”“定位”“查看”等意圖相近的操作詞匯,如此可讓技能設(shè)計涵蓋更多的說法并統(tǒng)一相近詞匯的意圖,避免重復(fù)的技能之間產(chǎn)生沖突。同理,“position”作為水利行業(yè)相關(guān)的語料類別,用以表達某一自然地理位置或水利工程的對象,故在“position”中錄入“潯江兩岸”“梧州河段”“石龍大橋”“大藤峽庫區(qū)”等防汛“四預(yù)”業(yè)務(wù)中需要用到的專業(yè)詞匯,語料庫設(shè)計見圖4。
2.2.3 技能庫設(shè)計
根據(jù)場景意圖,考慮在技能庫中設(shè)計“openLayer”技能,設(shè)計技能句式為“打開潯江兩岸”,其中“打開”與“open”的語料類別綁定,“潯江兩岸”與“position”語料類別綁定,該技能即可涵蓋打開某站點的意圖,當用戶說話的句式包含“open”類的操作和“position”類的對象,即可擊中技能返回“open”和“position”關(guān)鍵詞,例如說出的句式為:“打開潯江兩岸”,系統(tǒng)以JSON數(shù)據(jù)格式返回關(guān)鍵詞“open”和“position”,對應(yīng)的值分別為“打開”和“潯江兩岸”,其他句式“定位梧州河段”等同理。
綜上所述,場景設(shè)計、語料設(shè)計和技能設(shè)計的關(guān)系見表1。
3 項目應(yīng)用
3.1 項目應(yīng)用場景
研究成果在大藤峽水利樞紐工程進行了項目應(yīng)用,大藤峽水利樞紐工程是國務(wù)院確定的172項節(jié)水供水重大水利工程標志性工程之一,也是珠江-西江經(jīng)濟帶和“西江億噸黃金水道”基礎(chǔ)設(shè)施建設(shè)的標志性工程,集防洪、航運、發(fā)電、水資源配置、灌溉等綜合效益于一體,是珠江流域關(guān)鍵控制性水利樞紐[17]。
大藤峽防汛與水量調(diào)度“四預(yù)”平臺為大藤峽水利樞紐工程的水量調(diào)度和防汛“四預(yù)”工作提供重要的信息技術(shù)支撐,在水利樞紐工程日常的運行中承擔比較繁重的工作。本研究為大藤峽防汛與水量調(diào)度“四預(yù)”平臺賦能智能語音技術(shù),設(shè)置語音喚醒和設(shè)備喚醒等操作模式,通過梳理的35項水利工程“四預(yù)”語音應(yīng)用場景,解決平臺管理人員在實際工作中遇到的相關(guān)資料查找不便、系統(tǒng)復(fù)雜操作繁瑣等問題。以實際工作場景為例。
3.1.1 查詢大藤峽水庫歷史徑流量
在實際調(diào)度工作中,當需查詢大藤峽水庫某年或某月的歷史徑流量,只需對拾音設(shè)備說出喚醒詞“小藤小藤”,系統(tǒng)即進入語音識別狀態(tài),此時說出需查詢的某時間的徑流量,如:“大藤峽5月徑流量是多少”,語音交互系統(tǒng)向后臺代理模塊查詢大藤峽本年5月的徑流量數(shù)據(jù)(如果指定年月則查詢具體年月數(shù)據(jù)),然后通過語音合成模塊進行語音播報“大藤峽2023年5月的徑流量為2 000 m3/s”,語音查詢交互頁面見圖5。
3.1.2 計算方案
在實際調(diào)度工作中,編輯調(diào)度方案工作較為頻繁,使用語音控制可有效提高系統(tǒng)管理人員的工作效率。語音操作流程為:“進入2023年8月17日預(yù)演方案”系統(tǒng)進入對應(yīng)日期的預(yù)演方案界面;“生成調(diào)度方案”系統(tǒng)進入方案計算界面;“分段控制”選擇分段控制調(diào)度模式;“2023年8月17日8時到2023年8月19日20時恒定流量500”如此重復(fù)設(shè)置分段控制的調(diào)度任務(wù);“計算方案”系統(tǒng)生成調(diào)度預(yù)演的結(jié)果,如結(jié)果計算符合要求,則“保存方案名稱為分段控制方案一”系統(tǒng)保存調(diào)度方案名稱為‘分段控制方案一’。修改調(diào)度方案流程同理。實際語音調(diào)度交互頁面見圖6。
3.2 優(yōu)化識別準確率
語料庫不僅作為技能庫的組成部分,同時也是熱詞庫,在語料庫中的詞匯有較大的識別權(quán)重,較大提高了水利專業(yè)詞匯的識別準確率。
但是在實際項目應(yīng)用中,仍有識別錯誤的情況,通過對比分析,總結(jié)影響識別準確率的原因有以下幾點:①拾音設(shè)備錄制的音頻不清晰或存在雜音;②同音詞影響識別結(jié)果;③普通話不標準、咬字不清晰。
針對以上問題,在項目應(yīng)用中對拾音設(shè)備和語料庫進行優(yōu)化,同時對使用者的說話方式進行一定指導(dǎo),準確率達到96%,具體解決方案如下:①使用專業(yè)的拾音設(shè)備替換原來使用的耳機線;②增加詞匯權(quán)重,并把經(jīng)常識別有誤的同音詞作為該詞的別名添加到語料庫中,見圖7,別名的識別結(jié)果會歸并到該詞,以此修正識別的準確率;③對使用者進行一定指導(dǎo),注意說話連貫、咬字清晰、語速等問題。
4 結(jié)論
針對當前水利工程防汛“四預(yù)”系統(tǒng)傳統(tǒng)交互方式繁瑣、效率低、智能化不足等問題,本文對語音技術(shù)和水利業(yè)務(wù)的融合進行了研究,并將研究成果應(yīng)用在大藤峽防汛與水量調(diào)度四預(yù)平臺,有效提高平臺管理人員的日常防汛與水量調(diào)度工作效率,隨問隨答的信息檢索能力減少信息模糊導(dǎo)致的失誤。下一步,將考慮與知識圖譜平臺進行結(jié)合,提供更全面的數(shù)據(jù)信息支撐,為水利行業(yè)的智能化建設(shè)提供借鑒。
參考文獻:
[1]中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要[N].人民日報,2021-03-13(1).
[2]“十四五”智慧水利建設(shè)規(guī)劃(水信息〔2021〕323 號)[A].2021.
[3]數(shù)字孿生流域建設(shè)技術(shù)大綱(試行)[A].2022.
[4]劉輝.國家水網(wǎng)工程智能化建設(shè)的思考[J].中國水利,2021(20):9-10.
[5]DAVIS K H,BIDDULPH R,BALASHEK S.Automatic recognition of spoken digits[J].Journal of the Acoustical Society of America,1952,24(6):637-642.
[6]MYERS C,RABINER L,ROSENBERG A.An investig ation of the use of dynamic time warping for word spotting and connected speech recognition[C]//International Conference on Acoustics,Speech,and Signal Processing.Piscataway:IEEE,1980.
[7]JUANG B H.On the Hidden Markov Model and Dynamic Time Warping for Speech Recognition-A Unified View[J].Bell Labs Technical Journal,1984,63(7):1213-1243.
[8]莫珮鈺.模式識別在語音識別中的應(yīng)用[J].現(xiàn)代工業(yè)經(jīng)濟和信息化,2023,13(3):132-134.
[9]凝望璀璨星河:中國智能語音行業(yè)研究報告 2020年[C]//艾瑞咨詢系列研究報告(2020年第2期).2020:81-127.
[10]丁毓.智慧語音,智聯(lián)萬物[J].上海信息化,2022(10):44-47.
[11]宋立榮.語音卡技術(shù)在廣東防汛水情報汛中的應(yīng)用[J].廣東水利水電,2001(S1):28-29.
[12]孫建奇,李勝陽,滕陽.水情數(shù)據(jù)的語音查詢[C]//OA’2001辦公自動化國際學(xué)術(shù)研討會論文集.北京:電子工業(yè)出版社,2001.
[13]劉梅,尹曉楠,李超.智能語音識別技術(shù)在北京河長制系統(tǒng)中的應(yīng)用[J].水利信息化,2020(1):27-31,38.
[14]謝艾玲,吳秋明,劉方.基于聲紋識別和知識圖譜技術(shù)的泵站工程智能運維途徑探究[J].長江技術(shù)經(jīng)濟,2021,5(6):88-92.
[15]劉超,趙輝,丁曉磊,等.安徽省基層防汛語音服務(wù)平臺研究與建設(shè)[J].水利信息化,2022(2):78-82.
[16]徐乾順,張永永,韓嶺,等.小禹智慧水資源管理系統(tǒng)在黃河流域應(yīng)用分析[C]//2022(第十屆)中國水利信息化技術(shù)論壇論文集.2022:763-769.
[17]溫鵬,甘郝新,劉斌.數(shù)字孿生大藤峽建設(shè)與探索[J].中國水利,2022(20):10-13.
(責(zé)任編輯:向 飛)