劉 梅 ,尹曉楠 ,李 超
(1. 北京市水務(wù)信息管理中心,北京 100038; 2. 江河瑞通(北京)技術(shù)有限公司,北京 100097)
當(dāng)前以大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、人工智能等為代表的新技術(shù),不斷與經(jīng)濟(jì)社會各領(lǐng)域深度融合,極大提升了社會運(yùn)行效率,深刻改變著政府社會治理和公共服務(wù)的方式。黨的十九大報(bào)告中明確提出要建設(shè)網(wǎng)絡(luò)強(qiáng)國、數(shù)字中國、智慧社會,把智慧社會作為“加快建設(shè)創(chuàng)新型國家”的重要內(nèi)容[1]。智慧水利是智慧社會的重要組成部分,但智慧水利建設(shè)與智慧社會的要求還有較大差距,與支撐水利現(xiàn)代化的要求還有較大差距,大數(shù)據(jù)、人工智能等技術(shù)尚未得到廣泛應(yīng)用、智慧功能尚未得到充分顯現(xiàn)[2]。因此,智慧水利建設(shè)應(yīng)充分發(fā)揮新一代信息技術(shù)的驅(qū)動(dòng)引領(lǐng)作用,促進(jìn)技術(shù)與水利業(yè)務(wù)的深度融合,推動(dòng)智慧水利不斷發(fā)展。
江河湖泊業(yè)務(wù)作為重要水利業(yè)務(wù),對保障國家水安全和經(jīng)濟(jì)社會的持續(xù)健康發(fā)展意義重大。同時(shí)河湖管理保護(hù)是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及上下游、左右岸、不同行政區(qū)域和行業(yè)。為加強(qiáng)河湖管理保護(hù)、推進(jìn)水生態(tài)文明建設(shè),中共中央辦公廳、國務(wù)院辦公廳于 2016 年 12 月印發(fā)了《關(guān)于全面推行河長制的意見》,進(jìn)行了全面推行河長制的決策部署[3]。為了做好河湖保護(hù),實(shí)現(xiàn)水清、岸綠、景美,在中央的統(tǒng)一部署下,北京推行了河長制,建立了四級河長體制,根據(jù)河長制工作的需要,建立了河長制管理信息系統(tǒng),有效地支撐了河長制管理。系統(tǒng)運(yùn)行 1 a 多以來,為各級河長、巡查員和社會公眾參與河湖治理、發(fā)現(xiàn)上報(bào)問題拓寬了渠道。但在實(shí)際使用中,因舉報(bào)問題需要在手機(jī)端進(jìn)行文字輸入,對使用者操作手機(jī)有一定的要求,因此需要一種更加方便、快捷的方式。隨著深度學(xué)習(xí)理論的發(fā)展,語音識別準(zhǔn)確率迅速提升,為提供更加智能化、人性化的語音交互服務(wù)提供了新的契機(jī)。通過在“北京河長”微信公眾號和移動(dòng) App 中引入智能語音識別技術(shù),能夠簡化記錄和舉報(bào)問題的操作流程,從而促進(jìn)社會公眾監(jiān)督的參與度和積極性,提升巡查人員巡河記錄問題的高效性和便捷性,提高河長辦工作人員處理問題的效率。本研究從河長制具體業(yè)務(wù)場景出發(fā),探索智能語音識別技術(shù)在北京市河長制工作中的具體應(yīng)用,為智能語音識別技術(shù)在水利行業(yè)的發(fā)展提供借鑒。
語音作為一種最便捷和自然的交流形式,承載著信息傳遞的重要功能,在人們的日常生活中發(fā)揮著重要作用。作為人工智能技術(shù)的重要領(lǐng)域,智能語音識別技術(shù)主要包括自動(dòng)語音識別(Automatic Speech Recognition,ARS)、自然語言處理(Natural Language Processing,NLP)和語音合成(Speech Synthesis,SS)等技術(shù)[4]。自動(dòng)語音識別和自然語言處理技術(shù)讓計(jì)算機(jī)能夠聽懂人類的語言,理解語言中的內(nèi)在含義,語音合成技術(shù)則讓計(jì)算機(jī)能夠說話。
語音識別的研究源于 20 世紀(jì) 50 年代,1952 年AT&T 貝爾實(shí)驗(yàn)室的 Davis 等[5]研發(fā)了第 1 臺孤立數(shù)字識別系統(tǒng) Audrey,實(shí)現(xiàn)了可以識別 10 個(gè)英文數(shù)字。20 世紀(jì) 60 年代開始,出現(xiàn)了動(dòng)態(tài)時(shí)間規(guī)正(Dynamic Time Warping,DTW)、矢量量化(Vector Quantization,VQ)等技術(shù),采用模版匹配的方法實(shí)現(xiàn)語音識別[6]。1976 年,美國卡耐基梅隆大學(xué)的 Reddy 等[7-9]開發(fā)了能夠執(zhí)行連續(xù)語音識別的系統(tǒng) Hearsay I。20 世紀(jì) 80 年代以后,語音識別研究由基于模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法,高斯混合模型-隱馬爾科夫模型(Gaussian Mixture Model-Hidden Markov Model,GMMHMM)和 N-gram 模型成為語音識別的主流,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)開始應(yīng)用于語音識別。2006 年,Hinton 等[10]提出深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN),解決了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)訓(xùn)練過程中容易陷入局部最優(yōu)的問題。此后,掀起了深度學(xué)習(xí)的熱潮,出現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),長短時(shí)記憶單元(Long Short Term Memory Network,LSTM)等[11-13]。深度學(xué)習(xí)模型具備多層非線性變換的深層結(jié)構(gòu),具有更強(qiáng)的表達(dá)與建模能力,使得語音識別模型對復(fù)雜數(shù)據(jù)的挖掘和學(xué)習(xí)能力得到了空前的提升。這些深度學(xué)習(xí)模型的應(yīng)用極大地促進(jìn)了語音識別技術(shù)的發(fā)展,突破了某些實(shí)際應(yīng)用場景下對語音識別性能要求的瓶頸,使語音識別技術(shù)走向真正實(shí)用化[14]。
語音識別是一門涉及了語言學(xué)、統(tǒng)計(jì)學(xué)、信號處理、模式識別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)等學(xué)科的綜合學(xué)科技術(shù)。語音識別技術(shù)通過信號處理和模式識別,將語音信號轉(zhuǎn)換成對應(yīng)的文本或指令。
語音識別采用統(tǒng)計(jì)模式識別方法,基于隱馬爾科夫模型的統(tǒng)計(jì)框架進(jìn)行訓(xùn)練,在給定語音特征序列{O1,O2,…,OT} 的情況下,結(jié)合聲學(xué)模型和語言模型,根據(jù)最大后驗(yàn)概率算法,輸出詞序列具體公式如下:
語音識別過程主要包括預(yù)處理、特征提取、聲學(xué)模型、語言模型、語音解碼和搜索算法。語音識別過程如圖 1 所示。
圖 1 語音識別過程示意圖
1)預(yù)處理。計(jì)算機(jī)對輸入的語音信號預(yù)處理,包括抗混疊濾波、預(yù)加權(quán)、信號分幀、端點(diǎn)檢測等。
2)特征提取。提取預(yù)處理數(shù)據(jù)的聲學(xué)特征參數(shù),得到特征矢量序列,如線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、美兒頻率倒譜系數(shù)(MFCC)等[15-17]。
3)聲學(xué)模型。利用語音信號特征訓(xùn)練聲學(xué)模型,建立起所需的聲學(xué)模型,用來計(jì)算語音信號特征的后驗(yàn)概率。
4)語言模型。通過大量的文本訓(xùn)練,進(jìn)行語法、語義分析,建立語言模型,用來計(jì)算詞序列的先驗(yàn)概率。
5)語音解碼和搜索算法。進(jìn)行語音識別時(shí),聲學(xué)模型通過計(jì)算語音信號特征與聲學(xué)模型的相似度生成聲學(xué)模型分?jǐn)?shù),發(fā)音詞典映射生成詞序列,語言模型通過語料中詞與詞之間的約束關(guān)系,估計(jì)候選詞序列出現(xiàn)的概率并生成語言模型分?jǐn)?shù),最終語音解碼和搜索算法會綜合聲學(xué)和語言模型分?jǐn)?shù),將整體分?jǐn)?shù)最高的詞序列作為識別的結(jié)果輸出,從而實(shí)現(xiàn)語音信號的識別。
北京市屬于海河流域,共有 16 個(gè)區(qū),330 個(gè)鄉(xiāng)鎮(zhèn)、街道,常住人口 2 000 多萬。根據(jù)第 1 次水務(wù)普查數(shù)據(jù),全市共有河流 425 條(流域面積 10 km2以上),河流總長度 6 413.72 km,分屬五大水系。全市有水庫 88 座,總庫容為 93.77 億 km3,湖泊 41 個(gè)(水面面積 0.1 km2以上),總水面面積為 6.88 km2。北京水資源形勢嚴(yán)峻,水少、水臟是水資源的主要矛盾,南水進(jìn)京之后水資源緊缺的狀況尚未得到根本改變,水污染問題尚未得到有效根治。
為了有效改善河湖生態(tài)環(huán)境,北京市根據(jù)河長制工作需要建設(shè)了河長制管理信息系統(tǒng),系統(tǒng)采用 GIS、“互聯(lián)網(wǎng) +”和人工智能等技術(shù),集信息采集、信息服務(wù)、河長管理、公眾服務(wù)、監(jiān)督考核為一體,依托 PC 端、移動(dòng)端和微信公眾號 3 種載體,服務(wù)于市、流域、區(qū)、鄉(xiāng)鎮(zhèn)和村各級河長的業(yè)務(wù)管理工作,全面實(shí)現(xiàn)了河道管理網(wǎng)格化、事件處置流程規(guī)范化、河長績效考核差異化、河道信息公開化[18]。
通過河長制信息管理平臺、微信公眾號和移動(dòng) App 的應(yīng)用,量化河長履職情況,實(shí)現(xiàn)了“工作留痕,有理有據(jù)”,進(jìn)一步暢通了公眾舉報(bào)渠道,加強(qiáng)了政府與社會公眾的聯(lián)系。針對河道內(nèi)亂堆亂棄垃圾渣土、違章建筑、偷排偷放污水等影響水環(huán)境、破壞水生態(tài)的問題,目前開放的群眾投訴舉報(bào)渠道包含人工和在線舉報(bào),人工舉報(bào)渠道提供的服務(wù)具有方便、貼心等特點(diǎn),但是人工值班時(shí)間有限,不能滿足 7×24 h 在線服務(wù)的需求;在線舉報(bào)渠道通過微信公眾號提供表單填報(bào)功能,具有采集信息專業(yè)、全面等特點(diǎn),但是未考慮到舉報(bào)人的實(shí)際情況和所處環(huán)境,對程序使用的熟練度要求較高,需要進(jìn)行文字記錄。同時(shí)在巡河過程中,戶外環(huán)境存在的日照、降雨等天氣因素,以及交通、人流等環(huán)境因素,會對河長采用手工輸入漢字記錄問題的方式會造成一定的干擾。
為了既讓社會公眾和河長更簡潔、方便地反映河湖存在的問題,讓巡查人員在巡河過程中能方便地記錄和舉報(bào)問題,又能保證系統(tǒng)接收到的問題信息以結(jié)構(gòu)化的數(shù)據(jù)形式存入數(shù)據(jù)庫,方便查詢檢索,在已有的河長制系統(tǒng)問題舉報(bào)功能中增加了語音識別功能。
1)總體設(shè)計(jì)。智能語音交互系統(tǒng)以云服務(wù)的架構(gòu)體系進(jìn)行建設(shè),在頂層提供云服務(wù)接口供“北京河長”微信公眾號、移動(dòng) App 使用。語音智能交互系統(tǒng)按照邏輯結(jié)構(gòu),平臺主要分為知識庫層、知識檢索層、對話交互層、語音接入層、邊緣計(jì)算層等多個(gè)層次。系統(tǒng)總體架構(gòu)如圖 2 所示。
2)移動(dòng) App 語音記錄功能設(shè)計(jì)。在巡河過程中,河長和巡查人員通過語音交互方式記錄河湖問題,通過自然的對話方式即可完成信息錄入、修改和提交等操作,提高河長巡河記錄問題的高效性和便利性,節(jié)省河長辦工作人員記錄和處理問題的時(shí)間。移動(dòng) App 系統(tǒng)界面圖如圖 3 所示。
3)微信公眾號語音舉報(bào)功能設(shè)計(jì)。社會公眾通過語音交互方式投訴舉報(bào)發(fā)現(xiàn)的河湖問題,通過自然的對話方式即可完成舉報(bào)信息錄入,自動(dòng)生成舉報(bào)單,然后可對生成的表單進(jìn)行修改和提交等操作。通過便捷化舉報(bào)和的操作流程,提高群眾監(jiān)督的參與度和積極性。微信公眾號系統(tǒng)界面如圖 4 所示。
同時(shí),智能語音交互系統(tǒng)應(yīng)用自然語言理解(NLP)技術(shù)對舉報(bào)信息中相關(guān)問題描述的分析,智能識別問題類型,對河湖中發(fā)生的問題進(jìn)行分類,方便河長制信息管理平臺對重點(diǎn)問題的分類和管理。
在語音智能交互系統(tǒng)測試初期,受到一些客觀、復(fù)雜因素的影響,語音識別率為 89%,沒有達(dá)到預(yù)期水平。通過對測試結(jié)果、測試用例和系統(tǒng)運(yùn)行日志的分析,發(fā)現(xiàn)影響準(zhǔn)確率的原因大致分為以下 5 類:
1)同音字詞,漢語中存在很多同音的字詞;
2)方言或普通話不準(zhǔn);
3)語音不完整引起信息缺失;
圖 2 智能語音交互系統(tǒng)總體架構(gòu)
圖 3 移動(dòng) App 系統(tǒng)界面圖
圖 4 微信公眾號系統(tǒng)界面圖
4)有雜音造成噪音干擾;
5)水利領(lǐng)域?qū)I(yè)詞匯,某些詞匯只有在特定領(lǐng)域出現(xiàn)的頻率較高。
根據(jù)對影響識別率相關(guān)因素的分析,并結(jié)合北京市河長制實(shí)際,通過優(yōu)化神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)、完善水行業(yè)語言學(xué)模型及詞典、收集場景案例等手段,優(yōu)化提升識別準(zhǔn)確率,主要步驟包括數(shù)據(jù)準(zhǔn)備和語言模型優(yōu)化,具體如下:
1)數(shù)據(jù)準(zhǔn)備。字典及行業(yè)詞匯是系統(tǒng)理解語義的基礎(chǔ),通過行業(yè)詞匯將接收到的語言內(nèi)容進(jìn)行分詞,甄選行業(yè)熱詞后進(jìn)行后續(xù)的識別流程。河長制相關(guān)概念的詞匯屬于近年新型詞匯,從語言學(xué)到計(jì)算機(jī)應(yīng)用方面對此方向的儲備都比較少。將從政府網(wǎng)站、新聞媒體網(wǎng)站及行業(yè)相關(guān)庫采集抓取的 20 多萬篇文章做為河長制領(lǐng)域的基本語料庫,在基本分詞詞典中加入北京地區(qū)河流、湖泊及水行業(yè)專屬詞匯 1 萬多個(gè)。
2)N-gram 語言模型優(yōu)化。N-gram 模型的思路即假設(shè) 1 個(gè)字或詞出現(xiàn)僅與前 n 個(gè)詞相關(guān)(n 為人為給定),句子整體的概率等于所有詞語搭配概率的乘積。通過計(jì)算一個(gè)詞語的 N-gram 分?jǐn)?shù)來評估這個(gè)詞語是否合理,以此檢測錯(cuò)誤詞語。
式中: P (W1) 表示 W1出現(xiàn)的概率;P (W2|W1) 表示在出現(xiàn) W1時(shí),出現(xiàn) W2的概率。因此可以類推得到出現(xiàn)第 n 個(gè)詞的概率與它之前的(n -1)個(gè)詞相關(guān)。
在模型優(yōu)化訓(xùn)練時(shí),結(jié)合河長制專屬語料庫,以最大化目標(biāo)函數(shù)為優(yōu)化目標(biāo),通過計(jì)算詞向量的余弦相似度進(jìn)行詞向量匹配和糾正詞替換,從而提高語音識別準(zhǔn)確率[19]。
最終通過大規(guī)模語料庫成果的模型更新,同音詞因素引起問題得到優(yōu)化解決,方言或發(fā)音不準(zhǔn)因素引起問題得到優(yōu)化解決,語音識別準(zhǔn)確率達(dá)到96%,輔助實(shí)現(xiàn)“一句話舉報(bào)、拍張照取證、30 秒提交”,為河湖管理保護(hù)工作中問題發(fā)現(xiàn)上報(bào)、篩選分類、情況核實(shí)、整改反饋、跟蹤復(fù)查、責(zé)任追究、統(tǒng)計(jì)分析提供全流程支撐,提升監(jiān)督水平和處置效率,推進(jìn)河湖管理保護(hù)智慧化。
通過將智能語音識別技術(shù)應(yīng)用到北京市河長制管理工作,為輔助各級河長做好日常巡河工作、提高工作效率、改善系統(tǒng)使用體驗(yàn)提供支撐,為社會公眾參與河湖治理提供了便捷的手段。這項(xiàng)技術(shù)的應(yīng)用為水利信息系統(tǒng)實(shí)現(xiàn)智慧化提供了良好的示范,也將成為北京智慧水利建設(shè)重要的組成部分。