朱余啟 朱潤杭 傘晨峻 莫熙
(云南電網(wǎng)有限責(zé)任公司 云南省昆明市 650200)
伴隨著人工智能技術(shù)的發(fā)展,電力企業(yè)也緊跟步伐,大力發(fā)展人工智能在電網(wǎng)中的應(yīng)用,如今語音識(shí)別系統(tǒng)開始走向?qū)嵱没倪M(jìn)程,隨著發(fā)展計(jì)算機(jī)對于人類語言的容錯(cuò)性也大大提升,更深入的理解人的意圖,來執(zhí)行人的意愿。語音識(shí)別已經(jīng)深入到人們的日常生活生活中并扮演著關(guān)鍵角色也成為了人們生活的伙伴和工作的助手,語音技術(shù)的不斷突破,對任何一個(gè)能夠從語音互動(dòng)中獲益的行業(yè)來說,它將徹底改變使用和服務(wù)的方式,大大提升工作效率。為減輕電力調(diào)度系統(tǒng)工作人員的壓力,將語音檢索運(yùn)用到日常工作中,提升信息快速篩選、快速獲取能力。
從20世紀(jì)50年代開始,開展了語音識(shí)別技術(shù)的研究工作,20世80年代后,HMM技術(shù)基本成熟,21世紀(jì)以來語音識(shí)別技術(shù)飛速發(fā)展,伴隨統(tǒng)計(jì)學(xué)被引入到語音識(shí)別中,語音識(shí)別技術(shù)從模板化匹配轉(zhuǎn)向統(tǒng)計(jì)模型技術(shù)。語音識(shí)別技術(shù)發(fā)展到今天,國內(nèi)關(guān)于文語轉(zhuǎn)換技術(shù)和基于中小詞匯量的語音命令識(shí)別技術(shù)已經(jīng)達(dá)到比較實(shí)用的程度,特別是中小詞匯量非特定人語音識(shí)別精度已經(jīng)大于98%,對特定人語音識(shí)別系統(tǒng)的識(shí)別精度就更高。這為語音識(shí)別的實(shí)際應(yīng)用掃除了障礙,眾多領(lǐng)域已經(jīng)開始實(shí)際應(yīng)用這項(xiàng)技術(shù),各類計(jì)算機(jī)軟件也是如此,在電力系統(tǒng)調(diào)度過程中,也完全可以利用該技術(shù)進(jìn)行語音控制。
語音識(shí)別正確率的一些影響因素有:在噪聲環(huán)境下識(shí)別率較低、口語化語言和方言識(shí)別率低等。在實(shí)際應(yīng)用中,調(diào)度中心的工作環(huán)境很好,并不存在噪聲干擾的問題;調(diào)度員在進(jìn)行操作時(shí)也完全可以避免使用口語和方言。因此,語音識(shí)別技術(shù)的發(fā)展水平為電力調(diào)度領(lǐng)域的實(shí)際應(yīng)用奠定了客觀基礎(chǔ)。
電力行業(yè)一直以來都是國際國內(nèi)先進(jìn)技術(shù)的集中應(yīng)用之地,代表了同類技術(shù)的最高水平。因此將語音識(shí)別及控制技術(shù)在電力系統(tǒng)尤其是調(diào)度中心進(jìn)行深入應(yīng)用研究是非常有意義的。[1]
語音識(shí)別即為將通過降噪處理的語音進(jìn)行特征提取,之后對語音信號(hào)特征進(jìn)行處理并輸出識(shí)別結(jié)果。[2]如圖1。
圖1:語音識(shí)別原理
語音識(shí)別,可將用戶語音信息實(shí)時(shí)轉(zhuǎn)換成文字,通過建立電力專業(yè)詞匯庫、特定聲調(diào)庫,基于最新的深度神經(jīng)網(wǎng)絡(luò)(DNN)的建模方法,采用基于WFST動(dòng)靜態(tài)結(jié)合的Viterbi解碼技術(shù),搭建調(diào)控語音辨識(shí)模塊。通過在聲學(xué)特征庫中構(gòu)建方言語音庫,在語言模型中構(gòu)建電力專業(yè)詞匯庫,提高電力專業(yè)術(shù)語文字轉(zhuǎn)換正確率。
語音識(shí)別和語音合成作為獨(dú)立的模塊存在,通過服務(wù)的方式接收語音,經(jīng)過噪音處理、特征提取、語音解碼等過程,以服務(wù)的方式輸出文本(如圖2)。
圖2:語音訓(xùn)練
語音識(shí)別系統(tǒng)采用統(tǒng)計(jì)模式識(shí)別技術(shù),由以下幾個(gè)基本模塊所構(gòu)成:
(1)信號(hào)處理及特征提取模塊,從輸入信號(hào)中提取特征,供聲學(xué)模型處理。同時(shí),采用一些信號(hào)處理技術(shù),以降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。
(2)統(tǒng)計(jì)聲學(xué)模型是采用基于多粒度隱馬爾科夫模型進(jìn)行建模。
(3)發(fā)音詞典,包含系統(tǒng)所能處理的詞匯集及其發(fā)音(調(diào)控專業(yè)詞典)。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射。
(4)語言模型,對系統(tǒng)所針對的語言進(jìn)行建模,包括正則語言,上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型,主要采用的還是基于統(tǒng)計(jì)的N元文法及其變體。
(5)解碼器,是語音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對輸入的信號(hào),根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。
語音識(shí)別和語音合成是相對成熟的技術(shù),在電力行業(yè)偶爾也有應(yīng)用,但其難點(diǎn)在于語音識(shí)別的準(zhǔn)確率,因此,一個(gè)適用于電網(wǎng)調(diào)控領(lǐng)域的訓(xùn)練工具非常重要,訓(xùn)練電網(wǎng)調(diào)控業(yè)務(wù)的語言模型,以提高語音識(shí)別的準(zhǔn)確度。
語義理解也叫意圖理解,意圖理解包括意圖分析、對話狀態(tài)跟蹤及對話決策。
(1)意圖分析是把用戶說的話標(biāo)準(zhǔn)化成計(jì)算機(jī)可以處理的標(biāo)準(zhǔn)形式。
例如:意圖名稱<槽位1,槽位2,……>,
通知相關(guān)單位<單位名稱,通知內(nèi)容>
意圖分析分為兩個(gè)基本模型:
1.意圖分類模型,負(fù)責(zé)把用戶說的話分類成若干個(gè)意圖。
例如:電網(wǎng)調(diào)用場景有通知相關(guān)單位、打開開關(guān)等100個(gè)意圖,意圖分類模型就是判斷用戶說的話是這100個(gè)意圖里的哪一個(gè)。
2.槽位提取算法,意圖分類完成后,提取算法負(fù)責(zé)將槽位信息抽取出來。
(2)對話狀態(tài)跟蹤。對話狀態(tài),指用戶在人機(jī)交互過程中,說過什么話,表達(dá)過什么意圖以及意圖的置信度。
對話狀態(tài)跟蹤,指在會(huì)話進(jìn)行中管理在當(dāng)前對話狀態(tài)里要記錄哪些用戶意圖或槽位信息,刪掉哪些意圖或槽位信息。
(3)對話決策,指根據(jù)對話狀態(tài),會(huì)話系統(tǒng)要做什么答復(fù)或執(zhí)行什么動(dòng)作。
當(dāng)電力場景的音頻被語音識(shí)別成文本后,進(jìn)入文本的后處理流程,主要有自然語義理解(NLU),自然語言生成(NLG),語音合成(TTS),會(huì)話管理(DM),會(huì)話解析(MDM),從而形成一個(gè)人機(jī)對話交互的過程,實(shí)現(xiàn)一些具體的業(yè)務(wù)功能,能夠代替人工做簡單的重復(fù)性的工作,提高工作效率和減少人力投入。
意圖管理實(shí)現(xiàn)用戶意圖及意圖參數(shù)的配置,包含意圖語料、意圖模板表達(dá)、詞槽配置等。
意圖語料庫:同一個(gè)意圖可能存在多條的意圖語料,盡可能完善所有的常用語料,提高保證意圖語義理解的準(zhǔn)確率。
意圖配置:配置意圖所需要實(shí)現(xiàn)的業(yè)務(wù)功能,同時(shí)通過模板表達(dá)式利用詞槽配置每個(gè)意圖需要的信息,配置通用的語義表達(dá)。
詞槽實(shí)體維護(hù):每個(gè)詞槽會(huì)對應(yīng)一系列的實(shí)體(詞典),應(yīng)用名稱詞槽可以包括許多應(yīng)用名稱,提供新增、刪除、導(dǎo)入等功能。
目前,調(diào)度員的工作對信息的交互要求更高,傳統(tǒng)的電力系統(tǒng)軟件服務(wù)已經(jīng)不能滿足日常工作的需要,表現(xiàn)在:
(1)特殊情況下,海量信息的快速定位查找,例如無法快速使用有線輸入方式;
(2)工作效率待提升。
將語音識(shí)別技術(shù)引入到調(diào)度日常工作中,使得調(diào)度軟件系統(tǒng)也將由如今的被動(dòng)靜態(tài)架構(gòu)變化為具有主動(dòng)辨別能力語音檢索的智慧系統(tǒng),通過人工智能語音識(shí)別技術(shù)在海量的數(shù)據(jù)中精準(zhǔn)、迅速的定位所需內(nèi)容,提供一流信息檢索效率,讓調(diào)度運(yùn)行工作中的海量信息檢索更加精準(zhǔn)化、友好化,通過配置電力術(shù)語,根據(jù)自動(dòng)建立的關(guān)鍵字列表、相應(yīng)操作的對應(yīng)關(guān)系建立語音關(guān)鍵字操作數(shù)據(jù),應(yīng)用于調(diào)控人員工作操控,使調(diào)度人員拋開鼠標(biāo),拋開鍵盤,不必記錄程序路徑和程序中繁雜的按鈕位置,解放雙手,省下按鍵或手寫輸入花費(fèi)的時(shí)間,讓調(diào)度人員更加輕松和高效,使調(diào)度員專注于電網(wǎng)運(yùn)行,減輕電網(wǎng)調(diào)控人員的運(yùn)行壓力,提高電網(wǎng)調(diào)控操作的智能化水平,保障電網(wǎng)安全穩(wěn)定運(yùn)行。
語音檢索,簡而言之就是將語音內(nèi)容轉(zhuǎn)化成文本信息之后,通過自然語言解析技術(shù),提取出關(guān)鍵的電網(wǎng)信息、操作信息等數(shù)據(jù),將提取的關(guān)鍵字與本身構(gòu)建的電網(wǎng)規(guī)則數(shù)據(jù)庫進(jìn)行智能匹配,結(jié)合全文內(nèi)容,轉(zhuǎn)化為系統(tǒng)可以理解電網(wǎng)信息或者操作知識(shí),以一種智能調(diào)度管家助理的方式,為調(diào)度人員提供輔助決策。針對電力調(diào)度經(jīng)常使用的專業(yè)術(shù)語、專有名詞、習(xí)慣表達(dá)方式、特殊讀音、特殊符號(hào)進(jìn)行語音識(shí)別訓(xùn)練,采用適用于電力調(diào)度的行業(yè)語音識(shí)別技術(shù)。[3]
傳統(tǒng)的有線輸入存在輸入效率底下、輸入手段受限等問題,在語音識(shí)別的技術(shù)支持下可實(shí)現(xiàn)對電網(wǎng)信息進(jìn)行智能語音檢索,具備人機(jī)之間語音的智能交互,例如語音導(dǎo)航功能,長音頻、短音頻識(shí)別,音頻轉(zhuǎn)文字,生成的文字記錄可以供各類應(yīng)用使用。[4]利用自然語言處理技術(shù)實(shí)現(xiàn)與調(diào)度員、運(yùn)行人員、檢修人員、管理人員、設(shè)備巡檢機(jī)器人等五類人智能交互,包括語音、短信和各系統(tǒng)間數(shù)據(jù)推送(值班日志自動(dòng)記錄、故錄調(diào)取、調(diào)度電話監(jiān)聽等)等多種形式。
采用聲學(xué)建模、訓(xùn)練、調(diào)參等機(jī)器學(xué)習(xí)方法,對收集的語音語料、文本語料進(jìn)行處理,根據(jù)調(diào)度通話內(nèi)容或其他口述語音、調(diào)度運(yùn)行對應(yīng)的文檔、資料、規(guī)程、規(guī)定等調(diào)度管理信息系統(tǒng)中的各類數(shù)據(jù)資源,形成電網(wǎng)信息庫,具備基于電力領(lǐng)域的全業(yè)務(wù)搜索能力,以自然語言作為輸入對象,利用語義分析技術(shù),提高智能搜索系統(tǒng)中文語句理解能力,構(gòu)建電力系統(tǒng)調(diào)度領(lǐng)域全景本體庫。電力系統(tǒng)調(diào)度領(lǐng)域全景本體庫包含電力字典、名實(shí)體、調(diào)規(guī)等文本語料、錄音等語音語料,為構(gòu)建精準(zhǔn)、智能的知識(shí)庫提供原始數(shù)據(jù)支撐并不斷進(jìn)行擴(kuò)充、完善?;陔娏ο到y(tǒng)調(diào)度領(lǐng)域全景本體庫,通過核心算法和學(xué)習(xí)訓(xùn)練,形成調(diào)控知識(shí)庫、語言模型、意圖識(shí)別模型等成熟知識(shí)庫,為人工智能學(xué)習(xí)決策(感知、交互、思、行、學(xué))提供知識(shí)來源。
電力調(diào)控領(lǐng)域相關(guān)業(yè)務(wù)數(shù)據(jù)中,含有特定的廠站、線路名稱等大量的專有名稱,同時(shí)也含有大量的監(jiān)控信號(hào)、倒閘操作等方面的行業(yè)術(shù)語。搭建針對特定電網(wǎng)的電力語料規(guī)則庫,是對調(diào)控業(yè)務(wù)數(shù)據(jù)進(jìn)行語音識(shí)別的基礎(chǔ)和關(guān)鍵。
電力調(diào)控業(yè)務(wù)數(shù)據(jù)中,包含電壓等級(jí)、設(shè)備類型等基礎(chǔ)的配置信息,這類信息是文本分割、設(shè)備定位的基礎(chǔ)元素,要根據(jù)這類數(shù)據(jù)各種可能的寫法,生成基礎(chǔ)語料庫。
(1)電壓等級(jí):目前我國電網(wǎng)中包含1000kV、750kV、500kV、330kV、220kV、110kV、66kV、35kV、10kV、380V等不同的電壓等級(jí)。在處理的過程中,還要考慮各種不規(guī)范寫法的問題(比如字母大小寫、采用漢字“千伏”等問題)。
(2)設(shè)備類型:電力數(shù)據(jù)文本中的設(shè)備類型信息,是定位、識(shí)別設(shè)備信息的關(guān)鍵。電網(wǎng)輸變電設(shè)備中,包含變壓器、母線、線路、開關(guān)、刀閘、電容器、電抗器、站用變、PT、CT、避雷器等多種類型的設(shè)備,每類設(shè)備又有不同的寫法,需要將設(shè)備類型信息放到基礎(chǔ)語料庫中。
電網(wǎng)模型中,包含廠站、線路名稱、設(shè)備(開關(guān)刀閘等)編號(hào)等信息,需要根據(jù)特定電網(wǎng)模型,自動(dòng)生成當(dāng)?shù)靥赜械哪P驼Z料庫。隨著電網(wǎng)模型的變化,模型語料庫是需要持續(xù)更新的。為了應(yīng)對信息命名不標(biāo)準(zhǔn)、不統(tǒng)一的情況,以上信息在入庫之前,需要進(jìn)行規(guī)范化處置。
根據(jù)操作、檢修、遙信等業(yè)務(wù)的分類及業(yè)務(wù)特點(diǎn),生成不同專題特定的語料庫。
操作術(shù)語語料庫中,包含設(shè)備狀態(tài)的命名,也包括各逐項(xiàng)令、綜合令的術(shù)語描述。針對逐項(xiàng)令、綜合令各類操作命令的語料規(guī)則中,不僅僅包含命令的關(guān)鍵字,還包含不規(guī)范關(guān)鍵字的變體、命令的解析規(guī)則等。
利用全景本體庫,及其推理規(guī)則,實(shí)現(xiàn)結(jié)構(gòu)化信息、非結(jié)構(gòu)化信息、報(bào)表、應(yīng)用程序功能模塊等的精確搜索、模糊搜索、多輪對話式搜索。在日常調(diào)控操作中,利用機(jī)器學(xué)習(xí)不斷自主完善電力語音、語料、規(guī)則庫,具有良好的自更新性。[5]可實(shí)現(xiàn)的場景,例如:檢索設(shè)備檢修情況、設(shè)備操作情況、設(shè)備參數(shù)、各類規(guī)程、預(yù)案、語音調(diào)閱接線圖等。
一般應(yīng)用在電力領(lǐng)域的智能檢索功能包括:
(1)多關(guān)鍵字組合模糊搜索;
(2)多條件組合搜索;
(3)前后語境的多輪對話式問答搜索;
(4)無需人工配置公式的數(shù)據(jù)庫字段自動(dòng)關(guān)聯(lián)匹配精準(zhǔn)搜索;
(5)搜索結(jié)果匹配度智能排序及自我學(xué)習(xí),按登錄用戶權(quán)限、所管轄電網(wǎng)、專業(yè)習(xí)慣等進(jìn)行搜索結(jié)果個(gè)性化輸出。
在人類社會(huì)中,最主要的溝通手段無疑是依靠聽覺和視覺兩種方式。在聲音信息中語音是最常規(guī)的表達(dá)方式,它簡單、自然、高效,伴隨著科學(xué)技術(shù)的一次又一次的突破,人與機(jī)器進(jìn)行交流變得更為方便、快捷。語音識(shí)別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在電力領(lǐng)域也發(fā)揮著極其重要的作用,自動(dòng)識(shí)別語音關(guān)鍵字并自動(dòng)解析語義內(nèi)涵,根據(jù)解析結(jié)果檢索相應(yīng)指令,進(jìn)行電網(wǎng)各類運(yùn)行管理數(shù)據(jù)的即時(shí)調(diào)閱幫助調(diào)度員處置輔助決策,為調(diào)度安全運(yùn)行保駕護(hù)航。語音技術(shù)是信息社會(huì)朝著智能化和自動(dòng)化發(fā)展的關(guān)鍵技術(shù),使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。