李智誠(chéng),張?jiān)葡?/p>
(深圳供電局有限公司,深圳518001)
隨著人工智能的快速發(fā)展,國(guó)家相繼出臺(tái)了一系列政策支持中國(guó)人工智能的發(fā)展[1],推動(dòng)中國(guó)人工智能步入新階段,人工智能成為我國(guó)新基建之一[2],當(dāng)前電力行業(yè)正在發(fā)展壯大人工智能新動(dòng)能,做大做強(qiáng)人工智能產(chǎn)業(yè)集群,實(shí)施人工智能發(fā)展行動(dòng),加強(qiáng)新一代人工智能研發(fā)應(yīng)用,加快“人工智能+”應(yīng)用[3]。
現(xiàn)場(chǎng)會(huì)議是電網(wǎng)公司日常工作中最常用的交流方式之一[4],主要用于日常問(wèn)題的討論?,F(xiàn)場(chǎng)會(huì)議一般需要由會(huì)務(wù)人員負(fù)責(zé)會(huì)前手工簽到,會(huì)議過(guò)程中需由會(huì)務(wù)人員負(fù)責(zé)內(nèi)容記錄,會(huì)后整理成會(huì)議紀(jì)要整理,耗時(shí)耗力、效率不高。會(huì)議過(guò)程中演示材料也需由手工操作,影響會(huì)議流暢度[5]。
目前國(guó)內(nèi)外越來(lái)注重語(yǔ)音識(shí)別以及語(yǔ)音文字轉(zhuǎn)換的應(yīng)用[6],國(guó)內(nèi)的科大訊飛、思必馳等廠商都在致力于研發(fā)語(yǔ)音轉(zhuǎn)換文字的新算法新技術(shù)[7],國(guó)外谷歌、蘋果、Nuance、微軟,通過(guò)研究該技術(shù)可以讓機(jī)器通過(guò)識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令[8]。
目前市場(chǎng)上有一些語(yǔ)音轉(zhuǎn)換文字的功能,如科大訊飛的在線語(yǔ)音轉(zhuǎn)換等[9]。但是針對(duì)電力行業(yè)中一些專業(yè)術(shù)語(yǔ)以及的語(yǔ)音文字轉(zhuǎn)換鮮有研究[10]?;诖耍疚尼槍?duì)電力行業(yè)的會(huì)議錄音回溯場(chǎng)景,利用人工智能技術(shù)構(gòu)建適應(yīng)特定行業(yè)場(chǎng)景智能會(huì)議錄音回溯系統(tǒng),結(jié)合深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)回溯系統(tǒng)的自我更新完善,通過(guò)電力會(huì)議處理流程和具體的應(yīng)用自適應(yīng),達(dá)到自適應(yīng)快速準(zhǔn)確的智能會(huì)議錄音回溯目的。
智能會(huì)議回溯系統(tǒng)中主要用到的人工智能技術(shù)包括深度神經(jīng)網(wǎng)絡(luò)和自然語(yǔ)言處理技術(shù)。
深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)是由多個(gè)單層非線性網(wǎng)絡(luò)疊加而成的,常見的單層網(wǎng)絡(luò)按照編碼解碼情況分為三類:只包含編碼器部分、只包含解碼器部分、既有編碼器部分也有解碼器部分。編碼器提供從輸入到隱含特征空間的自底向上的映射,解碼器以重建結(jié)果盡可能接近原始輸入為目標(biāo)將隱含特征映射到輸入空間。深度神經(jīng)網(wǎng)絡(luò)分為以下幾類。
圖1 深度神經(jīng)網(wǎng)絡(luò)分類結(jié)構(gòu)
前饋深度網(wǎng)絡(luò),由多個(gè)編碼器層疊加而成,如多層感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等。
反饋深度網(wǎng)絡(luò),由多個(gè)解碼器層疊加而成,如反卷積網(wǎng)絡(luò)、層次稀疏編碼網(wǎng)絡(luò)等。
雙向深度網(wǎng)絡(luò),通過(guò)疊加多個(gè)編碼器層和解碼器層構(gòu)成,如深度玻爾茲曼機(jī)、深度信念網(wǎng)絡(luò)、棧式自編碼器等。
自然語(yǔ)言處理(Natural Language Processing,NLP)是使用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信的技術(shù),可以利用自然語(yǔ)言來(lái)實(shí)現(xiàn)人與計(jì)算機(jī)之間進(jìn)行通信。自然語(yǔ)言的處理大致包含自然語(yǔ)言生成(NLG)和自然語(yǔ)言理解(NLU)兩部分。
在會(huì)議中,NLU 能準(zhǔn)確的理解會(huì)議中的成員的語(yǔ)音,并試圖理解這是一個(gè)名詞還是動(dòng)詞以及時(shí)態(tài),然后利用NLP 系統(tǒng)本身的詞庫(kù)和現(xiàn)有的語(yǔ)法規(guī)則,通過(guò)機(jī)器學(xué)習(xí)和深度學(xué)習(xí),將這些規(guī)則應(yīng)用于自然語(yǔ)言,從而最終理解該段語(yǔ)言的含義。針對(duì)電力行業(yè)一些專業(yè)術(shù)語(yǔ)可以通過(guò)機(jī)器學(xué)習(xí)預(yù)先存入數(shù)據(jù)庫(kù),方便使用。
NLG 的工作就是將翻譯好的機(jī)器語(yǔ)言轉(zhuǎn)換成文字,也就是將計(jì)算機(jī)的文本語(yǔ)言組織成人可以理解的文本。NLU 的技術(shù)要比NLG 的技術(shù)相對(duì)簡(jiǎn)單一些。
基于深度神經(jīng)網(wǎng)絡(luò)、自然語(yǔ)音處理、麥克風(fēng)降噪及定向收集、攝像頭智能拍攝等技術(shù),設(shè)計(jì)智能會(huì)議助手,為智能會(huì)議助手系統(tǒng)提供語(yǔ)音智能采集、人臉拍攝等功能,實(shí)現(xiàn)語(yǔ)音識(shí)別、聲紋識(shí)別、人臉識(shí)別、智能控制等功能。基于人工智能的錄音回溯系統(tǒng)處理流程如圖2 所示。
圖2 處理流程
分詞:分詞是處理自然語(yǔ)言步驟中最基本的,單詞是文本的基礎(chǔ)單位。本系統(tǒng)中增加處理電力行業(yè)中的一些專業(yè)術(shù)語(yǔ)詞匯。通過(guò)分詞除去冗余信息,分詞算法通常分為統(tǒng)計(jì)方法與詞典方法。目前國(guó)內(nèi)常用的分詞工具有Stanford CoreNLP 和Jieba 等。
詞性標(biāo)注:分詞結(jié)束后下一步就是對(duì)單詞進(jìn)行詞性標(biāo)注,需要定義詞性的類別:專業(yè)術(shù)語(yǔ)、形容詞、名詞、動(dòng)詞等。提取影響語(yǔ)音識(shí)別的關(guān)鍵信息和表達(dá)語(yǔ)言含義的特征信息。詞性標(biāo)注是為了方便信息的抽取、語(yǔ)義的識(shí)別、句子的理解。
語(yǔ)法分析:語(yǔ)法分析是用來(lái)確定一句話的語(yǔ)法結(jié)構(gòu),例如動(dòng)賓、動(dòng)補(bǔ)、主謂賓等。按照不同語(yǔ)言的各自語(yǔ)法,依照先后順序識(shí)別字詞。把前后的意思當(dāng)做輔助條件,有利于分析和識(shí)別。這對(duì)于會(huì)議中語(yǔ)音識(shí)別非常價(jià)值。
命名實(shí)體識(shí)別:命名實(shí)體識(shí)別是用來(lái)處理語(yǔ)句中出現(xiàn)的一些機(jī)構(gòu)單位名稱、電力專業(yè)術(shù)語(yǔ)、地名以及人名,及聲學(xué)模型(包含地區(qū)、行業(yè)口音、發(fā)音特點(diǎn)等)。命名實(shí)體是標(biāo)注的問(wèn)題的范疇,所以可以采用HMM/CRF 來(lái)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練。鑒于本文主要是針對(duì)電力行業(yè)的會(huì)議語(yǔ)音轉(zhuǎn)換,因此增強(qiáng)電力行業(yè)的專業(yè)術(shù)語(yǔ)的學(xué)習(xí)尤其重要。
實(shí)體關(guān)系抽?。簩?shí)體關(guān)系抽取是對(duì)基本信息抽取的關(guān)鍵知識(shí),也是自動(dòng)識(shí)別一些非結(jié)構(gòu)化的文本中兩個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系。實(shí)體關(guān)系的抽取分為有監(jiān)督的學(xué)習(xí)、無(wú)監(jiān)督的學(xué)習(xí)以及規(guī)則的匹配。
實(shí)體關(guān)系抽取是自動(dòng)識(shí)別非結(jié)構(gòu)化文檔中兩個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系,屬于信息抽取領(lǐng)域的基礎(chǔ)知識(shí)之一。實(shí)體關(guān)系抽取包括規(guī)則匹配、有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)。
本文選取訊飛轉(zhuǎn)錄作為對(duì)比對(duì)象,針對(duì)電力行業(yè)下某電力新聞報(bào)道錄音進(jìn)行轉(zhuǎn)換對(duì)比,本系統(tǒng)與訊飛轉(zhuǎn)錄電力新聞結(jié)果對(duì)比如表1 所示。
表1 本系統(tǒng)與訊飛轉(zhuǎn)錄電力新聞結(jié)果對(duì)比
表1 加粗的為語(yǔ)音轉(zhuǎn)換錯(cuò)誤的地方,通過(guò)分析可以看出訊飛轉(zhuǎn)錄共出現(xiàn)8 處語(yǔ)音轉(zhuǎn)換錯(cuò)誤,本文設(shè)計(jì)的系統(tǒng)出現(xiàn)3 處語(yǔ)音回轉(zhuǎn)換錯(cuò)誤,相比之下本系統(tǒng)在電力新聞?wù)Z音轉(zhuǎn)錄方面準(zhǔn)確度更高,更具有可行性。
本文設(shè)計(jì)一種基于語(yǔ)音識(shí)別技術(shù)的智能會(huì)議助手,將會(huì)議發(fā)言語(yǔ)音實(shí)時(shí)轉(zhuǎn)錄為文字和會(huì)議記錄,支持對(duì)實(shí)時(shí)轉(zhuǎn)錄的會(huì)議記錄結(jié)合錄音進(jìn)行回溯,并且可通過(guò)語(yǔ)音完成演示控制,有效提高會(huì)議紀(jì)要的整理效率,下一步將繼續(xù)優(yōu)化完善特定電力場(chǎng)景下的語(yǔ)音語(yǔ)料庫(kù),提升系統(tǒng)的準(zhǔn)確性。