亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于嵌入式NLP的鐵路車務術語語音識別方法

        2020-11-25 07:59:28黃大吉林海香
        蘭州交通大學學報 2020年5期
        關鍵詞:車務值班員分詞

        黃大吉,林海香

        (蘭州交通大學 自動化與電氣工程學院,蘭州 730070)

        2015年9月至2016年4月,連續(xù)發(fā)生了3起因車務值班員的操作不熟練而引起的操作違規(guī)、列車區(qū)間停車、擅自調(diào)整調(diào)度計劃等類事故,為防止此類安全事故的再次發(fā)生,2016到2017年,鐵總連續(xù)發(fā)了3個文件,明確提到車站需要配備相應的仿真演練設備,以確保上崗車務值班員素質(zhì)達標,持證上崗.鐵路車務仿真培訓系統(tǒng)應運而生,但無論是基本作業(yè)還是應急處理,在實際工作中值班員都需要與各個崗位進行語音交互,而現(xiàn)有仿真培訓系統(tǒng)中都未能實現(xiàn)語音交互[1-2],語音識別的引入,可以解決這一問題.

        但現(xiàn)有的語音識別軟件對車務術語的識別準確率不盡人意,例如科大訊飛、百度、中科信利等,并沒有針對鐵路行業(yè)的識別庫.文獻[3]對比了科大訊飛、Siri、Cortana以及百度的語音識別率得分,Cortana的綜合得分最高,科大訊飛的識別率最穩(wěn)定.本文通過實際測試,運用科大訊飛識別鐵路車務專用術語的準確率僅為50%,這遠遠達不到要求.所以急需研發(fā)一種提高鐵路車務術語語音識別準確率的方法.

        自然語言處理是人工智能的一個分支,使機器像人一樣對接收到的語言進行理解并反饋[4-5].近幾年來,NLP不斷與語音識別(automatic speech recognition,簡寫為ASR)、語音合成(text to speech,簡寫為TTS)等語音技術相互結(jié)合形成新的研究分支.文獻[6]設計了一種基于NLP和ASR的電信業(yè)務軟件;文獻[7]完成了嵌入式人機語音交互系統(tǒng)的研究,把NLP與ASR結(jié)合運用到了服務機器人的語音交互;文獻[8]則把研究擴展到了智能家居領域.

        本文提出一種基于嵌入式NLP的鐵路車務術語語音識別方法,運用NLP的方法來提高鐵路車務術語的ASR準確率,并將嵌入式設計與傳統(tǒng)培訓系統(tǒng)相結(jié)合,以實現(xiàn)培訓人員與仿真系統(tǒng)的語音交互.

        1 NLP簡述

        NLP一般分為詞法、句法、語義、語用以及篇章分析[9].第一部分是詞法分析,包含去除停止詞、中文分詞和詞性標注;第二部分就是利用從第一部分得出的結(jié)果理解出整個句子的框架結(jié)構(gòu)進行句法分析;第三部分是在前兩部分的基礎上對輸入文本的整體意思進行語義分析;語用和篇章分析是在第三部分的基礎上利用上下文或者整篇文章進行分析.對自然語言的研究分為開放領域和特定領域,開放領域的研究設定可以解決任何主題的問題,本文研究的是特定領域,即鐵路車務用語語音識別后文本的處理,使其滿足鐵路車務術語并能被系統(tǒng)識別.

        隨著NLP與ASR的越發(fā)成熟,NLP與ASR的兩個重要方向是基于PC機的大詞匯量識別和嵌入式的自然語言處理,尤其是嵌入式的自然語言處理,漸漸發(fā)展到了鐵路行業(yè).吳萍等[10]將NLP與ASR應用于火車票查詢系統(tǒng);翁湦元等[11]設計了一種鐵路語音識別引導購票系統(tǒng);潘梁生[12]針對鐵路機務部門的“車機聯(lián)控”,設計了一種列車車載識別系統(tǒng).但前兩者,更多傾向于開放領域的識別,而后者,并未真正實現(xiàn)與列車運行監(jiān)控裝置的聯(lián)調(diào),其準確率有待進一步考證.

        把語音識別引入到了車務仿真培訓系統(tǒng)中,但僅僅使用語音識別不能解決鐵路車務專業(yè)術語的識別率問題.針對現(xiàn)有車務仿真培訓系統(tǒng)對標準用語的語音識別準確率低的問題,本文提出了一種基于嵌入式NLP的車務術語ASR方法,將NLP與ASR、TTS等語音技術應用到鐵路車務仿真培訓系統(tǒng)的語音交互中,其整體流程如圖1所示.

        車務值班員輸入語音,通過無線傳輸至科大訊飛云識別轉(zhuǎn)化為文字信息,然后經(jīng)過分詞,把句子切分為一個個詞串;接著進行鐵路專有詞處理,生成符合鐵路標準用語的詞串信息;然后通過語義分析,轉(zhuǎn)化為標準的詞義塊后輸入計算機識別;最后結(jié)合TTS技術播放出來,完成語音交互.

        2 嵌入式NLP算法

        2.1 嵌入式技術

        為了與傳統(tǒng)車務仿真培訓系統(tǒng)更好地結(jié)合,運用嵌入式技術,設計了運用NLP算法的車務仿真調(diào)度電話,該調(diào)度電話能直接與傳統(tǒng)仿真培訓系統(tǒng)相連接,節(jié)約了成本.

        以飛凌OK6410開發(fā)板為基礎搭建硬件平臺,結(jié)合Intel Loihi547文本處理芯片進行自然語言處理,配上SYN6288語音播放芯片實現(xiàn)語音合成.OK6410開發(fā)板采用ARM11系列的S3C6410微處理器,提供了飛凌FIT-LCD4.3 LCD顯示屏、256MByte的RAM、2GByte的ROM、音頻接口、聲卡模塊、TTL電平和RS232電平的串口,支持Nand-flash和SD卡兩種啟動方式[13].硬件平臺結(jié)構(gòu)如圖2所示,語音識別模塊、自然語言處理模塊、語音合成模塊共同完成了系統(tǒng)的語音交互功能.

        2.2 分詞與糾錯算法

        1) 基于詞典的改進正向最大匹配分詞算法

        分詞是NLP的基礎,提高分詞的正確性與效率至關重要.研究表明[14],在非限定性領域,正向最大匹配的錯誤率僅為0.5%,而應用到鐵路行業(yè)內(nèi),其正確率將大幅提高,所以本文提出一種hash函數(shù)結(jié)合正向最大匹配的分詞算法,提高了分詞效率.

        本文應用于鐵路車務場景,為減少停止詞的數(shù)量,建立一個專用于此場景的詞典.結(jié)合《鐵路技術管理規(guī)程》、《鐵路行車組織規(guī)則》以及收集到的車務培訓系統(tǒng)中的規(guī)范語的正確與錯誤語料,收錄了包含舉例車站名稱、專有名詞等在內(nèi)的2 000個詞,存入文本文檔中.為了便于詞與詞各種屬性的查詢,把文本中的詞存于內(nèi)存中,即詞庫的初始化.

        定義數(shù)組dictionary[]和hash[],前者用來存放所有的詞,后者用來存放key值相同的詞,即只要key值相同的詞都存放于相同的數(shù)組hash[key]中.具體流程:

        ① 獲取詞庫中詞的首字w和長度L;

        ② 用MD5算法計算w對應的MD5值,得出value值,即

        value=MD5(w)+L;

        (1)

        ③ 定義哈希函數(shù)key=value%n,由于本文詞庫規(guī)模相對較小,取n=300;

        ④ 將詞的key值存儲到相應的hash[key]中,并重復上述過程,直到所有的詞都存儲在hash[]中.

        初始化結(jié)果如圖3所示,其中:hash[i]表示第i個數(shù)組;Cij、Sij分別表示hash[i]中的第j個詞及其屬性.

        通過以上的初始化,所有首字相同且字數(shù)相同的詞都被存儲在同一鏈表中,能快速定位關鍵詞,這樣有利于縮短算法的運行時間.改進的分詞算法基本原理如圖4所示,具體過程如下:

        a. 定義輸入:帶切分的字串T,最大詞長L;輸出:切分后的字串T’;

        b. 令P指向T首部,T’初始化為空;

        c. 計算length為P至T尾部的長度,如果length=0則至h,反之則下一步;

        d. 在dictionary[]中搜索以P為首字的詞,如果搜索不到則將后移一位P,返回c,反之則下一步;

        e. 設置最大詞長為L,當length的值大于L時,賦值length=L;

        f. 在P后提取長度為length的字符串t;

        g. 計算P指向的首字和長度為length的key值,在hash[key]對應鏈表中查找字符串t,如果存在則在T’中添加t并賦予詞性,同時P后移length的長度,返回步驟b;否則令length減一,在P后提取長度為length的字串t,重復步驟g,直到length=0時,將P后移1個單位,返回c;

        h. 返回切分后得到的字串T’.

        2) 鐵路專有詞糾錯

        引入識別可信度概念,定義百分百正確識別的詞的可信度為1,百分百錯誤識別的詞的可信度為0,可信度的范圍為0~1,其具體值為識別正確的次數(shù)與總的識別次數(shù)的比值.通過統(tǒng)計現(xiàn)有的語音識別軟件對車務值班員口呼信息的輸出結(jié)果,可以得到比較正確的語句與大量錯誤的訓練語句,例如:原文為“蘭州西站,6道軌區(qū)段出現(xiàn)紅光帶,影響D1402次接車”,科大訊飛識別結(jié)果為“蘭州西站,6導軌/搗鬼/島柜區(qū)段出現(xiàn)虹光/宏光/鴻光帶,影響動1402次接車/街車/借車”.從中可以發(fā)現(xiàn)大都是專業(yè)詞匯或者平時交流中不常用的詞出現(xiàn)錯誤,例如:“蘭州西站”、“出現(xiàn)”、“區(qū)段”、“影響”、“次”的識別率較高,而“道軌”、“紅光帶”、“動”、“接車”等專業(yè)詞匯或者需要特殊轉(zhuǎn)換的詞的識別率極低.考慮到鐵路領域標準用詞的有限性,根據(jù)語音識別結(jié)果,人為挑選識別率高的詞,其可信度均為1,識別率低的詞和其他詞,其可信度均為0.例如例子中識別結(jié)果用可信度表示為11,10110,10111110.由此,只對可信度為0的詞進行查錯和糾錯.

        糾錯框架如圖5所示,創(chuàng)立一個鐵路專用詞匯列表庫,其包含5個數(shù)據(jù)庫:上下詞模式庫、邊界詞庫、正確詞匯庫、錯誤詞匯庫以及對比詞匯庫.采用模式匹配的方法對可信度為0的詞進行糾錯,具體步驟為:

        a. 通過訓練識別后的文本和標準文本,形成糾正詞匯庫(正確詞匯庫、錯誤詞匯庫和對比詞匯庫)和替換詞匯庫(上下詞模式庫和邊界詞庫).

        b. 對于鐵路專用術語,例如“紅光帶”、“道岔”等,匹配糾正詞匯庫,然后根據(jù)三個詞匯庫之間的映射關系,保留正確詞,糾正錯誤詞.

        c. 對于特殊替換詞,例如車次號中的“D”、“Z”等以及“道軌”應為“DG”等,繼續(xù)匹配替換詞匯庫,例如“動”的右邊界詞為數(shù)字,則替換為“D”.

        2.3 語義識別

        語義分析旨在系統(tǒng)考核,考核值班員與其他崗位的語音交互信息操作流程是否滿足標準.現(xiàn)有的語義分析有概念從屬理論和模板匹配語義分析兩種[15].概念從屬理論認為只要表達的語義相同即為正確,無論表達方式幾何,其由有限語義塊組成的語義表達式只有一個;模板匹配語義分析是對關鍵信息進行抽取來理解語義.本文運用模板匹配語義分析,實現(xiàn)系統(tǒng)識別.

        經(jīng)過分詞和糾錯流程得到帶有詞性標注的詞串,并得到一個詞的上下詞詞性與邊界詞性,系統(tǒng)運用模板匹配語義分析,直接抽取關鍵詞信息進行考核評判即可.例如,值班員口呼“6DG區(qū)段出現(xiàn)紅光帶”,系統(tǒng)只要能抽取到“6DG”和“紅光帶”,即系統(tǒng)認為值班員口呼正確.

        3 實驗測試與對比分析

        下文中所涉及到的實驗指標[16]正確率P、召回率R和綜合評價指標F1值定義如下:

        (2)

        (3)

        (4)

        其中:N1表示實際正確識別的個數(shù);N2表示總的個數(shù);N3表示系統(tǒng)認為正確識別的個數(shù).

        由于鐵路車務術語的語料庫規(guī)模較小,本文測試時采用交叉驗證的方法使訓練語料達到最大化.不區(qū)分訓練集和測試集,把500句樣本隨機分為50份,每份10句樣本,測試時把其中一份作為測試樣本,其他為訓練樣本,統(tǒng)計各組的正確率P、召回率R和F1值.

        3.1 準確率測試

        圖6為各系統(tǒng)識別的P、R、F1的總體分布圖.由圖6(a)和圖6(b)可知百度和科大訊飛的識別分布大都集中在45%~55%,科大訊飛的分布更為緊密,且比百度語音在更小的區(qū)間有較少的分布,說明雖然其兩者識別準確率差不多,但是科大訊飛識別時有較少的語料沒有被識別出來,識別性更加穩(wěn)定,這也是本文選取科大訊飛的識別結(jié)果作為系統(tǒng)輸入的原因.從圖6(c)可以看出,傳統(tǒng)的結(jié)合了語音識別的仿真系統(tǒng)雖然準確率有所提高,集中分布在60%~70%,但和百度語音識別存在相同的問題,即分布松散、在更小的區(qū)間有較多的分布,造成有較多的語料沒有被識別出來.圖6(d)為本文研究的系統(tǒng),準確率有了極大的提高,集中分布在了90%~95%的區(qū)間,減少了未被識別的語料的數(shù)量,具體的識別結(jié)果見表1.

        表1 各系統(tǒng)具體識別結(jié)果Tab.1 Specific identification results of each system

        3.2 運行時間測試

        從語料庫中隨機選出20組來進行運行時間的測試,同時確保每組的總字數(shù)大似接近.對這20組數(shù)據(jù)分別用正向最大匹配分詞算法和本文改進的分詞算法進行分詞,得出每組中每條語句的運行時間,再計算平均時間,得到的結(jié)果如圖7所示.

        由圖7可知,改進的正向最大匹配分詞算法縮短了近50%的運行時間,其中第7、9、11組運行時間較短,通過對比語料進行分析可得這3組中停止詞較少,因為未改進的分詞算法出現(xiàn)一次停止詞,就要遍歷一次詞庫而進行不必要的運算,而改進的正向最大匹配分詞算法,利用hash結(jié)合正向最大匹配只運算一次就將停止詞去除,提高了算法運行時間.對比加入人工自定義詞典后,除第2組和第8組略高外,總體運行效率進一步提高,原因在于本文自定義詞典時,結(jié)合了收集到的車務培訓系統(tǒng)中規(guī)范語的正確與錯誤語料后,進一步減少了停止詞,縮短了運行時間.

        4 案例應用

        將基于嵌入式NLP的鐵路車務術語語音識別方法運用于哈爾濱南上行發(fā)車場道岔區(qū)段紅光帶的接車作業(yè)培訓.車務培訓系統(tǒng)通過TDCS(train dispatching command system)下發(fā)調(diào)度命令,聯(lián)鎖場景布置,TDCS下發(fā)接車命令,值班員收到接車命令排列進路,發(fā)現(xiàn)6號道岔區(qū)段顯示紅光帶,通過調(diào)度電話,向助理值班員通話檢查6DG紅光帶.接著值班員與電務、工務通話,分析6DG區(qū)段紅光帶的原因,并給出應急處理,系統(tǒng)實時記錄值班員操作記錄與語音交互信息,最后系統(tǒng)判分,給出培訓建議,系統(tǒng)截圖如圖8所示.

        對比現(xiàn)有的僅加入了語音識別的車務仿真培訓系統(tǒng),從圖9中看到,傳統(tǒng)系統(tǒng)語音識別為“6導軌區(qū)段出現(xiàn)宏光帶”,出現(xiàn)了“導軌”和“宏光”這兩個不符鐵路術語的詞,而本系統(tǒng)通過自然語言處理后識別為“6DG區(qū)段出現(xiàn)紅光帶”,可以看到,不僅把“導軌”和“宏光”這兩個詞正確識別了,還把“道軌”替換為了“DG”,更加符合鐵路標準用語.

        運用本文方法的車務仿真調(diào)度電話系統(tǒng)已在哈爾濱、西安、成都等多個車站的職教中心投入使用.主要用于車務值班員、助理值班員、信號員等崗位培訓,在部分車站作為選拔車務作業(yè)崗位人員的輔助系統(tǒng).

        5 結(jié)論

        針對應用于非特定行業(yè)的語音識別軟件對鐵路車務術語識別準確率低的問題,本文提出了一種基于自然語言處理的車務術語語音識別方法,通過實驗分析,得出以下結(jié)論:

        1) 該方法以科大訊飛云識別的識別結(jié)果為輸入,經(jīng)過改進的分詞算法、車務術語庫糾錯以及模板匹配的語義分析,輸出最后結(jié)果,并將嵌入式設計直接與傳統(tǒng)系統(tǒng)結(jié)合,節(jié)約了成本.

        2) 相比于傳統(tǒng)的帶語音識別系統(tǒng)63.34%的識別率,運用本文方法的系統(tǒng)則為92.48%,識別率提高了29.14%.

        3) 提出改進的正向最大匹配分詞算法,利用hash結(jié)合正向最大匹配只遍歷一次就將停止詞去除,提高了算法運行時間.

        由于本文的語料規(guī)模較小,需要不斷地擴充具有廣泛代表性的語料庫,進而提出更高效的標注方法.

        猜你喜歡
        車務值班員分詞
        淺談車務系統(tǒng)專業(yè)管理體系的構(gòu)建與實施
        STP車務信息集中管理系統(tǒng)及對分路不良問題的處理
        車務數(shù)據(jù)維護系統(tǒng)在SAM系統(tǒng)中的應用研究
        結(jié)巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        試析如何提高變電站值班員的倒閘操作規(guī)范性
        車務安全移動管理系統(tǒng)的設計與實現(xiàn)
        值得重視的分詞的特殊用法
        淺析變電站值班員倒閘操作風險評估及預防措施
        值班員的猴兒子
        完善變電站值班員的倒閘操作規(guī)范性探討
        亚洲精品一品区二品区三品区 | 色777狠狠狠综合| 日韩少妇激情一区二区| 调教在线播放黄| 扒下语文老师的丝袜美腿| 国产黄色一级大片一区二区 | 98色婷婷在线| 亚洲综合久久精品无码色欲| 亚洲另类激情综合偷自拍图| 欧美精品一本久久男人的天堂| 美利坚亚洲天堂日韩精品| 91九色人妻精品一区二区三区| 国产尤物精品视频| 国产欧美日韩久久久久| 亚洲av日韩片在线观看| 大岛优香中文av在线字幕| av天堂最新在线播放| 久久久中文久久久无码| 国产久热精品无码激情| 欧美日韩国产另类在线观看| 人妻少妇中文字幕av| 国产内射视频在线免费观看| 久久久久免费看成人影片| 免费无码成人av在线播放不卡| 日本一本草久国产欧美日韩| 国产一区二区三区精品乱码不卡| 性人久久久久| 人妻少妇久久中文字幕一区二区 | 精品国产午夜久久久久九九| 国产主播一区二区三区在线观看| 日韩少妇人妻中文字幕| 国产乱码精品一区二区三区四川人| 无遮挡亲胸捏胸免费视频| 精选二区在线观看视频| 人妻少妇中文字幕,久久精品| 在线亚洲高清揄拍自拍一品区| 亚洲av无码一区二区三区四区| 国产成人综合亚洲av| 少妇被啪出水在线视频| 男女性爽大片视频| 亚洲熟妇丰满大屁股熟妇|