薛輝
(商洛學院數(shù)學與計算機應用學院,陜西 商洛 726000)
訊飛語音技術在會議記錄手機APP中的應用
薛輝
(商洛學院數(shù)學與計算機應用學院,陜西 商洛 726000)
為了實現(xiàn)自動生成會議文字記錄,設計了一款會議記錄手機APP,研究了在會議記錄手機APP中應用訊飛語音的關鍵技術,包括語音技術的選取、語音聽寫的流程、上傳用戶自定義詞表和識別結果合成。該會議記錄手機APP能夠識別會議參與人員的講話并轉換為文字,可以有效減輕會議秘書的工作負擔。
訊飛;語音識別;會議記錄
會議記錄是有關會議情況的原始筆錄和第一手材料[1],需要會議秘書把會議參與人員的講話記錄下來。由于人講話的速度明顯快于書寫的速度,會議秘書在記錄時往往只能記錄重要的部分,無法完整地呈現(xiàn)會議的內容。采取錄音的方式雖然可以完整記錄會議參與人員的講話,但會議記錄一般要求文字形式,錄音資料只能用作輔助材料,文字仍然需要會議秘書人工記錄。如今,語音識別技術已經(jīng)比較成熟,可以應用語音技術開發(fā)智能程序[2],自動完成文字生成和記錄工作,會議秘書只需在會后稍加整理即可,可以大大減輕會議秘書的工作負擔。本文應用訊飛語音技術設計了一款會議記錄手機APP。
科大訊飛經(jīng)過多年的積累,整合了科大訊飛研究院、中國科技大學訊飛語音實驗室和清華大學訊飛語音實驗室等在語音技術上的成果,語音核心技術達到了國際領先的水平[3],并引進國內外最先進的人工智能技術 ,與學術界、產(chǎn)業(yè)界合作,共同打造了語音技術應用平臺,提供語音合成、語音識別、聲紋密碼等語音技術[4]。已經(jīng)有許多軟件應用訊飛語音技術,并取得了良好的效果。
本文設計的會議記錄手機 APP 基于 Android 平臺,使用Java 語言開發(fā) ,采用 Eclipse 進行編譯 ,適用于 Android4.2以上版本的手機,工作時需要聯(lián)網(wǎng)環(huán)境支持。該手機APP主要是應用訊飛語音技術把會議參與人員的講話識別成文字保存下來,應用的關鍵技術如下:
3.1 語音技術的選取
訊飛語音技術主要包括語音合成、語音識別、語音評測、聲紋識別等功能,其中語音識別技術又分為語音聽寫、命令詞識別和語義理解三種[5]。語音聽寫技術可以靈活識別語句和分詞,并將語音識別的結果轉換成文字;命令詞識別技術可以根據(jù)設置的語法規(guī)則識別用戶說出的關鍵詞,從而進行一些控制操作;語義理解技術可以分析用戶所說的話語的需求,返回用戶關心的相關查詢結果。使用手機APP進行會議記錄,主要是把會議參與人員的講話轉換成為文字,所以采用語音聽寫技術比較合適,可以快速把會議的內容記錄下來[6]。訊飛語音技術的語音聽寫還包括云端識別和本地識別兩種,為了獲得更加準確的識別結果,本系統(tǒng)采用云端識別。
3.2 語音聽寫的流程
使用語音聽寫技術的流程如下:
(1)導入 SDK:將訊飛語音平臺提供的 Android SDK 壓縮包中 libs文件夾下所有文件復制到 APP 工程的 libs文件夾下。
(2)添加權限:在 APP 工程的 AndroidManifest.xml文件中添加相關權限,本APP需要使用連接網(wǎng)絡、使用錄音機、讀取網(wǎng)絡信息狀態(tài)、獲取wifi狀態(tài)等權限。
(3)創(chuàng)建語音配置對象:創(chuàng)建語音配置對象即初始化,包括設置 appid、開發(fā)者賬號、引擎模式等,本 APP 的引擎模式設置為“auto”。
(4)創(chuàng)建 SpeechRecognizer對象 :要使用語音聽寫技術,需創(chuàng)建SpeechRecognizer對象,云端識別時第二個參數(shù)設置為“null”。
(5)設置聽寫參數(shù):設置聽寫的參數(shù),比如應用領域、語言區(qū)域等。本APP設置應用領域為短信和日常用語,即“iat”,語言區(qū)域為中文中國,即“zh_cn”。
(6)開始聽寫:開始把聽到的語音識別成為文字并記錄下來。
3.3 上傳用戶自定義詞表
特定會議往往會有一些特定的詞語,這些特定的詞語用戶可以自定義并上傳到云端,以提高識別的準確率。上傳自定義詞表的關鍵代碼如下:
3.4 識別結果合成
語音聽寫的結果返回 JSON 格式文檔,JSON(JavaScript Object Notation) 是一種輕量級的數(shù)據(jù)交換格式,易于機器解析和生成,也便于人閱讀和編寫[7]。語音識別模塊返回 JSON格式文本后,順序檢測“cw”,把“cw”里的“w”依次連接到一起即可合成語音識別的結果。如果一個“cw”里有多個“w”,即說明有多候選結果,此時,得分越高識別準確的可能性越大,所以連接分數(shù)最高的一個。
本文設計了一款會議記錄手機APP,應用訊飛語音技術實現(xiàn)自動完成會議記錄工作,能夠生成會議講話的文字信息,給會議秘書帶來便利,減輕工作負擔,提高工作效率。本APP 尚沒有區(qū)分不同的講話人[8],隨著聲紋技術的發(fā)展,如果可以根據(jù)聲紋自動區(qū)分出每句話為哪個參會人所講[9],就可以把參會人的姓名直接記錄在語句之前,分離開不同講話人所講的文字,給會議秘書的工作帶來更大的方便。
[1] 劉偉.會議記錄整理與寫作撮要[J].秘書,2015(02):31-32.
[2]張建華.基于深度學習的語音識別應用研究[D].北京:北京郵電大學,2015.
[3]李慧.基于訊飛語音的安卓手機應用開發(fā)步驟的研究[J].無線互聯(lián)科技,2015(14):123-124.
[4]王海洋,郭星.基于語音識別的智慧旅游系統(tǒng)研究[J].計算機技術與發(fā)展,2015(05):143-147.
[5] 陳松.基于 A n d r o i d平臺的家居遠程語音控制系統(tǒng)研究[J].赤峰學院學報(自然科學版),2016(21):25-26.
[6] 郭海賓,王艷秋,燕孝飛.基于 A n d r o i d平臺的手機語音記錄器的設計與實現(xiàn)[J].福建電腦,2015(10):24-25.
[7] 高靜,段會川.JSO N 數(shù)據(jù)傳輸效率研究[J].計算機工程與設計,2011(07):2267-2270.
[8]周雷.基于聲紋識別的說話人身份確認方法的研究[D].上海:上海師范大學,2016.
[9]裴鑫.聲紋識別系統(tǒng)關鍵技術研究[D].哈爾濱:哈爾濱理工大學,2014.
TheApplication of iFLYTEK’s Speech Technology in Mobile PhoneAPP for Meeting Minutes
Xue Hui
(Shangluo University,Shangluo 726000,Shaanxi)
In order to realize the automatic generation of meeting records,designed a conference record mobile phone APP,studied the key technologies of the application of Iflytek’s speech technology in the conference record APP,which included speech technology selection,speech dictation process,upload custom thesaurus and recognition results.The conference record mobile phone APP can identify the speech of the conference participants and convert it to text,which can effectively reduce the workload of the conference secretary.
iFLYTEK;speech recognition;meeting minutes
TN912.34
A
1008-6609(2017)05-0067-02
薛輝(1983-),男,陜西商洛人,碩士,工程師,研究方向為計算機教育教學改革、應用軟件開發(fā)。