摘 要:依據(jù)現(xiàn)行新一代人工智能標準體系建設指南規(guī)定,本文分別以國家、行業(yè)、團體發(fā)布的有效標準3個維度系統(tǒng)梳理了人工智能涉及智能語音領域技術標準化研究現(xiàn)狀。從統(tǒng)計數(shù)據(jù)可以得出,我國智能語音領域的標準化研究已趨向成熟。但是仍存在標準更新滯后、標準覆蓋范圍有限、缺乏協(xié)同合作等突出問題,最后對智能語音領域相關標準化工作提出建議。
關鍵詞:人工智能,標準化,智能語音,現(xiàn)狀
DOI編碼:10.3969/j.issn.1674-5698.2024.12.017
0 引 言
智能語音技術起源于2 0世紀50年代至6 0年代的早期語音識別研究[1],當時科學家們試圖構建能夠理解和響應人類語音的系統(tǒng)。早期工作主要集中在模板匹配和基于規(guī)則的方法上,但由于計算能力有限和語音數(shù)據(jù)的復雜性,進展較為緩慢。進入21世紀,特別是在2000年后,隨著深度學習和神經(jīng)網(wǎng)絡技術的興起,智能語音技術實現(xiàn)了質(zhì)的飛躍。深度神經(jīng)網(wǎng)絡模型被應用于語音特征提取、聲學建模和語言模型構建等方面,顯著提高了語音識別和語音合成的準確率和自然度[2]。
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)時代的到來,人機交互方式的需求發(fā)生了深刻變化。用戶對于便捷、高效、自然的交互體驗有了更高的追求,這催生了智能語音技術在智能手機、智能家居、可穿戴設備、車載信息系統(tǒng)等各種場景中的廣泛應用[3]。隨著智能語音技術在智能終端的不斷進步和廣泛應用,相關行業(yè)領域正在迎來顯著增長,預計如:智能手機、智能家居、可穿戴設備這些領域的市場價值將實現(xiàn)上千億元的大幅提升[4]。
智能語音技術的研究背景是由科技進步、社會需求以及多學科交叉融合共同塑造的,因此智能語音領域標準體系中的各項標準都是相互聯(lián)系不可分割的,需要堅持整體觀以制定高效協(xié)同的智能語音技術標準[5]。本文通過對智能語音領域當前已發(fā)布的國家、行業(yè)及團體標準以及正在研制的國家標準計劃進行分析,得出智能語音技術標準化研究進展?;诰C合分析結果,指出我國在推進智能語音技術標準化過程中面臨的主要問題,并針對這些問題提出具體改進建議。
1 我國智能語音領域技術標準化現(xiàn)狀
1.1 整體標準化現(xiàn)狀
智能語音行業(yè)中國家、行業(yè)、地方和團體各類標準的制定進展,很大程度上展示了該領域在國內(nèi)的成長狀態(tài)及政府、行業(yè)對其監(jiān)管的程度。如:國家推薦性系列標準,涵蓋了基礎技術、服務質(zhì)量、安全性等多個層面,旨在規(guī)范智能語音產(chǎn)品的功能、性能和安全性要求,推動國內(nèi)市場的規(guī)范化和技術創(chuàng)新。我國智能語音行業(yè)已經(jīng)逐步建立了較為完善的國家標準化體系,包含一系列國家標準、行業(yè)標準、地方標準和團體標準。智能語音標準不僅局限于家庭消費電子產(chǎn)品,還延伸到了教育、醫(yī)療、政務、電信、電商、金融等企業(yè)級應用領域。針對不同的應用場景,爭取做到有對應的標準化要求,以確保智能語音技術在各行業(yè)健康有序發(fā)展,這不僅有效規(guī)范了市場行為,也為我國智能語音技術的自主創(chuàng)新和產(chǎn)業(yè)發(fā)展提供了強有力的支持。
1.2 國家標準
智能語音行業(yè)國家標準制定現(xiàn)狀在很大程度上反映了該行業(yè)在國內(nèi)的發(fā)展水平和政府監(jiān)管力度。智能語音方向已發(fā)布的國家標準總計17項(見表1),均為推薦性標準,內(nèi)容涵蓋術語和定義、語義庫要求、通用規(guī)范、測試方法、終端設備要求和具體場景應用要求等[6 ]。在研的國家標準計劃有3項(見表1),均為智能語音產(chǎn)品在應用場景中的規(guī)范要求,這表明國家對智能語音行業(yè)的監(jiān)管力度逐步增大,對智能語音交互系統(tǒng)的要求日益嚴格,顯示出國家對這一新興技術領域的重視愈加提高。國家旨在通過制定和實施一系列標準,完善建設標準體系,確保行業(yè)中的產(chǎn)品和服務能夠達到一定的質(zhì)量要求,即通過有效標準化手段規(guī)范市場秩序,推動行業(yè)良性競爭。同時,隨著相關國家標準的發(fā)布和修訂,有助于用權威手段解決市場上存在的例如:測試方法具有差異性、服務接口不統(tǒng)一、應用場景不同等問題,從而增加公眾信任度。此外,規(guī)范性文件也更加明確且具有針對性,有利于引導整個產(chǎn)業(yè)鏈向可持續(xù)的方向發(fā)展??傊?,加強對智能語音技術的規(guī)范化、標準化,是利用國家標準推動該領域長期穩(wěn)定發(fā)展的關鍵所在。
1.3 行業(yè)標準
行業(yè)標準方面,智能語音方向發(fā)布并現(xiàn)行標準9項(見表2),均為推薦性行業(yè)標準,規(guī)范了移動通信、物聯(lián)網(wǎng)、智能家居、車載信息服務等多個重要領域,并且對這些領域的智能語音技術要求及測試方法進行了詳細的規(guī)范。通過針對行業(yè)內(nèi)特定應用場景設定統(tǒng)一的技術指標和評價體系,有利于提高整個行業(yè)的技術水平和服務質(zhì)量,促進健康有序的發(fā)展。特別值得一提的是,在某些特定的應用場景中都是結合自身領域特點分別制定了更加細致化的行業(yè)標準來指導智能語音技術的應用。公安、金融領域考慮到信息安全和隱私保護的重要性,在這些領域發(fā)布的標準會更加注重數(shù)據(jù)加密傳輸、用戶身份驗證等方面的要求,以保證過程中收集或存儲的信息能夠得到妥善處理。而在智能電視領域針對家庭多媒體這一場景,則更加強調(diào)用戶體驗優(yōu)化、識別準確性、應答效率等功能實現(xiàn)。通過為不同的應用場景量身定制標準,不僅有利于解決行業(yè)內(nèi)的共性問題,還能激發(fā)更多智能語音技術創(chuàng)新應用的出現(xiàn)。
1.4 團體標準
團體標準通常由行業(yè)內(nèi)具有影響力的企業(yè)或技術領導者牽頭制定,團體標準的制定和發(fā)布主要是為了應對快速發(fā)展的技術趨勢以及市場中不斷涌現(xiàn)的新需求,例如:針對新興的語音識別算法、語音合成技術、多模態(tài)交互方式等制定相應的技術標準。相比國家和行業(yè)標準,團體標準的一個顯著優(yōu)勢是制定流程相對靈活,由于不需要經(jīng)過漫長的制定過程,因此能迅速地根據(jù)科技成果的最新發(fā)展調(diào)整內(nèi)容,并及時反映到標準當中。目前智能語音領域發(fā)布并現(xiàn)行團體標準13項(見表3),主要以智能語音技術與產(chǎn)品評估方法為方向進行標準化制定。通過推動團體標準的發(fā)展和完善,有利于企業(yè)間通過一起制定標準交流最新的科技成果,形成良好的市場競爭環(huán)境。
2 我國智能語音領域技術標準化存在問題
2.1 標準更新滯后
通過對當前智能語音領域標準制定現(xiàn)狀的研究,我們可以觀察到,這一產(chǎn)業(yè)正逐步實現(xiàn)與不同行業(yè)的深度融合,尤其是在金融、醫(yī)療和安全監(jiān)控等行業(yè)中。然而,在智能語音技術迅速發(fā)展的背景下,標準的制定往往難以跟上技術創(chuàng)新的速度。這種滯后性不僅體現(xiàn)在新標準的發(fā)布時間上,還包括現(xiàn)行標準對新興技術和應用場景的適應性不足。標準制定過程通常需要經(jīng)過廣泛的協(xié)商、測試和驗證,以確保其科學性和實用性。這一過程涉及多個利益相關方,包括政府機構、行業(yè)組織、企業(yè)和研究機構等,各方之間達成共識往往需要較長時間,這進一步延長了標準從立項到正式發(fā)布的時間周期。
2.2 標準覆蓋范圍有限
由于智能語音技術快速發(fā)展且應用場景廣泛,智能語音技術是一個跨學科的領域,它的研究和發(fā)展集合了眾多學科的知識[ 7 ],包括但不限于:數(shù)字信號處理(DSP),用于預處理和解析語音信號;人工智能(AI)與機器學習(ML),用于模式識別和自適應學習;自然語言處理(NLP),負責理解語音背后的含義;聲學,研究聲音產(chǎn)生和傳播機制,優(yōu)化語音識別性能;心理學與情感學,探索語音表達的情感維度,提升交互體驗的真實性;統(tǒng)計學和數(shù)學,提供量化分析手段和模型構建的基礎[8]?,F(xiàn)有標準往往難以全面覆蓋所有新興技術和特定使用場景,例如:雖然已有不少針對普通話等主要語言的語音識別與合成標準,但對于地方方言以及小語種的支持仍然不足?,F(xiàn)有的智能語音技術在處理方言時,由于缺乏統(tǒng)一的發(fā)音、詞匯、語法和表達習慣等標準[9],導致語音識別引擎難以適應所有方言變體,識別準確率受限。
2.3 缺乏協(xié)同合作
智能語音領域團體標準文本公開程度較低,體現(xiàn)出企業(yè)間缺乏協(xié)同合作的問題。由于各企業(yè)間存在競爭關系,導致關鍵技術和研究成果難以共享,形成了技術壁壘;同時,不同企業(yè)、科研機構收集的語音數(shù)據(jù)集往往互不兼容,限制了模型訓練的效果和通用性。此外,學術界與企業(yè)界缺乏有效溝通機制也阻礙了理論創(chuàng)新向?qū)嶋H應用轉化。
3 我國人工智能關鍵領域技術標準化發(fā)展建議
3.1 提高標準制定時效性
為了加快智能語音領域技術標準的制定速度,可以構建一個多方參與、快速響應的標準工作組,該工作組應包括來自政府、企業(yè)、科研機構以及用戶群體等多方面的代表??梢栽谥贫藴蕰r采用模塊化和靈活的標準框架,以便于及時更新和適應新技術的發(fā)展,確保標準既能跟上創(chuàng)新步伐又能滿足市場需求。
3.2 拓寬標準覆蓋廣度
為了應對智能語音領域標準覆蓋范圍有限的問題,可以加強行業(yè)內(nèi)以及跨行業(yè)合作[10],建立統(tǒng)一的智能語音技術標準框架,確保技術兼容與數(shù)據(jù)互通;加快新興技術和應用場景的標準制定速度,緊跟技術發(fā)展步伐;在標準研究制定時對不同語言地區(qū)不同使用場景等因素進行全維度考量,吸納語言學等領域的專業(yè)知識,提升標準的適用性和實用性,逐步完善智能語音技術標準體系,促進行業(yè)規(guī)范發(fā)展。
3.3 促進標準化工作協(xié)同
為解決智能語音領域標準化工作中缺乏協(xié)同合作的問題,應構建多方參與的協(xié)作平臺,鼓勵企業(yè)、研究機構及政府之間建立常態(tài)化的溝通機制,通過成立聯(lián)合工作組或行業(yè)協(xié)會來協(xié)調(diào)各方利益,共同制定和推廣統(tǒng)一的技術標準與數(shù)據(jù)格式;同時,推動標準共享項目的發(fā)展,共享標準中的關鍵技術指標和測試方法等,加速創(chuàng)新成果的應用轉化。此外,定期舉辦會議和技術論壇,加強同行間的交流與合作,以形成合力推進智能語音技術領域的標準化進程。
4 結 語
從本文可以看出,在制定相關智能語音交互技術標準的過程中,應結合最新研究成果和實踐經(jīng)驗,選取科學、合理、可行的技術要素,提高標準制定時效性,拓寬標準覆蓋廣度,促進標準化工作協(xié)同,引導和推動智能語音應用行業(yè)的健康發(fā)展。
參考文獻
[1]張筱蘭,王保論.智能語音技術在教學中的應用研究[J].現(xiàn)代教育技術,2011,21(11):91-94+90.
[2]唐永軍.基于深度學習的智能語音助手研究[J].現(xiàn)代信息科技,2021,5(12):75-79.
[3]許為.九論以用戶為中心的設計:智能時代的“用戶體驗3.0”范式[J].應用心理學,2024,30(02):99-117.
[4]胡郁,嚴峻.智能語音交互技術及其標準化[J].信息技術與標準化,2015(04):14-17.
[5]雷靜,王佳勝.基于關鍵要素的人工智能標準化研究[J].標準科學,2018(11):68-72.
[6]朱肖曼,申志偉,時文豐,等.我國人工智能關鍵領域技術標準化研究[J].網(wǎng)絡安全與數(shù)據(jù)治理,2023,42(09):65-71.
[7]陳鑫源.智能語音交互技術及其標準化[J].電聲技術,2018,42(05):78-80.
[8]張宣,楊易臻.智能語音技術,為“聲音”帶來更多可能[N].新華日報,2023-11-15(011).
[9]鄭曄,歐智堅,楊艇.閩南語智能交互引擎開發(fā)和應用研究[J].廣播與電視技術,2022,49(11):124-127.
[10]許小春.關于智能語音識別技術的應用與發(fā)展研究[J].科技風,2022(25):1-3.