廈門視爾沃電子科技有限公司 楊愛祥
隨著云計算和大數(shù)據(jù)快速發(fā)展,人工智能興起,繼蘋果手機Siri語音控制功能, 亞馬遜ECHO智能音箱上市后,智能語音已經(jīng)成為風靡全球的一項應(yīng)用,作為網(wǎng)絡(luò)技術(shù)快速發(fā)展的中國,相繼出現(xiàn)智能語音產(chǎn)品,如代表性的京東與科大訊飛聯(lián)合推出的叮咚音箱,科大訊飛發(fā)布的靈犀語音助手和訊飛語音云產(chǎn)品,繼而在中國成長了一批智能語音的科技公司。Siri是近場語音,而ECHO則是遠場語音的應(yīng)用。
智能設(shè)備與人交互有三大方式:觸控、手勢和語音,語音交互在家居場景中,更符合自然合理的特性,可以以更少的操作步驟來完成需要的工作,應(yīng)該逐漸走入主流的是語音的交互方式,近場語音依賴于近距離的使用終端,而遠場語音的應(yīng)用更具有開放性和便利性,智能液晶電視具有普及面廣,使用頻率高,可視化屏幕大優(yōu)勢,智能電視上搭載遠場語音智能方案,對于培養(yǎng)用戶習慣有著得天獨厚的優(yōu)勢。可成為遠場語音發(fā)展的有效手段。
電視遠場語音系統(tǒng)構(gòu)建如圖1所示:
圖1
麥克風拾音:通過麥克風硬件模塊采集語音信號,麥克風排布可多種形式,如線性、L型、球形,不同形狀排布陣列決定著采用麥克風數(shù)量,最終的目的都是匹配特定的場景,讓最終遠場交互的精度最優(yōu)。麥克風的選擇可以是ECM或MEMS麥克風,MEMS麥克風可以是數(shù)字的(集成ADC)或是模擬的(如圖2所示)。
圖2
陣列設(shè)計主要有雙麥和多麥,雙麥大多應(yīng)用在諸如電視類只需接收180度音源的產(chǎn)品。多麥應(yīng)用在電視,音箱,智能家居設(shè)備等各類產(chǎn)品,分多麥線性陣列和多麥環(huán)狀陣列,可接收360度音源。
語音提取:陣列系統(tǒng)的語音芯片對麥克風在環(huán)境中采集的多路語音信號進行一系列的運算,實現(xiàn)回聲消除,降噪處理,提取有效特征指令。過模擬輸出或者IIS格式輸出給電視主芯片。語音處理芯片分兩種。一種是通用CPU運行語音降噪軟件算法。一種是用ASIC芯片硬件處理的方式得到干凈的語音指令信息。
智能液晶電視遠場語音提取、處理方案構(gòu)建流程如圖3所示:
圖3
語音識別、語義理解:語音識別是把語音轉(zhuǎn)化為文本信號處理。語義理解是從文字信息提取指令(如上圖語音指令操作節(jié)點)。語音識別和語義理解是一門新興邊緣學科,內(nèi)容涉及語言學、心理學、邏輯學、聲學、數(shù)學和計算機科學。綜合應(yīng)用現(xiàn)代語音學、音系學語法學、語義學、語用學的知識,實現(xiàn)人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。隨著人類對人機交互語言的不斷探求,以及大數(shù)據(jù)技術(shù)的不斷發(fā)展,人們在語音識別,語音理解的道路上,通過不斷的語言重復訓練,如今已經(jīng)取得一定成果。
智能電視語音業(yè)務(wù):智能語音支持一些通用業(yè)務(wù)和垂直領(lǐng)域定制業(yè)務(wù),根據(jù)實際產(chǎn)品需求設(shè)計,諸如在線視頻點播、菜單操作、智能家居控制,購物、聊天、知識百科、天氣查詢、路況查詢、視頻搜索、音樂搜索等等,這些功能可以集中在液晶電視這個大屏入口上實現(xiàn)。智能電視項目可以搭載遠場語音功能來實現(xiàn)以上業(yè)務(wù)功能,提高用戶體驗,給予用戶更好的便利性。智能語音業(yè)務(wù)需要語音廠商的內(nèi)容生態(tài)支撐,語音識別、語義理解代表性廠商主要有主要廠商:科大訊飛、百度度秘、云知聲、思必馳、捷通華聲、騰訊叮當。
智能電視遠場語音功能的設(shè)計形態(tài)構(gòu)建:電視產(chǎn)品遠場語音方案的選擇,依據(jù)產(chǎn)品定位,結(jié)合成本和開發(fā)周期,可采用以下3種形態(tài)設(shè)計(如圖4所示)。
圖4
1.USB端口接入遠場語音功能模塊,可固定在機器上或采用延長的數(shù)據(jù)線外接,將功能模塊做成音箱或者擺設(shè)置于電視柜等。此設(shè)計可以由用戶在購買時自行根據(jù)喜好購買。
2.遠場語音模塊集成在電視機芯板內(nèi),猶如筆記本電腦攝像頭一般,簡潔,美觀,大方。
3.遠場語音模塊做成無線音箱,或集成在無線遙控器等。通過Wifi、藍牙或者RF 2.4 G通訊等方式完成聲音信號的傳遞,此設(shè)計能夠給人以無限自由,時尚感。
電視有了遠場語音,就可無論在客廳的任何位置,不用遙控器與電視對話,它都會給你快速的回應(yīng)。由遠場語音搭載對話式人工智能操作系統(tǒng),基于語音識別、自然語言處理、機器學習、大數(shù)據(jù)等技術(shù),借助強大的云端能力,為用戶提供便捷、精準的語音交互體驗,實現(xiàn)各種功能業(yè)務(wù)、信息等邊看邊查功能。遇看電視過程中的隨時突發(fā)需求,用戶不需要起身尋找遙控器,只要對話就可以解決需求,提供完美的體驗。
隨著技術(shù)的不斷發(fā)展,語音生態(tài)內(nèi)容商會得到進一步的提高,業(yè)務(wù)擴大,資源的付費門檻將會越來越能夠讓更多智能液晶電視商所接受,智能電視用戶隨意動動嘴,說幾句話,就可以完成自己想要的操作,是未來發(fā)展的一個大方向。
[1]董永貴.微型傳感器[M].清華大學出版社,2007.
[2][美]M. Tim Jones著.人工智能.2009.
[3]朱福喜,杜友福,夏定純主編.人工智能引論.2006.