亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺析家庭智能音箱中的語音識別技術

2019-03-12 22:36:56胡益愷

科技傳播 2019年4期

胡益愷

摘要隨著人們對于居家生活質量要求的逐漸提高，各種智能家居產(chǎn)品走進了人們的生活，其中智能音箱就是最為典型的一種。智能音箱的核心技術是語音識別技術，語義識別技術的目的是模擬人與人之間對話，使機器通過邏輯運算理解自然語言。文章以家庭智能音箱中語音識別技術為主要內容，簡析語音識別中重要的流程和技術，敘述了語音識別目前的缺陷和改進方向。

關鍵詞智能音箱；語音識別；自然語言

中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708（2019）229-0123-02

1 智能音箱介紹

1.1智能音箱

智能音箱是現(xiàn)代科技產(chǎn)物，是基于語音識別技術的音箱的衍生物。智能音箱在家庭用途十分廣泛，涉及生活許多方面，可以說智能音箱已經(jīng)進入日常生活。智能音箱有多種功能，基本滿足了人們日常生活服務。目前的家庭智能音箱可以實現(xiàn)設置鬧鐘，點播音樂等功能，鏈接網(wǎng)絡后可實現(xiàn)了解未來天氣、上網(wǎng)購物、打電話等功能，另外可以連接第三方軟件，也可實現(xiàn)對家用智能電器的控制，而智能服務僅需說一句話即可實現(xiàn)叫外賣、叫服務、打車、訂餐等多種功能。對于不同年齡段的人，智能音箱也可以通過設置不同模式來實現(xiàn)較為人性化的回答，例如，小度智能音箱中兒童模式下語氣會更加親切，讓兒童更有親？切感。

1.2典型智能音箱

目前大多數(shù)互聯(lián)網(wǎng)企業(yè)都有推出自己的智能音箱，這使得智能音箱市場越來越大，競爭越來越激烈?，F(xiàn)在的智能音箱在外觀上并無太大區(qū)別，所以用戶更加注重的是智能音箱本身性能。智能音箱的性能主要從他的語言交互能力，反應速度，準確度來體現(xiàn)。以下是對現(xiàn)在比較火熱的智能音箱的測評（表1）。

為了實現(xiàn)智能音箱的多種功能，智能往往需要多種技術。當用戶發(fā)出的一段語言信號時，智能音箱首先要去接受該信號，這里運用了麥克風列陣技術，一般的音箱內置7～8個麥克風，這使得智能音箱能夠從多個方向正確的接收語音信號以及消除回音和雜音帶來的影響，得到語音信號后需要對信號加工處理使機器“理解”自然語言，則用到自然語言處理和語言識別技術。最后智能音箱所計算出的結果需要重新合成語音信號，這用到了語音合成技術。在這眾多技術中，最核心就是語音識別？技術[ 1 ]。

2 語音識別技術流程

智能音箱中語音識別技術十分復雜，它綜合了心理學，語言學，統(tǒng)計學等多門學科，若要研究語音識別技術，需要從語音識別技術中各個重要步驟入手，這里主要研究其預處理、特征提取、訓練識別3部分，如圖1所示。

2.1 預處理

一段語音信號往往伴隨著環(huán)境雜音，這雜音對語音識別影響巨大。因此首先要去除這些環(huán)境雜音。一段語音信號的頻率基本穩(wěn)定在一個區(qū)間內，通過抗混疊濾波將信號頻譜上的雜音區(qū)段與目標語音信號區(qū)別來并獲得目標信號，同時完成模擬信號向數(shù)字信號的轉變。

另外，由于語音信號中的目標信號功率小，而雜音的功率大，雜音占了輸入的大部分區(qū)域。由此，對目標信號進行預加重處理來提高目標信號的能量。根本上說是提高振幅，方便區(qū)分？雜音。

端點檢測也是預處理中重要的一部分。環(huán)境雜音任何時候都存在，而語音信號只存在一段，端點檢測旨在確定語音信號的起始位置，避免非語音時段噪音混入。短時平均幅度與短時平均過零率是兩種端點檢測常用方法。

另外，目前語音識別軟件分為兩種模式，一種是手動截取語音，例如蘋果手機中的Siri，用戶需按住特定按鍵完成語音信號的采集。另一種是自動截取語音，市場大多數(shù)智能音箱都采取這種模式，但精度相對較差，一般都是用戶輸入特定的語音信號后才開始語音采集，例如使用小愛同學時，命令格式是“小愛同學+你提出的問題”總體上講，預處理部分的目的是消除雜音，為后面計算機理解自然語言奠定基礎[2]。

2.2 特征提取

采集到語音信號后做的第一個步驟就是特征提取，它將一段語音信號分為多個區(qū)段，并將其中含有實際意義的特征參數(shù)提取出來，并加以統(tǒng)計。這一段特征提取就可以代表這一段信號了，因為舍去不必要的區(qū)段，特征提取也是一種數(shù)據(jù)壓縮，這一定程度上可以簡化之后的計算。特征提取是建立在隱馬爾科夫模型上，該模型中含有不可見的未知參數(shù)，特征提取中這些未知參數(shù)指信號中所含有的語義，但語義很大影響語音信號，所以通過語音信號的變化逆向推測不可見的語義并非不？可能。

2.3 訓練及識別

目前智能音箱中語音識別精度高，但這是依靠大量數(shù)據(jù)與訓練才完成的。訓練識別網(wǎng)絡相當于訓練計算機，而每一位用戶都相當于一位訓練師，大量的訓練和統(tǒng)計后計算會得出令用戶普遍滿意的答案。這樣，計算機無需真正理解自然語言也可以完成人與機器之間的正常交互。

深度學習是訓練識別網(wǎng)絡中重要的一部分，它是人工智能自我學習的關鍵。深度學習一大特點就是多層次運算，多層次處理信息。深度學習中每一層所得到的結果將作為下一層的輸入使用，這樣就達到了“深度”的效果。但在實際運用中，這還需要對深度學習的層數(shù)進行把控，如果層數(shù)不足，人工智能自我學習效果會差，但層數(shù)過多會導致計算繁瑣并且效率低下。深度學習在語音識別中主要是學習語音信號的特征，之后需要與訓練識別網(wǎng)絡的數(shù)據(jù)比較最后得出計算？結果。

3 語音識別技術的未來

3.1 現(xiàn)階段缺陷

雖然語音識別技術已廣泛應用，但其還存在許多缺陷，主要為以下幾點。

1）自然語言的不確定性。自然語言由語義，語境等組成。因此自然語言有很大的不確定性?，F(xiàn)有的人工智能基本是自上而下的人工智能，也就是說程序員先制定好計算機理解語言的規(guī)則才理解自然語言。一旦程序員編程出現(xiàn)缺陷，那會導致計算機對自然語言的誤解。雖然將所有語法規(guī)則寫入程序中也許能讓計算機理解語言但語法規(guī)則眾多，將這些規(guī)則全部寫入程序中幾乎不可能？實現(xiàn)。

另外，自然語言信息量大，在不同情景下，一個詞語可能成褒義，可能是貶義，并且上下句對一個句子實際意義影響巨大，例如“幫忙下?！边@句話省略了主語和賓語。但如果有前后句做鋪墊，那這句話對人并不難理解。但是應用語音識別，那么機器將不能理解特殊句子，自然語言的不確定性很大阻礙了語音識別的？進步[3]。

2）環(huán)境干擾。公共場合中的環(huán)境雜音和噪音對識別影響巨大，在這種環(huán)境中計算器很難接受到合適的語音信號，這很大地限制了語音識別的使用范圍。

3）讀音不標準問題?，F(xiàn)在的詞匯數(shù)量逐漸增加，讀音相似是正常的事，但機器很難區(qū)別這種讀音。特別是一些字詞會連帶這上個字詞讀音，如果語速果快，計算機也很難識別[4]。

3.2 改進方向

綜上所述，本文認為語音識別的重要改進方向如下。

1）針對專一領域。自然語言十分復雜，因此想要建立全面的語音識別是十分困難，但通過研究發(fā)現(xiàn)，某些詞匯在特定的領域出現(xiàn)頻率十分之高，而且相對固定。所以通過建立某個專一領域建立語音識別系統(tǒng)是目前實用性和價值都相對較高的方法，最后將各個語音識別系統(tǒng)結合在一起，以建立相對完備的系統(tǒng)。

2）動態(tài)語義分析。目前的語音識別僅僅特定的一句話進行分析，而無法聯(lián)系用戶前后之間的問題進行動態(tài)分析。未來的語音識別能在與用戶問答過程中不同語境，實現(xiàn)新的分析，并預測語音信號中所含的語義。這樣的改進可以使計算機從語言的接受方真正成為語言使用方，使人機之間的交流更加的？自然。

4 結論

現(xiàn)在的語言識別技術尚未完全，但以語音識別技術為核心的智能音箱是足夠滿足人們的需求的。各項技術的不斷完善和人們對智能產(chǎn)品日益增長的需求為語音識別技術的發(fā)展指明了方向，由于市場擴大，各個企業(yè)勢必會加快對于語音識別的競爭，從而加快語音識別技術的發(fā)展。在迭代更新中，智能音箱會更加注重用戶的體驗，成為家庭生活中必不可少的重要設備。

參考文獻

[1]陳龍，江波.基于語音控制的WiFi智能插座系統(tǒng)[J].智慧工廠，2017（4）：82-83.

[2]加日拉·買買提熱衣木，常芙蓉，劉晨，等.基于自然語言處理的主題模型及其發(fā)展分析[J].信息與電腦（理論版），2017（24）：42-44.

[3]殷杰，董佳蓉.論自然語言處理的發(fā)展趨勢[J].自然辯證法研究，2008，24（3）：31-37.

[4]何婉榕.關于人工智能與語音識別技術的研究[J].科技尚品，2017（3）：182.