亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)說聲音:計(jì)算機(jī)聲音處理和數(shù)值計(jì)算

        2021-08-28 10:18:00于方軍梁永
        中國信息技術(shù)教育 2021年15期
        關(guān)鍵詞:文件夾開源拼音

        于方軍 梁永

        聲音是人類交流信息的一種重要方式,計(jì)算機(jī)對聲音信息的處理和圖像信息處理同樣是信息技術(shù)教學(xué)中涉及的重要內(nèi)容。常用的聲音編輯軟件可以調(diào)整音量,改變音調(diào),進(jìn)行聲音混音等操作。本文用Python代碼,通過讀取計(jì)算機(jī)里的一段WAV格式音頻文件,改變采樣頻率,觀察聲音播放速度及音調(diào)變化等,幫助學(xué)生理解聲音編輯的背后是一系列復(fù)雜的數(shù)學(xué)運(yùn)算。在此基礎(chǔ)上,用開源的離線語音識別CMUSphinx系統(tǒng),實(shí)現(xiàn)一個(gè)基于本地語音模型的聲音識別,結(jié)合開源硬件實(shí)現(xiàn)簡單的硬件控制實(shí)驗(yàn),讓學(xué)生通過實(shí)驗(yàn)來體驗(yàn)語音識別背后的數(shù)據(jù)特征提取。

        首先,選擇圖形化編程里面的小貓叫聲音文件Meow.wav進(jìn)行編輯,圖1是聲音文件的波形及圖形化編程所提供的簡單編輯工具界面,下面的幾個(gè)按鈕可以實(shí)現(xiàn)快速播放、慢速播放,響亮、輕柔等播放效果,筆者帶領(lǐng)學(xué)生從數(shù)據(jù)處理的角度研究一下這些效果是如何實(shí)現(xiàn)的。

        ● 改變采樣點(diǎn)數(shù)值:觀察聲音變化

        WAV格式的文件是由44個(gè)字節(jié)的文件頭(包括聲道數(shù)、量化位數(shù)、采樣頻率、采樣點(diǎn)數(shù)等信息)和后面的音頻采樣數(shù)據(jù)組成。因此,通過數(shù)學(xué)計(jì)算把采樣數(shù)值改變,就能改變聲音的音量值,實(shí)現(xiàn)“響亮”“輕柔”兩個(gè)按鈕的效果,進(jìn)而讓學(xué)生理解這些按鈕背后的代碼,如圖2所示。

        圖2中的代碼,讀取了Moew.wav的值,通過輸出數(shù)據(jù)可以發(fā)現(xiàn),它是一個(gè)單聲道,采樣頻率為11025hz,后面的數(shù)組是每個(gè)采樣點(diǎn)的縱坐標(biāo)數(shù)值[33,21,-34,...,-30,40,-229],改變后邊采樣點(diǎn)的數(shù)組值,如圖2代碼中的yuan[1]*2,把每個(gè)采樣點(diǎn)的縱坐標(biāo)值變?yōu)樵瓉淼?倍,即變?yōu)閇66,42,-68,...,-60, 80,-458]。重寫一個(gè)文件,如gai.wav文件,用播放器播放這個(gè)改變后的文件,就會發(fā)現(xiàn)音量比原來大了。

        ● 改變采樣頻率:觀察聲音變化

        圖1中的“快播”“慢播”按鈕的功能,可以通過改變WAV文件的采樣頻率來實(shí)現(xiàn),采樣頻率是每秒鐘采樣的次數(shù),Meow.wav采樣頻率是11025hz,說明它一秒鐘可以采集11025次數(shù)據(jù),這個(gè)文件的采樣點(diǎn)數(shù)是6512,用采樣數(shù)據(jù)點(diǎn)數(shù)除以采樣頻率,得到聲音播放時(shí)長大約是0.59秒(6512/11025=0.5906)。在播放時(shí),如果把采樣頻率設(shè)為原來的二倍——22050,理論上播放時(shí)間就會變?yōu)樵瓉淼囊话?,也就是以原?倍速度播放。

        圖3代碼中首先定義一個(gè)變量beisu設(shè)置其初始值為2,讀取Meow.wav文件的采樣頻率fr是11025,倍速播放時(shí)頻率bfr設(shè)置為fr*beisu,用pyaudio播放時(shí),就可以獲得倍速效果。

        ● 從計(jì)算機(jī)的視角看語音識別

        從物理學(xué)的角度來說,語音是一個(gè)連續(xù)的音頻流,一個(gè)單詞的發(fā)聲實(shí)際上取決于很多因素,如聲音要素的上下文關(guān)系、說話者語音風(fēng)格等;從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性是漸變的,所以我們需要根據(jù)上下文來辨別音素。

        通過計(jì)算機(jī)進(jìn)行的語音識別,就是把語音信號經(jīng)過前期處理(包括降噪、語音增強(qiáng)、人聲檢測等)后,進(jìn)行提取特征,送入解碼模塊,進(jìn)行解析得到識別結(jié)果。傳統(tǒng)的語音識別的一般框架包含幾個(gè)部分——聲學(xué)模型、語言模型、拼音字典等,如圖4所示。

        ● 用Sphinx做一個(gè)離線語音識別

        CMU Sphinx(簡稱Sphinx)是美國卡內(nèi)基梅隆大學(xué)開發(fā)的一系列語音識別系統(tǒng)的總稱。筆者在這里使用的是recognize_sphinx語音識別器,結(jié)合安裝pocketsphinx庫可以進(jìn)行離線語音識別工作,SpeechRecognition可以識別WAV格式的文件,結(jié)合中文聲學(xué)模型、語言模型和字典文件可以進(jìn)行中文識別。

        下載cmusphinx-zh-cn-5.2.tar.gz并解壓,在pocketsphinx安裝位置找到pocketsphinx-data文件夾,并新建中文識別文件夾zh-CN,在這個(gè)文件夾中添加進(jìn)入剛剛解壓的文件,并把解壓出來的zh_cn.cd_cont_5000文件夾重命名為acoustic-model、zh_cn.lm.bin命名為language-model.lm.bin、zh_cn.dic命名為pronounciation-dictiongary.dict(如圖5)。

        配置完成后,就可以嘗試進(jìn)行中文識別,如說出“打開一號燈”,智能系統(tǒng)需要理解“打開”“一號燈”這兩個(gè)詞的意思,它實(shí)際上是一個(gè)波形文件,對漢語來說就是一個(gè)字的發(fā)音,智能系統(tǒng)接收到一個(gè)“打”字的語音波形,通過復(fù)雜的數(shù)學(xué)模型和計(jì)算后,用數(shù)學(xué)方式提取其特征,并用數(shù)學(xué)模型去描述這些特征,這樣“打”字的語音波形中的一幀就對應(yīng)了一組特征值,那么就確定“打”字的聲學(xué)模型建立了。如果說出的句子有10個(gè)字,那就要搜索所有可能的模型去匹配語音,這就需要一個(gè)比較優(yōu)秀的搜索算法,得到局部的最優(yōu)解。但是,有許多字發(fā)音是一樣的,如“打”“答”“搭”……。從聲學(xué)模型來看系統(tǒng)是無法區(qū)分的,這就需要語言模型了,即從語義上判斷哪個(gè)結(jié)果出現(xiàn)的概率最大,即為搜索結(jié)果,這樣就可以約束搜索,增加識別的準(zhǔn)確率了。

        試驗(yàn)后,筆者發(fā)現(xiàn)識別效果一般,主要是語言模型、拼音字典比較大,不具體。因而,筆者選擇了對開源硬件的控制,限制到小范圍的具體詞,從而提高準(zhǔn)確性。CMU Sphinx提供了一個(gè)在線的語言模型(lm)生成工具(在http://www.speech.cs.cmu.edu/tools/lmtool-new.html),幫助使用者生成自己的小詞匯量的語言模型、拼音詞典,如圖6所示。用生成的.lm和.dct文件替換zh-CN文件夾中的兩個(gè)文件即可。

        經(jīng)過改進(jìn)后,筆者用測試文件測試后發(fā)現(xiàn),只要是語言模型、拼音字典里的詞都能準(zhǔn)確識別出來,如圖7所示。

        ● 用開源硬件做個(gè)智能語音控制

        結(jié)合開源硬件,可以實(shí)現(xiàn)簡單的語音控制,我們選用arduino板,用pinpong庫進(jìn)行硬件控制,實(shí)現(xiàn)一個(gè)語音控制案例,正確安裝好pinpong庫,定義好輸出腳,識別的字符中包含“一號”“開”兩個(gè)詞,就開一號燈,如此類推(如圖8)。

        我們還可以通過添加一個(gè)pyttsx3庫,把文字轉(zhuǎn)換為聲音播放,做一個(gè)簡單的應(yīng)答系統(tǒng),實(shí)現(xiàn)一個(gè)語音助手功能,如圖9所示。

        通過實(shí)踐,筆者發(fā)現(xiàn)聲音識別是個(gè)復(fù)雜的過程,既包含對聲音進(jìn)行降噪、加強(qiáng)、分頻等預(yù)處理,來增強(qiáng)聲音的識別效果,也包括復(fù)雜的數(shù)學(xué)算法,以及模型訓(xùn)練、搜索算法。理解了這些過程,就會更好地理解基于計(jì)算機(jī)技術(shù)的人工智能是如何感知聲音信息并做出反應(yīng)的。

        猜你喜歡
        文件夾開源拼音
        磁力文件夾
        五毛錢能買多少頭牛
        調(diào)動右鍵 解決文件夾管理三大難題
        大家說:開源、人工智能及創(chuàng)新
        開源中國開源世界高峰論壇圓桌會議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
        開源計(jì)算機(jī)輔助翻譯工具研究
        快樂拼音
        TC一鍵直達(dá)常用文件夾
        電腦迷(2015年1期)2015-04-29 21:24:13
        快樂拼音
        快樂拼音
        婷婷开心五月亚洲综合| 精品久久久久久久久午夜福利| 国产哟交泬泬视频在线播放| 国产一区二区三区经典| 亚洲日本国产精品久久| 麻豆精品国产精华精华液好用吗| 亚洲国产精品自拍一区| 最新国产av网址大全| 久久久免费看少妇高潮| 日韩精品久久久肉伦网站| 99国产精品视频无码免费| 日韩精品成人一区二区三区久久久 | 与漂亮的女邻居少妇好爽| 国产日产综合| 超91精品手机国产在线| 超短裙老师在线观看一区| 黄片视频免费在线观看国产| 玩弄放荡人妻少妇系列| 香蕉国产人午夜视频在线观看| 91羞射短视频在线观看| 男人扒开女人双腿猛进视频| 成人亚洲性情网站www在线观看| 无码熟妇人妻AV不卡| 天堂网日韩av在线播放一区| 人妻少妇偷人精品无码| 亚洲久无码中文字幕热| 国内偷拍第一视频第一视频区| 揄拍成人国产精品视频| 亚洲中文字幕无码一区| 九月色婷婷免费| 91成人自拍在线观看| 曰韩人妻无码一区二区三区综合部| 亚洲色大成在线观看| 免费蜜桃视频在线观看| 亚洲高清乱码午夜电影网| 久久香蕉国产线看观看网| 中文天堂一区二区三区| 亚无码乱人伦一区二区| 一本大道东京热无码| 激情内射亚洲一区二区| 日本道免费一区二区三区日韩精品|