廣州廣電運(yùn)通金融電子股份有限公司 黃峻遠(yuǎn)
隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,人工智能作為科技前沿產(chǎn)品逐漸發(fā)展起來,近年來,由于市場(chǎng)經(jīng)濟(jì)的發(fā)展,人工智能逐漸被應(yīng)用于各個(gè)領(lǐng)域,主要體現(xiàn)在金融設(shè)備、交通設(shè)備領(lǐng)域、便民領(lǐng)域、文化旅游領(lǐng)域等。語音識(shí)別等智能設(shè)備更是受人們所接受,人們開始普遍使用帶語音識(shí)別的設(shè)備,本文就語音技術(shù)的開發(fā)與研究進(jìn)行了詳細(xì)的分析并提出相關(guān)案例。
傳統(tǒng)的人機(jī)交互方式一般通過鼠標(biāo)、鍵盤、觸摸屏、金屬密碼鍵盤或手寫筆等進(jìn)行輸入,并通過顯示器輸出,這些方式都具有或多或少的不方便、不智能。隨著科學(xué)技術(shù)的發(fā)展,語音識(shí)別技術(shù)、語音交互技術(shù)越來越成熟,也更多的應(yīng)用到各個(gè)領(lǐng)域,如:金融領(lǐng)域、家居領(lǐng)域、工業(yè)智造、便民領(lǐng)域等。語音是人們交流情感,思想溝通等較為方便直接的方法,由于其便捷及更貼近人們生活方式,未來語音技術(shù)將成為人們與設(shè)備之間溝通的最主要的手段。目前語音技術(shù)應(yīng)用較為廣泛的如:微軟小冰、米聊、蘋果siri等。本文著重針對(duì)語音技術(shù)進(jìn)行詳細(xì)的分析及研究。語音技術(shù)主要包括語音合成和語音識(shí)別兩項(xiàng)關(guān)鍵技術(shù)。
語音識(shí)別的目的主要是將人們的語音轉(zhuǎn)化成計(jì)算機(jī)能夠處理的數(shù)據(jù),可以認(rèn)為是將聲波通過語音電路板轉(zhuǎn)化成頻波,再轉(zhuǎn)化成計(jì)算機(jī)能夠識(shí)別的二進(jìn)制,從而實(shí)現(xiàn)語音識(shí)別。
語音合成主要是將文字、數(shù)字信息通過計(jì)算機(jī)設(shè)備轉(zhuǎn)化成實(shí)際的語音。
其中TTS稱文字語言轉(zhuǎn)化技術(shù)。語音合成技術(shù)較為成熟,已經(jīng)發(fā)展多年,從語音玩具,手機(jī)語音軟件等發(fā)展起來。
有了語音識(shí)別和語音合成技術(shù),就可以實(shí)現(xiàn)人與機(jī)器的溝通與交流,在此背景下,具備語音技術(shù)的人工智能技術(shù)便應(yīng)運(yùn)而生。因此便有了天貓精靈,小米AI音箱,蘋果siri,OPPO小歐語音助手等交互設(shè)備及軟件。
那么怎么實(shí)現(xiàn)人與機(jī)器之間的語音交互呢,首先需要機(jī)器建立一個(gè)算法庫,在獲取的人的語音時(shí),通過麥克風(fēng)拾音,并轉(zhuǎn)化成文字,然后在庫中查找與該輸入文字相匹配的內(nèi)容。如果匹配成功,則機(jī)器返回需要的回答信息或執(zhí)行相關(guān)操作。如果在本地機(jī)器沒有搜索到對(duì)應(yīng)的內(nèi)容,還可以通過網(wǎng)絡(luò),從網(wǎng)絡(luò)上爬蟲與輸入相關(guān)的信息或者使用開源的API接口得到回答信息。
語音技術(shù)的交互及應(yīng)答,我們分為即時(shí)性問題,一般性問題,控制命令等。
對(duì)于一些問題的回復(fù)不是很固定或者具有實(shí)時(shí)性或者具有時(shí)效性的,常常需要形成即時(shí)性問題算法庫,往往需要機(jī)器自行組織語言。并提供合理的滿足現(xiàn)有情況的回復(fù)。如果該類問題無法再庫上查詢到,可通過算法實(shí)現(xiàn)從網(wǎng)絡(luò)上爬蟲與輸入相關(guān)的信息,并反饋。例如:
問題:今天是幾號(hào)?
回答:今天是“日期查詢”
問題:今天的天氣怎樣?
回答:今天天氣“天氣查詢”。
問題:現(xiàn)在的室內(nèi)溫度是多少?
回答:現(xiàn)在溫度是“溫度查詢”
一般性問題問答庫將我們常見的問題歸類成庫,以問題,回答的形式存在,并建立問題和回答一一對(duì)應(yīng)的關(guān)系,形成標(biāo)簽,便于問題和回答的更改,同時(shí)具備刪減和增加的操作。例如:
問題:你好
回答:你好
問題:你叫什么名字?
回答:我叫小冰
問題:你是女孩還是男孩?
回答:我是女孩的
具體到金融行業(yè)導(dǎo)引機(jī)器人示例如下:
問題:怎么開通手機(jī)銀行?
回答:通過超級(jí)柜臺(tái)插入銀行卡,點(diǎn)擊“手機(jī)銀行業(yè)務(wù)”,進(jìn)去后點(diǎn)擊“開通”即可。
問題:如何申請(qǐng)銀行卡?
回答:通過超級(jí)柜臺(tái)插入身份證,根據(jù)流程申請(qǐng)銀行卡辦理業(yè)務(wù),實(shí)現(xiàn)申辦卡片業(yè)務(wù)。
機(jī)器通過語音接收到控制命令的指令后,是需要執(zhí)行一定的動(dòng)作來完成任務(wù)的,而不是與人進(jìn)行語音交流與溝通。要支持該類庫,需要機(jī)器具備一定的硬件支持。一般可通過步進(jìn)電機(jī),直流電機(jī),閥門,顯示等外設(shè)設(shè)備來支撐。例如:
問題:抬手
回答:“執(zhí)行機(jī)械手往上抬的動(dòng)作”。
問題:先前移動(dòng)
回答:“機(jī)器往前移動(dòng)”
問題:打開閥門
回答:“機(jī)器自動(dòng)打開閥門”
目前行業(yè)內(nèi)有多種語音識(shí)別的電路板及支持語音識(shí)別的云后臺(tái),采用這些成熟產(chǎn)品,開發(fā)者可以根據(jù)實(shí)際應(yīng)用需求開發(fā)出符合用戶需求的產(chǎn)品,簡(jiǎn)單又便捷。這里簡(jiǎn)單介紹兩種類型的語音識(shí)別應(yīng)用,可用于不同領(lǐng)域不同場(chǎng)景:
科大訊飛是專業(yè)從事智能語音及語言技術(shù)研究、軟件及芯片產(chǎn)品開發(fā)的集成化企業(yè)。其產(chǎn)品具備語音定位、拾音、降噪、采集于一體,并具備將語音轉(zhuǎn)化為文字的云計(jì)算語音識(shí)別平臺(tái),同時(shí)具備深度學(xué)習(xí)的能力。
工控機(jī)是基于windows系統(tǒng)平臺(tái),用戶通過科大訊飛陣列麥?zhǔn)耙?,傳送到工控機(jī),工控機(jī)將語音信號(hào)以文件的形式發(fā)送到服務(wù)器,服務(wù)器再使用訊飛云端的語音識(shí)別算法API接口將該語音信號(hào)傳送到訊飛云服務(wù)器,當(dāng)訊飛云服務(wù)器完成語音識(shí)別后,將對(duì)應(yīng)的字符串或文字等信息傳回本地服務(wù)器。服務(wù)器再將信息傳回工控機(jī),工控機(jī)再根據(jù)實(shí)際的應(yīng)用反饋到機(jī)器,并按預(yù)定的算法查找對(duì)應(yīng)的庫,完成一般問題回答或者即時(shí)性問題回答或者執(zhí)行不同的命令完成整個(gè)控制流程。
TI官方的AIC3254低功耗,低電壓立體聲音音頻解碼器,具有可編程輸入,輸出,該音頻解碼器搭配TPA2012音頻放大器,可實(shí)現(xiàn)語音采集功能。具有成本低、集成度高等特點(diǎn)。
用戶通過語音采集卡采集到語音,并通過I2C接口傳送到CC3200,CC3200通過wifi將語音信號(hào)傳送到服務(wù)器,服務(wù)器使用百度AI服務(wù)器提供的語音識(shí)別接口將語音信號(hào)打包送到百度AI服務(wù)器;當(dāng)語音識(shí)別成功后,百度服務(wù)器將識(shí)別的字符串返回到本地服務(wù)器,本地服務(wù)器再通過wi fi將信息發(fā)送到CC3200主控,CC3200主控再根據(jù)實(shí)際的業(yè)務(wù)需要,執(zhí)行相關(guān)的動(dòng)作或者顯示或者調(diào)用其他算法執(zhí)行語音交互內(nèi)容。
2018年是我國人工智能元年,在這幾年的發(fā)展中,涌現(xiàn)了許多以語音識(shí)別技術(shù)、人臉識(shí)別技術(shù)為代表的新型企業(yè),涌現(xiàn)了大批實(shí)用、便利的產(chǎn)品,極大的方便了廣大的人民。本文重點(diǎn)講述了語音識(shí)別技術(shù)、語音合成技術(shù),介紹了其基本的概念和應(yīng)用。后期人工智能的發(fā)展需要社會(huì)各界、企事業(yè)單位、科研單位的開發(fā)人員以創(chuàng)新的思維開發(fā)出更多,更具跨時(shí)代意義的產(chǎn)品。