趙棟材 周雁
摘 要 電子文本自然語言處理是新時代發(fā)展的產(chǎn)物,在計算機科學領(lǐng)域發(fā)展中占據(jù)重要地位。傳統(tǒng)的電子文本自然語言處理系統(tǒng)花費成本較高,人工投入較大,已經(jīng)不能滿足目前提出的要求。基于深度學習設(shè)計了電子文本自然語言處理系統(tǒng),分別對系統(tǒng)的硬件、軟件進行設(shè)計,硬件部分由數(shù)據(jù)采集器、數(shù)據(jù)合成器和數(shù)據(jù)處理器3部分組成,由SIFT算法實現(xiàn)軟件部分的計算。通過對比實驗證明給出的系統(tǒng)能夠有效處理自然語言,而且工作效率很高,具有很好的發(fā)展前景。
【關(guān)鍵詞】深度學習 電子文本 自然語言 語言處理系統(tǒng)
步入二十一世紀之后,計算機行業(yè)得到迅速發(fā)展,自然語言處理(NLP)是計算機科學領(lǐng)域研究的一個重要方向。在處理自然語言時要運用到語言學、數(shù)字學與計算機學等多個學科,并將其融合到一起進行研究。自然語言是人們在日常生活中應(yīng)用的語言,和語言學緊密相關(guān),但是也不完全相同。具體來說,自然語言處理是一種計算機系統(tǒng),能夠有效實現(xiàn)自然語言通信。綜上所述,本文基于深度學習設(shè)計了電子文本自然語言處理系統(tǒng),分別對系統(tǒng)的硬件、軟件進行設(shè)計,通過實驗驗證了所給系統(tǒng)的可行性。
1 基于深度學習的電子文本自然語言處理系統(tǒng)硬件設(shè)計
基于深度學習對電子文本自然語言處理系統(tǒng)硬件部分進行設(shè)計,硬件由數(shù)據(jù)采集器、數(shù)據(jù)合成器和數(shù)據(jù)處理器3部分組成,系統(tǒng)硬件的功能如下:由數(shù)據(jù)采集器對電子文本的信息進行采集,然后由數(shù)據(jù)合成器篩選出無用信息,合成有用信息,最后利用數(shù)據(jù)處理器處理自然語言信息,至此完成整個自然語言處理過程?;谏疃葘W習的電子文本自然語言處理系統(tǒng)硬件部分總體設(shè)計框架圖如圖1所示。
數(shù)據(jù)采集器的采集芯片為英國Frocdema公司研發(fā)的ROM芯片,通過邏輯總線連接內(nèi)部結(jié)構(gòu),利用A/D、D/A轉(zhuǎn)換器轉(zhuǎn)換數(shù)據(jù)。采集后的數(shù)據(jù)會深入到硬件中,將采集到的信息進行集成處理,利用VHDL執(zhí)行操作命令,大大保證了系統(tǒng)的可靠性。
數(shù)據(jù)合成器選用法國Tnmlced公司研發(fā)的dacem合成器。Tnmlced公司歷經(jīng)五年時間研發(fā)了此款合成器,又經(jīng)過一年的時間試用,雖然是一款新型合成器,但是工作穩(wěn)定性極高,與市面上的其它合成器相比,dacem合成器合成能力至少能夠提高2倍以上。Dacem合成器內(nèi)部擁有12位DSP指令,通過6級整數(shù)流水線去執(zhí)行命令,效率極高。處理器同時具有讀/寫兩個操作部件,共同實現(xiàn)合成工作。
數(shù)據(jù)處理器是自然語言處理系統(tǒng)硬件的核心部分,處理器內(nèi)部選用美國Intel公司研發(fā)的Loihi1547人工智能處理芯片。此款芯片內(nèi)核為2.5V,控制總線工作頻率為72MHZ,支持處理148類自然語言,對語言的處理能力能達到15位,芯片分為運行、休眠和停止三種狀態(tài),工作耗時短,需要的成本很低,在非工作狀態(tài)系統(tǒng)進入休眠模式,不會造成功率的浪費。
2 基于深度學習的電子文本自然語言處理系統(tǒng)軟件設(shè)計
基于SIFT算法對本文提出的電子文本自然語言處理系統(tǒng)進行軟件設(shè)計。在處理自然語言中,處理設(shè)備需要選用鏈路質(zhì)量確定模式,當RSSI達到最大網(wǎng)絡(luò)模式時接入,還要考慮通信場強強度是否均衡。SIFT算法如下所示:
公式(1)中,G(x,y)為高斯函數(shù),計算過程如下:
(x,y)代表自然語言的尺度坐標,σ表示語言類別,尺度不同對應(yīng)的語言精度也不同。由公式可知,當G(x,y)=70時,自然語言處理系統(tǒng)處理能力最強,傳遞速率最高,工作性能最穩(wěn)定
3 實驗研究
為了測試本文設(shè)計的電子文本自然語言處理系統(tǒng)是否具有實際可操作性,與傳統(tǒng)的電子文本自然語言處理系統(tǒng)進行了對比,設(shè)計實驗,實驗參數(shù)如下:電源電壓限定在220V以內(nèi),電源模式為三相四線制,系統(tǒng)最大負載電阻為10Ω,最小負載電阻為5Ω,電感串聯(lián)為20mA,系統(tǒng)工作時長2h。
傳統(tǒng)系統(tǒng)和本文設(shè)定的電子文本自然語言處理系統(tǒng)都能實現(xiàn)自然語言的智能處理,但是本文設(shè)計的系統(tǒng)處理能力始終高于傳統(tǒng)系統(tǒng)。尤其是到后期時,傳統(tǒng)的系統(tǒng)已經(jīng)無法進行語言處理,但是本文設(shè)定的系統(tǒng)工作效率依然極高,工作時不會消耗過多的成本,產(chǎn)生的噪音很小,有效降低工作人員的勞動強度。
4 結(jié)束語
通過本文的探討分析可以了解到傳統(tǒng)的電子文本自然語言處理系統(tǒng)局限性較大,本文基于深度學習設(shè)計的語言系統(tǒng),硬件部分由數(shù)據(jù)采集器、數(shù)據(jù)合成器和數(shù)據(jù)處理器3部分組成,在短時間內(nèi)處理不同類型的語言。利用SIFT算法計算出語言換算頻率,有效實現(xiàn)軟件系統(tǒng)設(shè)計。通過與傳統(tǒng)系統(tǒng)進行對比實驗顯示的結(jié)果可知,本文設(shè)計的系統(tǒng)工作穩(wěn)定性更強,在工作時產(chǎn)生的噪聲更小,消耗成本很低,工作效率高,是未來的必然發(fā)展方向。
參考文獻
[1]任柏青.基于深度學習的智能中文文本檢校方法[J].現(xiàn)代電信科技,2017,47(04):55-58.
[2]崔萌,張春云.基于不同語料的詞向量對比分析[J].蘭州理工大學學報,2017,43(03):112-116.
作者簡介
趙棟材(1976-),男,四川省南充市人。碩士研究生。副教授,碩士生導師。研究方向為自然語言處理。
周雁(1981-),女,廣東省高州市人。碩士研究生。副教授,碩士生導師。研究方向為語音處理、嵌入式系統(tǒng)。
作者單位
西藏大學信息科學技術(shù)學院 西藏自治區(qū)拉薩市 850000