肖海艷 張丹
摘要:針對化工專業(yè)詞匯學(xué)習(xí)的難度和復(fù)雜性,結(jié)合當(dāng)前的智能算法,提出一種基于B/S的詞匯輔助學(xué)習(xí)系統(tǒng)。為實現(xiàn)該系統(tǒng),主要對詞匯檢索算法進(jìn)行設(shè)計,分別提出基于詞上下文向量相似度匹配和基于CNN+BLSTM的圖像識別方法,并給出系統(tǒng)登錄模塊流程和檢索流程。最后給出部分實現(xiàn)界面,并給出該化工詞匯輔助學(xué)習(xí)系統(tǒng)構(gòu)建心得,以此為化工專業(yè)學(xué)習(xí)與信息化的結(jié)合提供借鑒與參考。
關(guān)鍵詞:相似度匹配;英語輔助學(xué)習(xí);圖像識別
中圖分類號:G64 文獻(xiàn)標(biāo)識碼:A 文章編號:1001-5922(2019)12-0185-04
化工行業(yè)的日益發(fā)展,使得國內(nèi)外化工行業(yè)之間的交流日益頻繁,從而導(dǎo)致對化工領(lǐng)域人才的職業(yè)素養(yǎng)也越來越高。這不僅要求他們具備扎實的化工專業(yè)功底,還要求具備扎實的專業(yè)語言交流功底。但化工領(lǐng)域涉及范圍廣,包含化學(xué)、制藥、材料等各方面專業(yè)詞匯,數(shù)量多,詞匯復(fù)雜。黃微雅(2009)簡單的以醫(yī)藥化工行業(yè)的專業(yè)詞匯為例,提出一個簡單的復(fù)合詞就可能達(dá)到300個以上的單詞。這些專業(yè)詞匯量大,并且詞匯復(fù)雜。而傳統(tǒng)的化工專業(yè)詞匯學(xué)習(xí)采用的是課本、詞典等一些紙質(zhì)資源。這些工具的特點在于只能按照固定的順序?qū)I(yè)詞匯進(jìn)行學(xué)習(xí)。與此同時,隨著現(xiàn)代信息技術(shù)的發(fā)展,研究者開始將計算機(jī)技術(shù)、數(shù)據(jù)挖掘技術(shù)、智能算法等引入詞匯的學(xué)習(xí)中,如王文輝(2017)將相似度算法引入到英語智能問答系統(tǒng)中,并對該系統(tǒng)進(jìn)行了詳細(xì)的設(shè)計;褚喜之(2018)則采用B/S架構(gòu)構(gòu)建了一個英語輔助學(xué)習(xí)系統(tǒng)。但是歸納以往的研究發(fā)現(xiàn),用于化工領(lǐng)域的專業(yè)詞匯輔助學(xué)習(xí)系統(tǒng)相對較少。另外,在專業(yè)詞匯檢索的過程中,針對快速對以往寶貴的化學(xué)圖片進(jìn)行檢索,進(jìn)而提取有效的信息,是提高該輔助學(xué)習(xí)智能化的重要方式。因此,結(jié)合當(dāng)前化工專業(yè)詞匯學(xué)習(xí)的復(fù)雜性,提出一種智能化的化工英語專業(yè)詞匯輔助學(xué)習(xí)系統(tǒng),并對該系統(tǒng)進(jìn)行了詳細(xì)的設(shè)計。
1 系統(tǒng)用例分析
本系統(tǒng)構(gòu)建的目的是為廣大化工專業(yè)學(xué)生提供一個智能化的輔助學(xué)習(xí)工具。為簡化該系統(tǒng)用例角色,更好的理清用戶類型,設(shè)置系統(tǒng)管理員和學(xué)習(xí)者兩類角色;在功能方面,系統(tǒng)主要為用戶提供化工專業(yè)詞匯學(xué)習(xí),同時借助自身構(gòu)建的化工英語專業(yè)語料庫,為用戶提供高效的英文信息檢索服務(wù)。因此,結(jié)合以上的需求,系統(tǒng)不同用例的角色如圖1所示。
2 系統(tǒng)功能模塊設(shè)計
根據(jù)圖1的用例分析看出,用戶分為管理員和普通用戶;在功能方面,主要設(shè)置權(quán)限設(shè)置、語料庫、專業(yè)詞匯學(xué)習(xí)、單詞與語句檢索、輔助測驗等幾個部分。上述五項功能模塊的具體功能組成如圖2所示。
3 高校檢索算法設(shè)計
在本文中,一個重要的特色在于采用智能算法提高專業(yè)詞匯或語句的檢索效率,以此更好的輔助化工類專業(yè)學(xué)生學(xué)習(xí)。而在英文單詞的檢索方面,目前大部分針對單個專業(yè)詞匯單詞和語句的檢索,但是除上述的檢索以外,還存在部分針對的化工英文圖片。對此,針對該問題,本系統(tǒng)設(shè)置2類算法:①提高單詞或語句的檢索效率,提出一種基于相似度計算的匹配方法;②針對化工領(lǐng)域存在的珍貴圖片英文文本,提出一種基于深度學(xué)習(xí)的檢索方法。
3.1基于相似度的詞匯匹配
在化工領(lǐng)域中,要更好的輔助學(xué)生進(jìn)行專業(yè)詞匯查詢,就需要通過一個詞匯引申出多個詞匯。如上述的化工詞匯特點中,一個詞綴可引申出多個詞匯。對此,在檢索中,本文引入基于詞上下文向量的相似度計算方法。具體步驟分為兩步。
3.1.1詞向量生成
在該步驟中,以一關(guān)鍵詞作為中心,對訓(xùn)練集內(nèi)該關(guān)鍵詞的上下文詞語進(jìn)行統(tǒng)計,得到該關(guān)鍵詞的上下文向量,最終得到向量矩陣TCV[n][n]。
3.1.2相似度計算
在以上向量矩陣的基礎(chǔ)上,計算兩詞語的相似度。具體步驟為:對任意給定的兩詞語,分別從向量矩陣中提取各自對應(yīng)的上下文向量,然后計算兩向量的余弦系數(shù),即相似度值。具體計算公式為:
其中,Sim表示下三角矩陣,i≥j;Sim[i][j]表示為詞語ti和tj的相似度,TCV[i]、TCV[j]分別表示為詞語ti和tj的上下文向量,TCV[i][k]、TCV[j][k]為詞上下文向量的第k維權(quán)值。
3.2圖片檢索識別
同時為進(jìn)一步提高該輔助學(xué)習(xí)系統(tǒng)在詞匯學(xué)習(xí)的作用,并且更好的提高對化工手稿材料的應(yīng)用,提出一種基于手稿圖片文字快速檢索算法,以此能夠讓用戶通過圖片即可檢索到所需要的相關(guān)化學(xué)材料圖片。研究認(rèn)為,傳統(tǒng)的圖像識別是采用圖像分割,然后在進(jìn)行匹配。這種檢索會耗費大量的時間,同時也影響檢索效率。為改變這個問題,本文則借鑒潘煒深的研究成果,采用CNN+BLSTM結(jié)合的方式對手稿英文圖片進(jìn)行識別。具體識別模型如圖3所示。
在該思路中,采用CNN對文本行的圖像時序特征進(jìn)行提取;然后采用BLSTM對英文單詞進(jìn)行識別;第三步則是采用最大似然函數(shù)對目標(biāo)函數(shù)進(jìn)行相關(guān)的優(yōu)化;最后則是輸出識別匹配結(jié)果。
4 系統(tǒng)部分功能實現(xiàn)
4.1系統(tǒng)安裝部署
為實現(xiàn)上述的輔助學(xué)習(xí)系統(tǒng),分別安裝JDK、Tom-cat、Oracle 10g。在安裝完成后,啟動數(shù)據(jù)庫服務(wù),并將初始化數(shù)據(jù)庫文件導(dǎo)入。將開發(fā)的相關(guān)應(yīng)用程序以war包的方式導(dǎo)入到應(yīng)用服務(wù)器中;打開瀏覽器,輸入服務(wù)器的IP地址,點擊回車,進(jìn)而對系統(tǒng)進(jìn)行訪問。
4.2系統(tǒng)登錄模塊實現(xiàn)
登錄模式是該詞匯學(xué)習(xí)系統(tǒng)安全的重要方式。在登錄時,用戶首先輸入用戶名和密碼,然后在輸入用戶名和密碼后,與數(shù)據(jù)庫中的用戶名和密碼比對。而為了提高系統(tǒng)安全,在本輔助學(xué)習(xí)系統(tǒng)中,引入MD5加密算法。具體實現(xiàn)流程如圖4所示。
4.3單詞檢索模塊
在該模塊中,主要包括單詞檢索匹配和圖片識別。其中,單詞檢索主要是通過關(guān)鍵詞檢索,并結(jié)合詞上下文向量實現(xiàn)對部分化工專業(yè)詞匯同義詞的匹配,以方便更多的化工專業(yè)學(xué)生進(jìn)行學(xué)習(xí)。具體流程如圖5所示。
5 系統(tǒng)應(yīng)用效果
通過上述的設(shè)計,可以得到如圖6所示的化工專業(yè)詞匯檢索界面。
6 結(jié)語
通過以上設(shè)計看出,在對化工專業(yè)詞匯輔助學(xué)習(xí)系統(tǒng)設(shè)計后,用戶只需要輸入不熟悉的單詞,即可找到化工詞匯的解釋,大大提高了化工領(lǐng)域?qū)I(yè)詞匯學(xué)習(xí)的便捷性,也凸顯出該系統(tǒng)在化工詞匯學(xué)習(xí)的專業(yè)性,可更好的輔助學(xué)生進(jìn)行化工專業(yè)英語詞匯學(xué)習(xí)。同時,文章也存在一定的局限,只是對單詞檢索進(jìn)行了簡單的實現(xiàn),在圖片識別檢索工作方面,還需進(jìn)行深入的探討。
參考文獻(xiàn)
[1]王文輝,吳敏華,駱力明,等.基于相似度算法的英語智能問答系統(tǒng)設(shè)計與實現(xiàn)[J].計算機(jī)應(yīng)用與軟件,2017,34(06):62-68.
[2]褚喜之.英語學(xué)習(xí)系統(tǒng)設(shè)計研究[J].微型電腦應(yīng)用,2018,34(11):21-24.
[3]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)學(xué)報,2017,40(06):1229-1251.
[4]高學(xué),王有旺.基于CNN和隨機(jī)彈性形變的相似手寫漢字識別[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2014,42(01):72-76+83.
[5]張昭旭.CNN深度學(xué)習(xí)模型用于表情特征提取方法探究[J].現(xiàn)代計算機(jī)(專業(yè)版),2016(03):41-44.
[6]楊斌,鐘金英.卷積神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展綜述[J].南華大學(xué)學(xué)報(自然科學(xué)版),2016,30(03):66-72.
[7]林秀恒,吳虹.關(guān)于“說”的詞匯使用特色的研究——基于CNN與China Daily政治新聞?wù)Z料庫[J].海外英語,2015 ,9(07):191-193+196.
[8]余本功,張連彬.基于CP-CNN的中文短文本分類研究[J].計算機(jī)應(yīng)用研究,2018,8(04):1001-1004.
[9]買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,等.基于BiLSTM-CNN-CRF模型的維吾爾文命名實體識別[J].計算機(jī)工程,2018,44(08):230-236.
[10]王毅,謝娟,成穎.結(jié)合LSTM和CNN混合架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)語言模型[J].情報學(xué)報,2018,37(02):194-205.
[11]潘煒深,基于深度學(xué)習(xí)的手寫英文單詞檢索算法研究及其在歷史文本上的應(yīng)用[D].廣州:華南理工大學(xué),2016.