林楊
內(nèi)蒙古大學(xué)外國語學(xué)院,內(nèi)蒙古呼和浩特010021
基于特征提取算法的輔助機器翻譯系統(tǒng)設(shè)計與開發(fā)
林楊
內(nèi)蒙古大學(xué)外國語學(xué)院,內(nèi)蒙古呼和浩特010021
隨著電子信息技術(shù)的發(fā)展,如何準確、高效、快捷的將數(shù)據(jù)分類,已成為當前的熱點問題。本文設(shè)計了一種基于x2統(tǒng)計算法和規(guī)則判斷方法相結(jié)合的多特征提取方法,利用該多特征提取算法生成特征詞集,采用TF-IDF頻率算法生成文本特征向量,使用支持向量機(SVM)分類器模型進行文本分類。并且為分類系統(tǒng)設(shè)計了相應(yīng)的調(diào)用接口,保證了該分類模塊的可用性。同時還設(shè)計了分類詞庫,保存各個類別的獨有特征詞,用于優(yōu)先判斷待分類文件的類別。
特征提取;翻譯系統(tǒng);設(shè)計
隨著電子信息技術(shù)的發(fā)展,越來越多的人開始接觸網(wǎng)絡(luò),從網(wǎng)上獲取和交流各種信息。隨之而來的,就是對海量數(shù)據(jù)的處理。如何準確高效的從大量數(shù)據(jù)中找到我們關(guān)心的信息已成為當前自然語言處理領(lǐng)域的一大機遇和挑戰(zhàn)[1]。對于文本信息,傳統(tǒng)的人工分類方法不但耗費大量的人力和時間,而且不同人的標準不同,分類結(jié)果一致性低。自動文本分類技術(shù)可以幫助人們更高效的實現(xiàn)文本分類,提高了文本分類的實用性[2]。因此,對于文本分類技術(shù)的研究,具有重要意義。
1.1 架構(gòu)設(shè)計
整個文本分類系統(tǒng)的架構(gòu)設(shè)計如下圖1所示,對于接口層,用戶可通過圖形界面進行文本分類;實現(xiàn)層完成了整個文本分類系統(tǒng)的各個流程的算法及程序設(shè)計,以及內(nèi)存數(shù)據(jù)存儲結(jié)構(gòu)設(shè)計,并為接口層提供了各個功能的調(diào)用接口;數(shù)據(jù)層為實現(xiàn)層和接口層提供數(shù)據(jù)支持,通過文件的讀寫對數(shù)據(jù)層數(shù)據(jù)進行操作。
圖2 改進后的各特征詞集獲取算法分類準確率Fig.2 Improved classification accuracy of each feature word set
1.2 特征提取設(shè)計及改進
1.2.1 構(gòu)造數(shù)據(jù)結(jié)構(gòu)對于語料的處理,不但要獲取到各個類別中的文件信息,還要保存詞的信息。因此通過鏈表進行存儲[3]。對于每個類別中詞信息的存儲,采用二維鏈表。通過定義Head頭結(jié)點,然后通過讀取文件,依次保存語料各類別中的詞信息,便于后續(xù)計算,對于每個類別中文件信息的存儲,同樣采用二維鏈表。通過定義File head頭結(jié)點,然后通過讀取文件,依次保存語料各類別中的文件信息,便于后續(xù)計算。
1.2.2 結(jié)果分析實驗得到各個特征提取算法的結(jié)果文件后,統(tǒng)計得到各個特征詞集獲取算法的判斷結(jié)果中屬于各類別的文章數(shù),通過對準確率、召回率、精確率[4]的計算,得到各算法的文本分類效果如下表1所示。
表1 各特征詞集獲取算法的準確率、召回率、精確率Table 1Accuracy rate,recall rate and precision rate of each feature word set
通過表中各個特征集獲取算法的分類結(jié)果可以看出,DF和x2統(tǒng)計算法的分類準確率和精確率相對較高,但分析算法可知,DF算法不能有效的去除不同類別中的共用詞,這往往會導(dǎo)致一些不能用來區(qū)分類別的“常用詞”被選為特征詞,使得分類結(jié)果不準確。并且DF算法對小語料集的分類效果好,但對大語料集的分類效果較差。因此,對于該系統(tǒng)而言,決定使用x2統(tǒng)計算法作為最終的特征詞集獲取算法。
1.2.3 算法改進分析系統(tǒng)生成的特征詞集文件可以看出,得到的特征詞集中包含了大量的無用詞,同時,經(jīng)查看發(fā)現(xiàn),除漢字外,其他字符都需要考慮半碼和全碼兩種形態(tài)。在使用x2統(tǒng)計算法得到每個詞的開方值并排序后,在函數(shù)Get FE()中添加了規(guī)則判斷,通過規(guī)則,對這些詞進行篩選,然后再取每個類別的最多前1000個詞,生成相應(yīng)的特征詞集[5]。分析改進的特征詞集獲取方法獲得的結(jié)果文件,并計算各個算法的分類準確率,得到分類效果如下圖2所示。通過上述實驗,擬采用基于x2統(tǒng)計算法和規(guī)則判斷方法相結(jié)合的多特征提取方法,來獲取特征詞集。
1.2.4 本系統(tǒng)的特征提取方法基于x2統(tǒng)計算法和規(guī)則判斷方法相結(jié)合的多特征提取方法,能夠最大程度的提高系統(tǒng)的分類準確率,因此采用此種方法實現(xiàn)本系統(tǒng)的特征集獲取方法。文本特征向量的生成則采用TF-IDF頻率算法實現(xiàn)[6]。同時,設(shè)計了分類詞庫,保存各個類別的獨有特征詞,用于優(yōu)先判斷測試文件的類別。
1.3 分類器模型設(shè)計
在分類過程中,發(fā)現(xiàn)了一個現(xiàn)象:每個類別都有其獨有的一些特征詞。比如對于測試語料,當“聯(lián)賽”、“射門”等詞在文檔中出現(xiàn)時,該文檔很有可能屬于“體育”類別,而當“航空母艦”、“戰(zhàn)斗機”等詞反復(fù)出現(xiàn)時,該文檔則很有可能屬于“軍事”類別。
針對這種現(xiàn)象,設(shè)計了分類詞庫,保存各個類別的獨有特征詞。通過各個類別的獨有特征詞在測試文件中出現(xiàn)的頻率,優(yōu)先判斷該文件的類別,作為SVM分類方法[7]的補充。
對于一篇輸入文本,經(jīng)過預(yù)處理后,得到去停用詞后的文件。這時,依次統(tǒng)計各個類別分類詞庫中的特征詞在該文檔中出現(xiàn)的次數(shù)。當某一類別滿足公式1時,則直接將該文檔設(shè)為該類別,否則按照SVM結(jié)果進行分類。
式1中,Count(i)表示當前類別分類詞庫中的特征詞在該文檔中出現(xiàn)的次數(shù),Total(N)表示所有類別分類詞庫中的特征詞在該文檔中出現(xiàn)的總次數(shù)。
1.4 界面設(shè)計
為了方便用戶使用操作,使用MFC的Dialog對話框為系統(tǒng)設(shè)計了簡單的用戶界面,方便分類操作。界面內(nèi)容應(yīng)包含四個模塊,分別是路徑選擇模塊、預(yù)處理模塊、分類模塊,以及更改分類結(jié)果模塊。為了方便用戶操作,適應(yīng)分類的操作流程,故從上到下根據(jù)操作流程將界面分成四部分。
當點擊生成文件目錄模塊的“選擇目錄”、訓(xùn)練模塊的“選擇語料”以及測試模塊多測試文件的“選擇語料”時,會彈出文件夾選擇窗口。窗口只有選擇正確的路徑后,確定按鈕才會可點。當點擊生成文件目錄模塊的“選擇目錄”、訓(xùn)練模塊的“選擇語料”以及測試模塊多測試文件的“選擇語料”時,會彈出文件夾選擇窗口,選擇圖中只有選擇正確的路徑后,確定按鈕才會可點。在測試模塊中選擇單測試文件,然后點擊“選擇語料”時,會彈出文本文檔選擇窗口,系統(tǒng)設(shè)定一次只能選擇一個文件。
其中,當依次完成對訓(xùn)練語料的預(yù)處理和生成模型,以及對測試語料的預(yù)處理和分類后,系統(tǒng)在生成文件目錄下生成中間文件,如下圖3所示。
圖3 生成的中間文件Fig.3 The generated mediate files
圖4 分類結(jié)果展示Fig.4 The classification results
通過該系統(tǒng)實現(xiàn)對文件的分類后,分類結(jié)果保存在結(jié)果文件中,同時會在界面上實時顯示出來,如圖4所示。分類結(jié)果會按照文件名和類別相對應(yīng)的形式展示出來,方便用戶的對比查看。如果想更改分類結(jié)果,點擊更改分類,在彈出的“修改分類結(jié)果”對話框中選擇文件和類別,進行結(jié)果更改,如圖5所示。
圖5 修改分類結(jié)果對話框Fig.5 The dialog box to modify the classification results
圖6 系統(tǒng)分類流程圖Fig.6 The process of system classification
“選擇文件”下拉列表中包括了當前進行分類的所有文件名,“選擇類別”下拉列表中包含了所有的預(yù)置類別。系統(tǒng)在對測試語料預(yù)處理時,將語料中的文件名和路徑統(tǒng)一保存在結(jié)果目錄下的Test File Path.txt文件中,將類別預(yù)置文件Category.txt保存在程序運行目錄下,通過文件的讀取操作獲得下拉列表中的數(shù)據(jù)。
2.1 系統(tǒng)流程圖
整個文本分類系統(tǒng)得到了完整的實現(xiàn),用戶可通過界面對文本進行分類操作,也可以通過引用鏈接庫,通過分類接口進行相關(guān)分類操作。最后,給出整個系統(tǒng)的分類運行流程圖,如圖6所示。
2.2 結(jié)果分析
利用系統(tǒng)對語料進行學(xué)習并分類,得到分類結(jié)果后,通過對準確率、召回率、精確率的計算,得到該系統(tǒng)的文本分類效果,結(jié)果如表2所示。從表2中可以看出,最終系統(tǒng)分類的準確率達到了89.58%,精確率為83.19%。從表中可以明顯的發(fā)現(xiàn),分類結(jié)果中類別16(旅游)的分類準確率非常低,三次的平均準確率只有9.23%,從而使得整個系統(tǒng)的分類準確率和精確率相對較低。其次,類別8(財經(jīng))的分類準確率也相對較低,平均只有70.68%。
分析分類結(jié)果文件發(fā)現(xiàn),造成旅游類別和財經(jīng)類別分類結(jié)果不理想的原因是由于訓(xùn)練語料文件中類別重疊造成的。由于語料來源于網(wǎng)頁文件,多數(shù)語料中的內(nèi)容都與IT類別有交集,涉及到了“網(wǎng)頁”、“互聯(lián)網(wǎng)”等一些IT類別中的高頻詞。因此,如果能夠進一步保證語料的質(zhì)量,使得各類別不出現(xiàn)特征詞交叉,采用該系統(tǒng)進行分類的精確率還能得到進一步提升。
表2 系統(tǒng)分類的準確率、召回率、精確率Table 2Accuracy rate,recall rate and precision rate of system classification
本文通過對文本分類各環(huán)節(jié)所需理論的探討和技術(shù)算法的研究,主要完成了以下工作:算法設(shè)計通過實驗對比,設(shè)計了基于x2統(tǒng)計算法和規(guī)則判斷方法相結(jié)合的多特征提取方法,優(yōu)化了特征詞集,有效提高了原單一特征提取算法下文本分類的精確率;分類詞庫分類設(shè)計了分類詞庫,保存各個類別的獨有特征詞;設(shè)計并實現(xiàn)的文本分類系統(tǒng),綜合分類準確率可以達到83.19%,是一種穩(wěn)定性強,效率高,且準確率相對較高的實用型文本分類技術(shù);輔助機器翻譯系統(tǒng)分類接口設(shè)計該系統(tǒng)提供了調(diào)用分類功能的接口,作為輔助翻譯系統(tǒng)的文本分類模塊,保證了程序可應(yīng)用于輔助機器翻譯系統(tǒng)中;分類結(jié)果修改功能程序能夠?qū)Ψ皱e類別的文本進行手工修正,通過相應(yīng)接口,可以更改結(jié)果文件中某一文檔的分類;分類修正功能程序能夠?qū)⒁逊诸惖臏y試語料加入訓(xùn)練語料中,進行重新學(xué)習,對分類模型進行修正。
[1]奉國和.文本分類性能評價研究[J].情報雜志,2011,30(8):66-70
[2]宋淑彩,龐慧,丁學(xué)鈞.GA-SVM算法在文本分類中的應(yīng)用[J].計算機仿真,2011,28(1):222-225
[3]王法波,許信順.文本分類中一種新的特征選擇方法[J].山東大學(xué)學(xué)報:工學(xué)版,2010,40(4):8-11
[4]李新福,趙蕾蕾,何海斌,等.使用Logistic回歸模型進行中文文本分類[J].計算機工程與應(yīng)用,2009,45(14):152-
[5]王雪松,程玉虎,郝名林.一種支持向量機參數(shù)選擇的改進分布估計算法[J].山東大學(xué)學(xué)報:工學(xué)版,2009,39(3):7-10
[6]張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進與應(yīng)用[J].計算機工程,2006,32(19):76-78
[7]王元珍,錢鐵云,馮小年.基于關(guān)聯(lián)規(guī)則挖掘的中文文本自動分類[J].小型微型計算機系統(tǒng),2005,26(8):1380-1383
[8]余俊英,王明文,盛俊.文本分類中的類別信息特征選擇方法[J].山東大學(xué)學(xué)報:理學(xué)版,2006,41(3):10-13
Design and Development of the Auxiliary Machine Translation System Based on Feature ExtractionAlgorithm
LIN Yang
College of Foreign Languages/Inner Mongolia University,Hohhot 010021,China
With the development of electronic information technology,how to classify the data accurately,efficiently and quickly has become a hot issue.In this paper,a multi feature extraction method based on x2statistical algorithm and rule judgment method was designed and implemented the text classification system through using the multi feature extraction algorithm to generate a set of feature words,taking TF-IDF frequency algorithm to generate text feature vectors and using support vector machine(SVM)classifier model to classify text And the corresponding call interface was designed for the classification system, which ensured the engineering availability of the classification module.At the same time,the classified lexicon was designed to save unique feature words in each category for the judgment of priority to be classified document categories.
Feature extraction;translation system;design
TP311.1
A
1000-2324(2016)06-0949-04
2016-06-19
2016-08-18
林楊(1980-),女,廣東新會人,碩士,講師.主要研究方向為翻譯理論與實踐.E-mail:linyangimu@163.com