徐建忠朱俊趙瑞張亮李嬌嬌
(1. 杭州世平信息科技有限公司,杭州 310012;2. 西昌衛(wèi)星發(fā)射中心,文昌 571300;3. 裝甲兵工程學(xué)院,北京 100072)
基于Web技術(shù)的航天文本分類系統(tǒng)研究與應(yīng)用
徐建忠1朱俊2趙瑞3張亮1李嬌嬌1
(1. 杭州世平信息科技有限公司,杭州 310012;2. 西昌衛(wèi)星發(fā)射中心,文昌 571300;3. 裝甲兵工程學(xué)院,北京 100072)
海南發(fā)射場(chǎng)的海量文檔缺乏有效的組織和管理,急需開發(fā)一種快速、有效的方法以實(shí)現(xiàn)文檔的自動(dòng)整理、歸類。針對(duì)這一實(shí)際需求,基于Web技術(shù)和文本分類技術(shù),通過Web服務(wù)器構(gòu)建、訓(xùn)練文本數(shù)據(jù)收集、文本預(yù)處理、文本特征表示和分類模型訓(xùn)練,研發(fā)了一套服務(wù)器—客戶端模式的航天文本分類系統(tǒng)。經(jīng)測(cè)試,該分類系統(tǒng)在測(cè)試數(shù)據(jù)集上的準(zhǔn)確率和召回率均達(dá)到90%以上,具有良好的分類性能。
Web技術(shù),文本分類技術(shù),航天文本,貝葉斯算法建好的分類器對(duì)用戶上傳的待分類文檔自動(dòng)分類,最后向用戶返回分類結(jié)果。
1.1 系統(tǒng)整體架構(gòu)
本文設(shè)計(jì)的航天文本分類系統(tǒng)整體框架如圖1所示。
圖1 航天文本分類系統(tǒng)整體框架
由圖1可以看出,該航天文本分類系統(tǒng)的核心包括分類器訓(xùn)練和用戶文檔分類兩個(gè)階段。在分類器訓(xùn)練階段,系統(tǒng)收集航天領(lǐng)域的文本,并將這些文本按照辦公類文檔和任務(wù)類文檔進(jìn)行人工預(yù)先標(biāo)注,然后對(duì)這些訓(xùn)練文本進(jìn)行文本預(yù)處理、文本特征提取,以構(gòu)建特征向量,最后訓(xùn)練并構(gòu)建文本分類器。在用戶文檔分類階段,系統(tǒng)獲取用戶通過網(wǎng)絡(luò)上傳到服務(wù)器的待分類文檔集,然后對(duì)這些文檔進(jìn)行文本預(yù)處理,分析并比對(duì)其特征向量,最后利用構(gòu)建的分類器完成文本自動(dòng)分類,再向用戶返回分類結(jié)果。此外,研究人員還設(shè)計(jì)了方便用戶上傳文檔和展示文本分類結(jié)果的界面。
1.2 系統(tǒng)實(shí)現(xiàn)
1.2.1 服務(wù)器架構(gòu)和用戶界面設(shè)計(jì)
為了方便用戶上傳待分類文檔數(shù)據(jù)集,該航天文本分類系統(tǒng)設(shè)計(jì)有簡(jiǎn)單的用戶使用界面,如圖2所示。用戶可通過文件上傳頁面,向服務(wù)器上傳doc、docx和pdf格式的文檔。通常,用戶需要分類的文檔比較多,為了加快文檔上傳速度,用戶可以將文檔壓縮成zip格式上傳。當(dāng)待分類文檔分類完成后,服務(wù)器會(huì)以表格形式返回文本分類結(jié)果。另外,該航天文本分類系統(tǒng)還會(huì)將分好類的文本分別放入以類別名稱命名的文件夾中,并壓縮成zip格式供用戶下載。
1.2.2 訓(xùn)練數(shù)據(jù)集
圖2 航天文本分類系統(tǒng)文檔上傳頁面
研究人員從已累積的航天文檔中選擇出83篇文檔,讓從事航天領(lǐng)域工作的技術(shù)人員進(jìn)行人工閱讀標(biāo)注。人工閱讀時(shí),技術(shù)人員根據(jù)自己的經(jīng)驗(yàn),按照任務(wù)類文檔和辦公類文檔對(duì)待分類文檔進(jìn)行類別標(biāo)注。最終的標(biāo)注結(jié)果為:41篇任務(wù)類文檔,42篇辦公類文檔。研究人員以標(biāo)注好的文檔集合作為該航天文本分類系統(tǒng)的訓(xùn)練數(shù)據(jù),用于分類模型的構(gòu)建。
1.2.3 文本預(yù)處理
文本的預(yù)處理主要完成中文分詞、過濾停用詞和常用詞等工作。中文分詞是后續(xù)進(jìn)行特征提取和模型訓(xùn)練的基礎(chǔ),常用的中文分詞方法包括3種:基于統(tǒng)計(jì)的分詞方法[9]、基于詞典的分詞方法[10]和基于AI的分詞方法[11]。另外,該航天文本分類系統(tǒng)還去除了不表達(dá)信息的停用詞和常用詞,如“我們”、“這”、“那些”等。
1.2.4 文本特征提取
該航天文本分類系統(tǒng)采用常用的向量空間模型[12,13]來完成文本的特征向量表示。向量空間模型是將每個(gè)文本d描述成數(shù)值向量特征w(d),(d)=(t1, t2, t3, …, tm),其中,ti(i=1, 2, 3, …, m)表示詞條在文本中的權(quán)重。通過建立文本特征向量,將文本分類轉(zhuǎn)換成對(duì)多維向量分類。
本文選擇常用的TF-IDF特征權(quán)重來表示文本向量。TF-IDF實(shí)際上是TF和IDF的乘積。TF指的是詞頻(term frequency),即詞條t在文檔d中出現(xiàn)的頻率;IDF指的是逆向文件頻率(Inverse document frequency),度量的是詞條t區(qū)分不同文檔類別的能力。
TF的計(jì)算公式為:
其中,ni,j表示詞條ti在文檔dj中的出現(xiàn)次數(shù),而分母則表示文檔dj中所有詞條出現(xiàn)的總次數(shù)。
IDF的計(jì)算公式為:
其中,|D|表示訓(xùn)練集合中的文檔總數(shù),│{j∶ti∈dj}│表示包含詞條ti的文檔數(shù)。
通過上面的計(jì)算處理,可以將每個(gè)文檔通過TF-IDF權(quán)重向量進(jìn)行表示。
1.2.5 分類模型
適用于文本分類的機(jī)器學(xué)習(xí)算法有多種,如樸素貝葉斯算法[14]、決策樹[15]、人工神經(jīng)網(wǎng)[16]、SVM算法[17]等。
本文建立航天文本分類系統(tǒng)的目的是將海量航天文檔按照辦公類文檔和任務(wù)類文檔進(jìn)行分類,是一個(gè)典型的二分類問題,樸素貝葉斯模型具有訓(xùn)練速度快、判斷預(yù)測(cè)準(zhǔn)確等優(yōu)點(diǎn),因此,本文的航天文本分類系統(tǒng)選用了樸素貝葉斯算法,其描述如下:
令C={c1, c2, …, c|c|}為預(yù)先定義的類別集,d={w1, w2, …, wn}表示文檔向量,則可以用P(ci|d)表示文檔d屬于類ci的概率。文檔d將被分類到使P(ci|d)最大的類別ci中。直接估計(jì)P(ci|d)是比較困難的,但根據(jù)貝葉斯公式:
可以通過估算P(d)、P(ci)和P(d|ci),然后將估算出的值代入貝葉斯公式中,計(jì)算出P(ci|d)的估計(jì)值。一般情況下,P(d|ci)的估計(jì)值難以確定,因?yàn)閐是一個(gè)n維向量,n的取值可以很大,所以,d有很多可能值。為了簡(jiǎn)化對(duì)P(d|ci)的估計(jì),樸素貝葉斯模型有一個(gè)簡(jiǎn)單的假設(shè):當(dāng)文檔d屬于類別ci時(shí),向量d中各個(gè)分量取值是相互獨(dú)立的。這樣,文檔d在給定類ci的條件概率就可以表示為:
由于上式中,P(d)對(duì)于任意類別ci都是一樣的,所以,僅需考慮上式中分子的取值,即當(dāng)類別為ci時(shí),分子取最大值,則文檔d屬于ci類。
為了驗(yàn)證該航天文本分類系統(tǒng)的效果,采用其它測(cè)試數(shù)據(jù)集(不包含已用于訓(xùn)練的文檔)對(duì)系統(tǒng)的可靠性進(jìn)行了測(cè)試。測(cè)試數(shù)據(jù)集包含30篇辦公類文檔和30篇任務(wù)類文檔,這些文檔的類別都已經(jīng)過人工驗(yàn)證。另外,對(duì)于文檔分類的評(píng)價(jià)標(biāo)準(zhǔn)指標(biāo)有多種,本文選取準(zhǔn)確率(Precision)和召回率(Recall)兩個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn),其具體表達(dá)式為:
其中,TPc表示真陽性(正確分類成c類的文檔數(shù))、FPc表示假陽性(錯(cuò)誤分類成c類的文檔數(shù))、FNc表示假陰性(屬于c類但分類器并沒將其分到c類的文檔數(shù))。將測(cè)試數(shù)據(jù)集上傳到服務(wù)器進(jìn)行測(cè)試,并對(duì)分類結(jié)果進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果見表1。
從表1可以看出,該航天文本分類系統(tǒng)能夠按照辦公文檔和任務(wù)文檔,準(zhǔn)確地分類航天文檔,準(zhǔn)確率和召回率均達(dá)到90%以上。因此,該航天文本分類系統(tǒng)具有良好的分類效果,能夠滿足航天文本的實(shí)際分類需求。
表1 分類結(jié)果
本文基于Web技術(shù)和文本挖掘技術(shù),構(gòu)建了一套航天文本自動(dòng)分類系統(tǒng)。該航天文本分類系統(tǒng)可以接受用戶上傳的多種格式的待分類文檔,然后自動(dòng)完成分類,最后向用戶返回分類結(jié)果。測(cè)試結(jié)果表明,該航天文本分類系統(tǒng)對(duì)航天文本的分類能夠達(dá)到較高的準(zhǔn)確率和召回率,可基本滿足航天文本分類的實(shí)際需求。
目前,該航天文本分類系統(tǒng)的文本分類功能相對(duì)單一,僅能粗略將航天文本按照任務(wù)類文檔和辦公類文檔分成兩類。在未來的工作中,研究人員將構(gòu)建更為精細(xì)的文本分類模型,進(jìn)一步豐富和完善航天文本分類系統(tǒng)的功能和性能。
1 高潔, 吉根林. 文本分類技術(shù)研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2004, (7)∶ 28~30
2 張浩, 汪楠. 文本分類技術(shù)研究進(jìn)展[J]. 科技信息(科技教研), 2007, (23)∶ 95~96
3 張春燕. 基于自然語言處理的文本分類分析與研究[D]. 江西理工大學(xué), 2011
4 劉冬雪. 文本分類技術(shù)在信息檢索中的應(yīng)用[J]. 科技資訊, 2010, (18)∶ 11
5 郭峰, 徐玉生, 陳曉云, 等. 基于信息提取的面向行業(yè)應(yīng)用文本分類算法[J]. 清華大學(xué)學(xué)報(bào), 2005, 45(S1)∶ 1810~1813
6 胡新海. 數(shù)據(jù)挖掘與決策樹J48算法在文本分類中的應(yīng)用[J]. 甘肅高師學(xué)報(bào), 2015, 5(20)∶ 25~29
7 王歡, 武剛, 楊抒. 基于文本分類的林業(yè)Web黃頁分類系統(tǒng)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2012, (1)∶ 21~24
8 趙月齋. 一種基于詞頻統(tǒng)計(jì)的中文分詞方法[J]. 科技展望, 2016, (10)∶ 280~283
9 周祺. 基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D]. 哈爾濱工業(yè)大學(xué), 2015
10 司志剛, 牛琳, 常朝穩(wěn). 基于SVM的公安情報(bào)自動(dòng)分類系統(tǒng)的研究與設(shè)計(jì)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(28)∶226~229
11 黃昌寧, 趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報(bào), 2007, 21(3)∶ 8~19
12 周洪翠, 莊新妍. 基于向量空間模型的文本信息表示[J]. 呼倫貝爾學(xué)院學(xué)報(bào), 2011, (19)∶ 111~116
13 Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11)∶ 613~620
14 Dumis S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization[C]. Proceedings of the seventh international conference on Information and knowledge management. ACM, 1998∶148~155
15 Baker L D, Mccallum A K. Distributional clustering of words for text classification[C]. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998∶96~103
16 Chickring D M, Heckerman D, Meek C. A Bayesian approach to learning Bayesian networks with local structure[C]. Proceedings of the Thirteenth conference on Uncertainty in artificial intelligence. Morgan Kaufmann Publishers Inc.ACM, 1997∶ 80~89
17 Schutze H, Hull D A, Pedersen J O. A comparison of classifiers and document representations for the routing problem[C]. Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1995∶ 229~237
Research and Application on Aerospace Text Classification System Based on Web Technology
Xu Jianzhong1Zhu Jun2Zhao Rui3Zhang Liang1Li Jiaojiao1
(1. Hangzhou Shiping Information and Technology Co., Ltd, Hangzhou 310012;2. Xichang Satellite Launch Center, Wenchang 571300;3. The Academy of Armored Forces Engineering, Beijing 100072)
Hainan Launch Center has no effective organization and management of massive documents, which is urgent for establishing an effective method to automatically categorize documents. To solve this problem, a serverclient model text classification system has been implemented based on text classification technology and Web technology, through Web construction, text training data preprocessing, feature vectorizing and classification training. Testing results suggest that this classification system has good performances, and both the precision and recall of the data testing are above 90%.
Web technology, Text classification, Aerospace text, Bayes algorithm
1009-8119(2016)12(1)-0048-03
海南發(fā)射場(chǎng)是我國(guó)目前正在進(jìn)行建設(shè)的新一代航天發(fā)射基地,其在建設(shè)和運(yùn)行過程中會(huì)產(chǎn)生各種類型的海量文檔。這些海量文檔大致分為兩個(gè)類別:一是辦公類文檔,包括日常管理、規(guī)章制度、會(huì)議記錄等;另一類是任務(wù)類文檔,包括航天發(fā)射任務(wù)的技術(shù)方案、任務(wù)訓(xùn)練、任務(wù)記錄等。目前,這些海量文檔尚未實(shí)現(xiàn)分門別類的有效組織和管理。文檔資料的整理歸檔是海南發(fā)射場(chǎng)正規(guī)化建設(shè)的重要內(nèi)容之一,因此,隨著各類文檔數(shù)量的不斷增長(zhǎng),急需一種快速、有效的方法來進(jìn)行文檔整理歸類。文本分類技術(shù),作為一種更為高效的自動(dòng)分類方法,能夠很好地滿足現(xiàn)實(shí)需求。
文本分類技術(shù)是根據(jù)文本的內(nèi)容,在給定分類類別的情況下,自動(dòng)確定文檔集合中每個(gè)文檔類別的過程[1,2]。該技術(shù)在自然語言處理[3]、信息檢索[4]、信息提取[5]和數(shù)據(jù)挖掘[6]等領(lǐng)域應(yīng)用廣泛。例如,王歡[7]等人將文本分類技術(shù)應(yīng)用于林業(yè)Web黃頁的分類,從而輔助Web信息的管理。司志剛[8]等人結(jié)合SVM算法設(shè)計(jì)實(shí)現(xiàn)了公安情報(bào)的自動(dòng)分類系統(tǒng)。另外,存放航天文檔的計(jì)算機(jī)通常以局域網(wǎng)的方式進(jìn)行連接,所以,本地模式的航天文本分類軟件不利于航天文本分類系統(tǒng)的應(yīng)用和版本升級(jí)維護(hù)。
因此,本文基于Web技術(shù)和文本分類技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一種航天文本分類系統(tǒng)。該系統(tǒng)采用服務(wù)器—客戶端模式,用戶可以將待分類的文檔通過網(wǎng)絡(luò)上傳至服務(wù)器,服務(wù)器利用人工標(biāo)注的訓(xùn)練數(shù)據(jù)完成分類器構(gòu)建,并用構(gòu)