陳 莊,楊春玉
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
面向監(jiān)理工程的文本分類技術(shù)研究
陳 莊,楊春玉
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
針對(duì)監(jiān)理工程中文本文檔在管理過(guò)程中存在的一些困難,提出一種適用于監(jiān)理工程的文本分類方法,旨在提高管理效率,簡(jiǎn)化工作方式。該方法在進(jìn)行中文分詞處理時(shí),使用通用詞典與手動(dòng)構(gòu)造的監(jiān)理工程專業(yè)詞典相結(jié)合的方式。對(duì)于特征提取,在使用TFIDF的基礎(chǔ)上,結(jié)合一定的規(guī)則來(lái)調(diào)整特征權(quán)重,并采用樸素貝葉斯分類算法來(lái)構(gòu)造分類器。實(shí)驗(yàn)結(jié)果表明:該方法在對(duì)監(jiān)理通知單分類問(wèn)題上能滿足實(shí)質(zhì)性的應(yīng)用需求。
監(jiān)理工程;問(wèn)題分類;TFIDF;特征二次加權(quán);樸素貝葉斯
隨著監(jiān)理工程行業(yè)信息化程度的提高,監(jiān)理工程行業(yè)相關(guān)的文本大量積累。針對(duì)該情況,如何對(duì)雜亂無(wú)章的文本進(jìn)行分類以便快速查找和管理是一個(gè)具有實(shí)際意義的研究課題。相對(duì)于傳統(tǒng)的企業(yè),監(jiān)理公司的數(shù)據(jù)分析對(duì)項(xiàng)目的順利進(jìn)行有著極其重要的作用。監(jiān)理單位的數(shù)據(jù)分析工作是對(duì)包括監(jiān)理公司的內(nèi)部管理活動(dòng)及日常監(jiān)理資料、公司與外部主體交往的記錄內(nèi)容的內(nèi)、外兩大類數(shù)據(jù)綜合起來(lái)進(jìn)行分析[2]。為進(jìn)一步開(kāi)展分析工作,對(duì)監(jiān)理工程文本資料采用文本挖掘中的相關(guān)技術(shù)進(jìn)行處理。本文主要采用文本分類技術(shù)對(duì)監(jiān)理通知單進(jìn)行分類,對(duì)監(jiān)理問(wèn)題按照質(zhì)量、進(jìn)度、施工、其他問(wèn)題進(jìn)行分類。如果采用傳統(tǒng)人工分類方法進(jìn)行分類工作,不僅耗費(fèi)大量的時(shí)間與人力,而且效率低,引入自動(dòng)分類機(jī)制將大大提升工作效率。
監(jiān)理工程的主要工作是“三控、兩管、一協(xié)調(diào)”,其中質(zhì)量控制是人們首要的關(guān)注重點(diǎn),而質(zhì)量控制中最有價(jià)值的文檔就是監(jiān)理通知單。對(duì)監(jiān)理通知單出現(xiàn)問(wèn)題的原因進(jìn)行分類統(tǒng)計(jì)就可以了解整個(gè)工程中出現(xiàn)最多的問(wèn)題類別,有助于對(duì)該類問(wèn)題加強(qiáng)管理。同時(shí),分類統(tǒng)計(jì)結(jié)果可以反映施工單位的企業(yè)素質(zhì)和管理水平,對(duì)今后的招投標(biāo)工作和公司經(jīng)營(yíng)活動(dòng)有一定的指導(dǎo)作用,對(duì)推動(dòng)監(jiān)理信息化進(jìn)程,以及提升公司處理大量非結(jié)構(gòu)化數(shù)據(jù)的能力具有一定的實(shí)際意義。本文提出了一種面向監(jiān)理工程的文本分類技術(shù),改善了質(zhì)量控制問(wèn)題分類的效果。
1.1 分類流程
文本分類是文本挖掘中的重要子領(lǐng)域,它將文本文檔分配到一個(gè)或多個(gè)預(yù)定義的類或類別中[9]。文本分類過(guò)程主要分為2個(gè)階段:訓(xùn)練和測(cè)試,具體主要包括中文分詞、去除停用詞、特征選擇、構(gòu)造特征向量空間模型、模型訓(xùn)練與評(píng)價(jià)。其中,特征選擇是分類過(guò)程中最為關(guān)鍵和重要的一步,它的好壞直接影響分類效果。分類過(guò)程如圖1所示。
圖1 文本分類過(guò)程
1.2 中文分詞和去除停用詞
領(lǐng)域?qū)I(yè)文本包含較多的專業(yè)詞匯,僅使用通用詞典進(jìn)行分詞的準(zhǔn)確率不高,而專業(yè)領(lǐng)域詞典的制定確保了其權(quán)威性與完整性[7]。因此,應(yīng)采用專業(yè)詞典和通用詞典相結(jié)合的方式進(jìn)行詞切分。本文采用的監(jiān)理工程專業(yè)詞典主要來(lái)源于手工錄入。使用的監(jiān)理工程專業(yè)詞典部分詞匯包括熱軋板帶、吊車梁、板坯庫(kù)、塑鋼門(mén)窗、啃軌、加熱爐、腳螺栓孔、攪拌站等。
停用詞的處理就是對(duì)分詞后的詞集合與停用詞表進(jìn)行匹配,匹配成功的詞則刪除,這些詞是一些對(duì)分類無(wú)意義的虛詞。
1.3 特征向量構(gòu)建
文本分類算法不能直接在原始文本形式上處理。因此,需要在預(yù)處理階段將文本轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的信息,即對(duì)文本進(jìn)行標(biāo)識(shí)。目前,文本表示模型主要有布爾模型(boolean model)、概率模型(probabilistic model)、向量空間模型(vector space model)[3]。
本文采用最為廣泛使用的向量空間模型(VSM),其基本思想是將文本表示成向量空間中的向量,1個(gè)文本對(duì)應(yīng)1個(gè)向量,文本間的相似性度量用向量之間的夾角余弦表示。文本用特征項(xiàng)集表示為:
d={t1,t2,…,tn}
其中:ti為特征項(xiàng),1≤i≤n。根據(jù)各個(gè)特征項(xiàng)ti在文本中的重要程度為其賦予一定權(quán)重wk,這時(shí)文本表示為
d={t1,w1,t2,w2,…,tn,wn}
1.4 特征選擇
特征選擇通俗來(lái)說(shuō)就是選取一些最能代表一篇文檔的詞或短語(yǔ),它是文本分類中最為重要的一步。目前,較為常用的特征選擇算法有文檔頻率(DF)、TFIDF、互信息(MI)、卡方檢驗(yàn)(CHI)、信息增益(IG)等[1]。其中,TFIDF算法是權(quán)重計(jì)算中經(jīng)典的算法之一[8],本文采用TFIDF來(lái)計(jì)算特征權(quán)值。TFIDF的基本思想是假設(shè)一個(gè)詞或短語(yǔ)在一篇文檔中出現(xiàn)的頻率高,而在其他文檔中很少出現(xiàn),則認(rèn)為該詞或短語(yǔ)具有很好的類別區(qū)分能力,適用于分類。
常用的TFIDF計(jì)算公式如下:
其中:wdt是所計(jì)算的特征項(xiàng)的權(quán)值;fdt代表詞t在文檔d中出現(xiàn)的頻率,即詞頻TF;N表示所有的文檔數(shù),nt表示出現(xiàn)詞t的文檔數(shù),log(N/nt)表示逆文檔頻率IDF。
1.5 特征二次加權(quán)
從實(shí)際應(yīng)用出發(fā),將文本分類系統(tǒng)應(yīng)用于監(jiān)理工程的文本描述之中。通過(guò)查看訓(xùn)練文本集,發(fā)現(xiàn)個(gè)別詞匯在文本分類過(guò)程中所起的作用較大,個(gè)別術(shù)語(yǔ)含義比較貼切,能反映此通知單所代表的問(wèn)題所在。主要表現(xiàn)在以下2個(gè)方面:
① 特定位置。詞匯表現(xiàn)文本內(nèi)容的強(qiáng)弱與詞匯在監(jiān)理通知單中的位置有一定聯(lián)系。例如,出現(xiàn)在“事由”后面部分的文字,通常具有代表此通知單具體是哪類問(wèn)題的表象。
② 特定關(guān)鍵詞代表問(wèn)題類別比較明顯。對(duì)于監(jiān)理通知單文本,由于數(shù)據(jù)集的樣本數(shù)量有限,有些詞匯集中出現(xiàn)在某一類別的文本中。根據(jù)相關(guān)經(jīng)驗(yàn),這些詞匯很可能與某類別相關(guān)度較大,有益于文本分類,例如,“質(zhì)量”“施工”“進(jìn)度”等。
本文在使用TFIDF來(lái)計(jì)算特征權(quán)值后,對(duì)于集合中包含的這些特定關(guān)鍵詞加大權(quán)值,從而增大不同類別問(wèn)題文本的區(qū)分度。基于此建立一個(gè)關(guān)鍵詞表KeyTable,對(duì)在特征項(xiàng)集合中出現(xiàn)過(guò)的關(guān)鍵詞增加權(quán)重w′。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)w′=0.5時(shí),實(shí)驗(yàn)?zāi)苋〉幂^好的結(jié)果。
關(guān)鍵詞表KeyTable中的關(guān)鍵詞有“質(zhì)量”“施工”“進(jìn)度”“整改”“安裝”“措施”等。
從數(shù)學(xué)角度來(lái)說(shuō),分類問(wèn)題可以形式地表示如下:
已知集合:c={y1,y2,y3,…,yn}和I={x1,x2,x3,…,xn},確定映射規(guī)則y=f(x),使得任意xi有且僅有一個(gè)yi∈c,使得yi=f(xi)成立。
其中,c稱為類別集合,類別集合中的每一個(gè)元素是一個(gè)類別;I稱為項(xiàng)集合,項(xiàng)集合中的每一個(gè)元素是一個(gè)待分類項(xiàng),f為分類器。
本文采用樸素貝葉斯[4](naive Bayesian)分類算法。與其他算法相比,樸素貝葉斯分類算法較為簡(jiǎn)單,且分類速度快,分類結(jié)果的準(zhǔn)確率高。該方法的基本思想是:對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,條件概率最大的,就認(rèn)為待分類項(xiàng)屬于這個(gè)類別。
計(jì)算步驟如下:
① 假設(shè)x={t1,t2,t3,…,tn}為待分類項(xiàng),其中ti為特征項(xiàng);
② 有類別集合c={y1,y2,y3,…,yn};
③ 計(jì)算條件概率P(y1|x),P(y2|x),P(y3|x),…,P(yn|x);
④ 如果P(yk|x)=MAX{P(y1|x),P(y2|x),…,P(yn|x)},則x屬于yk類。
其中,最為關(guān)鍵的一步是計(jì)算各個(gè)條件概率,計(jì)算過(guò)程可分解為以下步驟:
① 統(tǒng)計(jì)得到在各類別下各個(gè)特征項(xiàng)的條件概率估計(jì)值,即
② 假設(shè)各個(gè)特征項(xiàng)是條件獨(dú)立的,則根據(jù)貝葉斯定理有:
又因?yàn)楦鱾€(gè)特征項(xiàng)是條件獨(dú)立的,所以有:
P(x|yi)P(yi)=P(t1|yi)P(t2|yi)…
3.1 實(shí)驗(yàn)數(shù)據(jù)
本文采用的實(shí)驗(yàn)數(shù)據(jù)由重慶某監(jiān)理咨詢公司提供,包括5個(gè)工程項(xiàng)目中的監(jiān)理通知單,共計(jì) 1 579個(gè)文本。監(jiān)理問(wèn)題分為4大類,質(zhì)量問(wèn)題占35.6%,施工問(wèn)題占40.3%,進(jìn)度問(wèn)題占14.9%,其他問(wèn)題占9.2%。問(wèn)題分布情況如表1所示。
表1 問(wèn)題分布情況
3.2 算法流程
輸入:待分類文本X,類別集合c={y1,y2,y3,…,yn},監(jiān)理通知單訓(xùn)練集T。
輸出:待分類文本X的類別向量d(x)。
初始化:① 經(jīng)過(guò)文本預(yù)處理階段得到特征項(xiàng)集合x(chóng)={t1,t2,t3,…,tn};
② 由式(1)計(jì)算特征項(xiàng)集合x(chóng)中每個(gè)特征項(xiàng)ti的權(quán)值wi,得到d={t1,w1,t2,w2,…,tn,wn};
③ 根據(jù)特征項(xiàng)二次加權(quán)方法,為出現(xiàn)在KeyTable中的特征項(xiàng)ti的權(quán)值wi加上w′;
④ 由步驟③得到新的文本向量d′;
⑤ 將訓(xùn)練集T中所有的文本表示成向量;
⑥ 計(jì)算文本x與類別yi的相關(guān)度,即采用樸素貝葉斯分類方法計(jì)算條件概率P(y1|x),P(y2|x),P(y3|x),…,P(yn|x)
⑦ 比較條件概率的大小P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則得到x的類別yk。
3.3 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)采用常用的查全率(recall)、查準(zhǔn)率(precision)及F值來(lái)驗(yàn)證分類器的性能[5]。查全率r=分類器在cj上分類正確的文本數(shù)/cj真正包含的文本數(shù);查準(zhǔn)率p=分類器在cj上分類正確的文本數(shù)/分類器識(shí)別為cj類的文本數(shù);F值=2×查全率×查準(zhǔn)率/(查準(zhǔn)率+查全率)[1]。
3.4 結(jié)果分析
為了驗(yàn)證改進(jìn)后的方法在監(jiān)理通知單分類上的實(shí)用性和有效性,分別進(jìn)行下面2組實(shí)驗(yàn)。
實(shí)驗(yàn)一:實(shí)用性
一般提取方法(即直接采用TFIDF算法加權(quán))與特征二次加權(quán)方法進(jìn)行對(duì)比分析。為保公正性,2種方法都采用同種分詞方法,即通用詞典結(jié)合專業(yè)詞典的分詞方法,分類算法也都采用樸素貝葉斯分類方法。對(duì)實(shí)驗(yàn)所用的數(shù)據(jù)按照7∶3的比例劃分,分別為測(cè)試集和訓(xùn)練集[6]。
采用一般提取方法的實(shí)驗(yàn)結(jié)果如表2所示,特征二次加權(quán)后的實(shí)驗(yàn)結(jié)果如表3所示。
表2 一般提取方法 %
表3 特征二次加權(quán)方法 %
通過(guò)表2、3的對(duì)比可以得知:特征二次加權(quán)方法與直接使用TFIDF方法的分類結(jié)果在查全率和查準(zhǔn)率上均有提高,都達(dá)到了預(yù)期的結(jié)果,有一定的實(shí)用價(jià)值。其中,質(zhì)量問(wèn)題與施工問(wèn)題這兩個(gè)類別的改善情況比較樂(lè)觀,而另外兩個(gè)類別的效果不是很明顯。另外,施工問(wèn)題的樣本數(shù)量本身較多,再加上可以羅列的關(guān)鍵詞也較多,因此它的準(zhǔn)確率提高得相對(duì)明顯。
實(shí)驗(yàn)二:有效性
由實(shí)驗(yàn)一可知:改進(jìn)后的方法對(duì)監(jiān)理通知單文本分類的結(jié)果有一定影響,為了降低偶然性,使用改變訓(xùn)練樣本與測(cè)試樣本的比例的方法進(jìn)行多次實(shí)驗(yàn),從而驗(yàn)證其有效性。用F值作為對(duì)比數(shù)據(jù)。圖2為采用不同樣本比例所得到的對(duì)比結(jié)果。
圖2 不同訓(xùn)練樣本比例2種方法的F值對(duì)比
從圖2可以看出:改進(jìn)后的算法F值隨訓(xùn)練樣本容量的增加呈上升趨勢(shì),取值范圍為71.5%~84%??傮w而言,改進(jìn)算法相對(duì)于未改進(jìn)前提升了性能,表明改進(jìn)后的算法是有效的。
以上實(shí)驗(yàn)結(jié)果說(shuō)明:結(jié)合使用專業(yè)詞典和特征二次加權(quán)的方法在監(jiān)理通知單文本分類的具體應(yīng)用方面具有一定的提升作用。但是實(shí)驗(yàn)二顯示:F值均小于85%,表明該算法仍存在一定的提升空間。
本文在原有文本分類方法上結(jié)合監(jiān)理工程自身的一些特點(diǎn),提出了一種適用于監(jiān)理工程的文本分類方法,主要包括2點(diǎn):① 針對(duì)中文分詞詞典存在未登錄詞匯,采用通用詞典與專業(yè)詞典相結(jié)合的方式,提高了分詞的準(zhǔn)確性;② 在特征提取的過(guò)程中,基于使用TFIDF計(jì)算特征權(quán)重進(jìn)行了特征二次加權(quán),增大了類別區(qū)分度,使分類結(jié)果更準(zhǔn)確。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,表明改進(jìn)后的方法在實(shí)用性和有效性方面都有所提高,能滿足實(shí)際需求。
[1] 宋阿羚,劉海峰,劉守生.基于位置及詞頻信息的優(yōu)化CHI文本特征選擇方法[J].計(jì)算機(jī)科學(xué)與應(yīng)用,2015,5(9):322-330.
[2] 胡毅.通過(guò)數(shù)據(jù)分析強(qiáng)化監(jiān)理信息的管理工作[J].邏輯學(xué)研究,2005,25(4):271-274.
[3] 徐濤,于洪志,加羊吉.基于改進(jìn)卡方統(tǒng)計(jì)量的藏文文本表示方法[J].計(jì)算機(jī)工程,2014,40(6):185-189.
[4] 張亞萍,陳得寶,侯俊欽,等.樸素貝葉斯分類算法的改進(jìn)及應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(15):134-137.
[5] 樊存佳,汪友生,邊航.一種改進(jìn)的KNN文本分類算法[J].國(guó)外電子測(cè)量技術(shù),2015,34(12):39-43.
[6] 伍洋,鐘鳴,姜艷,等.面向?qū)徲?jì)領(lǐng)域的短文本分類技術(shù)研究[J].微電子學(xué)與計(jì)算機(jī),2015,32(1):5-10.
[7] 董麗麗,魏勝輝.一種面向機(jī)械領(lǐng)域文本分類器的設(shè)計(jì)[J].微電子學(xué)與計(jì)算機(jī),2012,29(4):142-145.
[8] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009,29(b06):167-170.
[10] ZHANG H,ZHONG g G.Improving short text classification by learning vector representations of both words and hidden topics[J].Knowledge-Based Systems,2016,102:76-86.
(責(zé)任編輯楊黎麗)
StudyonTextCategorizationTechnologyforSupervisionEngineering
CHEN Zhuang, YANG Chunyu
(College of Computer Science and Engineering,Chongqing University of Technology, Chongqing 400054, China)
In order to solve the problems of management, such as query, statistics and confusion, a text categorization method is proposed to improve the management efficiency and simplify the working mode. Firstly, in Chinese word processing, supervision of professional dictionary uses generic dictionary with manually constructed combination; and then for feature extraction based on the use of TFIDF, according to certain rules to adjust the weights of features, finally we construct the classifier using Naive Bayesian classification algorithm. The experimental results show that this method can meet the practical application requirements in the classification of supervision notice.
supervision engineering; problem categorization; TFIDF; twice weighting for feature; Naive Bayesian
2017-06-22
重慶市研究生科研創(chuàng)新項(xiàng)目(CYS16222);重慶理工大學(xué)研究生創(chuàng)新基金資助項(xiàng)目(YCX2016229)
陳莊(1964—),男,博士,教授,主要從事企業(yè)信息化管理、網(wǎng)絡(luò)與信息安全研究,E-mail:cz@cqut.edu.cn。
陳莊,楊春玉.面向監(jiān)理工程的文本分類技術(shù)研究[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(10):187-191.
formatCHEN Zhuang, YANG Chunyu.Study on Text Categorization Technology for Supervision Engineering[J].Journal of Chongqing University of Technology(Natural Science),2017(10):187-191.
10.3969/j.issn.1674-8425(z).2017.10.030
TP391
A
1674-8425(2017)10-0187-05
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2017年10期