朱 青,衛(wèi)柯臻,丁蘭琳,黎建強(qiáng)
(1.陜西師范大學(xué)國際商學(xué)院,陜西 西安 710119;2.陜西師范大學(xué)交叉過程感知與控制實(shí)驗(yàn)室,陜西 西安 710119;3.香港城市大學(xué)管理科學(xué)系,中國 香港;4.西安交通大學(xué)管理學(xué)院,陜西 西安 710049;5.西安交通大學(xué)經(jīng)濟(jì)金融學(xué)院,陜西 西安 710049)
在許多大陸法系的發(fā)展中國家,隨著新型法律關(guān)系的不斷產(chǎn)生,成文法無法及時(shí)制定和修改的缺陷逐漸顯現(xiàn),判例法的適當(dāng)補(bǔ)充能夠增加中國法律體系的靈活性。審判實(shí)踐中長期積累的判例綜合概括了各種各樣的案例,為法律的適用提供了具體、生動的例子,這些判例和法律規(guī)范本身結(jié)合在一起,比抽象的立法條文更有助于加強(qiáng)法的權(quán)威和穩(wěn)定[1]。所以,充分挖掘以往法院裁判文書的價(jià)值對中國法律體系的完善具有重要作用。而隨著中國法院信息化建設(shè)的逐漸完善,裁判文書數(shù)據(jù)庫為我們進(jìn)行文本挖掘提供了可能。與此同時(shí),世界各國糾紛訴訟的數(shù)目也在急劇增長,如何在保證審判質(zhì)量的前提下提高法院系統(tǒng)的審判效率已經(jīng)成為世界各國面臨的問題。因此,在進(jìn)行制度改革的同時(shí),建立決策支持系統(tǒng)將會有效地輔助司法判決。本文提出的法院裁判決策支持系統(tǒng)(CJ-DSS)正是這方面的努力和嘗試,其本質(zhì)是文本的自動分類,該系統(tǒng)可以依據(jù)以往判例,預(yù)測醫(yī)療損害訴訟的判決結(jié)果,為司法判決和個(gè)人訴訟提供決策支持。
20世紀(jì)70年代以來,決策支持系統(tǒng)(Decision Support System)一直受到學(xué)術(shù)界的廣泛關(guān)注,近年來,計(jì)算機(jī)在預(yù)測科學(xué)、復(fù)雜系統(tǒng)方面的技術(shù)進(jìn)步和多學(xué)科的交叉發(fā)展促進(jìn)了決策支持系統(tǒng)在不同領(lǐng)域的應(yīng)用研究,大大提高了DSS的輔助決策能力。目前的研究中,DSS在醫(yī)療健康領(lǐng)域的研究較為熱門,臨床決策支持系統(tǒng)(CDSS,Clinical Decision Support System)已經(jīng)在疾病診療上表現(xiàn)出較大的輔助優(yōu)勢[2-3],但也有學(xué)者認(rèn)為CDSS在醫(yī)療實(shí)踐中的應(yīng)用還較為有限[4],尤其是醫(yī)療工作者通常難以理解計(jì)算機(jī)系統(tǒng)的內(nèi)部運(yùn)作。此外,在企業(yè)管理領(lǐng)域,DSS的應(yīng)用也非常普遍,萬映紅等人[5]在虛擬合作伙伴的選擇上進(jìn)行DSS的設(shè)計(jì)。方淑芬和呂文元[6]則在設(shè)備維修管理方面采用DSS以期幫助設(shè)備管理人員進(jìn)行科學(xué)決策。總之,當(dāng)前DSS的設(shè)計(jì)思想已經(jīng)在各個(gè)領(lǐng)域廣泛應(yīng)用。
對于本文提出的CJ-DSS而言,文本自動分類技術(shù)是系統(tǒng)設(shè)計(jì)的核心。相較于中國而言,國外對文本自動分類的實(shí)際應(yīng)用研究比較豐富,尤其是對專利文本的分析。Tseng等[7]認(rèn)為,專利文本中包含許多重要的研究成果,然而其篇幅和專業(yè)術(shù)語使得對專利文本的分析需要耗費(fèi)較多時(shí)間和精力。Kim等[8]也認(rèn)為,隨著專利文本的日益增多,自動分類系統(tǒng)能夠取代手動分類。同時(shí),他強(qiáng)調(diào)專利文本較之其他文本而言,具有一些結(jié)構(gòu)化信息,比如主張(Claims)、目的(Purposes)、發(fā)明實(shí)例(Embodiments of invention)等,而這一特點(diǎn)應(yīng)當(dāng)在分類過程中受到關(guān)注。因此,Kim利用專利文本的這一特點(diǎn),先對上述結(jié)構(gòu)化信息進(jìn)行聚類篩選出語義元素(Semantic elements),以此作為文本分類的基本特征,然后使用k-NN(k-Nearest Neighbour)方法進(jìn)行分類。實(shí)驗(yàn)發(fā)現(xiàn),相對于未使用結(jié)構(gòu)化信息的系統(tǒng)而言,分類效果提升了74%。
此外,文本分類技術(shù)還應(yīng)用于其他領(lǐng)域。Pong等[9]通過實(shí)證研究表明,KNN算法是構(gòu)建有效率的文本分類系統(tǒng),從而增強(qiáng)當(dāng)前的圖書館情報(bào)學(xué)實(shí)踐的重要手段之一。Fang Ruihua等[10]使用支持向量機(jī)(SVM)技術(shù)設(shè)計(jì)出能夠?qū)?shí)驗(yàn)數(shù)據(jù)的類型進(jìn)行識別并分類的系統(tǒng)。余樂安和汪壽陽[11]在對信用問題分析后構(gòu)造了基于核主元分析的帶可變懲罰因子模糊支持向量機(jī)模型來進(jìn)行信用分類研究,研究結(jié)果表明該方法對于二元分類問題的分類效果和適用性都較好。Coussement和 Poel[12]使用E-mail中的語義特征作為指標(biāo),結(jié)合傳統(tǒng)的文本分類方法,設(shè)計(jì)出一個(gè)能夠區(qū)分投訴和非投訴類的自動郵件分類系統(tǒng),該系統(tǒng)能夠達(dá)到83%的準(zhǔn)確率。梁昕露和李美娟[13]認(rèn)為傳統(tǒng)的投訴分類體系過于繁雜且缺乏邏輯,因此從業(yè)務(wù)維度和生命周期維度對投訴數(shù)據(jù)進(jìn)行二次分類,采用SVM算法對樣本訓(xùn)練后進(jìn)行預(yù)測,查準(zhǔn)率超過七成。Al Qady和Kandil[14]則依據(jù)文本內(nèi)容對項(xiàng)目文件進(jìn)行了自動分類,并在不同的條件下(如維數(shù)水平(Dimensionality level)和賦權(quán)方法(Weighting method)測試了分類器的性能。該研究發(fā)現(xiàn),準(zhǔn)確率最高的分類器是應(yīng)用降維技術(shù)和TF-IDF賦權(quán)法的Rocchio和kNN分類器,其次,使用投票策略將分類器結(jié)合也能夠提高分類器的性能。
盡管近年來,決策支持系統(tǒng)和文本自動分類技術(shù)在許多領(lǐng)域都得到廣泛的應(yīng)用,但其在司法領(lǐng)域的應(yīng)用并沒有受到太多關(guān)注。一方面是由于大陸法系依據(jù)法典進(jìn)行判決,另一方面則是受制于數(shù)據(jù)的難以獲得和文本的分析技術(shù)。但隨著司法模式的綜合使用以及數(shù)據(jù)庫和文本挖掘技術(shù)的建立和發(fā)展,法院裁判決策支持系統(tǒng)(CJ-DSS)不僅可以提高司法判決系統(tǒng)的效率,而且能夠增強(qiáng)以往法院判例的參考價(jià)值。具體而言,隨著中國法律實(shí)踐中判例的大量積累,自動分類技術(shù)能夠從中挖掘出有價(jià)值的信息來輔助司法判決,有效地在保證審判質(zhì)量的前提下提高法院系統(tǒng)的審判效率。
2.1.1 中文分詞與初步特征降維
鑒于中文與英文文本的差異性,分詞方法各有不同。本文使用R軟件中的Rwordseg包作為分詞工具。該程序包是由李艦提出,是一個(gè)R環(huán)境下的中文分詞工具,使用rjava調(diào)用java分詞工具Ansj。Ansj是基于中科院的ICTCLAS中文分詞算法,采用隱馬爾科夫模型(Hidden Markov Model, HMM)。現(xiàn)有中文分詞主要采用字典匹配法,通過添加專業(yè)詞匯,可以使Rwordseg的靈活性和識別度更高。本文通過加載sougou細(xì)胞庫中的法律詞匯、法律文本詞匯以及醫(yī)學(xué)詞匯字典,能夠識別判決書中的專業(yè)術(shù)語,避免未識別詞匯的干擾。
進(jìn)行初步降維時(shí),首先需要刪除中文停用詞,如“我”“你”“的”等無意義詞匯。進(jìn)一步通過詞性標(biāo)注,選取名詞、動詞以及專業(yè)詞匯等具有更高價(jià)值的詞匯,減少無意義詞條干擾性,以備后階段使用。
2.1.2 文檔表示模型與詞條權(quán)重
對文本內(nèi)容的特征表示主要有布爾模型、向量空間模型、概率模型和基于知識的表示模型,在文本分類領(lǐng)域,最常用的文本表示模型是向量空間模型[15]。向量空間模型是是Salton等[16]于70年代提出的。其基本思想是:給定一文本D=D(T1,W1;T2,W2;…;Tn,Wn),其中Ti(i=1,2,…,n)表示文檔中的詞條,且互不相同,Wi(i=1,2,…,n)代表詞條對應(yīng)的數(shù)值??梢园裈1,T2,…,Tn看作是一個(gè)n維的坐標(biāo),而W1,W2,…,Wn是n維坐標(biāo)所對應(yīng)的值,從而文檔D就可被看作一個(gè)n維的向量。
為了獲得更高的精準(zhǔn)度,本文使用向量空間模型。向量空間模型本質(zhì)上能夠?qū)⑽臋n轉(zhuǎn)化為電子表格形式,電子表格的每一列關(guān)聯(lián)一個(gè)特征,每一行代表一個(gè)文檔,詞條權(quán)重是指某詞條在某篇文檔中出現(xiàn)的頻率。詞條權(quán)重通常使用0(該詞條未出現(xiàn))和1(該詞條出現(xiàn))填充。為了獲得更好的精度,詞條權(quán)重還有其他的表示方法。比如使用詞條出現(xiàn)的實(shí)際頻率或三值系統(tǒng)(0(未出現(xiàn))、1(出現(xiàn)一次)、2(出現(xiàn)1次以上))。目前在研究中最為常用的是TF-IDF權(quán)值,它是一個(gè)由詞條重要性比例因子來修正的詞頻,這個(gè)比例因子稱為反文檔頻率(IDF)[17]。而后Salton等[18]提出了TF-IDF的權(quán)值計(jì)算公式:
tf-idf(j)=tf(j)×idf(j)
(1)
其中,tf(j)表示詞條j的實(shí)際頻率,N表示全部文檔,df(j)表示出現(xiàn)詞條j的文檔數(shù)。
用向量空間模型表示文本時(shí), 該向量的維數(shù)非常大, 能夠達(dá)到幾十萬維, 而一般只選擇2%-5%的特征項(xiàng)[19]。本研究面臨的困難是特征空間的高維性和文檔表示向量的稀疏性。近年來在中文文本自動分類中使用較多的特征抽取方法包括文檔頻率DF[20]、互信息MI、信息增益IG[21]和卡方(chi-square)檢驗(yàn)。代六玲等[22]比較研究了在中文文本分類中特征選取方法對分類效果的影響,結(jié)果表明,在英文文本分類中表現(xiàn)良好的特征抽取方法(IG、MI和CHI)在不加修正的情況下并不適合中文文本分類。他認(rèn)為除了加大訓(xùn)練集外,還可以通過組合的特征抽取方法來進(jìn)行改善。因此本文將使用DF、CHI統(tǒng)計(jì)法以及DF-CHI組合,分別進(jìn)行特征提取。其基本思想如下:
(1)DF(Document Frequency)是指語料庫中出現(xiàn)某詞條的文檔數(shù)目,它是最簡單的特征抽取技術(shù)。DF通過設(shè)定閾值可以剔除低頻詞,篩選出出現(xiàn)某詞條的文檔數(shù)目大于該閾值的詞條作為分類特征,其基本假設(shè)是低頻詞對于預(yù)測貢獻(xiàn)度較低,對分類效果無顯著影響。因此將低頻詞剔除能夠降低特征維數(shù),有可能提高分類精度。
(2)CHI統(tǒng)計(jì)的原理是通過觀察實(shí)際值與理論值的偏差來確定理論的正確與否,在進(jìn)行特征選擇時(shí),可以用來度量特征t和類標(biāo)c之間的相關(guān)程度,并假設(shè)t和c之間符合具有一階自由度的χ2分布。原假設(shè)為特征t和類標(biāo)c不相關(guān),χ2統(tǒng)計(jì)值越高,該詞條與該類別的相關(guān)性越大,對預(yù)測結(jié)果也更有價(jià)值。CHI統(tǒng)計(jì)是一種依賴分類類別的特征提取方法,對低頻詞有所倚重,即存在“低頻詞缺陷”。其計(jì)算公式如下:
(2)
其中N表示訓(xùn)練語料中的文檔總數(shù),c表示某一特定類別,t表示特定詞條,A表示屬于c且包含t的文檔頻數(shù),B表示不屬于c類但包含t的文檔頻數(shù),C表示屬于c類但不包含t的文檔頻數(shù),D是既不屬于c也不包含t的文檔頻數(shù)。
(3)組合特征提取法是指依據(jù)不同特征選擇算法的優(yōu)劣,將兩種及以上的算法組合后對文本特征進(jìn)行篩選,以期找到對分類結(jié)果更有價(jià)值和更有預(yù)測性的特征。DF-CHI組合特征提取法是由于DF和CHI統(tǒng)計(jì)本身對低頻詞的基本思想不同,我們認(rèn)為在無法證實(shí)哪種基本假設(shè)更合理時(shí),可以將兩種方法結(jié)合,即先用DF濾去出現(xiàn)次數(shù)較低的詞條,然后在此基礎(chǔ)上通過CHI篩選出與分類結(jié)果更為相關(guān)的特征集。這種方法能夠通過組合互補(bǔ),提取出帶有更多分類信息的詞條,理論上能夠提升分類器的性能表現(xiàn)。
2.3.1 支持向量機(jī)(SVM)
SVM由Vapnik[23]在2000年提出,是一種相對較新的機(jī)器學(xué)習(xí)技術(shù),近年已被廣泛地用于模式識別的多個(gè)領(lǐng)域[24],同時(shí),該算法對文本分類問題也是非常快捷有效的。在幾何方面,一個(gè)二值SVM分類器可以看作是特征空間超平面,分別代表正反例。分類超平面是兩類邊界間隔最大的平分平面[25]。通過學(xué)習(xí)算法,SVM在訓(xùn)練樣本中尋找具有最好區(qū)分能力的樣本點(diǎn)集,稱為支持向量(Support Vectors)。在分類階段,SVM利用這些支持向量對未知類別樣本的類別屬性做出預(yù)測[26]。SVM分類器與特征空間的維數(shù)無關(guān),因此在理論上能合理解決過擬合問題。
2.3.2 人工神經(jīng)網(wǎng)絡(luò)(ANN)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)是在1943 年由神經(jīng)生物學(xué)家MeCulloch和青年數(shù)學(xué)家 Pitts 合作提出的。ANN分類器可采用一種三層前饋型網(wǎng)絡(luò),包括輸入層、輸出層和隱含層。網(wǎng)絡(luò)的輸入節(jié)點(diǎn)接收特征值,輸出節(jié)點(diǎn)產(chǎn)生類別值,連接權(quán)重代表依賴關(guān)系。神經(jīng)網(wǎng)絡(luò)可以通過反向傳播訓(xùn)練修正分類錯(cuò)誤,從而提高準(zhǔn)確性。ANN具有廣泛的系統(tǒng)自凈化性,因此可以實(shí)現(xiàn)模糊推理功能,同時(shí),在大量數(shù)據(jù)負(fù)載的情況下能夠保持較高的運(yùn)算速度[27]。
2.3.3 最近鄰法(KNN)
k最近鄰法(k-Nearest Neighbor)[28]是一種傳統(tǒng)的模式識別方法,在搜索引擎中的應(yīng)用最為常見,同時(shí)也被廣泛的應(yīng)用于文本自動分類研究[8-9,14],在準(zhǔn)確率和召回率上表現(xiàn)出眾。KNN通過計(jì)算新文檔與已知類別的文檔集中所有文檔的相似度,選擇k個(gè)和新文檔最相似的文檔,在這k個(gè)文檔中頻率最高的標(biāo)簽就是該文檔的分類標(biāo)簽。
為評價(jià)不同特征選擇方法和分類器的性能,本文采用最通用的性能評價(jià)方法:召回率R(Recall)、準(zhǔn)確率P(Precision)和F1評價(jià)。對于某一特定的類別,召回率定義為被正確分類的文檔數(shù)和被測試文檔總數(shù)的比率,即該類樣本被分類器正確識別的概率。準(zhǔn)確率定義為正確分類的文檔數(shù)與被分類器識別為該類的文檔數(shù)的比率,即分類器做出的決策是正確的概率[29]。F1的計(jì)算公式如下:
(3)
通過不同特征提取方法和分類器的組合使用,我們能夠找到多組達(dá)到我們預(yù)期性能的組合。但是面對新案例時(shí),使用哪個(gè)組合能夠保證分類結(jié)果的可靠性?如何將不同組合的判斷結(jié)合起來?每個(gè)組合的預(yù)測結(jié)果應(yīng)當(dāng)賦予多大權(quán)重?本文以德爾菲法為理論基礎(chǔ),采用集成學(xué)習(xí)來解決這一問題。集成學(xué)習(xí)是指通過構(gòu)建一個(gè)新模型,經(jīng)過適當(dāng)訓(xùn)練后,將達(dá)到預(yù)期性能的基學(xué)習(xí)器的預(yù)測結(jié)果作為輸入,經(jīng)過線性或非線性運(yùn)算后最終輸出一個(gè)概率最大的預(yù)測結(jié)果。集成學(xué)習(xí)相對單一模型而言,除了能夠節(jié)省單一最佳模型的時(shí)間,在性能上也更具有普適性[29]。
假設(shè)通過預(yù)期性能的基學(xué)習(xí)器有n個(gè),表示為Di(wherei=1,2,…,n),其預(yù)測的類別用Ti表示,其中Ti∈{0,1},我們可以將n個(gè)基學(xué)習(xí)器對某一文本的預(yù)測值Ti作為輸入,其可能的分類結(jié)果作為輸出,構(gòu)建B-P神經(jīng)網(wǎng)絡(luò)來確定每個(gè)基學(xué)習(xí)器的權(quán)重Wi,從而構(gòu)成自動判決系統(tǒng)的集成學(xué)習(xí)模型,對未標(biāo)注類別的文本進(jìn)行預(yù)測。集成學(xué)習(xí)模型如圖1所示。
圖1 集成學(xué)習(xí)模型
根據(jù)第二部分的研究方法,本文所嘗試構(gòu)建的法院裁判決策支持系統(tǒng)(CJ-DSS)的整體設(shè)計(jì)如圖2所示。
該系統(tǒng)主要分為兩個(gè)部分,第一部分以非結(jié)構(gòu)化文本作為輸入,經(jīng)過預(yù)處理后形成結(jié)構(gòu)化的詞條文檔矩陣,然后通過更換特征提取方法和分類器,篩選出達(dá)到預(yù)期性能的基學(xué)習(xí)器,同時(shí)輸出基學(xué)習(xí)器的判決結(jié)果;第二部分則將基學(xué)習(xí)器對測試集文本的分類結(jié)果作為輸入,通過集成學(xué)習(xí)后,輸出對測試集文本的最終判決。
圖2 CJ-DSS系統(tǒng)整體設(shè)計(jì)
本文的數(shù)據(jù)來源為北大英華提供的“北大法寶”大型法律數(shù)據(jù)庫,本文以“醫(yī)療糾紛”為關(guān)鍵詞檢索出2013年法院判決書及調(diào)解書等文本共300余篇,由于調(diào)解書的文本格式較短,且案情敘述略簡,故從中刪除調(diào)解書文本。其余文本經(jīng)過預(yù)處理后進(jìn)行訓(xùn)練和測試。本文用于實(shí)驗(yàn)的數(shù)據(jù)共計(jì)220篇。其中,用于選擇基學(xué)習(xí)器的訓(xùn)練集共100篇,用于BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的文檔共計(jì)60篇,其余60篇作為測試集。為了便于集成學(xué)習(xí)模型和單一模型的性能比較,測試集新文本數(shù)據(jù)保持不變。
對于訓(xùn)練集中駁回類和非駁回類的結(jié)構(gòu)問題,經(jīng)過統(tǒng)計(jì)2011-2013年中國法律醫(yī)療損害判例中駁回與非駁回兩類文本的經(jīng)驗(yàn)分布,發(fā)現(xiàn)駁回與非駁回類文本所占比例均在1:4附近。在實(shí)驗(yàn)中我們分別以1:1和1:4的訓(xùn)練集數(shù)據(jù)比例進(jìn)行了測試,結(jié)果發(fā)現(xiàn)1:1的數(shù)據(jù)結(jié)構(gòu)下各分類器的性能均低于1:4比例下的性能,因此我們認(rèn)為符合實(shí)際經(jīng)驗(yàn)分布的數(shù)據(jù)比例更能夠保證分類效果。故我們將訓(xùn)練集中駁回類與非駁回類的分布比例均設(shè)為1:4。由于分類器對新文本進(jìn)行分類是單獨(dú)進(jìn)行的,故測試集中新文本的結(jié)構(gòu)比例不會影響分類結(jié)果。數(shù)據(jù)結(jié)構(gòu)具體如表1所示。
表1 實(shí)驗(yàn)文本數(shù)據(jù)量及構(gòu)成
通過對DF和CHI調(diào)整參數(shù),我們篩選出不同條件下的特征集并據(jù)此進(jìn)行分類,文章在各參數(shù)的定義域內(nèi)挑選出部分進(jìn)行試驗(yàn)。為了行文簡潔同時(shí)便于理解,此處我們將對下文出現(xiàn)的符號進(jìn)行具體說明。見表2。
表2 符號表示及說明
4.2.1 單一卡方法的自動判決結(jié)果
圖3顯示了三個(gè)分類器在不同卡方值下的性能表現(xiàn)。隨著卡方值的增大,能夠通過相關(guān)性檢驗(yàn)的詞條數(shù)目越來越少,由于支持向量機(jī)依賴支持向量進(jìn)行快速分類,所以對特征的維數(shù)不是特別敏感,因此保持了較為穩(wěn)定的變化趨勢。人工神經(jīng)網(wǎng)絡(luò)的性能則隨著特征值的減少產(chǎn)生了較大波動。K近鄰表現(xiàn)較差,在0.700左右波動,對特征值的數(shù)量不敏感。
4.2.2 單一DF法與DF-CHI組合法的自動判決結(jié)果
為了更加直觀地表示單一法和DF-CHI組合法自動判決結(jié)果的差異,我們將DF參數(shù)以下列方式改寫坐標(biāo),以單一DF法和SVM的組合為例,以D0作X軸,D1作Y軸,F(xiàn)1值作Z軸,如表3所示。
圖3 不同卡方值參數(shù)下的分類器性能
Z:F1-SVM/DFXD1>3D1>5D1>10D1>15D1>20D1>30D1>40D1>50D1>60D1>70D1=80Y1234567891011D0>210.7670.7830.7830.7830.8500.7500.8000.7500.8000.8330.767D0>520.7670.8000.8000.7670.7330.7670.7670.7670.7830.8000.783D0>730.7670.7830.7830.7830.8000.7170.7500.7330.7170.7170.717D0>1040.7830.7830.7830.7830.7670.7330.7670.6830.6170.8000.783D0>1550.7830.8000.7670.7830.7670.7330.7330.7500.7170.8000.800D0=2060.7830.7830.7830.7670.7670.7330.7670.7330.7000.8000.800
下列三組圖4-1、4-2、4-3分別是SVM、ANN、KNN分類器的性能表現(xiàn),紅色代表單一DF法,綠色代表DF-CHI組合法。如圖所示,針對不同的分類器,DF-CHI組合法對分類結(jié)果的性能均有改善(否則俯視圖將全為紅色),但其改進(jìn)的程度有所不同:SVM改進(jìn)程度達(dá)到45%左右,ANN改進(jìn)程度達(dá)到80%,KNN改進(jìn)程度在40%左右。
圖4-1 SVM(DF) 和SVM(DF-CHI)的三維圖和俯視圖
圖4-2 ANN(DF) 和 ANN (DF-CHI) 的三維圖和俯視圖
圖4-3 KNN(DF) 和 KNN(DF-CHI)的三維圖和俯視圖
通過組合特征提取法我們不同程度的提高了各分類器的性能,以此增加了滿足預(yù)期分類效果的基學(xué)習(xí)器的個(gè)數(shù)。我們設(shè)定預(yù)期的分類器性能為F1> 0.850,根據(jù)上述結(jié)果,我們選出以下符合預(yù)期性能的組合作為基學(xué)習(xí)器。表4顯示了經(jīng)過實(shí)驗(yàn)調(diào)參后篩選出的分類器性能F1>0.850的全部組合,這構(gòu)成本文的多個(gè)基學(xué)習(xí)器,具體見表4。
表4 基學(xué)習(xí)器具體構(gòu)成
注:根據(jù)訓(xùn)練集中駁回與非駁回類的文本數(shù)量,DF(Type=0)的值在[1,20]區(qū)間內(nèi), DF(Type=1)的值在[1,80]區(qū)間內(nèi),同時(shí)兩者的值都為整數(shù)。
依據(jù)2.5中B-P神經(jīng)網(wǎng)絡(luò)模型,將18個(gè)基學(xué)習(xí)器對測試集的預(yù)測結(jié)果作為輸入,駁回(0)和非駁回(1)作為輸出,采用多種BP網(wǎng)絡(luò)結(jié)構(gòu)(改變隱含層的神經(jīng)元數(shù)),經(jīng)過反復(fù)多次湊試,經(jīng)過1000次迭代后達(dá)到平穩(wěn),其中學(xué)習(xí)率為0.1,隱含層神經(jīng)元個(gè)數(shù)為5,該集成學(xué)習(xí)模型的預(yù)測結(jié)果見表5,混淆矩陣如下:
表5 混淆矩陣
由此可得F1值達(dá)到93.3%,有效提升了系統(tǒng)的性能。擬合圖表示真實(shí)的判例類別(黑線)和預(yù)測類別(紅線)之間的誤差,如圖5可見擬合效果較好。
圖5 迭代結(jié)果及擬合圖
本文以中國醫(yī)療糾紛訴訟判決文本為例,使用文本挖掘和自動分類技術(shù)提出了一個(gè)法院裁判決策支持系統(tǒng)(CJ-DSS),該系統(tǒng)可以預(yù)測新訴訟文本的判決結(jié)果:駁回與非駁回。我們通過組合不同的特征選擇方法和分類器建立模型,然后使用F1值評價(jià)其性能,同時(shí),為了提高系統(tǒng)的實(shí)際應(yīng)用能力,使用組合特征提取法提高分類性能,并使用集成學(xué)習(xí)綜合多個(gè)分類器的判決結(jié)果提高系統(tǒng)的穩(wěn)定性,從而構(gòu)建適合中國法院訴訟文本的CJ-DSS。
同時(shí),結(jié)合案例,本文研究發(fā)現(xiàn),組合特征提取法確實(shí)能夠改進(jìn)和提高分類器的分類性能,而且針對SVM、ANN、KNN三種不同的分類器,DF-CHI組合特征提取法對性能的改進(jìn)程度有所差異:SVM改進(jìn)程度達(dá)到45%左右,ANN改進(jìn)程度達(dá)到80%,KNN改進(jìn)程度在40%左右。除此之外,集成學(xué)習(xí)后該系統(tǒng)的分類性能更加穩(wěn)定,性能最優(yōu)達(dá)到93.3%,有效改進(jìn)了系統(tǒng)準(zhǔn)確性。
在以往的研究中,通常文本分類系統(tǒng)的準(zhǔn)確性受到訓(xùn)練集規(guī)模的較大影響,訓(xùn)練集數(shù)據(jù)越多,往往性能越好。本文依據(jù)較小規(guī)模的文本集實(shí)現(xiàn)了較高性能的CJ-DSS系統(tǒng)設(shè)計(jì),對未來小樣本訓(xùn)練集構(gòu)建高性能系統(tǒng)有一定的借鑒意義,對其研究也應(yīng)繼續(xù)深入。同時(shí),在實(shí)際操作中,由于標(biāo)注文本的過程耗費(fèi)成本,對未標(biāo)注文本的學(xué)習(xí)建模將是數(shù)據(jù)科學(xué)家們下一步的研究方向。
[1] 董茂云. 法典法,判例法與中國的法典化道路[J]. 比較法研究, 1997, 11(4):1-31.
[2] Prevedello L M, Raja A S, Ip I K, et al. Does clinical decision support reduce unwarranted variation in yield of CT pulmonary angiogram?[J]. American Journal of Medicine, 2013, 126(11):975-81.
[3] Park S H, Rha S W, Byun J S, et al. Performance evaluation of the machine learning algorithms used in inference mechanism of a medical decision support system.[J]. The Scientific World Journal,2014,2014(7):137896-137896.
[4] O'Sullivan D, Fraccaro P, Carson E, et al. Decision time for clinical decision support systems.[J]. Clinical Medicine, 2014, 14(4):338-41.
[5] 萬映紅, 李江, 李懷祖. 虛擬合作的伙伴選擇智能決策支持系統(tǒng)框架研究[J]. 系統(tǒng)工程理論與實(shí)踐, 2001, 21(12):60-65.
[6] 方淑芬, 呂文元. 設(shè)備維修管理智能決策支持系統(tǒng)的研究[J]. 系統(tǒng)工程理論與實(shí)踐, 2001, 21(12):53-59.
[7] Tseng Y H, Lin C J, Lin Y I. Text mining techniques for patent analysis[J]. Information Processing & Management, 2007, 43(5):1216-1247.
[8] Kim J H, Choi K S. Patent document categorization based on semantic structural information[J]. Information Processing & Management An International Journal, 2007, 43(5):1200-1215.
[9] Pong Y H, Kwok C W, Lau Y K, et al. A comparative study of two automatic document classification methods in a library setting[J]. Journal of Information Science, 2008, 34(2):213-230.
[10] Fang Ruihua, Schindelman G, Auken K V, et al. Automatic categorization of diverse experimental information in the bioscience literature[J]. Bmc Bioinformatics, 2012, 13:1-12.
[11] 余樂安,汪壽陽. 基于核主元分析的帶可變懲罰因子最小二乘模糊支持向量機(jī)模型及其在信用分類中的應(yīng)用[J]. 系統(tǒng)科學(xué)與數(shù)學(xué),2009,29(10):1311-1326.
[12] Coussement K, Poel D V D. Improving customer complaint management by automatic email classification using linguistic style features as predictors[J]. Decision Support Systems, 2008, 44(4):870-882.
[13] 梁昕露,李美娟. 電信業(yè)投訴分類方法及其應(yīng)用研究[J]. 中國管理科學(xué),2015,23(S1):188-192.
[14] Al Qady M, Kandil A. Automatic classification of project documents on the basis of text content[J]. American Society of Civil Engineers, 2015,29(3):04014043.
[15] 周茜, 趙明生, 扈旻. 中文文本分類中的特征選擇研究[J]. 中文信息學(xué)報(bào), 2004, 18(3):17-23.
[16] Salton G, Yang C, S A Wang A. A vector space model for automatic indexing. Communications of the ACM, 1975,18(11):613-620.
[17] Rocchio J J. Relevance feedback in information retrieval[M]//Salton G, The SMART retrieval system: Experiments in automatic document processing. Englewood cliffs, NJ: Practice-Hall,1971.
[18] Salton G, Buckley C. Term weighting approaches in automatic text retrieval[J]. Information Processing and Management, 1988,(5):24,513-523.
[19] 趙燕平,李超.網(wǎng)絡(luò)安全信息挖掘中的特征選擇與專利分析研究[J].中國管理科學(xué),2004, 12(S1):514-518.
[20] Yang Yiming, Pedersen J O. A comparative study on feature selection in text categorization[C]//Proceedings of the 14th International Conference on Machine Learning San,Fransisco, July 08-12,1997.
[21] Lee C, Lee G G. Information gain and divergence-based feature selection for machine learning-based text categorization[J].Information Processing and Management,2006,42(1):155-165.
[22] 代六玲,黃河燕,陳肇雄. 中文文本分類中特征抽取方法的比較研究[J]. 中文信息學(xué)報(bào), 2004, 18(1):26-32.
[23] Vapnik V. The nature of statistical learning theory[M]. Berlin Springer, 2000.
[24] Burges C J C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery,1998,2(2):121-167.
[25] 程顯毅. 文本挖掘原理[M]. 北京:科學(xué)出版社, 2010.
[26] B Lantz. Machine learning with R[M]. Bejjing:China Machine Press,2015.
[27] 劉鋼, 胡四泉, 范植華,等. 神經(jīng)網(wǎng)絡(luò)在文本分類上的一種應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2003, (36):73-74.
[28] Dasarathy B V. Nearest neighbor (NN) norms: NN pattern classification techniques[M]. Los Alamitos: IEEE Computer Society Press, 1990.
[29] Weiss S M, Indurkhya,Zhang Tong. Fundamentals of predictive text mining[M]. Berlin:Springer,2012.