白鳳波,常 林,王世凡,李 彬,王穎潔,周 紅,劉 耀
1.中國(guó)政法大學(xué) 證據(jù)科學(xué)研究院,北京 100088
2.浙江迪安鑒定科學(xué)研究院,杭州 310000
3.中國(guó)科學(xué)技術(shù)大學(xué) 軟件學(xué)院,江蘇 蘇州 215000
4.大連大學(xué) 信息工程學(xué)院,遼寧 大連 116622
5.公安部物證鑒定中心,北京 100038
關(guān)鍵詞是反映文章中心或主旨思想的一組詞或短語(yǔ)[1],關(guān)鍵詞提取作為文本聚類(lèi)或自然語(yǔ)言處理的關(guān)鍵步驟之一,是指采用自動(dòng)化的技術(shù)在文本中提取關(guān)鍵詞的過(guò)程。關(guān)鍵詞提取可以分為有監(jiān)督提取、半監(jiān)督提取和無(wú)監(jiān)督提取三類(lèi)[2],目前普遍采用的是適應(yīng)性較強(qiáng)的無(wú)監(jiān)督的關(guān)鍵詞抽取算法。近年來(lái),研究者們對(duì)關(guān)鍵詞提取算法開(kāi)展了大量的研究工作[3]。其中,TF-IDF[4]算法作為一種基于統(tǒng)計(jì)學(xué)的提取方法,主要通過(guò)詞頻計(jì)算提取文章中的關(guān)鍵詞,但由于對(duì)詞頻的過(guò)度依賴(lài)往往會(huì)降低提取的效果。有些研究者在傳統(tǒng)的TF-IDF算法上加入語(yǔ)義、詞頻、詞長(zhǎng)、位置等多方面的信息對(duì)其進(jìn)行改進(jìn)[5-7]。針對(duì)TF-IDF算法沒(méi)有考慮特征詞在文本集上的分布特征,文獻(xiàn)[8-10]將信息熵、互信息、信息增益等與TF-IDF 進(jìn)行結(jié)合。為彌補(bǔ)數(shù)據(jù)集偏斜帶來(lái)的問(wèn)題,文獻(xiàn)[11]提出用 Category Term Descriptor(CTD)來(lái)改進(jìn)TF-IDF。還有研究者用特征選擇函數(shù)來(lái)代替IDF,將傳統(tǒng)的TF-IDF 算法改進(jìn)成TF 乘以特征選擇函數(shù)的形式[12]。基于傳統(tǒng)算法的復(fù)雜中文的專(zhuān)業(yè)短語(yǔ)抽取的準(zhǔn)確程度問(wèn)題,本文提出一種改進(jìn)的加權(quán)算法(IAKEF)。在我國(guó)加強(qiáng)依法治國(guó)的方針指引下,人工智能研究特別是自然語(yǔ)言處理與法治社會(huì)的結(jié)合必將進(jìn)一步加深。然而,通過(guò)對(duì)作為最終法庭審判結(jié)論的裁判文書(shū)進(jìn)行關(guān)鍵詞提取,為審判人員、司法鑒定、律師等司法服務(wù)工作者提供正確、全面的參考案例,有效提高工作效率顯得尤為關(guān)鍵。
判決文書(shū)雖然在詞頻與逆文檔頻率方面與其他文本處理差異很小,其關(guān)鍵詞抽取與日常用語(yǔ)中的關(guān)鍵詞有所不同。其一,停用詞有所不同。例如,像“本院認(rèn)為”“裁定”“一審”等在文書(shū)中頻繁出現(xiàn)但又無(wú)法表達(dá)文書(shū)主旨內(nèi)容的詞語(yǔ),將會(huì)成為關(guān)鍵詞提取的干擾項(xiàng)。其二,關(guān)鍵詞的詞長(zhǎng)較長(zhǎng)。裁判文書(shū)中詞長(zhǎng)為四個(gè)字以上的詞匯超過(guò)四成比例。如圖1 所示,見(jiàn)Word2Vec 抽取的關(guān)鍵詞列舉。其三,文本內(nèi)容分類(lèi)較細(xì)。由于裁判文書(shū)的類(lèi)型有七大類(lèi),各類(lèi)型的文書(shū)主題的側(cè)重不同,關(guān)鍵詞傾向也不同。
圖1 裁判文書(shū)的Word2Vec關(guān)鍵詞抽取舉例
詞頻(Term Frequency,TF)是指詞語(yǔ)在整個(gè)文本中出現(xiàn)的頻率,計(jì)算方法是用該詞語(yǔ)在文本中總共出現(xiàn)的次數(shù)除以文本中的單詞總數(shù);逆文檔頻率(Inverse Document Frequency,IDF)是用來(lái)衡量詞語(yǔ)是否具有文章代表性的評(píng)價(jià)方法,計(jì)算方法為用語(yǔ)料庫(kù)中文檔的總數(shù)除以出現(xiàn)詞語(yǔ)的文檔數(shù)目并取對(duì)數(shù)。倘若一個(gè)詞在某一類(lèi)中出現(xiàn)的頻率較高,而在其他類(lèi)中出現(xiàn)的頻率較低,則說(shuō)明該詞語(yǔ)在此類(lèi)中具有很強(qiáng)的代表性,其IDF值就高;相反,若一個(gè)詞在每個(gè)文檔中均有出現(xiàn),則其文章代表性較低,IDF 值也就低。IDF 因子在一定程度上避免了文章中常用非關(guān)鍵詞語(yǔ)成為關(guān)鍵詞的可能。
TF-IDF 的主要思想是,用TF 相乘IDF 的結(jié)果作為計(jì)算詞語(yǔ)的權(quán)重,詞語(yǔ)在文章中出現(xiàn)的頻率越高,而包含該詞語(yǔ)的文檔數(shù)越少,則認(rèn)為該詞語(yǔ)的重要性越高。
計(jì)算公式如式(1)~式(3)所示:
TF-IDF是一種基于統(tǒng)計(jì)特征的傳統(tǒng)的關(guān)鍵詞提取算法,算法的性能較好,運(yùn)算速度快,提取的結(jié)果比較符合實(shí)際。但是該算法僅僅考慮詞頻方面的因素,沒(méi)有考慮詞語(yǔ)出現(xiàn)的位置、詞性、詞長(zhǎng)等信息,具有一定的局限性。
針對(duì)TF-IDF 算法的缺陷,目前已有一些學(xué)者提出了改進(jìn)的算法,例如 TF-IDF′[7]算法、CTD[11]算法、TFIDF-IGD[10]算法以及融合多特征的TF-IDF-MTF[13]算法,這些算法都在一定程度上提高了權(quán)重計(jì)算的準(zhǔn)確率,但對(duì)于裁判文書(shū)專(zhuān)業(yè)性較強(qiáng)的數(shù)據(jù)文本來(lái)說(shuō)提取效果不是太好。本文根據(jù)裁判文書(shū)的特點(diǎn),結(jié)合已改進(jìn)的TF-IDF算法,提出了一套新的改進(jìn)方法,對(duì)裁判文書(shū)的關(guān)鍵詞提取收到了良好的效果。
2.2.1 改進(jìn)的文本預(yù)處理
通過(guò)Jieba[14]分詞和Ltp[15]分詞技術(shù)對(duì)文書(shū)的文本進(jìn)行分詞,兩種分詞工具的結(jié)合可以進(jìn)行互補(bǔ),克服各自的缺點(diǎn),從而提高了分詞的準(zhǔn)確率。同時(shí)考慮到本文所用到的數(shù)據(jù)為判決文書(shū),具有一定的法律專(zhuān)業(yè)性。所以,又以“搜狗”這一在線工具為例對(duì)其細(xì)胞詞庫(kù)中關(guān)于文書(shū)、法律和專(zhuān)有名詞方面的詞庫(kù)進(jìn)行解析,作為自定義字典,加入到Jieba 和Ltp 分詞工具中,進(jìn)一步提高了分詞的專(zhuān)業(yè)性。停用詞字典在第一輪分詞的基礎(chǔ)上進(jìn)行更新,將出現(xiàn)頻率較高的無(wú)效詞逐一加入停用詞詞典,以提高提取關(guān)鍵詞的有效率。文本中的同義詞在一定程度上也會(huì)影響關(guān)鍵詞提取的準(zhǔn)確率,例如“審判”和“審訊”作為近義詞,若在提取時(shí)單獨(dú)對(duì)待,可能因?yàn)閮烧叩臋?quán)重均較低而被忽略,若作為同一個(gè)詞進(jìn)行處理,則能避免這種情況的出現(xiàn)。在預(yù)處理階段進(jìn)行同義詞處理,根據(jù)同義詞庫(kù)合并文本相似度高的詞語(yǔ)成為了預(yù)處理階段重要的一步。改進(jìn)的文本預(yù)處理階段流程,見(jiàn)圖2。
圖2 預(yù)處理階段流程
2.2.2 基于語(yǔ)義的改進(jìn)
傳統(tǒng)的TF-IDF 算法僅僅統(tǒng)計(jì)詞頻信息,傾向于頻率較高的詞語(yǔ),沒(méi)有考慮詞語(yǔ)的語(yǔ)義、位置、詞長(zhǎng)、詞性等方面的信息,而這些因素都會(huì)影響詞語(yǔ)在文章中的表示意義,使得提取了一些頻率較高但與主題無(wú)關(guān)的關(guān)鍵詞。裁判文書(shū)作為一種特殊的法律文本,文書(shū)的標(biāo)題在一定程度上可以很好地概述全文的內(nèi)容,這也說(shuō)明了不同位置的詞語(yǔ)代表文本內(nèi)容的重要性程度不同。
針對(duì)以上提起的幾方面因素,楊凱艷在文獻(xiàn)[16]中已有探索,本文在其研究的基礎(chǔ)上加以改進(jìn),使其在語(yǔ)義上更能符合裁判文書(shū)的特點(diǎn)。本文提出將多個(gè)影響因素進(jìn)行特征融合,把得到的融合特征MTF(Multi-Term-Feature)作為乘數(shù)因子加入權(quán)重計(jì)算公式中去,以改善傳統(tǒng)算法在語(yǔ)義方面的不足。融合特征MTF的計(jì)算公式如式(4)所示:
(1)詞性因子POS(Part of Speech)
在一個(gè)句子中,不同詞性的詞語(yǔ)對(duì)句子修飾性不同,所蘊(yùn)含的信息量不同,也會(huì)導(dǎo)致句子的語(yǔ)義不同。本文通過(guò)對(duì)人工標(biāo)注的1 000 條判決文書(shū)的5 000 個(gè)關(guān)鍵詞詞性進(jìn)行分析,結(jié)果如圖3所示。
圖3 關(guān)鍵詞詞性分布
通過(guò)圖2 可知關(guān)鍵詞中大約70%的詞語(yǔ)詞性為名詞、動(dòng)詞、動(dòng)名詞,詞性為形容詞、副詞的所占比例約為20%,其他詞性所占比例為10%。所以根據(jù)詞性的分布不同,應(yīng)給予詞語(yǔ)不同的權(quán)重。本文的詞性因子計(jì)算公式如式(5)所示:
(2)詞長(zhǎng)因子TL(Term Length)
針對(duì)詞長(zhǎng)因子,目前常用的兩種評(píng)價(jià)方法,分別為詞長(zhǎng)比例權(quán)重法和設(shè)置常數(shù)法。前者是將詞語(yǔ)的長(zhǎng)度與全文中最長(zhǎng)詞語(yǔ)長(zhǎng)度的比值作為詞長(zhǎng)因子,后者則是通過(guò)對(duì)特定長(zhǎng)度的詞語(yǔ)進(jìn)行人工設(shè)置系數(shù)來(lái)為詞長(zhǎng)因子賦值。考慮到裁判文書(shū)中詞長(zhǎng)作為一項(xiàng)重要因子,對(duì)文檔主題的貢獻(xiàn)度較大,本文評(píng)價(jià)方法采用后者。通過(guò)對(duì)人工標(biāo)注的5 000 個(gè)關(guān)鍵詞詞長(zhǎng)進(jìn)行分析,其分布如圖4所示。
根據(jù)實(shí)驗(yàn)數(shù)據(jù)的百分比,得出的詞長(zhǎng)權(quán)重系數(shù)計(jì)算公式如式(6)所示:
圖4 關(guān)鍵詞詞長(zhǎng)分布
其中l(wèi)i為詞語(yǔ)長(zhǎng)度。
(3)詞位置因子WL(Word Location)
判決文書(shū)中標(biāo)題與內(nèi)容的基本符合率為95%,在文書(shū)的首段和結(jié)尾位置也往往富含大量有效信息,這些特定的位置關(guān)鍵詞出現(xiàn)的概率比較大。通過(guò)對(duì)詞語(yǔ)的位置信息進(jìn)行有效標(biāo)識(shí)可以提高關(guān)鍵詞的提取效果。本文通過(guò)將詞語(yǔ)第一次和最后一次出現(xiàn)位置作為特征對(duì)提取算法進(jìn)行改進(jìn)。
①預(yù)先的標(biāo)題處理
根據(jù)標(biāo)題與文章內(nèi)容的長(zhǎng)度,通過(guò)增加標(biāo)題在總文本中出現(xiàn)的次數(shù)加以改進(jìn)。計(jì)算公式如式(7)所示:
其中,Count(title)為標(biāo)題重復(fù)次數(shù),ceil代表向下取整。
②詞位置因子的處理
能夠總結(jié)全文的詞語(yǔ)往往出現(xiàn)在文章的末尾,對(duì)整篇文章進(jìn)行概括;而能夠開(kāi)門(mén)見(jiàn)山、指明文意的詞語(yǔ)出現(xiàn)在開(kāi)頭的概率更大,起到統(tǒng)領(lǐng)全文的作用;因此詞位置因子的計(jì)算公式如式(8)~(10)所示:
其中,F(xiàn)P(T,d)代表詞語(yǔ)的首位置,LP(T,d)代表詞語(yǔ)的末位置,F(xiàn)irstPos(T)是詞語(yǔ)T在文本d中首次出現(xiàn)時(shí)已出現(xiàn)的詞語(yǔ)數(shù),LastPos(T)代表詞語(yǔ)T最后一次出現(xiàn)時(shí)文章還未出現(xiàn)的詞語(yǔ)數(shù),SumWords(d)是文本d的詞語(yǔ)總數(shù)。
(4)詞跨度因子WS(Word Span)
詞跨度代表詞在文本中首次出現(xiàn)的位置與最后一次出現(xiàn)的位置之間的距離,反映了詞在文中的出現(xiàn)范圍。通常來(lái)講,詞在文章中出現(xiàn)的范圍越廣,即詞跨度越大,說(shuō)明該詞越能反映文章的主題[17];相反,詞跨度越小,說(shuō)明詞語(yǔ)集中在局部出現(xiàn),不能概括全文的主旨。倘若某詞在局部出現(xiàn)的頻率很大,則會(huì)一定程度上影響全文關(guān)鍵詞的提取,所以引入詞跨度因子可以較好地避免這一問(wèn)題。
詞跨度因子主要是過(guò)濾某個(gè)局部范圍內(nèi)頻率較高的詞語(yǔ),計(jì)算方法如式(11)所示:
其中,las(T)為詞T在文本d中最后一次出現(xiàn)的序號(hào),fir(T)為詞T在文本d中首次出現(xiàn)的序號(hào),SumWords(d)為文本d分詞后的總詞數(shù)。
2.2.3 基于分類(lèi)內(nèi)分布的改進(jìn)
由于裁判文書(shū)的類(lèi)型有刑事判決、民事裁定、行政判決、行政賠償、執(zhí)行裁定、民事判決、其他類(lèi)七大類(lèi),文書(shū)類(lèi)型的不同會(huì)導(dǎo)致文書(shū)主題的側(cè)重不同,即各種類(lèi)型文書(shū)之間的關(guān)鍵詞傾向不同。本文區(qū)分了裁判文書(shū)的分類(lèi),假設(shè)文本集合C中共有N種分類(lèi),C={C1,C,…,C},類(lèi)C的文本數(shù)為為詞語(yǔ)t在C2niki這一分類(lèi)出現(xiàn)的頻率[18]。計(jì)算公式如式(12)和式(13)所示:
此時(shí)分類(lèi)內(nèi)離散度Dic如式(13)所示:
其中Dii為詞語(yǔ)tk在類(lèi)Ci中無(wú)偏估計(jì)的樣本的方差,如式(14)所示:
對(duì)于兩個(gè)詞語(yǔ)T1、T2,假設(shè)計(jì)算時(shí)得出的IDF值相等,說(shuō)明包含兩詞的文檔數(shù)是一樣的。而在同一類(lèi)Ci中,假設(shè)詞語(yǔ)T1 普遍出現(xiàn)在類(lèi)Ci的各項(xiàng)文檔中,而詞語(yǔ)T2 僅出現(xiàn)在類(lèi)Ci的某幾篇文檔中,此時(shí)說(shuō)明詞語(yǔ)T1 對(duì)類(lèi)Ci更顯著,其成為類(lèi)Ci文檔中關(guān)鍵詞的可能性較大;計(jì)算它們的離散度,得到T1 的類(lèi)內(nèi)離散度值比T2 的類(lèi)內(nèi)離散度值要小,說(shuō)明類(lèi)內(nèi)離散度越低,詞語(yǔ)對(duì)應(yīng)的權(quán)重就會(huì)越高[5]。
詞語(yǔ)T在各個(gè)類(lèi)中分布不均勻,其在各個(gè)類(lèi)中代表文檔主題的影響力就不同。考慮裁判文書(shū)有民事、刑事等七大類(lèi),且各類(lèi)別的裁判文書(shū)特點(diǎn)鮮明,本文引入類(lèi)內(nèi)離散度,將詞語(yǔ)最能代表那個(gè)類(lèi)別的類(lèi)內(nèi)離散度作為該詞語(yǔ)的調(diào)整因子,解決類(lèi)內(nèi)分布差異問(wèn)題。離散度D計(jì)算方法如式(15)所示:
2.2.4 基于分類(lèi)間分布的改進(jìn)
本文中引入信息增益來(lái)解決文書(shū)分類(lèi)間的詞語(yǔ)分布的問(wèn)題。信息增益是一種基于信息論的特征選擇方法[19-20]。信息熵是由美國(guó)數(shù)學(xué)家克勞德·艾爾伍德·香農(nóng)(Claude Elwood Shannon)提出的對(duì)信息的一種度量單位,表示所蘊(yùn)含信息量的多少;在信息論中,信息熵用于描述信息空間的突發(fā)性和不確定性。熵的值越小,表示信息空間概率分布越均勻;條件熵的定義是在給定X的條件下,Y的條件概率分布的熵對(duì)X的數(shù)學(xué)期望,它描述的是觀測(cè)某個(gè)變量之后信息空間的不確定性程度;信息量被用來(lái)度量不確定性的減少程度,因此信息增益代表了所觀測(cè)的變量攜帶的信息量。其量化思想為:當(dāng)詞語(yǔ)在各個(gè)類(lèi)中分布越均勻,說(shuō)明它對(duì)類(lèi)別的區(qū)分能力越弱,即所含的信息量越少,應(yīng)給予較低的權(quán)重,反之亦然。通過(guò)把信息增益公式引入到文本集合的類(lèi)別間,依靠數(shù)據(jù)集合中類(lèi)別信息熵和文本類(lèi)別中詞語(yǔ)條件熵之間信息量的增益關(guān)系,來(lái)確定該詞語(yǔ)在文本分類(lèi)中所能提供的信息量,并把這個(gè)信息量反映到詞語(yǔ)的權(quán)重中[20]。
信息增益計(jì)算公式如式(16)所示:
假設(shè)文檔結(jié)合共有n種類(lèi)別,E(C)為文檔集合類(lèi)別C的信息熵,E(C|T)為詞語(yǔ)T對(duì)文本集類(lèi)別的條件熵;P(ci)表示類(lèi)別ci的概率,P(t)表示詞語(yǔ)T在文檔集合中出現(xiàn)的概率,P(ˉt)表示詞語(yǔ)T不出現(xiàn)的概率,P(ˉt)=1-P(t);每個(gè)樣本子集的熵,可以轉(zhuǎn)化為子集與文本集合類(lèi)別ci的條件熵,E(C|t)表示詞語(yǔ)T出現(xiàn)時(shí)類(lèi)別集合的條件熵,E(C|ˉt)表示詞條T不出現(xiàn)時(shí)類(lèi)別集合的條件熵;P(ci|t)表示ci類(lèi)中含有詞語(yǔ)T的文檔數(shù),表示ci類(lèi)中不含詞語(yǔ)T的文檔數(shù)。信息熵、條件熵的計(jì)算公式如式(17)~式(20)所示:
2.2.5 基于TextRank的改進(jìn)
TextRank 算法是利用局部詞匯之間關(guān)系(共現(xiàn)窗口)對(duì)后續(xù)關(guān)鍵詞進(jìn)行排序,用到了詞之間的關(guān)聯(lián)性,這是其優(yōu)于TF-IDF的地方,可以彌補(bǔ)傳統(tǒng)的TD-IDF算法僅考慮詞頻的問(wèn)題,因此本文提出的改進(jìn)的計(jì)算公式如式(21)所示:
本文中?為加權(quán)因子。
基于改進(jìn)的關(guān)鍵詞抽取算法,其流程見(jiàn)圖5。
圖5 改進(jìn)的關(guān)鍵詞抽取算法流程圖
步驟1文本預(yù)處理,數(shù)據(jù)清洗、格式標(biāo)記的去除、中文分詞技術(shù)、詞性標(biāo)注、以及停用詞過(guò)濾。
步驟2統(tǒng)計(jì)詞語(yǔ)信息,主要包括詞語(yǔ)的詞頻、詞性、長(zhǎng)度、出現(xiàn)的文檔數(shù)和位置。
步驟3結(jié)合信息熵、離散度、融合特征以及TextRank,根據(jù)改進(jìn)的公式計(jì)算候選詞的權(quán)重。
步驟4將候選詞權(quán)重由大到小的順序排序,取前一個(gè)詞語(yǔ)作為關(guān)鍵詞。
4.1.1 軟件環(huán)境
基于Windows 10 操作系統(tǒng),采用Python 3.5 編譯環(huán)境對(duì)上述實(shí)驗(yàn)進(jìn)行驗(yàn)證實(shí)現(xiàn)。主要采用Python 語(yǔ)言中第三方工具對(duì)系統(tǒng)數(shù)據(jù)結(jié)構(gòu)進(jìn)行設(shè)計(jì),以實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)和各種操作。其中,第三方工具包含Pyltp0.2.1、Ltp3.4.0、Pandas0.24.2、Jieba0.39、Gensim 3.7.2等。
4.1.2 硬件環(huán)境
計(jì)算機(jī)型號(hào):神舟戰(zhàn)神Z7-i78172S2。
處理器:Intel?Core? i7-4720HQ CPU @ 2.60 GHz。
安裝內(nèi)存:32.00 GB。
本文實(shí)驗(yàn)數(shù)據(jù)集是采用由網(wǎng)絡(luò)獲取的裁判文書(shū)文本數(shù)據(jù)。數(shù)據(jù)集共包含1 000 條訓(xùn)練集,已經(jīng)人工標(biāo)注關(guān)鍵詞;包含240 000 條記錄作為測(cè)試集進(jìn)行關(guān)鍵詞提取。語(yǔ)料集中主要包括刑事判決、民事裁定、行政判決、行政賠償、執(zhí)行裁定、民事判決、其他類(lèi)七大類(lèi)。本文選取已有人工標(biāo)注的1 000 條文件數(shù)據(jù),每個(gè)文書(shū)選取5個(gè)詞語(yǔ)作為關(guān)鍵詞(其中包含不少于5 000個(gè)的關(guān)鍵詞)用于實(shí)驗(yàn)仿真。因?yàn)槿肆蜁r(shí)間有限,盡量較好地保證質(zhì)量,由專(zhuān)業(yè)司法工作專(zhuān)家依照案件的緣由和類(lèi)別完成少量標(biāo)注數(shù)據(jù)。
實(shí)驗(yàn)所用測(cè)試集是用來(lái)進(jìn)行關(guān)鍵詞提取的驗(yàn)證與評(píng)價(jià)。因?yàn)闇y(cè)試集包含文本數(shù)量較大沒(méi)有全部人工標(biāo)注和評(píng)價(jià),實(shí)驗(yàn)抽樣選取其中大約1 000 條文本進(jìn)行人工標(biāo)注對(duì)比評(píng)價(jià)和分析,驗(yàn)證這部分?jǐn)?shù)據(jù)的準(zhǔn)確率。實(shí)驗(yàn)設(shè)計(jì)驗(yàn)證關(guān)鍵詞提取準(zhǔn)確程度,主要是基于人工標(biāo)注的1 000 條文書(shū)進(jìn)行的,每篇文書(shū)人工標(biāo)注5 個(gè)關(guān)鍵詞,算法提取10 個(gè)關(guān)鍵詞,用F1-Measure 作為評(píng)價(jià)標(biāo)準(zhǔn)。
為衡量關(guān)鍵詞的有效性,本文將算法提取的關(guān)鍵詞與人工標(biāo)注作比較,來(lái)判斷提取算法效果的優(yōu)劣。
4.3.1 實(shí)驗(yàn)數(shù)據(jù)處理
本文選取人工標(biāo)注的1 000 條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,其中刑事判決類(lèi)200 條、民事裁定類(lèi)200 條、行政判決類(lèi)200條、行政賠償類(lèi)50條、執(zhí)行裁定類(lèi)200條、民事判決類(lèi)50條、其他類(lèi)100條。每條數(shù)據(jù)已經(jīng)有人工標(biāo)注出5個(gè)關(guān)鍵詞作為實(shí)驗(yàn)結(jié)果比較。
4.3.2 實(shí)驗(yàn)步驟
第一步進(jìn)行文本的預(yù)處理:通過(guò)對(duì)數(shù)據(jù)進(jìn)行標(biāo)題內(nèi)容合并、分詞、停用詞和同義詞過(guò)濾處理,構(gòu)建候選詞集合。
第二步關(guān)鍵詞提?。悍謩e采用傳統(tǒng)TF-IDF 算法、TextRank[21]算法、Word2Vec[22]及改進(jìn)的算法進(jìn)行關(guān)鍵詞提取,每篇文章標(biāo)準(zhǔn)10 個(gè)關(guān)鍵詞用于與人工標(biāo)準(zhǔn)的關(guān)鍵詞對(duì)比。
4.3.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)選用準(zhǔn)確率P、召回率R、F1-Measure(F1)作為評(píng)價(jià)指標(biāo);準(zhǔn)確率P是人工標(biāo)注的關(guān)鍵詞與計(jì)算機(jī)提取關(guān)鍵詞的交集和計(jì)算機(jī)提取關(guān)鍵詞的比率,是用于評(píng)價(jià)查找準(zhǔn)確程度的指標(biāo);召回率是用人工標(biāo)注的關(guān)鍵詞與計(jì)算機(jī)提取關(guān)鍵詞的交集和人工標(biāo)注的關(guān)鍵詞的比率,是用于評(píng)價(jià)查找完全程度的指標(biāo);F1 因子是兩者的綜合指標(biāo),當(dāng)F1 因子較高時(shí),則能說(shuō)明實(shí)驗(yàn)方法比較有效。設(shè)算法提取關(guān)鍵詞集合為T(mén),人工標(biāo)注關(guān)鍵詞集合為H。P、R、F1 的計(jì)算公式如式(22)~(24)所示:
4.3.4 實(shí)驗(yàn)結(jié)果分析
按照以上步驟進(jìn)行關(guān)鍵詞提取,將不同算法的各項(xiàng)指標(biāo)存入表1 中。為了分析單一改進(jìn)策略對(duì)算法評(píng)價(jià)結(jié)果的影響,將逐一排除改進(jìn)策略的生成的評(píng)價(jià)指標(biāo)記入表2 中。不同算法準(zhǔn)確率P、召回率R、F1-Measure(F1)評(píng)價(jià)指標(biāo)比較如圖6,加權(quán)因子與P、R、F1 值對(duì)應(yīng)圖如圖7。
表1 不同算法在判決文書(shū)中評(píng)價(jià)指標(biāo)
表2 各改進(jìn)策略單獨(dú)排除的評(píng)價(jià)指標(biāo)
圖6 不同算法評(píng)價(jià)指標(biāo)比較
圖7 加權(quán)因子?與P、R、F1 值對(duì)應(yīng)圖
通過(guò)圖6 可知,不同算法對(duì)各類(lèi)判決文書(shū)的F1 評(píng)測(cè)進(jìn)行比較,TextRank 算法相比其他算法來(lái)說(shuō),在各類(lèi)文書(shū)中關(guān)鍵詞提取的效果穩(wěn)定性較高,但其準(zhǔn)確率要低于傳統(tǒng)的TF-IDF 算法和改進(jìn)的算法。Word2Vec 提取效果最差,不適用于裁判文書(shū)關(guān)鍵詞的提取。
通過(guò)圖7 可知,改進(jìn)的算法與傳統(tǒng)的TF-IDF、Text-Rank、Word2Vec相比,在準(zhǔn)確率P、召回率R、F1-Measure上都有了很大的提高,F(xiàn)1 值分別提高了0.088 00、0.150 14、0.437 07;實(shí)驗(yàn)結(jié)果表明該方法可以很好地提高對(duì)裁判文書(shū)進(jìn)行關(guān)鍵詞提取的準(zhǔn)確率;并進(jìn)一步對(duì)加權(quán)因子?研究比較,當(dāng)?=0.5 時(shí),改進(jìn)的TF-IDF算法關(guān)鍵詞準(zhǔn)確率達(dá)到最高。
圖8 TF-IDF算法的裁判文書(shū)關(guān)鍵字抽取樣本
圖9 TextRank算法的裁判文書(shū)關(guān)鍵字抽取樣本
圖10 Word2Vec算法的裁判文書(shū)關(guān)鍵字抽取樣本
圖11 IAKEF(0.5)算法的裁判文書(shū)關(guān)鍵字抽取樣本
通過(guò)圖8~11 可見(jiàn)(其中title 字段較長(zhǎng),故只截取了前三個(gè)字),雖然改進(jìn)的算法比傳統(tǒng)的TF-IDF、Text-Rank、Word2Vec評(píng)估值較好,與真正的司法常用關(guān)鍵詞仍有較大差距。例如,文中“國(guó)土資源局”“土地資源”“勞動(dòng)合同”“危險(xiǎn)駕駛罪”“民事訴訟法”,這些詞匯并沒(méi)有符合專(zhuān)家標(biāo)注意圖。因此,司法相關(guān)命名實(shí)體庫(kù)的缺失可能是導(dǎo)致這一結(jié)果的原因。
傳統(tǒng)的TF-IDF關(guān)鍵詞提取算法僅考慮詞語(yǔ)出現(xiàn)的詞頻及逆詞頻,具有一定的局限性。本文將融合特征、信息熵、離散度、TextRank引入詞語(yǔ)的權(quán)重計(jì)算公式中,考慮詞語(yǔ)的詞性、詞長(zhǎng)、詞位置和詞跨度等多重因素,提出了一種改進(jìn)的關(guān)鍵詞提取算法,解決了傳統(tǒng)算法在語(yǔ)義、類(lèi)內(nèi)外分布上的存在的不足的問(wèn)題。最后通過(guò)實(shí)驗(yàn)證明本文提出算法的有效性。分別對(duì)TF-IDF、TextRank、Word2Vec 和改進(jìn)的關(guān)鍵詞提取算法進(jìn)行實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果表明改進(jìn)的關(guān)鍵詞抽取算法(IAKEF)實(shí)驗(yàn)效果要優(yōu)于傳統(tǒng)的算法,且當(dāng)加權(quán)因子?=0.5 時(shí)準(zhǔn)確率達(dá)到最高。提出的算法分別在語(yǔ)義、類(lèi)內(nèi)外分布上的改進(jìn)策略獨(dú)立影響雖不顯著,但每項(xiàng)影響對(duì)計(jì)算結(jié)果都有積極效果。
本文還有很多不夠完善的地方,在以后的學(xué)習(xí)研究中有以下方面可以加以改進(jìn)。首先,同義詞處理可以加強(qiáng)。由于裁判文書(shū)中涉及一些專(zhuān)業(yè)性較強(qiáng)的詞匯,本文所用的同義詞詞庫(kù)來(lái)源于網(wǎng)絡(luò),對(duì)裁判文書(shū)中進(jìn)行同義詞識(shí)別時(shí)效果不是很好。采用專(zhuān)業(yè)性更為適當(dāng)?shù)乃痉ㄏ嚓P(guān)命名實(shí)體詞庫(kù)和同義詞詞庫(kù)是下一步的研究?jī)?nèi)容。其次,增加處理命名實(shí)體識(shí)別過(guò)程以解決未登錄詞問(wèn)題。使用現(xiàn)有的工具詞典不能識(shí)別的某些司法領(lǐng)域?qū)S性~語(yǔ)等未登錄詞,下一步將通過(guò)大規(guī)模語(yǔ)料標(biāo)注和訓(xùn)練以減少未登錄詞的影響。另外,詞語(yǔ)權(quán)重計(jì)算問(wèn)題可以通過(guò)增強(qiáng)特征采集方法改善。在特征設(shè)計(jì)上,通過(guò)結(jié)合更多的特征性提高關(guān)鍵詞提取效果,是下一步的研究?jī)?nèi)容。
致謝感謝迪安鑒定科學(xué)研究院院長(zhǎng)常林教授的支持及其實(shí)驗(yàn)室的同仁們的幫助。
計(jì)算機(jī)工程與應(yīng)用2020年23期