亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于詞頻-逆文檔頻率和法律本體的相似案例檢索算法

2021-10-05 12:55:10張?jiān)奇?/span>方濱興張宏莉

智能計(jì)算機(jī)與應(yīng)用 2021年5期

張?jiān)奇?，葉麟，方濱興，張宏莉

(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，哈爾濱150001)

0 引言

隨著普法率的不斷提高，普通民眾的法律意識(shí)日益增強(qiáng)，法務(wù)系統(tǒng)的建設(shè)變得愈發(fā)重要，人們對(duì)公共法律服務(wù)的需求也呈上升趨勢(shì)。由于現(xiàn)階段面向公共法律服務(wù)的專(zhuān)業(yè)隊(duì)伍規(guī)模有限，且分布在偏遠(yuǎn)地區(qū)的專(zhuān)業(yè)人員相對(duì)較少，很多民眾對(duì)公共法律服務(wù)的需求無(wú)法得到很好的滿(mǎn)足。在此情況下，智慧法務(wù)系統(tǒng)和智慧檢務(wù)系統(tǒng)應(yīng)運(yùn)而生。無(wú)論是普通民眾還是法官、律師等法律從業(yè)人員，均可從中得到所需的服務(wù)，這將為緩解專(zhuān)業(yè)隊(duì)伍規(guī)模不夠及分布不均的問(wèn)題，提供有效的系統(tǒng)和技術(shù)支撐。其中，相似案例檢索又是法務(wù)系統(tǒng)中一項(xiàng)基礎(chǔ)且必要的需求。相似案例檢索是指檢索出與用戶(hù)輸入案例相似的案例，其在法官判案、民眾普法、案件分類(lèi)等方面均起著重要的作用。但是，傳統(tǒng)的基于關(guān)鍵詞的檢索方式只能實(shí)現(xiàn)字面意義上的相似，并不能實(shí)現(xiàn)語(yǔ)義層面上的相似；而由于法律案例本身涉及很多知識(shí)領(lǐng)域，導(dǎo)致其和一般文章有所不同，因此僅依靠基于關(guān)鍵詞的檢索方式，無(wú)法實(shí)現(xiàn)非專(zhuān)業(yè)人員的精確檢索。為此，本文提出了一種基于詞頻-逆文檔頻率（TFIDF）和法律本體的相似案例檢索算法。該方法引入案例要素替代傳統(tǒng)的關(guān)鍵詞，使其能夠?qū)崿F(xiàn)語(yǔ)義上的相似文本匹配。其中，案例要素是指法律案例中的關(guān)鍵元素，如嫌疑人的個(gè)人背景、性格特點(diǎn)、心理特征以及行為表現(xiàn)等?；诎咐氐臋z索方式將法律案例的研究重點(diǎn)從關(guān)鍵詞轉(zhuǎn)移到了案例要素上，由于案例要素的法律語(yǔ)義遠(yuǎn)遠(yuǎn)強(qiáng)于關(guān)鍵詞，在專(zhuān)業(yè)性上必定優(yōu)于基于關(guān)鍵詞的查找方式，進(jìn)而更能滿(mǎn)足非專(zhuān)業(yè)人員對(duì)相似案例更加精確的檢索需求。

本文主要貢獻(xiàn)如下:

（1）提出了一種基于語(yǔ)義的相似案例檢索算法，提升了相似案例檢索結(jié)果的準(zhǔn)確性。

（2）引入了基于法條的案例要素，以公共法律服務(wù)中的監(jiān)獄教改案例為例，搭建了案件模型，并構(gòu)建了相關(guān)字典，提升了相似案例檢索結(jié)果的專(zhuān)業(yè)性。

1 相關(guān)工作

1.1 基于本體知識(shí)的文本相似度計(jì)算

基于Berners-Lee在1998年于國(guó)際萬(wàn)維網(wǎng)聯(lián)盟提出的語(yǔ)義網(wǎng)的概念，本體這一概念逐漸從中衍生出來(lái)。本體是一種重要的知識(shí)表示手段，文本相似中的本體不僅包括狹義上的本體，也包括通用詞典、詞匯表等具有本體知識(shí)的知識(shí)庫(kù)［1］。本體可以根據(jù)其通用性分為通用本體和領(lǐng)域本體。研究中常用的通用本體包括《知網(wǎng)》［2］（HowNet）、WordNet［3］等；領(lǐng)域本體包括醫(yī)學(xué)本體［4］、法律本體［5］等。

本體知識(shí)一般用樹(shù)狀結(jié)構(gòu)表示，相關(guān)算法大都基于“IS＿A”關(guān)系樹(shù)狀分類(lèi)體系。學(xué)者們通常將基于本體的文本相似度算法分為基于距離（Edge Counting Measures）、基于信息內(nèi) 容（Information Content Measures）、基于屬性（Feature-based Measures）以及混合式（Hybrid Measures）文本相似度計(jì)算［6］。

基于距離的文本相似度計(jì)算的基本思想為，利用概念之間的路徑長(zhǎng)度來(lái)度量概念之間的語(yǔ)義距離。其最基礎(chǔ)的算法為Shortest Path法［7］，在其基礎(chǔ)上，加入權(quán)重、最近公共父節(jié)點(diǎn)、樹(shù)的深度、路徑方向的改變次數(shù)等方面的考量，衍生出了Weighted Links［8］、Wu and Palmer［9］等方法。

基于信息內(nèi)容的文本相似度計(jì)算的基本思想是，利用兩概念詞共享的信息量，來(lái)度量其之間的語(yǔ)義相似性。其最具代表性的算法為L(zhǎng)ord等人［10］提出的基于最近公共父節(jié)點(diǎn)計(jì)算共享信息量的算法；在此基礎(chǔ)上，加入對(duì)其它公共父節(jié)點(diǎn)、自身結(jié)點(diǎn)的考量，分別衍生出Resnik［11］和Lin［12］法。

基于屬性的文本相似度計(jì)算的基本思想為，利用兩概念詞的公共屬性數(shù)，來(lái)度量其之間的語(yǔ)義相似性。其最具代表性的算法為T(mén)versky算法［13］。在此基礎(chǔ)上，衍生出了基于概念釋詞的方法［14］，此類(lèi)算法通過(guò)在釋詞（gloss）集合中提取公共屬性或劃分屬性的相似程度，來(lái)計(jì)算2個(gè)概念的語(yǔ)義相似程度。

混合式文本相似度計(jì)算的基本思想為，綜合以上3種方法，進(jìn)行文本相似度的計(jì)算。目前研究出的文本相似度算法，大部分都為混合式算法。

1.2 詞頻-逆文檔頻率技術(shù)

TF-IDF技術(shù)是一種被廣泛使用的特征詞提取技術(shù)，也是生成詞向量的主要手段之一。TF-IDF技術(shù)最早在文獻(xiàn)［15］中提出，該技術(shù)用于評(píng)估詞語(yǔ)對(duì)于文檔集或語(yǔ)料庫(kù)中文本的重要程度，是自然語(yǔ)言處理中提取文檔主題或關(guān)鍵詞的重要技術(shù)。其基本思想是:如果某個(gè)詞語(yǔ)在某篇文檔中出現(xiàn)頻率很高，而在語(yǔ)料庫(kù)里其它文檔中出現(xiàn)頻率很低，則這個(gè)詞語(yǔ)在某種程度上可以作為該文檔的特征詞。因此，該技術(shù)可以用作文檔分類(lèi)、文本相似度計(jì)算以及信息檢索等用途。

詞頻（TF）指的是某個(gè)詞語(yǔ)w在某篇文檔d中出現(xiàn)的次數(shù)（count（w，d））與文檔d中總詞語(yǔ)數(shù)（size（d））的比值，可用式（1）來(lái)進(jìn)行計(jì)算:

逆文檔頻率（IDF）指的是語(yǔ)料庫(kù)中的文檔總數(shù)N與詞語(yǔ)w所出現(xiàn)文件數(shù)docs（w）比值的對(duì)數(shù)，可以用式（2）來(lái)進(jìn)行計(jì)算:

而詞語(yǔ)w在文檔d中的TF-IDF值可以用式（3）計(jì)算:

為了生成每篇文檔的詞向量，需要對(duì)語(yǔ)料庫(kù)中的所有文檔進(jìn)行特征詞的抽取，總結(jié)出一串由n個(gè)特征詞組成的特征詞串w0，w1，...，wn；再針對(duì)每篇文檔，依次計(jì)算這些特征詞在該文檔中的TF-IDF值，這些值就組成了該文檔的詞向量。

例如，對(duì)于文檔d來(lái)說(shuō)，其詞向量就為（tfidf（w0，d），tf-idf（w1，d），...，tf-idf（wn，d））。利用這種方法，對(duì)語(yǔ)料庫(kù)中的每篇文檔，計(jì)算其對(duì)應(yīng)的詞向量，即可生成語(yǔ)料庫(kù)中所有文檔的詞向量集合。

2 案例要素及其選擇依據(jù)

案例要素是能夠描述案例特征的關(guān)鍵元素。由于公共法律服務(wù)案例基本都是用自然語(yǔ)言描述的，若想利用計(jì)算機(jī)對(duì)其進(jìn)行處理，就需要將其中的各案例要素進(jìn)行抽象化表示，再將抽象化表示后的案例要素進(jìn)行量化，繼而抽取每件案例中的案例要素，最終形成計(jì)算機(jī)可以處理的詞向量（即本文引入的案例要素向量）。

案例要素的選取與算法的準(zhǔn)確率密切相關(guān)。由于案例要素需要有一定的專(zhuān)業(yè)性，因此，筆者依據(jù)相關(guān)法律法規(guī)、對(duì)應(yīng)領(lǐng)域內(nèi)的專(zhuān)業(yè)知識(shí)及近千篇具體案例來(lái)選擇合適的案例要素。

以監(jiān)獄教改類(lèi)案例為例，根據(jù)司法部2003年6月13日發(fā)布的《監(jiān)獄教育改造工作規(guī)定》第四條:“監(jiān)獄教育改造工作，應(yīng)當(dāng)根據(jù)罪犯的犯罪類(lèi)型、犯罪原因、惡性程度及其思想、行為、心理特征，堅(jiān)持因人施教、以理服人、循序漸進(jìn)、注重實(shí)效的原則。”，筆者共選擇了4類(lèi)案例要素，分別為犯人的個(gè)人背景、犯人的性格特點(diǎn)、犯人的心理特征以及犯人的行為表現(xiàn)。其中由于罪犯犯罪類(lèi)型過(guò)于繁雜，且對(duì)于監(jiān)獄教改案例而言代表性較弱，因此未將犯人的犯罪類(lèi)型加入到案例要素類(lèi)別中。而犯人的個(gè)人背景很大程度上決定了犯罪原因及惡性程度，犯人的性格特點(diǎn)與其思想行為有很緊密的聯(lián)系，犯人的心理特征及行為表現(xiàn)也與該法律條款的心理特征和行為一一對(duì)應(yīng)。因此，筆者所選取的案例要素類(lèi)別非常具有代表性，能將整個(gè)案例的關(guān)鍵要素全部表征出來(lái)。

表1列出了這4個(gè)案例要素類(lèi)別中各案例要素的選取依據(jù)。

表1 案例要素選取依據(jù)Tab.1 Case elements selection basis

3 基于語(yǔ)義的相似案例檢索算法

由于基于TF-IDF技術(shù)提取出的案例要素法律語(yǔ)義較弱，并不能真正做到語(yǔ)義查詢(xún)。因此，還需要結(jié)合法律本體提取一部分案例要素，以達(dá)到增強(qiáng)法律語(yǔ)義的目的。本文將通過(guò)TF-IDF和法律本體提取出的案例要素相結(jié)合，再利用量化后的案例要素，計(jì)算輸入案例和語(yǔ)料庫(kù)中案例的歐氏距離，即可得到兩者間的相似度。

3.1 基于法律本體的案例建模

在結(jié)合法律本體提取案例要素的過(guò)程中，首先需要進(jìn)行法律本體的案例建模。案例要素的抽象化表示和量化過(guò)程即為案例建模的過(guò)程。在案例要素的抽象化表示過(guò)程中，需要以法律法規(guī)及大量案例為基礎(chǔ)，將某類(lèi)案例的特點(diǎn)分層抽象出來(lái)，進(jìn)而建立案例要素表示體系。以監(jiān)獄教改案例為例，對(duì)該類(lèi)案例進(jìn)行建模，每個(gè)監(jiān)獄教改案例向量Cjyjg均可用式（4）的形式表示:

其中，B、P、H、A分別代表犯人的個(gè)人背景、性格特點(diǎn)、心理特征以及行為表現(xiàn)。

為了使案例要素的表示體系更加充實(shí)，對(duì)案例要素四維特征中的每個(gè)特征進(jìn)行了二次抽象。通過(guò)這種分層抽象的方式使得建立的案件模型更加完整，抽取出的詞向量不會(huì)太稀疏。在對(duì)監(jiān)獄教改案例模型的四類(lèi)特征進(jìn)行二次抽象后，監(jiān)獄教改案例的具體模型可以表示為式（5）-式（8）所示:

其中，各維度的含義及值域見(jiàn)表2。

表2 監(jiān)獄教改案例要素量化表Tab.2 Quantification of case elements for prison education reform cases

表中值域?yàn)椋?，1｝，0表示犯人沒(méi)有該特征，1表示犯人有該特征；犯人的文化程度b3的值域?yàn)椋?，1，2，3，4，5｝，0-5的數(shù)字分別表示犯人文化程度為小學(xué)文化、初中文化、高中文化、中專(zhuān)文化以及接受過(guò)高等教育。

3.2 基于法律本體的案例要素提取

在建立某類(lèi)案例模型后，需要在該類(lèi)所有案例中一一提取所有的案例要素，將每個(gè)案例用詞向量的形式表示。下文利用監(jiān)獄教改類(lèi)案例進(jìn)行舉例，介紹基于法律本體的案例要素提取方式。

由于每個(gè)案例要素都有各自的特點(diǎn)，無(wú)法一概而論，因此對(duì)于不同的案例要素，需要用不同的方法來(lái)進(jìn)行提取?；诜杀倔w的案例要素提取主要有4種方法:基于正則表達(dá)式的案例要素提取方法、基于常識(shí)字典的案例要素提取方法、基于專(zhuān)業(yè)字典的案例要素提取方法、基于混合方法的案例要素提取方法。

3.2.1 基于正則表達(dá)式的案例要素提取方法

利用正則表達(dá)式提取案例要素的兩種情況:

（1）被提取的案例要素在所有案例中的描述雖然不一致，但都遵循一定規(guī)律。例如，在提取“犯人是否為未成年”這一案例要素時(shí)，每個(gè)犯人的出生時(shí)間并不一樣，且對(duì)出生時(shí)間的描述也不同。如，甲犯的出生時(shí)間描述為1989年生；乙犯的出生時(shí)間描述為1989年2月出生；丙犯的出生時(shí)間描述為1989年2月5日生等。從中可以看出，雖然每個(gè)案例對(duì)出生時(shí)間的描述不同，但是其遵循的格式規(guī)律是一致的，其格式都是最前面是4個(gè)數(shù)字，最后是一個(gè)“生”字。因此，可以通過(guò)相應(yīng)的正則表達(dá)式抽取出所需的出生年份的信息。同理，如果有些案例中沒(méi)有出生日期信息，但是有犯人年齡的信息，也可以用正則表達(dá)式將犯人的年齡抽取出來(lái)。

（2）被提取的案例要素在所有案例中的描述，無(wú)法通過(guò)一個(gè)或幾個(gè)關(guān)鍵詞判斷，還需要考慮關(guān)鍵詞的上下文，過(guò)濾掉不符合條件的情況。例如，在提取“犯人是否強(qiáng)迫”這一案例要素時(shí)，很容易知道“強(qiáng)迫”一詞肯定是判斷犯人是否強(qiáng)迫的必要不充分條件。因?yàn)楹芏喟咐杏小皬?qiáng)迫”一詞，但卻并不能說(shuō)明犯人就是有強(qiáng)迫傾向的。如，在案例描述中，該犯人因強(qiáng)迫婦女賣(mài)淫罪而被捕，該描述中也有“強(qiáng)迫”一詞，但并不能說(shuō)明該犯人有強(qiáng)迫傾向。因此，需要通過(guò)正則表達(dá)式將不符合強(qiáng)迫條件的信息過(guò)濾掉，剩下的就是所需信息。另外，該情況通常與基于常識(shí)的案例要素提取結(jié)合使用。

3.2.2 基于常識(shí)字典的案例要素提取方法

有些案例要素在所有案例中的描述可以通過(guò)一個(gè)或幾個(gè)關(guān)鍵詞來(lái)進(jìn)行判斷，即在某一案例中，只要匹配到所有對(duì)應(yīng)關(guān)鍵詞中的一個(gè)，就能夠判斷該案例擁有相應(yīng)的案例要素。而這些關(guān)鍵詞所構(gòu)成的字典，則需要在閱讀大量監(jiān)獄教改類(lèi)案例的基礎(chǔ)上，結(jié)合常識(shí)進(jìn)行總結(jié)，這種方式即為基于常識(shí)字典的案例要素提取。此種方式適用于關(guān)鍵詞較少、在文中的描述較為規(guī)范且無(wú)需考慮上下文的情況。例如，在提取“犯人的文化程度”這一案例要素時(shí)，由于該案例要素在文中的描述大都為“小學(xué)文化”、“初中文化”、“高中一年級(jí)文化”等，這樣的描述形式規(guī)范且無(wú)需考慮上下文，而文化程度的范圍只是小學(xué)到高等教育，相應(yīng)的關(guān)鍵詞較少，常識(shí)字典很好建立，因此可以用此方法來(lái)對(duì)這一案例要素進(jìn)行提取。

3.2.3 基于專(zhuān)業(yè)字典的案例要素提取方法

與常識(shí)字典相似，專(zhuān)業(yè)字典也是由關(guān)鍵詞構(gòu)成的，運(yùn)用方式也與常識(shí)字典相同。而與常識(shí)字典不同的是，專(zhuān)業(yè)字典所包含的關(guān)鍵詞數(shù)量極大，且專(zhuān)業(yè)性很高，通常為互聯(lián)網(wǎng)中可獲取的專(zhuān)業(yè)性細(xì)胞詞庫(kù)。例如，在提取“犯人是否患病”這一案例要素時(shí)，就需要收集所有疾病的名稱(chēng)。而這些疾病的名稱(chēng)顯然無(wú)法用常識(shí)總結(jié)出來(lái)，因此筆者從互聯(lián)網(wǎng)中下載了搜狗細(xì)胞詞庫(kù)中關(guān)于疾病名稱(chēng)的詞庫(kù)，通過(guò)與該詞庫(kù)中的疾病名稱(chēng)進(jìn)行匹配，即可完整抽取出這一案件要素。

3.2.4 基于混合方法的案例要素提取方法

該方法是將上述3種方式中的2種方式進(jìn)行混合使用，以達(dá)到更精確地提取案例要素的目的。如在基于正則表達(dá)式的案例要素提取方式的第二種情況中的舉例，即為基于正則表達(dá)式的案例要素提取方式與基于常識(shí)字典或?qū)I(yè)字典的案例要素提取方式的混合使用。

為了便于理解，將基于混合方法的案例要素提取進(jìn)行如下偽代碼表示。

輸入:案例文本、常識(shí)（專(zhuān)業(yè)）字典

輸出:對(duì)應(yīng)抽取元素標(biāo)志位（flag）

對(duì)不同案例要素，進(jìn)行對(duì)應(yīng)的前期處理

3.3 人工增加停用詞表

在基于TF-IDF的案例要素提取算法中，停用詞表沒(méi)有經(jīng)過(guò)任何的人工改動(dòng)。這樣雖然減少了人工操作，但會(huì)使得一些沒(méi)有區(qū)分能力的詞語(yǔ)被抽取到特征詞串中。這些詞語(yǔ)通常是一些普遍出現(xiàn)在公共法律服務(wù)案例中，但卻無(wú)法作為案例要素的詞語(yǔ)。例如，“監(jiān)獄”、“民警”等。因此，需要通過(guò)人工的方式，將它們添加到停用詞表中，這樣可以在很大程度上排除非特征詞的干擾，使提取的案例要素更具有代表性。

值得注意的是，雖然非特征詞可以通過(guò)調(diào)節(jié)max＿df參數(shù)（該參數(shù)可忽略在閾值以上的文檔數(shù)量中出現(xiàn)過(guò)的詞語(yǔ)）進(jìn)行去除，然而這種去除方式也會(huì)過(guò)濾掉那些普遍出現(xiàn)在各文檔中、卻仍能作為一篇案例的案例要素的詞語(yǔ)。例如，“焦慮”、“抑郁”等詞語(yǔ)。因此，人工增加停用詞在去掉非特征詞的基礎(chǔ)上，不會(huì)去掉真正有用的案例要素，從而使得后續(xù)計(jì)算相似度時(shí)得到的結(jié)果更加準(zhǔn)確。

3.4 計(jì)算文本相似度

通過(guò)上文的方法，將用自然語(yǔ)言描述的案例量化為詞向量后，即可進(jìn)行文本相似度的計(jì)算。該思想來(lái)自于向量空間模型（VSM）。VSM的基本思想是:假設(shè)詞與詞之間是不相關(guān)的，以向量來(lái)表示文本，從而簡(jiǎn)化了文本中關(guān)鍵詞之間的復(fù)雜關(guān)系，使得模型具備了可計(jì)算性［16］。當(dāng)模型具備可計(jì)算性之后，即可利用數(shù)學(xué)中向量的計(jì)算方法，計(jì)算2個(gè)向量之間的距離。利用歐氏距離計(jì)算空間中2個(gè)向量之間的距離。若2個(gè)向量之間的歐氏距離越小，則2個(gè)向量在空間坐標(biāo)系中就越近。具體的計(jì)算方法如下:

設(shè):向量A為（a1，a2，...，an），向量B為（b1，b2，...，bn），則二者之間的歐氏距離S可以用式（9）進(jìn)行計(jì)算:

4 算法結(jié)果對(duì)比分析

本文使用F1作為評(píng)估指標(biāo)，其主要計(jì)算方法如下所示:

其中，P為精準(zhǔn)率；R為召回率；TP表示預(yù)測(cè)為正樣本，實(shí)際為正樣本的結(jié)果數(shù)量；FN表示預(yù)測(cè)為負(fù)樣本，實(shí)際為正樣本的結(jié)果數(shù)量；FP表示預(yù)測(cè)為正樣本，實(shí)際為負(fù)樣本的結(jié)果數(shù)量。

在本實(shí)驗(yàn)中，正樣本取監(jiān)獄教改類(lèi)案例，負(fù)樣本取非監(jiān)獄教改類(lèi)案例。具體的實(shí)驗(yàn)方法為，選擇某一案例，分別利用本文所提方法和TF-IDF方法（下稱(chēng)傳統(tǒng)方法），計(jì)算該案例和語(yǔ)料庫(kù)中所有監(jiān)獄教改案例的相似程度，并選擇與該案例最相似的案例進(jìn)行分析。若檢索出的最相似案例與輸入案例之間的歐氏距離大于某一距離參數(shù)，則將輸入案例分類(lèi)到非監(jiān)獄教改案例中；反之，則將輸入案例分類(lèi)到監(jiān)獄教改案例中。

4.1 測(cè)試數(shù)據(jù)集

本文所選數(shù)據(jù)集為12348中國(guó)法網(wǎng)司法行政（法律服務(wù)）案例庫(kù)中的案例。其中語(yǔ)料庫(kù)中的語(yǔ)料為該案例庫(kù)中的監(jiān)獄教改類(lèi)案例，被試語(yǔ)料為該案例庫(kù)中的監(jiān)獄教改類(lèi)、監(jiān)獄減刑類(lèi)、法律援助類(lèi)、人民調(diào)解類(lèi)、律師工作類(lèi)案例。其中監(jiān)獄教改類(lèi)別共有1 082篇文檔，非監(jiān)獄教改類(lèi)別共有2 225篇文檔。

4.2 算法測(cè)試

實(shí)驗(yàn)主要針對(duì)本文提出的基于TF-IDF和法律本體的案例要素提取算法，以及傳統(tǒng)的基于TF-IDF案例要素提取算法進(jìn)行測(cè)試，從而驗(yàn)證本文算法對(duì)相似案例檢索結(jié)果的準(zhǔn)確性及專(zhuān)業(yè)性。

（1）本文方法對(duì)數(shù)據(jù)集測(cè)試。首先利用人工操作，在哈爾濱工業(yè)大學(xué)停用詞表的基礎(chǔ)上，增加法律方面的停用詞。之后將語(yǔ)料庫(kù)中的所有文檔進(jìn)行分詞處理，并去除停用詞。利用基于法律本體所建立的案件模型，對(duì)未經(jīng)分詞處理的原始文檔進(jìn)行第一次案例要素提取，并將每次提取到的案例要素，以詞語(yǔ)的形式添加到對(duì)應(yīng)分詞后的文檔尾部，即可得到補(bǔ)充完案例要素的文檔集合，建立詞向量TF-IDF值的計(jì)算模型；再由該模型自動(dòng)進(jìn)行第二次案例要素提取，利用3.4節(jié)所述的方法，計(jì)算出各輸入案例與語(yǔ)料庫(kù)中各案例的相似程度，進(jìn)而進(jìn)行案例分類(lèi)。

（2）傳統(tǒng)方法對(duì)數(shù)據(jù)集測(cè)試。直接對(duì)語(yǔ)料庫(kù)中的所有文檔進(jìn)行分詞處理，建立TF-IDF詞向量，并利用該詞向量進(jìn)行案例要素提取，最后利用3.4節(jié)所述的方法計(jì)算出各輸入案例與語(yǔ)料庫(kù)中各案例的相似程度，進(jìn)而進(jìn)行案例分類(lèi)。

將上述2種方法分類(lèi)結(jié)果的F1值進(jìn)行對(duì)比，即可對(duì)本文所提算法的性能進(jìn)行分析與評(píng)估。

在建立TF-IDF詞向量的過(guò)程中，將參數(shù)設(shè)定為min＿df＝0.1的含義是，忽略那些僅在10%以下的文檔數(shù)量中出現(xiàn)過(guò)的詞語(yǔ)。例如，某語(yǔ)料庫(kù)中有100篇文檔，某個(gè)詞語(yǔ)僅在其中的9篇文檔中出現(xiàn)過(guò)，那么則不將其放入語(yǔ)料庫(kù)的特征詞串中，否則，最終得到的TF-IDF詞向量矩陣將過(guò)于稀疏。在利用歐式距離的大小進(jìn)行分類(lèi)的過(guò)程中，使用的參數(shù)值為1.1，該參數(shù)為筆者通過(guò)多次實(shí)驗(yàn)及經(jīng)驗(yàn)得出的距離參數(shù)。

4.3 結(jié)果分析

由圖1中數(shù)據(jù)分別可以看出，傳統(tǒng)方法將78.33%的監(jiān)獄減刑案例錯(cuò)誤地分類(lèi)成監(jiān)獄教改案例，而本文所提方法的此概率僅為7.51%。由于監(jiān)獄減刑和監(jiān)獄教改同屬監(jiān)獄工作大類(lèi)案例，因此，在案例細(xì)分類(lèi)這一方面，本文方法遠(yuǎn)勝于傳統(tǒng)方法。

圖1 各案例分類(lèi)情況Fig.1 Classification by category

由圖2中數(shù)據(jù)可以計(jì)算出，本文所提方法的精準(zhǔn)率為84.60%，高于傳統(tǒng)方法的精準(zhǔn)率49.95%；本文所提方法的召回率為96.95%，傳統(tǒng)方法的召回率為99.26%，兩者相差無(wú)幾；本文所提方法的F1值為0.90，而傳統(tǒng)方法的F1值則為0.66，可知本文所提方法在監(jiān)獄教改類(lèi)案例的分類(lèi)上，將F1值提高了36.36%。以上數(shù)據(jù)可以有效說(shuō)明，利用本文所提方法計(jì)算相似度的效果比利用傳統(tǒng)方法計(jì)算相似度的效果更佳。

圖2 總體分類(lèi)情況Fig.2 Classification of all cases

5 結(jié)束語(yǔ)

本文提出了一種公共法律服務(wù)領(lǐng)域內(nèi)的相似案例檢索算法。該算法結(jié)合TF-IDF和法律本體，且其為基于語(yǔ)義的案例檢索。算法中引入描述案件特征的案例要素代替?zhèn)鹘y(tǒng)的關(guān)鍵詞，以增強(qiáng)案例的法律語(yǔ)義。本文搭建了公共法律服務(wù)中監(jiān)獄教改案例的案件模型，并構(gòu)建了該類(lèi)案例的字典。最后，通過(guò)與傳統(tǒng)方法比較F1值驗(yàn)證了本文所提方法的優(yōu)越性。