周獻(xiàn)杭 申妍燕
(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院 深圳 518055)
近年來(lái),司法部持續(xù)加強(qiáng)法律服務(wù)智能化建設(shè),深化“數(shù)字法治、智慧司法”建設(shè),旨在建設(shè)覆蓋行政立法、行政執(zhí)法、刑事執(zhí)行、公共法律服務(wù)四大職能的“大平臺(tái)、大系統(tǒng)、大數(shù)據(jù)”。隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,以及裁判文書(shū)網(wǎng)等司法公開(kāi)措施的推進(jìn),人們可以獲得越來(lái)越多的裁判文書(shū),但信息過(guò)載問(wèn)題也日益嚴(yán)重,快速且準(zhǔn)確地對(duì)海量法律文書(shū)進(jìn)行檢索顯得非常必要。如,法官通過(guò)檢索相似案例來(lái)獲取辦案參考;律師援引相似案件來(lái)作為論證依據(jù)等。
法律裁判文書(shū)檢索(Legal Case Retrieval)[1],是指從歷史裁判文書(shū)集合中抽取與用戶查詢相關(guān)的裁判文書(shū)的任務(wù)。具體地說(shuō),文本檢索模型通過(guò)計(jì)算查詢語(yǔ)句(或文檔)與每個(gè)待檢索裁判文書(shū)之間的相似度,然后根據(jù)相似度大小對(duì)裁判文書(shū)進(jìn)行排序,從而返回滿足用戶需求的裁判文書(shū)集。法律文本作為一種特殊的文本形式,具有篇幅較長(zhǎng)、結(jié)構(gòu)復(fù)雜、專業(yè)性強(qiáng)等特點(diǎn),傳統(tǒng)的基于關(guān)鍵字的文本檢索方法已經(jīng)不能滿足用戶查詢法律信息的需求?;陉P(guān)鍵字的檢索方法主要是對(duì)用戶查詢關(guān)鍵字進(jìn)行匹配,雖然能夠快速查找到所需的信息,但該類方法容易出現(xiàn)查準(zhǔn)率低、檢索不全等問(wèn)題。此外,新用戶很難通過(guò)識(shí)別合適的關(guān)鍵詞來(lái)準(zhǔn)確檢索法律裁判文書(shū)。
隨著深度學(xué)習(xí)的快速發(fā)展,學(xué)者們對(duì)語(yǔ)義檢索進(jìn)行了深入的研究和探索。語(yǔ)義檢索能夠更加準(zhǔn)確地通過(guò)用戶輸入的查詢信息理解其真正意圖,從而具有更高的查全率和查準(zhǔn)率[2]。然而,基于語(yǔ)義的文本檢索方法大多依賴于有大量標(biāo)注數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法,并且法律文本數(shù)據(jù)的人工標(biāo)注過(guò)程嚴(yán)重依賴專家知識(shí),費(fèi)時(shí)費(fèi)力,這無(wú)疑給研究工作帶來(lái)巨大的人力成本。
為了更好地解決上述問(wèn)題,本文提出一種基于無(wú)監(jiān)督學(xué)習(xí)的法律裁判文書(shū)檢索模型,分別從法律概念級(jí)別、詞語(yǔ)級(jí)別和詞組級(jí)別 3 個(gè)方面進(jìn)行多粒度文本匹配,避免了沒(méi)有訓(xùn)練數(shù)據(jù)導(dǎo)致的冷啟動(dòng)問(wèn)題。具體地說(shuō),該模型利用詞語(yǔ)級(jí)別的交互特征來(lái)捕獲用戶輸入查詢和候選文檔的關(guān)鍵詞信息;利用詞組級(jí)別的交互特征來(lái)更加靈活地捕獲特定表達(dá)信息;利用官方法律案由級(jí)別信息和提取的案由數(shù)據(jù)構(gòu)建法律知識(shí)詞典,并通過(guò)該詞典捕獲用戶查詢和文檔之間的法律概念級(jí)別匹配信息。然后深度融合法律概念級(jí)別、詞語(yǔ)級(jí)別和詞組級(jí)別的匹配信號(hào),得到最終的排序結(jié)果。實(shí)驗(yàn)結(jié)果表明,與基準(zhǔn)模型相比,本文模型在法律裁判文書(shū)檢索上取得了更好的效果,具有有效性和先進(jìn)性。
信息檢索(Information Retrieval,IR)[3]任務(wù)是將用戶的檢索查詢內(nèi)容與數(shù)據(jù)庫(kù)中大量的文檔集合根據(jù)特定的條件進(jìn)行相關(guān)性建模,計(jì)算檢索語(yǔ)句與文檔間的相關(guān)程度并召回,再對(duì)召回的文檔根據(jù)用戶需求重新排序后返回給用戶。在過(guò)去幾十年的不斷探索實(shí)踐中,已經(jīng)相繼提出許多不同的檢索模型,包括布爾模型[4]、向量空間模型[5]和概率模型[6]等傳統(tǒng)檢索模型,以及統(tǒng)計(jì)語(yǔ)言模型[7]和排序?qū)W習(xí)模型[8]。這些檢索模型成為了信息檢索技術(shù)研究的基礎(chǔ)。其中,基于排序?qū)W習(xí)的檢索模型已經(jīng)在許多應(yīng)用中取得了巨大的成功,至今仍被學(xué)者不斷研究改進(jìn),并廣泛應(yīng)用于商業(yè)檢索系統(tǒng)。近年來(lái),大數(shù)據(jù)研究掀起的機(jī)器學(xué)習(xí)熱潮,在語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理任務(wù)中取得了令人激動(dòng)的成果,加速了信息檢索技術(shù)的發(fā)展。目前,信息檢索的研究主要分為兩個(gè)方向——基于表示學(xué)習(xí)的檢索模型和基于匹配函數(shù)學(xué)習(xí)的檢索模型[9]。
1972 年,Jones[10]提出了 TF-IDF 模型,該模型將文檔和檢索語(yǔ)句轉(zhuǎn)換為特征向量,并利用加權(quán)技術(shù)評(píng)估一個(gè)字詞在文檔集合中的重要程度。這個(gè)模型在 20 世紀(jì) 80 年代一直是科研人員的研究重點(diǎn),直到現(xiàn)在,基于 TF-IDF 的衍生模型仍然被搜索引擎采用。1992 年,Robertson 等[11]提出了基于概率的 BM25 模型,該模型在傳統(tǒng) TFIDF 模型的基礎(chǔ)上增加了可調(diào)節(jié)的參數(shù),并且將文檔長(zhǎng)度作為懲罰因子,使檢索模型具有更高的實(shí)用性。該模型在許多信息檢索任務(wù)中表現(xiàn)優(yōu)異,成為重要的基準(zhǔn)算法。
傳統(tǒng)檢索模型主要通過(guò)提取詞條的特征信息,利用集合論知識(shí)、代數(shù)模型和概率模型方法進(jìn)行檢索,不需要標(biāo)注數(shù)據(jù)的支持和復(fù)雜的模型結(jié)構(gòu),屬于無(wú)監(jiān)督檢索模型范疇,可以有效解決沒(méi)有訓(xùn)練數(shù)據(jù)導(dǎo)致的冷啟動(dòng)問(wèn)題。傳統(tǒng)檢索模型依靠特征提取,但原始文檔中的噪聲信息和進(jìn)行句法分析時(shí)累積的匹配誤差會(huì)引起錯(cuò)誤的召回,從而影響最終的檢索效果。此外,傳統(tǒng)檢索模型會(huì)忽略語(yǔ)料庫(kù)外詞語(yǔ)的特征信息,同時(shí)使用孤立的關(guān)鍵詞特征脫離了上下文語(yǔ)言環(huán)境,難以還原語(yǔ)義信息,從而影響模型最終的檢索效果。
基于表示學(xué)習(xí)的模型會(huì)分別學(xué)習(xí)輸入檢索語(yǔ)句和數(shù)據(jù)庫(kù)中文檔的高層向量表示,通過(guò)構(gòu)造評(píng)估函數(shù),來(lái)得到檢索語(yǔ)句和文檔集合的匹配得分。2013 年,微軟 Huang 等[12]提出 DSSM 模型,這是首個(gè)成功地將表示學(xué)習(xí)應(yīng)用在文本匹配任務(wù)的模型,其采用有監(jiān)督訓(xùn)練方式,不需對(duì)文檔集合進(jìn)行特征標(biāo)注工程,且利用預(yù)先計(jì)算文本向量可大幅降低在線計(jì)算的消耗,該模型為深度語(yǔ)義匹配模型的鼻祖。2014 年,微軟 Shen等[13]提出的 CNN-DSSM,以及 2016 年,Palangi等[14]提出的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的 LSTM-RNN 模型,都對(duì) DSSM 模型進(jìn)行了優(yōu)化,但兩者仍需要大量的訓(xùn)練數(shù)據(jù)及 GPU 支持,導(dǎo)致許多業(yè)務(wù)難以開(kāi)展。
基于匹配函數(shù)學(xué)習(xí)的模型,主要圍繞構(gòu)建交互函數(shù)以獲得檢索語(yǔ)句和文檔中詞語(yǔ)的詳細(xì)交互信號(hào)。2014 年,Hu 等[15]在 NIPS 上提出了 ARCII模型,該模型通過(guò)對(duì)檢索語(yǔ)句和文檔中的單詞進(jìn)行 N-Gram 的卷積提取詞序信息,然后對(duì)各自卷積后得到的詞向量按對(duì)進(jìn)行計(jì)算,從而得到一個(gè)匹配度矩陣。2016 年,Guo 等[16]提出了 DRMM模型,該模型將檢索語(yǔ)句和文檔分別表示為由M個(gè)和N個(gè)詞語(yǔ)組成的向量。將檢索語(yǔ)句和文檔逐一比對(duì)計(jì)算相似度,以直方圖的形式進(jìn)行分桶計(jì)算代替池化操作,可以更好地區(qū)分相似和完全匹配,并保留原始信息。基于匹配函數(shù)學(xué)習(xí)的模型規(guī)避了對(duì)長(zhǎng)文本進(jìn)行準(zhǔn)確編碼的困難,但構(gòu)造交互矩陣難以進(jìn)行在線計(jì)算,效率有限。
在法律文本匹配領(lǐng)域[17],可利用詞嵌入的方式在文本和向量之間建立連接[18]。有的學(xué)者在基于符號(hào)的方法上引入可解釋的標(biāo)簽[19],從而在法律文件中的符號(hào)之間進(jìn)行推理。Sugathadasa 等[20]將法律案件轉(zhuǎn)移至向量空間,從而進(jìn)行文檔檢索任務(wù)。Chalkidis 和 Kampas[21]主要圍繞將現(xiàn)有的詞嵌入方法(如 word2vec[22])應(yīng)用于法律語(yǔ)料庫(kù)。Tran 等[23]設(shè)計(jì)了一種編碼摘要模型,該模型將給定法律文檔編碼到連續(xù)的向量空間中,同時(shí)嵌入文檔的摘要屬性。法律領(lǐng)域的匹配模型仍在快速發(fā)展,為了獲取法律領(lǐng)域?qū)I(yè)詞匯的表述,可以在詞嵌入中捕獲法律知識(shí),Liu 等[24]將知識(shí)圖譜結(jié)構(gòu)化信息引入神經(jīng)網(wǎng)絡(luò)檢索模型中。Zhang 等[25]利用圖嵌入技術(shù),使神經(jīng)網(wǎng)絡(luò)檢索模型能夠利用圖的結(jié)構(gòu)化數(shù)據(jù)自動(dòng)進(jìn)行特征提取,這不僅有助于克服點(diǎn)擊數(shù)據(jù)的長(zhǎng)尾問(wèn)題,而且可以通過(guò)結(jié)合外部信息來(lái)改善搜索結(jié)果。由于法律領(lǐng)域包含許多規(guī)則和知識(shí),將知識(shí)進(jìn)行建模對(duì)于法律文本匹配同樣至關(guān)重要[26]。
與通用領(lǐng)域的檢索模型相比,法律領(lǐng)域的檢索模型面向大量結(jié)構(gòu)化的法律文獻(xiàn)、法律法規(guī)和案件文書(shū),若采用傳統(tǒng)的關(guān)鍵字檢索模型,則無(wú)法得到關(guān)鍵詞之間的內(nèi)在聯(lián)系,因此,檢索文檔的召回率和排序的準(zhǔn)確率難以得到保證。由于法律信息包含司法專家長(zhǎng)期實(shí)踐的經(jīng)驗(yàn)以及法律領(lǐng)域?qū)I(yè)知識(shí)匯總形成的專業(yè)術(shù)語(yǔ)和復(fù)雜的結(jié)構(gòu)表達(dá),所以想要搜索出檢索語(yǔ)句和文檔之間更深層的含義,在獲得高召回率的同時(shí),提高排序的準(zhǔn)確率以及增加檢索結(jié)果的可用性,仍然有許多障礙[26]。因此,在前期沒(méi)有標(biāo)注數(shù)據(jù)的前提下,根據(jù)用戶輸入的自然檢索語(yǔ)句,構(gòu)建基于多粒度語(yǔ)義交互的無(wú)監(jiān)督法律裁判文書(shū)檢索模型,優(yōu)化法律領(lǐng)域的文獻(xiàn)檢索,提升排序準(zhǔn)確率具有現(xiàn)實(shí)意義。
多粒度語(yǔ)義交互的無(wú)監(jiān)督法律裁判文書(shū)檢索模型(Unsupervised Legal Case Retrieval based on Multi-granularity Semantic-aware Interaction,ULRM)的輸入為用戶的檢索語(yǔ)句,模型針對(duì)檢索語(yǔ)句分別從詞語(yǔ)級(jí)別、詞組級(jí)別、法律概念級(jí)別進(jìn)行信息匹配,綜合 3 個(gè)模塊的打分結(jié)果來(lái)決定召回文書(shū)的最終排名順序,隨后輸出精排后的裁判文書(shū)并反饋給用戶。利用詞語(yǔ)級(jí)別的交互特征來(lái)捕獲用戶輸入查詢和候選文檔的關(guān)鍵詞信息;利用詞組級(jí)別的交互特征來(lái)更加靈活地捕獲法律領(lǐng)域的特定表達(dá);利用官方法律案由級(jí)別信息和提取的案由數(shù)據(jù)構(gòu)建法律知識(shí)詞典,從而更準(zhǔn)確地匹配用戶的需求,提升檢索效果。ULRM模型結(jié)構(gòu)如圖 1 所示。
圖1 ULRM模型結(jié)構(gòu)圖Fig. 1 The architecture of the ULRM
其中,n為用戶輸入的檢索語(yǔ)句經(jīng)分詞后的關(guān)鍵詞個(gè)數(shù);m為數(shù)據(jù)庫(kù)中裁判文書(shū)經(jīng)分詞后的關(guān)鍵詞個(gè)數(shù);k為關(guān)鍵詞轉(zhuǎn)換成詞嵌入后向量的維數(shù);qi為檢索語(yǔ)句經(jīng)預(yù)處理后序列中第i個(gè)詞向量,維度為k;dj為裁判文書(shū)經(jīng)預(yù)處理后序列中第j個(gè)詞向量,維度為k。
對(duì)律所提供的 8 000 萬(wàn)份法律文書(shū)經(jīng)分詞和去停用詞處理后進(jìn)行特征提取,得到案由數(shù)據(jù)共計(jì) 1 427 條,整合律所提供的 1 392 條專業(yè)案由知識(shí)數(shù)據(jù),兩份數(shù)據(jù)集進(jìn)行去重整理后,得到刑事、民事、行政案由信息共計(jì) 1 541 條。結(jié)合官方法律案由知識(shí)信息和提取的案由關(guān)鍵詞數(shù)據(jù),構(gòu)建法律案由知識(shí)詞典。利用 TransE[28]算法將知識(shí)詞典中的實(shí)體信息、實(shí)體間的關(guān)系映射到連續(xù)低維向量空間,并表示為三元組(h,r,t)。其中,h,t分別表示實(shí)體向量信息;r為關(guān)系向量,代表實(shí)體向量h,t間的翻譯。基于實(shí)體與實(shí)體間關(guān)系的向量表示,通過(guò)訓(xùn)練調(diào)整h,r,t,最終使得h+r≈t。其中,t為h+r的最近鄰,且t與h+r的距離足夠遠(yuǎn)。圖 2 為構(gòu)建的部分法律知識(shí)詞典示例。
圖2 法律知識(shí)詞典示例Fig. 2 The example of legal knowledge base
實(shí)驗(yàn)檢索語(yǔ)句數(shù)據(jù)集由法律行業(yè)專業(yè)從業(yè)人員進(jìn)行整理,其利用專業(yè)知識(shí)和長(zhǎng)期實(shí)踐經(jīng)驗(yàn)分別從債權(quán)債務(wù)、勞動(dòng)糾紛、基礎(chǔ)設(shè)施、婚姻家事、房地產(chǎn)、投資并購(gòu)和知識(shí)產(chǎn)權(quán) 7 個(gè)方面提煉檢索語(yǔ)句共計(jì) 958 條;將檢索語(yǔ)句輸入Elasticsearch 法律文書(shū)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)包含法律文書(shū) 8 000 萬(wàn)份,每條語(yǔ)句召回的前 30 份相關(guān)文檔交由法律行業(yè)專業(yè)從業(yè)人員進(jìn)行相關(guān)性標(biāo)記,共計(jì)標(biāo)記文書(shū) 23 196 份,構(gòu)成檢索文檔數(shù)據(jù)集。
數(shù)據(jù)集描述如表 1 所示,將 958 條檢索語(yǔ)句按 8∶2 的比例拆分成訓(xùn)練集和測(cè)試集,其中,訓(xùn)練集共計(jì)包含文檔 18 589 份,平均每條檢索語(yǔ)句標(biāo)記正相關(guān)文檔 10.64 份,負(fù)相關(guān)文檔 13.78 份,每份文檔預(yù)處理前標(biāo)題平均長(zhǎng)度為32.09 字,本院認(rèn)為部分平均長(zhǎng)度 1 188.99 字;測(cè)試集共計(jì)包含文檔 4 648 份,平均每條檢索語(yǔ)句標(biāo)記正相關(guān)文檔 11.07 份,負(fù)相關(guān)文檔 13.19份,每份文檔預(yù)處理前標(biāo)題平均長(zhǎng)度為 30.73字,本院認(rèn)為部分平均長(zhǎng)度 1 209.19 字。
表1 法律裁判文書(shū)檢索數(shù)據(jù)集描述Table 1 Statistics on legal case retrieval dataset
實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)為檢索模型通用評(píng)價(jià)指標(biāo)分別為 MAP, MRR, NDCG@10。
平均精度均值(Mean Average Precision,MAP),從多個(gè)查詢上反映模型的整體檢索性能。Q為相關(guān)檢索的次數(shù),N為每次檢索的相關(guān)文檔數(shù),position為相關(guān)文檔i的排名位置,相關(guān)文檔排名越靠前則AvgP越高,MAP值也就越高。若系統(tǒng)沒(méi)有返回相關(guān)文檔,那么AvgP值為0,具體計(jì)算公式如下:
本文利用表 1 的法律數(shù)據(jù)集進(jìn)行法律文書(shū)檢索實(shí)驗(yàn),數(shù)據(jù)集中檢索語(yǔ)句與法律文書(shū)的相關(guān)性均通過(guò)人工標(biāo)注,以保證檢索結(jié)果的正確性。為證明實(shí)驗(yàn)結(jié)果的有效性,本文還選用相同的法律數(shù)據(jù)集,將 ULRM 模型與過(guò)去發(fā)表的無(wú)監(jiān)督檢索模型和在法律領(lǐng)域預(yù)微調(diào)的訓(xùn)練模型進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)比的基準(zhǔn)模型有:
(1)Jones[10]提出的 TF-IDF 模型,將檢索文檔和檢索語(yǔ)句轉(zhuǎn)換為特征向量,計(jì)算詞頻和逆文檔頻率,用以評(píng)估檢索關(guān)鍵詞對(duì)語(yǔ)料庫(kù)中文件的重要程度,還利用加權(quán)技術(shù)得到檢索語(yǔ)句與檢索文檔的相關(guān)性得分。
(2)Roberston[11]提出的 BM25 模型,在 TFIDF 模型的基礎(chǔ)上增加了可調(diào)節(jié)的參數(shù),控制最終得分對(duì)單一詞頻的敏感程度,計(jì)算檢索語(yǔ)句中每個(gè)詞與每個(gè)文檔的相關(guān)性得分,然后加權(quán)求和,同時(shí)引入文檔長(zhǎng)度和平均文檔長(zhǎng)度之比作為懲罰因子,最終得到相關(guān)性得分。
(3)查詢似然模型(Query Likelihood Model,QLM)[28]為集合中每個(gè)文檔構(gòu)建對(duì)應(yīng)的語(yǔ)言模型,利用貝葉斯算法計(jì)算給定的查詢語(yǔ)句在文檔集合中的生成概率,然后得到似然排序。
(4)Gysel[29]提出的 NVSM 模型以無(wú)監(jiān)督的的方式使用梯度下降算法,從零開(kāi)始學(xué)習(xí)檢索語(yǔ)句和文檔的低維向量表示,最后根據(jù)文檔和檢索語(yǔ)句向量間的相似性對(duì)文檔進(jìn)行排序。
(5)Shao 等[30]提出的 BERT-PLI 模型,利用BERT 捕獲段落級(jí)別的語(yǔ)義關(guān)系,然后通過(guò)匯總段落級(jí)別的交互來(lái)推斷兩個(gè)案例之間的相關(guān)性。本文使用劃分的法律檢索數(shù)據(jù)集對(duì) BERT 模型進(jìn)行微調(diào),使其適用于法律場(chǎng)景。
表 2 為已有基線模型與 ULRM 模型在法律裁判文書(shū)數(shù)據(jù)集上的檢索實(shí)驗(yàn)結(jié)果。TF-IDF 與BM25 模型指標(biāo)相近,QLM 模型指標(biāo)則較兩者表現(xiàn)稍差,由此可得,在法律裁判文書(shū)檢索領(lǐng)域,利用文檔與檢索語(yǔ)句之間的相關(guān)性建模方式效果略差于基于關(guān)鍵詞匹配的 TF-IDF 與BM25 模型。與已有無(wú)監(jiān)督的基線模型相比,ULRM 模型利用外部法律知識(shí)提高了法律知識(shí)的匹配能力,綜合詞語(yǔ)級(jí)別、詞組級(jí)別和法律概念級(jí)別 3 個(gè)方面的匹配信號(hào),在 MAP、MRR 和NDCG@10 指標(biāo)上有明顯提升;與基于 BERT 并在法律數(shù)據(jù)集上微調(diào)的預(yù)訓(xùn)練模型 BERT-PLI 相比,ULRM 模型在 MRR 與 NDCG@10 指標(biāo)上仍有小幅優(yōu)勢(shì)。本實(shí)驗(yàn)結(jié)果證明,ULRM 模型在法律文書(shū)檢索數(shù)據(jù)集上檢索的有效性。
表2 法律裁判文書(shū)數(shù)據(jù)集檢索實(shí)驗(yàn)結(jié)果Table 2 Retrieval performance on legal case retrieval dataset
ULRM 模型最終得分由詞語(yǔ)級(jí)別匹配、詞組級(jí)別匹配和法律概念級(jí)別匹配 3 個(gè)方面的評(píng)分綜合得出。為了評(píng)估各模塊的重要性,本文還對(duì)ULRM 模型進(jìn)行了消融實(shí)驗(yàn),即在單次實(shí)驗(yàn)中去除一個(gè)模塊后觀測(cè)實(shí)驗(yàn)指標(biāo)的變化情況,實(shí)驗(yàn)結(jié)果如圖 3 和表 3 所示。從表 3 中可以發(fā)現(xiàn):
圖3 ULRM 模型消融實(shí)驗(yàn)結(jié)果Fig. 3 ULRM ablation experiment
表3 法律數(shù)據(jù)集檢索消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiments on legal case retrieval dataset
(1)僅使用一個(gè)模塊時(shí),按詞語(yǔ)級(jí)別匹配 3個(gè)指標(biāo)分別為 MAP:0.655 3、MRR:0.735 2、NDCG@10:0.667 8,較其他模塊下降最少。按詞組級(jí)別匹配 3 個(gè)指標(biāo)分別為 MAP:0.642 1、MRR:0.711 2、NDCG@10:0.653 6,較其他模塊下降最多。按法律概念匹配 3 個(gè)指標(biāo)分別為MAP:0.652 3、MRR:0.731 4、NDCG@10:0.660 5。綜上所述,可知按詞語(yǔ)級(jí)別匹配對(duì)ULRM 模型的作用最大。
(2)當(dāng)禁用按詞語(yǔ)級(jí)別匹配時(shí),隨著按詞組級(jí)別匹配比例的增加,MRR 指標(biāo)趨于平緩,當(dāng)比例超過(guò) 0.4 時(shí)逐漸降低;MAP 和 NDCG@10指標(biāo)隨比例的增加呈緩慢上升趨勢(shì),當(dāng)比例在0.7 時(shí)趨近最大值,然后快速下降。
(3)當(dāng)禁用按詞組級(jí)別匹配時(shí),隨著按詞語(yǔ)級(jí)別匹配比例的增加,3 個(gè)指標(biāo)變化趨勢(shì)基本一致,呈逐漸上升趨勢(shì),在 0.7 附近時(shí),3 個(gè)指標(biāo)均逼近最大值后逐漸下降,其中,MRR 指標(biāo)下降明顯。
(4)當(dāng)禁用按法律概念級(jí)別匹配時(shí),隨著按詞語(yǔ)級(jí)別匹配比例的增加,MRR 指標(biāo)變化明顯,呈快速上升趨勢(shì),在 0.8 附近接近最大值后緩慢下降。MAP、NDCG@10 指標(biāo)先呈緩慢上升趨勢(shì),當(dāng)比例超過(guò) 0.2 時(shí)趨于平緩。
本實(shí)驗(yàn)驗(yàn)證了按詞語(yǔ)級(jí)別匹配、按詞組級(jí)別匹配和按法律概念級(jí)別匹配對(duì)于模型的指標(biāo)均有積極作用。當(dāng)使用單一模塊時(shí)模型 3 個(gè)指標(biāo)的表現(xiàn)普遍降低 0.1~0.2,引入法律知識(shí)詞典中的實(shí)體信息用更為準(zhǔn)確的語(yǔ)義描述進(jìn)行匹配,可以將按詞語(yǔ)級(jí)別匹配的 MAP、MRR、NDCG@10 分別從 0.655 3、0.735 2、0.667 9 提升至 0.663 8、0.750 2、0.676 5;將按詞組級(jí)別匹配的 MAP、MRR、NDCG@10 分別從 0.642 1、0.711 2、0.653 6 提升至 0.656 6、0.739 5、0.668 1??刂埔粋€(gè)模塊后逐漸變化各模塊的比例時(shí)模型表現(xiàn)呈獻(xiàn)先上升后下降趨勢(shì)。對(duì)比各模塊占比對(duì)實(shí)驗(yàn)指標(biāo)的影響,選用按詞語(yǔ)級(jí)別匹配比例 0.42,按詞組級(jí)別匹配比例 0.39,按法律概念級(jí)別匹配比例 0.19 時(shí)可以獲得接近最優(yōu)的指標(biāo),此時(shí) MAP 為 0.666 1,MRR 為 0.754 5,NDCG@10 為 0.679 4。表 4 為法律裁判文書(shū)檢索示例,其以“土地出讓合同約定了建設(shè)規(guī)模、容積率,但建成物業(yè)的建設(shè)規(guī)劃、容積率超出土地出讓合同約定的法律后果?”為檢索問(wèn)題,各模型經(jīng)檢索排序后的第一個(gè)結(jié)果標(biāo)題及案由信息如表 4 所示。
表4 法律裁判文書(shū)檢索示例Table 4 An example of legal case retrieval
在法律文書(shū)檢索領(lǐng)域,由于文書(shū)內(nèi)容的特殊性,往往缺乏大量的標(biāo)注數(shù)據(jù),從而難以通過(guò)訓(xùn)練得到效果優(yōu)異的深度學(xué)習(xí)模型。此外,標(biāo)注訓(xùn)練數(shù)據(jù)需要耗費(fèi)大量法律行業(yè)從業(yè)人員的時(shí)間及精力,人工成本較高。因此,本文提出了基于無(wú)監(jiān)督的法律裁判文書(shū)檢索模型 ULRM,綜合詞語(yǔ)級(jí)別、詞組級(jí)別和法律概念級(jí)別 3 個(gè)方面的打分結(jié)果,來(lái)對(duì)召回文書(shū)進(jìn)行重排名:在詞語(yǔ)級(jí)別,利用注意力機(jī)制獲取用戶輸入信息和法律文書(shū)的關(guān)鍵詞信號(hào);在詞組級(jí)別,引入平均池化層模擬短語(yǔ)匹配從而獲取更多關(guān)鍵詞匹配信號(hào);在法律概念級(jí)別,考慮法律專業(yè)術(shù)語(yǔ)實(shí)體信息從而更準(zhǔn)確地獲取匹配信號(hào),提升模型的檢索效果。
模型使用無(wú)監(jiān)督的方式避免了對(duì)大量標(biāo)注數(shù)據(jù)的依賴,并通過(guò)實(shí)驗(yàn)驗(yàn)證,該模型在法律裁判文書(shū)數(shù)據(jù)集上的 MAP、MRR、NDCG@10 指標(biāo)遠(yuǎn)超已有基線模型,與基于 BERT 并在法律數(shù)據(jù)集上微調(diào)的預(yù)訓(xùn)練模型 BERT-PLI 結(jié)果相近,能夠?qū)φ倩匚臅?shū)進(jìn)行有效重排序。由于模型 3 個(gè)模塊主要使用關(guān)鍵字信息進(jìn)行檢索,對(duì)于語(yǔ)料庫(kù)中缺少的內(nèi)容無(wú)法識(shí)別,同時(shí)由于詞袋模型的使用無(wú)法關(guān)聯(lián)上下文語(yǔ)義,對(duì)模型指標(biāo)的提升仍有局限。因此,將模型部署上線,利用無(wú)監(jiān)督模型獲取用戶的檢索及點(diǎn)擊數(shù)據(jù),對(duì)于標(biāo)注數(shù)據(jù)的獲取及后期進(jìn)行有監(jiān)督模型的訓(xùn)練具有重要意義。