汪海鵬,鄭揚飛
(中國電子科技集團公司第十五研究所系統(tǒng)八部,北京 100083)
律師管理系統(tǒng)是北京市司法局重要的業(yè)務系統(tǒng),對支撐律師管理這一核心業(yè)務起著重要的作用。截止到目前,該系統(tǒng)已實現(xiàn)全市26000多名律師和2200多家律所全部許可業(yè)務和一般業(yè)務的網(wǎng)上申報、網(wǎng)上審批和年度考核,并為律師、律所辦理業(yè)務提供“引導式服務”,取得了良好的應用效果。
然而,傳統(tǒng)律師事務所提供的服務更像是一個“黑匣子”,客戶難以知曉,無論是傳統(tǒng)律師事務所還是整個律師行業(yè)都缺乏一套客觀全面的律師能力評價機制。由于法律領域存在很高的專業(yè)門檻,普通人難以判斷律師的專業(yè)能力,大多通過人脈關系尋找律師。這樣的方式效率低下,找到的律師也不一定合適。
中國電子科技集團公司第十五研究所,為北京市司法局律師管理系統(tǒng)研發(fā)單位,對項目需求、系統(tǒng)現(xiàn)狀非常了解。筆者是該所律師管理系統(tǒng)研發(fā)團隊中重要成員?,F(xiàn)對上文中提到的“黑匣子”問題進行研究,提出相對客觀的基于大數(shù)據(jù)的律師能力評價機制,將律師評價和推薦功能引入現(xiàn)有的律師管理系統(tǒng)。實現(xiàn)方法為,基于系統(tǒng)中大量的判決文書及歷史案件信息庫,對其進行關鍵信息抽取,將抽取到的關鍵信息用作律師得分計算,用得分的高低對律師的專業(yè)能力進行評價,并且推薦給需要法律幫助的用戶,幫助人們找到最合適的律師。
常見的推薦算法包括基于內容的推薦算法、協(xié)同過濾推薦算法和基于混合的推薦算法,本文采用基于特征值的推薦算法?;谔卣髦档耐扑]算法的主要流程為:選取特征值、給定特征權值、將特征進行加權計算得分、根據(jù)得分高低進行推薦。特征的選取是涉及專業(yè)領域的問題,由司法局專業(yè)人士協(xié)助完成。權值的定值則主要參考專業(yè)人士的相關經(jīng)驗和多次實驗測試所得。不同推薦方法的主要區(qū)別在于選取的特征值和特征值的權值不同,以及得分計算公式的不同。下面介紹2種常用的律師得分計算方法。
(1)
式(1)中,M表示該律師的歷史案件數(shù),N表示所有特征數(shù),wi代表第i個特征的權值,tij表示案件j的第i個特征的值。特征一般選擇代理人身份、代理人數(shù)量、原告一審勝負、原告二審勝負、被告一審勝負、被告二審勝負、案件數(shù)量等,取值為0、1或者其他實數(shù)值。其特征值如表1所示。
表1 特征值權值表
這種算法簡潔實用,客觀公正地對數(shù)據(jù)庫中的案件加權得分,按照得分的高低進行推薦,能滿足律師推薦的基本要求。但是也存在著明顯缺點,即不論用戶需要何種類型的律師,這種算法的推薦結果都大致相同。用戶需要解決民事財務糾紛的律師時,可能會給用戶推薦一位優(yōu)秀的刑辯律師。對該方法初步改良之后有以下方法。
在1.1節(jié)算法的基礎上,引入了案件相關度的概念。計算公式如式(2)所示:
(2)
其中,M表示數(shù)據(jù)庫中某律師的歷史案件數(shù),N表示所有特征數(shù),wi和tij的意義與公式(1)的意義相同,主要引入?yún)?shù)αj,其表示的是與第j個案件的相關度。對于相關度的值由以下因素決定:是否屬于同一大類,即民事案件、刑事案件與行政案件這3個大類。如屬于同一大類,是否屬于同一小類,如同屬民事案件,勞動糾紛、婚姻糾紛又是不同的小類。在同一小類是否又屬于同一案由,如同屬于婚姻糾紛,但有婚姻財產(chǎn)糾紛、監(jiān)護權糾紛等不同案由。和用戶要解決案件相關度高的案件會被賦予更大的權值,推薦系統(tǒng)會給用戶推薦解決過類似案件的律師,這種算法解決了1.1節(jié)算法中存在的無差別對待的問題,可以針對用戶不同的需求推薦不同的律師,增加了推薦到適合的律師的可能性。
上文所述算法都是常用的律師推薦算法,一般情況下可以獲得相對不錯的推薦結果。但是,上文中的推薦算法都有一個通病,即認為案件對于原告和被告的難度系數(shù)是相同的。但實際情況并非如此,在不同的案件中,勝訴的難度對于原被告方律師的難度系數(shù)是不同的。如離婚財產(chǎn)糾紛,有關離婚原因的證據(jù)多在原告方,社會輿論風向也更偏向于原告方,這種情況下原告勝訴的概率更大。原告律師在此類案件中發(fā)揮的作用較小,在此類案件中勝訴的原告方律師有可能不是專業(yè)水平很高的律師。而在另一些案件中,被告勝訴的幾率可能更大。例如涉嫌侵犯知識產(chǎn)權的糾紛,被告方多為社會影響力較高的團隊或企業(yè),因此被告方的勝率可能會更高。因此,對于數(shù)據(jù)庫中的案件,要分別對原告和被告律師設定不同的難度系數(shù),所以對1.2節(jié)中的推薦算法再次進行改進,將庫中案例對于原告和被告律師的不同難度系數(shù)引入得分計算的過程中,提出新的得分計算公式如式(3):
(3)
其中,除βj之外,各項參數(shù)都和公式(2)中的參數(shù)定義相同,βj表示某案件對于原告律師、被告律師的不同的難度系數(shù),難度系數(shù)的賦值通過對數(shù)據(jù)庫中的相同案由的案例做抽樣統(tǒng)計所得,例如,婚姻財產(chǎn)糾紛案件抽取5000起,其中原告勝訴的案件有3800起,被告勝訴的有1200起,則該案件對于原告的難度系數(shù)為0.24,對于被告的難度系數(shù)為0.76,難度系數(shù)越高,表明該案件勝訴的可能性越小,如果勝訴了,更能證明該律師的專業(yè)水平很高。
本研究的硬件實驗環(huán)境如表2所示。
表2 硬件環(huán)境表
下面通過實驗驗證第2章提出的律師得分計算算法的有效性。實驗數(shù)據(jù)為10個律師的全部歷史案件1272篇,測試數(shù)據(jù)選擇5個案由,分別是:勞動合同糾紛、社會保險糾紛、網(wǎng)絡侵權責任糾紛、機動車交通事故責任糾紛、婚姻財產(chǎn)糾紛。首先對實驗所用律師歷史案件進行統(tǒng)計,得出如下信息:共涉及10名律師,其中一審案件921起,原告勝訴的案件有562起;二審案件351起,被告勝訴的案件有233起。對于測試用5類案由,經(jīng)過和司法局專業(yè)人士的討論,設定權值如表3所示。
表3 難度系數(shù)權值表
接下來通過北京市司法局的專業(yè)人士對上述測試數(shù)據(jù)中的每個案例對10名律師進行排名,然后分別用傳統(tǒng)的律師推薦算法、引入相似度的推薦算法、引入難度系數(shù)的推薦算法這3種方法給出排序結果,與專業(yè)人士的排名結果進行比較,證明各算法的性能。在測試過程中對案由相似度系數(shù)α的定義如下:2個案件屬于2大類案件時,值設置為0.1,兩者同屬于一個大類,但是在大類中分屬不同小類時,值設置為0.4,兩者同屬于一小類,但不是同一案由時,設置為0.7,兩者為同一案由認為高度相似,值設置為1。
推薦算法的常用評價指標有多種,主要有推薦準確率、排序加權等方法,本實驗采用的評價指標為排序加權法。
排序加權法:首先由司法局專業(yè)人士對律師相對于每個案由的能力進行排序,然后再通過系統(tǒng)進行排序,將2次排序結果求絕對誤差,將所有的絕對誤差加權求和,加權的方法采用公式(4):
(4)
其中,i表示系統(tǒng)給出排名,r表示正確排名,最后,將所有數(shù)據(jù)的rf相加,作為最后的評價標準。
(5)
此方法對于預測結果中排名靠前的錯誤給予更大的懲罰。其中RF的值越小,證明推薦效果越好。
通過直接加權計算的結果為RF1,引入相似度系數(shù)的計算結果為RF2,加入難度系數(shù)的計算結果為RF3。表4給出3種方法計算結果的對比。
表4 3種算法的最終得分
通過表4所示結果可以看出,本文第2章提出的加入難度系數(shù)的得分計算方法基本在每個案由都獲得了最小的指標,且在平均值上的效果最好。因此,本文所提出的改進方法相對于常用的律師推薦方法在性能上有一定提升,說明了對律師能力進行評價時,考慮案件對于原告律師和被告律師的難度系數(shù)是有意義的。
下面給出針對勞動合同糾紛這一案由,采用3種推薦算法得出的排名結果,如表5所示。
表5 律師排名結果
根據(jù)表5,著重分析排名靠前的陳、李、楊這3名律師,3名律師在3種得分計算方法下的排名結果各不相同,這3名律師處理的歷史案件數(shù)據(jù)統(tǒng)計信息如表6所示。
表6 3名律師的歷史案件統(tǒng)計
楊、陳、李這3名律師在3種評分方式下的排名相反,主要原因就是在楊的歷史數(shù)據(jù)中,辦理的借貸合同糾紛案件數(shù)量所占比重較大,此類案件的難度系數(shù)較低,引入難度系數(shù)之后的得分情況將落后于李和陳這2名律師,與司法專家給出的排名先后順序更加一致。這進一步證明了本文方法的有效性。
本文介紹了在中國電子科技集團公司第十五研究所和北京市司法局合作研發(fā)的律師管理系統(tǒng)的基礎上,引入律師推薦功能,對常用推薦算法進行分析之后予以改進,設計了引入難度系數(shù)的律師得分計算方法,并通過實驗驗證了這種改進的有效性,改良了律師推薦結果的準確率。但算法局限于針對案由進行律師推薦,即用戶提出自己面臨的案件所屬案由,然后在系統(tǒng)給出的推薦結果中選擇相應的律師。在后續(xù)研究中會進一步嘗試,用戶僅提供案件的自然語言描述,系統(tǒng)對用戶提供的文本內容做分詞、關鍵詞抽取、關鍵詞擴展、相似度計算、分類等處理后,與律師管理系統(tǒng)中的律師信息進行匹配,作更加精確的律師推薦。