溫書豪 黃學(xué)軍 周良 趙英
1.中國共產(chǎn)黨欽州市委員會政策研究室 欽州 535000;
2.四川大學(xué)計算機學(xué)院 成都 610065;
3.四川大學(xué)公共管理學(xué)院 成都 610065
2017年3月12日,最高人民法院院長周強在全國人大會議上提出“加快建設(shè)智慧法院,努力提供更多優(yōu)質(zhì)司法服務(wù)”的目標。法院系統(tǒng)的司法裁判體系越來越重視對互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等技術(shù)的運用,并借助這些技術(shù)對現(xiàn)有的司法裁判體系進行改革。
但目前人工智能在司法領(lǐng)域中的應(yīng)用存在缺陷。一方面,法律數(shù)據(jù)匱乏、低質(zhì)、結(jié)構(gòu)化不足,算法存在缺陷,目前法律人工智能在實踐中的效果不佳[1]。另一方面,我國目前申請二審的案件多,在一審案件基數(shù)大、缺乏智慧量刑系統(tǒng)輔助的情況下,現(xiàn)有的司法資源與要求的司法資源相比嚴重不足,導(dǎo)致法官辦案壓力大[2],可能會在一定程度上影響著審判結(jié)果;另外,眾所周知,一些二審上訴的案件最后還是維持了原判,而二審程序卻耗費了大量的人力物力和時間,大大增加了法院的工作強度。
裁判文書是對中國司法實踐全面貌、原始面貌最為具體和客觀的反映[3],目前用作人工智能開發(fā)的法律數(shù)據(jù)基本都是裁判文書。2010年、2013年和2016年,最高人民法院前后三次發(fā)布了《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》,裁判文書上網(wǎng)公開進程大大加快,使得裁判文書的獲取更加便利。
因此,隨著裁判文書獲取的便利性提高,為了在司法實踐中減少刑事二審上訴的發(fā)生,使司法資源的配置使用更加規(guī)范合理,實現(xiàn)二審程序的公平公正,提升二審的效率,也為了支持智慧量刑系統(tǒng)的研發(fā)和修改等.本文探索了基于二審裁判文書的刑事案件上訴原因的挖掘方法,通過獲取互聯(lián)網(wǎng)上的刑事二審裁判文書并提取相關(guān)內(nèi)容,利用文本挖掘的方法分析上訴理由集中在哪些方面,有什么特征,從而可將得到的上訴理由相關(guān)信息提供給法官、智慧量刑系統(tǒng)工作者等,為法官審判和智慧量刑系統(tǒng)的開發(fā)提供信息服務(wù)和輔助參考。
馬超等[4]對中國裁判文書網(wǎng)公布的所有文書的全面性、及時性和已經(jīng)公開內(nèi)容的妥當(dāng)性進行了全面考察。郭葉等[5]以最高人民法院發(fā)布的指導(dǎo)性案例為研究對象,北大法寶網(wǎng)司法案例庫的裁判文書作為數(shù)據(jù)樣本,從不同角度分析了指導(dǎo)性案例司法應(yīng)用的特點和規(guī)律。張忠民[6]利用五千多份環(huán)境裁判文書作為樣本,對生態(tài)破壞案件的時間、地點、數(shù)量、審理程序、案由、舉證責(zé)任分配、因果關(guān)系等方面進行了全面的分析,旨在完善生態(tài)破壞的司法救濟。黃啟輝[7]通過對40家法院2767份裁判文書的統(tǒng)計分析,對行政訴訟一審的審判狀況進行了研究。朱春華[8]基于8家法院的3980份裁判文書的統(tǒng)計分析,對行政訴訟二審審判狀況進行了研究。Callander等[9]通過對無過錯賠償涉及旅游事故判決案件的分析,探討了冒險旅游經(jīng)營者在旅游事故中可能遭受的后果。Blynch等[10]利用1984—1994年間的500多個案例分析了醫(yī)療專家對潛在醫(yī)療法律索賠的意見。Chandler等[11]通過對加拿大2008年至2012年間與刑事罪犯的責(zé)任和累犯風(fēng)險有關(guān)的神經(jīng)科學(xué)證據(jù)的裁判文書,討論了加拿大刑事司法系統(tǒng)目前如何使用神經(jīng)科學(xué)證據(jù)的問題。
綜上,在以裁判文書為對象的研究中,目前國內(nèi)外學(xué)者主要從兩個方面展開:一是基于數(shù)據(jù)本身,主要是對裁判文書公開制度、問題和數(shù)據(jù)分布情況等問題的研究;二是基于數(shù)據(jù)內(nèi)容的分析,主要是對裁判文書具體內(nèi)容的分析。
程榮斌、鄧云等[12]認為我國兩審終審制存在弊端,應(yīng)區(qū)分不同案件,分別實行兩審終審和三審終審的二元化審級制度,并科學(xué)地解決上訴審的審查范圍、方式和上訴理由限制等問題。孫遠[13]認為在立法沒有對上訴制度作出根本性變革之前,應(yīng)以上訴理由為標準,對二審案件進行分流,從而盡可能實現(xiàn)刑事上訴審構(gòu)造的合理化。李昌林、王丹[14]認為要保障上訴人的權(quán)利,應(yīng)對上訴理由對二審案件進行分流,因此要將上訴理由應(yīng)規(guī)范化、明確化和法定化。楊杰輝[15]認為上訴理由具有防止濫上訴、提高訴訟效率以及明確審判對象、限制審判范圍等功能,因此應(yīng)該規(guī)定上訴理由,防止濫上訴,保障上訴案件能夠公正處理。
綜上,對刑事案件上訴理由的研究可以分為兩個方面:一是將刑事案件的上訴理由作為研究的一部分,分析刑事案件的上訴制度和程序等;二是對刑事案件中上訴理由功能的分析。
文本挖掘是通過計算機、機器學(xué)習(xí)、自然語言學(xué)以及統(tǒng)計學(xué)知識和技術(shù),快速地從海量的文本信息中抽取出事先未知的、可理解的、隱藏的有價值的知識和過程[16]。其能批量處理文本,大大提高數(shù)據(jù)分析的效率。文本挖掘流程一般包括數(shù)據(jù)預(yù)處理、知識發(fā)現(xiàn)、模式評價和結(jié)果解釋與呈現(xiàn)四個部分[17],分析可以從文本結(jié)構(gòu)分析、文本摘要、文本聚類、情感分析和趨勢預(yù)測等方面展開。
王景峰[18]利用數(shù)據(jù)挖掘方法從裁判文書中提取案件事實及其適用法律條文信息,構(gòu)建數(shù)據(jù)集進行學(xué)習(xí)得到了案件適用法律的自動識別模型。王業(yè)沛[19]從裁判文書中抽取關(guān)鍵特征,利用深度學(xué)習(xí)技術(shù)對判決結(jié)果的傾向性進行了分析,發(fā)現(xiàn)基于深度學(xué)習(xí)的模型準確率普遍優(yōu)于基于詞典規(guī)則的模型。王海亮[20]通過對大量裁判文書的挖掘構(gòu)建了法律咨詢系統(tǒng),向用戶推薦律師。梁楠[21]利用文本挖掘技術(shù)從裁判文書中獲取律師的表現(xiàn)信息,對律師進行排名從而向用戶推薦律師。高雅婷[22]基于部分裁判文書和相關(guān)數(shù)據(jù)利用文本挖掘技術(shù)設(shè)計和開發(fā)了刑事案件文本挖掘系統(tǒng)。舒洪水[23]以毒品判決書為文本挖掘?qū)ο螅肨F-IDF、N-Gram等技術(shù)方法對量刑進行了預(yù)測,構(gòu)建了量刑預(yù)測模型。
綜上,對裁判文書進行文本挖掘的研究主要是利用相關(guān)方法和手段對文書相關(guān)內(nèi)容進行提取,構(gòu)建模型,從而預(yù)測判決結(jié)果、量刑和律師推薦等。
從以上三個方面可知,目前缺乏利用相應(yīng)文本挖掘技術(shù)對上訴理由的專門分析。隨著裁判文書獲取更加便捷,本文選擇從互聯(lián)網(wǎng)相關(guān)裁判文書網(wǎng)上獲取刑事案件二審裁判文書,利用相關(guān)工具和方法,對刑事案件上訴理由及相關(guān)內(nèi)容進行挖掘和分析。
為了從裁判文書網(wǎng)站獲取刑事案件二審裁判文書并利用文書內(nèi)容提取上訴理由及相關(guān)影響因素,本文探索了基于文本挖掘的刑事案件二審上訴原因的方法。該方法主要包括三個方面:數(shù)據(jù)收集階段、數(shù)據(jù)預(yù)處理階段和上訴理由提取階段。具體如下:(1)數(shù)據(jù)收集階段
在數(shù)據(jù)收集階段,確定裁判文書獲取的網(wǎng)站,解析網(wǎng)頁的結(jié)構(gòu),通過相關(guān)爬蟲協(xié)議獲取裁判文書全文和相關(guān)數(shù)據(jù)字段。
(2)數(shù)據(jù)預(yù)處理階段
在數(shù)據(jù)預(yù)處理階段,首先對數(shù)據(jù)中存在字段空缺、數(shù)據(jù)錯位、條目重復(fù)、內(nèi)容重復(fù)等問題進行數(shù)據(jù)清洗;其次使用信息抽取的相關(guān)方法提取裁判文書中的案由、上訴人身份、上訴理由文本、審判結(jié)果;最后對上訴理由文本進行分詞。
(3)上訴理由提取
在上訴理由提取階段,首先使用相關(guān)工具對分詞好的上訴理由文本訓(xùn)練詞向量模型并保存;然后將上訴理由文本中不同詞性的詞分類,找出最能代表上訴理由詞性的詞文本;最后通過聚類算法基于保存的詞向量模型對詞性文本中的詞進行聚類。
具體流程如圖1所示。
圖1 基于文本挖掘的裁判文書分析流程圖
總體而言,本文的方法是從兩個方面進行分析:一是利用信息抽取的方法抽取出刑事案件二審裁判文書文本中的關(guān)鍵信息,包括案件包含的案由、上訴人身份和審判結(jié)果等,并分析這些相關(guān)結(jié)果中哪些因素會更多的出現(xiàn)在刑事案件二審上訴中,即說明這些因素出現(xiàn)時刑事案件二審上訴的可能性更大。二是利用文本挖掘的方法對上訴理由進行提取和分類,進而分析刑事案件二審的具體上訴原因主要出現(xiàn)在哪些方面,它們又具有什么樣的特征。
“北大法寶”是由北京大學(xué)法制信息中心與北大英華科技有限公司聯(lián)合推出的智能型法律信息一站式檢索平臺。系統(tǒng)現(xiàn)存司法案例已近千萬篇,是國內(nèi)現(xiàn)存裁判文書數(shù)據(jù)量較多、覆蓋面較廣的數(shù)據(jù)庫之一。因此在裁判文書網(wǎng)站的選取上,本文選擇了“北大法寶”網(wǎng)。
裁判文書網(wǎng)上公開的范圍和數(shù)量是隨著時間變化而逐漸增加的,也就是說在相關(guān)裁判文書網(wǎng)站,年份距現(xiàn)在越近,裁判文書的數(shù)量和類型會更全面,每種類型的文書數(shù)量也越多,即越近年份的數(shù)據(jù)越具有代表性。為了較全面地分析刑事案件二審的上訴原因,在北大法寶網(wǎng)上檢索了2019年1月1日—2019年8月22日(論文數(shù)據(jù)收集截止時)之間的所有刑事案件二審裁判文書一共48346篇。最后由于北大法寶網(wǎng)站的Ip瀏覽數(shù)量限制等原因,共爬取到2019年3月18日—2019年8月22日的刑事二審裁判文書28411篇(圖2)。
圖2 數(shù)據(jù)存儲表格(部分)
(1)信息抽取
在裁判文書全文中,大多數(shù)文書都具有相似的結(jié)構(gòu)。正則表達式是一種工具,由特定意義的字符組成,表示某種匹配的規(guī)則[24]。其能按照設(shè)定的表達式從文本數(shù)據(jù)或網(wǎng)絡(luò)頁面信息中提取部分特定信息,因此本文利用正則表達式,基于爬取到的刑事二審裁判文書內(nèi)容結(jié)構(gòu),編寫代碼匹配相應(yīng)關(guān)鍵詞,提取刑事案件二審裁判文書全文中的上訴人身份、上訴理由全文和二審審判結(jié)果。
(2)分詞
為了理想的分詞結(jié)果,本文首先利用清華大學(xué)開放中文詞庫中的法律詞表對上訴理由文本進行了分詞,該詞表來主流網(wǎng)站的社會標簽、搜索熱詞、輸入法詞庫等,包含詞頻統(tǒng)計信息DF值(Document Frequency),經(jīng)過多輪人工篩選,且一直不斷更新。然后依據(jù)上面的分詞結(jié)果,利用jieba分詞自定義詞典的方式構(gòu)造了本文的自定義詞典,對一些上訴理由的復(fù)合詞進行添加,然后再對所有的裁判文書中的上訴理由進行了分詞。
(3)上訴理由的詞性選擇
本文首先利用word2vec模型對上訴理由的分詞結(jié)果進行了詞向量模型的聚類,然后利用jieba分詞將上訴理由文本中不同詞性的詞進行分類并做了詞頻統(tǒng)計。為了找到能真正代表上訴理由的詞性,本文對不同詞性詞頻前10的詞做了統(tǒng)計(表1),發(fā)現(xiàn)上訴理由可以很清晰的被未知詞(x)代表,而其他詞性的詞并不能顯示出上訴理由。因此,本文基于統(tǒng)計結(jié)果從未知詞提取了上訴理由。
表1 上訴理由詞性分布圖(部分)
(4)基于word2vec訓(xùn)練詞向量
傳統(tǒng)的聚類方法通常的文本表示方法是空間向量模型,文本中的詞組成特征向量,特征向量構(gòu)成空間向量模型,通過計算空間向量模型中向量之間的距離來評估文本或詞之間的相似性,距離越近,文本/詞之間越相似。但若兩個文本或詞字面表達不一樣,但意義相似,即使它們的特征詞不相同,它們也是相似的。傳統(tǒng)的方法并不能解決一詞多義、一義多詞等現(xiàn)象。
裁判文書文本中由于不同法院、不同撰稿人有不同的表述用語習(xí)慣,特別是在上訴理由中,涉及量刑等的詞存在著大量意思相近而表述不同的詞,如“量刑過重”和“量刑畸重”等,為了更好的對上訴理由進行提取與分類,解決傳統(tǒng)聚類方法中一義多詞不能識別的問題,更好地對上訴理由進行分類,本文使用了一種基于word2vec[25]的文本/詞聚類方法,word2vec可以基于上下文訓(xùn)練文本的詞向量,從而識別相似詞,給予它們相近的詞向量,然后再利用傳統(tǒng)的聚類算法計算向量空間上的相似度就可以將詞/詞組分類。
本文首先利用word2vec將上訴理由文本中的詞表示成詞向量的形式,訓(xùn)練詞向量模型,word2vec中的CBOW模型能夠基于上下文給出詞的詞向量,這利于表述不一樣但意思相近的詞聚類。因此,為了進一步分析刑事案件二審上訴原因構(gòu)成,本文使用word2vec中的CBOW模型對刑事二審裁判文書中上訴理由分詞后的數(shù)據(jù)訓(xùn)練詞向量,保存詞向量模型,以便于后面的利用。
(5)基于詞向量模型進行聚類
本文選取了使用最廣泛的K-means算法來對上訴理由進行聚類。在使用聚類方法時,選擇合適的聚類數(shù)目往往是關(guān)鍵的一步,這會直接影響聚類的效果,對應(yīng)到k-means算法中,就是k值的選取,本文使用了目前常見的手肘法。手肘法可以通過對聚類文本誤差平方和(SSE)的計算,來確定k-means聚類的k值[26,27],其實現(xiàn)簡單,處理大量數(shù)據(jù)的效率高。
本文選擇了最能代表上訴理由的詞性,確定該詞性的詞的合集作為聚類的文本,然后基于訓(xùn)練好的詞向量模型用k-means算法對該文本進行聚類。并利用輪廓系數(shù)法[25]對結(jié)果進行了檢驗。
(1)文書類型
從文書類型(表2)可以看出,刑事案件二審裁判文書基本由裁定書和判決書兩種類型的文書構(gòu)成。其中,裁定書占的比例最大,達到了文書總量的90.5%以上,判決書占文書總量的比例也接近9.5%。
表2 刑事二審裁判文書類型
(2)二審審判結(jié)果
為了更好的突出二審的審判情況,本文將“維持原判”、“撤回上訴”、“撤回抗訴”和“雙方調(diào)解”這些原審審判結(jié)果未發(fā)生改變的稱為“保持原判”。而“撤銷”、“判處”和“重新審判”這些原審判決發(fā)生變化的稱為“重新審判+改判”。從結(jié)果(表3)中可以看出,刑事案件二審保持原判的數(shù)量占了大多數(shù),為84.53%,而改判的只有15.47%。
表3 審判結(jié)果總體分布
(3)案由
從詞頻統(tǒng)計的結(jié)果(圖3)所示,刑事二審涉及的案由最多的為“盜竊”,有5409件,約占裁判文書總數(shù)的19.09%;其次是“故意傷害”,有3387件,約占裁判文書總數(shù)的11.20%;此外,“詐騙”、“尋釁滋事”、“走私販賣運輸制造毒品”等都占有一定的比率,說明這些案由刑事一審后上訴的可能性大。后面的案由數(shù)量有所差別但差別不大,并且案件數(shù)量不算少,說明上訴涉及的案由多種多樣。
(4)上訴人身份
從結(jié)果(圖4)可以看出,上訴人身份的大部分集中于“原審被告人”、“原審附帶民事訴訟原告人”、“原審附帶民事訴訟被告人”等身份。其中,“原審被告人”的占比達到了92%。
圖3 案由詞頻統(tǒng)計結(jié)果前30
圖4 上訴身份詞頻統(tǒng)計前20
從未知詞詞頻統(tǒng)計結(jié)果(圖5)所示, “量刑過重”一共出現(xiàn)了13819次,出現(xiàn)次數(shù)比后面的都多出許多,在前30的詞頻中,還出現(xiàn)了“量刑重”、“量刑畸重”、“量刑偏重”等近義詞,可見“量刑過重”是最主要的上訴原因。此外,“從輕處罰”、“不構(gòu)成”、“事實不清”、“適用緩刑”等詞出現(xiàn)頻率也較高(這里需要特殊說明的是,“不構(gòu)成”在上訴理由文本中一般后接罪名,表明上訴人不構(gòu)成**罪,因為涉及罪名過多,本文為了統(tǒng)計的方便,在自定義詞典中只添加了“不構(gòu)成”這個詞),說明上訴的理由構(gòu)成要素眾多,存在于方方面面。但顯然,詞頻統(tǒng)計雖然反映了上訴理由的分布情況,但分布的情況太散,不利于規(guī)律的總結(jié),從而也得不出普適性的結(jié)論。因此,為了更好的反映上訴理由的分布,本文對上訴理由的未知詞基于訓(xùn)練好的詞向量模型進行了聚類,以期發(fā)現(xiàn)它們之間存在的關(guān)聯(lián)。
圖5 上訴理由未知詞詞頻統(tǒng)計前30
在利用訓(xùn)練好的詞向量模型對上訴理由未知詞文本進行聚類的時候,為了更好的聚類效果,本文先用手肘法基于詞向量模型計算了對未知詞文本聚類的k值(圖6),拐點在k=2的位置。因此,將上訴理由未知詞聚成了兩類。
圖6 K-means手肘法拐點圖
如上訴理由的聚類結(jié)果(圖7)所示,上訴理由可以分為兩類:第一個類大多數(shù)是上訴人對法院的審判結(jié)果的不滿,如“量刑過重”、“適用法律錯誤”、“事實不清”、“程序錯誤”等;第二個類則是上訴人自身情況的陳述,如“自首情節(jié)”、“危害小”、“積極賠償”、“態(tài)度良好”等。雖然總體都是對審判結(jié)果的不滿意,但一方面是從法院審判結(jié)果的角度出發(fā),另一方面是從陳述自身態(tài)度的角度出發(fā)。
圖7 上訴理由聚類結(jié)果
傳統(tǒng)的刑事二審案件上訴人的上訴理由一般包括四個方面[14]:
(1)認定事實錯誤;
(2)適用法律錯誤
(3)量刑過重
(4)違反訴訟程序
從聚類的結(jié)果中可以看出,類別一中的大部分詞都與量刑、事實、適用法律、訴訟程序等有關(guān),如“量刑過重”、“事實不清”、“適用法律錯誤”和“程序違法”等,這些詞與傳統(tǒng)的二審案件上訴理由基本是一致的,表明本文所用的提取上訴理由的方法是可行的。而類別二中的還存在一些詞與傳統(tǒng)二審案件的上訴理由不一樣,如“自首情節(jié)”、“積極賠償”、“次要作用”、“危害小”等,這些詞雖然有別于傳統(tǒng)的上訴理由,但經(jīng)過查證法律界相關(guān)專業(yè)文章,犯罪后的態(tài)度如“自首”、“悔罪”、“積極賠償”等都會對量刑產(chǎn)生一定的影響,在案件審判時當(dāng)事人也會以此為理由為自己減輕刑期[29],可以說這些詞也能代表當(dāng)事人的一部分上訴理由,目前,相關(guān)制度如認罪認罰從寬制度等的研究也有較高的熱度[30],但這些詞在傳統(tǒng)的上訴理由中是并沒有具體說明的,而本文所使用的辦法將這部分上訴理由挖掘了出來,表明了本文方法不但能夠挖掘出傳統(tǒng)的上訴理由,還能挖掘出其他有別于傳統(tǒng)上訴理由的而且同樣重要的上訴理由,這進一步證明了本文方法的可行性。
然后,本文使用輪廓系數(shù)法對聚類效果進行了評估,其綜合考慮了類中聚集程度和類間離散程度,取值S(i)介于[-1,1]之間,值越靠近1,表明聚類效果越好。所有數(shù)據(jù)的S(i)均值被稱為聚類結(jié)果的輪廓系數(shù)。具體公式如下:
如表4所示,基于word2vec的k-means聚類方法比傳統(tǒng)的k-means聚類方法結(jié)果要好。
表4 聚類效果S(i)值對比
本文能獲取新發(fā)現(xiàn)的基于上訴人態(tài)度的這部分上訴理由,是由于上訴理由包含一系列復(fù)合詞。為了獲取這些復(fù)合詞,本文采取了自定義詞典的方式,在自定義詞典的過程中,為了更好更準確地將這些詞提取出來,研讀了部分上訴理由的文本,將上訴理由文本中上訴人陳述的主要信息中篩選了重復(fù)出現(xiàn)次數(shù)多、有代表性的復(fù)合詞添加到自定義詞典進行分詞,從而得到了這部分新發(fā)現(xiàn)的上訴理由。從詞頻統(tǒng)計的結(jié)果也可以看出,上訴人自身情況的陳述出現(xiàn)的次數(shù)較多,是上訴理由的重要組成部分。
本文基于同樣方法對重新審判和改判案件的上訴理由進行了分析。表5是全部文書與重新審判和改判文書相關(guān)信息統(tǒng)計對比,如表5所示,在案由、上訴人身份和上訴理由統(tǒng)計中,全部二審案件與重新審判和改判案件的上訴理由前10名有大多數(shù)是相同的,且上訴理由的詞與上文傳統(tǒng)的上訴理由和文獻中涉及的詞是高度重合的,這進一步表明了本文思路和方法的可行性。
表5 全部文書與重新審判和改判文書相關(guān)信息對比
本文從互聯(lián)網(wǎng)相關(guān)裁判文書網(wǎng)站上獲取刑事案件二審裁判文書全文和相關(guān)信息,并基于裁判文書的全文對刑事案件二審的上訴人身份、上訴理由和審判結(jié)果進行了抽取,對文書類型、二審審判結(jié)果、上訴人身份和案由等相關(guān)信息進行了分析.然后對上訴理由進行了提取和分類,并進一步將重新審判和改判案件的上訴理由和全部裁判文書的上訴理由進行了對比分析。
結(jié)果表明,利用詞性提取出上訴理由關(guān)鍵信息是可行的,利用word2vec的k-means聚類方法對上訴理由進行聚類時效果好于傳統(tǒng)方法。同時,實驗證明,刑事二審的案由中,“盜竊”、“故意傷害”、“詐騙”、“尋釁滋事”和“走私販賣運輸制造毒品“等案由出現(xiàn)的次數(shù)最多。
刑事案件二審的上訴人身份中,“原審被告人”、“原審附帶民事訴訟原告人”、“原審附帶民事訴訟被告人”等上訴人身份出現(xiàn)的次數(shù)最多。刑事案件二審的上訴理由中,“量刑過重”、“從輕處罰”、“不構(gòu)成犯罪”、“事實不清”和“適用緩刑”等理由出現(xiàn)的次數(shù)最多,并且上訴理由主要從上訴人對于法院判決不滿和上訴人自身情況和態(tài)度兩個方面來陳述。重新審判和改判的案件占全部案件的比率較低,并且重新審判和改判案件與全部二審案件的上訴理由大多數(shù)相同。結(jié)果也證明了不僅可以從文本挖掘的角度來分析裁判文書,也可以利用該方法從不同方面對刑事案件二審的上訴原因進行挖掘。文本挖掘的結(jié)果也可以為一審審判、智慧量刑等提供更多的決策參考,為法務(wù)工作者提供更好的信息服務(wù)。
由于不同地區(qū)、不同法院的文書格式并不固定,內(nèi)容表述不詳盡,用語上存在一定的差異,并且還存在錯別字等情況,導(dǎo)致文本提取相關(guān)信息時存在一定阻礙和困難,由此,分析結(jié)果可能會產(chǎn)生一定誤差。希望未來在裁判文書獲取權(quán)限更開放,數(shù)據(jù)更規(guī)整的情況下做出更好、更深入的研究。