亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SimHash算法的案件輔助判決系統(tǒng)研究

        2017-11-03 08:33:36游景揚(yáng)陳建峽
        關(guān)鍵詞:背景噪聲文書(shū)裁判

        李 銳, 游景揚(yáng), 劉 穩(wěn), 王 錦, 陳建峽

        (湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院, 湖北 武漢 430068)

        基于SimHash算法的案件輔助判決系統(tǒng)研究

        李 銳, 游景揚(yáng), 劉 穩(wěn), 王 錦, 陳建峽

        (湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院, 湖北 武漢 430068)

        為提高法院工作效率和判案的公正性,開(kāi)發(fā)了案件輔助判決系統(tǒng)。將裁判文書(shū)分為刑事、民事、執(zhí)行、賠償、行政5大案件類(lèi)型,便于對(duì)判決書(shū)的處理,存儲(chǔ)和查詢(xún)。系統(tǒng)采用SimHash算法,對(duì)用戶(hù)提交的判決書(shū)提取關(guān)鍵信息,查找出數(shù)據(jù)庫(kù)中同類(lèi)型判決書(shū)中相似度最高的判決書(shū)推薦給用戶(hù)。

        裁判文書(shū); SimHash算法; 輔助判決系統(tǒng)

        法院判決書(shū),是指法院根據(jù)案件的判決寫(xiě)成的文書(shū)。判決書(shū)具有既判力、確定力和執(zhí)行力。從2014年1月1日起,最高人民法院發(fā)布新規(guī)定:法院生效的判決書(shū)在互聯(lián)網(wǎng)全面公布,除涉及國(guó)家機(jī)密、個(gè)人隱私、未成年犯罪以及其他四類(lèi)判決書(shū)外,公眾均可隨時(shí)查閱。因此,案件的審判結(jié)果越來(lái)越受關(guān)注。然而,即使對(duì)于同類(lèi)型的案件,不同的法官也會(huì)有不同的衡量標(biāo)準(zhǔn)。在判決案件之前,法官往往想知道以往同類(lèi)案件的判決如何,曾經(jīng)引起了社會(huì)怎樣的反應(yīng),從而對(duì)當(dāng)前的案件判決起到重要的參考作用。

        本文研究的案件輔助判決系統(tǒng),對(duì)于已有的判決書(shū)文中關(guān)鍵信息進(jìn)行機(jī)器記錄學(xué)習(xí),并為使用者提供有用的信息查詢(xún),能夠讓法官快速得到類(lèi)似案件的裁決文書(shū)。這樣不僅能夠減少法院工作人員對(duì)于新的案件的審判時(shí)間,極大地提高實(shí)際工作的效率,而且便于查看到該案件的判決引發(fā)的社會(huì)效應(yīng)與輿論,避免同案不同判。

        本文所研究的案件輔助判決系統(tǒng),是基于文本相似度模型的中文裁判文書(shū)推薦系統(tǒng)。在文本相似度模型中,采用了SimHash算法實(shí)現(xiàn)法院輔助判決系統(tǒng),該算法早期運(yùn)用在Google的網(wǎng)頁(yè)去重技術(shù),用以提高網(wǎng)頁(yè)的查詢(xún)效率。目前國(guó)內(nèi)SimHash算法應(yīng)用也比較廣泛,主要應(yīng)用在海量文檔的反作弊系統(tǒng),搜索引擎的爬蟲(chóng)系統(tǒng),相似指紋檢索,相似人臉檢索等方面。其中,應(yīng)用SimHash算法開(kāi)發(fā)出的GroupLens[1]系統(tǒng)通過(guò)社會(huì)信息過(guò)濾系統(tǒng)的使用歷史的相關(guān)信息,計(jì)算出用戶(hù)之間的相似度并對(duì)于相似信息進(jìn)行推薦。這一系統(tǒng)早期也是國(guó)外開(kāi)發(fā)的,如今國(guó)內(nèi)應(yīng)用也十分普遍,豆瓣網(wǎng)通過(guò)記錄下用戶(hù)閱讀過(guò)的文章、購(gòu)買(mǎi)過(guò)的商品、聽(tīng)過(guò)的音樂(lè)等瀏覽歷史痕跡,以協(xié)同過(guò)濾的方式猜測(cè)用戶(hù)職業(yè)類(lèi)型,喜好方向及圈子,建立用戶(hù)的行為向量模型,為用戶(hù)推薦可能符合需求的網(wǎng)頁(yè)內(nèi)容。

        目前,國(guó)內(nèi)沒(méi)有出現(xiàn)過(guò)運(yùn)用SimHash算法來(lái)檢索相似度較高的裁判文書(shū),僅有的是將裁判文書(shū)[2]做一個(gè)結(jié)構(gòu)化信息的存儲(chǔ),然后在數(shù)據(jù)庫(kù)中建立全文索引,給用戶(hù)提供捜索功能。比如中國(guó)裁判文書(shū)網(wǎng)的搜索裁判文書(shū)功能。

        本系統(tǒng)采用了B/S架構(gòu),采用分層的設(shè)計(jì)思想,運(yùn)用了SSI框架搭建整個(gè)web系統(tǒng)。借鑒中國(guó)裁判文書(shū)網(wǎng)的分類(lèi)方式,本系統(tǒng)將裁判文書(shū)分為刑事、民事、執(zhí)行、賠償、行政5大案件類(lèi)型,在這5種類(lèi)型的基礎(chǔ)上細(xì)分為幾十種小類(lèi)型,便于對(duì)判決書(shū)的處理、存儲(chǔ)和查詢(xún)。系統(tǒng)對(duì)用戶(hù)提交的判決書(shū)提取關(guān)鍵信息,采用SimHash算法查找出數(shù)據(jù)庫(kù)中同類(lèi)型判決書(shū)中相似度最高的判決書(shū)推薦給用戶(hù)。

        1 SimHash算法

        1.1SimHash算法原理

        文本相似度的研究主要是從提高查準(zhǔn)率、查找速度等方面進(jìn)行,目前已有諸如布 爾模型、概率模型、向量空間模型等文本表示模型,相似度度量及距離度量等相似度計(jì)算方法,也有關(guān)于文本分詞及語(yǔ)義等方面的研究[3]。本系統(tǒng)中采用的文本相似度算法是SimHash算法,是Google工程師Charikar提出的一種計(jì)算文本相似度的算法,它將一篇文檔轉(zhuǎn)化為一個(gè)t位2進(jìn)制的簽名,如需比較兩篇文檔,只需要將這兩篇文檔生成的t位2進(jìn)制簽名進(jìn)行比較[4]。SimHash算法對(duì)一篇文檔產(chǎn)生一個(gè)長(zhǎng)度為t位的二進(jìn)制簽名的偽代碼(表1)。每篇文檔產(chǎn)生了一個(gè)二進(jìn)制簽名,比較兩篇文檔的相似度,假如現(xiàn)在有兩個(gè)8位二進(jìn)制簽名00101101,01101001。這兩個(gè)八位簽名中有兩位不相同,則這兩篇文檔的海明距離為2。兩篇文檔的海明距離越小,則相似度越高。SimHash 算法發(fā)明人 Charikar在論文中闡述,64位簽名的SimHash算法,海明距離在 3 以?xún)?nèi)的文本都可以認(rèn)為是近重復(fù)文本[5].所以采用64位簽名的SimHash算法。然后根據(jù)其相似度矩陣,得到兩篇文檔的相似度。

        SimHash算法的偽代碼如下:

        Begin

        Class SimHash{

        Input String container;

        Input BigInteger intSimHash;

        Input String strSimHash;

        Input int Bit<-32;

        SimHash(){

        Input int v[];

        Input ArrayList t[];

        String Word;

        while(t.hasNext()){

        Word<-t.next();

        BigInteger w<-this.hash();

        for(int I<-0 To Bit){

        BigInteger bitmask<-

        newBigInteger("1").shiftLeft(i);

        if(t.amd(bitmask).signum()!=0){

        v[i]<-v[i] add 1;

        }else{

        v[i]<-v[i] substract 1;

        }}}

        StringBuffer tb;

        for(int i<-0 To B it){

        if(v[i]>=0){

        tb.append(1);

        }else{

        tb.append(0);

        }}}

        Hash(String source){

        if(source==null || source.length==0){

        return new BigInteger("0");

        }else{

        char[] sourceArray<-source.toCharArray();

        BigInteger hash<-new BigInteger(sourceArray[0])<<7;

        BigInteger m <- new BigInteger("10000030");

        BigInteger mask<- new BigInteger(2^(-32));

        for(char item<-sourceArray[0] To sourceArray[source.length-1]){

        BigInteger temp = new BigInteger(item);

        hash<-((x multiply m)^temp)&mask;

        }

        if(hash == BigInteger("-1")){

        hash<-BigInteger("-2");

        }}

        return hash;

        }

        GetDistance(String str1,String str2){

        Input int distance;

        if(str1.length()!=str2.length()){

        distance<-(-1);

        }else{

        Distance <- 0;

        for(int i<-0 To Bit){

        distance++;

        }}

        return distance;

        }}

        End

        1.2SimHash算法實(shí)驗(yàn)分析

        1.2.1實(shí)驗(yàn)環(huán)境及配置說(shuō)明測(cè)試計(jì)算機(jī)的硬件配置是第六代Inter Core i5處理器,8GB內(nèi)存,1T 5400轉(zhuǎn)硬盤(pán)的PC;軟件配置采用了基于Windows10操作系統(tǒng),Java Development Kit配置運(yùn)行時(shí)環(huán)境,同時(shí)安裝了Myeclipse編譯器作為單個(gè)案例測(cè)試文本運(yùn)行工具。Tomcat7.0作為B/S架構(gòu)中的服務(wù)器,F(xiàn)irefox作為測(cè)試中訪(fǎng)問(wèn)的瀏覽器。

        衡量一個(gè)相似度算法的優(yōu)劣是該算法是否能從海量文本中找出最有價(jià)值的文檔亦即與當(dāng)前文檔相似度匹配最高的一批文檔。本文將測(cè)試分為單個(gè)案例測(cè)試和實(shí)際應(yīng)用測(cè)試。

        1.2.2SimHash算法單個(gè)案例實(shí)驗(yàn)本文采用了四個(gè)測(cè)試文本(表1),實(shí)驗(yàn)結(jié)果見(jiàn)表2。從表2可以看出,文本1和文本2的海明距離為2,在這四篇文本中相似度最高。文本2和文本4海明距離為11,在這四篇文本中相似度最低。

        表1 測(cè)試文本

        表2 SimHash算法實(shí)驗(yàn)結(jié)果

        從表1的文本結(jié)構(gòu)分析,文本1,文本2,文本3結(jié)構(gòu)大體上相似,內(nèi)容上也有很多相同,理論上來(lái)說(shuō)相似度最高的兩篇應(yīng)該從這三篇中產(chǎn)生;而文本4和上面3篇文本結(jié)構(gòu)并不相似,內(nèi)容也相去甚遠(yuǎn),所以相似度最低的應(yīng)該從文本4和另外3篇文本比較中產(chǎn)生,與代碼運(yùn)行的結(jié)果一致。

        1.3.3法院判決書(shū)測(cè)試結(jié)果及分析在實(shí)際測(cè)試中,本文預(yù)先標(biāo)記部分文檔作為測(cè)試中的目標(biāo)文檔。然后將本文的目標(biāo)文檔和待測(cè)試文檔混合在一起。通過(guò)該文本相似度推薦后,得到推薦的文檔列表衡量該算法的性能[6]。

        表2中第一行表示推薦的文檔排名,第二行為推薦的文檔名,第三行為推薦文本效果值。如果推薦文本屬于本文預(yù)先給出的目標(biāo)文檔,則推薦效果值為該相似值,如果屬于背景噪聲文檔,則定義推薦效果值為0,如果屬于強(qiáng)噪聲文檔,則定義為相似度的相反數(shù)。本文使用DCGp指標(biāo)衡量算法的推薦性能。

        式中p表示排名,rel表示推薦效果值。因?yàn)椴门形臅?shū)分為5大類(lèi)型,故而本文將實(shí)驗(yàn)分為5組,分別為刑事案件、民事案件、賠償案件、行政案件、執(zhí)行案件;將文檔分為3種類(lèi)型:目標(biāo)文檔、強(qiáng)噪聲文檔、背景噪聲文檔。目標(biāo)文檔是本文預(yù)先處理的和原文檔相似度極高的文檔;強(qiáng)噪聲文檔即本文在網(wǎng)上爬取的和本文裁判文書(shū)完全不相關(guān)的文檔;背景噪聲文檔是某法院3年的裁判文書(shū)集,總共是16 542篇,其中行政案件705篇,民事案件12 457篇,賠償案件8篇,刑事案件1493篇,執(zhí)行案件1879篇(表4)。

        表3 推薦結(jié)果列表

        表4 測(cè)試數(shù)據(jù)信息

        表5 測(cè)試結(jié)果

        最后得到測(cè)試結(jié)果見(jiàn)表5。在5種案件類(lèi)型的測(cè)試中,行政案件推薦的5篇文檔都屬于目標(biāo)文檔,民事案件中前3篇文檔屬于目標(biāo)文檔,后2篇屬于背景噪聲文檔,賠償案件中5篇文檔全部屬于目標(biāo)文檔,刑事案件中推薦的第5篇文檔屬于背景噪聲文檔,其余是目標(biāo)文檔,執(zhí)行案件中推薦的第4篇文檔為背景噪聲文檔。其余4篇是目標(biāo)文檔。在這5次實(shí)驗(yàn)中系統(tǒng)沒(méi)有向本文推薦強(qiáng)噪聲文檔。本文通過(guò)DCGp公式,求出了這5種類(lèi)型案件的DCGp的值(表6)。

        表6 最終DCGp結(jié)果

        從DCGp結(jié)果來(lái)看,行政案件的DCGp值最大,系統(tǒng)推薦的結(jié)果是最佳的;賠償案件其次,但是賠償案件的背景噪聲文檔的量相對(duì)于其他的類(lèi)型嚴(yán)重偏少??赡軐?dǎo)致此類(lèi)型案件測(cè)試結(jié)果可信度低。民事案件DCGp值最小,這個(gè)和背景噪聲文檔的量太大有關(guān)系,因?yàn)樵诒尘霸肼曃臋n中可能有和提交的原文檔相似度很高的文檔,所以推薦結(jié)果中出現(xiàn)了較多的背景噪聲文檔。本文可以看到所有的測(cè)試結(jié)果中系統(tǒng)沒(méi)有給本文推薦強(qiáng)噪聲文檔,綜上分析這個(gè)推薦結(jié)果有一定可靠性,這種情況差錯(cuò)率幾乎為零。以上數(shù)據(jù)表示,根據(jù)SimHash算法設(shè)計(jì)出來(lái)的文本內(nèi)容推薦系統(tǒng)是成功的。

        2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2.1系統(tǒng)總體設(shè)計(jì)

        該系統(tǒng)主要包含三個(gè)功能模塊:系統(tǒng)管理、案件查詢(xún)、同案同判(圖1)。前端頁(yè)面開(kāi)發(fā)運(yùn)用Html CSS JavaScript技術(shù),后臺(tái)使用Java語(yǔ)言,為了提高開(kāi)發(fā)效率且易于維護(hù),采用了SSI框架,MVC模式使系統(tǒng)開(kāi)發(fā)過(guò)程更加清晰。

        圖 1 系統(tǒng)總體架構(gòu)圖

        2.2系統(tǒng)功能模塊設(shè)計(jì)

        2.2.1系統(tǒng)總體功能模塊系統(tǒng)總體功能模塊見(jiàn)圖2。

        圖 2 系統(tǒng)總體功能模塊圖

        2.2.2系統(tǒng)功能子模塊設(shè)計(jì)系統(tǒng)管理模塊分為兩個(gè)部分,新聞中心和案件信息。新聞中心工作流程見(jiàn)圖3。案件查詢(xún)子模塊可以分為根據(jù)案件類(lèi)型查詢(xún)根據(jù)法院層級(jí)和案件審判時(shí)間查詢(xún)。其模塊工作流程見(jiàn)圖4。

        圖 3 系統(tǒng)管理子模塊流程圖

        圖 4 案件查詢(xún)子模塊流程圖

        圖 5 同案同判流程圖

        同案同判子模塊是從數(shù)據(jù)庫(kù)中查找相同類(lèi)型的案件,并從中選出三個(gè)與此案件相似程度最高的案件,然后查看三個(gè)案件的信息,根據(jù)三個(gè)案件的審判結(jié)果來(lái)裁決此案件。其模塊工作流程見(jiàn)圖5。

        2.3系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)

        系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)見(jiàn)表7~表10。

        表7 案件信息表

        表8 案件人員表

        表9 案件人員關(guān)聯(lián)表

        表10 特征值表

        2.4系統(tǒng)實(shí)現(xiàn)

        系統(tǒng)界面實(shí)現(xiàn)見(jiàn)圖6,案件查詢(xún)子模塊實(shí)現(xiàn)見(jiàn)圖7,同案同判子模塊實(shí)現(xiàn)見(jiàn)圖8。

        圖 6 系統(tǒng)首頁(yè)

        圖 7 案件查詢(xún)

        圖 8 案件文本推薦

        3 總結(jié)與展望

        中文的文本相似度計(jì)算處理非常復(fù)雜,在具體應(yīng)用中還有很多不確定性,無(wú)法統(tǒng)一給出解決方案。有很多難點(diǎn)、問(wèn)題需要不斷地去發(fā)現(xiàn)、探討和改進(jìn)。

        1)對(duì)中文分詞技術(shù)的研究和實(shí)現(xiàn)

        由于時(shí)間和條件有限,考慮到中文分詞在本文中只是文本預(yù)處理的一個(gè)步驟,本文使用了中文分詞器來(lái)完成分詞的工作。但中文分詞技術(shù)是文本挖掘、信息處理的關(guān)鍵基礎(chǔ)工作,它的有效計(jì)算也是非常重要的。因此,下一步可以研究建立自己的分詞系統(tǒng)。

        2)對(duì)于相似度的考慮

        在實(shí)際的應(yīng)用過(guò)程中,很多地方需要用到相似度,在本文的方法中,段落數(shù)比較多的情況下,會(huì)根據(jù)預(yù)先設(shè)置的關(guān)鍵字,把較低相似度的語(yǔ)句舍棄,從而減少計(jì)算量。目前關(guān)鍵字的設(shè)置大多是按照經(jīng)驗(yàn)人工設(shè)置的,今后可以從這方面入手,研究自動(dòng)設(shè)置關(guān)鍵字方法,使得系統(tǒng)效率得到提高。

        3)文本相似度計(jì)算方法的進(jìn)一步研究

        本文僅對(duì)文本相似度的計(jì)算作了初步研究。未來(lái)對(duì)于文本理解的相似度計(jì)算必然成為中文文本處理的主流,因?yàn)檫@種方法更適合漢語(yǔ)語(yǔ)言的特點(diǎn)和習(xí)慣。建立一個(gè)更好的文本理解模型,并把它應(yīng)用到更多的領(lǐng)域進(jìn)行事件處理,將是進(jìn)一步研究的主要目標(biāo)。

        [1] Sohn J S, Bae U B, Chung I J. Contents recommendation method using social network analysis[J]. Wireless Personal Communications, 2013, 73(4):1529-1546.

        [2] 向李興. 基于自然語(yǔ)言處理的裁判文書(shū)推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 南京:南京大學(xué),2015.

        [3] 譚靜.基于向量空間模型的文本相似度研究[D]. 成都:西南石油大學(xué),2015.

        [4] 董博,鄭慶華,宋凱磊,等. 基于多 SimHash指紋的近似文本檢測(cè)[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2017,17(5):129-132.

        [5] Scherbina A, Kuznetsov S. Clustering of Web sessions using levenshtein metric[C]//International Conference on Advances in Data Mining: Applications in Image Mining, Medicine and Biotechnology, Management and Environmental Control, and Telecommunications. Springer-Verlag, 2004:127-133.

        [6] 伍盛. 基于詞義相似度的文本推薦系統(tǒng)的研究與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué),2012.

        [責(zé)任編校:張巖芳]

        TheLegalDecisionSupportSystemBasedonSimHashAlgorithm

        LI Rui, YOU Jingyang, LIU Wen, WANG Jin, CHEN Jianxia

        (SchoolofComputerScience,HubeiUniv.ofTech.,Wuhan430068,China)

        The paper proposes an decision support system for the legal case judgements, in which the system divides the cases into five categories: criminal, civil, execution, compensation, and administrative ones in order to process, preserve and query the cases easily. In particular, the system, using the SimHash algorithm, extracts the key information from the judgements that users submit, and finds the similar decision in the database with the highest similarity and then recommends it to the users. The experimental results show that the system can not only greatly improve the efficiency of the actual work, but also help to improve the impartiality of judgements.

        judgements; SimHash algorithm; the decision support system

        2016-12-10

        湖北省教育廳青年基金(Q20141420)

        李 銳(1994-), 男, 湖北嘉魚(yú)人,湖北工業(yè)大學(xué)本科生,研究方向?yàn)闄C(jī)器學(xué)習(xí)

        游景揚(yáng)(1996-),男,河南信陽(yáng)人,湖北工業(yè)大學(xué)本科生, 研究方向機(jī)器學(xué)習(xí)

        1003-4684(2017)05-0067-06

        TP391

        A

        猜你喜歡
        背景噪聲文書(shū)裁判
        窄帶電力線(xiàn)通信信道背景噪聲抑制方法
        太行山文書(shū)精品選(17)
        法官如此裁判
        法官如此裁判
        監(jiān)獄執(zhí)法文書(shū)規(guī)范探討
        法律裁判中的比較推理
        法律方法(2019年4期)2019-11-16 01:07:10
        黑水城出土《宋西北邊境軍政文書(shū)》中“砲”類(lèi)文書(shū)再討論
        西夏學(xué)(2019年1期)2019-02-10 06:22:40
        清代刑事裁判中的“從重”
        應(yīng)用背景噪聲成像研究祁連山地區(qū)地殼S波速度結(jié)構(gòu)
        地震研究(2017年3期)2017-11-06 23:38:05
        海上單道地震勘探中船舶等背景噪聲的影響分析及壓制
        日本a在线播放| 成在线人免费视频| 国产超碰人人模人人爽人人喊| 国产精品九九九久久九九| 久久亚洲精品ab无码播放| 91spa国产无码| 亚洲成熟丰满熟妇高潮XXXXX | 亚洲av日韩av永久无码下载| a人片在线观看苍苍影院| 国产乱色国产精品免费视频| 国产午夜精品久久久久九九| 色婷婷精品大在线视频| 国产精品亚洲片在线观看不卡| 亚洲av综合色区无码一二三区| 伊人婷婷色香五月综合缴激情| 女同重口味一区二区在线| 人妻熟妇乱又伦精品视频| 国产成人无码区免费内射一片色欲| 综合无码综合网站| 国产高清不卡二区三区在线观看| 国产成人精品优优av| 午夜亚洲av永久无码精品| 中文字幕天天躁日日躁狠狠| 亚洲av网一区二区三区成人| a级国产乱理伦片| 国产小受呻吟gv视频在线观看| 亚洲日韩AV无码美腿丝袜| 国产精品一区二区熟女不卡| 中文无码一区二区三区在线观看| japanesehd中国产在线看| 成人午夜无人区一区二区| 伊人久久亚洲综合av影院| 刺激一区仑乱| 欧美不卡视频一区发布| 久久99国产亚洲高清观看首页| 男性av天堂一区二区| 丰满少妇被粗大的猛烈进出视频 | 国产精品久久国产精品99| 中文字幕在线码一区| 三级黄片一区二区三区| 国产在线第一区二区三区|