亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向裁判文書的隱私內(nèi)容檢測(cè)方法

        2015-12-15 10:31:02徐雅斌
        關(guān)鍵詞:內(nèi)容檢測(cè)信息

        嵇 旋,徐雅斌,2

        (1.北京信息科技大學(xué)計(jì)算機(jī)學(xué)院,北京100101;2.北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京100101)

        0 引言

        隨著《最高人民法院關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》(以下簡(jiǎn)稱《規(guī)定》)的頒布實(shí)施,公眾已可以隨時(shí)上網(wǎng)查閱已經(jīng)生效的裁判文書,但是發(fā)布的裁判文書如果涉及當(dāng)事人的隱私信息,不僅會(huì)給當(dāng)事人的正常生活帶來諸多影響,而且還有可能涉嫌侵害當(dāng)事人隱私權(quán)。因此,在裁判文書上網(wǎng)發(fā)布之前,對(duì)當(dāng)事人隱私信息的檢測(cè)顯得尤為重要。

        裁判文書中的隱私內(nèi)容除了個(gè)人姓名、身份證號(hào)碼、家庭住址等隱私內(nèi)容外,還包含個(gè)人婚姻狀況、健康信息等隱私信息。而目前裁判文書中的隱私內(nèi)容信息處理主要采用人工檢測(cè)方式。面對(duì)裁判文書中的隱私內(nèi)容,單純靠人工方式進(jìn)行檢測(cè),由于時(shí)間緊迫、任務(wù)繁重,甚至個(gè)人情緒等原因,難免會(huì)出現(xiàn)疏漏,從而可能將部分隱私內(nèi)容發(fā)布出去。

        為此,本文針對(duì)裁判文書中的隱私內(nèi)容檢測(cè)方法開展研究,不僅可以改變傳統(tǒng)的隱私內(nèi)容的人工檢測(cè)模式,把法律工作人員從大量枯燥、繁重的工作中解放出來,提高檢測(cè)效率;而且可以有效提高檢測(cè)質(zhì)量,避免出現(xiàn)隱私泄露問題。

        1 相關(guān)工作

        目前,研究人員主要將研究重心放在文本中敏感信息檢測(cè)上,而對(duì)于文本中出現(xiàn)的隱私信息檢測(cè)研究很少。但是,隱私內(nèi)容屬于敏感信息之一,其研究方法可以借鑒。

        文獻(xiàn)[1]針對(duì)微博內(nèi)容進(jìn)行隱私檢測(cè),文中改進(jìn)了傳統(tǒng)RMM(reverse maximum matching)分詞算法,并采用二級(jí)貝葉斯分類方法,其檢測(cè)效率雖然能滿足要求,但精度有待提高。文獻(xiàn)[2]針對(duì)軍事領(lǐng)域的敏感信息構(gòu)建了基于Lucene檢索引擎的檢測(cè)系統(tǒng),其索引的建立僅僅依據(jù)互相獨(dú)立詞項(xiàng)的詞頻統(tǒng)計(jì)信息,而待檢測(cè)的信息只采用精確關(guān)鍵字進(jìn)行匹配,導(dǎo)致檢測(cè)結(jié)果準(zhǔn)確率和查全率均不高。文獻(xiàn)[3]利用鄰近文檔對(duì)索引向量進(jìn)行擴(kuò)展,但這種擴(kuò)展會(huì)將來自鄰近文檔的詞項(xiàng)添加至索引中,從而導(dǎo)致索引相應(yīng)變大,檢測(cè)結(jié)果存在一定查詢漂移。文獻(xiàn)[4]將領(lǐng)域本體引入信息檢測(cè)中,在構(gòu)建待檢測(cè)信息興趣本體基礎(chǔ)上,通過建立用戶興趣樹對(duì)查詢進(jìn)行語義擴(kuò)展,從而減少了查詢漂移的情況,提高了準(zhǔn)確率,但是查全率不高。文獻(xiàn)[5]提出了一種通過逐點(diǎn)互信息(pointwise mutual information,PMI)修改索引向量權(quán)重的文檔平滑方法并用于信息檢索,但其只根據(jù)主題詞項(xiàng)的鄰近關(guān)聯(lián)關(guān)系進(jìn)行檢測(cè),沒有考慮其他上下文信息。文獻(xiàn)[6]改進(jìn)了查詢語義擴(kuò)展算法,擴(kuò)大敏感信息檢測(cè)范圍,但其擴(kuò)大的程度不宜確定。文獻(xiàn)[7]提出了一種相對(duì)簡(jiǎn)潔的特征選取方法,并通過機(jī)器學(xué)習(xí)的方式確定閾值,檢測(cè)文檔中敏感數(shù)據(jù)的方法,但無法證明其在大規(guī)模數(shù)據(jù)中的通用性。文獻(xiàn)[8]將待測(cè)文本作為CRFs(conditional random fields)的觀察序列和狀態(tài)序列來計(jì)算其相關(guān)性概率值并反復(fù)迭代完成敏感話題的識(shí)別,實(shí)驗(yàn)結(jié)果表明:宏平均F值達(dá)到0.823 5。文獻(xiàn)[9]利用句法依存分析,提取了敏感句子結(jié)構(gòu),通過DSAD(document sensitivity analysis based on dependency parsing)算法得出文檔的敏感度,但其敏感詞的初始值需人工確定。

        綜上所述,現(xiàn)有的方法并未對(duì)待檢測(cè)內(nèi)容進(jìn)行具體分類,且使用的檢測(cè)方法比較單一。針對(duì)裁判文書中的隱私內(nèi)容,如果不對(duì)各類隱私內(nèi)容加以區(qū)分,采用單一的方式進(jìn)行檢測(cè),勢(shì)必會(huì)影響檢測(cè)效率和準(zhǔn)確性。因此,已有的檢測(cè)方法并不能完全適用于裁判文書的隱私內(nèi)容檢測(cè)。

        通過分析發(fā)現(xiàn),裁判文書具有一些特殊性,如,從結(jié)構(gòu)角度可劃分為訴訟參與人員信息、案情陳述和判決結(jié)果等部分;涉及個(gè)人信息類的隱私內(nèi)容集中出現(xiàn)在訴訟參與人員信息中,生理健康類財(cái)產(chǎn)狀況類等隱私內(nèi)容則往往出現(xiàn)在案情陳述和判決理由等正文部分。根據(jù)此類特點(diǎn),我們通過建立隱私內(nèi)容檢測(cè)模板庫,并設(shè)計(jì)針對(duì)各種個(gè)人信息類的隱私內(nèi)容檢測(cè)算法,來檢測(cè)訴訟參與人員信息中可能包含的個(gè)人信息類隱私內(nèi)容;而對(duì)于正文中的各類隱私內(nèi)容,則進(jìn)行特征提取,采用機(jī)器學(xué)習(xí)的方法進(jìn)行檢測(cè)。

        2 裁判文書的結(jié)構(gòu)和隱私內(nèi)容分析

        由于不同類型的裁判文書中隱私信息的表現(xiàn)形式大有不同,比如離婚糾紛類案件中,隱私內(nèi)容主要涉及個(gè)人情感信息;而危險(xiǎn)駕駛類案件中,隱私內(nèi)容常表現(xiàn)為個(gè)人車輛信息等;各類刑事案件中,隱私內(nèi)容常常涉及當(dāng)事人個(gè)人信息,而在盜竊類案件中,則涉及當(dāng)事人地址信息。因此,如果把多種類型的隱私內(nèi)容放在一起進(jìn)行檢測(cè),則會(huì)嚴(yán)重影響隱私內(nèi)容檢測(cè)的準(zhǔn)確率。通過對(duì)大量裁判文書的研究發(fā)現(xiàn),在涉案當(dāng)事人為個(gè)人的裁判文書中,幾乎總會(huì)包含個(gè)人隱私內(nèi)容。為此,本文將根據(jù)案件類型,選取一審民事案件判決書中原告和被告均為自然人的裁判文書作為研究對(duì)象,其標(biāo)題結(jié)構(gòu)為“×××與×××一審民事判決書”,如“張美芝與張新法民間借貸糾紛一審民事判決書”。

        裁判文書的結(jié)構(gòu)分為當(dāng)事人及訴訟參與人員信息、案情、判決理由、判決結(jié)果、落款及日期等部分。表1是裁判文書各部分起止句子的典型模式。

        表1 裁判文書各部分起止句子模式列表Tab.1 Beginning and ending sentences mode list of the various parts in judgment document

        通過對(duì)大量裁判的研究發(fā)現(xiàn),裁判文書中的隱私內(nèi)容只出現(xiàn)在訴訟參與人員信息部分、案情陳述部分、判決理由及判決結(jié)果部分。因此,在預(yù)處理階段,本文將只保留以上內(nèi)容。表2為隱私內(nèi)容的分類情況和分布情況。

        表2 各類隱私內(nèi)容的分布情況Tab.2 Distribution of various types of private content

        通過表2可以看出,裁判文書中的個(gè)人信息類的隱私內(nèi)容會(huì)出現(xiàn)在訴訟參與人員信息部分,而其他類型的隱私內(nèi)容主要分布在正文部分的案情陳述、判決理由及判決結(jié)果中。

        3 訴訟參與人員信息部分的隱私內(nèi)容檢測(cè)

        訴訟參與人員信息中的隱私內(nèi)容為個(gè)人信息類隱私內(nèi)容,具有較明顯的特征,該類隱私內(nèi)容出現(xiàn)在當(dāng)事人及訴訟參與人員信息部分,主要包括當(dāng)事人的籍貫、職業(yè)、單位和住址等信息,且其先后順序固定。本文首先根據(jù)《規(guī)定》中的法律條文針對(duì)不同類型的裁判文書制定判別規(guī)則,并由此建立隱私內(nèi)容判別模板庫,然后設(shè)計(jì)隱私內(nèi)容檢測(cè)算法。

        個(gè)人信息類隱私內(nèi)容如下[10]:

        1)自然人的家庭住址、通訊方式、身份證號(hào)碼等個(gè)人信息;

        2)婚姻家庭、繼承糾紛案件中的當(dāng)事人及其法定代理人的姓名。

        3.1 隱私內(nèi)容檢測(cè)模板的建立

        本文借鑒文獻(xiàn)[11]中檢測(cè)人名、地名和機(jī)構(gòu)名的方法。首先將原告信息段落根據(jù)“,”切分,然后依據(jù)各類隱私內(nèi)容的模板進(jìn)行匹配。對(duì)于訴訟角色和人名,出現(xiàn)在原告信息段落開頭,其模板為“‘原告’+人名”或“‘原告:’+人名”。對(duì)于原告身份證信息,其模板為“‘身份證號(hào)(碼)’+身份證號(hào)碼正則表達(dá)式”;對(duì)于原告籍貫信息,其模板為“‘戶籍所在地’+地名”或“‘出生于’+地名”;對(duì)于原告的聯(lián)系方式,其模板為:“‘聯(lián)系電話(方式)’+電話號(hào)碼正則表達(dá)式”;對(duì)于原告所在單位,其模板為“‘系’+機(jī)構(gòu)名+職工”或“機(jī)構(gòu)名+職工(或干部等)”;對(duì)于原告住址,其模板為“‘現(xiàn)居住’+地名”或“‘住’+地名”。將上述模板存入模板集合ObviousTemplate中。

        在婚姻家庭、繼承糾紛類案件中,需根據(jù)裁判文書類型判定當(dāng)事人姓名是否為隱私內(nèi)容。本文將根據(jù)裁判文書標(biāo)題中的關(guān)鍵詞,檢測(cè)裁判文書的類型。婚姻家庭糾紛案件標(biāo)題關(guān)鍵詞:離婚糾紛,贍養(yǎng)糾紛,撫養(yǎng)、扶養(yǎng)關(guān)系糾紛,撫育權(quán)糾紛,解除非法同居關(guān)系,婚約財(cái)產(chǎn)糾紛等;繼承糾紛案件標(biāo)題關(guān)鍵詞:法定繼承,遺囑繼承,繼承權(quán)確認(rèn)糾紛等。將裁判文書類型關(guān)鍵詞存入集合Wp中。

        3.2 基于模板的隱私內(nèi)容檢測(cè)算法

        具體檢測(cè)算法如下:

        步驟1 分別獲取裁判文書D的Title(裁判文書的標(biāo)題)和訴訟參與人員信息部分;

        步驟2 將未經(jīng)人工標(biāo)注的當(dāng)事人及訴訟參與人員信息句子S根據(jù)“,”進(jìn)行切分,將切分結(jié)果存入子句集合Ds{S1,S2,S3,…,Sn};

        步驟3 將Title進(jìn)行分詞處理,分詞結(jié)果存入集合T{Word1,Word2,…,Wordn},檢索T中的詞是否在Wp中存在,如果存在繼續(xù)執(zhí)行;否則,跳轉(zhuǎn)至步驟5;

        步驟4 根據(jù)ObviousTemplate中的人名模板檢測(cè)訴訟相關(guān)人員人名信息,存入檢測(cè)結(jié)果集合R;

        步驟5 依次根據(jù)ObviousTemplate中的其他模板(包括身份證信息模板、籍貫信息模板、聯(lián)系方式模板、工作單位信息模板、家庭住址模板)檢測(cè)各隱私信息,存入R,結(jié)束。

        上述算法的時(shí)間復(fù)雜度取決于裁判文書中句子的個(gè)數(shù)N,故為O(N);空間復(fù)雜度為O(1)。

        以《何健與姚軍不當(dāng)?shù)美颠€糾紛一審民事判決書》中的句子為例:“原告:何健,男,1965年2月10日出生,漢族,拜城縣人民政府退休干部,住拜城縣縣委家屬院3號(hào)樓1單元502室”。按上述算法順序依次檢測(cè)各隱私內(nèi)容。首先根據(jù)標(biāo)題,確定該裁判文書不為婚姻家庭或繼承糾紛類案件,則訴訟參與人的姓名不為隱私內(nèi)容。然后,通過工作單位模板“機(jī)構(gòu)名+‘干部’”,可檢測(cè)出“拜城縣人民政府退休干部”;通過住址模板“‘住’+地名”,可檢測(cè)出“住拜城縣縣委家屬院3號(hào)樓1單元502室”。檢索到句子末尾,即可檢測(cè)出當(dāng)事人及訴訟參與人員信息段落中的全部個(gè)人信息類隱私內(nèi)容。

        4 裁判文書正文部分的隱私內(nèi)容檢測(cè)

        除了訴訟參與人員信息中含有隱私內(nèi)容外,裁判文書正文部分還包含大量的隱私內(nèi)容。該部分內(nèi)容中的隱私內(nèi)容構(gòu)成相對(duì)復(fù)雜,位置比較分散,有可能出現(xiàn)在案情陳述及分析、判決理由及判決結(jié)果等位置,且更加難以檢測(cè)。為此,本文首先將根據(jù)正文中各類型的隱私內(nèi)容構(gòu)造各類隱私關(guān)鍵詞詞典,然后通過句法依存分析提取各類隱私內(nèi)容的句法特征,最后融合多種特征并采用機(jī)器學(xué)習(xí)的方式,檢測(cè)正文中的隱私內(nèi)容。

        4.1 正文隱私內(nèi)容分類

        裁判文書正文中的隱私內(nèi)容主要為生理健康類、號(hào)碼類、財(cái)產(chǎn)狀況類、親屬關(guān)系類和情感狀況類共5類隱私內(nèi)容。如在《原告王鑫鑫訴被告范江偉離婚糾紛一案一審民事判決書》中,不僅當(dāng)事人的姓名這樣的個(gè)人信息類隱私內(nèi)容被公開,而且還出現(xiàn)“被告被檢查出患有糖尿病”,“共同債務(wù):1.3萬元”等關(guān)于當(dāng)事人生理健康類和財(cái)產(chǎn)狀況類隱私內(nèi)容。

        4.2 構(gòu)造隱私關(guān)鍵詞庫

        通過對(duì)裁判文書和相關(guān)法律條文的分析,本文依據(jù)正文隱私內(nèi)容的不同類型,由人工分別構(gòu)造各類隱私關(guān)鍵詞庫。表3為部分典型隱私關(guān)鍵詞類型及舉例。

        表3 部分隱私關(guān)鍵詞及其類型Tab.3 Keywords and types of privacy content

        例如,在隱私句“被告南某于1996年患病,于2009年11月25日經(jīng)內(nèi)蒙古北方醫(yī)院診斷為精神分裂癥”中,含有生理健康類隱私關(guān)鍵詞“患病”和“精神分裂癥”;在隱私句“原告張亦金向史訓(xùn)橋所有的中國銀行賬號(hào)4530880101114484900匯款235 000元”中,含有號(hào)碼類隱私關(guān)鍵詞“賬號(hào)”和“匯款”;在隱私句“2013年2月15日被告將其名下2張存單清戶后將上述存款轉(zhuǎn)存至原告名下,3張存單金額分別為50 000元、150 000元和80 000元”中,含有財(cái)產(chǎn)狀況類隱私關(guān)鍵詞“存單”和“金額”;在“加之任林強(qiáng)系任濟(jì)強(qiáng)哥哥的親屬關(guān)系”中,含有親屬關(guān)系類隱私內(nèi)容“哥哥”;在“導(dǎo)致夫妻感情不和”中,含有情感狀況類隱私關(guān)鍵詞“感情不和”。

        4.3 提取隱私內(nèi)容句法依存關(guān)系

        句法依存分析將句子分析成一棵依存句法樹,描述出各個(gè)詞語之間的依存關(guān)系;也指出了詞語之間在句法上的搭配關(guān)系,這種搭配關(guān)系是和語義相關(guān)聯(lián)的。表4為部分典型的依存關(guān)系及其對(duì)應(yīng)的標(biāo)記。

        表4 部分依存關(guān)系標(biāo)記示例Tab.4 Example of dependencies mark

        圖1 句法依存關(guān)系示例圖Fig.1 Dependency syntax example of FIG

        以“2013年5月被告突發(fā)疾病,經(jīng)鑒定為精神性疾病”為例,其句法依存關(guān)系分析結(jié)果如圖1所示。

        圖1中,核心詞為“突發(fā)”,與其并列關(guān)系的詞為“為”,依賴于“突發(fā)”的詞為“5月”“被告”“疾病”,其依存關(guān)系分別為“ADV”“SBV”“VOB”;而依賴于“為”的詞為“經(jīng)”“疾病”,其依存關(guān)系分別為“ADV”“VOB”。那么,我們可以提取“SVB+突發(fā)+VOB”和“SVB+為+VOB”作為一個(gè)可以檢測(cè)隱私內(nèi)容的模板。該句的依存關(guān)系以XML(extensible markup language)文檔形式存儲(chǔ),如下所示。

        本文使用哈工大信息檢索研究室語言技術(shù)平臺(tái)(language technology platform,LTP)中的句法分析工具對(duì)此類文檔進(jìn)行解析,并提取可以檢測(cè)隱私內(nèi)容的句法依存關(guān)系模板。提取句法依存關(guān)系模板的算法如下所示。

        步驟1 對(duì)已標(biāo)注好的隱私句集合PrS進(jìn)行句法依存分析,將XML格式分析結(jié)果存入聚合S中;

        步驟2 檢索集合S中relate=HED的核心詞,將檢索出的核心詞記為HedNode;

        步驟3 查找依賴于核心詞HedNode的所有詞,并將其依存關(guān)系記為DependenceNode;

        步驟4 在DependenceNode集合中取“DependenceNodei-1(核心詞前一個(gè)詞與核心詞的依存關(guān)系)+HedNode(核心詞)+DependenceNodei+1(核心詞后一個(gè)詞與核心詞的依存關(guān)系)”作為候選模板存入CandidateTemplate集合中;

        步驟5 檢索集合S中與HedNode為并列關(guān)系(COO)的詞,將檢索出的詞記為HedNode,存在則繼續(xù)執(zhí)行,否則調(diào)至步驟4。

        步驟6 統(tǒng)計(jì)各個(gè)模板在隱私句中出現(xiàn)的次數(shù)Pr及在非隱私句中出現(xiàn)的次數(shù)Npr;

        步驟7 如果Pr>10并且Npr<5,則將這個(gè)候選模板CandidateTemplate判定為隱私句模板,并將其置入模板集合UnobviousTemplate。

        上述算法的時(shí)空復(fù)雜度取決于隱私句集合PrS的數(shù)量N,以及隱私句句法依存關(guān)系的最大深度Dmax,故時(shí)間復(fù)雜度為O(N);空間復(fù)雜度為O(Dmax)。

        表5為使用該算法在500篇人工標(biāo)注好的數(shù)據(jù)中提取的各類隱私內(nèi)容中的部分依存關(guān)系模板。

        4.4 隱私特征選擇

        裁判文書具有語言表達(dá)規(guī)范、句子結(jié)構(gòu)相對(duì)固定等特點(diǎn),并且正文中句子一般較長(zhǎng)。經(jīng)分析,裁判文書正文部分中的隱私內(nèi)容有以下幾類特征:各類隱私關(guān)鍵詞多次出現(xiàn);句子的結(jié)構(gòu)符合隱私內(nèi)容句法依存模板;參雜特殊字符串;出現(xiàn)地名或機(jī)構(gòu)名。據(jù)此特點(diǎn),本文從正文句子的隱私關(guān)鍵詞類型、句法依存關(guān)系、特殊字符串、命名實(shí)體、裁判文書屬性5個(gè)方面有針對(duì)性地提取了13個(gè)特征,如表6所示。

        表5 各類隱私內(nèi)容的依存關(guān)系模板Tab.5 Dependencies template content of various types of privacy

        表6 隱私特征分類一覽表Tab.6 Privacy feature classification list

        4.5 基于SVM的隱私內(nèi)容檢測(cè)方法

        SVM解決小樣本分類問題非常有效,并且具有很強(qiáng)的學(xué)習(xí)能力及泛化能力,但經(jīng)典的SVM算法只給出了2類分類的算法。為了保證檢測(cè)準(zhǔn)確率和檢測(cè)速度,本文采用決策樹方法[12]設(shè)計(jì)支持多分類問題的SVM算法。

        SVM算法進(jìn)行隱私內(nèi)容檢測(cè),其原理如下:

        訓(xùn)練集T={(x1,y1),(x2,y2),…,(xi,yi)},其中xi∈Rn,i=1,2,…,l,xi表示第i個(gè)樣本的特征向量,yi∈{1,2,3,4,5},i=1,2,…,l,表示第i個(gè)樣本對(duì)應(yīng)的類別。

        本文中,xi表示第i條裁判文書句子的特征向量,yi代表第i條裁判文書句子對(duì)應(yīng)的類別,yi=1時(shí),該句為包含生理健康類隱私內(nèi)容;yi=2時(shí),該句為包含號(hào)碼類隱私內(nèi)容;yi=3時(shí),該句為包含財(cái)產(chǎn)狀況類隱私內(nèi)容;yi=4時(shí),該句為包含親屬關(guān)系類隱私內(nèi)容;yi=5時(shí),該句為包含情感狀況類隱私內(nèi)容。

        本文通過對(duì)裁判文書句子進(jìn)行特征提取,構(gòu)造的特征向量為xi,并人工標(biāo)注yi,通過(xi,yi)構(gòu)造訓(xùn)練集T。

        裁判文書正文部分的隱私內(nèi)容分為5類,需要構(gòu)造4個(gè)分類器,決策樹的結(jié)構(gòu)如圖2所示。

        圖2 支持多分類的支持向量機(jī)模型Fig.2 Multi-classification SVM model

        圖2中,葉子節(jié)點(diǎn)為隱私內(nèi)容的最終類別,C1-C5為5類隱私內(nèi)容訓(xùn)練樣本。平衡決策樹的分類算法如下:對(duì)于5類訓(xùn)練樣本,SVM1以C1,C4和C5為正的訓(xùn)練樣本,其余類訓(xùn)練樣本作為負(fù)的訓(xùn)練樣本;然后對(duì)含有3類樣本的根節(jié)點(diǎn)左分支進(jìn)行訓(xùn)練,以C1類樣本為正的訓(xùn)練樣本,其余2類訓(xùn)練樣本作為負(fù)的訓(xùn)練樣本訓(xùn)練SVM2;對(duì)另一個(gè)分支也采用相似的方法進(jìn)行訓(xùn)練,直到所有類別被分類出來。

        5 實(shí)驗(yàn)

        5.1 數(shù)據(jù)集及數(shù)據(jù)預(yù)處理

        本文的試驗(yàn)數(shù)據(jù)來源于中國裁判文書網(wǎng)和OpenLaw開放法律聯(lián)盟網(wǎng)站。數(shù)據(jù)集包括各類民事一審判決書共40 000份,數(shù)據(jù)采用TXT格式存儲(chǔ),并預(yù)先將裁判文書的各部分結(jié)構(gòu)切分和過濾,最終的數(shù)據(jù)集只包括裁判文書的標(biāo)題、當(dāng)事人及訴訟參與人員信息、案情陳述、判決理由和結(jié)果4部分。使用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心提供的LTP進(jìn)行分詞,并識(shí)別機(jī)構(gòu)名和地名類命名實(shí)體。分類工具采用LibSVM[13],核函數(shù)采用徑向基核函數(shù)。隱私關(guān)鍵詞詞典由人工整理,包含5部分:生理健康類詞典、號(hào)碼名稱類詞典、財(cái)產(chǎn)狀況類詞典、親屬關(guān)系類、情感狀況類詞典。

        5.2 實(shí)驗(yàn)結(jié)果及其分析

        在本次實(shí)驗(yàn)中,人工標(biāo)注的訓(xùn)練集包括500份裁判文書,覆蓋了數(shù)據(jù)集中全部類型的裁判文書,經(jīng)預(yù)處理后,共12 234個(gè)句子;測(cè)試集包括500份裁判文書,共10 542句。分別按照基于模板的方法對(duì)訴訟參與人員信息部分進(jìn)行隱私檢測(cè)和基于SVM決策樹算法對(duì)裁判文書正文部分進(jìn)行隱私檢測(cè)的實(shí)驗(yàn)結(jié)果如表7所示。

        表7 隱私內(nèi)容檢測(cè)結(jié)果Tab.7 Privacy contents test results

        通過表7可以看出,基于模板的隱私內(nèi)容檢測(cè)準(zhǔn)確率為94.2%,召回率為92.8%,F(xiàn)值(綜合準(zhǔn)確率和召回率,用于反映整體的檢測(cè)指標(biāo)參數(shù))為93.5%,說明本文提取的模板對(duì)訴訟參與人員信息中的個(gè)人信息類隱私內(nèi)容檢測(cè)是有效的。而正文部分中的隱私內(nèi)容的組成相對(duì)復(fù)雜,無法提取類似的模板,故采用SVM決策樹進(jìn)行檢測(cè),準(zhǔn)確率也達(dá)到了81%。同時(shí)也說明將2類隱私內(nèi)容分別檢測(cè)是有必要的。

        表8為裁判文書正文部分中5類隱私內(nèi)容的檢測(cè)結(jié)果??梢钥闯?,各類隱私內(nèi)容的檢測(cè)結(jié)果有一定差別,這是由于各類隱私內(nèi)容的區(qū)分度和訓(xùn)練集規(guī)模不同所致。其中生理健康類和號(hào)碼類隱私內(nèi)容的F值最高,說明這2類隱私內(nèi)容與其他類隱私內(nèi)容區(qū)別較大,易于檢測(cè)。

        表8 裁判文書正文隱私內(nèi)容檢測(cè)結(jié)果Tab.8 Privacy detection results of judgment document main body

        為驗(yàn)證文本方法的準(zhǔn)確性和有效性,首先將上述基于模板和SVM決策樹的檢測(cè)結(jié)果綜合后,得出最終的檢測(cè)結(jié)果:準(zhǔn)確率為90.4%,召回率為89.8%,F(xiàn)值為90.1%。然后使用基于本體的檢測(cè)方法[4]在本文數(shù)據(jù)集上得到的檢測(cè)結(jié)果與本文的檢測(cè)結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果見圖3?;诒倔w的檢測(cè)方法主要依據(jù)的是檢測(cè)條件的本體概念,雖然有較大的適用范圍,但檢測(cè)結(jié)果明顯低于本文方法,當(dāng)然這與本文隱私內(nèi)容的類型有一定關(guān)系。

        圖3 隱私內(nèi)容綜合檢測(cè)結(jié)果比較Fig.3 composite comparison results of testing content privacy

        6 結(jié)語

        為解決裁判文書隱私內(nèi)容暴露的問題,本文充分考慮了裁判文書的特點(diǎn),提出隱私內(nèi)容分類檢測(cè)方法。針對(duì)裁判文書中的個(gè)人信息類隱私內(nèi)容,結(jié)合命名實(shí)體識(shí)別和隱私模板匹配的方法進(jìn)行檢測(cè);針對(duì)正文中各類隱私內(nèi)容,綜合5個(gè)方面有針對(duì)性地提取10個(gè)特征,利用SVM決策樹進(jìn)行隱私內(nèi)容檢測(cè)。實(shí)驗(yàn)結(jié)果表明,本文提出的檢測(cè)方法準(zhǔn)確率為90.4%,召回率為89.8%,F(xiàn)值為90.1%。通過實(shí)驗(yàn)證明,本文提出的方法能夠較好地檢測(cè)出各種類型的隱私內(nèi)容,具有一定的實(shí)用性。作為下一步的工作,將擴(kuò)充訓(xùn)練語料的規(guī)模,盡量減少由低頻種類的隱私內(nèi)容產(chǎn)生的數(shù)據(jù)稀疏的影響。

        [1]江智雙.一種基于貝葉斯的微博隱私檢測(cè)方法研究[D].哈爾濱:哈爾濱工程大學(xué),2013.

        JIANG Zhishuang.Research on Micro-blogging Privacy Detection Based on Bayesian[D].Harbin:Harbin Engineering University,2013.

        [2]喻世璽.軍事敏感信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2012.

        YU Shixi.Design and implementation of sensitive military information search system[D].Chengdu:University of Electronic Science and Technology of China,2012.

        [3]TAO T,ZHAI C.Regularized estimation of mixture models for robust pseudo-relevance feedback[C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval.[s.l.]:ACM,2006:162-169.

        [4]CHEN H,DU X,CHEN X,et al.Query expansion model based on interest ontology[C]//Information Management,Innovation Management and Industrial Engineering(ICIII).[s.l.]:IEEE,2012,3:474-478.

        [5]GOYAL P,BEHERA L,MCGINNITY T M.A novel neighborhood based document smoothing model for information retrieval[J].Information Retrieval,2013,16(3):391-425.

        [6]蘇贏彬,杜學(xué)繪,夏春濤,等.基于文檔平滑和查詢擴(kuò)展的文檔敏感信息檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2014,34(9):2639-2644.

        SU Yingbin,DU Xuehui,XIA Chuntao,LI Haihua.Sensitive information detection approach fordocuments based on document smoothing and query expansion[J].Journal of Computer Applications,2014,34(9):2639-2644.

        [7]李偉偉,張濤,林為民,等.基于文本內(nèi)容的敏感數(shù)據(jù)識(shí)別方法研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(4):1202-1206.

        LI Weiwei,ZHANG Tao,LIN Weimin,et al.Research and implementation of sensitive data identification method based on text content[J].COMPUTER ENGINEERING AND DESIGN,2013,34(4):1202-1206.

        [8]翟東海,聶洪玉,崔靜靜,等.基于CRFs模型的敏感話題識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究,2014,31(4):993-996.

        ZHAI Donghai,NIE Hongyu,CUI Jingjing,DU Jia.Sensitive topic detection based on conditional random fields[J].Application Research of Computers,2014,31(4):993-996.

        [9]王超.基于依存句法的信息敏感度研究[D].桂林:廣西大學(xué),2011.

        Wang Chao,Research on information sensitivity based on dependency parsing[D].Guilin:Guangxi University,2011.

        [10]周軍,李春華.裁判文書深度公開問題研究[J].法律適用,2015(2):66-70.

        ZHOU Jun,LI Chunhua.Study on depth open issues of judgment document[J].Journal of Law Application,2015(2):66-70.

        [11]胡文博,都云程,呂學(xué)強(qiáng),等.基于多層條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(1):163-165.

        HU Wenbo,DU Yuncheng,LV Xueqiang,et al.Study on Chinese named entity recognition based on cascaded conditional random fields.Computer Engineering and Applications,2009,45(1):163-165.

        [12]刁智華,趙春江,郭新宇,陸聲鏈.一種新的基于平衡決策樹的SVM多類分類算法[J].控制與決策,2011,26(1):149-152,156.

        DIAO Zhihua,ZHAO Chunjiang,GUO Xinyu,et al.A new SVM multi-class classifycation algorithm based on balance decision tree[J].Control and Decision,2011,26(1):149-152,156.

        [13]LibSVM Tools[EB/OL].[2014-10-08].http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/.

        猜你喜歡
        內(nèi)容檢測(cè)信息
        內(nèi)容回顧溫故知新
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        展會(huì)信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        健康信息(九則)
        祝您健康(1987年2期)1987-12-30 09:52:28
        尤物视频一区二区| 久草青青91在线播放| 又粗又黑又大的吊av| 真人与拘做受免费视频| 亚洲色欲久久久综合网| 日本一级二级三级在线| 亚洲一区二区三区2021| 日日碰狠狠添天天爽五月婷| 免费特级黄毛片| 亚洲欧美日韩在线精品2021| 蜜桃网站入口可看18禁| 亚洲日韩精品a∨片无码加勒比 | 蜜桃tv在线免费观看| 亚洲乱亚洲乱妇| 东京热久久综合久久88| 亚洲一二三四五区中文字幕 | 一区二区三区亚洲视频 | 久青草久青草视频在线观看| 久久亚洲AV成人一二三区| 蜜臀精品一区二区三区| 蜜桃av精品一区二区三区| 亚洲国产韩国欧美在线| 无码一区二区三区网站| 国产毛片精品av一区二区| 国产免码va在线观看免费| 亚洲av无码之日韩精品| 26uuu欧美日本在线播放| 国产精品成人av一区二区三区| 精品国产三级a∨在线| 84pao强力打造免费视频34| 人妻少妇久久精品一区二区| av免费在线播放视频| 亚洲中文字幕在线观看| 久久久久亚洲av成人网址| 日本一区二区三区免费| 欧美噜噜久久久xxx| 亚洲黄色电影| 91国产自拍视频在线| 洲色熟女图激情另类图区| 男女下面进入的视频| 国产福利97精品一区二区|