●鄭廷 張云濤/文
基于領(lǐng)域本體的數(shù)據(jù)挖掘技術(shù)在賄賂犯罪偵查中的應用
●鄭廷*張云濤*/文
針對目前職務(wù)犯罪中日益增長的賄賂犯罪涉案人員關(guān)系復雜的特點,在傳統(tǒng)偵查方法的基礎(chǔ)上,可以嘗試利用領(lǐng)域本體概念建立賄賂犯罪案件的專業(yè)知識模型,并根據(jù)該模型分析計算賄賂犯罪案件的資料和電子信息,利用數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)關(guān)系算法從犯罪嫌疑人的社會關(guān)系人群中篩選出案件相關(guān)人,從而為獲取新的案件線索與突破案件提供輔助性幫助。
領(lǐng)域本體數(shù)據(jù)挖掘賄賂犯罪偵查
數(shù)據(jù)挖掘,又稱為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程。通俗的說,數(shù)據(jù)挖掘技術(shù)就像采礦,從大量的礦石中提煉出有用的資源。數(shù)據(jù)挖掘技術(shù)目前主要應用于以下幾個方面:(1)分類:將數(shù)據(jù)映射到幾個已經(jīng)確定好的類別中去;(2)聚類:又稱無指導的學習,即在沒有預先定義類別的前提下,將屬性相似的數(shù)據(jù)聚集于一起;(3)關(guān)聯(lián)規(guī)則:揭示數(shù)據(jù)之間的隱藏的關(guān)系;(4)時序模式:用當前所有的數(shù)據(jù)預測未來的趨勢;(5)偏差模式:發(fā)現(xiàn)與正常情況不同的異變,以提前預警。在公安機關(guān)刑事犯罪偵查中,數(shù)據(jù)挖掘也已經(jīng)發(fā)揮著重要作用,利用對類似犯罪記錄數(shù)據(jù)的分析獲取相似類型刑事犯罪的特征規(guī)律,已成為確定偵查工作方向的重要借鑒與依據(jù)。
領(lǐng)域本體則指某一概念系統(tǒng)所蘊涵的語義結(jié)構(gòu),是對某一事實結(jié)構(gòu)的一組非正式的約束規(guī)則。它可以理解和/或表達為一組概念(如實體、屬性、過程)及其定義和相互關(guān)系??偟膩碚f,構(gòu)造本體的目的是為了實現(xiàn)某種程度的知識共享和重用,主要有以下兩方面:(1)本體的分析澄清了領(lǐng)域知識的結(jié)構(gòu),從而為知識表示打好基礎(chǔ)。本體可以重用,從而避免重復的領(lǐng)域知識分析。(2)統(tǒng)一的術(shù)語和概念使知識共享成為可能。目前常見的領(lǐng)域本體構(gòu)造由五個基本建模元語:類、關(guān)系、函數(shù)、公理和實例。
基于領(lǐng)域本體的數(shù)據(jù)挖掘技術(shù)對于賄賂案件偵查具有重要價值。賄賂犯罪案件的偵查重點往往集中在對以犯罪嫌疑人為中心的有直接或間接關(guān)系的人物群體的偵查訊問。那么如何從犯罪嫌疑人龐大的人際關(guān)系網(wǎng)絡(luò)中,篩選甄別出與案件有關(guān)聯(lián)的人群呢?這就需要分析犯罪嫌疑人的社交人群獲取個人信息,再判斷其是否與案件有關(guān)聯(lián)關(guān)系。而隨著社會與科技的進步以及信息化產(chǎn)品在日常生活中的廣泛應用,犯罪嫌疑人為了隱藏罪證、逃避法律制裁,通過手機、網(wǎng)絡(luò)等工具,采用網(wǎng)絡(luò)匿名、間接接觸等聯(lián)系方式,使其犯罪手法亦愈發(fā)隱蔽,犯罪過程更加復雜。各類通訊工具以及互聯(lián)網(wǎng)的廣泛應用,使得人們的社會行為軌跡可以通過留存在手機、計算機、移動存儲,互聯(lián)網(wǎng)絡(luò)、轉(zhuǎn)賬記錄、消費記錄、出行記錄等的數(shù)據(jù)記錄進行分析而得以還原,從而有助于偵查人員獲取與犯罪嫌疑人有賄賂關(guān)系的人員群體信息。
數(shù)據(jù)挖掘技術(shù)通常需要有信息收集、數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^程和知識表示等步驟,是一個反復循環(huán)的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調(diào)整并執(zhí)行。根據(jù)數(shù)據(jù)挖掘的步驟,賄賂案件犯罪嫌疑人關(guān)系人群的篩選過程可分為以下流程:
(一)賄賂犯罪專業(yè)知識庫的建立
此過程可以分為兩個階段同時進行。第一階段,利用以往的賄賂案件卷宗資料進行數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則計算,發(fā)現(xiàn)潛在的隱藏關(guān)聯(lián)規(guī)則,作為訓練該類案件知識庫的素材。比如,通過分析以往賄賂案件資料可以發(fā)現(xiàn),在100件賄賂犯罪案件中,70件案件中犯罪嫌疑人為職能部門領(lǐng)導,而這70件案件中又有30件案件中犯罪嫌疑人的直系親屬參與賄賂犯罪過程,即部門領(lǐng)導的直系親屬有案件關(guān)聯(lián)的支持度為30/100=0.3,可信度為0.3/0.7=0.43。因此,一方面可以賄賂犯罪罪犯與其他案件相關(guān)人資料卷中出現(xiàn)詞頻較高的具有實際意義的詞匯作為關(guān)鍵字,設(shè)為領(lǐng)域本體建設(shè)的參考元素節(jié)點;另一方面,分析案件統(tǒng)計數(shù)據(jù),發(fā)掘其中的潛在關(guān)聯(lián)關(guān)系,并選取其中支持度與可信度均較高的部分作為建立領(lǐng)域本體中元素節(jié)點間的關(guān)聯(lián)關(guān)系的參考,并可以將這些關(guān)聯(lián)關(guān)系元素出現(xiàn)的頻率作為該元素的一個屬性值,用于之后的關(guān)聯(lián)度計算。
第二階段,基于領(lǐng)域本體的概念,利用第一階段獲取的庫以及關(guān)聯(lián)規(guī)則集合,建立專業(yè)知識模型。所謂專業(yè)知識模型,也可以看作是對案件相關(guān)人的特征模型畫像,即根據(jù)已有相同類型案件資料,如訊問口供、案情內(nèi)容等,通過中文語義分詞、關(guān)聯(lián)度與權(quán)值的計算以及從詞庫中選取的作為特征模型節(jié)點元素的
,將這些元素通過一定關(guān)聯(lián)關(guān)系聯(lián)系在一起,從而形成的特征知識庫模型。之所采用領(lǐng)域本體作為知識庫的存在形式,主要是利用領(lǐng)域本體中元素之間的語義關(guān)系,通過建立元素節(jié)點間的語義關(guān)聯(lián),一方面可以最大限度地避免因為同義詞或近義詞而導致遺漏
,另一方面還可以在兩個沒有直接關(guān)聯(lián)的
之間尋找到間接關(guān)聯(lián)關(guān)系,從而最大程度地挖掘文本資料的案件相關(guān)信息。這種領(lǐng)域本體模型的建立可以利用本體編輯工具,如斯坦福大學的protege程序。它提供了本體概念類關(guān)系、屬性和實例的構(gòu)建,并可以轉(zhuǎn)化XML、RDF(S)、OWL等多種格式文件。下文以建立簡單的領(lǐng)域本體模型作為示例。
從上圖可以看出,本體的元素節(jié)點間主要存在三種關(guān)聯(lián)形式,即is kind of、is part of、is attribute of。其中,is kind of對照以protege創(chuàng)建的知識本體中的父子類關(guān)系;is attribute of對應屬性關(guān)系類,即可以將本體元素間的關(guān)系對應為三元組的格式(subject,relation,object),比如“企業(yè),子類,國企”、“企業(yè),子類,私企”、“單位,子類,機關(guān)”、“投資方,投資,融資方”、“行賄人,行賄,受賄人”、“社會關(guān)系,子類,朋友”等。因此該領(lǐng)域本體的存儲方式可以通過JENA對本體的RDF三元組讀取,并以關(guān)系數(shù)據(jù)庫的形式進行存儲,分別以RDF三元組的關(guān)系屬性作為表名新建數(shù)據(jù)表,由此獲得的一系列數(shù)據(jù)表就是能夠記錄領(lǐng)域本體各元素節(jié)點間關(guān)系特征的數(shù)據(jù)表。其存儲結(jié)構(gòu)示例如下:
(二)偵查案件相關(guān)人關(guān)聯(lián)度的計算
第一,信息收集。此階段主要為關(guān)系人Ri的個人信息數(shù)據(jù)以及與犯罪嫌疑人關(guān)聯(lián)關(guān)系信息的收集工作,即可以采用技術(shù)手段,對犯罪嫌疑人乃至其聯(lián)系人的通信與網(wǎng)絡(luò)終端進行電子證據(jù)取證,獲取信息、通話錄音記錄(利用文字記錄)、聊天記錄、郵件等相關(guān)數(shù)據(jù),也可以收集包括受賄人、行賄人以及證人的初步訊問筆錄等傳統(tǒng)的案件資料。將這些文本資料分類分別存儲于不同的文件目錄中,用作下一步分析檢索使用。
第二,信息數(shù)據(jù)的結(jié)構(gòu)化處理。此過程即將在上一階段獲得的信息數(shù)據(jù)進行清理篩選,從中獲取與案件相關(guān)的信息,是將非結(jié)構(gòu)化的文字資料轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)信息的過程。該過程可以通過多種方式進行,如可以采取用戶界面的形式,人工判讀相關(guān)資料信息,通過填寫表單而將文本中的信息轉(zhuǎn)換為結(jié)構(gòu)化存儲,也可以利用中文語義分詞工具,首先將與每個關(guān)系人對應的資料信息分別處理為關(guān)鍵詞條,將郵件、短信、聊天記錄、通話記錄(文字抄錄)等文本信息通過中文分詞工具,摒除副詞、介詞、符號、數(shù)字等不具備主要含義的詞匯,根據(jù)上下文的語義關(guān)系,利用語義分析工具Chinese Semantic Parse,進行語義標注與語義的元數(shù)據(jù)抽取,將文本中的語句轉(zhuǎn)化為RDF三元組格式。例如,對于語句“張三是李四的同學”、“A公司的企業(yè)法人是李四”、“A公司投資B公司”等,該工具可以依次解析為<張三,同學,李四>、、。由于姓名、公司名稱等具體名詞信息在原有的領(lǐng)域本體中并無元素節(jié)點存在,可以看作是某一類的具體實例,所以必須將這些實例加入到本體對應的類元素的節(jié)點中,即將通過語義分析檢索獲取的三元詞組,加入到對應的關(guān)系數(shù)據(jù)表中。
第三,相關(guān)人案件關(guān)聯(lián)度權(quán)值的計算。當犯罪嫌疑人關(guān)系人的相關(guān)資料被語義分析檢索完成后,關(guān)系數(shù)據(jù)表也同時被導入完成。此時可以發(fā)現(xiàn),關(guān)系數(shù)據(jù)庫已經(jīng)形成一個網(wǎng)狀的關(guān)系圖,關(guān)系人王X與犯罪嫌疑人李X兩個節(jié)點之間存在1至N條連通路徑。如下圖:
這些連通路徑即是王X與李X的關(guān)聯(lián)關(guān)系。比如,對于第i條路徑(李X-領(lǐng)導-A工程-C公司-B公司-法人-王X),可以根據(jù)建立本體時所賦予的這些實例所述的類的出現(xiàn)頻率屬性,作為計算這一關(guān)聯(lián)關(guān)系規(guī)則路徑的支持度與可信度的參數(shù),分別記作SUBri與CONri;將通過犯罪嫌疑人與其關(guān)系人的所有關(guān)聯(lián)路徑的支持度與可信度,即可以計算出兩者的關(guān)聯(lián)度。關(guān)聯(lián)度的值越高,可以認為兩者關(guān)系更加緊密,與該案件的相關(guān)度越高。
第四,關(guān)聯(lián)度閾值的確定與案件相關(guān)聯(lián)系人的篩選。閾值的確定可以通過本文介紹的方法對案件相關(guān)人進行計算分析獲得的結(jié)果與實際辦案過程的結(jié)果相對比,也可以通過偵辦人員根據(jù)偵查過程中辦案力量以及案件偵破環(huán)節(jié)等實際情況,自行設(shè)定調(diào)節(jié),從而獲得不同關(guān)聯(lián)程度范圍的相關(guān)人名單。
(三)案件偵結(jié)后對偵查輔助系統(tǒng)作用程度的評估
在數(shù)據(jù)挖掘中,專業(yè)知識庫的建立往往是一個循環(huán)往復的過程,因此在整個案件偵結(jié)后,需要將實際確定的案件相關(guān)聯(lián)系人與通過數(shù)據(jù)挖掘篩選獲得的案件相關(guān)聯(lián)系人進行對比分析,并將在挖掘過程中因為領(lǐng)域本體元素的不完善而導致的最終結(jié)果的遺漏加以記錄,作為領(lǐng)域本體更改補充的依據(jù)。
*安徽省淮南市人民檢察院[232001]