陳貞虹, 李 慧, 許舒人, 葉 丹
1(中國科學(xué)院大學(xué), 北京 100049)2(中國科學(xué)院軟件研究所 軟件工程技術(shù)研究開發(fā)中心, 北京 100190)
基于異構(gòu)信息網(wǎng)絡(luò)的假幣犯罪信息分析系統(tǒng)①
陳貞虹1,2, 李 慧2, 許舒人2, 葉 丹2
1(中國科學(xué)院大學(xué), 北京 100049)2(中國科學(xué)院軟件研究所 軟件工程技術(shù)研究開發(fā)中心, 北京 100190)
傳統(tǒng)的犯罪查詢的查詢條件是文本信息, 查詢結(jié)果是有序的文檔列表, 這種方式無法展示結(jié)果之間的關(guān)系. 基于異構(gòu)信息網(wǎng)絡(luò)以信息網(wǎng)絡(luò)的形式重構(gòu)假幣犯罪信息數(shù)據(jù), 構(gòu)建了假幣犯罪信息網(wǎng)絡(luò), 使用人名消歧的技術(shù)建立假幣犯罪信息網(wǎng)絡(luò)中嫌疑人之間的關(guān)系, 并使用排序?qū)W習(xí)方法研究假幣犯罪信息網(wǎng)絡(luò)中的節(jié)點相關(guān)性問題, 設(shè)計并實現(xiàn)了假幣犯罪信息分析系統(tǒng), 通過以實體對象為查詢項和網(wǎng)絡(luò)圖為查詢結(jié)果的方式解決假幣犯罪數(shù)據(jù)的查詢問題.
異構(gòu)信息網(wǎng)絡(luò); 元路徑; 犯罪數(shù)據(jù)挖掘; 人名消歧; 排序?qū)W習(xí)
隨著犯罪行為的智能化和高科技化, 犯罪人員的組織化和職業(yè)化趨勢也越來越明顯, 假幣犯罪發(fā)案數(shù)呈現(xiàn)增長態(tài)勢, 犯罪規(guī)模不斷升級, 假幣犯罪有產(chǎn)業(yè)化和團(tuán)伙化的特點. 傳統(tǒng)的犯罪查詢的查詢條件是一段文本, 查詢結(jié)果是有序的文檔列表. 對于假幣犯罪信息分析來說, 這種查詢方式無法展示查詢結(jié)果之間的關(guān)系, 對于具有團(tuán)伙作案特性的假幣犯罪來說, 這種查詢方式并不適合. 本文采用以實體對象為查詢項,網(wǎng)絡(luò)圖為查詢結(jié)果的方式解決假幣犯罪分析中數(shù)據(jù)查詢問題, 幫助警員分析假幣犯罪信息, 尋找破案線索.
為了提供更加高效的假幣犯罪信息查詢, 本文對原始假幣犯罪數(shù)據(jù)進(jìn)行重構(gòu), 建立假幣犯罪信息網(wǎng)絡(luò),基于假幣犯罪信息網(wǎng)絡(luò)研究假幣犯罪信息的查詢分析與可視化. 隨著信息網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)系復(fù)雜化的發(fā)展,一個信息網(wǎng)絡(luò)內(nèi)部的會有多種類型的節(jié)點, 節(jié)點之間的關(guān)系也會呈現(xiàn)出多樣化的趨勢, 為了區(qū)別單一同構(gòu)的信息網(wǎng)絡(luò), 韓家煒等學(xué)者提出將此種信息網(wǎng)絡(luò)稱為異構(gòu)信息網(wǎng)絡(luò)[1]. 與同構(gòu)信息網(wǎng)絡(luò)相比, 存在多種節(jié)點和關(guān)系類型的異構(gòu)信息網(wǎng)絡(luò)模型更加適合含有三種關(guān)鍵數(shù)據(jù)類型, 即案件、嫌疑人和假幣的假幣犯罪數(shù)據(jù). 因此本文基于異構(gòu)信息網(wǎng)絡(luò)建立假幣犯罪信息網(wǎng)絡(luò)模型, 研究了嫌疑人姓名消歧和假幣犯罪信息相關(guān)性分析兩項關(guān)鍵技術(shù), 并在此基礎(chǔ)上設(shè)計和實現(xiàn)了假幣犯罪信息分析系統(tǒng).
本文基于異構(gòu)信息網(wǎng)絡(luò)以信息網(wǎng)絡(luò)的形式重構(gòu)假幣犯罪數(shù)據(jù), 構(gòu)建了假幣犯罪信息網(wǎng)絡(luò), 使用人名消歧的技術(shù)建立假幣犯罪信息網(wǎng)絡(luò)中嫌疑人之間的關(guān)系,并使用排序?qū)W習(xí)方法研究假幣犯罪信息網(wǎng)絡(luò)中的節(jié)點相關(guān)性問題. 因此, 本節(jié)從異構(gòu)信息網(wǎng)絡(luò)、人名消歧以及排序?qū)W習(xí)三個方面介紹本文的相關(guān)工作.
2.1 異構(gòu)信息網(wǎng)絡(luò)
網(wǎng)絡(luò)分析的研究已經(jīng)從單一的網(wǎng)絡(luò)結(jié)構(gòu)逐漸向異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展, 并成為新的研究熱點, 早期的異構(gòu)信息的研究包括RankClus[1]和NetClus[2]. 但是RankClus針對的是只有兩種節(jié)點類型的異構(gòu)信息網(wǎng)絡(luò),而NetClus是基于星形異構(gòu)信息網(wǎng)絡(luò)的研究, 在應(yīng)用上都有一定的局限性. 隨后Yizhou Sun提出用元路徑[3]表示異構(gòu)信息網(wǎng)絡(luò)豐富的語義信息, 同時還定義了一種新的基于元路徑的相似性測量方法PathSim[3], 研究異構(gòu)信息網(wǎng)絡(luò)中同種對象之間的相似性. 此后有很多異構(gòu)信息網(wǎng)絡(luò)的研究都基于元路徑展開. 文獻(xiàn)[4]在學(xué)術(shù)研究網(wǎng)絡(luò)中基于異構(gòu)信息網(wǎng)絡(luò)的元路徑提取網(wǎng)絡(luò)拓?fù)涮卣黝A(yù)測學(xué)者之后的合作關(guān)系. 綜上, 異構(gòu)信息網(wǎng)絡(luò)的元路徑分析方法是應(yīng)用最廣泛的分析方法, 因此本文選用基于元路徑的分析方法研究基于異構(gòu)信息網(wǎng)絡(luò)構(gòu)建的假幣犯罪信息網(wǎng)絡(luò).
2.2 人名消歧
人名消歧的研究中應(yīng)用較為廣泛的是基于聚類的人名消歧. 基于聚類的人名消歧主要使用人物的屬性信息進(jìn)行聚類, 有效的人物屬性可以提高聚類的結(jié)果的準(zhǔn)確性. 基于聚類的人名消歧中的重要問題是如何確定類的個數(shù), 文獻(xiàn)[5,6]采用交叉驗證、排列檢測、重采樣以及懲罰似然等方法來確定類的個數(shù). 此外, 文獻(xiàn)[7,8]采用了自底向上的凝聚式層次聚類方法, 能夠不事先確定簇的個數(shù). 本文采用自底向上的凝聚式層次聚類方法解決嫌疑人姓名消歧問題.
2.3 排序?qū)W習(xí)
排序?qū)W習(xí)方法是在信息檢索問題中, 利用機(jī)器學(xué)習(xí)的方法, 基于特征集合, 自動學(xué)習(xí)得到用于檢索的最終的排序函數(shù). 已有的排序?qū)W習(xí)算法可以根據(jù)訓(xùn)練樣例的不同分為三類: Pointwise、Pairwise 和Listwise方法. Pointwise 方法, 如Pranking with ranking 算法[9],采用一個查詢對應(yīng)的單一文檔作為訓(xùn)練樣例; Pairwise方法, 如Ranking SVM算法[10,11], 采用查詢對應(yīng)的文檔對作為訓(xùn)練樣例; 而Listwise 方法, 如ListNet 算法[12], 采用查詢對應(yīng)的文檔序列作為訓(xùn)練樣例. 已有研究表明, 一般來說Pairwise 和Listwise 方法優(yōu)于Pointwise 方法[13,14]. 由于Listwise 方法的算法復(fù)雜度太高, 本文選用應(yīng)用更為成熟的Pairwise方法中的Ranking SVM算法.
為了給假幣犯罪數(shù)據(jù)提供網(wǎng)絡(luò)化的查詢方式, 本文基于異構(gòu)信息網(wǎng)絡(luò)建立假幣犯罪信息網(wǎng)絡(luò)模型.
3.1 相關(guān)定義
定義1. 信息網(wǎng)絡(luò)[3](Information network): 信息網(wǎng)絡(luò)被定義為有向圖G = 〈 V, E 〉的形式, 有一個對象類型映射函數(shù)φ∶V→A和一個鏈接類型映射函數(shù)φ∶E→R, 即每個對象v∈V屬于一個特定的對象類型φ(v)∈A, 每一個關(guān)系e∈E屬于特定的關(guān)系類型φ(e)∈R. 當(dāng)對象類型|A|〉1或關(guān)系類型|R|〉1時, 該信息網(wǎng)絡(luò)稱為異構(gòu)信息網(wǎng)絡(luò), 否則為同構(gòu)信息網(wǎng)絡(luò).
為了明確異構(gòu)信息網(wǎng)絡(luò)中的對象類型和關(guān)系類型,使用網(wǎng)絡(luò)模式來描述異構(gòu)信息網(wǎng)絡(luò)的元結(jié)構(gòu).
定義2. 網(wǎng)絡(luò)模式[3](Network schema): 在異構(gòu)信息網(wǎng)絡(luò)G = (V, E)中, 有對象類型映射φ:V→A和鏈接類型映射φ:E→R, 網(wǎng)絡(luò)模式是在對象類型 A上定義的有向圖, 邊為來自R的關(guān)系, 表示為TG=(A,R).
定義 3. 元路徑[3](Meta-path): 元路徑P是一條定義在網(wǎng)絡(luò)模式圖TG=(A,R) 上的路徑, 表示為它定義了對象類型Al和Al+1之間的復(fù)合關(guān)系其中o表示關(guān)系的復(fù)合操作.
元路徑描述了網(wǎng)絡(luò)模式中兩類對象之間的連接路徑, 表示兩類節(jié)點在元層次上存在的關(guān)系, 不同的元路徑代表了對象類型之間可以通過不同的節(jié)點類型和關(guān)系建立不同的關(guān)系.
3.2 假幣犯罪信息網(wǎng)絡(luò)
定義4. 假幣犯罪信息網(wǎng)絡(luò): 假幣犯罪信息網(wǎng)絡(luò)是異構(gòu)信息網(wǎng)絡(luò)的實例, 被定義為有向圖G = 〈 V, E 〉的形式, 有一個對象類型映射函數(shù)φ:V→A和一個關(guān)系類型映射函數(shù)φ:E→R, 其中節(jié)點類型A={Case, Person, Money}, 即案件(Case, C), 嫌疑人(Person, P)和假幣(Money, M)三種對象, 關(guān)系類型R={ involve, involved in, related by, identical, similar},六種關(guān)系類型描述如下:
① Involve: 指的是該案件所抓獲的犯罪嫌疑人;
② Involved in: 指的是該犯罪嫌疑人所涉及的案件;
③ Relate: 指的是在一個案件中所繳獲的假幣;
④ Related by: 指的是該假幣是在哪一個案件當(dāng)中被繳獲的;
⑤ Identical: 兩條同名嫌疑人記錄指向同一嫌疑人;
⑥ Similar: 通過已有假幣相似度分析程序計算相似度, 并建立關(guān)聯(lián)關(guān)系.
圖1 假幣犯罪信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式
根據(jù)定義4, 假幣犯罪信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式如圖1所示. 基于假幣犯罪信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式, 假幣犯罪信息網(wǎng)絡(luò)的兩條元路徑實例如圖2所示, 其中元路徑嫌疑人—案件—嫌疑人(PCP)表示人和人之間通過參與了相同的案件建立了一條路徑, 路徑中包括人和案件之間的“involved in”關(guān)系以及案件和人之間“involve”關(guān)系. 另一條元路徑案件—假幣—假幣—案件(CMMC)表示兩個案件之間通過關(guān)聯(lián)了非常相似的的假幣建立了一條路徑, 路徑中包括案件和假幣之間的“relate”關(guān)系, 假幣和假幣之間的“similar”關(guān)系以及假幣和案件之間“related by”關(guān)系. 因此, 不同的元路徑具有不同的語義來描述節(jié)點之間的相關(guān)度.
圖2 假幣犯罪信息網(wǎng)絡(luò)的元路徑實例
本節(jié)介紹假幣犯罪信息分析系統(tǒng)中使用的兩個關(guān)鍵技術(shù), 嫌疑人姓名消歧和假幣犯罪相關(guān)性分析. 嫌疑人姓名消歧用于構(gòu)建假幣犯罪信息網(wǎng)絡(luò)的嫌疑之間的關(guān)系, 應(yīng)用于假幣犯罪分析系統(tǒng)的構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊. 假幣犯罪信息相關(guān)性分析是基于假幣犯罪信息網(wǎng)絡(luò)提取節(jié)點網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征, 同時使用排序?qū)W習(xí)的方法融合節(jié)點的屬性信息和拓?fù)涮卣鞣治黾賻欧缸镄畔⑾嚓P(guān)性, 應(yīng)用于假幣犯罪分析系統(tǒng)的數(shù)據(jù)分析模塊.
4.1 嫌疑人姓名消歧
為了解決假幣犯罪中嫌疑人記錄重復(fù)錄入導(dǎo)致的同一嫌疑人所犯的案件無法建立關(guān)聯(lián)關(guān)系的問題, 本文使用人名消歧技術(shù)判斷同名嫌疑人是否指向同一人.對于被認(rèn)定為同一嫌疑人的記錄不進(jìn)行合并, 而是建立關(guān)聯(lián)關(guān)系, 即假幣犯罪信息網(wǎng)絡(luò)中的嫌疑人之間的“identical”關(guān)系記為同一嫌疑人關(guān)系.
4.1.1 嫌疑人屬性
經(jīng)過業(yè)務(wù)分析, 選擇了28個屬性作為嫌疑人消歧中使用的屬性, 并將這28個屬性分為四類:
1) 同一性判定屬性: 此類屬性具有較強(qiáng)的同一性判定功能, 如手機(jī)號、QQ號、銀行賬戶號等.
2) 重要屬性: 若該類屬性相同, 則兩條同名嫌疑人記錄有較大可能性指向同一嫌疑人, 如現(xiàn)住地址、戶籍地址、綽號等.
3) 一般屬性: 一般的常規(guī)屬性, 如性別、民族和血型等.
4) 模糊屬性: 警員在錄入過程存在主觀性誤差的屬性, 如體型、臉型、身高和口音等屬性.
4.1.2 兩階段聚類模型
本文采用自底向上的凝聚式層次聚類方法, 并分為兩個階段:
① 階段一: 該階段僅使用同一性判定屬性. 初始狀態(tài)下每一個同名的嫌疑人各為一個簇, 發(fā)現(xiàn)具有任一相同的同一性判定屬性則合并成一個簇, 并輸出若干個簇作為該階段的聚類結(jié)果.
② 階段二: 該階段使用重要屬性、一般屬性和模糊屬性三類屬性計算兩個嫌疑人之間的相似度, 對于不同類別的屬性賦予不同的權(quán)重. 使用公式(1)計算嫌疑人px和嫌疑人py的屬性k的相似度.
分別使用公式(2)(3)(4)計算嫌疑人px和嫌疑人py之間的重要屬性, 一般屬性以及模糊屬性的相似性.
其中Aimp,Anor,Afuz分別表示重要屬性集合, 一般屬性集合以及模糊屬性集合. 使用公式(5)計算嫌疑人px和嫌疑人py之間的相似度.
其中ɑimp,ɑnor,ɑfuz分別表示重要屬性, 一般屬性和模糊屬性的權(quán)重. 將階段一的輸出的若干個簇作為該階段的輸入, 并使用公式(6)計算簇Ci和簇Cj之間的相似度.
迭代過程中具有最大相似度的兩個簇合并成一個簇, 當(dāng)任意兩個簇之間最大相似度小于一個給定的閾值t時停止聚類.
4.2 假幣犯罪信息相關(guān)性分析
假幣犯罪信息在本文中以假幣犯罪信息網(wǎng)絡(luò)的形式組織, 因此假幣犯罪信息的相關(guān)性分析即為假幣犯罪信息網(wǎng)絡(luò)中節(jié)點的相關(guān)性分析.
4.2.1 節(jié)點相關(guān)度排序關(guān)鍵信息
傳統(tǒng)的排序模型常常只關(guān)注節(jié)點的屬性特征, 或者只關(guān)注節(jié)點的拓?fù)涮卣? 但是只關(guān)注其中一種特征,往往會造成結(jié)果的置信度不夠, 本文將融合以上兩類特征來決定排序結(jié)果.
1) 節(jié)點之間的拓?fù)涮卣?/p>
節(jié)點的拓?fù)涮卣魇褂卯悩?gòu)信息網(wǎng)絡(luò)的元路徑分析方法提取, 使用文獻(xiàn)[4]的四個基于元路徑的網(wǎng)絡(luò)度量方法, 分別是路徑數(shù)(path count)、歸一化路徑數(shù)(normalized path count)、隨機(jī)游走(random walk)以及對稱隨機(jī)游走(symmetric random walk)作為拓?fù)涮卣鞯亩攘糠椒? 根據(jù)文獻(xiàn)[3], 較短的元路徑能夠較好的度量相關(guān)度, 一條長的元路徑甚至?xí)斐筛蓴_. 因此本文將選用長度不大于4的元路徑, 使用傳統(tǒng)的廣度優(yōu)先搜索算法, 在網(wǎng)絡(luò)模式圖上搜索出所有符合條件的元路徑. 對于每一個類型的節(jié)點拓?fù)涮卣鲾?shù)為元路徑的個數(shù)乘以度量方法個數(shù).
2) 節(jié)點的屬性特征
節(jié)點的屬性特征直接從節(jié)點的屬性中通過業(yè)務(wù)分析選取, 部分屬性特征列舉如下:
① 案件: 案發(fā)時間, 案發(fā)地點, 簡要案情等.
② 嫌疑: 居住地, 戶籍地址, 是否慣犯等.
③ 假幣: 冠字號, 年版, 幣種, 厚度等.
4.2.2 節(jié)點相關(guān)性排序框架
圖3是節(jié)點相關(guān)性排序的框架圖, 訓(xùn)練數(shù)據(jù)為已經(jīng)標(biāo)注好的節(jié)點相關(guān)性數(shù)據(jù), 選用Ranking SVM算法訓(xùn)練排序模型, 使用訓(xùn)練集的數(shù)據(jù)訓(xùn)練排序模型. 測試數(shù)據(jù)的結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)相同, 對測試集中的每一條記錄, 使用排序模型計算待分析節(jié)點的得分獲得相關(guān)性結(jié)果, 其得分是一個在0到1之間的小數(shù), 得分越高說明兩個節(jié)點越相關(guān).
圖3 節(jié)點相關(guān)度排序框架示意圖
為了解決假幣犯罪信息的查詢問題, 基于第三節(jié)介紹的假幣犯罪信息網(wǎng)絡(luò)模型構(gòu)建了假幣犯罪信息分析系統(tǒng). 假幣犯罪信息分析系統(tǒng)提供假幣犯罪數(shù)據(jù)的查詢分析與可視化服務(wù), 幫助警員分析假幣犯罪數(shù)據(jù).假幣犯罪信息分析系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖如圖4所示. 構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊從原始的假幣犯罪數(shù)據(jù)存儲的關(guān)系型數(shù)據(jù)庫以及一些文本文件中抽取假幣、案件和嫌疑人的屬性信息和關(guān)系信息, 同時使用4.1節(jié)介紹的嫌疑人姓名消歧算法解決原始嫌疑人建立嫌疑人關(guān)系, 構(gòu)建假幣犯罪信息網(wǎng)絡(luò); 數(shù)據(jù)存儲模塊持久化假幣犯罪信息網(wǎng)絡(luò); 數(shù)據(jù)分析模塊是假幣犯罪分析系統(tǒng)中的核心模塊, 負(fù)責(zé)處理用戶查詢, 從數(shù)據(jù)存儲模塊存儲的假幣犯罪信息網(wǎng)絡(luò)中查詢出和查詢節(jié)點相關(guān)聯(lián)并且符合用戶定義的查詢反胃的所有節(jié)點和關(guān)系,組成查詢結(jié)果網(wǎng)絡(luò), 使用4.2節(jié)介紹的假幣犯罪信息相關(guān)性分析技術(shù)分析查詢項與查詢結(jié)果之間的相關(guān)性,返回結(jié)合相關(guān)性分析結(jié)果的查詢結(jié)果網(wǎng)絡(luò); 數(shù)據(jù)展示模塊是假幣犯罪分析系統(tǒng)與用戶直接交互的模塊, 收集用戶查詢條件和查詢結(jié)果網(wǎng)絡(luò)的可視化展示.
圖4 假幣犯罪信息分析系統(tǒng)結(jié)構(gòu)圖
5.1 構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊
構(gòu)建假幣犯罪信息網(wǎng)絡(luò)模塊負(fù)責(zé)從數(shù)據(jù)源, 即關(guān)系型數(shù)據(jù)庫中抽取關(guān)系和屬性, 構(gòu)建假幣犯罪信息網(wǎng)絡(luò)并將結(jié)果傳入數(shù)據(jù)存儲模塊. 根據(jù)假幣犯罪信息網(wǎng)絡(luò)關(guān)系的生成方式的不同分為以下三類:
① 原關(guān)系型數(shù)據(jù)庫的關(guān)系和屬性: 嫌疑人和案件以及案件和假幣之間的四種關(guān)系類型可以從原關(guān)系型數(shù)據(jù)庫中直接抽取, 同時對象的屬性信息也從原數(shù)據(jù)庫中一同抽取, 用于數(shù)據(jù)分析.
② 假幣和假幣的identical關(guān)系: 通過已有假幣相似度分析程序計算相似度建立關(guān)聯(lián)關(guān)系.
③ 嫌疑人和嫌疑人的similar關(guān)系: 根據(jù)嫌疑人姓名消歧算法建立聯(lián)系.
5.2 數(shù)據(jù)存儲模塊
假幣犯罪分析系統(tǒng)需要持久化的數(shù)據(jù)是假幣犯罪信息網(wǎng)絡(luò), Neo4J是圖數(shù)據(jù)庫, 適合存儲網(wǎng)絡(luò)形式的數(shù)據(jù), 在社交網(wǎng)絡(luò)領(lǐng)域已經(jīng)有了成熟的應(yīng)用, 同時Neo4J能處理具有高達(dá)數(shù)十億規(guī)模頂點和邊的圖數(shù)據(jù),同時兼容完全ACID 事務(wù)屬性[15]. 本文選用NoSQL數(shù)據(jù)庫中的圖數(shù)據(jù)庫Neo4J作為假幣犯罪分析系統(tǒng)的數(shù)據(jù)庫. 假幣犯罪信息網(wǎng)絡(luò)的數(shù)據(jù)庫模式圖如圖5所示,和假幣犯罪信息網(wǎng)絡(luò)的結(jié)構(gòu)完全一致, 同時還存儲了節(jié)點的屬性信息, 因此使用Neo4J圖數(shù)據(jù)庫存儲假幣犯罪信息網(wǎng)絡(luò), 降低模型轉(zhuǎn)換的代價, 提高查詢效率.
圖5 假幣犯罪信息網(wǎng)絡(luò)的數(shù)據(jù)庫模式圖
5.3 數(shù)據(jù)分析模塊
數(shù)據(jù)分析模塊的主要功能是處理用戶的查詢請求,返回查詢結(jié)果網(wǎng)絡(luò), 分為用戶查詢處理, 相關(guān)性分析,屬性特征計算和拓?fù)涮卣饔嬎闼膫€小模塊.
圖6是數(shù)據(jù)分析的流程圖, 展示了數(shù)據(jù)分析模塊中的四個小模塊是如何協(xié)作完成數(shù)據(jù)分析的工作. 首先用戶查詢處理模塊接收用戶的查詢條件, 根據(jù)用戶指定的查詢節(jié)點以及限定的查詢犯罪從數(shù)據(jù)存儲模塊存儲的獲取所有符合查詢條件的節(jié)點, 并生成查詢結(jié)果網(wǎng)絡(luò), 然后將生成的查詢結(jié)果網(wǎng)絡(luò)傳送給相關(guān)性分析模塊. 相關(guān)性分析模塊將查詢結(jié)果網(wǎng)絡(luò)分解為查詢和待分析的相關(guān)性節(jié)點的二元組<Q, R>, 同時調(diào)用拓?fù)涮卣饔嬎隳K計算該二元組的拓?fù)涮卣骱蛯傩蕴卣饔嬎隳K計算屬性特征, 這兩個模塊將計算結(jié)果返回給相關(guān)性分析模塊, 由相關(guān)性分析模塊匯總二元組的拓?fù)涮卣骱蛯傩蕴卣? 調(diào)用4.2節(jié)介紹的節(jié)點相關(guān)性排序模型計算相關(guān)性, 然后將結(jié)果返回給用戶查詢處理模塊, 最后由用戶查詢處理模塊將相關(guān)性信息加入查詢結(jié)果網(wǎng)絡(luò), 最后返回查詢結(jié)果網(wǎng)絡(luò).
圖6 數(shù)據(jù)分析流程圖
5.4 數(shù)據(jù)展示模塊
數(shù)據(jù)展示模塊負(fù)責(zé)用戶交互, 包括收集用戶查詢條件以及查詢結(jié)果網(wǎng)絡(luò)的可視化. 用戶查詢條件包括指定查詢實體, 以及搜索的路徑長度.
圖7 查詢結(jié)果網(wǎng)絡(luò)示例
圖7 是查詢結(jié)果網(wǎng)絡(luò)的示例, 使用不同的圖片表示不同類型的節(jié)點, 用邊的顏色和形狀來區(qū)分不同的關(guān)系, 同時使用懸浮窗口顯示節(jié)點的屬性信息, 并根據(jù)結(jié)果節(jié)點和查詢節(jié)點之間的相關(guān)性分析結(jié)果決定該節(jié)點顯示的尺寸.
本文將大量的犯罪數(shù)據(jù)以網(wǎng)絡(luò)的形式組織起來,建立了假幣犯罪信息網(wǎng)絡(luò), 使用排序?qū)W習(xí)的方法融合屬性信息和拓?fù)湫畔⒔鉀Q假幣犯罪信息網(wǎng)絡(luò)中的節(jié)點相關(guān)度排序問題, 并在此基礎(chǔ)上設(shè)計了假幣犯罪信息分析系統(tǒng), 提供查詢分析與可視化服務(wù)幫助警員進(jìn)行假幣犯罪分析和并案分析. 在下一步工作中, 我們將會基于假幣犯罪信息網(wǎng)絡(luò)上挖掘假幣犯罪團(tuán)伙信息.
1 Sun Y, Han J, Zhao P, et al. Rankclus: Integrating clustering with ranking for heterogeneous information network analysis. Proc. of the 12th International Conference on Extending Database Technology: Advances in Database Technology. ACM. 2009. 565–576.
2 Sun Y, Yu Y, Han J. Ranking-based clustering of heterogeneous information networks with star network schema. Proc. of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM. 2009. 797–806.
3 Sun Y, Han J, Yan X, et al. Pathsim: Meta path-based top-k similarity search in heterogeneous information networks. VLDB’11. 2011.
4 Sun Y, Barber R, Gupta M, et al. Co-author relationship prediction in heterogeneous bibliographic networks. 2011 International Conference on Advances in Social Networks Analysis and Mining (ASONAM). IEEE. 2011. 121–128.
5 Chen Y, Martin J. Cu-comsem: Exploring rich features for unsupervised web personal name disambiguation. Proc. of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics. 2007. 125–128.
6 Elmacioglu E, Tan YF, Yan S, et al. Psnus: Web people name disambiguation by simple clustering with rich features. Proc. of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics. 2007.268–271.
7 Chen Y, Lee SYM, Huang CR. Polyuhk: A robust information extraction system for web personal names. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. 2009.
8 Gong J, Oard D. Determine the entity number in hierarchical clustering for web personal name disambiguation. 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. 2009.
9 Crammer K, Singer Y. Pranking with Ranking. Advances in Neural Information Processing Systems, 2002, 14: 641–647.
10 Herbrich R, Graepel T, Obermayer K. Large margin rank boundaries for ordinal regression. Advances in Neural Information Processing Systems, 1999: 115–132.
11 Joachims T. Optimizing search engines using clickthrough data. Proc. of the eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM. 2002. 133–142.
12 Cao Z, Qin T, Liu TY, et al. Learning to rank: from pairwise approach to listwise approach. Proc. of the 24th International Conference on Machine Learning. ACM. 2007. 129–136.
13 Zhang M, Kuang D, Hua G, et al. Is learning to rank effective for Web search? SIGIR 2009 Workshop: Learning to Rank for Information Retrieval. 2009. 641–647.
14 Liu TY. Learning to rank for information retrieval. Foundations and Trends in Information Retrieval, 2009, 3(3): 225–331.
15 Eifrem E. Neo4J-the benefits of graph databases. 2009. http://www.oscon.com/oscon2009/public/schedule/detail/8364.
Counterfeit Money Crimes Information Analysis System Based on Heterogeneous Information Networks
CHEN Zhen-Hong1,2, LI Hui2, XU Shu-Ren2, YE Dan212
(University of Chinese Academy of Sciences, Beijing 100049, China) (Technology Center of Software Engineering, Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
The query condition of traditional criminal query is a text, and query results are ordered documents lists. However, the way is not conducive to present the relationship of the results and help the police find clues of cases. Therefore, this paper reconstructs counterfeit crime data in the form of information network based on heterogeneous information network information, and constructs a counterfeit money crimes information network. We apply name disambiguation to build relationships of the suspects in counterfeit crime information network, and study relevancy problem of counterfeit money crimes information network using learning to rank methods. In this paper we design and implement the counterfeit money crimes information analysis system. To resolve the query problem of the criminal data, we use the entity as a query term and the network graph as the query results.
heterogeneous information network; meta-path; crime data mining; name disambiguation; learning to rank
國家自然科學(xué)基金(61379044);國家科技支撐課題(2015BAH18F02)
2016-03-19;收到修改稿時間:2016-04-18
10.15888/j.cnki.csa.005457