袁鳳霞
摘要:在大數(shù)據(jù)時(shí)代,企業(yè)實(shí)現(xiàn)數(shù)據(jù)共享,可以減少數(shù)據(jù)采集、資料收集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用。但在共享并使用數(shù)據(jù)的道路上,我們必須面對(duì)的一個(gè)問(wèn)題是數(shù)據(jù)隱私,它已成為制約大數(shù)據(jù)共享進(jìn)一步發(fā)展的最大障礙。在銀行系統(tǒng)中,由于各銀行考慮到客戶(hù)及企業(yè)隱私,各銀行間并不進(jìn)行數(shù)據(jù)共享,這導(dǎo)致一些通過(guò)數(shù)據(jù)共享可以非常簡(jiǎn)單的業(yè)務(wù)操作也要消耗大量的人力物力來(lái)解決。文章提出的隱私保護(hù)實(shí)體匹配技術(shù)在保證個(gè)人和企業(yè)隱私的前提下,解決了上述問(wèn)題,闡述了隱私保護(hù)實(shí)體匹配技術(shù)的概念,并提出了兩個(gè)針對(duì)銀行系統(tǒng)具體問(wèn)題的解決框架。
關(guān)鍵詞:實(shí)體匹配;隱私;密碼學(xué);金融
隨著計(jì)算機(jī)應(yīng)用越來(lái)越廣泛,各行業(yè)各部門(mén)對(duì)信息的需求也越來(lái)越廣泛,要求越來(lái)越高。但由于數(shù)據(jù)由不同用戶(hù)以不同方式建模,導(dǎo)致了各數(shù)據(jù)源之間不同程度的異構(gòu),使得相關(guān)信息無(wú)法方便地統(tǒng)一起來(lái)。數(shù)據(jù)集成技術(shù)就是為實(shí)現(xiàn)各種數(shù)據(jù)源間信息的交流和共享而發(fā)展起來(lái)的。大數(shù)據(jù)共享在金融、醫(yī)療、政府等領(lǐng)域都具有廣泛而深遠(yuǎn)的意義,然而,在大數(shù)據(jù)共享的同時(shí),不得不考慮到隱私問(wèn)題。例如,在金融行業(yè),各銀行在為個(gè)人提供外匯業(yè)務(wù)時(shí),并不知情該客戶(hù)是否己在其他銀行辦理過(guò)此項(xiàng)業(yè)務(wù),各銀行間的數(shù)據(jù)不共享可能導(dǎo)致一些違規(guī)操作。又例如,客戶(hù)在申請(qǐng)信用卡前,各銀行會(huì)調(diào)取該客戶(hù)的個(gè)人信用記錄,該行為無(wú)疑侵犯了客戶(hù)的個(gè)人隱私。
隱私保護(hù)技術(shù)[1-2]的出現(xiàn)就是為了解決上述問(wèn)題。具體地說(shuō),實(shí)施數(shù)據(jù)隱私保護(hù)主要考慮以下兩個(gè)方面:(1)如何保證數(shù)據(jù)應(yīng)用過(guò)程中不泄露隱私;(2)如何更有利于數(shù)據(jù)的應(yīng)用。當(dāng)前,隱私保護(hù)領(lǐng)域的研究工作主要集中于如何設(shè)計(jì)隱私保護(hù)原則和算法更好地達(dá)到這兩方面的平衡。
1 隱私下的實(shí)體匹配概述
隱私保護(hù)下的實(shí)體匹配是將描述現(xiàn)實(shí)世界中同一實(shí)體的不同表現(xiàn)形式的信息進(jìn)行匹配的過(guò)程[2-3],該過(guò)程中除了最終匹配結(jié)果被數(shù)據(jù)源間共享,其他信息均未泄露。隱私保護(hù)下的實(shí)體匹配的輸入為結(jié)構(gòu)己知的記錄集合,即關(guān)系數(shù)據(jù)庫(kù)中的表,其輸出是兩個(gè)數(shù)據(jù)庫(kù)中匹配上的實(shí)體的ID對(duì)。匹配的流程如圖1所示。
隱私保護(hù)下記錄匹配的流程主要分為分塊、比較、決策3個(gè)核心過(guò)程。
(1)分塊過(guò)程:在實(shí)體匹配中,Blocking占有非常重要的地位。Blocking算法可以將記錄進(jìn)行分塊,從而減少比較次數(shù),進(jìn)而提高實(shí)體匹配的效率。應(yīng)用隱私保護(hù)技術(shù)在安全的環(huán)境下對(duì)數(shù)據(jù)源進(jìn)行分塊處理。
(2)比較過(guò)程:根據(jù)模式匹配信息,在隱私保護(hù)技術(shù)的保護(hù)下分別對(duì)候選匹配對(duì)中各屬性進(jìn)行相似度計(jì)算,得到屬性間的相似度。
(3)決策過(guò)程:采取特定策略將各屬性的相似度結(jié)合成為兩條記錄的相似度,例如將各屬性的相似度進(jìn)行加權(quán)求和。最后通過(guò)判斷兩條記錄的相似度是否大于閾值,來(lái)確定兩條記錄是否描述同一實(shí)體。
2 銀行系統(tǒng)存在的隱私保護(hù)問(wèn)題及解決框架
2.1各銀行間數(shù)據(jù)不共享導(dǎo)致的外匯違規(guī)操作問(wèn)題
在銀行系統(tǒng)中的外匯業(yè)務(wù)規(guī)定,每位客戶(hù)每天外幣轉(zhuǎn)賬不得超過(guò)5 000美元。但如果某位客戶(hù)己在銀行B轉(zhuǎn)出外幣5 000美元,又到銀行A繼續(xù)辦理外幣轉(zhuǎn)賬業(yè)務(wù)則可以正常辦理。該現(xiàn)象說(shuō)明由于銀行間的數(shù)據(jù)不共享,導(dǎo)致一些違規(guī)操作的存在。但將各銀行的客戶(hù)信息進(jìn)行共享又會(huì)導(dǎo)致企業(yè)內(nèi)部隱私信息的泄露。因此匹配出同一客戶(hù)在不同銀行辦理的所有外匯業(yè)務(wù),并且不泄露除了該項(xiàng)信息以外的其他客戶(hù)信息是亟待解決的問(wèn)題。
應(yīng)用框架如圖2所示,可以保旺在各銀行的客戶(hù)信息均未被泄露的前提下,匹配出該位客戶(hù)己在銀行B轉(zhuǎn)出過(guò)5 000美元。該技術(shù)即為隱私保護(hù)實(shí)體匹配技術(shù),因此,實(shí)體匹配中隱私保護(hù)問(wèn)題的研究成為當(dāng)今熱點(diǎn)。該技術(shù)在接下來(lái)的部分會(huì)具體提到。
2.2在客戶(hù)辦理信用卡時(shí),個(gè)人信用記錄泄露問(wèn)題
在某位客戶(hù)在辦理信用卡時(shí),地方銀行會(huì)從中國(guó)人民銀行調(diào)取該位客戶(hù)的個(gè)人信用記錄信息,該行為侵犯了客戶(hù)的個(gè)人隱私。
個(gè)人信用記錄保護(hù)框架(見(jiàn)圖3)可以解決以上問(wèn)題。通過(guò)在中國(guó)人民銀行設(shè)立信用評(píng)測(cè)系統(tǒng),各地方銀行只需向中國(guó)人民銀行傳入客戶(hù)信息,信用評(píng)測(cè)系統(tǒng)會(huì)自動(dòng)評(píng)測(cè)該客戶(hù)信用,判斷其是否符合開(kāi)卡標(biāo)準(zhǔn)并返回給各銀行。這樣避免了該客戶(hù)個(gè)人信用記錄的泄露。
3 結(jié)語(yǔ)
本文討論了實(shí)體匹配中隱私保護(hù)的有關(guān)問(wèn)題并提出了兩個(gè)解決銀行系統(tǒng)內(nèi)具體問(wèn)題的解決框架。通過(guò)本文介紹的隱私保護(hù)的實(shí)體匹配技術(shù),可以在不暴露隱私信息的情況下得到實(shí)體匹配的結(jié)果。隱私保護(hù)的實(shí)體匹配技術(shù)的研究,對(duì)于大數(shù)據(jù)共享具有深遠(yuǎn)的意義。