孟小峰 劉立新,2
1(中國(guó)人民大學(xué)信息學(xué)院 北京 100872)2(內(nèi)蒙古科技大學(xué)信息工程學(xué)院 內(nèi)蒙古包頭 014010)(xfmeng@ruc.edu.cn)
隨著大數(shù)據(jù)技術(shù)和人類生產(chǎn)生活的交匯融合,豐富的數(shù)據(jù)通過(guò)多種方式源源不斷地被多方數(shù)據(jù)收集者收集,進(jìn)而依據(jù)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)決策和提供服務(wù).這種先予后取的數(shù)據(jù)收集模式已成為越來(lái)越多應(yīng)用的必要條件.固然大規(guī)模數(shù)據(jù)收集為個(gè)人、企業(yè)和國(guó)家?guī)?lái)巨大的數(shù)據(jù)價(jià)值,但也帶來(lái)隱私泄露和決策不可信等問(wèn)題,表現(xiàn)為大規(guī)模數(shù)據(jù)收集(mass collection)、大規(guī)模數(shù)據(jù)監(jiān)視(mass surveillance)和大規(guī)模數(shù)據(jù)操縱(mass manipulation)三個(gè)方面.
1) 大規(guī)模數(shù)據(jù)收集.大規(guī)模數(shù)據(jù)通過(guò)被動(dòng)、主動(dòng)和自動(dòng)方式被收集,如醫(yī)療就醫(yī)、購(gòu)物、網(wǎng)站搜索、個(gè)人移動(dòng)通信、出行和位置軌跡等數(shù)據(jù).然而,作為數(shù)據(jù)生產(chǎn)者,我們不知道哪些數(shù)據(jù)被收集、被誰(shuí)收集、數(shù)據(jù)被收集后會(huì)流向何處以及作何使用,導(dǎo)致隱私泄露追蹤問(wèn)責(zé)困難.
2) 大規(guī)模數(shù)據(jù)監(jiān)視.大規(guī)模數(shù)據(jù)收集導(dǎo)致大規(guī)模數(shù)據(jù)監(jiān)視,例如醫(yī)療就醫(yī)和個(gè)人移動(dòng)通信等數(shù)據(jù)被政府部門收集,購(gòu)物、社交和出行等數(shù)據(jù)被各大公司掌握.個(gè)人在享受服務(wù)的同時(shí)也時(shí)刻處于被監(jiān)視狀態(tài),個(gè)人隱私在深度和廣度受到巨大沖擊.
3) 大規(guī)模數(shù)據(jù)操縱.由于現(xiàn)有政策、技術(shù)和制度的不完善,數(shù)據(jù)戰(zhàn)略合作和數(shù)據(jù)交易等過(guò)程中存在大量用戶隱私與安全問(wèn)題.在數(shù)據(jù)決策過(guò)程中,數(shù)據(jù)非真實(shí)產(chǎn)生、數(shù)據(jù)被篡改、數(shù)據(jù)質(zhì)量管理過(guò)程中的單點(diǎn)失敗等問(wèn)題導(dǎo)致決策數(shù)據(jù)不可靠,由此導(dǎo)致數(shù)據(jù)決策結(jié)果不可信[1-2].然而,我們深受數(shù)據(jù)操縱影響卻對(duì)此束手無(wú)策.
“Facebook-劍橋分析事件”是大規(guī)模數(shù)據(jù)收集、大規(guī)模數(shù)據(jù)監(jiān)視和大規(guī)模數(shù)據(jù)操縱的典型案例.匿名和差分等傳統(tǒng)隱私保護(hù)技術(shù)主要解決數(shù)據(jù)發(fā)布時(shí)的隱私泄露問(wèn)題,致使其并不能很好地解決當(dāng)下數(shù)據(jù)自主匯聚產(chǎn)生的隱私泄露問(wèn)題.同時(shí),數(shù)據(jù)決策應(yīng)用于人類生產(chǎn)生活的方方面面,決策數(shù)據(jù)不可靠導(dǎo)致的決策不可信是影響大數(shù)據(jù)進(jìn)一步發(fā)展和應(yīng)用的重要因素[3].
進(jìn)一步,數(shù)據(jù)自主匯聚還導(dǎo)致數(shù)據(jù)壟斷現(xiàn)象出現(xiàn).數(shù)據(jù)本身的易聚集特性、大公司覆蓋各數(shù)字化領(lǐng)域的商業(yè)模式和龐大的用戶規(guī)模等因素加劇數(shù)據(jù)聚集現(xiàn)象,各公司數(shù)據(jù)持有量出現(xiàn)差異[4].我們?cè)?019年《中國(guó)隱私風(fēng)險(xiǎn)指數(shù)分析報(bào)告》中對(duì)3000萬(wàn)移動(dòng)用戶的權(quán)限數(shù)據(jù)(權(quán)限數(shù)據(jù)是指在移動(dòng)場(chǎng)景下,某用戶安裝并使用一系列App,數(shù)據(jù)收集者通過(guò)App的權(quán)限體系獲取該用戶的個(gè)人隱私數(shù)據(jù))收集情況進(jìn)行分析,數(shù)據(jù)收集者獲取權(quán)限數(shù)據(jù)的分布如圖1所示[5].可以看出前10%的數(shù)據(jù)收集者獲取大于99%的數(shù)據(jù),數(shù)據(jù)壟斷現(xiàn)象已悄然形成.數(shù)據(jù)壟斷可能會(huì)阻礙市場(chǎng)競(jìng)爭(zhēng)、使消費(fèi)者福利受損、阻礙行業(yè)技術(shù)創(chuàng)新和帶來(lái)更嚴(yán)重的個(gè)人隱私泄露風(fēng)險(xiǎn)等.現(xiàn)實(shí)世界財(cái)富獲取的“二八定律”指20%的人占有80%的社會(huì)財(cái)富,這依賴于法律、稅收等方式的調(diào)節(jié).而在虛擬世界,如果將數(shù)據(jù)比作財(cái)富,還是一個(gè)沒(méi)有得到有效調(diào)節(jié)和分配的領(lǐng)地.因此,急需建立相關(guān)技術(shù)手段和法律法規(guī).
Fig. 1 Data acquisition distribution of the collectors圖1 數(shù)據(jù)收集者權(quán)限數(shù)據(jù)獲取分布
如何使這些問(wèn)題得到有效治理,使數(shù)據(jù)得到正確、合理和規(guī)范地使用是大數(shù)據(jù)發(fā)展面臨的主要挑戰(zhàn).導(dǎo)致這些問(wèn)題的主要原因是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程中存在不透明性,數(shù)據(jù)獲取和數(shù)據(jù)等共享流通過(guò)程的不透明性使隱私泄露問(wèn)題問(wèn)責(zé)困難和數(shù)據(jù)壟斷問(wèn)題缺乏解決依據(jù),數(shù)據(jù)決策的不可審計(jì)性導(dǎo)致大數(shù)據(jù)驅(qū)動(dòng)的決策不可信.工業(yè)界對(duì)大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程的透明性提出迫切需求.蘋果CEO庫(kù)克在2019年《時(shí)代周刊》發(fā)表評(píng)論建議設(shè)立新框架增強(qiáng)企業(yè)處理用戶數(shù)據(jù)的透明性,并建議建立數(shù)據(jù)清算和要求所有數(shù)據(jù)中介在清算所注冊(cè),從而使用戶能夠跟蹤被捆綁并被銷售的數(shù)據(jù).Gartner發(fā)布的2020年戰(zhàn)略性技術(shù)研究趨勢(shì)報(bào)告中也將“透明性與可追溯性”作為十大戰(zhàn)略性技術(shù)趨勢(shì)之一[6].
增加大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的透明性,是促進(jìn)大數(shù)據(jù)正確使用的重要舉措和必經(jīng)之路.據(jù)此,本文提出數(shù)據(jù)透明性的概念,指在大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程中,各個(gè)參與方都能獲取與自身相關(guān)的全部數(shù)據(jù)信息.并將數(shù)據(jù)透明性分為數(shù)據(jù)獲取透明性、數(shù)據(jù)共享透明性、數(shù)據(jù)云存儲(chǔ)服務(wù)透明性、數(shù)據(jù)決策透明性和法律法規(guī)透明性5個(gè)部分,通過(guò)這5個(gè)部分實(shí)現(xiàn)數(shù)據(jù)透明化.數(shù)據(jù)透明化需要公開透明地記錄數(shù)據(jù)的獲取和共享流通等信息,以及去中心化地管理數(shù)據(jù)和執(zhí)行數(shù)據(jù)質(zhì)量管理.這些需求與區(qū)塊鏈的特性天然契合,而且區(qū)塊鏈的去中心和不可篡改特性使數(shù)據(jù)透明化具有更強(qiáng)的問(wèn)責(zé)能力.
數(shù)據(jù)透明化旨在增加大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程的透明性.其研究?jī)?nèi)容涉及數(shù)據(jù)生命周期內(nèi)各階段,其實(shí)現(xiàn)途徑主要包括法律法規(guī)和技術(shù)方法等方面.
文獻(xiàn)[7]在2017年提出數(shù)據(jù)透明化概念,并建議從數(shù)據(jù)透明性策略、日志系統(tǒng)和算法透明性3個(gè)方面進(jìn)行實(shí)現(xiàn).但是對(duì)數(shù)據(jù)透明化的研究維度劃分沒(méi)有涵蓋大數(shù)據(jù)生態(tài)中的主要透明性需求,也沒(méi)有深入分析數(shù)據(jù)透明化與當(dāng)前大數(shù)據(jù)生態(tài)中的隱私保護(hù)、決策可解釋和數(shù)據(jù)壟斷關(guān)系.
本文提出的數(shù)據(jù)透明化研究與文獻(xiàn)[7]一脈相承,都是保證大數(shù)據(jù)在其生命周期內(nèi)各個(gè)階段的透明性.但本文對(duì)數(shù)據(jù)透明化研究的劃分更為清晰和具象,進(jìn)一步將數(shù)據(jù)透明化研究放在大數(shù)據(jù)生態(tài)范圍進(jìn)行考慮,并闡述數(shù)據(jù)透明化研究與數(shù)據(jù)隱私保護(hù)、決策可解釋和數(shù)據(jù)壟斷的內(nèi)在關(guān)系.
實(shí)現(xiàn)數(shù)據(jù)透明化涉及到大數(shù)據(jù)生命周期內(nèi)多方參與主體,各個(gè)參與主體有不同的數(shù)據(jù)透明性需求.目前,參與主體主要包括數(shù)據(jù)生產(chǎn)者(data contri-butors)、數(shù)據(jù)收集者(data collectors)、數(shù)據(jù)使用者(data consumers)、數(shù)據(jù)處理者(data processors)和數(shù)據(jù)監(jiān)管者(data supervises) 5個(gè)角色.其中,數(shù)據(jù)生產(chǎn)者是指產(chǎn)生數(shù)據(jù)的個(gè)人或機(jī)構(gòu);數(shù)據(jù)收集者是指收集數(shù)據(jù)的個(gè)人或機(jī)構(gòu),如服務(wù)提供者和科研工作者;數(shù)據(jù)使用者是指任何形式使用數(shù)據(jù)的個(gè)人或機(jī)構(gòu);數(shù)據(jù)處理者是指在授權(quán)的情況下代替數(shù)據(jù)使用者處理數(shù)據(jù)的個(gè)人或機(jī)構(gòu);數(shù)據(jù)監(jiān)管者是指對(duì)數(shù)據(jù)生命周期各階段的數(shù)據(jù)共享流通等情況進(jìn)行監(jiān)管的機(jī)構(gòu),主要包括政府部門、可信第三方組織等.各參與主體之間可能存在重合,例如當(dāng)數(shù)據(jù)收集者自己使用數(shù)據(jù)并且具有處理能力時(shí),數(shù)據(jù)收集者也充當(dāng)數(shù)據(jù)處理者和數(shù)據(jù)使用者.
定義1.數(shù)據(jù)透明性.在大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程中,使所有參與主體均能有效獲取與自身相關(guān)的全部數(shù)據(jù)信息.其中,數(shù)據(jù)信息包括原始數(shù)據(jù)、間接數(shù)據(jù)和決策數(shù)據(jù).
數(shù)據(jù)透明化研究圍繞各方參與主體的數(shù)據(jù)透明性需求展開,根據(jù)大數(shù)據(jù)生命周期和各方參與主體的透明性需求,將數(shù)據(jù)透明性分為數(shù)據(jù)獲取透明性、數(shù)據(jù)共享透明性、數(shù)據(jù)云存儲(chǔ)服務(wù)透明性、數(shù)據(jù)決策透明性和法律法規(guī)透明性5個(gè)部分.通過(guò)實(shí)現(xiàn)數(shù)據(jù)獲取透明性和數(shù)據(jù)共享透明性來(lái)記錄數(shù)據(jù)獲取和共享流通等信息,在隱私泄露和數(shù)據(jù)濫用等事件發(fā)生后進(jìn)行追蹤溯源,并對(duì)違反規(guī)范的參與方進(jìn)行問(wèn)責(zé);通過(guò)實(shí)現(xiàn)云儲(chǔ)存服務(wù)透明性增加云存儲(chǔ)服務(wù)的可信性;通過(guò)實(shí)現(xiàn)數(shù)據(jù)決策透明性對(duì)決策數(shù)據(jù)進(jìn)行審計(jì),從而促進(jìn)大數(shù)據(jù)驅(qū)動(dòng)的決策的可信性.數(shù)據(jù)透明化研究框架和各部分信息如圖2所示.
1) 數(shù)據(jù)獲取透明性.數(shù)據(jù)獲取透明性指對(duì)數(shù)據(jù)收集內(nèi)容、形式和使用目的等信息進(jìn)行記錄,數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)收集者和數(shù)據(jù)監(jiān)管者等能獲知相關(guān)信息.目前,通過(guò)透明增強(qiáng)工具(transparency enhanced tools)、數(shù)據(jù)使用協(xié)議和可審計(jì)的訪問(wèn)控制等方式實(shí)現(xiàn)獲取透明.
2) 數(shù)據(jù)共享透明性.依據(jù)數(shù)據(jù)共享方式,數(shù)據(jù)共享透明性可以分為支持溯源問(wèn)責(zé)的數(shù)據(jù)共享、可驗(yàn)證分布式數(shù)據(jù)集共享和可驗(yàn)證的分布式機(jī)器學(xué)習(xí).當(dāng)發(fā)生數(shù)據(jù)訪問(wèn)和流通時(shí),需要實(shí)現(xiàn)支持溯源問(wèn)責(zé)的數(shù)據(jù)共享,對(duì)數(shù)據(jù)流向進(jìn)行記錄,數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)監(jiān)管者能夠據(jù)此對(duì)數(shù)據(jù)共享情況和隱私泄露進(jìn)行追蹤問(wèn)責(zé),數(shù)據(jù)處理者和數(shù)據(jù)使用者能據(jù)此說(shuō)明是合法使用數(shù)據(jù).當(dāng)由于傳輸代價(jià)和法律法規(guī)等因素限制,需要在不泄露原始數(shù)據(jù)情況下通過(guò)分布式數(shù)據(jù)集共享技術(shù)和分布式機(jī)器學(xué)習(xí)等方式進(jìn)行數(shù)據(jù)共享,這時(shí)需要對(duì)數(shù)據(jù)提供者(包括數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)收集者)提供的加密數(shù)據(jù)和參數(shù)等進(jìn)行記錄,數(shù)據(jù)使用者可對(duì)共享過(guò)程進(jìn)行驗(yàn)證.
Fig. 2 Dimensions of data transparency圖2 數(shù)據(jù)透明化研究框架
3) 數(shù)據(jù)云存儲(chǔ)服務(wù)透明性.越來(lái)越多的企業(yè)和個(gè)人將數(shù)據(jù)存儲(chǔ)到云服務(wù)器,享受云存儲(chǔ)服務(wù)帶來(lái)的便利.然而傳統(tǒng)的數(shù)據(jù)完整性驗(yàn)證、可驗(yàn)證可搜索加密、確定性數(shù)據(jù)刪除等云數(shù)據(jù)安全和隱私保護(hù)技術(shù)通常依賴于可信的第三方且實(shí)現(xiàn)過(guò)程存在不透明性,實(shí)現(xiàn)數(shù)據(jù)云存儲(chǔ)服務(wù)透明性旨在增加其透明性.
4) 數(shù)據(jù)決策透明性.數(shù)據(jù)是決策的基礎(chǔ),所以數(shù)據(jù)使用者需要對(duì)決策數(shù)據(jù)進(jìn)行審計(jì)和追蹤溯源.除此之外,數(shù)據(jù)決策透明性的實(shí)現(xiàn)還需要算法可解釋和算法透明的支持(1)目前,關(guān)于算法透明和算法可解釋有2種理解.一類認(rèn)為兩者是不同的,透明是指算法源代碼或者實(shí)現(xiàn)原理等內(nèi)容的公開(public),而可解釋則是指向用戶解釋算法是如何做決策,側(cè)重解釋(interpretation)和理解(understanding);另一類認(rèn)為兩者相同,指解釋和理解..算法可解釋性主要是指機(jī)器學(xué)習(xí)算法的可解釋性,即合理解釋特定機(jī)器學(xué)習(xí)算法做決策原理以及判斷算法是否存在不公平現(xiàn)象.算法透明是指選擇合適方式公開決策算法.
5) 法律法規(guī)透明性.法律法規(guī)是技術(shù)之外重要的數(shù)據(jù)透明化實(shí)現(xiàn)手段.世界各國(guó)家和組織出臺(tái)法律法規(guī)將知情同意作為個(gè)人隱私數(shù)據(jù)獲取、共享、使用和存儲(chǔ)等過(guò)程的基本要求.知情同意是指數(shù)據(jù)收集者在收集個(gè)人數(shù)據(jù)之時(shí),應(yīng)當(dāng)充分告知有關(guān)個(gè)人數(shù)據(jù)被收集、處理和利用的情況,并征得主體明確的同意.例如,歐盟實(shí)施的《一般數(shù)據(jù)保護(hù)條例》將透明性作為數(shù)據(jù)主體的基本權(quán)利.
通過(guò)上述5個(gè)部分的數(shù)據(jù)透明性實(shí)現(xiàn)可以將各方參與主體所需要的數(shù)據(jù)信息作為溯源數(shù)據(jù)記錄下來(lái).之后,可以依據(jù)這些溯源數(shù)據(jù)實(shí)施追蹤問(wèn)責(zé)和對(duì)數(shù)據(jù)決策進(jìn)行驗(yàn)證.通常情況下,在問(wèn)責(zé)過(guò)程中,需要策略承諾(policy compliance)、違反檢測(cè)(violation detection)和隱私審計(jì)(privacy audit)等支持;在決策過(guò)程中,對(duì)數(shù)據(jù)決策驗(yàn)證后,還需要綜合考慮數(shù)據(jù)自動(dòng)決策和人工決策去獲取更加全面的決策結(jié)果.
數(shù)據(jù)透明化需要從法律法規(guī)和技術(shù)2種主要途徑進(jìn)行考慮.法律法規(guī)具有威懾和事后懲罰的作用,技術(shù)上實(shí)現(xiàn)數(shù)據(jù)透明性能夠事先預(yù)防和為事后提供依據(jù).
法律法規(guī)中數(shù)據(jù)透明性要求的實(shí)現(xiàn)建立在法律法規(guī)約束、第三方信用背書和道德自律的基礎(chǔ)上.然而,第三方信用背書僅從形式上告知用戶數(shù)據(jù)獲取內(nèi)容、數(shù)據(jù)共享情況和如何使用用戶數(shù)據(jù)等情況[8].而由于數(shù)據(jù)獲取、數(shù)據(jù)共享和數(shù)據(jù)使用等過(guò)程對(duì)外不可見(jiàn),其契約履行情況也無(wú)從考證.
技術(shù)上實(shí)現(xiàn)數(shù)據(jù)透明性為各個(gè)參與主體獲取與自身相關(guān)的數(shù)據(jù)信息提供技術(shù)支持.數(shù)據(jù)獲取透明性和數(shù)據(jù)共享透明性的實(shí)現(xiàn)需要可信的“賬本”記錄數(shù)據(jù)獲取和共享流通等信息;數(shù)據(jù)云存儲(chǔ)服務(wù)透明性和數(shù)據(jù)決策透明性需要去中心方式執(zhí)行驗(yàn)證、管理數(shù)據(jù)和執(zhí)行質(zhì)量管理等.數(shù)據(jù)透明化的這些需求與區(qū)塊鏈[9-10]的不可篡改、可追蹤、去中心和公開透明的特性相契合.
總體而言,法律法規(guī)和技術(shù)2種途徑之間既存在互相支持關(guān)系也存在互補(bǔ)關(guān)系.本文主要探討技術(shù)途徑實(shí)現(xiàn)數(shù)據(jù)透明性.
大數(shù)據(jù)獲取形式多樣且共享流通錯(cuò)綜復(fù)雜,對(duì)于直接發(fā)生數(shù)據(jù)流通的場(chǎng)景,需要實(shí)現(xiàn)支持溯源問(wèn)責(zé)的數(shù)據(jù)獲取和共享,當(dāng)發(fā)生隱私泄露時(shí),數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)監(jiān)管者能夠進(jìn)行溯源問(wèn)責(zé);對(duì)于需要在分布式數(shù)據(jù)集上實(shí)現(xiàn)數(shù)據(jù)共享和機(jī)器學(xué)習(xí)的場(chǎng)景,除了需要考慮安全和隱私,還需要考慮透明性和可驗(yàn)證性,數(shù)據(jù)使用者能對(duì)其過(guò)程進(jìn)行驗(yàn)證.
現(xiàn)有關(guān)于支持溯源問(wèn)責(zé)的數(shù)據(jù)獲取研究還相對(duì)有限,數(shù)據(jù)未知收集、數(shù)據(jù)過(guò)度收集和用戶缺乏控制權(quán)等問(wèn)題有待解決.皮尤研究中心一份關(guān)于美國(guó)隱私狀況的報(bào)告指出:91%的受訪者認(rèn)為他們對(duì)個(gè)人數(shù)據(jù)被收集和使用已經(jīng)失去控制,61%的受訪者對(duì)不了解數(shù)據(jù)收集者如何使用個(gè)人數(shù)據(jù)感到沮喪[11].文獻(xiàn)[12]提出基于區(qū)塊鏈管理移動(dòng)應(yīng)用程序的權(quán)限,通過(guò)權(quán)限透明管理實(shí)現(xiàn)數(shù)據(jù)的獲取透明和支持溯源問(wèn)責(zé).當(dāng)用戶安裝App時(shí),將權(quán)限列表存入?yún)^(qū)塊鏈,數(shù)據(jù)經(jīng)加密后存儲(chǔ)在分布式散列表(distributed Hash table, DHT),用戶發(fā)送交易實(shí)現(xiàn)權(quán)限授予、更新與回收.
現(xiàn)有研究大多基于區(qū)塊鏈實(shí)現(xiàn)支持溯源問(wèn)責(zé)的數(shù)據(jù)共享.數(shù)據(jù)被收集后,由數(shù)據(jù)收集者存儲(chǔ)并通過(guò)訪問(wèn)控制等方式與其他第三方進(jìn)行數(shù)據(jù)共享.然而大多數(shù)訪問(wèn)控制遵循OAuth開放網(wǎng)絡(luò)標(biāo)準(zhǔn)實(shí)現(xiàn)訪問(wèn)授權(quán),由數(shù)據(jù)收集者作為處理訪問(wèn)控制邏輯的授權(quán)引擎,這導(dǎo)致數(shù)據(jù)共享不支持審計(jì)溯源問(wèn)責(zé).通過(guò)訪問(wèn)控制與區(qū)塊鏈結(jié)合實(shí)現(xiàn)數(shù)據(jù)共享透明可以支持溯源問(wèn)責(zé),已經(jīng)應(yīng)用在物聯(lián)網(wǎng)[13-15]、醫(yī)療[16-17]、社交網(wǎng)絡(luò)[18]和邊緣計(jì)算等場(chǎng)景[19-20].
基于區(qū)塊鏈實(shí)現(xiàn)的訪問(wèn)控制可以概括為“數(shù)據(jù)獲取層—存儲(chǔ)層—區(qū)塊鏈層—共享層”4層.在數(shù)據(jù)獲取層,數(shù)據(jù)收集者獲取數(shù)據(jù)生產(chǎn)者產(chǎn)生的數(shù)據(jù),需要實(shí)現(xiàn)數(shù)據(jù)獲取透明.在存儲(chǔ)層,采用傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)、云存儲(chǔ)和分布式存儲(chǔ)系統(tǒng)等方式存儲(chǔ)數(shù)據(jù)[21],同時(shí)為保證數(shù)據(jù)安全通常需要將數(shù)據(jù)加密后存儲(chǔ).在區(qū)塊鏈層,與傳統(tǒng)訪問(wèn)控制模型自主訪問(wèn)控制(discretionary access control, DAC)、強(qiáng)制訪問(wèn)控制(mandatory access control, MAC)、基于屬性的訪問(wèn)控制(attribute based access control, ABAC)和基于角色的訪問(wèn)控制(role-based access control, RBAC)等相結(jié)合,由區(qū)塊鏈執(zhí)行訪問(wèn)控制,使任何數(shù)據(jù)訪問(wèn)情況都通過(guò)交易被記錄在區(qū)塊鏈.在共享層,實(shí)現(xiàn)數(shù)據(jù)共享并對(duì)共享關(guān)系進(jìn)行保護(hù).
圖3為基于區(qū)塊鏈實(shí)現(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)共享.①~③為服務(wù)提供者向用戶申請(qǐng)獲取數(shù)據(jù),④⑤為訪問(wèn)請(qǐng)求與授權(quán),⑥~⑨為區(qū)塊鏈執(zhí)行訪問(wèn)控制.
Fig. 3 Data sharing based on blockchain for access control圖3 基于區(qū)塊鏈實(shí)現(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)共享透明性
基于區(qū)塊鏈實(shí)現(xiàn)訪問(wèn)控制可分為基于交易和基于智能合約2種方式.基于交易方式是使用區(qū)塊鏈的交易對(duì)訪問(wèn)控制的策略權(quán)限進(jìn)行管理.大多方法基于比特幣的安全性,應(yīng)用OP_RETURN指令在比特幣上存儲(chǔ)策略權(quán)限.由于比特幣腳本不適合實(shí)現(xiàn)復(fù)雜的業(yè)務(wù)邏輯,所以常結(jié)合DAC模型實(shí)現(xiàn)訪問(wèn)控制[12].在物聯(lián)網(wǎng)數(shù)據(jù)共享場(chǎng)景中,考慮到底層區(qū)塊鏈的可擴(kuò)展性,區(qū)塊鏈層之上增加虛鏈層來(lái)提高系統(tǒng)可擴(kuò)展性[14,22].針對(duì)物聯(lián)網(wǎng)設(shè)備計(jì)算和存儲(chǔ)能力受限,目前有2種解決方法:一種方法是采用RBAC模型的擴(kuò)展模型OrBAC,引入比特幣錢包執(zhí)行訪問(wèn)控制代理,并通過(guò)授權(quán)令牌形式管理權(quán)限[13];另一種方法是在區(qū)塊鏈之下添加邊緣設(shè)備層,由邊緣設(shè)備管理設(shè)備的身份驗(yàn)證、創(chuàng)建交易、收集和發(fā)送數(shù)據(jù)至存儲(chǔ)層[15].
基于智能合約方式是將訪問(wèn)控制策略編寫為智能合約,由智能合約自動(dòng)執(zhí)行,當(dāng)前研究嘗試與DAC或ABAC等訪問(wèn)控制模型相結(jié)合.DAC模型基于身份進(jìn)行授權(quán),與智能合約結(jié)合實(shí)現(xiàn)不同身份的用戶權(quán)限判斷透明.文獻(xiàn)[16]將策略存儲(chǔ)在以太坊智能合約實(shí)現(xiàn)分布式醫(yī)療數(shù)據(jù)庫(kù)共享.但是隨著策略規(guī)模增加,以太坊智能合約運(yùn)行成本會(huì)增大,且其權(quán)限管理不夠靈活;考慮到分布式數(shù)據(jù)庫(kù)可能存在的安全問(wèn)題,文獻(xiàn)[17]基于Fabric并采用對(duì)稱密碼加密醫(yī)療數(shù)據(jù)并將其存儲(chǔ)在符合法律法規(guī)要求的云存儲(chǔ);文獻(xiàn)[18]依據(jù)Fabric實(shí)現(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)共享透明;文獻(xiàn)[19]實(shí)現(xiàn)不同利益相關(guān)者邊緣設(shè)備上數(shù)據(jù)共享透明,并提出符合邊緣設(shè)備應(yīng)用的共識(shí)機(jī)制、交易類型和區(qū)塊來(lái)適應(yīng)邊緣設(shè)備計(jì)算和存儲(chǔ)能力.DAC模型與區(qū)塊鏈相結(jié)合能支持問(wèn)責(zé),但區(qū)塊鏈公開透明性也會(huì)泄露共享關(guān)系和身份隱私,一定程度上僅依據(jù)假名并不能保護(hù)用戶隱私.ABAC模型通過(guò)屬性對(duì)實(shí)體及約束進(jìn)行描述,按照訪問(wèn)者權(quán)限條件設(shè)置屬性和權(quán)限的關(guān)系,將區(qū)塊鏈與ABAC模型相結(jié)合能實(shí)現(xiàn)細(xì)粒度的、支持身份隱私保護(hù)和透明的共享.文獻(xiàn)[23]基于區(qū)塊鏈解決屬性簽名時(shí)密鑰管理問(wèn)題實(shí)現(xiàn)醫(yī)療數(shù)據(jù)共享;文獻(xiàn)[24]基于EbCoin區(qū)塊鏈實(shí)現(xiàn)ABAC訪問(wèn)控制;文獻(xiàn)[25]基于屬性簽名和密文策略屬性加密實(shí)現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)共享;文獻(xiàn)[26]設(shè)計(jì)密文策略屬性加密實(shí)現(xiàn)數(shù)據(jù)共享.采用ABAC模型,策略不會(huì)隨用戶數(shù)量呈指數(shù)增長(zhǎng),但需權(quán)衡問(wèn)責(zé)與隱私保護(hù).
上述方法依據(jù)區(qū)塊鏈實(shí)現(xiàn)訪問(wèn)控制直接進(jìn)行數(shù)據(jù)共享流通,可能會(huì)帶來(lái)隱私泄露和數(shù)據(jù)濫用等問(wèn)題,例如數(shù)據(jù)收集者承諾使用數(shù)據(jù)用于科研,而實(shí)際卻是用于廣告推薦.由區(qū)塊鏈執(zhí)行訪問(wèn)控制,與同態(tài)加密、安全多方計(jì)算相結(jié)合[27-28]實(shí)現(xiàn)可控的間接數(shù)據(jù)共享,可避免上述因數(shù)據(jù)共享流通帶來(lái)的問(wèn)題.此外,數(shù)據(jù)共享過(guò)程中,還可借助區(qū)塊鏈實(shí)現(xiàn)無(wú)需第三方的公平支付,激勵(lì)數(shù)據(jù)共享[29-32].
表1為基于區(qū)塊鏈的數(shù)據(jù)獲取和共享透明方法對(duì)比.在區(qū)塊鏈層,基于交易的方式多采用比特幣;在共享層,大部分方法都不支持共享關(guān)系保護(hù)[33-37].同時(shí),大部分方法都是實(shí)現(xiàn)訪問(wèn)控制,只有文獻(xiàn)[32]提出通用的數(shù)據(jù)共享協(xié)議,具有普適性和更廣泛應(yīng)用場(chǎng)景.此外,這些方法都基于現(xiàn)有區(qū)塊鏈實(shí)現(xiàn),沒(méi)有考慮現(xiàn)有區(qū)塊鏈可擴(kuò)展性對(duì)實(shí)現(xiàn)數(shù)據(jù)獲取與共享透明的影響[38-40].
Table 1 Access Control Methods Based on Blockchain
綜上所述,區(qū)塊鏈和傳統(tǒng)訪問(wèn)控制模式結(jié)合從技術(shù)上實(shí)現(xiàn)數(shù)據(jù)獲取性和數(shù)據(jù)共享透明性,使數(shù)據(jù)生產(chǎn)者能控制自己的數(shù)據(jù).但是還存在5個(gè)待解決問(wèn)題:1)數(shù)據(jù)獲取透明性相關(guān)研究仍然有限;2)大量訪問(wèn)控制請(qǐng)求帶來(lái)區(qū)塊鏈存儲(chǔ)和可擴(kuò)展性需求,區(qū)塊鏈系統(tǒng)的效率成為亟待解決的重要問(wèn)題;3)將策略和權(quán)限存儲(chǔ)在區(qū)塊鏈,很容易被攻擊者找到漏洞,同時(shí)會(huì)泄漏共享關(guān)系,因此需要有效的方法對(duì)其進(jìn)行保護(hù);4)區(qū)塊鏈交易確認(rèn)時(shí)間會(huì)影響權(quán)限更新的及時(shí)性;5)大部分研究只給出理念和系統(tǒng)設(shè)計(jì),并未提供具體技術(shù)實(shí)現(xiàn)方法.
在醫(yī)學(xué)研究、公共安全和商業(yè)合作等很多領(lǐng)域,限于一些安全和隱私因素并不能直接傳輸原始數(shù)據(jù),需要在分布式數(shù)據(jù)集上執(zhí)行統(tǒng)計(jì)分析實(shí)現(xiàn)數(shù)據(jù)共享.分布式數(shù)據(jù)集共享方法如圖4所示.早期的PeerDB[41]和混合P2P系統(tǒng)[42]等傳統(tǒng)分布式數(shù)據(jù)管理和共享系統(tǒng)并沒(méi)有考慮隱私和安全.考慮安全和隱私的方法可以分為中心化和去中心化2類.中心化方法基于可信的第三方、誠(chéng)實(shí)且好奇的第三方、可信的硬件實(shí)現(xiàn),該類方法的通信代價(jià)較低但可能存在單點(diǎn)失敗[43-48].去中心化方法主要有秘密共享、安全多方計(jì)算和多計(jì)算節(jié)點(diǎn)等方式.基于秘密共享方式是數(shù)據(jù)提供者將隱私數(shù)據(jù)存儲(chǔ)在多個(gè)服務(wù)端并通過(guò)秘密共享方式解密數(shù)據(jù)[49-50],致使數(shù)據(jù)提供者失去數(shù)據(jù)控制權(quán).安全多方計(jì)算在不泄露數(shù)據(jù)情況下執(zhí)行計(jì)算,但目前一些安全多方計(jì)算的編譯庫(kù)并不支持多于三方參與[51-55].多計(jì)算節(jié)點(diǎn)方式采用多個(gè)計(jì)算節(jié)點(diǎn)解決單點(diǎn)失敗問(wèn)題,同時(shí)保證數(shù)據(jù)提供者仍然能控制自己的數(shù)據(jù)且適用于大規(guī)模數(shù)據(jù)提供者場(chǎng)景.但在實(shí)際應(yīng)用中,數(shù)據(jù)提供者可能是不可信的,計(jì)算節(jié)點(diǎn)也可能被攻擊或惡意違背執(zhí)行協(xié)議從而導(dǎo)致結(jié)果錯(cuò)誤,因此需要對(duì)數(shù)據(jù)提供者和計(jì)算節(jié)點(diǎn)進(jìn)行驗(yàn)證,增強(qiáng)分布式數(shù)據(jù)集共享的可驗(yàn)證性.
Fig. 4 Ways of distributed data sharing圖4 分布式數(shù)據(jù)集共享方法
為實(shí)現(xiàn)分布式數(shù)據(jù)集共享的可驗(yàn)證性,采用區(qū)塊鏈或公告牌(bulletin board)公共存儲(chǔ)驗(yàn)證信息,并通過(guò)零知識(shí)證明對(duì)數(shù)據(jù)提供者的輸入數(shù)據(jù)和計(jì)算節(jié)點(diǎn)計(jì)算過(guò)程進(jìn)行驗(yàn)證[56-58].此外,多計(jì)算節(jié)點(diǎn)共享方式還需考慮數(shù)據(jù)機(jī)密性、數(shù)據(jù)提供者和數(shù)據(jù)之間不可連接性、查詢結(jié)果機(jī)密性和計(jì)算結(jié)果的魯棒性等安全和隱私問(wèn)題.文獻(xiàn)[57]假設(shè)數(shù)據(jù)提供者是誠(chéng)實(shí)且好奇的,且至少存在一個(gè)計(jì)算節(jié)點(diǎn)是誠(chéng)實(shí)的,但沒(méi)有將驗(yàn)證信息公開.文獻(xiàn)[58]假設(shè)數(shù)據(jù)提供者和計(jì)算節(jié)點(diǎn)都是惡意的,將區(qū)塊鏈作為驗(yàn)證層,實(shí)現(xiàn)分布式數(shù)據(jù)共享.文獻(xiàn)[59]假設(shè)數(shù)據(jù)提供者是惡意的,基于公告牌實(shí)現(xiàn)去中心的、可驗(yàn)證的在線信譽(yù)評(píng)價(jià)系統(tǒng).
Fig. 5 Verified distributed data sharing system圖5 可驗(yàn)證分布式數(shù)據(jù)集共享
圖5將區(qū)塊鏈作為驗(yàn)證層,實(shí)現(xiàn)多計(jì)算節(jié)點(diǎn)的分布式數(shù)據(jù)集共享.數(shù)據(jù)提供者和計(jì)算節(jié)點(diǎn)基于零知識(shí)證明和密碼學(xué)承諾(commitment)把證明存入?yún)^(qū)塊鏈.區(qū)塊鏈作為驗(yàn)證層,執(zhí)行驗(yàn)證并記錄共享過(guò)程.
綜上所述,通過(guò)區(qū)塊鏈或公告牌作為驗(yàn)證層可增加分布式數(shù)據(jù)共享的透明性和支持可驗(yàn)證.但是還存在2個(gè)待解決問(wèn)題:1)現(xiàn)有方法采用零知識(shí)證明和密碼學(xué)承諾的方法對(duì)數(shù)據(jù)提供者和計(jì)算節(jié)點(diǎn)進(jìn)行驗(yàn)證,然而零知識(shí)證明生成證明和驗(yàn)證過(guò)程都存在較大計(jì)算開銷;2)現(xiàn)有方法大都依據(jù)范圍承諾對(duì)數(shù)據(jù)提供者的輸入進(jìn)行驗(yàn)證,適用范圍有限.
分布式機(jī)器學(xué)習(xí)通過(guò)數(shù)據(jù)并行(data parallelism)或模型并行(model parallelism)實(shí)現(xiàn),能間接實(shí)現(xiàn)數(shù)據(jù)共享.目前,分布式機(jī)器學(xué)習(xí)常采用中心化方式,即1個(gè)主節(jié)點(diǎn)(master)和多個(gè)參與節(jié)點(diǎn)(parties)共同完成機(jī)器學(xué)習(xí)任務(wù).主節(jié)點(diǎn)單點(diǎn)失敗[60-63]和參與節(jié)點(diǎn)投毒攻擊(poisoning attack)[64-66]等原因會(huì)影響機(jī)器學(xué)習(xí)結(jié)果.所以,存儲(chǔ)分布式機(jī)器學(xué)習(xí)過(guò)程中重要參數(shù)信息是必要的,識(shí)別哪些節(jié)點(diǎn)貢獻(xiàn)了哪些參數(shù)以及該參數(shù)對(duì)整個(gè)模型的影響[67-70].
基于區(qū)塊鏈可以實(shí)現(xiàn)可驗(yàn)證的分布式機(jī)器學(xué)習(xí),由區(qū)塊鏈記錄和傳遞重要參數(shù),同時(shí)參數(shù)傳遞過(guò)程中采用差分隱私、秘密共享和同態(tài)加密等技術(shù)對(duì)參數(shù)進(jìn)行保護(hù).實(shí)現(xiàn)方式也分為中心化和去中心化2種:中心化方式是指保持固定的主節(jié)點(diǎn)和參與節(jié)點(diǎn),由區(qū)塊鏈存儲(chǔ)機(jī)器學(xué)習(xí)過(guò)程中產(chǎn)生的參數(shù)[71-72],但仍然存在單點(diǎn)失?。蝗ブ行幕绞揭罁?jù)區(qū)塊鏈共識(shí)算法產(chǎn)生主節(jié)點(diǎn),通過(guò)區(qū)塊鏈交易交換并存儲(chǔ)參數(shù)信息[73-75].
Fig. 6 Machine learning based on blockchain圖6 基于區(qū)塊鏈的機(jī)器學(xué)習(xí)
圖6為去中心化的分布式機(jī)器學(xué)習(xí)模型.其中,①為各個(gè)數(shù)據(jù)提供者依據(jù)本地?cái)?shù)據(jù)獲得本地梯度信息(gradient descent, GD),并通過(guò)區(qū)塊鏈交易上傳至區(qū)塊鏈.②為區(qū)塊鏈網(wǎng)絡(luò)中各個(gè)礦工交叉驗(yàn)證.③為礦工通過(guò)共識(shí)算法生成并更新全局梯度信息.④為區(qū)塊鏈網(wǎng)絡(luò)再將更新后的全局梯度信息發(fā)送給各個(gè)數(shù)據(jù)提供者.重復(fù)迭代執(zhí)行①~④,直至滿足要求.
表2為基于區(qū)塊鏈實(shí)現(xiàn)可驗(yàn)證分布式機(jī)器學(xué)習(xí)方法.大多數(shù)方法都采用去中心化方式實(shí)現(xiàn),采用差分隱私對(duì)數(shù)據(jù)提供者的本地梯度信息進(jìn)行保護(hù).而且,文獻(xiàn)[58]同時(shí)支持分布式數(shù)據(jù)集統(tǒng)計(jì)分析和分布式機(jī)器學(xué)習(xí).
Table 2 Comparison of Distributed Machine Learning Methods
綜上所述,依據(jù)區(qū)塊鏈實(shí)現(xiàn)分布式機(jī)器學(xué)習(xí),可以增加透明性和支持可驗(yàn)證.但是還存在3個(gè)待解決問(wèn)題:1)零知識(shí)證明生成證明和驗(yàn)證過(guò)程都存在較大計(jì)算開銷;2)區(qū)塊鏈延遲性對(duì)分布式機(jī)器學(xué)習(xí)產(chǎn)生影響[76];3)雖然可以通過(guò)經(jīng)濟(jì)激勵(lì)和區(qū)塊鏈實(shí)現(xiàn)公平,如何合理激勵(lì)數(shù)據(jù)提供者并解決激勵(lì)帶來(lái)的新問(wèn)題.目前分布式機(jī)器學(xué)習(xí)方法大多假設(shè)數(shù)據(jù)提供者有足夠的數(shù)據(jù)且愿意參加,事實(shí)上對(duì)數(shù)據(jù)提供者獎(jiǎng)勵(lì)應(yīng)該與其數(shù)據(jù)量多少和數(shù)據(jù)質(zhì)量等因素成正比,但這也會(huì)促使數(shù)據(jù)提供者為獲得獎(jiǎng)勵(lì)而虛報(bào)數(shù)據(jù)量等問(wèn)題.
越來(lái)越多的數(shù)據(jù)擁有者 (data owner, DO)將數(shù)據(jù)存儲(chǔ)至云端,享受云服務(wù)提供商(cloud service provider, CSP)提供的云存儲(chǔ)服務(wù).由于DO和CSP之間不存在完全信任,數(shù)據(jù)完整性驗(yàn)證、可搜索加密和確定性數(shù)據(jù)刪除等是保障云存儲(chǔ)數(shù)據(jù)安全和隱私的重要技術(shù).現(xiàn)有方法大多基于CSP是不完全可信、DO是誠(chéng)實(shí)可信的假設(shè)條件,進(jìn)而引入可信的第三方審計(jì)(third party audit, TPA)并支持DO實(shí)施驗(yàn)證.然而,這些假設(shè)條件在實(shí)際部署和實(shí)施時(shí)是有限制的,而且大多數(shù)方法實(shí)現(xiàn)仍然缺乏透明性.事實(shí)上,TPA也可能會(huì)發(fā)生錯(cuò)誤或合謀,DO也可能進(jìn)行欺詐[77],所以需要增加CSP,TPA,DO之間交互的透明性和可信性.應(yīng)用區(qū)塊鏈可以在不依賴可信第三方的情況下實(shí)現(xiàn)服務(wù)透明.此外,依據(jù)區(qū)塊鏈還可以實(shí)現(xiàn)不依賴可信第三方的數(shù)據(jù)云存儲(chǔ)服務(wù)公平.
1) 數(shù)據(jù)完整性驗(yàn)證.數(shù)據(jù)完整性驗(yàn)證方法有數(shù)據(jù)持有證明(provable data possession, PDP)和數(shù)據(jù)可恢復(fù)證明(proof of retrievability, POR).PDP可以快速驗(yàn)證數(shù)據(jù)是否被云端正確地持有.POR不僅能夠識(shí)別數(shù)據(jù)是否已丟失或損壞,還能對(duì)丟失或損壞的數(shù)據(jù)進(jìn)行修復(fù).對(duì)數(shù)據(jù)完整性進(jìn)行驗(yàn)證時(shí),通常依賴TPA執(zhí)行驗(yàn)證,由于驗(yàn)證過(guò)程缺乏透明性,DO只能相信TPA返回的驗(yàn)證結(jié)果.雖然已有研究通過(guò)支持DO復(fù)審[78-79]、多TPA驗(yàn)證[80]、可信硬件[81]解決驗(yàn)證過(guò)中TPA的不可信和驗(yàn)證過(guò)程不透明問(wèn)題,但是這些方法需要引入其他可信方.區(qū)塊鏈與傳統(tǒng)完整性驗(yàn)證方法相結(jié)合能夠增加透明性和可信性,有去中心化驗(yàn)證和中心化驗(yàn)證2種方式.去中心化驗(yàn)證是指區(qū)塊鏈網(wǎng)絡(luò)代替TPA執(zhí)行驗(yàn)證.文獻(xiàn)[82]結(jié)合PDP和以太坊實(shí)現(xiàn)數(shù)據(jù)完整性驗(yàn)證,但是并沒(méi)有考慮如何減少GAS開銷,文獻(xiàn)[83]也采用PDP和以太坊實(shí)現(xiàn)完整性驗(yàn)證,并實(shí)現(xiàn)不依賴第三方的服務(wù)公平;文獻(xiàn)[84]采用聯(lián)盟鏈驗(yàn)證,并設(shè)計(jì)符合應(yīng)用場(chǎng)景的共識(shí)機(jī)制.中心化驗(yàn)證指仍由TPA執(zhí)行數(shù)據(jù)完整性驗(yàn)證,但將完整性驗(yàn)證挑戰(zhàn)信息存入?yún)^(qū)塊鏈用于日后復(fù)審.文獻(xiàn)[85]利用區(qū)塊中nonce字段構(gòu)建完整性驗(yàn)證時(shí)的挑戰(zhàn)信息,由DO對(duì)TPA驗(yàn)證結(jié)果進(jìn)行復(fù)審.這種方式能支持批量處理,提高驗(yàn)證效率,但要求DO具有一定的計(jì)算能力執(zhí)行復(fù)審.
2) 可搜索加密.可搜索加密技術(shù),根據(jù)實(shí)現(xiàn)功能不同可以分為單關(guān)鍵詞搜索、連接關(guān)鍵詞搜索和復(fù)雜邏輯結(jié)構(gòu)搜索;根據(jù)構(gòu)造算法不同可以分為對(duì)稱可搜索加密(symmetric searchable encryption, SSE)和非對(duì)稱可搜索加密(asymmetric searchable encryption, ASE)[86].可搜索加密結(jié)果完整性驗(yàn)證方法大多都假設(shè)可信的TPA執(zhí)行公共驗(yàn)證,缺乏透明性.區(qū)塊鏈與傳統(tǒng)可搜索加密方法相結(jié)合能夠增加透明性和可信性,可分為去中心化搜索和中心化搜索2種方式.去中心化搜索時(shí),由區(qū)塊鏈網(wǎng)絡(luò)中各節(jié)點(diǎn)通過(guò)執(zhí)行智能合約代替CSP執(zhí)行搜索,共識(shí)過(guò)程保證搜索結(jié)果是正確的,不需要數(shù)據(jù)擁有者對(duì)搜索結(jié)果進(jìn)行驗(yàn)證[87].中心化搜索指仍然由CSP執(zhí)行搜索,在給DO返回搜索結(jié)果的同時(shí)將驗(yàn)證信息存入?yún)^(qū)塊鏈[88].此外,除了傳統(tǒng)中心云存儲(chǔ),結(jié)合區(qū)塊鏈還可以實(shí)現(xiàn)Storj和Filecoin等去中心云存儲(chǔ)關(guān)鍵字搜索結(jié)果完整性驗(yàn)證[89-90].
3) 確定性數(shù)據(jù)刪除.確定性數(shù)據(jù)刪除方法有覆蓋寫刪除(deletion by overwriting)和密碼學(xué)刪除(deletion by cryptography).當(dāng)進(jìn)行確定性數(shù)據(jù)刪除時(shí),DO發(fā)出刪除請(qǐng)求之后,CSP執(zhí)行刪除操作并返回1位的“成功”或“失敗”作為響應(yīng).DO無(wú)法根據(jù)此響應(yīng)來(lái)確定云端數(shù)據(jù)是否已經(jīng)被刪除,刪除過(guò)程亦缺乏透明性.已有研究依賴于用戶能訪問(wèn)存儲(chǔ)介質(zhì)[91]、沙漏模型[92]等假設(shè)條件,或者基于可信硬件[93]和可信第三方[94]實(shí)現(xiàn)可驗(yàn)證確定性數(shù)據(jù)刪除,但仍缺乏透明性.由區(qū)塊鏈記錄刪除證明可以增加數(shù)據(jù)確定性刪除的透明性.在執(zhí)行數(shù)據(jù)刪除時(shí)仍由CSP執(zhí)行刪除, 基于信任但可驗(yàn)證原則(trust-but-verify),將DO的刪除請(qǐng)求和CSP的刪除證明存入?yún)^(qū)塊鏈.任何人都可以依據(jù)區(qū)塊鏈執(zhí)行驗(yàn)證操作,增加刪除透明性,防止DO和CSP雙方都可能存在的惡意行為.文獻(xiàn)[95]采用覆蓋寫方法,假設(shè)DO和CSP之間已通過(guò)身份驗(yàn)證實(shí)現(xiàn)問(wèn)責(zé),并引入時(shí)間服務(wù)器為刪除證明提供時(shí)間戳服務(wù).文獻(xiàn)[96]在此之上使用基于屬性簽名代替比特幣中采用橢圓曲線數(shù)字簽名增加隱私性和安全性,并將交易內(nèi)容加密防止竊聽攻擊.
表3為基于區(qū)塊鏈增加云存儲(chǔ)服務(wù)透明性和公平性研究總結(jié).數(shù)據(jù)完整性驗(yàn)證多采用去中化方法,僅支持DO驗(yàn)證.可搜索加密技術(shù)都考慮了公平性.確定性數(shù)據(jù)刪除都采用去中心化方式和公有鏈實(shí)現(xiàn),支持DO和CSP雙方驗(yàn)證.
Table 3 Comparison of Cloud Storage Services Transparency
綜上所述,應(yīng)用區(qū)塊鏈可增加數(shù)據(jù)云存儲(chǔ)服務(wù)的透明性和公平性.但是還存在3個(gè)待解決問(wèn)題:1)數(shù)據(jù)完整性驗(yàn)證,采用中心化驗(yàn)證方式仍然需要DO執(zhí)行復(fù)審,增加DO的計(jì)算負(fù)擔(dān);采用去中心化方式,由于以太坊智能合約的執(zhí)行需要消耗燃料(gas),燃料需要通過(guò)以太幣進(jìn)行購(gòu)買,所以需要盡力優(yōu)化實(shí)現(xiàn)代碼等方式減少代價(jià)消耗.2)可搜索加密技術(shù),一般來(lái)說(shuō)密文和索引都有可能造成不同程度的信息泄露,需要設(shè)計(jì)更安全的模型使陷門和索引都不泄露關(guān)鍵詞信息;采用中心化搜索方式需要實(shí)現(xiàn)可驗(yàn)證的多關(guān)鍵詞和復(fù)雜邏輯結(jié)構(gòu)搜索.此外,可搜索加密技術(shù)也存在以太坊計(jì)算燃料消耗問(wèn)題.3)確定性數(shù)據(jù)刪除,現(xiàn)有方法均基于覆蓋寫刪除方法,依賴于DO事后發(fā)現(xiàn)數(shù)據(jù)仍然存在的假設(shè),需要設(shè)計(jì)可驗(yàn)證的即時(shí)數(shù)據(jù)刪除方法.此外,如果數(shù)據(jù)擁有者和云服務(wù)提供者要求將區(qū)塊鏈上信息也同時(shí)刪除,此時(shí)應(yīng)該考慮鏈上數(shù)據(jù)刪除技術(shù)[97-99].
在基于“數(shù)據(jù)—信息—知識(shí)—智慧”模型的數(shù)據(jù)決策過(guò)程中[100],首先需要收集數(shù)據(jù),并對(duì)其加工處理之后形成對(duì)決策有價(jià)值的信息,進(jìn)一步對(duì)信息使用歸納、演繹方法得到知識(shí),最后利用這些知識(shí)并經(jīng)由探討得出最終決策.然而,在大數(shù)據(jù)環(huán)境下,此模型的有效性受到?jīng)_擊.數(shù)據(jù)被篡改、數(shù)據(jù)質(zhì)量管理過(guò)程中的單點(diǎn)失敗等問(wèn)題會(huì)導(dǎo)致決策數(shù)據(jù)不可靠;訓(xùn)練數(shù)據(jù)偏見(jiàn)、算法設(shè)計(jì)偏見(jiàn)和算法錯(cuò)誤都可能導(dǎo)致決策算法不可靠.為此,數(shù)據(jù)決策透明性需要實(shí)現(xiàn)決策數(shù)據(jù)可審計(jì)、算法可解釋[101-105]和算法透明.
區(qū)塊鏈作為去中心化的分布式數(shù)據(jù)庫(kù),為決策數(shù)據(jù)可審計(jì)提供支持.通過(guò)獲取透明、共享透明和服務(wù)透明,在對(duì)數(shù)據(jù)進(jìn)行追蹤溯源的同時(shí)也為數(shù)據(jù)使用者對(duì)決策數(shù)據(jù)進(jìn)行審計(jì)有促進(jìn)作用.此外,基于區(qū)塊鏈的去中心化存儲(chǔ)模式,數(shù)據(jù)使用者可以驗(yàn)證數(shù)據(jù)是否被篡改和對(duì)數(shù)據(jù)進(jìn)行追蹤,在金融保險(xiǎn)[106]、醫(yī)療[107-110]和供應(yīng)鏈[111-114]等數(shù)據(jù)完整性要求較高領(lǐng)域有重要意義.區(qū)塊鏈作為分布式數(shù)據(jù)庫(kù),區(qū)塊鏈的可擴(kuò)展性[115]、安全[116]]和隱私[117]等問(wèn)題是影響其應(yīng)用的重要因素.此外,考慮到區(qū)塊鏈存儲(chǔ)限制,通常采用“鏈上”存儲(chǔ)元數(shù)據(jù)與“鏈下”存儲(chǔ)數(shù)據(jù)相結(jié)合的方式,并進(jìn)一步在這些可信數(shù)據(jù)上執(zhí)行查詢分析.大部分區(qū)塊鏈查詢系統(tǒng)僅提供區(qū)塊、交易和賬戶等信息的簡(jiǎn)單查詢,并未提供復(fù)雜查詢功能.實(shí)際應(yīng)用中還需要實(shí)現(xiàn)范圍查詢和Top-k查詢等復(fù)雜查詢[118]、數(shù)據(jù)查詢完整性驗(yàn)證[119]、密文查詢[120]和細(xì)粒度在線查詢溯源[121]等.
多源數(shù)據(jù)的格式、標(biāo)準(zhǔn)不統(tǒng)一等問(wèn)題也會(huì)影響數(shù)據(jù)質(zhì)量,進(jìn)而影響數(shù)據(jù)決策.然而傳統(tǒng)數(shù)據(jù)質(zhì)量管理和質(zhì)量控制方法通常依賴可信第三方執(zhí)行,存在缺乏透明性、單點(diǎn)失敗和時(shí)間資源消耗較大的問(wèn)題.依靠智能合約自動(dòng)執(zhí)行可以制定統(tǒng)一數(shù)據(jù)格式、規(guī)則來(lái)提高數(shù)據(jù)質(zhì)量管控的透明度[122-123].
綜上所述,基于區(qū)塊鏈可以促進(jìn)決策數(shù)據(jù)可審計(jì),進(jìn)而有助于決策可解釋.但是還存在3個(gè)待解決問(wèn)題:1)大數(shù)據(jù)來(lái)源廣泛,雖然采用區(qū)塊鏈存儲(chǔ)和管理數(shù)據(jù)可以實(shí)現(xiàn)數(shù)據(jù)追蹤問(wèn)責(zé),但是如何保證數(shù)據(jù)在存入?yún)^(qū)塊鏈之前的真實(shí)可信是挑戰(zhàn)問(wèn)題;2)支持區(qū)塊鏈上復(fù)雜數(shù)據(jù)查詢、查詢隱私保護(hù)和密文數(shù)據(jù)查詢等;3)如何保證 “鏈下”存儲(chǔ)數(shù)據(jù)的安全性.
基于區(qū)塊鏈的數(shù)據(jù)透明化旨在增加大數(shù)據(jù)價(jià)值實(shí)現(xiàn)過(guò)程的透明性,記錄數(shù)據(jù)獲取、數(shù)據(jù)共享和數(shù)據(jù)使用等信息.進(jìn)而依據(jù)這些信息實(shí)現(xiàn)具有不可篡改性質(zhì)的溯源問(wèn)責(zé)和數(shù)據(jù)在其生命周期內(nèi)的可審計(jì),為隱私保護(hù)和數(shù)據(jù)決策可審計(jì)提供支持.數(shù)據(jù)透明性、溯源問(wèn)責(zé)和數(shù)據(jù)可審計(jì)的實(shí)現(xiàn)主要面臨5個(gè)挑戰(zhàn)問(wèn)題:
1) 符合數(shù)據(jù)透明化需求的區(qū)塊鏈架構(gòu)問(wèn)題.基于區(qū)塊鏈的數(shù)據(jù)透明化具有更強(qiáng)的問(wèn)責(zé)能力,但現(xiàn)有區(qū)塊鏈的技術(shù)和系統(tǒng)無(wú)法被直接應(yīng)用于數(shù)據(jù)透明化.例如,實(shí)現(xiàn)數(shù)據(jù)獲取透明性和數(shù)據(jù)共享透明性對(duì)區(qū)塊鏈的可擴(kuò)展性提出較高要求;實(shí)施溯源需要涉及多區(qū)塊鏈之間的互操作性;實(shí)施問(wèn)責(zé)與現(xiàn)有公有鏈的監(jiān)管困難相沖突.為此,需要設(shè)計(jì)符合數(shù)據(jù)透明化需求的高可擴(kuò)展性、隱私與監(jiān)管并重、輕量級(jí)的區(qū)塊鏈,而非完全依賴于現(xiàn)有的、開源的區(qū)塊鏈平臺(tái).
2) 具有用戶控制權(quán)的數(shù)據(jù)獲取透明性問(wèn)題.目前的數(shù)據(jù)獲取過(guò)程缺乏透明性和用戶控制權(quán),導(dǎo)致隱私泄露問(wèn)題嚴(yán)峻.然而,目前關(guān)于數(shù)據(jù)獲取透明性的研究仍然相對(duì)有限,亟需一種全新的數(shù)據(jù)獲取架構(gòu)以及政策和法律法規(guī)的支持,實(shí)現(xiàn)數(shù)據(jù)獲取透明性.此外,用戶(即數(shù)據(jù)生產(chǎn)者)在數(shù)據(jù)獲取過(guò)程中缺少控制權(quán),用戶或者同意數(shù)據(jù)收集者制定的數(shù)據(jù)協(xié)議而付出所有數(shù)據(jù)收集者要求的數(shù)據(jù),或者不同意但會(huì)導(dǎo)致不能享受服務(wù).在數(shù)據(jù)獲取透明性實(shí)現(xiàn)過(guò)程中,如何將控制權(quán)還給用戶,由用戶決定數(shù)據(jù)內(nèi)容、目的和形式,并根據(jù)用戶同意的數(shù)據(jù)提供服務(wù)是挑戰(zhàn)問(wèn)題.由此,用戶所獲得的服務(wù)與自身數(shù)據(jù)隱私損失之間的平衡也至關(guān)重要.
3) 保證數(shù)據(jù)使用協(xié)議的數(shù)據(jù)共享透明性問(wèn)題.服務(wù)提供者(service provider)作為數(shù)據(jù)收集者收集用戶數(shù)據(jù)并為用戶提供服務(wù),但服務(wù)提供者是否依據(jù)數(shù)據(jù)使用協(xié)議執(zhí)行數(shù)據(jù)共享是不透明的.為此如何實(shí)現(xiàn)強(qiáng)制執(zhí)行數(shù)據(jù)使用協(xié)議進(jìn)行共享并對(duì)數(shù)據(jù)共享情況進(jìn)行透明記錄是一個(gè)挑戰(zhàn)問(wèn)題.此外,數(shù)據(jù)開放共享平臺(tái)是重要的數(shù)據(jù)共享流通方式,可以促進(jìn)不同領(lǐng)域資源相融合,使數(shù)據(jù)發(fā)揮更大價(jià)值.例如,政府公共部門數(shù)據(jù)共享開放可以促進(jìn)更智能高效的服務(wù)和據(jù)此為公共問(wèn)題提出有效的方案.但是數(shù)據(jù)開放共享平臺(tái)的數(shù)據(jù)可能會(huì)涉及眾多個(gè)人隱私,原則上數(shù)據(jù)開放共享需要征求個(gè)人同意,但實(shí)現(xiàn)難度較大且可能會(huì)導(dǎo)致數(shù)據(jù)出現(xiàn)偏差.為此,在數(shù)據(jù)提供者和數(shù)據(jù)使用者能夠保護(hù)數(shù)據(jù)義務(wù)的前提下,可以考慮個(gè)人同意讓位于集體公共利益,在不經(jīng)過(guò)個(gè)人同意情況下實(shí)現(xiàn)共享.那么,針對(duì)這種 “捆綁”數(shù)據(jù)共享流通情況,如何在隱私保護(hù)前提下實(shí)現(xiàn)數(shù)據(jù)共享透明性,并使用戶能追蹤與他們數(shù)據(jù)有關(guān)的共享流通信息也是一個(gè)挑戰(zhàn)問(wèn)題.
4) 具有不可篡改性質(zhì)的溯源問(wèn)責(zé)問(wèn)題.通過(guò)獲取透明和共享透明可以獲得溯源數(shù)據(jù),依據(jù)這些溯源數(shù)據(jù)可以實(shí)現(xiàn)溯源問(wèn)責(zé).溯源問(wèn)責(zé)的前提是溯源數(shù)據(jù)的完備性,然而如何使所有的數(shù)據(jù)獲取和共享事件都被記錄是一個(gè)挑戰(zhàn)問(wèn)題.除技術(shù)手段,還需要政策、法律法規(guī)等多方面的支持.例如,可采用激勵(lì)等非技術(shù)手段,將記錄數(shù)據(jù)獲取和共享信息與企業(yè)信譽(yù)相關(guān)聯(lián),主動(dòng)記錄數(shù)據(jù)獲取和共享信息的企業(yè)獲得較高的信譽(yù),增加用戶的信任,利于其業(yè)務(wù)發(fā)展.進(jìn)一步,在大規(guī)模數(shù)據(jù)收集和數(shù)據(jù)共享流通錯(cuò)綜復(fù)雜背景下,如何實(shí)現(xiàn)跨平臺(tái)和跨領(lǐng)域的溯源問(wèn)責(zé)是仍未解決的挑戰(zhàn)問(wèn)題.同時(shí),由于溯源數(shù)據(jù)描述數(shù)據(jù)獲取和共享流通整個(gè)脈絡(luò),在數(shù)據(jù)溯源過(guò)程中也可能會(huì)泄露其他隱私信息,所以溯源過(guò)程的隱私保護(hù)也至關(guān)重要.進(jìn)一步,如何根據(jù)策略承諾和溯源數(shù)據(jù)自動(dòng)進(jìn)行違反檢測(cè)也是一個(gè)挑戰(zhàn)問(wèn)題.
5) 保證數(shù)據(jù)在其數(shù)據(jù)周期內(nèi)的可審計(jì)問(wèn)題.在數(shù)據(jù)生命周期內(nèi),數(shù)據(jù)是否真實(shí)產(chǎn)生和處理、數(shù)據(jù)在共享流通過(guò)程中是否被篡改等問(wèn)題都會(huì)影響數(shù)據(jù)決策結(jié)果.雖然基于區(qū)塊鏈進(jìn)行去中心化存儲(chǔ)和管理數(shù)據(jù)會(huì)使數(shù)據(jù)使用者能夠?qū)?shù)據(jù)完整性進(jìn)行驗(yàn)證和追溯,但并不能防止數(shù)據(jù)在存入?yún)^(qū)塊鏈之前數(shù)據(jù)被偽造和篡改等問(wèn)題.此外,為保證決策結(jié)果可解釋性,應(yīng)該保證數(shù)據(jù)的準(zhǔn)確性.然而數(shù)據(jù)隱私保護(hù)技術(shù)會(huì)在某種程度上擾動(dòng)數(shù)據(jù),必然會(huì)造成數(shù)據(jù)準(zhǔn)確性降低,并影響決策數(shù)據(jù)的可解釋性.如何平衡數(shù)據(jù)隱私保護(hù)和決策數(shù)據(jù)可審計(jì)是一個(gè)挑戰(zhàn)問(wèn)題.
如何保證數(shù)據(jù)得到正確、合理和規(guī)范的使用已經(jīng)成為大數(shù)據(jù)生態(tài)中亟待解決的根本問(wèn)題,建立數(shù)據(jù)透明化的治理體系是有效途徑和重要舉措.本文提出數(shù)據(jù)透明化研究框架,并總結(jié)和分析該框架下的基于區(qū)塊鏈的數(shù)據(jù)透明化研究現(xiàn)狀,最后提出主要面臨的挑戰(zhàn)問(wèn)題.此外,作為一個(gè)跨學(xué)科問(wèn)題,數(shù)據(jù)透明化將數(shù)據(jù)獲取和共享流通置于新的范式之下,如何確保用戶具備足夠的法律法規(guī)素養(yǎng)來(lái)理解和應(yīng)對(duì)這種變化,也是需要學(xué)界和全社會(huì)共同去探索的課題.于此同時(shí),我們更要遵從“管理數(shù)據(jù)、理解數(shù)據(jù)、敬畏數(shù)據(jù)”的理念,從而促進(jìn)大數(shù)據(jù)生態(tài)良性發(fā)展.