彭慧波 周亞建
摘? 要: 有價值的數據資源充分流動,可以實現(xiàn)大數據產業(yè)的長期,穩(wěn)定和可持續(xù)發(fā)展。本文討論了通過構建以合理定價為中心的數據交易機制來利用經濟杠桿來激勵數據流的想法。首先,本文結合信息熵,提出了一種基于分級的交易數據集隱私度量方法;其次,基于數據集中的隱私含量和數據引用指數提出了一種數據定價模型對待交易數據元組進行定價;最后,結合一個實際的交易數據集驗證了模型的正確性、合理性、有效性。
關鍵詞: 計算機應用技術;數據定價;隱私度量;信息熵;隱私分級
中圖分類號: TP399? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.012
【Abstract】: With valuable data resources flowing fully, the long-term, stable and sustainable development of the big data industry be realized. The idea of using economic levers to motivate data flow through the construction of a data transaction mechanism centered on reasonable pricing has been discussed in this paper. Firstly, this paper proposes a classification-based transaction data set privacy measurement method based on information entropy. Secondly, based on the privacy content and data index of the data set, a data pricing model is proposed to price the transaction data tuple. Finally, a specific example has been used to verify the correctness, rationality and effectiveness of the pricing model.
【Key words】: Computer application technology; Data pricing; Privacy measurement; Information entropy; Privacy rating
0? 引言
隨著信息技術的快速發(fā)展,時刻都有海量數據的產生,但是這些數據都是停止不動的,形成了一個個信息孤島。數據作為一種在一定程度上不可共享的資源,逐漸演變成為一種可進行交易的商品,數據資源成為人類社會一種必不可少的生產要素與戰(zhàn)略資產[1]。為了促進數據的流動這就需要數據交易的支持。但是,由于缺乏規(guī)范的交易渠道和統(tǒng)一的交易規(guī)范,現(xiàn)在并沒有統(tǒng)一的數據交易平臺。而數據交易的平穩(wěn)、健康發(fā)展又離不開數據定價方法的支持。目前仍未能在全球領域內形成對數據定價方法的統(tǒng)一認識。因此,如何實現(xiàn)數據定價理論中定價機制的公開化、數據價格的透明化,一直是困擾國內外科研人員以及大數據從業(yè)者的重大問題。
要解決這個問題,隱私風險分析及評估不失為一種可行解決方案。但隱私風險分析及評估,尤其是量化隱私風險,勢必會涉及隱私度量問題。從這些分析來看,隱私度量的研究具有十分重要的理論意義和應用價值。目前對于隱私度量的研究主要是基于 Shannon信息論的通信框架,提出了幾種隱私保護信息熵模型,以解決隱私保護系統(tǒng)的相關度量問題。信息熵作為信息度量的有效工具,在通信領域已展現(xiàn)出其重要的貢獻。為此,不少學者或多或少進行了探索,提出了比如事件熵、匿名集合熵、條件熵形式化分析和分布概率數學理論等在內的相關理論[2]。然而這些方法在實際應用中并不能達到理論上所提到的隱私保護的效果,并且存在不同程度的不足或缺陷。此外,目前關于隱私度量的研究還較為零散,更多地是針對某一特定領域,如位置隱私保護,目前還尚未形成統(tǒng)一的模型及體系。其應用范圍也受到限制,特別是隱私是具有時空性的,與人的主觀感受也有關系,不同的人對同一隱私的認同可能不同。然而在數據交易的過程中,隱私含量作為一個影響數據定價的重要特征,如何衡量數據集中隱私含量就顯得尤為重要。目前尚沒有一種針對待交易數據集中隱私含量的度量方式[3]。
在研究過程中本文的研究對象主要是待交易數據集中的各個元組。此外,本文做出以下假設:(1)數據擁有者和數據購買者對數據和其中包含的敏感信息都十分關注,出于法律等因素的約束,可信第三方不會主動泄露數據中的敏感信息;(2)數據擁有者和數據購買者都是理性的,是否出售和購買數據都是通過合理分析得出,包括成本、收益、風險在內的所有因素都可以用價格進行衡量;(3)本文從數據交易平臺的角度出發(fā),結合數據本身特性分析交易數據集的價格,得出的結果均不考慮除數據本身之外其它因素對價格所帶來的影響;(4)本文所設定的模型不考慮套利和整體折扣的情況。
基于以上論述,本文提出一種基于信息熵的隱私度量方法,并在此基礎上建立基于隱私度量的數據定價模型。
1? 相關工作
包括微軟、亞馬遜、貴州大數據交易所、上海大數據交易中心在內的國內外數據交易平臺結合多年來的實踐經驗,提出了包括基于次數定價、基于固定費用定價(只與使用時間有關)、雙方稅率定價(先收取基本費用,每次使用收取固定費用)、免費增值定價(使用開放數據免費,使用額外服務收取一定費用)在內的不同數據定價方法。
參考文獻
[1] Gkatzelis V, Aperjis C, Huberman B A. Pricing private data[J]. Electronic Markets, 2012, 25(2): 1-15.
[2] 彭長根, 丁紅發(fā), 朱義杰, 等. 隱私保護的信息熵模型及其度量方法[J]. 軟件學報, 2016, 27(8): 1891-1903.
[3] 連玉明. 重新定義大數據[M]. 北京:機械工業(yè)出版社, 2017: 164-175.
[4] 張曉玉. 基于討價還價博弈的大數據商品交易價格研究[D]. 遼寧科技大學, 2016.
[5] Riederer C, Erramilli V, Chaintreau A, et al. For sale: your data: by: you[C]//ACM Workshop on Hot Topics in Networks. ACM, 2011: 13.
[6] Niyato D, Alsheikh M A, Wang P, et al. Market model and optimal pricing scheme of big data and Internet of Things (IoT)[C]//IEEE International Conference on Communications. IEEE, 2016.
[7] Balazinska M, Howe B, Koutris P, et al. A Discussion on Pricing Relational Data[M]//In Search of Elegance in the Theory and Practice of Computation. Springer Berlin Heidelberg, 2013: 167-173.
[8] Shen Y, Guo B, Shen Y, et al. A Pricing Model for Big Personal Data[J]. 清華大學學報: 自然科學英文版, 2016, 21(5): 482-490.
[9] 陳筱貞. 大數據交易定價模式的選擇[J]. 港澳經濟, 2016(18): 3-4.
[10] 劉朝陽. 大數據定價問題分析[J]. 圖書情報知識, 2016(1): 57-64.
[11] Moiso C, Minerva R. Towards a user-centric personal data ecosystem The role of the bank of individuals' data[C]// International Conference on Intelligence in Next Generation Networks. IEEE, 2012: 202-209.
Muschalle A, Stahl F, L?ser A, et al. Pricing Approaches for Data Markets[C]//Workshop Business Intelligence for the Real Time Enterprise. 2012: 129-144.
趙子瑞. 淺析國內大數據交易定價[J]. 信息安全與通信保密, 2017(5): 61-67.
干春暉, 鈕繼新. 網絡信息產品市場的定價模式[J]. 中國工業(yè)經濟, 2003(5): 34-41.
Tsai Y C, Cheng Y D, Wu C W, et al. Time-Dependent Smart Data Pricing Based on Machine Learning[M]// Advances in Artificial Intelligence. 2017: 103-108.
熊金波, 王敏燊, 田有亮, 等. 面向云數據的隱私度量研究進展, 軟件學報, 2017, DOI:? 10.13328/j.cnki.jos.005363.
Balazinska M, Howe B, Dan S. Data Markets in the Cloud: An Opportunity for the Database Community[J]. Proc of the Vldb Endowment, 2011, 4: 1482-1485.
王文平. 大數據交易定價策略研究[J]. 軟件, 2016, 37(10): 94-97.
Li C, Li D Y, Miklau G, et al. A Theory of Pricing Private Data[J]. ACM Transactions on Database Systems (TODS), 2014, 39(4): 34.
Koutris P, Upadhyaya P, Balazinska M, et al. Query-based data pricing[C]//Symposium on Principles of Database Systems. ACM, 2012: 167-178.
Tang R, Wu H, Bao Z, et al. The Price Is Right[C]// International Conference on Database and Expert Systems Applications. Springer Berlin Heidelberg, 2013: 380-394.
[22] 彭云聰, 任心晴, 石浩森. 基于核加權KNN和多目標優(yōu)化的眾包平臺定價系統(tǒng)設計[J]. 軟件, 2018, 39(6): 150-154.