葉雅珍,朱揚勇
1. 復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院,上海 200438;
2. 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 200438
數(shù)據(jù)是數(shù)字經(jīng)濟的關(guān)鍵要素,數(shù)據(jù)要素市場建設(shè)是發(fā)展數(shù)字經(jīng)濟的基礎(chǔ)性工作,數(shù)據(jù)產(chǎn)品在數(shù)據(jù)市場上的有效流通是數(shù)字經(jīng)濟持續(xù)健康發(fā)展的重要標志。當前,音樂、圖片、電影等標準化的數(shù)據(jù)產(chǎn)品已在數(shù)據(jù)市場上有效流通[1-2],但一般意義上的、更大規(guī)模的大數(shù)據(jù)流通卻面臨困境[3]。造成這個局面的主要原因是這類產(chǎn)品主要是非標準化的、產(chǎn)品形態(tài)難以界定,不能準確地計量,因而也難以計價。近年來,國內(nèi)數(shù)據(jù)交易機構(gòu)探索通過數(shù)據(jù)交易方式實現(xiàn)大數(shù)據(jù)流通的機制和可行路徑,但在未能明確數(shù)據(jù)產(chǎn)品形態(tài)的情況下,數(shù)據(jù)的計量計價機制難以形成,數(shù)據(jù)交易面臨難以開展數(shù)據(jù)交易業(yè)務(wù)的困境,這也是數(shù)據(jù)交易機構(gòu)面臨的困境之一。
數(shù)據(jù)產(chǎn)品的界定尚在研究階段,還未形成統(tǒng)一的標準定義。Loukides M[4]將運用數(shù)據(jù)生產(chǎn)更多新數(shù)據(jù)并由此實現(xiàn)數(shù)據(jù)價值的應(yīng)用程序視為數(shù)據(jù)產(chǎn)品,他認為數(shù)據(jù)科學(xué)的研究為數(shù)據(jù)產(chǎn)品的創(chuàng)建創(chuàng)造了條件。Hazen B T等人[5]認為數(shù)據(jù)產(chǎn)品與制造業(yè)生產(chǎn)產(chǎn)品類似,是數(shù)據(jù)生產(chǎn)的產(chǎn)出品。Huang G Y等人[6]把從原始數(shù)據(jù)中通過移除噪聲與無用信息而獲得的關(guān)鍵信息所形成的一種新的數(shù)據(jù)格式,稱為特定領(lǐng)域的數(shù)據(jù)產(chǎn)品。Bengfort B等人[7]認為數(shù)據(jù)產(chǎn)品是數(shù)據(jù)與用于推理或預(yù)測的統(tǒng)計算法的組合。Cao L B[8]將數(shù)據(jù)產(chǎn)品定義為來自數(shù)據(jù)或由數(shù)據(jù)支持、驅(qū)動的可交付產(chǎn)品,其可以是某種發(fā)現(xiàn)、預(yù)測、服務(wù)、決策、模型、范式、系統(tǒng)等形式,數(shù)據(jù)產(chǎn)品的最終價值將體現(xiàn)在知識、智能及決策等方面。 Pei J[9]給出的數(shù)據(jù)產(chǎn)品定義是從數(shù)據(jù)集派生出的用于產(chǎn)品和信息服務(wù)的數(shù)據(jù)集。作為一個需要在市場上流通的產(chǎn)品,數(shù)據(jù)產(chǎn)品應(yīng)該滿足一定的標準規(guī)范要求,是可以獨立使用、交易流通的數(shù)據(jù)集。
數(shù)據(jù)產(chǎn)品形態(tài)是數(shù)據(jù)產(chǎn)品得以計量、計價的基礎(chǔ),如果能夠設(shè)計出一個數(shù)據(jù)產(chǎn)品形態(tài),那么數(shù)據(jù)產(chǎn)品的生產(chǎn)、流通、監(jiān)管都將變得更有效率。數(shù)據(jù)產(chǎn)品到底應(yīng)該具備怎樣的形態(tài)才可以被可靠地計量、計價,并得以在數(shù)據(jù)市場上有效流通呢?Storch T等人[10]對某領(lǐng)域的科學(xué)數(shù)據(jù)產(chǎn)品標準進行了研究,Bing C等人[11]對某應(yīng)用領(lǐng)域的數(shù)據(jù)產(chǎn)品類型進行了劃分。在數(shù)據(jù)產(chǎn)品相關(guān)實踐方面,上海數(shù)據(jù)交易所積極探索數(shù)據(jù)產(chǎn)品交易環(huán)節(jié)和步驟,開展數(shù)據(jù)產(chǎn)品登記憑證、數(shù)據(jù)產(chǎn)品說明書等實踐工作;山東數(shù)據(jù)交易有限公司聯(lián)合中國信息通信研究院制定《數(shù)據(jù)(產(chǎn)品)登記管理辦法》,探索數(shù)據(jù)產(chǎn)品的登記流程。上述工作僅涉及數(shù)據(jù)產(chǎn)品的一些原則性規(guī)范要求,尚未考慮數(shù)據(jù)產(chǎn)品的形態(tài)。朱揚勇等人[12-13]設(shè)計了一個數(shù)據(jù)盒模型,將結(jié)構(gòu)化和非結(jié)構(gòu)化的電子數(shù)據(jù)匯聚在一起,形成外部可見可用的數(shù)據(jù)容器,該模型具有數(shù)據(jù)產(chǎn)品形態(tài)雛形;葉雅珍等人[2,14]提煉了音樂、圖片、電影等單一類型數(shù)據(jù)產(chǎn)品的形態(tài)。值得注意的是,圖書將文字、圖片、圖形等非電子數(shù)據(jù)匯聚在一起形成標準化產(chǎn)品,這種做法對于非標準數(shù)據(jù)產(chǎn)品的標準化有很好的借鑒作用?;趫D書的基礎(chǔ)頁碼數(shù)量為49頁,以及外形要求、版權(quán)規(guī)則等標準規(guī)范,將文字、圖片、圖形等非電子數(shù)據(jù)匯聚在一起就形成了一種標準化的非電子數(shù)據(jù)產(chǎn)品——圖書。本文針對數(shù)據(jù)產(chǎn)品形態(tài)問題,參考圖書形態(tài)設(shè)計,基于數(shù)據(jù)盒模型設(shè)計了一種數(shù)據(jù)產(chǎn)品標準形態(tài)——盒裝數(shù)據(jù)。盒裝數(shù)據(jù)主要由“時間+空間+內(nèi)容”三維度的數(shù)據(jù)立方體組織——盒內(nèi)數(shù)據(jù),以及包括產(chǎn)品登記證書、產(chǎn)品說明書、質(zhì)量證書、合規(guī)證書等內(nèi)容的盒外包裝組成。
作為一類新型產(chǎn)品,數(shù)據(jù)產(chǎn)品與其他產(chǎn)品一樣,要想實現(xiàn)在數(shù)據(jù)市場中有效交易和流通,就需要能對其開展可靠的計量,而數(shù)據(jù)產(chǎn)品計量要有可用可見的數(shù)據(jù)產(chǎn)品形態(tài)。
數(shù)據(jù)的多樣性和復(fù)雜性加大了數(shù)據(jù)產(chǎn)品計量的難度。數(shù)據(jù)產(chǎn)品由數(shù)據(jù)組成,是電子化的非實物產(chǎn)品。網(wǎng)絡(luò)空間中的數(shù)據(jù)通過鍵盤、攝影機、手機、對地觀測衛(wèi)星、正負電子對撞機、DNA測序儀等電子儀器設(shè)備不停地產(chǎn)生,隨著時間的推移,所積累的數(shù)據(jù)類別、形式越來越多樣,復(fù)雜度越來越高[15]。因而,對不同行業(yè)、不同格式、不同類別、在互聯(lián)網(wǎng)中/不在互聯(lián)網(wǎng)中、公開/非公開的數(shù)據(jù)進行統(tǒng)一計量存在困難,對由多種數(shù)據(jù)組成、類型多樣、規(guī)模龐大的大數(shù)據(jù)集進行可靠計量也存在巨大挑戰(zhàn)[2]。另外,數(shù)據(jù)的信息屬性[16]使得數(shù)據(jù)產(chǎn)品的價值因人而異、存在相對性,這給數(shù)據(jù)產(chǎn)品計價帶來很大的技術(shù)挑戰(zhàn)。
數(shù)據(jù)產(chǎn)品計量方面已經(jīng)有一些探索和實踐,有些簡單的數(shù)據(jù)產(chǎn)品計量方法是相對可行的,使得相應(yīng)數(shù)據(jù)產(chǎn)品能在數(shù)據(jù)市場上有效流通。例如,當前在市場上流通的音樂數(shù)據(jù)產(chǎn)品是一首曲子、一首歌等,以一個完整的音樂作品為計量單位進行計量;類似地,圖片數(shù)據(jù)產(chǎn)品是以一幅圖為計量單位,影視數(shù)據(jù)產(chǎn)品是以一部電影、一集電視劇等為計量單位。這類數(shù)據(jù)產(chǎn)品的計量單位是早期非電子化情況下就已經(jīng)設(shè)計了標準產(chǎn)品形態(tài)的結(jié)果,是這些數(shù)據(jù)產(chǎn)品能在市場上有效流通的基礎(chǔ)和前提[1]。
數(shù)據(jù)產(chǎn)品具有可用可見的形態(tài)是其能被可靠計量和計價的前提。
數(shù)據(jù)產(chǎn)品的生產(chǎn)方式主要有兩種:一種是通過數(shù)字化實物產(chǎn)品形成數(shù)據(jù)產(chǎn)品,另一種是直接加工有關(guān)數(shù)據(jù)形成數(shù)據(jù)產(chǎn)品[2]。組成數(shù)據(jù)產(chǎn)品的數(shù)據(jù)的形式、類型是多種多樣的,可以是整數(shù)、小數(shù)等數(shù)值型數(shù)據(jù),可以是符號、字符、日期等數(shù)據(jù),也可以是文本、音頻、圖像、照片和視頻等類別的數(shù)據(jù)[15,17]。這些數(shù)據(jù)難以有統(tǒng)一的標準,這對設(shè)計統(tǒng)一的數(shù)據(jù)產(chǎn)品形態(tài)造成了極大困難,包括形式統(tǒng)一困難和規(guī)模統(tǒng)一困難。
● 數(shù)據(jù)產(chǎn)品形式統(tǒng)一困難。數(shù)據(jù)產(chǎn)品形式可以是由單一類別數(shù)據(jù)組成的形式,亦可是由多種不同類別的數(shù)據(jù)構(gòu)成的形式。例如,一個音樂數(shù)據(jù)產(chǎn)品可以由統(tǒng)一的數(shù)據(jù)形式組成;再如,一個電子病歷的數(shù)據(jù)產(chǎn)品包含多種類別形式的檢疫檢驗數(shù)據(jù)和醫(yī)囑、治療方案數(shù)據(jù);等等。如何將這些不同類型的數(shù)據(jù)統(tǒng)一管理是一個難題,這個難題在數(shù)據(jù)庫領(lǐng)域已經(jīng)存在多年。
● 數(shù)據(jù)產(chǎn)品規(guī)模統(tǒng)一困難。數(shù)據(jù)產(chǎn)品的數(shù)據(jù)類別形式多樣且復(fù)雜,使得數(shù)據(jù)產(chǎn)品規(guī)模難以有固定大小的基本量。例如,一個音樂數(shù)據(jù)產(chǎn)品的規(guī)模通常在MB級;而一個用于某類疾病大數(shù)據(jù)研究的電子病歷數(shù)據(jù)產(chǎn)品,一般要有數(shù)萬份該類疾病的電子病歷才能達到研究的要求,其數(shù)據(jù)規(guī)模通常會在GB級甚至以上;等等。那么,使用多大規(guī)模作為數(shù)據(jù)產(chǎn)品的衡量標準呢?這也是一個極具挑戰(zhàn)的難題。
由于上述兩個難題,數(shù)據(jù)產(chǎn)品的形式和規(guī)模至今未能有一個統(tǒng)一的計量方法,從而導(dǎo)致組成數(shù)據(jù)產(chǎn)品的形式、類型以及規(guī)模都是非標準的。
圖書匯聚了文字、圖表等多種類型的數(shù)據(jù),圖書以“本/冊”為計量單位,圖書的計價不以圖書的內(nèi)容為基準,而以圖書編撰、印刷、流通過程的成本為基準。對于多類型數(shù)據(jù)匯聚這種做法,圖書與數(shù)據(jù)產(chǎn)品非常相似,甚至可以說是一致的。因此,可以借鑒圖書的形態(tài),設(shè)計數(shù)據(jù)產(chǎn)品的形態(tài)[2,14]。那么,如何將多種類型的數(shù)據(jù)包裝成“一本書”呢?數(shù)據(jù)盒是一個很好的選擇,用數(shù)據(jù)盒包裝多種類型的數(shù)據(jù),形成一個數(shù)據(jù)產(chǎn)品的標準形態(tài)——盒裝數(shù)據(jù)。
文字、圖片、圖形等數(shù)據(jù)匯聚通過圖書的形態(tài),從原來的非標準化產(chǎn)品變?yōu)闃藴驶a(chǎn)品。圖書的形態(tài)主要包括正文主體內(nèi)容和相關(guān)配套內(nèi)容兩大部分。文字產(chǎn)品按一定的排版格式分章節(jié)形成圖書的正文主體內(nèi)容,從而滿足一定的可閱讀性,這部分內(nèi)容是圖書的內(nèi)容主體,具有獨立完整性,是一個有機整體。為了讓文字、圖片、圖形等數(shù)據(jù)匯聚能合規(guī)出版發(fā)行,并成為標準產(chǎn)品得以在市場上流通交易,圖書形態(tài)配有封面、扉頁、版權(quán)頁、前言(或序)、后記(或跋)、目錄、插圖及其文字說明等內(nèi)容[18]。其中, 版權(quán)頁又稱版權(quán)記錄頁[19],由版權(quán)說明、圖書在版編目數(shù)據(jù)和版本記錄等內(nèi)容構(gòu)成,將紙質(zhì)圖書的書名、作者、國際標準書號(international standard book number,ISBN)、出版責任人、出版發(fā)行者、規(guī)模大?。ㄩ_本、字數(shù)、印張等)、印刷發(fā)行記錄等信息都囊括在內(nèi)[20]。圖書形態(tài)的相關(guān)配套內(nèi)容對于保護版權(quán)人的相關(guān)權(quán)益和讀者使用引導(dǎo)等方面具有非常重要的作用。
作為一類記錄和傳播數(shù)據(jù)的載體產(chǎn)品,圖書經(jīng)過長時間的發(fā)展和實踐,已形成非常成熟和固定的產(chǎn)品形態(tài)。圖書的形態(tài)能很好地解決文字、圖片、圖形等數(shù)據(jù)匯聚在數(shù)據(jù)類型、數(shù)據(jù)規(guī)模等方面不統(tǒng)一的問題,使文字、圖片、圖形等數(shù)據(jù)匯聚產(chǎn)品成為標準化產(chǎn)品,并在市場上有效流通。
數(shù)據(jù)盒的基本形態(tài)如圖1所示。數(shù)據(jù)盒自帶自主程序單元,封裝在數(shù)據(jù)盒中的數(shù)據(jù)集只能通過該單元接口進行受控訪問,以實現(xiàn)在數(shù)據(jù)流通過程中,數(shù)據(jù)盒中的數(shù)據(jù)集在保證方便使用的前提下能很好地維護數(shù)據(jù)擁有方的權(quán)益,即數(shù)據(jù)盒外部可見、可理解、可編程,內(nèi)部可控、可跟蹤、可撤銷[13,17]。每個數(shù)據(jù)盒設(shè)有唯一 的字符串類型的標識——數(shù)據(jù)盒標牌。
圖1 數(shù)據(jù)盒的基本形態(tài)
數(shù)據(jù)盒是數(shù)據(jù)集標準化的一個框架模型。如何設(shè)計組織數(shù)據(jù)盒內(nèi)部的數(shù)據(jù)呢?先看一個簡單的數(shù)據(jù)產(chǎn)品的例子。
例1:“某證券交易所2020年掛牌股票的行情數(shù)據(jù)集”數(shù)據(jù)產(chǎn)品。該數(shù)據(jù)產(chǎn)品的數(shù)據(jù)集如圖2所示??梢钥闯觯瑔我活愋蛿?shù)據(jù)產(chǎn)品(如表格、點集、照片集等)很容易用內(nèi)容維度、時間維度和空間維度來表達。
● 內(nèi)容維度:是數(shù)據(jù)集中每個數(shù)據(jù)對象的內(nèi)容,即數(shù)據(jù)對象有哪些屬性,這些屬性描述了數(shù)據(jù)對象的完整內(nèi)容,使得數(shù)據(jù)對象作為實體獨立存在,屬性可以是一個或多個。從圖2可以看到,內(nèi)容維度有開盤價、收盤價、最高價、最低價。
● 時間維度:指每個數(shù)據(jù)對象的時間覆蓋范圍,即數(shù)據(jù)對象在不同時間上的值。很多數(shù)據(jù)產(chǎn)品描述了一段時間的事物或行為的變化,因此數(shù)據(jù)產(chǎn)品會用一個時間維度來描述每個數(shù)據(jù)對象在不同時間上的具體值。數(shù)據(jù)產(chǎn)品需要描述其數(shù)據(jù)對象具體的時間段和時間粒度。從圖2可以看到,時間維度為每個交易日。
● 空間維度:指符合數(shù)據(jù)產(chǎn)品描述的數(shù)據(jù)對象的空間覆蓋范圍,即滿足數(shù)據(jù)產(chǎn)品描述的數(shù)據(jù)對象全體。需要可區(qū)分、可甄別、可檢驗地描述出數(shù)據(jù)產(chǎn)品所含數(shù)據(jù)對象的范圍。對于一個數(shù)據(jù)集,應(yīng)當明確指明其對象空間應(yīng)覆蓋的范圍。從圖2可以看到,空間維度為在某證券交易所掛牌的所有股票。
一些數(shù)據(jù)產(chǎn)品可能沒有時間維度(如一個照片數(shù)據(jù)集就沒有時間維度),但內(nèi)容維度和空間維度是必須要有的。內(nèi)容維度是對數(shù)據(jù)對象的描述,空間維度涉及數(shù)據(jù)對象全體。
針對數(shù)據(jù)集的三維特征,設(shè)計數(shù)據(jù)盒內(nèi)部的數(shù)據(jù)組織為一個包含內(nèi)容維度、時間維度、空間維度的三維立方體結(jié)構(gòu)的數(shù)據(jù)形態(tài),簡稱盒內(nèi)數(shù)據(jù)。將圖2的數(shù)據(jù)集裝入數(shù)據(jù)盒后的盒裝數(shù)據(jù)產(chǎn)品如圖3所示。沒有時間維度的圖片盒裝數(shù)據(jù)產(chǎn)品如圖4所示。
圖2 “某證券交易所2020年掛牌股票的行情數(shù)據(jù)集”數(shù)據(jù)集
圖3 “某證券交易所2020年掛牌股票的行情數(shù)據(jù)集”盒裝數(shù)據(jù)產(chǎn)品
圖4 沒有時間維度的圖片盒裝數(shù)據(jù)產(chǎn)品
對于多類型的數(shù)據(jù)產(chǎn)品,可以用數(shù)據(jù)盒的組合形式來表示,即將多個數(shù)據(jù)盒裝入一個大的數(shù)據(jù)盒中,形成復(fù)合型盒裝數(shù)據(jù)產(chǎn)品,如圖5所示。這很類似于用零部件組裝成一個大的部件,然后還可以用大部件繼續(xù)組裝,直到形成需要的產(chǎn)品。
圖5 復(fù)合型盒裝數(shù)據(jù)產(chǎn)品
像圖書容納文字那樣,數(shù)據(jù)盒可被看作一種能夠容納數(shù)據(jù)的容器。規(guī)定了49頁的圖書基礎(chǔ)規(guī)模后,形成了圖書的計量單位,并且設(shè)計了ISBN等。這樣,圖書就能方便地在市場上流通。參照圖書的做法,可以設(shè)計一個標準化的盒裝數(shù)據(jù)產(chǎn)品的基礎(chǔ)規(guī)模和內(nèi)容。在規(guī)定盒裝數(shù)據(jù)的基礎(chǔ)規(guī)模后,盒裝數(shù)據(jù)就可以作為標準化的計量單位。
盒裝數(shù)據(jù)的基礎(chǔ)規(guī)模和內(nèi)容的設(shè)定要體現(xiàn)市場需求和監(jiān)管需求。
首先是市場需求。顯然,數(shù)據(jù)流通的基本單位不是一條條數(shù)據(jù),也不是一個簡單的數(shù)據(jù)集。數(shù)據(jù)資源是有含義的數(shù)據(jù)集結(jié)到一定規(guī)模后形成的[16,21]?!耙欢ㄒ?guī)?!笔菙?shù)據(jù)資源的要求,沒有“一定規(guī)?!辈荒鼙环Q為數(shù)據(jù)資源。以個人數(shù)據(jù)為例,一個人的身份數(shù)據(jù)不能被稱為數(shù)據(jù)資源,但是一個城市所有居民的身份數(shù)據(jù)是很重要的數(shù)據(jù)資源。在第三屆數(shù)據(jù)科學(xué)家大會上向110位參會的數(shù)據(jù)科學(xué)家和數(shù)據(jù)從業(yè)人員發(fā)起的大數(shù)據(jù)問卷調(diào)查顯示,有96.3%的受訪者認為一個大數(shù)據(jù)產(chǎn)品至少應(yīng)該達到GB級別以上的數(shù)據(jù)規(guī)模,其內(nèi)容應(yīng)至少包括圖像、圖形、音頻、視頻、結(jié)構(gòu)化數(shù)據(jù)、文本等兩種以上數(shù)據(jù)類型。
其次是監(jiān)管需求。盒裝數(shù)據(jù)作為標準產(chǎn)品在市場上流通,就需要政府監(jiān)管。對于數(shù)據(jù)市場,政府監(jiān)管有兩個目的:一個是維護市場的公平、公開、公正;另一個是保護國家數(shù)據(jù)安全和公民個人信息。前者是所有商品市場都需要的,主要是市場法規(guī)的建設(shè);而后者則是數(shù)據(jù)市場特有的。那么,多大的數(shù)據(jù)規(guī)模有利于監(jiān)管的實施呢?以公民個人信息保護為例,我國法律中針對侵犯公民個人信息有專門的量刑標準,非法獲取、出售或者提供公民個人信息5 000條以上的,應(yīng)當被認定為《中華人民共和國刑法》所規(guī)定的“情節(jié)嚴重”,已構(gòu)成犯罪事實,要接受法律的懲處。我國《最高人民法院、最高人民檢察院關(guān)于辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》指出,公民個人信息主要包括姓名、身份證件號碼、聯(lián)系方式、住址、賬號密碼、財產(chǎn)狀況、行蹤軌跡等內(nèi)容。一條公民個人數(shù)據(jù)涉及十幾個數(shù)據(jù)項(1 KB),加上公民的一張證件照片(200 KB)、一個指紋(10 KB)等內(nèi)容,其數(shù)據(jù)規(guī)模約211 KB,5 000條公民個人數(shù)據(jù)大概為1 GB。
鑒于上述兩類需求,將盒裝數(shù)據(jù)的最小規(guī)模設(shè)定為1 GB,這作為其基礎(chǔ)規(guī)模的數(shù)據(jù)量是合適的。盒裝數(shù)據(jù)采用1 GB的基礎(chǔ)規(guī)模作為計量單位,這基本參照了調(diào)查結(jié)果,也基本符合5 000條個人數(shù)據(jù)的規(guī)模,兼顧了市場需求和監(jiān)管需求。與“達到49頁的規(guī)模才能構(gòu)成一本圖書”類似,“達到1 GB的數(shù)據(jù)規(guī)模才能構(gòu)成一個盒裝數(shù)據(jù)”也是一個認定的規(guī)模數(shù)值,不是一個科學(xué)的界定,具體的標準規(guī)模還有待未來實踐總結(jié)和完善。
對于小于1 GB數(shù)據(jù)規(guī)模的數(shù)據(jù)集是否需要作為數(shù)據(jù)產(chǎn)品的問題,從生產(chǎn)、登記、管理和流通成本多個方面來看,目前暫時不予考慮,以免使情況過于復(fù)雜,成本過高且難以被監(jiān)管。例如,人們在朋友圈中傳播的照片等,如果將這些都作為數(shù)據(jù)產(chǎn)品進行登記的話,行政成本就會過高。就像不能把幾頁的文字材料以圖書的方式進行出版一樣,在數(shù)據(jù)產(chǎn)品登記初期,先不考慮將較小數(shù)據(jù)規(guī)模的數(shù)據(jù)集作為數(shù)據(jù)產(chǎn)品。另外,單一照片、圖書、音樂等在傳統(tǒng)電子音像出版領(lǐng)域已經(jīng)有一套完整的產(chǎn)品體系,因此并不需要考慮新的產(chǎn)品形態(tài)。
盒裝數(shù)據(jù)外部形態(tài)(又稱盒外包裝)包括產(chǎn)品登記證書、產(chǎn)品說明書、質(zhì)量證書、合規(guī)證書等。
盒裝數(shù)據(jù)產(chǎn)品登記證書是擁有者對相關(guān)數(shù)據(jù)產(chǎn)品權(quán)屬的聲明,是對盒內(nèi)數(shù)據(jù)的概述性介紹,由專門的數(shù)據(jù)產(chǎn)品登記主管部門審核發(fā)放。只有登記后的盒裝數(shù)據(jù)產(chǎn)品才具有合法性,才被允許在數(shù)據(jù)市場上進行流通和交易,并受法律保護。
盒裝數(shù)據(jù)產(chǎn)品登記證書主要包含產(chǎn)品名稱、產(chǎn)品登記號(編號、條碼或二維碼)、數(shù)據(jù)盒標牌、生產(chǎn)商/著作權(quán)人、數(shù)據(jù)量、訪問編程接口、權(quán)利等方面的內(nèi)容,還包括產(chǎn)品說明書、質(zhì)量證書、合規(guī)證書等附件,具體見表1。
表1 盒裝數(shù)據(jù)產(chǎn)品登記證書
其中,產(chǎn)品登記號(編號、條碼或二維碼)是保護知識產(chǎn)權(quán)和確認數(shù)據(jù)權(quán)屬的一種工具,便于盒裝數(shù)據(jù)發(fā)行、流通過程中的維權(quán)和授權(quán)。這類版權(quán)標識需經(jīng)過專門的管理機構(gòu)登記給出,具有唯一性,可為盒裝數(shù)據(jù)后續(xù)的維權(quán)、授權(quán)等方面的追蹤提供便利。數(shù)據(jù)盒標牌是一種數(shù)據(jù)商標,由生產(chǎn)商根據(jù)一定的標碼規(guī)則融入品牌元素給出。此外,在互聯(lián)網(wǎng)上盒裝數(shù)據(jù)還需要給定專門的訪問標識,以便人們使用相關(guān)系統(tǒng)在互聯(lián)網(wǎng)上快速查詢和訪問盒裝數(shù)據(jù)。
盒裝數(shù)據(jù)產(chǎn)品可以讓購買者在購買前看到數(shù)據(jù)是什么、怎么用,所謂“可見可用、先看后買”。做法是提供詳細的產(chǎn)品說明書,包括數(shù)據(jù)產(chǎn)品內(nèi)容說明、生產(chǎn)方式/著作方式說明(被加工數(shù)據(jù)來源的合法性證明)和使用說明等。其中使用說明詳細介紹了使用環(huán)境、使用接口、使用舉例、接口代碼等內(nèi)容。
● 使用環(huán)境:包括對硬件(計算機集群、內(nèi)外存、CPU、集群總線等)和計算機軟件(Windows、macOS和Linux等操作系統(tǒng),Hadoop、Spark等軟件)的要求。
● 使用接口:主要為外部軟件受控訪問、使用開發(fā)盒內(nèi)數(shù)據(jù)提供接口,包括數(shù)據(jù)訪問接口和數(shù)據(jù)使用軟件應(yīng)用編程接口等。其中,數(shù)據(jù)訪問接口主要用于用戶訪問盒內(nèi)數(shù)據(jù),主要分為元數(shù)據(jù)查詢接口、原始數(shù)據(jù)查詢接口、數(shù)據(jù)統(tǒng)計接口;數(shù)據(jù)使用軟件應(yīng)用編程接口主要用于用戶開發(fā)數(shù)據(jù)訪問程序,主要包括開發(fā)態(tài)數(shù)據(jù)訪問接口和運行態(tài)數(shù)據(jù)訪問接口[17,22]。
● 使用舉例:開展用戶使用盒裝數(shù)據(jù)的引導(dǎo)工作,主要以圖文形式、通過案例來指導(dǎo)用戶使用盒裝數(shù)據(jù)的方法步驟。
● 接口代碼:主要提供訪問、使用、開發(fā)盒內(nèi)數(shù)據(jù)的接口代碼。
盒裝數(shù)據(jù)只有達到一定的數(shù)據(jù)質(zhì)量要求才允許被登記,才能進入數(shù)據(jù)市場流通。盒裝數(shù)據(jù)的質(zhì)量證書就是盒裝數(shù)據(jù)中的數(shù)據(jù)集達到相應(yīng)質(zhì)量標準和要求的證明性文件,是其開展交易流通的重要憑證。質(zhì)量證書的相關(guān)內(nèi)容可以作為判斷盒裝數(shù)據(jù)價值高低的依據(jù)。
盒裝數(shù)據(jù)的質(zhì)量證書內(nèi)容主要涵蓋數(shù)據(jù)集3個維度的質(zhì)量保障,用完整性來表達,即時間完整性、空間完整性、內(nèi)容完整性。質(zhì)量證書由數(shù)據(jù)質(zhì)量檢測機構(gòu)出具。
盒內(nèi)數(shù)據(jù)必須合法合規(guī),即符合國家相關(guān)法律規(guī)定,這需要律師事務(wù)所出具合規(guī)證書。
盒裝數(shù)據(jù)的合規(guī)證書主要用于承諾盒內(nèi)數(shù)據(jù)符合《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國個人信息保護法》等國家有關(guān)法律要求,是由律師事務(wù)所提供的相關(guān)證書。
數(shù)據(jù)流通需要一個可計量的產(chǎn)品形態(tài),但如何定義數(shù)據(jù)產(chǎn)品形態(tài)仍面臨諸多困難和挑戰(zhàn)。參照圖書,基于數(shù)據(jù)盒模型設(shè)計了一種數(shù)據(jù)產(chǎn)品標準形態(tài)——盒裝數(shù)據(jù),一個標準盒裝數(shù)據(jù)的數(shù)據(jù)規(guī)模為1 GB。本文設(shè)計的盒裝數(shù)據(jù)是針對公開數(shù)據(jù)市場數(shù)據(jù)流通的一種探索,鑒于數(shù)據(jù)要素市場建設(shè)的迫切性,先行將階段性研究成果公開。后續(xù)將基于標準盒裝數(shù)據(jù)產(chǎn)品形態(tài),進行數(shù)據(jù)產(chǎn)品定價和估值等相關(guān)研究工作,并開發(fā)相應(yīng)的技術(shù)平臺,開展數(shù)據(jù)產(chǎn)品的交易流通實踐工作。