陸彩女 顧立平 聶華
(1.中國科學(xué)院上海藥物研究所,上海,201203;2.中國科學(xué)院文獻(xiàn)情報(bào)中心,北京,100190;3.中國科學(xué)院大學(xué)圖書情報(bào)檔案管理系,北京,101408;4.北京大學(xué)圖書館,北京,100871)
數(shù)據(jù)多樣性一直存在,但是未被發(fā)覺、發(fā)展和重視的原因,主要是在過去各個(gè)學(xué)科相對(duì)獨(dú)立、較少交叉,數(shù)據(jù)主要作為科研工作的附屬物存在。但是到了數(shù)據(jù)驅(qū)動(dòng)科研的時(shí)代,數(shù)據(jù)的價(jià)值和地位不斷得到挖掘和重視,數(shù)據(jù)的多樣性問題也越發(fā)凸顯。如果忽視數(shù)據(jù)多樣性,將會(huì)對(duì)新的數(shù)據(jù)的生產(chǎn)和管理帶來阻礙。從數(shù)據(jù)交換邁入到數(shù)據(jù)開放的時(shí)代,從上而下,需要按照政策指導(dǎo)和要求對(duì)科學(xué)數(shù)據(jù)進(jìn)行統(tǒng)一的管理和匯繳,甚至開放共享,這也出現(xiàn)了一系列的矛盾和問題。這些矛盾和問題,進(jìn)一步增強(qiáng)了數(shù)據(jù)多樣性特征的凸顯和發(fā)揮。數(shù)據(jù)安全以及數(shù)據(jù)交易的社會(huì)制度和相關(guān)政策的制定和變化,尤其在我國,也促進(jìn)了數(shù)據(jù)多樣性的發(fā)展。這最后一個(gè)原因尤其重要,因?yàn)槊绹蜌W洲至今還未清楚認(rèn)識(shí)到數(shù)據(jù)多樣性,而我國圖書館界卻對(duì)此早有認(rèn)識(shí),但是一直未能形成明確的概念并給出定義。
開放數(shù)據(jù)、開放科研數(shù)據(jù)、大數(shù)據(jù)是21世紀(jì)以來推動(dòng)社會(huì)、經(jīng)濟(jì)和科技高速發(fā)展的三駕“馬車”。數(shù)據(jù)多樣性因開放數(shù)據(jù)、開放科研數(shù)據(jù)和大數(shù)據(jù)的興起而不斷涌現(xiàn)。
開放數(shù)據(jù)是任何人出于任何目的(甚至是商業(yè)目的)可公開訪問、可利用、可編輯和共享的數(shù)據(jù)[1]。開放數(shù)據(jù)目前主要聚焦于國家機(jī)構(gòu)(政府公共部門)產(chǎn)生的公共數(shù)據(jù),通常還伴隨著開放政府的概念,以美國前總統(tǒng)奧巴馬于2009年簽署的《開放政府指令》[2]為節(jié)點(diǎn),逐漸在全球范圍內(nèi)形成了一波開放數(shù)據(jù)運(yùn)動(dòng)。開放數(shù)據(jù)有兩個(gè)要點(diǎn):一是合法的開放;二是技術(shù)層面的開放[3]。合法開放要求數(shù)據(jù)必須置于公共領(lǐng)域或只用具有最小限制的自由使用條款來約束,技術(shù)層面的開放要求數(shù)據(jù)必須是機(jī)器可讀且非專有的電子化格式[3]。
開放科研數(shù)據(jù)(即科研數(shù)據(jù)開放共享)最早可追溯至20世紀(jì)50年代,但是在最近十多年內(nèi)才引起了人們的普遍關(guān)注和重視[4]。2003年柏林宣言將科研數(shù)據(jù)作為學(xué)術(shù)知識(shí)的一部分并要求開放獲取[5]。此后全球范圍的國家政府機(jī)構(gòu)、科研機(jī)構(gòu)、科研資助機(jī)構(gòu)、學(xué)術(shù)出版商等利益相關(guān)者都先后制定了科研數(shù)據(jù)開放共享政策[4,6-11]。Elsevier公司在其2019年發(fā)布的《科研的未來:下一個(gè)十年的驅(qū)動(dòng)因素與場景》報(bào)告中指出,以信息技術(shù)發(fā)展為基礎(chǔ)的科研數(shù)據(jù)開放共享將成為下一個(gè)十年科研活動(dòng)最顯著的特征,有望引發(fā)科研組織模式與科研創(chuàng)新模式的重大變革[7]。實(shí)際上,開放科研數(shù)據(jù)因其政策要求以公共資金資助科學(xué)研究所產(chǎn)出的數(shù)據(jù)為主,所以有時(shí)候也會(huì)被視作開放數(shù)據(jù)的一部分。
大數(shù)據(jù)是指傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件無法處理的龐大或復(fù)雜的數(shù)據(jù)集[12]。早在2001年,Gartner分析師Doug Laney就列出了大數(shù)據(jù)的3個(gè)“V”,即數(shù)量、速度和多樣性[13]。盡管大數(shù)據(jù)的特征由3個(gè)“V”后來又演變?yōu)?個(gè)“V”(海量、高速、多樣、價(jià)值)和5個(gè)“V”(體量大、多樣化、時(shí)效快、高質(zhì)量、高價(jià)值),但是多樣性作為其主要特征之一,一直被保留在其中。當(dāng)前人們談?wù)摯髷?shù)據(jù),主要聚焦于各種行業(yè)應(yīng)用,以企業(yè)為主。當(dāng)然除了企業(yè)自己捕獲的經(jīng)營、交易、生產(chǎn)等數(shù)據(jù)外,開放數(shù)據(jù)等也是大數(shù)據(jù)的一個(gè)重要來源[14]。大數(shù)據(jù)的存儲(chǔ)、集成、管理、處理、分析和應(yīng)用需要相關(guān)法規(guī)條例保駕護(hù)航,也在不斷催生技術(shù)的發(fā)展和升級(jí)。
在開放數(shù)據(jù)、開放科研數(shù)據(jù)、大數(shù)據(jù)時(shí)代,數(shù)據(jù)多樣性特征愈發(fā)明顯,數(shù)據(jù)來源、類型、格式、主體、應(yīng)用場景或行業(yè)等幾乎都在增加多樣性或呈現(xiàn)更復(fù)雜的變異性。數(shù)據(jù)多樣性原先只是具體科研工作或數(shù)據(jù)處理工作中需要面臨的問題,但在開放科學(xué)和大數(shù)據(jù)環(huán)境下,由于數(shù)字化的數(shù)據(jù)很容易被合并(組合)、共享、交易,數(shù)據(jù)又被大規(guī)模被生產(chǎn)和監(jiān)管,所以必須從道德層面評(píng)估各種可能的影響。此時(shí),在我們需要制定相應(yīng)的共享規(guī)范與原則或各種法律法規(guī)制度、政策與標(biāo)準(zhǔn)時(shí),或是基于科研數(shù)據(jù)提供相應(yīng)的信息服務(wù)或數(shù)據(jù)服務(wù)與知識(shí)服務(wù)時(shí),就需要用一個(gè)各方同意(認(rèn)同)的框架來考慮和看待數(shù)據(jù),數(shù)據(jù)多樣性的問題就必然呈現(xiàn)和凸顯出來。
筆者在多年從事數(shù)據(jù)科學(xué)教學(xué)、科研統(tǒng)計(jì)管理與數(shù)據(jù)咨詢服務(wù)、機(jī)構(gòu)知識(shí)庫等平臺(tái)建設(shè)和科研數(shù)據(jù)共享政策、權(quán)益問題研究等經(jīng)歷基礎(chǔ)上,通過觀察開放科學(xué)環(huán)境下科研數(shù)據(jù)的管理、發(fā)布與共享實(shí)踐,運(yùn)用歸納法對(duì)數(shù)據(jù)多樣性的表現(xiàn)進(jìn)行凝練總結(jié),得出數(shù)據(jù)多樣性的基本規(guī)律,并用現(xiàn)象解釋法解釋數(shù)據(jù)多樣性在開放科學(xué)和大數(shù)據(jù)環(huán)境下的應(yīng)用表現(xiàn)。
在數(shù)字化時(shí)代,可以記錄客觀事件的數(shù)據(jù)被快速大量地生產(chǎn)并存儲(chǔ),這種現(xiàn)象被稱為數(shù)據(jù)爆炸(data explosion),在此過程中,數(shù)據(jù)展現(xiàn)出了諸如不受控、未知、多樣性、復(fù)雜性等多種自然屬性,數(shù)據(jù)爆炸也就形成了數(shù)據(jù)自然界(data nature)或數(shù)據(jù)宇宙[15]。因此,數(shù)據(jù)多樣性概念與生物多樣性概念相呼應(yīng),是數(shù)據(jù)的一個(gè)固有屬性。數(shù)據(jù)多樣性,具有內(nèi)外各三個(gè)表現(xiàn)。內(nèi)在表現(xiàn)是數(shù)據(jù)作為一個(gè)對(duì)象或者物體與生俱來的特性,是靜態(tài)的。外在表現(xiàn),是在它與環(huán)境和用戶交互之后發(fā)生的,所以是動(dòng)態(tài)的。誠然,數(shù)據(jù)多樣性的表現(xiàn)還有很多,如數(shù)據(jù)來源、數(shù)據(jù)載體、數(shù)據(jù)大小、共享范圍、數(shù)據(jù)質(zhì)量、數(shù)據(jù)價(jià)值等,本文闡述的數(shù)據(jù)多樣性更側(cè)重于數(shù)據(jù)本身所展示的多樣性,其他表現(xiàn)就不一一展開論述了。
3.1.1數(shù)據(jù)類型多樣性
數(shù)據(jù)本身就具有多樣性的特征。就科研數(shù)據(jù)來說,在不同學(xué)科領(lǐng)域,數(shù)據(jù)集的形式不同,包括:社會(huì)科學(xué)經(jīng)常使用具有變量和數(shù)值的試算表(sheet)數(shù)據(jù)、生命科學(xué)等經(jīng)常描述組織結(jié)構(gòu)的編碼數(shù)據(jù)(codeddata)、物理科學(xué)運(yùn)用計(jì)算機(jī)進(jìn)行模擬的模型數(shù)據(jù)(modeling)和以觀測(cè)記錄方式為主的科學(xué)學(xué)科的數(shù)字圖像(image and voice record)等[16]。例如圖1中的環(huán)境領(lǐng)域?qū)崪y(cè)數(shù)據(jù)、微生物測(cè)序數(shù)據(jù)、蛋白質(zhì)序列數(shù)據(jù)、高動(dòng)態(tài)范圍圖數(shù)據(jù)等相互之間對(duì)比來看都是各異的,這是數(shù)據(jù)所承載信息的差異性。隨著信息技術(shù)的發(fā)展,數(shù)據(jù)的范圍又?jǐn)U展為數(shù)值、文獻(xiàn)、文檔、記錄、網(wǎng)頁、音視頻、模擬信號(hào)、位置、實(shí)體等一切表現(xiàn)為數(shù)字化形態(tài)的存在(1)參考自“2021年第18屆中國信息資源管理論壇”的大會(huì)報(bào)告。中國科學(xué)院文獻(xiàn)情報(bào)中心主任劉細(xì)文作題為“創(chuàng)新開發(fā)科技信息資源,構(gòu)建人工智能解決方案”的主題演講,認(rèn)為科技文獻(xiàn)資源是人工智能時(shí)代的知識(shí)寶藏,應(yīng)當(dāng)充分挖掘隱含著豐富知識(shí)內(nèi)容的科技文獻(xiàn)資源,實(shí)現(xiàn)從“科技文獻(xiàn)資源”到“科技知識(shí)引擎”的轉(zhuǎn)變。他以“SciAIEngine 的研發(fā)和應(yīng)用”為例,提出了對(duì)知識(shí)獲取能力、科技文獻(xiàn)資源及其轉(zhuǎn)化的建議。[17]。包括網(wǎng)絡(luò)世界中一切結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。此時(shí),數(shù)據(jù)也就成了一種廣義的、寬泛的含義,多樣性也就隨之凸顯。
圖1 不同學(xué)科領(lǐng)域采集的數(shù)據(jù)Fig. 1 Data Collected in Different Disciplines
3.1.2數(shù)據(jù)維度多樣性
由于數(shù)據(jù)呈指數(shù)級(jí)增長,每條數(shù)據(jù)都需要被做標(biāo)引以形成自己的元數(shù)據(jù),來提高數(shù)據(jù)查找和使用效率,此時(shí)數(shù)據(jù)維度多樣性也就呈現(xiàn)了。數(shù)據(jù)集大多數(shù)是一維數(shù)據(jù),部分是二維或三維數(shù)據(jù);數(shù)據(jù)描述通常是二維數(shù)據(jù);元數(shù)據(jù)通常是二維數(shù)據(jù),部分是三維數(shù)據(jù)??蒲袛?shù)據(jù)維度多樣性的內(nèi)在表現(xiàn)主要在于數(shù)據(jù)集、數(shù)據(jù)描述、元數(shù)據(jù)的三位一體/三維一體(如圖2)。其中:(1)數(shù)據(jù)集又稱數(shù)據(jù)實(shí)體(data entity),是用來重復(fù)科研結(jié)果的證據(jù);(2)數(shù)據(jù)描述是說明數(shù)據(jù)集的采集儀器、方法、產(chǎn)生過程、資助者等的描述性文檔;(3)元數(shù)據(jù)就是描述數(shù)據(jù)集的貢獻(xiàn)者(或生產(chǎn)者)、所屬機(jī)構(gòu)、所屬學(xué)科、日期、版本等屬性的信息[16]。對(duì)于非科研數(shù)據(jù)而言,大多數(shù)據(jù)集也都會(huì)有自己的元數(shù)據(jù)或數(shù)據(jù)標(biāo)簽與數(shù)據(jù)描述。數(shù)據(jù)一旦被產(chǎn)生/生產(chǎn)/創(chuàng)建,其維度也就確定了,不會(huì)再發(fā)生改變。通常來說,數(shù)據(jù)維度越高,說明與其關(guān)聯(lián)的低維數(shù)據(jù)被重用的次數(shù)和可能性就愈高。
3.1.3數(shù)據(jù)格式多樣性
有些數(shù)據(jù)本身就具有多種格式。例如同一組蛋白質(zhì)組數(shù)據(jù)可以用序列、字典、元組、列表等方式來表示和存儲(chǔ);同一個(gè)物質(zhì)也可以使用二維或三維結(jié)構(gòu)圖、分子式、結(jié)構(gòu)簡式、電子式等表示與存儲(chǔ)?,F(xiàn)在被廣泛使用的GPS數(shù)據(jù),也有多種格式,如地圖形式、城市名稱、經(jīng)緯度等。另外,除了數(shù)據(jù)實(shí)體(集)有多種格式表達(dá)外,元數(shù)據(jù)也可以有多種表達(dá),如xml格式或json格式等。在數(shù)據(jù)編目領(lǐng)域,可以用RDA或都柏林核心集等多種編目方式來描述圖書或其他實(shí)體,而同一個(gè)RDA也可以選擇多種詞表來描述[18]。這是數(shù)據(jù)格式上的多樣性表現(xiàn)。
3.2.1數(shù)據(jù)生命周期加速數(shù)據(jù)多樣性
數(shù)據(jù)在其生命周期(如圖3)中或是在數(shù)據(jù)生產(chǎn)或重用(共享)時(shí),會(huì)產(chǎn)生多個(gè)不同的版本,每個(gè)版本或多或少會(huì)并入新的數(shù)據(jù)(集)或是從中抽取子集,或是(全部或部分)與其他數(shù)據(jù)集重新組合/結(jié)合為新的數(shù)據(jù)集,這就是一種多樣性。不同的數(shù)據(jù)集、不同的數(shù)據(jù)版本,這就是數(shù)據(jù)多樣性的第一種外部特征。數(shù)據(jù)生命周期加速了數(shù)據(jù)多樣性,尤其是數(shù)據(jù)版本上的多樣性。
圖3 數(shù)據(jù)治理生命周期模型圖[19]Fig. 3 Figure of Data Governance Life Cycle Model
3.2.2科研生命周期、生產(chǎn)生活增強(qiáng)數(shù)據(jù)多樣性
在科研生命周期(如圖4)中,每個(gè)科研流程產(chǎn)生的數(shù)據(jù)也不一樣,包括:儀器采集的原始數(shù)據(jù)(raw data),經(jīng)過清理和規(guī)范處理后可用以分析、計(jì)算、實(shí)驗(yàn)的研究數(shù)據(jù)(research-ready data),經(jīng)過處理、計(jì)算等得到的可分析數(shù)據(jù)(analyzable research data),直接支撐特定論文結(jié)論的數(shù)據(jù)(article supporting data),以及關(guān)于方法、流程、工具、研究材料等的描述數(shù)據(jù)(methodology/instrumentation data)[20]。不同時(shí)間段做出的實(shí)驗(yàn)可能會(huì)產(chǎn)生不同的數(shù)據(jù);不同的人、不同的生產(chǎn)者、不同的實(shí)驗(yàn)對(duì)象或試劑、不同的環(huán)境等會(huì)產(chǎn)生不同的數(shù)據(jù)。另外,數(shù)據(jù)在被不同的實(shí)體(如人、團(tuán)體或企業(yè))從不同的角度、用法通過不同設(shè)備或應(yīng)用程序使用時(shí),也會(huì)呈現(xiàn)不同分析與解釋內(nèi)容及不同的結(jié)果。即,數(shù)據(jù)的內(nèi)外部環(huán)境會(huì)產(chǎn)生多樣的數(shù)據(jù)。
圖4 科研生命周期圖[21]Fig. 4 Figure of Research Life Cycle
生產(chǎn)、生活過程同科研過程一樣,增強(qiáng)數(shù)據(jù)多樣性。例如,企業(yè)生產(chǎn)產(chǎn)品從流水線到倉庫、零售和消費(fèi)者手中,這一過程會(huì)產(chǎn)生生產(chǎn)數(shù)據(jù)、庫存數(shù)據(jù)、銷售數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、客戶數(shù)據(jù)等多種數(shù)據(jù)。企業(yè)、商家、產(chǎn)品及消費(fèi)者之間或內(nèi)部之間的任何交互行為都會(huì)產(chǎn)生各式各樣的數(shù)據(jù),同時(shí)收集、處理、分析的人員在利用這些數(shù)據(jù)時(shí),也會(huì)產(chǎn)生不同的見解和決策。
3.2.3數(shù)據(jù)型塑加強(qiáng)數(shù)據(jù)多樣性
在數(shù)據(jù)科學(xué)、大數(shù)據(jù)、人工智能、數(shù)據(jù)建模、智能數(shù)據(jù)等具體應(yīng)用領(lǐng)域,為了適應(yīng)不同機(jī)器和應(yīng)用程序/軟件的要求,數(shù)據(jù)勢(shì)必會(huì)發(fā)生變化,要被型塑、塑造(sharp),包括在存儲(chǔ)格式或存儲(chǔ)介質(zhì)上面的這種變化,以適應(yīng)不同的機(jī)器或軟件,這一過程則凸顯了數(shù)據(jù)的多樣性。例如,數(shù)據(jù)從0、1二進(jìn)制表示,到二維數(shù)據(jù)表,再到柱狀圖,就體現(xiàn)了數(shù)據(jù)形態(tài)不斷變化的過程。
數(shù)據(jù)多樣性內(nèi)在表現(xiàn)和外在表現(xiàn)并不是孤立的兩個(gè)方面,而是數(shù)據(jù)多樣性的一體兩面,兩者相輔相成(如圖5)。數(shù)據(jù)多樣性內(nèi)在表現(xiàn)形式越清晰、規(guī)范,那么其被應(yīng)用的可能性就越大,即數(shù)據(jù)多樣性的外在表現(xiàn)也就越明顯;數(shù)據(jù)多樣性的外在表現(xiàn)越豐富,那么數(shù)據(jù)生產(chǎn)的土壤和環(huán)境也會(huì)更加肥沃和健康,這在一定程度上驅(qū)使更多的數(shù)據(jù)集及其數(shù)據(jù)描述與元數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)多樣性的內(nèi)在表現(xiàn)也會(huì)更豐富和完整。
綜上,數(shù)據(jù)多樣性是數(shù)據(jù)承載信息的豐富性與差異性和數(shù)據(jù)在類型、維度、格式、版本和形態(tài)等的復(fù)雜多變性。數(shù)據(jù)多樣性是數(shù)據(jù)固有的本質(zhì)屬性之一,認(rèn)識(shí)到數(shù)據(jù)多樣性,有助于實(shí)現(xiàn)數(shù)據(jù)的高效治理與再利用。我們強(qiáng)調(diào)數(shù)據(jù)多樣性的主要目的就是強(qiáng)調(diào)如何讓數(shù)據(jù)能夠不斷生長和發(fā)展。
圖5 數(shù)據(jù)多樣性內(nèi)外表現(xiàn)相互關(guān)系Fig. 5 Interrelationship Between Internal and External Manifestations of Data Diversity
在數(shù)字化時(shí)代,我們可以從諸多學(xué)科領(lǐng)域和行業(yè)中發(fā)現(xiàn)數(shù)據(jù)多樣性的應(yīng)用體現(xiàn)。大數(shù)據(jù)、商業(yè)智能(Business Intelligence,簡稱BI)、數(shù)據(jù)分析、數(shù)據(jù)出版、戰(zhàn)略規(guī)劃(數(shù)據(jù)策略)、數(shù)據(jù)模型(或數(shù)據(jù)建模)、數(shù)據(jù)治理、開放科學(xué)等學(xué)科和實(shí)踐領(lǐng)域都離不開數(shù)據(jù)多樣性,且都在一定程度上加深了數(shù)據(jù)多樣性。
4.1.1科研數(shù)據(jù)開放共享與數(shù)據(jù)多樣性
開放數(shù)據(jù)、開放科研數(shù)據(jù)加深了數(shù)據(jù)多樣性。首先,數(shù)據(jù)多樣性體現(xiàn)在從實(shí)驗(yàn)、分析、整理,到集成/整合、數(shù)據(jù)出版的科研數(shù)據(jù)開放共享全流程(如圖6)中。以數(shù)據(jù)出版/發(fā)布為例,數(shù)據(jù)未出版時(shí),可能是圖表格式的數(shù)據(jù);數(shù)據(jù)以論文形式出版后,其格式和維度就有了變化,多了PDF格式和數(shù)據(jù)描述文件;若再將數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)知識(shí)庫中,多樣性也進(jìn)一步增強(qiáng),如元數(shù)據(jù)也發(fā)生了變化,包括增加了數(shù)據(jù)集DOI及其關(guān)聯(lián)數(shù)據(jù)論文或研究論文的DOI或鏈接,增加了共享范圍、許可協(xié)議、存儲(chǔ)時(shí)間、版本等多個(gè)屬性數(shù)據(jù),增加了可供下載的元數(shù)據(jù)文件等(以ScienceDB(2)Science Data Bank. https://www.scidb.cn/為例,可導(dǎo)出JSON-LD、Dublin Core等類型的元數(shù)據(jù))。其次,開放科學(xué)、開放數(shù)據(jù)還通過提高數(shù)據(jù)獲取和重用,進(jìn)一步擴(kuò)張了數(shù)據(jù)多樣性。從來源上來說,數(shù)據(jù)來源包括一手?jǐn)?shù)據(jù)和二手?jǐn)?shù)據(jù),即科研人員自己捕獲的數(shù)據(jù)和別人共享的數(shù)據(jù);從結(jié)果來看,數(shù)據(jù)復(fù)用會(huì)對(duì)數(shù)據(jù)進(jìn)行型塑,數(shù)據(jù)形態(tài)多樣性也得到了增強(qiáng),同時(shí)還會(huì)產(chǎn)生大量的衍生數(shù)據(jù);從標(biāo)準(zhǔn)來看,開放科學(xué)涉及廣泛的學(xué)科范圍,不同學(xué)科范圍的數(shù)據(jù)類型、格式也都不一樣,因此開放的元數(shù)據(jù)標(biāo)準(zhǔn)和格式也都是多樣化的,其元數(shù)據(jù)也是多樣化的。最后,對(duì)于數(shù)據(jù)知識(shí)庫而言,它們不僅推動(dòng)了數(shù)據(jù)開放共享,同時(shí)還提供了數(shù)據(jù)檢索的索引數(shù)據(jù)以及查閱、下載等統(tǒng)計(jì)數(shù)據(jù)或日志等類似副產(chǎn)品的數(shù)據(jù),甚至出現(xiàn)了對(duì)數(shù)據(jù)知識(shí)庫提出的各種平臺(tái)規(guī)范要求和標(biāo)準(zhǔn)數(shù)據(jù)及收錄平臺(tái)及其數(shù)據(jù)(如re3data.org)。這些都是開放科學(xué)、開放數(shù)據(jù)下數(shù)據(jù)多樣性的縮影。
4.1.2其他開放科學(xué)內(nèi)容與數(shù)據(jù)多樣性
如前文所述,網(wǎng)絡(luò)時(shí)代,一切形式的記錄都是數(shù)據(jù),開放科學(xué)加強(qiáng)了這些數(shù)據(jù)的可被查找、發(fā)現(xiàn)、獲取和重用。UNESCO《開放科學(xué)建議書》中指出,開放科學(xué)知識(shí)不止是開放科研數(shù)據(jù),還包括科學(xué)出版物、開放教育資源、開源軟件和源代碼、開放硬件[23]。當(dāng)前的開放科學(xué)生態(tài)體系,已從第一代的文獻(xiàn)知識(shí)庫和數(shù)據(jù)知識(shí)庫為用戶存儲(chǔ)、檢索和使用,走到了第二代文獻(xiàn)和數(shù)據(jù)之間的引用關(guān)聯(lián)、元數(shù)據(jù)關(guān)聯(lián)和第三方詞表關(guān)聯(lián)的數(shù)據(jù)產(chǎn)品階段[16]。目前,數(shù)據(jù)領(lǐng)域以及文獻(xiàn)領(lǐng)域所形成的超大元數(shù)據(jù)集成,正在朝向類似的數(shù)據(jù)產(chǎn)品的方向發(fā)展[16]。初代的數(shù)據(jù)產(chǎn)品原型有:數(shù)據(jù)、數(shù)據(jù)集、元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、語義數(shù)據(jù)、開放政府?dāng)?shù)據(jù)、研究數(shù)據(jù)、數(shù)據(jù)論文與數(shù)據(jù)出版等[16]。這些數(shù)據(jù)產(chǎn)品也都有多樣的類型、格式、來源、結(jié)構(gòu),未來若進(jìn)一步增強(qiáng)開放和關(guān)聯(lián)及數(shù)據(jù)產(chǎn)品的重用,勢(shì)必會(huì)生成更多樣的數(shù)據(jù)產(chǎn)品和數(shù)據(jù)類型,如開放獲取論文、開放獲取數(shù)據(jù)、開源軟件三者之間的相互關(guān)聯(lián)、獲取及重用等。
圖6 數(shù)據(jù)生成/注冊(cè)流程以及數(shù)據(jù)和論文發(fā)表之間的關(guān)系圖[22]Fig. 6 Figure of Data Generation/Registration Flow and Relationship between Data and Paper Publication
各行各業(yè)的數(shù)據(jù)科學(xué)家、計(jì)算機(jī)科學(xué)家也在積極探索、開發(fā)和利用數(shù)據(jù)多樣性和多樣化的數(shù)據(jù)。數(shù)據(jù)多樣性這一屬性在許多其他應(yīng)用場景中也都發(fā)揮了關(guān)鍵的作用,包括零售業(yè)、金融業(yè)、健康、旅游、房地產(chǎn)、選舉等,來自媒體、期刊、零售商、調(diào)查、會(huì)議、政府等的多樣化的數(shù)據(jù)會(huì)被收集、整理和分析,服務(wù)于各種決策者。例如,在電商零售和制造業(yè),企業(yè)搭建“數(shù)據(jù)中臺(tái)”匯聚企業(yè)運(yùn)營、生產(chǎn)和銷售數(shù)據(jù)等多類型、多形態(tài)、多渠道數(shù)據(jù),重新進(jìn)行數(shù)據(jù)治理和分析,服務(wù)企業(yè)多種應(yīng)用場景,提高業(yè)務(wù)效率[24];在營銷領(lǐng)域,廣告商通過分析他們的產(chǎn)品如何、何時(shí)和何地被談?wù)?、拍照和發(fā)布到社交媒體,以更好地了解客戶;在農(nóng)業(yè)方面,農(nóng)民已經(jīng)習(xí)慣使用衛(wèi)星和氣象數(shù)據(jù)來確定作物種植的最佳時(shí)間和位置[25]。這些都是數(shù)據(jù)類型和形態(tài)等多樣性的體現(xiàn)和應(yīng)用。
在人工智能領(lǐng)域,研究人員提出了基于數(shù)據(jù)多樣性的算法,可應(yīng)用于各種推薦場景,如圖書或電影等推薦[26]。還可用于大規(guī)模學(xué)習(xí)中,包括基因網(wǎng)絡(luò)子采樣、文檔提煉總結(jié)、視頻摘要化、內(nèi)容驅(qū)動(dòng)搜索、推薦系統(tǒng)、傳感器放置,及新聞標(biāo)題或檢索結(jié)果提示、影像或照片場景聚類、引文鏈研究方向識(shí)別、生物序列或多媒體數(shù)據(jù)聚類等[27]。在小數(shù)據(jù)領(lǐng)域,其中遷移學(xué)習(xí)、數(shù)據(jù)標(biāo)記、人工數(shù)據(jù)生成、貝葉斯方法、強(qiáng)化學(xué)習(xí)等小數(shù)據(jù)方法[28],都需要進(jìn)行數(shù)據(jù)標(biāo)記/標(biāo)簽或描述,以訓(xùn)練規(guī)則,這是數(shù)據(jù)維度多樣性的應(yīng)用。另外,由于非結(jié)構(gòu)化數(shù)據(jù)越來越多且數(shù)據(jù)類型越來越復(fù)雜多樣,為了存儲(chǔ)、處理和分析海量的非結(jié)構(gòu)化數(shù)據(jù),甚至還推動(dòng)了存儲(chǔ)技術(shù)、數(shù)據(jù)挖掘技術(shù)和自然語言處理技術(shù)等的快速發(fā)展。
對(duì)于數(shù)據(jù)管理/數(shù)據(jù)治理來說,數(shù)據(jù)多樣性為數(shù)據(jù)管理/治理提供了多方面的考慮和理論支撐。為了實(shí)現(xiàn)數(shù)據(jù)多樣性并利用多樣化的數(shù)據(jù),或是為了應(yīng)對(duì)多樣性的數(shù)據(jù),數(shù)據(jù)管理時(shí)應(yīng)盡可能考慮并做到以下幾個(gè)方面。
如前文所述,數(shù)據(jù)管理生命周期加速了數(shù)據(jù)多樣性。不同的數(shù)據(jù)管理階段,實(shí)施管理的主體也是多元、多樣化的(如圖7所示)。在數(shù)據(jù)生產(chǎn)/產(chǎn)生階段,主體可能是儀器設(shè)備(捕獲的科學(xué)數(shù)據(jù)、生產(chǎn)和生活數(shù)據(jù)為主,還包括機(jī)器生成的統(tǒng)計(jì)與日志數(shù)據(jù)等)或人(從事科研觀測(cè)或生成衍生科研數(shù)據(jù)的科研人員、人口普查的統(tǒng)計(jì)者、大數(shù)據(jù)的消費(fèi)者或發(fā)布者等)。在網(wǎng)絡(luò)世界,任何個(gè)體、任何終端都可以是數(shù)據(jù)生產(chǎn)主體。在數(shù)據(jù)處理、分析階段,處理方法、工具或軟件、分析方法、分析工具、分析人員等是多樣的,分析主體可能是各種軟件、也有可能是分析人員。在數(shù)據(jù)存儲(chǔ)階段,數(shù)據(jù)也是被存儲(chǔ)在多樣的系統(tǒng)中,例如開放數(shù)據(jù)平臺(tái)、政府網(wǎng)站、公共數(shù)據(jù)知識(shí)庫、機(jī)構(gòu)知識(shí)庫、集成數(shù)據(jù)平臺(tái)(含企業(yè)數(shù)據(jù)平臺(tái)等)、個(gè)人計(jì)算機(jī)等多個(gè)不同系統(tǒng)中,存儲(chǔ)軟件或文件系統(tǒng)等也是多元的。不同數(shù)據(jù)管理階段的多元化主體也在一定程度上給數(shù)據(jù)管理/治理增加了難度。但是,主體多元化有些時(shí)候也是我們數(shù)據(jù)管理/治理的目的,多元化主體才有可能構(gòu)建豐富、多樣、有活力的數(shù)據(jù)生態(tài)體系。
圖7 數(shù)據(jù)生命周期的主體多元化Fig. 7 Diversification of the Subjects in the Data Life Cycle
依據(jù)前文所述數(shù)據(jù)多樣性內(nèi)外表現(xiàn),數(shù)據(jù)治理的重要環(huán)節(jié)之一是要實(shí)現(xiàn)跨層級(jí)、跨部門、跨領(lǐng)域之間的協(xié)同,以盡可能賦予數(shù)據(jù)更大的能力和價(jià)值,用數(shù)據(jù)、數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù)解決問題。數(shù)據(jù)生產(chǎn)者、存儲(chǔ)者、擁有者、聚合者、開發(fā)者、發(fā)布者、使用者等之間的合作和協(xié)同主要需要考慮:數(shù)據(jù)生產(chǎn)流程、數(shù)據(jù)格式和數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)和文獻(xiàn)化;數(shù)據(jù)準(zhǔn)備、清洗和消化流程;數(shù)據(jù)質(zhì)量和質(zhì)保措施;長期保存、備份和認(rèn)證政策;軟件和硬件;安全和數(shù)據(jù)保護(hù);獲取、許可、使用、復(fù)用、隱私和道德政策;所有權(quán)、版權(quán)和知識(shí)產(chǎn)權(quán)政策;行政安排、管理機(jī)構(gòu)和治理機(jī)制;基礎(chǔ)設(shè)施資金、設(shè)備及其管理等[29]。
以科研數(shù)據(jù)來講,需要在科研機(jī)構(gòu)/團(tuán)體之間、科研機(jī)構(gòu)/團(tuán)體與出版機(jī)構(gòu)之間、科研機(jī)構(gòu)/團(tuán)體與圖書館或館員之間建立良性的互動(dòng)協(xié)商機(jī)制,通過數(shù)據(jù)共享、服務(wù)構(gòu)建、產(chǎn)品/平臺(tái)建設(shè)等推動(dòng)科研數(shù)據(jù)開放共享機(jī)制。具體來講,可以有以下幾種協(xié)同治理機(jī)制:(1)協(xié)商溝通機(jī)制??蒲羞^程和數(shù)據(jù)生命周期都增強(qiáng)了數(shù)據(jù)多樣性,對(duì)于科研數(shù)據(jù)共享增加了難度。不同部門之間需協(xié)商確定數(shù)據(jù)共享的版本、形態(tài)、格式等,還需協(xié)商決定如何共享、如何重用、共享范圍、重用限制等一系列問題。(2)激勵(lì)約束機(jī)制。科研人員傾向于獨(dú)占科研數(shù)據(jù),盡管部分科研資助機(jī)構(gòu)、科研機(jī)構(gòu)、出版機(jī)構(gòu)等確立了數(shù)據(jù)共享的“硬規(guī)定”。但是多樣化的數(shù)據(jù)表明,共享出來的數(shù)據(jù)只是極小部分的數(shù)據(jù)。目前來看,激勵(lì)機(jī)制還不夠多,激勵(lì)程度也不大,約束機(jī)制也不夠強(qiáng)硬。(3)組織學(xué)習(xí)機(jī)制??蒲腥藛T、編輯、館員等都在獨(dú)自領(lǐng)域?qū)W習(xí)數(shù)據(jù)管理/治理,但側(cè)重點(diǎn)不一樣,這可能會(huì)造成資源浪費(fèi),相對(duì)更好的辦法是訓(xùn)練數(shù)據(jù)管理/治理專家,由專業(yè)人員統(tǒng)一學(xué)習(xí)各方的數(shù)據(jù)生產(chǎn)、存儲(chǔ)和使用情況,再結(jié)合具體需求和目標(biāo)做好數(shù)據(jù)治理。
開放數(shù)據(jù)、開放科研數(shù)據(jù)運(yùn)動(dòng)和大數(shù)據(jù)的興起帶來了數(shù)據(jù)格式、結(jié)構(gòu)、標(biāo)準(zhǔn)、元數(shù)據(jù)和知識(shí)產(chǎn)權(quán)、許可和共享協(xié)議等的共同指南和政策,甚至是法律法規(guī)和條例。為了實(shí)現(xiàn)數(shù)據(jù)多樣性,尤其是推動(dòng)數(shù)據(jù)多樣性內(nèi)在表現(xiàn)的統(tǒng)一、完整,政府機(jī)構(gòu)、企業(yè)、科學(xué)界、出版界、圖書館界等不同參與方之間應(yīng)在相互協(xié)作的基礎(chǔ)上,制定出共同的規(guī)則,推動(dòng)數(shù)據(jù)的長效治理與高效利用。目前科研數(shù)據(jù)領(lǐng)域的相關(guān)實(shí)踐包括國際上已經(jīng)出臺(tái)了與科研數(shù)據(jù)相關(guān)的一系列規(guī)則和標(biāo)準(zhǔn)。例如,在元數(shù)據(jù)標(biāo)準(zhǔn)方面,全球已有約65個(gè)科研數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)[30],其中常見的有:Dublin Core、數(shù)據(jù)文檔計(jì)劃DDI、生態(tài)元數(shù)據(jù)語言EML、地理空間領(lǐng)域的ISO 19115和FGDCCSDGM等;數(shù)據(jù)管理與共享方面,有全球眾多的組織和機(jī)構(gòu)認(rèn)可的FAIR數(shù)據(jù)共享原則[31];在數(shù)據(jù)引用方面,數(shù)據(jù)出版和存儲(chǔ)系統(tǒng)盡量為每條數(shù)據(jù)提供永久唯一標(biāo)識(shí)符(Persistent Identifiers,簡稱PID)或唯一標(biāo)識(shí)符(Digital Object Identifier,簡稱DOI),構(gòu)建數(shù)據(jù)引用原則和標(biāo)準(zhǔn)等[32-36]。此外,研究數(shù)據(jù)聯(lián)盟RDA和世界數(shù)據(jù)系統(tǒng)WDS共同設(shè)立了學(xué)術(shù)鏈接交換工作組,努力制定論文-研究數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則并提供服務(wù)[37]。
美國信息標(biāo)準(zhǔn)辦公室(NISO)也宣布啟動(dòng)新項(xiàng)目來關(guān)聯(lián)出版商與知識(shí)庫之間的工作流,實(shí)現(xiàn)研究數(shù)據(jù)-論文之間的相互鏈接,針對(duì)元數(shù)據(jù)、術(shù)語、數(shù)據(jù)-論文關(guān)系的引用/鏈接類型等形成一系列標(biāo)準(zhǔn)或最佳實(shí)踐[38]。上述協(xié)同治理各方之間的協(xié)同過程和共同目的就是促成共同規(guī)則的形成。
科研人員是科研數(shù)據(jù)的主要生產(chǎn)者,如何保持和驅(qū)動(dòng)數(shù)據(jù)多樣性也離不開科研人員的參與。但在開放科學(xué)環(huán)境下,科研人員的痛點(diǎn)和難點(diǎn)也越來越多。例如:(1)科研人員和研究團(tuán)隊(duì)需要應(yīng)對(duì)眾多數(shù)據(jù)匯交任務(wù),包括制定數(shù)據(jù)管理計(jì)劃、開放數(shù)據(jù)、提交元數(shù)據(jù)、長期保存等,還要應(yīng)對(duì)科研誠信、科研倫理和績效考核等[39-43]。(2)筆者在前期研究工作中發(fā)現(xiàn),科研團(tuán)隊(duì)及人員在面臨數(shù)據(jù)披露時(shí)還需考慮外部資金、基礎(chǔ)設(shè)施/技術(shù)、相關(guān)規(guī)范等[44]。他們需要有人能為其提供全流程的數(shù)據(jù)咨詢服務(wù)[45]。而不是簡單的指南或最佳實(shí)踐。(3)數(shù)據(jù)重用難以實(shí)現(xiàn)。數(shù)據(jù)重用的理想狀態(tài)或者說理想的數(shù)據(jù)重用生態(tài)體系是,科研人員在利用開放數(shù)據(jù)后能產(chǎn)生新的數(shù)據(jù)或數(shù)據(jù)庫并開放給其他人共享。但經(jīng)調(diào)研,部分科研人員在面對(duì)數(shù)據(jù)開放時(shí)會(huì)猶豫和遲疑,而對(duì)開放數(shù)據(jù)的質(zhì)量和可靠性也持懷疑態(tài)度[44]。
圖書館和館員需要認(rèn)識(shí)數(shù)據(jù)多樣性,找到科研人員的數(shù)據(jù)痛點(diǎn),幫助科研人員解決上述問題,當(dāng)然也面臨著一系列的挑戰(zhàn)。例如:(1)數(shù)據(jù)管理能力不夠,包括存儲(chǔ)、管理、匯交、保存能力,不能完美適配科研流程前、中、后等各個(gè)不同階段所需要的數(shù)據(jù)支持[46]。(2)數(shù)據(jù)倫理知識(shí)不足,對(duì)包括如著作權(quán)法、數(shù)據(jù)安全法、個(gè)人信息保護(hù)法、數(shù)據(jù)管理辦法、出版管理?xiàng)l例、電子出版物出版管理規(guī)定等法律法規(guī),以及知識(shí)產(chǎn)權(quán)強(qiáng)國建設(shè)綱要、學(xué)術(shù)期刊繁榮發(fā)展的意見、人才強(qiáng)國戰(zhàn)略等宏觀政策,及知識(shí)共享(CC)許可協(xié)議、自由軟件許可、數(shù)據(jù)庫使用協(xié)議等了解與理解可能不充分。(3)數(shù)據(jù)作為生產(chǎn)要素,數(shù)據(jù)館員可能還需要了解數(shù)據(jù)增值的業(yè)務(wù),包括交辦、交換、交易、交涉,以及交易過程中需要明確的分類分級(jí)、數(shù)據(jù)產(chǎn)權(quán)等(如表1)。盡管目前數(shù)據(jù)交易集中在通信、電商領(lǐng)域[47]。但廣泛的科研數(shù)據(jù)交易終將到來,科研數(shù)據(jù)確權(quán)問題也會(huì)隨之出現(xiàn)。
表1 分類分級(jí)數(shù)據(jù)產(chǎn)權(quán)內(nèi)容[47]Table 1 Different Rights of Data Property
圖書館作為信息資源的收藏、傳閱、服務(wù)場所,在“萬物皆是數(shù)據(jù)”的時(shí)代,跳出傳統(tǒng)知識(shí)資源的界限已成為必然[48]。圖書館在描述資源、提供訪問和建立館藏以及為數(shù)字資源的長期管理提供支持方面有著悠久的傳統(tǒng)[49],部分圖書館也已經(jīng)開始參與數(shù)據(jù)開發(fā)、整合和利用的全生命周期,并在更廣泛的使命和服務(wù)范疇內(nèi)呈現(xiàn)和分析[50]。從數(shù)據(jù)治理的角度而言,社會(huì)直接映射數(shù)據(jù),數(shù)據(jù)直接影響社會(huì),而圖書館居于其中的角色,更多不是中介,而是驅(qū)動(dòng)者、促進(jìn)者,以及輔助者的角色,圖書館可以充分應(yīng)用已有的文獻(xiàn)領(lǐng)域的經(jīng)驗(yàn)積累,從技術(shù)、法律、倫理等方面進(jìn)行引導(dǎo)。從知識(shí)服務(wù)的圖書館學(xué)理論而言,結(jié)合實(shí)踐經(jīng)驗(yàn)論證理論以及需要理論指導(dǎo)實(shí)踐等的角度,都需要數(shù)據(jù)多樣性,作為數(shù)據(jù)服務(wù)的一個(gè)理論支撐,因?yàn)樵谖墨I(xiàn)服務(wù)、信息服務(wù)、情報(bào)服務(wù)之后,數(shù)據(jù)服務(wù)是知識(shí)服務(wù)的最后一塊拼圖。在數(shù)據(jù)-信息-情報(bào)-決策-評(píng)價(jià)的情報(bào)價(jià)值鏈中,數(shù)據(jù)應(yīng)被作為情報(bào)工作的起點(diǎn)[51]。經(jīng)過數(shù)據(jù)服務(wù)產(chǎn)生的衍生數(shù)據(jù)或者基于元數(shù)據(jù)和關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)集,應(yīng)為階段性終點(diǎn)。
圖書館作為資源集成體,在數(shù)據(jù)資源建設(shè)規(guī)劃中,就應(yīng)考慮數(shù)據(jù)多樣性,包括數(shù)據(jù)類型、維度、格式、版本、形態(tài)等的數(shù)據(jù)多樣性,以盡可能重用數(shù)據(jù)、提升數(shù)據(jù)的價(jià)值。對(duì)于已有的數(shù)據(jù)資源,也要考慮數(shù)據(jù)多樣性,例如增加數(shù)據(jù)維度或形態(tài)等,提升數(shù)據(jù)可見性。重新定義圖書館學(xué)“五定律”,即每條數(shù)據(jù)都能被使用,每個(gè)用戶都能找到所需的數(shù)據(jù),數(shù)據(jù)知識(shí)庫/數(shù)據(jù)資源/數(shù)據(jù)產(chǎn)品是一個(gè)生長著的有機(jī)體。如果在數(shù)據(jù)資源建設(shè)規(guī)劃階段沒有考慮數(shù)據(jù)多樣性,或者邊建設(shè)邊規(guī)劃,那么一旦建好了之后,就會(huì)有其限制或無法被更好地使用。反之,如果在數(shù)據(jù)多樣性原則的指導(dǎo)下建立數(shù)據(jù)資源,且能被用戶使用并有利于科研,那么就能不斷地開展數(shù)據(jù)資源開發(fā)與利用的良性循環(huán)。
作為館員或數(shù)據(jù)館員來說,應(yīng)認(rèn)識(shí)到數(shù)據(jù)多樣性的重要性,努力提升數(shù)據(jù)采集、描述、整理、存儲(chǔ)過程中的方法、政策、標(biāo)準(zhǔn)等的完備性。館員還可以提供嵌入式數(shù)據(jù)支持服務(wù),幫助科研人員制訂數(shù)據(jù)計(jì)劃、整理和處理數(shù)據(jù)、分析數(shù)據(jù)并可視化、保存數(shù)據(jù)等,為數(shù)據(jù)使用者和生產(chǎn)者提供無縫對(duì)接的配套服務(wù)和相關(guān)法律法規(guī)、政策與倫理等支持。同時(shí),館員在信息組織領(lǐng)域擁有豐富的經(jīng)驗(yàn),可以積極參與并努力做好數(shù)據(jù)描述、數(shù)據(jù)標(biāo)記或數(shù)據(jù)編目,完善數(shù)據(jù)自身的多樣性,為數(shù)據(jù)重用提供便利,為智能情報(bào)系統(tǒng)提供更好的數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù)。
多樣性意義重大、影響深遠(yuǎn)。一切形式的文化多樣性都是與經(jīng)濟(jì)繁榮息息相關(guān)的競爭差異化因素[52]。數(shù)據(jù)多樣性,作為一種文化知識(shí)多樣性,在數(shù)據(jù)時(shí)代只有被真正認(rèn)識(shí)和努力實(shí)現(xiàn),才能更好地適應(yīng)新思想、新技術(shù)以應(yīng)對(duì)新的社會(huì)和經(jīng)濟(jì)挑戰(zhàn)。從圖書館和館員角度來說,數(shù)據(jù)多樣性是圖書館和館員提供數(shù)據(jù)服務(wù)的基石,也是數(shù)據(jù)情報(bào)工作的起點(diǎn),同時(shí)也是圖書館和館員深入?yún)⑴c數(shù)據(jù)驅(qū)動(dòng)科學(xué)發(fā)現(xiàn)的發(fā)展機(jī)遇。數(shù)據(jù)多樣性應(yīng)被保持和驅(qū)動(dòng),但是數(shù)據(jù)一旦處于無限制地?cái)U(kuò)展、繁殖中,就會(huì)變得不受控制且毫無意義。如何實(shí)現(xiàn)從數(shù)據(jù)到有價(jià)值的數(shù)據(jù)產(chǎn)品,也許是科學(xué)界、出版界、圖書館界等需要思考和探索的問題。
作者貢獻(xiàn)說明
陸彩女:資料收集與編譯,撰寫論文;
顧立平:提出研究方向,設(shè)計(jì)研究框架;
聶華:修改論文。