面向AI4S的數(shù)據(jù)要素供給：價(jià)值取向、路徑選擇與風(fēng)險(xiǎn)控制

2024-01-01 00:00:00鄭令晗李晨珂

圖書(shū)與情報(bào) 2024年3期

摘" "要：作為第五科研范式的AI4S，是科研領(lǐng)域促進(jìn)新質(zhì)生產(chǎn)力發(fā)展的重要工具，其構(gòu)成要件之一是數(shù)據(jù)。AI4S大模型訓(xùn)練以數(shù)據(jù)為基礎(chǔ)，更需要高質(zhì)量、多類型數(shù)據(jù)。在商業(yè)大模型利用數(shù)據(jù)日趨受限的當(dāng)下，及時(shí)關(guān)注科研大模型的數(shù)據(jù)要素供給尤為重要，加速將AI4S的新質(zhì)生產(chǎn)力從代碼中釋放出來(lái)。面向AI4S的數(shù)據(jù)要素供給是復(fù)雜的系統(tǒng)工程，價(jià)值取向應(yīng)是數(shù)據(jù)利他而不是數(shù)據(jù)利己，從而實(shí)現(xiàn)科學(xué)研究的公益目的和服務(wù)社會(huì)的賦能目標(biāo)，應(yīng)根據(jù)不同類型數(shù)據(jù)選擇相應(yīng)路徑，即公共數(shù)據(jù)、企業(yè)數(shù)據(jù)、個(gè)人數(shù)據(jù)、科學(xué)數(shù)據(jù)和作品數(shù)據(jù)等宜分別選擇有條件無(wú)償、成本補(bǔ)償、自愿同意、互助共享和合理使用的供給路徑，同時(shí)要注意防控潛在的版權(quán)侵害、隱私公開(kāi)、數(shù)據(jù)泄露和價(jià)值不齊的風(fēng)險(xiǎn)。

關(guān)鍵詞：AI4S；人工智能；數(shù)據(jù)要素；數(shù)據(jù)供給；科學(xué)研究；風(fēng)險(xiǎn)控制

中圖分類號(hào)：F49" "文獻(xiàn)標(biāo)識(shí)碼：Ａ" "DOI：10.11968/tsyqb.1003-6938.2024035

Data Element Supply for AI4S： Value Proposition， Path Choice and Risk Control

Abstract As the fifth scientific research paradigm， AI4S is an important tool to promote the development of the new quality productive forces in the field of scientific research， and one of its components is data， which is the basis for the training of AI4S big models， and it needs high-quality and multi-type data. At a time when the utilization of data for commercial big models is becoming more and more limited， it is especially important to pay attention to the supply of data elements for scientific research big models in time， so as to accelerate the release of the new quality productive forces of AI4S from the code. The supply of data elements for AI4S is a complex systematic project， and the value orientation should be data altruism rather than data egoism， so as to realize the public welfare purpose of scientific research and the empowerment goal of serving the society， the corresponding paths should be chosen according to different types of data， i.e.， the supply paths of public data， enterprise data， personal data， scientific data， and artwork data， etc. that should be chosen respectively， such as the supply paths of conditional gratuitous， cost-compensated， voluntary agreement， mutual， sharing， and fair use. And at the same time， attention should be paid to preventing and controlling the potential risks of copyright infringement， privacy disclosure， data breaches， data leakage and value alignment.

Key words AI4S; artificial intelligence; data elements; data supply; scientific research; risk control

科學(xué)技術(shù)是第一生產(chǎn)力，人工智能的成熟和應(yīng)用，促進(jìn)科學(xué)技術(shù)向新質(zhì)生產(chǎn)力飛躍。人工智能發(fā)展已進(jìn)入加速階段，從算法智能階段（以Alpha Go為代表）進(jìn)階到語(yǔ)言智能階段（Chat GPT為代表），目前正在開(kāi)啟科研智能階段（以Alpha Fold 為代表）。科學(xué)研究的范式隨著技術(shù)變革而不斷演進(jìn)，在經(jīng)驗(yàn)范式、理論范式、計(jì)算范式、數(shù)據(jù)驅(qū)動(dòng)范式之后，迎來(lái)了第五范式。有學(xué)者認(rèn)為科學(xué)研究第五范式以AI技術(shù)為核心［1］，有學(xué)者認(rèn)為AI for Science（簡(jiǎn)稱為AI4S）才是科學(xué)研究第五范式［2-3］，但都與AI密不可分。AI4S思想首次出現(xiàn)可追溯到2016年附近，AI4S在2020年前后正式進(jìn)入人們視野，故2016年-2021年可謂是AI4S的“概念導(dǎo)入期”［4］。

新一代人工智能競(jìng)爭(zhēng)悄然降臨，國(guó)內(nèi)外的官方或企業(yè)已開(kāi)啟了AI4S布局。在國(guó)內(nèi)，科技部會(huì)同自然科學(xué)基金委啟動(dòng)了“人工智能驅(qū)動(dòng)的科學(xué)研究（AI for Science）”專項(xiàng)部署工作，布局AI4S前沿科技研發(fā)體系［5］；科技創(chuàng)新2030——“新一代人工智能”重大項(xiàng)目在第二個(gè)五年實(shí)施階段（2023年-2027年），擬研究AI for Science的新理論、新模型、新算法，發(fā)展一批針對(duì)典型科研領(lǐng)域的AI for Science專用平臺(tái)［6］。此外，2023版《科學(xué)智能（AI4S）全球發(fā)展觀察與展望》以全新的框架重新梳理AI for Science的要素、沿革、展望，并詳盡描述其在各行各業(yè)的實(shí)踐［7］。在國(guó)外，前谷歌掌門人Eric Schmidt宣布成立AI for Science博后獎(jiǎng)學(xué)金并布局9所大學(xué)，微軟宣布成立專門的AI4Science部門，英偉達(dá)聯(lián)合IIT發(fā)布AI for Science公開(kāi)課程，美國(guó)能源部聯(lián)合5大國(guó)家實(shí)驗(yàn)室發(fā)布AI for Science，Energy amp; Security先進(jìn)科研課題指引，OECD面向全球政策制定者發(fā)布AI in Science的綜述與政策建議［4］。

當(dāng)前，AI4S已進(jìn)入大規(guī)?；A(chǔ)設(shè)施建設(shè)期（2021年-2026年），帶來(lái)的是數(shù)據(jù)、算法、算力“三位一體”的計(jì)算方式變革［4］。該階段初期，AI4S已在生命科學(xué)、材料科學(xué)、能源科學(xué)、電子工程與計(jì)算機(jī)科學(xué)、地球與環(huán)境科學(xué)等領(lǐng)域取得了許多重大進(jìn)展，此時(shí)應(yīng)該更加關(guān)注背后的AI。在AI三大要素的數(shù)據(jù)、算力和算法中，本文僅關(guān)注數(shù)據(jù)要素。一方面，若說(shuō)數(shù)字技術(shù)是科學(xué)變革的引擎，那么數(shù)字?jǐn)?shù)據(jù)就是燃料，但許多科學(xué)學(xué)科的燃料供不應(yīng)求［8］；另一方面，從2023年紐約時(shí)報(bào)因GPT-4輸出結(jié)果與其作品大量重復(fù)而把OpenAI、微軟送上被告席，到2024年巴西禁止美國(guó)Meta使用巴西用戶數(shù)據(jù)訓(xùn)練生成式AI模型，限制商業(yè)大模型利用作品數(shù)據(jù)、個(gè)人數(shù)據(jù)的趨勢(shì)已現(xiàn)，有必要提前思考科研大模型的數(shù)據(jù)供給問(wèn)題。AI4S數(shù)據(jù)要素問(wèn)題不僅在于數(shù)據(jù)的體量、質(zhì)量、可用、復(fù)用等，更在于數(shù)據(jù)來(lái)源。鑒于此，從價(jià)值取向、路徑選擇和風(fēng)險(xiǎn)控制三因素聚焦面向AI4S的數(shù)據(jù)要素供給，因?yàn)閮r(jià)值取向影響數(shù)據(jù)要素供給的路徑選擇，進(jìn)而影響風(fēng)險(xiǎn)控制。

1" "AI4S及其與數(shù)據(jù)要素的關(guān)系

1.1" " AI4S的概念認(rèn)知

AI4S是我國(guó)學(xué)者于2018年提出的新概念，目前，學(xué)界對(duì)其內(nèi)涵的認(rèn)知還處于混沌期［3］。AI4S被漢譯為“科學(xué)智能”［3，9-10］，或者“人工智能驅(qū)動(dòng)的科學(xué)研究”［1-2，11］，后者出現(xiàn)在我國(guó)官方文件中［5］。鄂維南等科學(xué)家將“AI for Science”翻譯成“科學(xué)智能”，可作為第五科研范式定名與翻譯的借鑒，但智能化的科研不限于基礎(chǔ)科學(xué)研究，也包括技術(shù)研究和工程研究的智能化；科學(xué)技術(shù)部和國(guó)家自然科學(xué)基金委員會(huì)啟動(dòng)部署的“AI for Science”專項(xiàng)稱為“人工智能驅(qū)動(dòng)的科學(xué)研究”，但在與實(shí)驗(yàn)、理論、計(jì)算機(jī)仿真、數(shù)據(jù)驅(qū)動(dòng)等范式名稱放在一起時(shí)，又顯得不夠精煉［12］。AI4S漢譯為“人工智能驅(qū)動(dòng)的科學(xué)研究”，更能準(zhǔn)確傳達(dá)該概念的樸素本義，能避免中文名稱過(guò)于抽象而在使用中逐漸被泛化的弊端。理解AI4S本義應(yīng)該將AI和Science作為兩個(gè)獨(dú)立的主題，兩個(gè)主題之間是靠“驅(qū)動(dòng)”作為連接點(diǎn)形成互動(dòng)關(guān)系，可通俗理解AI4S為“Science是AI的應(yīng)用場(chǎng)景”。

王東波等認(rèn)為，AI4S是指將人工智能技術(shù)應(yīng)用于科學(xué)研究的新興研究領(lǐng)域，通過(guò)構(gòu)建人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)模型，以自動(dòng)化提取數(shù)據(jù)特征的方式，從大規(guī)模數(shù)據(jù)中提取關(guān)鍵特征和潛在模式，進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的高效處理和深度挖掘［2］；周江林認(rèn)為，AI4S就是利用AI并賦以AI如深度學(xué)習(xí)、科學(xué)計(jì)算等特殊功能來(lái)從事基礎(chǔ)研究［3］；徐東波認(rèn)為，AI4S是指科研人員利用人工智能產(chǎn)品、學(xué)科、技術(shù)的智能化優(yōu)勢(shì)，促進(jìn)科學(xué)研究過(guò)程加速、領(lǐng)域融合、合作深化、方法改進(jìn)的復(fù)雜過(guò)程，以達(dá)到科學(xué)創(chuàng)新的目的［13］；湯超從應(yīng)用、工具和原理方面闡釋了AI4S的三層含義，即把AI用于各個(gè)學(xué)科中的科研、技術(shù)創(chuàng)新、成果轉(zhuǎn)化等，利用AI來(lái)發(fā)現(xiàn)new science，AI背后有其科學(xué)原理［14］。上述代表性成果關(guān)于AI4S的認(rèn)知各有側(cè)重，或強(qiáng)調(diào)“以數(shù)據(jù)為基礎(chǔ)”，或強(qiáng)調(diào)“深度學(xué)習(xí)、科學(xué)計(jì)算等”，但共性之處在于認(rèn)同“AI在科學(xué)研究領(lǐng)域的應(yīng)用”，只不過(guò)表達(dá)不一致而已，如“將人工智能技術(shù)應(yīng)用于科學(xué)研究”“利用AI從事基礎(chǔ)研究”“AI用于各個(gè)學(xué)科中的科研”和“利用人工智能產(chǎn)品、學(xué)科、技術(shù)的智能化”。由此，可以認(rèn)為科學(xué)研究是AI4S的作用場(chǎng)域，考慮到科學(xué)研究的公益屬性比較強(qiáng)，故可將AI4S的屬性定位為公共利益。

1.2" " AI4S與數(shù)據(jù)要素的關(guān)系

簡(jiǎn)化來(lái)看，AI4S與數(shù)據(jù)要素的關(guān)系體現(xiàn)在：其一，數(shù)據(jù)是AI4S的構(gòu)成要素，即與算法、算力共同形成了AI4S這一新的研究范式，尤其是AI4S中的AI部分離不開(kāi)數(shù)據(jù)驅(qū)動(dòng)；其二，AI4S能夠應(yīng)對(duì)大規(guī)模數(shù)據(jù)處理，即“AI4S不僅可以處理多維、多模態(tài)的海量數(shù)據(jù)，加速科研流程，也能幫助人們發(fā)現(xiàn)新的科學(xué)規(guī)律，甚至達(dá)到之前從未也無(wú)法觸及的新領(lǐng)域”［3］。

首先，AI4S的大模型訓(xùn)練需要以數(shù)據(jù)為基礎(chǔ)。在經(jīng)驗(yàn)范式、理論范式、計(jì)算范式的科學(xué)研究中，涉及的數(shù)據(jù)相對(duì)于數(shù)據(jù)驅(qū)動(dòng)范式都是小規(guī)模數(shù)據(jù)。無(wú)論是自然科學(xué)，還是人文社會(huì)科學(xué)，數(shù)據(jù)成為基礎(chǔ)研究的重要生產(chǎn)工具，這也是AI4S最具優(yōu)勢(shì)之處［3］。數(shù)據(jù)作為大模型訓(xùn)練的原始語(yǔ)料，是AI4S形成的起點(diǎn)。AI通過(guò)輸入的大規(guī)模數(shù)據(jù)語(yǔ)料，從中學(xué)習(xí)規(guī)律和方法。如AlphaFold2需要同時(shí)使用帶標(biāo)簽和未帶標(biāo)簽的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練，包括序列數(shù)據(jù)集和結(jié)構(gòu)數(shù)據(jù)集［1］。尤其是，深度學(xué)習(xí)依賴神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu)，需要通過(guò)足夠的數(shù)據(jù)迭代訓(xùn)練才可以實(shí)現(xiàn)。

其次，AI4S的大模型訓(xùn)練需要高質(zhì)量數(shù)據(jù)。數(shù)據(jù)質(zhì)量直接影響AI的性能與結(jié)果，“AI4S功能發(fā)揮或智力水平的高低一定程度上取決于數(shù)據(jù)質(zhì)量的高低”［3］，提升AI4S模型精度需要海量數(shù)據(jù)。高質(zhì)量數(shù)據(jù)能夠訓(xùn)練出更準(zhǔn)確的大模型，若數(shù)據(jù)存在噪聲或偏差，可能會(huì)導(dǎo)致大模型在應(yīng)用中出現(xiàn)誤判或偏見(jiàn)，最終影響輸出結(jié)果的可靠性和有效性。盡管人工智能領(lǐng)域獲取數(shù)據(jù)的門檻簡(jiǎn)單了許多，但是高質(zhì)量數(shù)據(jù)集仍較為缺乏。大模型發(fā)展到一定階段之后，算法和算力在短時(shí)期內(nèi)很難有突破性變革，競(jìng)爭(zhēng)的焦點(diǎn)在于高質(zhì)量數(shù)據(jù)。一般性的數(shù)據(jù)訓(xùn)練完成后，提升大模型精度就嚴(yán)重依賴高質(zhì)量數(shù)據(jù)集。雖然已有部分通用領(lǐng)域建立并開(kāi)放或共性了數(shù)據(jù)集，但是科學(xué)研究的細(xì)分領(lǐng)域可用的高質(zhì)量數(shù)據(jù)集仍然匱乏。

再次，AI4S的大模型訓(xùn)練依賴多類型數(shù)據(jù)。訓(xùn)練數(shù)據(jù)的多樣性有利于提升模型應(yīng)對(duì)“未知”的能力，根據(jù)不同的分類標(biāo)準(zhǔn)，可以將AI4S所需數(shù)據(jù)劃分為不同類型。如按照來(lái)源標(biāo)準(zhǔn)，AI4S的常見(jiàn)類型包括觀測(cè)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、記錄數(shù)據(jù)、調(diào)查數(shù)據(jù)、模擬數(shù)據(jù)等，每種類型的數(shù)據(jù)都有其獨(dú)特的應(yīng)用領(lǐng)域和獲取方式，綜合利用這些數(shù)據(jù)對(duì)于科學(xué)研究有著重要的意義［4］。AI4S需要多少類型的數(shù)據(jù)，當(dāng)前的研究成果尚未達(dá)成共識(shí)。如構(gòu)建AI4S知識(shí)底座框架需要的領(lǐng)域原始知識(shí)資源包括科研論文、科研專利、科技圖書(shū)、預(yù)印本、基金項(xiàng)目、科技政策、科技輿情、編輯動(dòng)態(tài)、科技人才、科研機(jī)構(gòu)等，而科學(xué)數(shù)據(jù)有效聚合為發(fā)揮AI4S的強(qiáng)大功能奠定了數(shù)據(jù)基礎(chǔ)［2］；再如，通過(guò)收集政府?dāng)?shù)據(jù)、公開(kāi)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、調(diào)查數(shù)據(jù)等同質(zhì)異構(gòu)的海量數(shù)據(jù)，努力構(gòu)建相應(yīng)的高質(zhì)量數(shù)據(jù)庫(kù)，為充分發(fā)揮AI4S的強(qiáng)大功能奠定數(shù)據(jù)基礎(chǔ)［3］。

綜上，以數(shù)據(jù)為基礎(chǔ)是AI4S的本體要求?？蒲蓄I(lǐng)域涉及的數(shù)據(jù)類型繁、體量大，使用專門模型比通用大模型更為有效，如AlphaFold、DeePMD等都是以特定領(lǐng)域知識(shí)模型為基礎(chǔ)，這就對(duì)數(shù)據(jù)要素供給提出了類型化要求。高質(zhì)量數(shù)據(jù)意味著加工數(shù)據(jù)，可關(guān)聯(lián)到企業(yè)數(shù)據(jù)。在現(xiàn)有研究成果的數(shù)據(jù)分類基礎(chǔ)上，可歸納以下典型數(shù)據(jù)類型：其一，基于科研論文、科技圖書(shū)、預(yù)印本等可以概括出作品數(shù)據(jù)；其二，基于觀測(cè)數(shù)據(jù)、試驗(yàn)數(shù)據(jù)、記錄數(shù)據(jù)、調(diào)查數(shù)據(jù)等可概括出科學(xué)數(shù)據(jù)；其三，基于科技輿情、編輯動(dòng)態(tài)、科技政策、科技人才、科研機(jī)構(gòu)、科研專利、基金項(xiàng)目等概括出公共數(shù)據(jù)。按照是否能夠識(shí)別到特定自然人，前述數(shù)據(jù)還可劃分個(gè)人數(shù)據(jù)和非個(gè)人數(shù)據(jù)。

2" "面向AI4S數(shù)據(jù)要素供給的價(jià)值取向

2.1" " 數(shù)據(jù)利己：私益與變現(xiàn)之否定

個(gè)人數(shù)據(jù)因?yàn)槠洹白R(shí)別特定主體的身份”，天然地荷載了人格利益，即自帶私益屬性。即便是非個(gè)人數(shù)據(jù)，其私益屬性也在商業(yè)市場(chǎng)中逐步加強(qiáng)。數(shù)據(jù)定位為生產(chǎn)要素之后，其生產(chǎn)價(jià)值和商業(yè)價(jià)值就愈發(fā)凸顯出來(lái)。雖然商業(yè)主體一直立足公益立場(chǎng)呼吁政府?dāng)?shù)據(jù)開(kāi)放、公共數(shù)據(jù)開(kāi)放，但是數(shù)據(jù)市場(chǎng)中的商業(yè)行為卻日益增強(qiáng)了數(shù)據(jù)的私益屬性。不同主體面對(duì)數(shù)據(jù)時(shí)，似乎天然地存在一種利己心態(tài)。這種“利己”是中性的，并非“精致利己”意義上的。雖然“數(shù)據(jù)利己”的概念尚未正式見(jiàn)諸于既有研究成果，可以從個(gè)人和企業(yè)等主體涉及數(shù)據(jù)的主張中加以洞察。

數(shù)據(jù)利己的表現(xiàn)之一是“不受損”。數(shù)據(jù)作為一種私益，本來(lái)就應(yīng)該得到保護(hù)，不能放任數(shù)據(jù)及其相關(guān)利益受侵害。對(duì)于個(gè)人而言，首先是考慮隱私安全和數(shù)據(jù)安全。大數(shù)據(jù)的“身份悖論”與生俱來(lái)，即大數(shù)據(jù)試圖以犧牲個(gè)人和集體身份為代價(jià)進(jìn)行識(shí)別［15］。從互聯(lián)網(wǎng)環(huán)境中的隱私安全，到數(shù)字時(shí)代的數(shù)據(jù)安全，人們出現(xiàn)此類擔(dān)憂的邏輯起點(diǎn)是“不受損”，即不能因?yàn)殡[私在網(wǎng)絡(luò)空間的快速傳播而擾亂生活安寧，不能因?yàn)閿?shù)據(jù)的泄露、濫用等而侵?jǐn)_隱私安全、財(cái)產(chǎn)安全以及人身安全等。對(duì)于企業(yè)而言，優(yōu)先考慮的是競(jìng)爭(zhēng)優(yōu)勢(shì)。企業(yè)在商業(yè)活動(dòng)中收集和存儲(chǔ)多模態(tài)、大規(guī)模數(shù)據(jù)而形成的競(jìng)爭(zhēng)優(yōu)勢(shì)應(yīng)得到維持，慣用做法采用技術(shù)措施、用戶協(xié)議等自力救濟(jì)手段，將這些數(shù)據(jù)資源保護(hù)起來(lái)，甚至以安全為由不對(duì)外提供，盡可能排除競(jìng)爭(zhēng)對(duì)手獲得這些數(shù)據(jù)而削減其競(jìng)爭(zhēng)優(yōu)勢(shì)。

數(shù)據(jù)利己的表現(xiàn)之二是“能受益”。數(shù)據(jù)既然是一種私益，那么讓渡該私益就應(yīng)該獲得另一種私益，如此才能保證私益的持續(xù)。對(duì)于個(gè)人而言，開(kāi)始考慮將個(gè)人的數(shù)據(jù)交易出去，由此獲得相應(yīng)的對(duì)價(jià)（變現(xiàn)）。如美國(guó)的Personal.com公司推出“數(shù)據(jù)倉(cāng)（Data Vault）”，便于用戶將個(gè)人數(shù)據(jù)的使用權(quán)賣給商業(yè)機(jī)構(gòu)，國(guó)內(nèi)的Ufile Chain2019年就開(kāi)始探索數(shù)據(jù)作為數(shù)字資產(chǎn)回歸用戶本人并實(shí)現(xiàn)收益。對(duì)于企業(yè)而言，自己的數(shù)據(jù)皆有對(duì)價(jià)，在確保數(shù)據(jù)競(jìng)爭(zhēng)優(yōu)勢(shì)的前提下，通過(guò)開(kāi)放API接口為其他商業(yè)主體提供數(shù)字服務(wù)（很少有直接交易數(shù)據(jù)本體）從而獲得相應(yīng)的對(duì)價(jià)，已是成熟的數(shù)據(jù)交易商業(yè)實(shí)踐。若因?qū)Ψ皆诖诉^(guò)程擅自存儲(chǔ)所提供的數(shù)據(jù)，往往是通過(guò)司法獲得救濟(jì)。

在“不受損”的價(jià)值驅(qū)使下，追求的是數(shù)據(jù)安全，最好的方式就是保護(hù)起來(lái)，但易導(dǎo)致數(shù)據(jù)的流動(dòng)性降低，數(shù)據(jù)無(wú)法得到有效利用和價(jià)值釋放。在“能受益”的價(jià)值驅(qū)使下，追求的是數(shù)據(jù)對(duì)價(jià)，最好的方式就是交易，數(shù)據(jù)流動(dòng)性倒是得到極大改善，但易導(dǎo)致數(shù)據(jù)獲取成本極大增加。以數(shù)據(jù)為基礎(chǔ)的AI4S，需要質(zhì)高多樣的海量數(shù)據(jù)。若數(shù)據(jù)流動(dòng)性差，則從根本上難以獲得前述數(shù)據(jù)；若獲取成本高，則在經(jīng)費(fèi)有限情況下，難以獲得足夠的高質(zhì)量數(shù)據(jù)。與商業(yè)活動(dòng)（包括商業(yè)目的驅(qū)動(dòng)的科學(xué)研究）的成本可以轉(zhuǎn)嫁到消費(fèi)端不一樣，以公共利益為目標(biāo)的科學(xué)研究不宜也難以轉(zhuǎn)嫁數(shù)據(jù)成本。公益性質(zhì)的科學(xué)研究，其成果具有公共產(chǎn)品屬性，成果受益群體并非特定主體，而是廣大公眾，公眾在享受AI4S帶來(lái)的科技惠民成果時(shí)也沒(méi)有額外付出相應(yīng)對(duì)價(jià)?？傮w而言，AI4S的價(jià)值取向不宜是數(shù)據(jù)利己，中性的“不受損”和“能受益”指向的數(shù)據(jù)變現(xiàn)會(huì)最終催生“數(shù)據(jù)重商主義”，由此導(dǎo)致“數(shù)據(jù)壟斷”而限制科研主體獲得數(shù)據(jù)的機(jī)會(huì)，而且數(shù)據(jù)交易可能會(huì)導(dǎo)致數(shù)據(jù)碎片化而降低科學(xué)研究的效用和價(jià)值。

2.2" " 數(shù)據(jù)利他：公益與賦能之肯定

《歐洲數(shù)據(jù)戰(zhàn)略》（European Strategy for Data）提出了“數(shù)據(jù)利他”（Data Altruism），其大意是“在符合GDPR規(guī)定之下，若個(gè)人愿意，應(yīng)該讓‘個(gè)人允許將其產(chǎn)生的數(shù)據(jù)用于公共利益’變得更加容易（數(shù)據(jù)利他）”［16］。后來(lái)，歐洲《數(shù)據(jù)治理法》（Data Governance Act）第二條明確界定了數(shù)據(jù)利他的定義，是指在數(shù)據(jù)主體同意處理與其相關(guān)的個(gè)人數(shù)據(jù)基礎(chǔ)上自愿共享數(shù)據(jù)，或數(shù)據(jù)持有者允許使用其非個(gè)人數(shù)據(jù)而不尋求或接受超出與其為國(guó)家法律規(guī)定的普遍利益目的而提供其數(shù)據(jù)所產(chǎn)生成本的相關(guān)補(bǔ)償回報(bào)，適用情形包括醫(yī)療保健、應(yīng)對(duì)氣候變化、改善流動(dòng)性、促進(jìn)官方統(tǒng)計(jì)數(shù)據(jù)的開(kāi)發(fā)生產(chǎn)和傳播，以及改善公共服務(wù)供給、公共政策制定或符合公共利益的科學(xué)研究目的［17］。

理解數(shù)據(jù)利他的要點(diǎn)在于：其一，本質(zhì)目的是公共利益，意味著不得將數(shù)據(jù)用于公益目的之外的其他目的；其二，數(shù)據(jù)利他的數(shù)據(jù)類型包括個(gè)人數(shù)據(jù)和非個(gè)人數(shù)據(jù)，意味著所有的數(shù)據(jù)都可以納入到利他范疇；其三，數(shù)據(jù)利他的主體是數(shù)據(jù)主體和數(shù)據(jù)持有者，分別是個(gè)人數(shù)據(jù)和非個(gè)人數(shù)據(jù)的權(quán)利主體；其四，表現(xiàn)形式包括自愿共享個(gè)人數(shù)據(jù)和無(wú)償允許使用非個(gè)人數(shù)據(jù)，“無(wú)償”可以不要求對(duì)價(jià)，但也并不禁止對(duì)價(jià)，只不過(guò)將對(duì)價(jià)限制在不超過(guò)按照法律規(guī)定提供數(shù)據(jù)所產(chǎn)生的成本；其五，適用場(chǎng)景包括醫(yī)療保健、應(yīng)對(duì)氣候變化和促進(jìn)官方統(tǒng)計(jì)，以及改善流動(dòng)性、公共服務(wù)供給、公共政策制定、科學(xué)研究。

在“數(shù)據(jù)利他”還不是完整概念時(shí)，“利他主義”就已經(jīng)出現(xiàn)在生物數(shù)據(jù)庫(kù)的建設(shè)之中——“信任公眾提供他們的個(gè)人數(shù)據(jù)，信任收集數(shù)據(jù)者安全可靠地處理數(shù)據(jù)，以便在未來(lái)幾十年內(nèi)將其用于公共利益”［18］。數(shù)據(jù)利他應(yīng)該成為AI4S領(lǐng)域的基本價(jià)值觀念，從數(shù)據(jù)利他基本要義來(lái)看，AI4S與之是相符的。在利他價(jià)值的內(nèi)在驅(qū)動(dòng)下，激勵(lì)個(gè)人和企業(yè)有更強(qiáng)意愿為公共利益提供數(shù)據(jù)。如美國(guó)醫(yī)學(xué)研究所調(diào)研發(fā)現(xiàn)，美國(guó)94%有健康狀況的社交媒體成年用戶同意使用匿名共享的健康數(shù)據(jù)來(lái)幫助臨床醫(yī)生改善護(hù)理，這種將臨床數(shù)據(jù)視為共享資源的利他主義愿景是衛(wèi)生系統(tǒng)實(shí)現(xiàn)持續(xù)改進(jìn)的重要基石［19］。不僅如此，暢通人們利用APP等軟硬件設(shè)備共享其收集的道路數(shù)據(jù)、交通數(shù)據(jù)，可以為道路狀況和實(shí)況交通提供重要信息，有助于研究人員據(jù)此改善交通安全方案。

因此，在AI4S場(chǎng)景中，應(yīng)該有更多的數(shù)據(jù)被用于利他目的，在這種價(jià)值取向之下，有助于低成本地促進(jìn)足夠規(guī)模的數(shù)據(jù)池形成，實(shí)現(xiàn)科學(xué)研究的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析。數(shù)據(jù)利他能夠從整體上提升數(shù)據(jù)要素的使用效率，實(shí)現(xiàn)數(shù)據(jù)要素賦能科學(xué)研究的效應(yīng)最大化，而科學(xué)研究成果又能增進(jìn)社會(huì)總福祉。在利他共贏的數(shù)字生態(tài)中，個(gè)人、企業(yè)和政府等利益相關(guān)者都將共同受益。如復(fù)旦大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室設(shè)計(jì)的“眸思”多模態(tài)大模型用于輔助視障人士，視障人士只需用手機(jī)拍張照片，“眸思”就能準(zhǔn)確描述出周圍的環(huán)境。在該AI4S的生態(tài)價(jià)值鏈條中，視障人士獲得更為便捷的生存體驗(yàn)、企業(yè)開(kāi)發(fā)新商業(yè)產(chǎn)品成為可能，而政府的產(chǎn)學(xué)研效益大幅提升。

3" "面向AI4S數(shù)據(jù)要素供給的路徑選擇

“數(shù)據(jù)二十條”將數(shù)據(jù)劃分為公共數(shù)據(jù)、企業(yè)數(shù)據(jù)和個(gè)人數(shù)據(jù)三大類，但是AI4S所需數(shù)據(jù)類型不止于此。面向AI4S的數(shù)據(jù)要素，還涉及科學(xué)數(shù)據(jù)和作品數(shù)據(jù)等不同類型，在數(shù)據(jù)利他價(jià)值取向下，數(shù)據(jù)要素供給路徑可以是有條件無(wú)償、成本補(bǔ)償、自愿同意、互助共享或合理使用，以促進(jìn)數(shù)據(jù)利他（科學(xué)研究）的實(shí)現(xiàn)。若不在數(shù)據(jù)利他價(jià)值約束下，諸如企業(yè)數(shù)據(jù)、個(gè)人數(shù)據(jù)、作品數(shù)據(jù)等，可通過(guò)交易對(duì)外供給。

3.1" " 公共數(shù)據(jù)的供給路徑：有條件無(wú)償

作為中央政策的“數(shù)據(jù)二十條”所界定的公共數(shù)據(jù)是指“對(duì)各級(jí)黨政機(jī)關(guān)、企事業(yè)單位依法履職或提供公共服務(wù)過(guò)程中產(chǎn)生的公共數(shù)據(jù)”，有學(xué)者認(rèn)為“公共數(shù)據(jù)是指與社會(huì)民生相關(guān)的、從社會(huì)生活中搜集的以社會(huì)大眾為對(duì)象的數(shù)據(jù)”［20］。關(guān)于公共數(shù)據(jù)的理解，不同的定義側(cè)重點(diǎn)有所不同，但共性之處在于“公共屬性”。公共數(shù)據(jù)具有直接“取之于民”的公眾基因，因此“用之于民”的正當(dāng)性不言而喻。在大多數(shù)國(guó)家，數(shù)據(jù)開(kāi)放運(yùn)動(dòng)已經(jīng)取得了實(shí)質(zhì)性的成效，“開(kāi)放”已經(jīng)成為公共數(shù)據(jù)的“底色”。“數(shù)據(jù)二十條”將公共數(shù)據(jù)開(kāi)放分為三類，第一類就是“用于公共治理、公益事業(yè)的公共數(shù)據(jù)有條件無(wú)償使用”。

AI4S具有公共利益屬性，符合服務(wù)于“公益事業(yè)”范疇，應(yīng)當(dāng)“無(wú)償”使用，但應(yīng)符合相應(yīng)“條件”。對(duì)于面向市場(chǎng)主體和AI4S供給公共數(shù)據(jù)，“無(wú)償”是對(duì)等的。與“無(wú)條件開(kāi)放”不同，“有條件”是基于安全等考慮，而不是基于“對(duì)價(jià)”的考慮。不能因?yàn)锳I4S的公共利益屬性，就無(wú)條件開(kāi)放公共數(shù)據(jù)，而導(dǎo)致國(guó)家安全、社會(huì)穩(wěn)定等風(fēng)險(xiǎn)。尤其涉及秘密的公共數(shù)據(jù)，應(yīng)禁止原始公共數(shù)據(jù)直接進(jìn)入市場(chǎng)，若對(duì)科學(xué)研究又至關(guān)重要，此時(shí)“有條件”就顯得尤為必要，如科研機(jī)構(gòu)應(yīng)當(dāng)確保提供充分的數(shù)據(jù)安全保護(hù)，科研人員應(yīng)簽署保密協(xié)議。如此，保障公共數(shù)據(jù)在釋放公共利益價(jià)值時(shí)，以免將其他公共利益置于風(fēng)險(xiǎn)之中。

3.2" " 企業(yè)數(shù)據(jù)的供給路徑：成本補(bǔ)償

企業(yè)數(shù)據(jù)的內(nèi)涵尚未達(dá)成共識(shí)，大致可從三個(gè)維度理解。其一，與企業(yè)自身相關(guān)的數(shù)據(jù)，包括企業(yè)聯(lián)系方式、企業(yè)域名、企業(yè)商標(biāo)、企業(yè)研究成果、經(jīng)營(yíng)范圍、所在地址等；其二，企業(yè)合法持有的數(shù)據(jù)，包括得到明示授權(quán)或默示許可而合法收集的原始數(shù)據(jù)，及經(jīng)過(guò)其加工后的衍生數(shù)據(jù)；［21］其三，企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)中產(chǎn)生的數(shù)據(jù)，是指企業(yè)在研發(fā)、生產(chǎn)、銷售、提供服務(wù)等各類生產(chǎn)經(jīng)營(yíng)活動(dòng)過(guò)程中產(chǎn)生的數(shù)據(jù)［22］。第一個(gè)維度的企業(yè)數(shù)據(jù)主要是用于識(shí)別企業(yè)“身份”或經(jīng)營(yíng)信息，第二個(gè)維度和第三個(gè)維度的企業(yè)數(shù)據(jù)具有科研價(jià)值，可理解為“企業(yè)產(chǎn)生或合法持有的數(shù)據(jù)”。

無(wú)論是經(jīng)營(yíng)活動(dòng)中產(chǎn)生的數(shù)據(jù)，還是合法收集的原始數(shù)據(jù)或加工的衍生數(shù)據(jù)，尤其是形成高質(zhì)量、高價(jià)值的通用或?qū)Ｓ脭?shù)據(jù)集，企業(yè)在這個(gè)過(guò)程中要付出較大的成本。從企業(yè)的社會(huì)責(zé)任出發(fā)，不能按照商業(yè)邏輯對(duì)待AI4S所需的企業(yè)數(shù)據(jù)，但應(yīng)該允許企業(yè)獲得不高于數(shù)據(jù)成本的補(bǔ)償。同時(shí)，AI4S機(jī)構(gòu)及其人員不能將獲得的企業(yè)數(shù)據(jù)用于科學(xué)研究之外的其他目的，確保不影響企業(yè)能夠在持有或交易該數(shù)據(jù)之后仍保持市場(chǎng)優(yōu)勢(shì)地位，以免降低供給企業(yè)數(shù)據(jù)的積極性。畢竟，“在許多根本不存在巨型數(shù)據(jù)集的行業(yè)中，重點(diǎn)必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)”［23］，而這些優(yōu)質(zhì)數(shù)據(jù)離不開(kāi)企業(yè)數(shù)據(jù)的供給。

3.3" " 個(gè)人數(shù)據(jù)的供給路徑：自愿同意

當(dāng)前社會(huì)生產(chǎn)生活和商業(yè)邏輯中，個(gè)人數(shù)據(jù)蘊(yùn)含的價(jià)值無(wú)疑最大，成為眾多主體謀取的對(duì)象，也是公共數(shù)據(jù)、企業(yè)數(shù)據(jù)等諸多類型數(shù)據(jù)的底層來(lái)源之一，如個(gè)人健康數(shù)據(jù)和醫(yī)療數(shù)據(jù)是公共衛(wèi)生數(shù)據(jù)的基礎(chǔ)組成?；趥€(gè)人數(shù)據(jù)匿名化、假名化或去標(biāo)識(shí)化等形成的非個(gè)人數(shù)據(jù)，前提是獲得個(gè)人同意，否則就缺乏正當(dāng)性基礎(chǔ)。個(gè)人數(shù)據(jù)處理由個(gè)人自決，其正當(dāng)性基礎(chǔ)源于個(gè)人數(shù)據(jù)天然荷載人格要素，而不是個(gè)人數(shù)據(jù)的產(chǎn)生需要成本。因?yàn)閿?shù)據(jù)具有產(chǎn)生即時(shí)性，即用戶在網(wǎng)絡(luò)空間瀏覽、支付等行為會(huì)附隨產(chǎn)生數(shù)據(jù)，過(guò)程是客觀、被動(dòng)且不以人的主觀意志為轉(zhuǎn)移，產(chǎn)生個(gè)人數(shù)據(jù)不需要額外成本，而個(gè)人數(shù)據(jù)收集和存儲(chǔ)的成本由事實(shí)上的控制者——企業(yè)擔(dān)負(fù)。

科學(xué)研究活動(dòng)中，個(gè)人數(shù)據(jù)因其主體的特殊性，成為醫(yī)藥、生物等科學(xué)研究不可或缺的數(shù)據(jù)供給來(lái)源之一。國(guó)內(nèi)立法共識(shí)是，“同意”是其他主體處理（包括采集、存儲(chǔ)、加工、分析等）個(gè)人數(shù)據(jù)的正當(dāng)性基礎(chǔ)。因此，面向AI4S供給個(gè)人數(shù)據(jù)時(shí)，同樣要以個(gè)人自愿同意為前提。在數(shù)據(jù)利他價(jià)值驅(qū)動(dòng)下，“同意”科學(xué)研究主體處理個(gè)人數(shù)據(jù)應(yīng)該是“無(wú)償”的。當(dāng)個(gè)人數(shù)據(jù)被吸收在企業(yè)數(shù)據(jù)、公共數(shù)據(jù)之中，分別遵循有條件無(wú)償和成本補(bǔ)償供給路徑。

3.4" " 科學(xué)數(shù)據(jù)的供給路徑：互助共享

科學(xué)數(shù)據(jù)的認(rèn)知基本上達(dá)成共識(shí)，一般是指在科學(xué)領(lǐng)域通過(guò)基礎(chǔ)研究、應(yīng)用研究、試驗(yàn)開(kāi)發(fā)等產(chǎn)生的數(shù)據(jù)，以及通過(guò)觀測(cè)監(jiān)測(cè)、考察調(diào)查、檢驗(yàn)檢測(cè)等方式取得并用于科學(xué)研究活動(dòng)的原始數(shù)據(jù)及其衍生數(shù)據(jù)。現(xiàn)下，科學(xué)研究已不再只是學(xué)界專有活動(dòng)，其也經(jīng)常和商業(yè)交織在一起，受到商業(yè)資金資助的科研活動(dòng)也不在少數(shù)。商業(yè)資金資助形成的科學(xué)數(shù)據(jù)應(yīng)該歸入到企業(yè)數(shù)據(jù)，在此僅討論由政府預(yù)算資金支持形成的科學(xué)數(shù)據(jù)。在科學(xué)數(shù)據(jù)領(lǐng)域，F(xiàn)AIR原則旨在促進(jìn)科學(xué)數(shù)據(jù)的規(guī)范組織和共享重用［24］，共享模式是科學(xué)數(shù)據(jù)共享活動(dòng)中逐步形成并適應(yīng)當(dāng)前共享工作需要的普遍范式［25］。

科學(xué)數(shù)據(jù)的形成離不開(kāi)政府預(yù)算資金的支持，而政府預(yù)算資金來(lái)源于“取之于民”的相關(guān)稅費(fèi)，因此科學(xué)數(shù)據(jù)共享具有正當(dāng)性基礎(chǔ)。AI4S所需大規(guī)模數(shù)據(jù)可能要成百上千科研團(tuán)隊(duì)匯集數(shù)據(jù)，從科學(xué)研究共同體而言，科學(xué)數(shù)據(jù)共享的本質(zhì)是互助。盡管我國(guó)《科學(xué)數(shù)據(jù)管理?xiàng)l例》支持科研人員整理發(fā)表產(chǎn)權(quán)清晰、準(zhǔn)確完整、共享價(jià)值高的科學(xué)數(shù)據(jù)，但在面向AI4S時(shí)應(yīng)該主動(dòng)放棄產(chǎn)權(quán)交易的“對(duì)價(jià)”，采取共享方式實(shí)現(xiàn)互助。畢竟相比于數(shù)據(jù)開(kāi)放，科學(xué)數(shù)據(jù)共享并不是面向社會(huì)公眾，而是在特定的群體之內(nèi)。

3.5" " 作品數(shù)據(jù)的供給路徑：合理使用

盡管作品是知識(shí)產(chǎn)權(quán)的重要客體之一，但知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)和作品數(shù)據(jù)不是一回事?！吨R(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)利用指引》所列明的知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)主要是國(guó)家知識(shí)產(chǎn)權(quán)局公開(kāi)公布的專利數(shù)據(jù)、商標(biāo)數(shù)據(jù)、地理標(biāo)志數(shù)據(jù)和集成電路布圖設(shè)計(jì)數(shù)據(jù)［26］，不包括作品數(shù)據(jù)。知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)不涉及在先權(quán)利，屬于財(cái)政支出事務(wù)所形成的基礎(chǔ)數(shù)據(jù)，可列入公共數(shù)據(jù)范疇。因作品超出版權(quán)保護(hù)期就進(jìn)入共有領(lǐng)域，故作品數(shù)據(jù)僅指處于版權(quán)保護(hù)期內(nèi)的數(shù)字化作品和作品數(shù)字化所形成的數(shù)據(jù)。作品數(shù)據(jù)本質(zhì)上仍荷載版權(quán)法益，因此即便是數(shù)據(jù)形態(tài)，仍受到版權(quán)法約束。

不能為保護(hù)版權(quán)人利益，而給科學(xué)研究戴上“鐐銬”，版權(quán)法為“科學(xué)研究”之目的供“科研人員使用”設(shè)置了合理使用制度。AI4S中AI的訓(xùn)練和使用分別符合“科學(xué)研究”之目的、“科研人員使用”之方式。因此，面向AI4S選擇合理使用路徑來(lái)供給作品數(shù)據(jù)可行。在“人文社會(huì)科學(xué)中的基礎(chǔ)研究因尚未積累AI4S可依托的大數(shù)據(jù)而導(dǎo)致目前AI4S涉及不多”［3］的當(dāng)下，選擇合理使用路徑有助于推進(jìn)人文社會(huì)科學(xué)基礎(chǔ)數(shù)據(jù)設(shè)施建設(shè)。合理使用不需要權(quán)利人同意，也不要支付報(bào)酬，能夠提升效率和降低成本。

4" "面向AI4S數(shù)據(jù)要素供給的風(fēng)險(xiǎn)控制

4.1" " 版權(quán)侵害風(fēng)險(xiǎn)及其控制

AI4S所需高質(zhì)量數(shù)據(jù)的重要來(lái)源之一是具有獨(dú)創(chuàng)性且凝結(jié)人類智力成果的作品數(shù)據(jù)，其對(duì)于人文社會(huì)科學(xué)領(lǐng)域的AI4S尤為重要。合理使用路徑能解決科學(xué)研究主體為作品數(shù)據(jù)向版權(quán)人征求同意和支付報(bào)酬的成本問(wèn)題，但是仍然存在版權(quán)侵害風(fēng)險(xiǎn)。契合AI4S使用作品數(shù)據(jù)的合理使用規(guī)則是“為了科學(xué)研究翻譯或者少量復(fù)制已經(jīng)發(fā)表的作品，供教學(xué)或者科研人員使用，但不得出版發(fā)行”，實(shí)質(zhì)上是以輸入端“少量復(fù)制”來(lái)限制作品表達(dá)性使用，同時(shí)以輸出端“不得出版發(fā)行”來(lái)約束結(jié)果相似。故，應(yīng)從此處切入進(jìn)行風(fēng)險(xiǎn)控制。

合理使用應(yīng)用到AI4S數(shù)據(jù)要素供給的輸入端時(shí)，與創(chuàng)作者主觀能動(dòng)地進(jìn)行表達(dá)性使用不同，AI大模型“復(fù)制”作品數(shù)據(jù)并進(jìn)行機(jī)器學(xué)習(xí)等行為似乎屬于數(shù)據(jù)客觀輸入的非表達(dá)性使用。若能將“復(fù)制”理解為非表達(dá)性使用，就不存在侵害版權(quán)風(fēng)險(xiǎn)，自然就不需要啟動(dòng)“合理使用”規(guī)則。實(shí)則不然，這種理解尚未法定，應(yīng)立足法律規(guī)定的合理使用情形來(lái)控制版權(quán)侵害風(fēng)險(xiǎn)。其一，“少量”應(yīng)做相對(duì)理解。如何認(rèn)定合理使用規(guī)則中“少量復(fù)制”的“少量”，決定了行為是否侵犯版權(quán)。AI4S大模型訓(xùn)練所需的數(shù)據(jù)是“海量的”，若按照傳統(tǒng)使用作品場(chǎng)景理解為“絕對(duì)少量”，AI4S大模型使用作品數(shù)據(jù)難以規(guī)避版權(quán)侵害風(fēng)險(xiǎn)。應(yīng)確立“相對(duì)少量”標(biāo)準(zhǔn)，依據(jù)AI4S大模型訓(xùn)練所用的作品數(shù)據(jù)在整個(gè)訓(xùn)練數(shù)據(jù)集中的比例進(jìn)行判斷，如此確保AI4S大模型能在訓(xùn)練階段避免版權(quán)風(fēng)險(xiǎn)。其二，基于作品數(shù)據(jù)訓(xùn)練所形成的“那部分”——作為AI4S大模型的內(nèi)部構(gòu)成，而不是輸出端的“產(chǎn)物”——并不觸發(fā)“不得出版發(fā)行”，不能據(jù)此限制訓(xùn)練出來(lái)的AI4S大模型本身對(duì)外發(fā)布和使用。

4.2" " 隱私公開(kāi)風(fēng)險(xiǎn)及其控制

一般而言，因數(shù)據(jù)要素供給涉及的人格法益侵害主要體現(xiàn)在個(gè)人信息和隱私，但在AI4S場(chǎng)景中不存在個(gè)人信息侵害風(fēng)險(xiǎn)，而是存在隱私公開(kāi)風(fēng)險(xiǎn)。在數(shù)字場(chǎng)域中，個(gè)人數(shù)據(jù)荷載個(gè)人信息和隱私時(shí)，其個(gè)人信息法益通過(guò)“自愿同意”路徑對(duì)外供給，但是并不意味著放棄隱私。隱私公開(kāi)風(fēng)險(xiǎn)自大數(shù)據(jù)時(shí)代以來(lái)就飽受爭(zhēng)議，在大模型時(shí)代又被進(jìn)一步放大，“在醫(yī)學(xué)領(lǐng)域，數(shù)據(jù)的敏感性和隱私問(wèn)題尤為重要”［2］。面向AI4S的數(shù)據(jù)要素供給潛在的隱私公開(kāi)風(fēng)險(xiǎn)，主要體現(xiàn)在“直接公開(kāi)”和“關(guān)聯(lián)公開(kāi)”。一方面，在大規(guī)模使用個(gè)人數(shù)據(jù)進(jìn)行AI訓(xùn)練時(shí)，未對(duì)個(gè)人數(shù)據(jù)脫敏，或者對(duì)個(gè)人數(shù)據(jù)清洗出現(xiàn)紕漏、瑕疵等而致使隱名化和匿名化不徹底，進(jìn)而在輸出結(jié)果中出現(xiàn)個(gè)人隱私或者其碎片化殘留；另一方面，完成了隱名化和匿名化的個(gè)人數(shù)據(jù)，仍面臨來(lái)自外部數(shù)據(jù)關(guān)聯(lián)重建而導(dǎo)致隱私公開(kāi)的風(fēng)險(xiǎn)。

控制AI4S的隱私公開(kāi)風(fēng)險(xiǎn)，除了規(guī)則層面應(yīng)根據(jù)數(shù)據(jù)的類型、數(shù)量和所涉隱私關(guān)聯(lián)度和重要性設(shè)置隱私保護(hù)的等級(jí)要求以外，更重要的是運(yùn)用差分隱私機(jī)制控制個(gè)人數(shù)據(jù)利用中的隱私泄露風(fēng)險(xiǎn)。通過(guò)添加和調(diào)整擬用數(shù)據(jù)中的噪聲量——根據(jù)個(gè)人數(shù)據(jù)敏感程度添加和調(diào)整不同量的噪聲數(shù)據(jù)——進(jìn)而在保護(hù)數(shù)據(jù)荷載的隱私的同時(shí)，保持?jǐn)?shù)據(jù)的可用性。如此一來(lái)，既不影響模型訓(xùn)練結(jié)果，又能防控隱私公開(kāi)風(fēng)險(xiǎn)。但需注意干擾噪聲的頻率和尺度，實(shí)現(xiàn)隱私保護(hù)和科學(xué)研究之間的平衡。

4.3" " 數(shù)據(jù)泄露風(fēng)險(xiǎn)及其控制

當(dāng)大規(guī)模數(shù)據(jù)匯聚時(shí)，數(shù)據(jù)泄露（Data Breaches）是不可回避的風(fēng)險(xiǎn)。作為AI4S構(gòu)成要素的數(shù)據(jù)往往是大體量、多類型的，同樣面臨著泄露的風(fēng)險(xiǎn)。數(shù)據(jù)泄露風(fēng)險(xiǎn)不僅是因數(shù)據(jù)匯交、處理和存儲(chǔ)等環(huán)節(jié)操作不當(dāng)或疏忽大意而引發(fā)，也可能是源自于惡意泄露或安全漏洞，還可能因外界攻擊而導(dǎo)致。與前述情景的數(shù)據(jù)泄露（Data Breaches）不一樣，機(jī)器學(xué)習(xí)本身所帶來(lái)的數(shù)據(jù)泄露（Data Leakage）是指當(dāng)訓(xùn)練數(shù)據(jù)處理和驗(yàn)證數(shù)據(jù)不合理時(shí)，會(huì)導(dǎo)致模型用于實(shí)際輔助決策時(shí)非常不準(zhǔn)確。在中文語(yǔ)境下，區(qū)分Data Breaches和Data Leakage，可分別稱之為DB型數(shù)據(jù)泄露和DL型數(shù)據(jù)泄露，各自帶給AI4S的風(fēng)險(xiǎn)點(diǎn)不同，前者帶來(lái)的風(fēng)險(xiǎn)點(diǎn)在于因數(shù)據(jù)本身泄露導(dǎo)致其荷載的個(gè)人信息、隱私、秘密、價(jià)值等外溢，而后者帶來(lái)的風(fēng)險(xiǎn)點(diǎn)在于因數(shù)據(jù)紕漏而導(dǎo)致預(yù)測(cè)結(jié)果的因果關(guān)系顛倒，因而各自的風(fēng)險(xiǎn)控制也不一樣。

從事故致因理論的不同學(xué)說(shuō)中歸納出的人的因素、物的因素、環(huán)境的因素的一般性原理來(lái)看［27］，DB型數(shù)據(jù)泄露風(fēng)險(xiǎn)控制主要從人的致因和環(huán)境致因切入，而DL型數(shù)據(jù)泄露風(fēng)險(xiǎn)控制則重點(diǎn)從人的致因展開(kāi)，二者之所以沒(méi)有從物的致因入手，是因?yàn)槲锏闹乱蝻L(fēng)險(xiǎn)在于數(shù)據(jù)丟失。對(duì)于DB型數(shù)據(jù)泄露風(fēng)險(xiǎn)，一方面加強(qiáng)或規(guī)范科研人員及其相關(guān)人員的安全意識(shí)、操作規(guī)程、管理行為，另一方面補(bǔ)強(qiáng)涉及數(shù)據(jù)的技術(shù)漏洞、軟件安全能力，并建立數(shù)據(jù)可信共享流通體系；對(duì)于DL型數(shù)據(jù)泄露風(fēng)險(xiǎn)，要嚴(yán)格拆分和使用訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集且不能夠交叉使用，還要注意確保遷移學(xué)習(xí)時(shí)的源域（訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集）和目標(biāo)域（測(cè)試數(shù)據(jù)集）不重合。

4.4" " 價(jià)值不齊風(fēng)險(xiǎn)及其控制

人工智能與自然人的價(jià)值對(duì)齊有價(jià)值觀的認(rèn)同、目標(biāo)的一致、倫理與法律的規(guī)范三方面的核心要求［28］，這也是風(fēng)險(xiǎn)表現(xiàn)之處，即偏離人類價(jià)值觀風(fēng)險(xiǎn)、欺騙人類風(fēng)險(xiǎn)和違反法律和倫理風(fēng)險(xiǎn)。大模型價(jià)值對(duì)齊風(fēng)險(xiǎn)的成因來(lái)源于數(shù)據(jù)源、模型訓(xùn)練過(guò)程、推理等因素，其中數(shù)據(jù)源又包含數(shù)據(jù)缺陷和數(shù)據(jù)捕獲知識(shí)利用率低兩方面原因［29］。價(jià)值對(duì)齊是AI領(lǐng)域的一般性問(wèn)題，同樣也存在AI4S領(lǐng)域之中，就AI4S的數(shù)據(jù)要素供給端而言，風(fēng)險(xiǎn)來(lái)源在于數(shù)據(jù)源。數(shù)據(jù)缺陷細(xì)分為錯(cuò)誤虛假數(shù)據(jù)和偏見(jiàn)性數(shù)據(jù)，數(shù)據(jù)捕獲知識(shí)利用率低指向注意力機(jī)制不足的長(zhǎng)尾分布等數(shù)據(jù)從事實(shí)到知識(shí)層面的吸收和轉(zhuǎn)化問(wèn)題。

在AI4S的數(shù)據(jù)供給場(chǎng)景中，數(shù)據(jù)缺陷可以通過(guò)規(guī)范數(shù)據(jù)輸入、共享機(jī)制來(lái)避免科研人員因?yàn)榭陀^失誤和主觀故意將事實(shí)錯(cuò)誤數(shù)據(jù)、過(guò)時(shí)數(shù)據(jù)、虛假數(shù)據(jù)等等導(dǎo)入模型訓(xùn)練過(guò)程中，造成大模型出現(xiàn)事實(shí)性幻覺(jué)。同時(shí)，也注意篩選和剔除數(shù)據(jù)集中諸如重復(fù)性偏見(jiàn)和社會(huì)性偏見(jiàn)的數(shù)據(jù)，因?yàn)椤癆I模型由現(xiàn)有數(shù)據(jù)集訓(xùn)練而來(lái)，而這些數(shù)據(jù)集可能包含偏見(jiàn)，因此在科研中使用AI可能會(huì)無(wú)意間延續(xù)系統(tǒng)性問(wèn)題”［4］。解決數(shù)據(jù)捕獲知識(shí)利用低問(wèn)題，需要從監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)入手。一是通過(guò)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)有監(jiān)督的微調(diào)，即將含有特定價(jià)值的數(shù)據(jù)包輸入模型，自行進(jìn)行標(biāo)注，通過(guò)這些格式化的指令數(shù)據(jù)，以監(jiān)督學(xué)習(xí)的方式對(duì)模型進(jìn)行微調(diào)［30］；二是利用專家反饋的強(qiáng)化學(xué)習(xí)，標(biāo)注和訓(xùn)練小而精的獎(jiǎng)勵(lì)模型，通過(guò)獎(jiǎng)勵(lì)模型來(lái)糾正大模型出現(xiàn)的數(shù)據(jù)注意力機(jī)制不足等問(wèn)題。

除此之外，還要建立AI通用價(jià)值共識(shí)和遵從現(xiàn)有法律和倫理。盡管不同地域、民族、宗教、文化、性別、群體等價(jià)值本身就難以達(dá)成共識(shí)，但應(yīng)該嘗試從更高抽象層面確立一個(gè)或多個(gè)人類價(jià)值共識(shí)，如將“科技向善”作為科技領(lǐng)域最小共識(shí)，要求所有科學(xué)研究的出發(fā)點(diǎn)和旨?xì)w處均在于“向善”。法律和倫理本身受到價(jià)值的影響，而法律的普適性僅及于一國(guó)法域之內(nèi)，倫理可以超越國(guó)界，但適用范圍終歸有限。因此，對(duì)于控制AI4S面臨的法律和倫理風(fēng)險(xiǎn)，最低要求是遵從所在國(guó)與科學(xué)研究相關(guān)的法律和倫理。

5" "結(jié)語(yǔ)

黨的二十大報(bào)告強(qiáng)調(diào)要加強(qiáng)基礎(chǔ)研究、突出原創(chuàng)，AI4S屬于原創(chuàng)性、基礎(chǔ)性研究?？萍际巧a(chǎn)力，放眼AI4S，全是新質(zhì)生產(chǎn)力！AI4S概念已經(jīng)被提煉出來(lái)并應(yīng)用于實(shí)踐，學(xué)界應(yīng)該加強(qiáng)AI4S的關(guān)注和研究，加速將AI4S的新質(zhì)生產(chǎn)力從代碼之中釋放出來(lái)。知識(shí)獲取能力提升是AI飛速突破的本質(zhì)所在，數(shù)據(jù)資源是人工智能獲取知識(shí)的源泉［3］。數(shù)據(jù)要素對(duì)于AI4S至關(guān)重要，看似“用之不竭”的數(shù)據(jù)本體，在“百模大戰(zhàn)”時(shí)代仍面臨供不應(yīng)求的困境。與AI4S既有研究成果主要側(cè)重于技術(shù)路線不同，本文選擇從數(shù)據(jù)路線展開(kāi)AI4S研究?？赡艿膭?chuàng)新在于：在系統(tǒng)梳理AI4S發(fā)展過(guò)程的基礎(chǔ)上，厘清AI4S與數(shù)據(jù)要素的關(guān)系，從整體上聚焦面向AI4S數(shù)據(jù)要素供給的價(jià)值取向、路徑選擇和風(fēng)險(xiǎn)控制。不足之處在于未從不同科學(xué)領(lǐng)域或者集中在科學(xué)數(shù)據(jù)等某一具體類型數(shù)據(jù)之上進(jìn)行垂直研究，這是后續(xù)研究亟待補(bǔ)強(qiáng)之處。

參考文獻(xiàn)：

［1］" 王飛躍，繆青海.人工智能驅(qū)動(dòng)的科學(xué)研究新范式：從AI4S到智能科學(xué)［J］.中國(guó)科學(xué)院院刊，2023，38（4）：536-540.

［2］" 孫坦，張智雄，周力虹，等.人工智能驅(qū)動(dòng)的第五科研范式（AI4S）變革與觀察［J］.農(nóng)業(yè)圖書(shū)情報(bào)學(xué)報(bào)，2023，35（10）：4-32.

［3］" 周江林.AI4S對(duì)我國(guó)高?；A(chǔ)研究的影響機(jī)理及實(shí)踐邊界［J］.教育發(fā)展研究，2023，43（21）：31-38.

［4］" 北京科學(xué)智能研究院，深勢(shì)科技，絡(luò)繹科學(xué).科學(xué)智能（AI4S）全球發(fā)展觀察與展望2023版［R/OL］.［2024-05-11］.http：//www.news.cn/tech/download/2023AI4SBG.pdf.

［5］" 中華人民共和國(guó)中央人民政府.科技部啟動(dòng)“人工智能驅(qū)動(dòng)的科學(xué)研究”專項(xiàng)部署工作［EB/OL］.［2024-06-06］.https：//www.gov.cn/xinwen/2023-03/27/content_5748495.htm.

［6］" 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心.人工智能撬動(dòng)科研范式變革！專家解讀AI for Science專項(xiàng)部署工作［EB/OL］.［2024-05-14］.https：//www.las.ac.cn/front/product/detail？id=2468fb059dc93fdc9450dccf18ea1cbb.

［7］" 新華網(wǎng).2023版《科學(xué)智能（AI4S）全球發(fā)展觀察與展望》發(fā)布［EB/OL］.［2024-05-14］.http：//www.xinhuanet.com/tech/20230810/6dba3688158b44e49a69934ad4c51518/c.html.

［8］" Smith V S.Data publication：towards a database of everything［J］.BMC Research Notes，2009，2（1）：113.

［9］" 楊雅清，張文帝.科技企業(yè)新動(dòng)向：科學(xué)智能的潛力與機(jī)會(huì)［J］.中國(guó)電信業(yè)，2023（8）：41-43.

［10］" 劉濤，趙瞳，譚光明，等.HPC+AI驅(qū)動(dòng)的第一性原理科學(xué)智能計(jì)算平臺(tái)［J］.數(shù)據(jù)與計(jì)算發(fā)展前沿，2023，5（3）：13-28.

［11］" 王飛躍，王雨桐.數(shù)字科學(xué)家與平行科學(xué)：AI4S和S4AI的本源與目標(biāo)［J］.中國(guó)科學(xué)院院刊，2024，39（1）：27-33.

［12］" 李國(guó)杰.智能化科研（AI4R）：第五科研范式［J］.中國(guó)科學(xué)院院刊，2024，39（1）：1-9.

［13］" 徐東波.人工智能驅(qū)動(dòng)科學(xué)研究的邏輯、風(fēng)險(xiǎn)及其治理［J］.中國(guó)科技論壇，2024（5）：120-129.

［14］" 北京大學(xué)定量生物學(xué)中心.2022科學(xué)智能峰會(huì)回顧｜湯超院士：關(guān)于AI for Science的幾層意思［EB/OL］.［2024-05-14］.https：//cqb.pku.edu.cn/info/1065/1851.htm.

［15］" Neil M.Richards，Jonathan H.King.Three Paradoxes of Big Data［J］.Stanford Law Review Online，2013，66（44）：41-46.

［16］" EU MONITOR.Annexes to COM（2020）66 - European strategy for data［EB/OL］.［2024-06-06］.https：//www.eumonitor.eu/9353000/1/j4nvirkkkr58fyw_j9vvik7m1c3gyxp/vl6bhq5mueyy.

［17］" EUR-LEX.Regulation（EU）2022/868 of the European Parliament and of the Council of 30 May 2022 on European data governance and amending Regulation （EU） 2018/1724 （Data Governance Act）（Text with EEA relevance）［A/OL］.［2024-06-06］.http：//data.europa.eu/eli/reg/2022/868/oj/eng.

［18］" Thornton H.The UK Biobank project：Trust and altruism are alive and well：A model for achieving public support for research using personal data［J］.International Journal of Surgery，2009，7（6）：501-502.

［19］" Halvorson G，Novelli B，Permanente K.Data altruism：Honoring patients’expectations for continuous learning［J］.Commentary，Institute of Medicine，Washington，DC，2014.

［20］" 儲(chǔ)節(jié)旺，楊雪.公共數(shù)據(jù)開(kāi)放的政府主體責(zé)任研究［J］.現(xiàn)代情報(bào)，2019，39（10）：127-135.

［21］" 劉星，姜南，歐忠輝，等.數(shù)字經(jīng)濟(jì)時(shí)代企業(yè)數(shù)據(jù)權(quán)益保護(hù)研究［J］.情報(bào)雜志，2021，40（10）：91-98，107.

［22］" 傅靖.關(guān)于數(shù)據(jù)的可稅性研究［J］.稅務(wù)研究，2020（8）：54-61.

［23］" ELIZA STRICKLAND.Andrew Ng：Unbiggen AI［EB/OL］.［2024-05-21］.https：//spectrum.ieee.org/andrew-ng-data-centric-ai.

［24］" 李楠楠，劉筱敏.我國(guó)國(guó)家科學(xué)數(shù)據(jù)中心FAIR原則的實(shí)踐現(xiàn)狀調(diào)查與分析［J］.圖書(shū)與情報(bào)，2023（2）：137-144.

［25］" 張麗麗.科學(xué)數(shù)據(jù)共享治理：模式選擇與情景分析［J］.中國(guó)圖書(shū)館學(xué)報(bào)，2017，43（2）：54-65.

［26］" 國(guó)家知識(shí)產(chǎn)權(quán)局.國(guó)家知識(shí)產(chǎn)權(quán)局辦公室關(guān)于印發(fā)《知識(shí)產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)利用指引》的通知［EB/OL］.［2024-05-27］.https：//www.cnipa.gov.cn/art/2021/1/6/art_75_156042.html.

［27］" 文禹衡，戴文怡.云環(huán)境中學(xué)術(shù)數(shù)據(jù)安全事件的風(fēng)險(xiǎn)致因及其檢視——以事故致因理論為視角［J］.信息資源管理學(xué)報(bào)，2021，11（3）：50-58.

［28］" 席丹.尋求價(jià)值對(duì)齊之路：人工智能面臨的課題與挑戰(zhàn)［J］.傳媒，2024（11）：41-43.

［29］" Huang L，Yu W，Ma W，et al.A survey on hallucination in large language models：Principles，taxonomy，challenges，and open questions［J］.arxiv preprint arxiv：2311.05232，2023.

［30］" 喻國(guó)明，金麗萍，卞中明.小有小的用處：大模型傳播生態(tài)下的小模型——概念定義、技術(shù)構(gòu)造與價(jià)值角色［J］.新聞?dòng)浾撸?024（1）：3-17，58.

作者簡(jiǎn)介：鄭令晗（1991-），女，湘潭大學(xué)信用風(fēng)險(xiǎn)管理學(xué)院講師，湖南省數(shù)據(jù)治理與智慧司法研究中心研究員，研究方向：數(shù)據(jù)治理；李晨珂（1999-），女，四川大學(xué)法學(xué)院碩士研究生，研究方向：數(shù)字法治。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向AI4S的數(shù)據(jù)要素供給：價(jià)值取向、路徑選擇與風(fēng)險(xiǎn)控制

面向AI4S的數(shù)據(jù)要素供給：價(jià)值取向、路徑選擇與風(fēng)險(xiǎn)控制