姜元春 王繼成 賀菲菲 陳航 劉業(yè)政
摘 要:科技大數(shù)據(jù)在科技創(chuàng)新、社會經濟運行和國家安全等活動中發(fā)揮著重要的作用,其價值評估問題是目前學術界和工業(yè)界關注的難題?;趦r值鏈理論和品牌價值理論,本文構建了科技大數(shù)據(jù)的全過程價值鏈模型,提出了科技大數(shù)據(jù)的核心價值鏈;基于科技大數(shù)據(jù)核心價值鏈,構建了科技大數(shù)據(jù)價值評估指標體系,并針對其中難以量化的關鍵指標,提出了基于社交網(wǎng)絡分析和動態(tài)主題模型的指標測度方法,同時以科技論文數(shù)據(jù)為例驗證了所提測度方法的有效性。本文研究為科技大數(shù)據(jù)價值評估難題提供了新的研究視角、理論框架和模型方法。
關鍵詞:科技大數(shù)據(jù);價值評估;價值鏈模型;機器學習方法
中圖分類號:F045.3文獻標識碼:A文章編號:2097-0145(2022)03-0031-08doi:10.11847/fj.41.3.31
Multi-dimensional Value Chain Model and Value Evaluation Method for Scientific Big Data
JIANG Yuan-chun1,2, WANG Ji-cheng1,2, HE Fei-fei1,2, CHEN Hang1,2, LIU Ye-zheng1,2
(1.School of Management, Hefei University of Technology, Hefei 230009, China; 2.Key Lab of Process Optimization and Intelligent Decision-making, Ministry of Education, Hefei 230009, China)
Abstract:Scientific big data plays an important role in scientific and technological innovation, socio-economic operation and national security. Its value evaluation is a difficult problem concerned by academy and industry. Based on the value chain theory and brand value theory, this paper constructs a whole-process value chain model of scientific big data, and designs a core value chain model of scientific big data. Based on the core value chain model, we design a criteria system to evaluate the value of scientific big data. For the criteria which are difficult to measure, the evaluation methods based on social network analysis model and dynamic topic model are constructed, and the effectiveness of the proposed methods is verified with the data of academic papers. This research provides a new research perspective, theoretical framework and theoretic models for the problem of value evaluation for scientific big data.
Key words:scientific big data; value evaluation; value chain model; machine learning model
1 引言
科技大數(shù)據(jù)是一類能夠反映人類科技活動狀態(tài)和過程的信息資源,可以支持人類洞察新思想、發(fā)現(xiàn)新規(guī)律、發(fā)明新技術、開發(fā)新產品。2020年3月,國務院《關于構建更加完善的要素市場化配置的體制機制的意見》正式發(fā)布。該意見將數(shù)據(jù)與土地、勞動力、資本、技術作為并列的一個重要要素,指出要提升社會數(shù)據(jù)資源的價值,加強數(shù)據(jù)資源整合和安全保護,并強調引導培育大數(shù)據(jù)交易市場。由于數(shù)據(jù)價值是數(shù)據(jù)交易流通的基礎,因此,數(shù)據(jù)價值評估成為數(shù)據(jù)要素市場化配置的重要環(huán)節(jié)?!翱萍即髷?shù)據(jù)”作為“大數(shù)據(jù)”集合中的高價值密度組分,其價值正逐步得到重視。與其他類型的大數(shù)據(jù)類似,科技大數(shù)據(jù)的價值評估問題是目前學術界和工業(yè)界關注的難題。
圍繞科技大數(shù)據(jù)價值評估問題,現(xiàn)有研究從不同維度和視角進行了探討[1~3],為科技大數(shù)據(jù)的價值發(fā)現(xiàn)奠定了有效的理論基礎??萍即髷?shù)據(jù)的產生、分析、傳播和應用是一個全生命周期的系統(tǒng)過程,其價值在生命周期的不同階段得到創(chuàng)造、整合、傳遞和實現(xiàn)。現(xiàn)有關于科技大數(shù)據(jù)價值的研究通常面向科技大數(shù)據(jù)全生命周期中的單一主體或聚焦于全生命周期的特定階段,科技大數(shù)據(jù)價值評估的系統(tǒng)框架尚未建立。在科技大數(shù)據(jù)價值評估框架的基礎上,如何對科技大數(shù)據(jù)的多元價值進行評估仍是目前理論研究的難點問題,相關方法需要持續(xù)探索。
針對上述問題,本文首先對科技大數(shù)據(jù)的價值及其特征進行系統(tǒng)分析,在此基礎上,基于波特戰(zhàn)略理論和品牌價值理論,構建了科技大數(shù)據(jù)的全過程價值鏈模型,提出了科技大數(shù)據(jù)的核心價值鏈;基于科技大數(shù)據(jù)核心價值鏈,構建了科技大數(shù)據(jù)價值評估指標體系,并針對其中難以量化的關鍵指標,提出了基于社交網(wǎng)絡分析和動態(tài)主題模型的指標測度方法。本文研究對構建科技大數(shù)據(jù)價值評估的系統(tǒng)性框架具有理論和實踐意義。
2 科技大數(shù)據(jù)的價值及特征
2.1 科技大數(shù)據(jù)的多元價值
圍繞科技大數(shù)據(jù)的價值及其評估問題,研究者近年來從不同維度和視角進行了探討。李陽等[1]研究認為科技大數(shù)據(jù)不僅是科學研究的結果,且日益成為科學研究的重要基礎,是支持科研活動與科技創(chuàng)新的關鍵。王晶金等[2]研究指出科技成果的應用轉化在國家創(chuàng)新體系建設中具有重要意義。楊友清和陳雅[3]研究認為科技大數(shù)據(jù)集科學價值和使用價值于一體,并對科技創(chuàng)新的發(fā)展產生影響。除了科學價值,諸云強等[4]認為,經濟價值和社會價值也是科技大數(shù)據(jù)的重要維度。此外,科技大數(shù)據(jù)對不同的使用者價值不同,可以支撐個體的科研需求、企業(yè)的技術創(chuàng)新、政府的管理決策[5],需要構建動態(tài)的價值評估指標體系[6]。從研究現(xiàn)狀看,關于科技大數(shù)據(jù)價值評估的研究尚處于探索階段。本文從用戶視角并借鑒營銷學的品牌價值理論[7]分析科技大數(shù)據(jù)的價值,將科技大數(shù)據(jù)的價值分為使用價值和象征價值。使用價值是指科技大數(shù)據(jù)滿足用戶的功能效用的程度,用戶使用科技大數(shù)據(jù)的功能效用主要表現(xiàn)在洞察新思想、發(fā)現(xiàn)新規(guī)律、發(fā)明新技術、開發(fā)新產品等方面;象征價值是指科技大數(shù)據(jù)滿足用戶的心理效用的程度,用戶使用科技大數(shù)據(jù)的心理效用主要表現(xiàn)在地位、身份等的提升。具體分析結果如表1所示,從中可以看出,科技大數(shù)據(jù)作為一類特殊的信息資源,其價值主要在于創(chuàng)新,包含知識、產品、服務、政策創(chuàng)新等。
2.2 科技大數(shù)據(jù)價值的特征
雖然我們借鑒了營銷學中的品牌價值理論將科技大數(shù)據(jù)價值劃分為使用價值和象征價值,但科技大數(shù)據(jù)的價值與商品價值畢竟存在著差異,表現(xiàn)出自身的一些特征,如圖1。
圖1 科技大數(shù)據(jù)價值特征關系圖
(1)多元性。科技大數(shù)據(jù)價值的多元性特征主要是指同一科技大數(shù)據(jù)本體往往具有多種潛在價值。例如,科技大數(shù)據(jù)不僅可以幫助企業(yè)提升生產效率,具有使用價值,也可以提升企業(yè)科技形象,具有象征價值。受使用者價值標準與追求的影響,科技大數(shù)據(jù)價值的多元性特征往往會體現(xiàn)得更加明顯。
(2)稀疏性。雖然科技大數(shù)據(jù)是大數(shù)據(jù)集合中的高價值密度組分,其價值依然具有稀疏性特征。一方面是因為有價值的數(shù)據(jù)被大量無價值的數(shù)據(jù)掩蓋;另一方面,對具體使用者而言,真正有價值的數(shù)據(jù)往往隱藏在其他科技大數(shù)據(jù)之中,需要借助相關技術進行跟蹤和識別。
(3)增值性??萍即髷?shù)據(jù)的價值并非固定不變。在數(shù)據(jù)創(chuàng)造、生產、交易和使用的過程中,科技大數(shù)據(jù)蘊含的價值會得到不斷發(fā)掘??萍即髷?shù)據(jù)價值的增值性特征也會在數(shù)據(jù)的價值傳遞中得到體現(xiàn)。例如,科技論文中的某些知識引發(fā)新知識的產生??萍即髷?shù)據(jù)的價值傳遞及其產生的價值增值路徑,是科技大數(shù)據(jù)價值增值性特征的重要體現(xiàn)。
(4)互補性。科技大數(shù)據(jù)的價值不僅取決于數(shù)據(jù)本身的價值,還取決于使用者已有的數(shù)據(jù)基礎。與已有數(shù)據(jù)在數(shù)據(jù)量、樣本特征以及時間、空間維度上形成互補的科技大數(shù)據(jù),對使用者而言通常會具有更大的價值。
(5)標準不確定性。不同類型的科技數(shù)據(jù)往往具有不同的價值標準。例如,論文、專利和科技情報的價值標準互不相同。受科技大數(shù)據(jù)價值多元性特征的影響,同一類數(shù)據(jù)的價值標準也不統(tǒng)一。標準不確定性使得無法設計一套通用的評估指標體系對不同類型科技大數(shù)據(jù)的價值進行評估。
(6)情景相關性。傳統(tǒng)商品的使用價值具有同一性,即對于不同主體而言,其使用價值是一致的,而科技大數(shù)據(jù)的使用價值則往往不具有同一性,對于不同主體其價值往往不同。例如,同一發(fā)明專利,對一個企業(yè)價值連城,對另一個企業(yè)可能一文不名。因此,需要結合相關主體的價值目標和使用情景對科技大數(shù)據(jù)的價值進行評估。
3 科技大數(shù)據(jù)全過程價值鏈模型
Porter[8]認為,每一個企業(yè)都是在設計、生產、銷售、傳遞(核心價值活動)和輔助其產品的過程(輔助價值活動)中進行種種活動的集合體,所有這些活動可以用一個價值鏈來表明。針對大數(shù)據(jù)的價值創(chuàng)造過程,Miller和Mork[9]提出了數(shù)據(jù)價值鏈的概念,
將大數(shù)據(jù)的核心價值活動分為三階段七種價值活動,即數(shù)據(jù)發(fā)現(xiàn)階段的收集與標注、準備、組織活動,數(shù)據(jù)整合階段的整合活動,以及數(shù)據(jù)利用階段的分析、可視化、決策活動。科技大數(shù)據(jù)作為一種特殊的產品類型和數(shù)據(jù)類型,本文基于波特的產品價值鏈模型和米勒的大數(shù)據(jù)價值鏈模型,將科技大數(shù)據(jù)的生成與獲取、整合與分析、傳遞與交易、決策與應用等核心價值活動納入統(tǒng)一架構,形成價值創(chuàng)造的動態(tài)過程,并整合科技大數(shù)據(jù)基礎設施、技術與工具、人才隊伍、盈利模式等輔助價值活動,構建了科技大數(shù)據(jù)全過程價值鏈模型,如圖2所示。
(1)生成與獲取——價值創(chuàng)造。科技大數(shù)據(jù)的生成與獲取是價值創(chuàng)造活動,使得科技大數(shù)據(jù)從無到有, 處于科技大數(shù)據(jù)價值鏈的頂端,主要增值部分就在其原創(chuàng)性的科技知識含量之中??茖W實驗數(shù)據(jù)的采集、科技論文和專利的撰寫、科技項目的立項、科技政策的制定等都是科技數(shù)據(jù)的價值創(chuàng)造過程??萍即髷?shù)據(jù)價值創(chuàng)造過程的參與者包括科研機構、科技工作者等。
(2)整合與分析——價值整合。科研機構、科技工作者產生的數(shù)據(jù)可能是碎片化的,科技大數(shù)據(jù)的整合與分析就是通過聚合、組織、存儲、分析、挖掘等活動,使科技大數(shù)據(jù)從“溪流”變成可相互支持、相互驗證的“海洋”, 成為可傳遞和利用的產品,實現(xiàn)科技大數(shù)據(jù)價值整合。整合過程的參與者包括各類數(shù)字出版商、知識產權登記組織、知識產權服務商、相應政府部門以及各類數(shù)據(jù)處理服務商等。
(3)傳遞與交易——價值傳遞。科技大數(shù)據(jù)的傳遞與交易是價值傳遞活動,是價值整合與價值實現(xiàn)間的橋梁,沒有價值傳遞,聚合的數(shù)據(jù)價值就無法得到充分應用,甚至會變成一堆占用大量資源的數(shù)字垃圾。價值傳遞任務包括科技大數(shù)據(jù)的交易、推廣和服務等活動,傳遞過程的參與者包括各類科技大數(shù)據(jù)平臺以及支撐科技大數(shù)據(jù)平臺運行的各類服務商等。
(4)決策與應用——價值實現(xiàn)??萍即髷?shù)據(jù)的價值通過科技大數(shù)據(jù)的消費使用而得以實現(xiàn)。在科技大數(shù)據(jù)價值鏈模型中,價值創(chuàng)造、價值整合和價值傳遞是成本投入的過程,最終在價值實現(xiàn)環(huán)節(jié)實現(xiàn)成本投入的變現(xiàn)。
4 科技大數(shù)據(jù)價值評估指標體系
從科技大數(shù)據(jù)全過程價值鏈模型可以看出,在科技大數(shù)據(jù)的價值創(chuàng)造、整合、傳遞和實現(xiàn)過程中,不同階段的價值活動各不相同,涉及的價值活動主體也不相同,構建適用于相應階段的價值評估指標體系,實現(xiàn)對不同階段活動的精準價值評估,有助于促進科技大數(shù)據(jù)在不同主體間交易流通,服務不同價值主體,實現(xiàn)多元的價值目標。
4.1 價值創(chuàng)造環(huán)節(jié)的價值評估指標體系
科技大數(shù)據(jù)價值創(chuàng)造環(huán)節(jié),生產者指標、數(shù)量指標和內容質量是這一環(huán)節(jié)影響科技大數(shù)據(jù)價值的重要指標。生產者指標衡量的是科技大數(shù)據(jù)創(chuàng)造過程中數(shù)據(jù)生產者對科技大數(shù)據(jù)價值的影響,包括組織信用、個人信用和物理信用三個方面。數(shù)量指標可以從樣本規(guī)模、屬性數(shù)量、多樣性三個方面進行衡量??紤]到科技大數(shù)據(jù)價值在創(chuàng)新性上的特殊性,內容質量維度可以從新穎性、流行性、前沿性、有用性、易用性等方面評價科技大數(shù)據(jù)的質量??萍即髷?shù)據(jù)價值創(chuàng)造環(huán)節(jié)評估指標層次結構如表2。
4.2 價值整合環(huán)節(jié)的價值評估指標體系
影響科技大數(shù)據(jù)整合價值的因素包括整合參與者信用、整合質量、科技大數(shù)據(jù)的時間屬性和空間屬性等??萍即髷?shù)據(jù)整合過程中的參與者影響著科技大數(shù)據(jù)的價值,可以從參與者的組織信用和物理信用兩方面來衡量。整合質量是指整合數(shù)據(jù)的粗細程度和符合規(guī)定的程度,可以使用粒度和完整性兩個指標衡量。時間屬性是指整合數(shù)據(jù)的時間戳信息,可以從時間跨度、時效性、實時性三個方面衡量??臻g屬性是指整合數(shù)據(jù)涉及的“空間”范圍,可以從區(qū)域、領域和行業(yè)三個方面衡量??萍即髷?shù)據(jù)價值整合環(huán)節(jié)評估指標層次結構如表3。
4.3 價值傳遞使用環(huán)節(jié)的價值評估指標體系
科技大數(shù)據(jù)價值傳遞使用環(huán)節(jié),交易促進者和使用者是此環(huán)節(jié)影響科技大數(shù)據(jù)價值的兩個重要維度。交易促進者是鏈接科技大數(shù)據(jù)與用戶的中間橋梁,對科技大數(shù)據(jù)的傳遞價值產生重要影響,可以從版權范圍、壟斷性、收費模式、組織信用和物理信用五個方面衡量其作用。使用者對科技大數(shù)據(jù)價值實現(xiàn)的影響可以從領域匹配性、使用者偏好和目的性三個方面來衡量,不同特征的使用者使得數(shù)據(jù)資源能夠發(fā)揮的價值不同?;谏鲜龇治?,科技大數(shù)據(jù)價值傳遞使用環(huán)節(jié)評估指標層次結構如表4。
綜上,科技大數(shù)據(jù)價值評估指標體系如圖3所示。
5 科技大數(shù)據(jù)價值評估關鍵指標測度
在科技大數(shù)據(jù)價值評估眾多指標中,一些指標如樣本規(guī)模、屬性數(shù)量易于測度,但諸如組織信用、個人信用以及內容質量中的新穎性、流行性、前沿性等指標則較為抽象,難以測量,見表2~表4。以下將針對科技大數(shù)據(jù)生產者信用、科技大數(shù)據(jù)新穎性、流行性及前沿性等關鍵指標給出相應的測度方法。
5.1 基于分層PageRank算法的個人信用和組織信用度量方法
科技大數(shù)據(jù)生產者之間存在著廣泛的聯(lián)系,社交網(wǎng)絡可以作為這種關系的表示模型,社交網(wǎng)絡中的結點影響力可以用來測度個人信用和組織信用??紤]到生產者個人與組織之間存在著隸屬關系,可利用生產者個人全局影響力與所屬組織影響力協(xié)同度量生產者個人的影響力,進而提出了一種分層PageRank算法來計算個人信用和組織信用。度量流程如圖4所示。
具體步驟如下:
Step 1 構建科技大數(shù)據(jù)生產者個人之間在創(chuàng)造、合作、引用和分享科技數(shù)據(jù)方面的關系網(wǎng)絡
G=(U,E,W),網(wǎng)絡中的節(jié)點表示科技大數(shù)據(jù)生產者個人,節(jié)點集合記為U={u1,…,ui,…,un},其中ui表示第i個生產者,n表示生產者的數(shù)量,1in;邊表示生產者個人之間存在著合作關系,邊集合記為E,其中生產者個人ui和uj之間的合作關系記為
eij,若eij=1,則表示ui與uj之間存在合作關系,反之則不存在;邊的權重wij表示生產者個人間的合作次數(shù),權重集合記為W。
Step 2 檢測科技大數(shù)據(jù)生產者個人所屬組織,即利用社區(qū)檢測Louvain方法[10]發(fā)現(xiàn)科技論文合作網(wǎng)絡中的生產者組織分布。具有相同所屬組織或相似研究領域的生產者們往往具有緊密性和聚集性,而不同組織或領域群體之間的關系相對分散和疏離。若將所屬相同組織的生產者視為一個科技大數(shù)據(jù)創(chuàng)造群體,合作網(wǎng)絡中則包含了很多存在著相互合作但又所屬不同科技數(shù)據(jù)創(chuàng)造領域的群體。在Louvain方法中,首先將每個生產者個人視為一個獨立的群體;然后將生產者個人ui分配到其每個鄰居所在的群體中并計算分配前后的模塊度增量,若最大模塊度增量大于0,則將ui分配到最大模塊度增量所對應的群體;接著對其他生產者個人重復執(zhí)行與ui相同的操作,直至生產者個人集合U的所屬群體不再變化為止;最終得到了多個生產者組織集合,記為G^={g1,…,gs,…,gz},其中gs表示第s個生產者組織,z表示生產者組織的數(shù)量,1<s<z。
Step 3 構建科技大數(shù)據(jù)生產者組織間的關系網(wǎng)絡,即基于檢測到的生產者個人所屬組織,利用生產者組織間的合作關系及其次數(shù)構建生產者組織間的關系網(wǎng)絡。在生產者組織間的關系網(wǎng)絡中,節(jié)點表示生產者組織,節(jié)點集合為G^;邊表示生產者組織之間存在著合作關系,邊集合記為E^,其中生產者組織gi和gj之間的合作關系記為ij,若ij=1,則表示gi和gj之間存在合作關系,反之則無合作關系;邊的權重表示兩個生產者組織內全部生產者個人合作的次數(shù),權重集合記為W^,其中生產者組織gi和gj之間合作的次數(shù)記為ij。
Step 4 度量科技大數(shù)據(jù)生產者個人所屬組織信用,即利用PageRank方法[11]度量生產者組織間關系網(wǎng)絡中節(jié)點的重要性程度。對于生產者組織集合G^,首先給每個生產者組織設置相同的信用值,然后將每個生產者組織的信用值除以相連的出鏈邊數(shù)后作為每個出鏈邊的權值,接著將每個生產者組織的入鏈邊的權值之和作為每個生產者組織的新信用值。重復執(zhí)行更新過程,直至兩次更新的信用值不變?yōu)橹?,從而得到生產者組織的信用集合,記為
P^G^={g1,…,gs,…,gz}
,其中gs表示生產者組織gs的信用值。
Step 5 度量科技大數(shù)據(jù)生產者個人信用,通過分層的PageRank方法來實現(xiàn)。該方法認為生產者個人信用是由生產者個人的全局信用及其所屬生產者組織的信用共同決定的。對于合作網(wǎng)絡G,首先給每個生產者個人設置相同的信用值,然后將每個生產者個人的信用值除以相連的出鏈邊數(shù)后作為每個出鏈邊的權值,接著將每個生產者個人的入鏈邊的權值之和作為每個生產者個人的新信用值。重復執(zhí)行更新過程,直至兩次更新的信用值不變?yōu)橹梗瑥亩玫缴a者個人的全局信用集合,記為
PG={u1,…,ui,…,un},其中ui表示生產者個人ui的全局信用值。若生產者個人ui隸屬于組織gs,那么生產者個人的信用值為psi=gs×ui。
我們隨機抽取了230個生產者個人生成的科技論文大數(shù)據(jù),其合作關系網(wǎng)絡如圖5(a)所示,包含702條合作關系;檢測出4個科技大數(shù)據(jù)生產者組織,如圖5(b)所示。通過科技大數(shù)據(jù)生產者組織間的關系網(wǎng)絡,分別計算出科技大數(shù)據(jù)生產者組織和個人的信用值,如圖6(b)所示,并按照信用從低到高定義4個生產者組織為A、B、C、D。相比于PageRank方法(圖6(a)),分層PageRank算法下生產者組織和個人之間起到了相互促進的正向作用。表5對比了信用最大的10位生產者個人的信用,可以看出,分層PageRank方法中組織D中的高信用個人數(shù)量明顯增加,個人影響力排名顯著提升,而低信用生產者組織A的高信用個人占比有所降低。
5.2 基于動態(tài)主題模型的科技大數(shù)據(jù)創(chuàng)新性度量方法
基于動態(tài)主題模型的科技大數(shù)據(jù)新穎性、流行性和前沿性等創(chuàng)新性指標度量方法,將每一條科技數(shù)據(jù)看做一個文檔,通過動態(tài)主題模型訓練得出相應的文檔主題分布,并基于文檔主題分布中的最大概率值得到對應主題,從而將科技數(shù)據(jù)劃分為不同主題。假設科技數(shù)據(jù)di所對應主題k下所有文檔的平均發(fā)表時間為MPubYear(k),該科技數(shù)據(jù)的發(fā)表時間記為PubYear(di),則該科技數(shù)據(jù)的新穎性為Novelty(di)=MPubYear(k)-PubYear(di)
基于主題分布,科技大數(shù)據(jù)的流行性與前沿性可以通過以下步驟進行測度:
Step 1 計算不同時間切片下的主題熱度。按照時間劃分計算不同時間切片各個主題的熱度,對于一個時間切片t,該時間切片內文檔集合記為Dt,文檔數(shù)量為Nt,每個文檔記為dtj,dtj的文檔主題分布為p(kt|dtj)。所有時間切片下各主題熱度TopicHot(kt)為
TopicHot(kt)=∑dtj∈Dtp(kt|dtj)Nt
Step 2 計算科技數(shù)據(jù)的流行性?;诓煌瑫r間切片下的主題熱度TopicHot(kt),每個科技數(shù)據(jù)的流行性Popularity(dtj)為
Popularity(dij)=∑ktTopicHot(kt)×p(kt|dtj)
Step 3 計算科技數(shù)據(jù)的前沿性。對于一條科技數(shù)據(jù)dtj,其對應的時間切片為t,對應年份的主題熱度為TopicHot(kt)。主題k在每一個時間切片內都有一個對應的主題熱度值,記其中主題熱度最高的時間切片為tm,最高主題熱度值為TopicHot(ktm)??萍紨?shù)據(jù)dtj在每個主題上的前沿性Frontier(dtj,k)可通過下式計算得到
Frontier(dtj,k)=TopicHot(ktm)-TopicHot(kt),t<tm
0,t=tm
TopicHot(kt)-TopicHot(ktm),t>tm
每個科技數(shù)據(jù)的前沿性Frontier(dtj)計算如下
Frontier(dtj)=∑k∈KFrontier(dtj,k)
本文應用上述新穎性、流行性、前沿性指標對科技論文價值進行了評估預測,科技論文的價值使用下載量指示,并取對數(shù)值。其他影響變量包括參與機構數(shù)量、期刊影響力因子、期刊跨學科性、獲取論文信息時論文發(fā)表時長。實驗數(shù)據(jù)來自4本著名管理學期刊近10年共計5964篇論文,評估預測模型選擇引導聚集(Bootstrap Aggregating,Bagging)回歸模型和支持向量回歸(Support Vector Regression,SVR)模型,訓練集90%,測試集10%,使用10倍交叉驗證,實驗結果見表6。結果表明,新穎性、流行性、前沿性指標對科技論文價值具有很好的評估預測能力。
6 結論與展望
價值評估是數(shù)據(jù)要素流通交易的基礎,是加快構建數(shù)據(jù)要素市場化配置體制機制的核心任務。本文以科技大數(shù)據(jù)為研究對象,針對科技大數(shù)據(jù)價值評估難的問題,分析了科技大數(shù)據(jù)的多元價值及其特征,構建了科技大數(shù)據(jù)的全過程價值鏈模型,設計了科技大數(shù)據(jù)價值鏈模型核心維度的測量方法,并驗證了所提方法的有效性。
科技大數(shù)據(jù)多元價值鏈模型與價值評估問題非常復雜,相關理論研究尚處于探索階段。為了進行有效的科技大數(shù)據(jù)價值評估,后續(xù)研究需要結合科技大數(shù)據(jù)的情景相關性特點,對科技大數(shù)據(jù)的多元價值進行深入刻畫。在科技大數(shù)據(jù)價值鏈模型中,數(shù)據(jù)價值的增值路徑及其影響機制尚不清晰,需要深入的理論探索。面向科技大數(shù)據(jù)的核心價值維度,需要進一步探索更加簡便、準確的測度方法。此外,本文利用科技論文數(shù)據(jù)對所提指標測度方法的有效性進行了驗證,后續(xù)將拓展科技大數(shù)據(jù)類型,對所提指標體系和指標測度方法的有效性做進一步驗證。
參 考 文 獻:
[1]李陽,孫建軍,裴雷.科學大數(shù)據(jù)與社會計算:情報服務的現(xiàn)代轉型與創(chuàng)新發(fā)展[J].圖書與情報,2017,(5):27-32.
[2]王晶金,李盛林,梁亞坤.新政策下科技成果轉移轉化問題與對策研究[J].科技進步與對策,2018,35(14):102-107.
[3]楊友清,陳雅.科學大數(shù)據(jù)共享研究:基于國際科學數(shù)據(jù)服務平臺[J].新世紀圖書館,2014,(3):24-28.
[4]諸云強,朱琦,馮卓,等.科學大數(shù)據(jù)開放共享機制研究及其對環(huán)境信息共享的啟示[J].中國環(huán)境管理,2015,7(6):38-45.
[5]佟澤華,韓春花,孫杰,等.科研大數(shù)據(jù)再生的內涵解析[J].情報理論與實踐,2020,43(9):39-46,78.
[6]王菲菲,弋新月,賈晨冉,等.Altmetrics視角下科技文獻學術影響力動態(tài)評價體系構建與實證研究[J].情報理論與實踐,2020,43(8):77-83.
[7]Park W, MacInnis D, Eisingerich A, et al.. Brand admiration: building a business people love[M]. John Wiley & Sons, Inc., 2016.
[8]Porter M. Competitive advantage: creating and sustaining superior performance[M]. New York: Free Press, 1985.
[9]Miller H, Mork P. From data to decisions: a value chain for big data[J]. IT Professional, 2013, 15(1): 57-59.
[10]Blondel V, Guillaume J, Lambiotte R, et al.. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, (10): 10008.
[11]Page L, Brin S, Motwani R, et al.. The page rank citation ranking: bringing order to the web[R]. Stanford InfoLab Working Paper, 1999.