楊 俊
(中國藝術科技研究所,北京 100007)
科技成果能否轉(zhuǎn)化為現(xiàn)實生產(chǎn)力已經(jīng)成為衡量一個國家和地區(qū)科技發(fā)展水平的重要標志,促進科技成果轉(zhuǎn)移轉(zhuǎn)化是實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略的重要任務,是加強科技與經(jīng)濟緊密結(jié)合的關鍵環(huán)節(jié),對于推進結(jié)構性改革尤其是供給側(cè)結(jié)構性改革、支撐經(jīng)濟轉(zhuǎn)型升級和產(chǎn)業(yè)結(jié)構調(diào)整,打造經(jīng)濟發(fā)展新引擎具有重要意義。
依據(jù)《中共中央關于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標的建議》,以近年來黨中央國務院就高質(zhì)量發(fā)展、供給側(cè)結(jié)構性改革、培育新業(yè)態(tài)新動能、擴內(nèi)需促消費、完善要素市場、發(fā)展文化產(chǎn)業(yè)做出的系列部署為指導,遵循大幅提高科技成果轉(zhuǎn)移轉(zhuǎn)化成效要求,構建文化科技成果轉(zhuǎn)化的系統(tǒng)(即專業(yè)性網(wǎng)站或軟件系統(tǒng)),其以科研項目、學術論文、專利、科技動態(tài)、科研人員、機構等為主要數(shù)據(jù)源,進行文化科技學科分析、影響力評價、關聯(lián)挖掘等大數(shù)據(jù)加工,并利用專業(yè)應用門戶網(wǎng)站展示成果轉(zhuǎn)化的核心結(jié)構、發(fā)展歷史、前沿領域以及數(shù)據(jù)源的關系。通過文化科技成果轉(zhuǎn)化系統(tǒng)可以探索科技成果轉(zhuǎn)化路徑,激發(fā)數(shù)據(jù)資源潛力,推動文化科技產(chǎn)業(yè)鏈創(chuàng)新和應用。
目前,文化科技的創(chuàng)新研究主要集中在科研院所和大專院校,以及有研發(fā)能力的企事業(yè)單位,文化科技創(chuàng)新成果與企業(yè)相結(jié)合的路徑和模式上存在問題,從基礎研究到技術開發(fā)、從實驗室模型到企業(yè)轉(zhuǎn)化存在斷點,科技項目、科研人員、科技成果等方面有海量科研數(shù)據(jù)資源極度分散,共享程度較低,研究項目與應用需求沒有對接。如何將這些科技成果供給與文化產(chǎn)業(yè)需求精準對接,以達到科技創(chuàng)新促進經(jīng)濟高質(zhì)量發(fā)展,是亟待解決的問題。
為構建文化科技成果轉(zhuǎn)化系統(tǒng),需要建立一套技術方案,如圖1所示。首先,通過開放API(Application Programming Interface,應用程序接口),進行公開數(shù)據(jù)、爬取數(shù)據(jù)與合作數(shù)據(jù)的采集,如通過CNKI、DBLP、CSCD、OAD等數(shù)據(jù)庫獲取論文數(shù)據(jù),通過國內(nèi)外專利網(wǎng)站獲取專利數(shù)據(jù),通過合作機構獲取人才數(shù)據(jù)、科研成果數(shù)據(jù);再進行預處理,依據(jù)統(tǒng)一規(guī)范的元數(shù)據(jù)描述,將采集到的數(shù)據(jù)存入數(shù)據(jù)庫或者分布式文件系統(tǒng)中。然后,使用基于規(guī)則和智能算法的實體識別和實體融合,抽取數(shù)據(jù)庫中的實體和關系,從而構建圖數(shù)據(jù)庫模型。同時,通過知識推理相關技術,實現(xiàn)學科耦合關系推理、師承關系推理、學科熱詞推理等功能,豐富和擴展數(shù)據(jù)庫;并基于此更新任務流水線,實現(xiàn)系統(tǒng)模式層和數(shù)據(jù)層的動態(tài)增量更新。
文化科技成果轉(zhuǎn)化系統(tǒng)的架構分為四層,分別是數(shù)據(jù)層、分析層、服務層及應用層,如圖2所示。
圖2 系統(tǒng)架構
2.2.1 數(shù)據(jù)層
在數(shù)據(jù)層,首先抽取、重新組織開放數(shù)據(jù)、爬取數(shù)據(jù)與合作數(shù)據(jù),包含開源專利、公開科技文獻、科研人員、機構、項目等多種數(shù)據(jù)類型。然后,通過唯一標識、網(wǎng)絡關聯(lián)及結(jié)構化等方法完成對數(shù)據(jù)的預處理,構建文化科技知識網(wǎng)絡圖數(shù)據(jù)庫、多維數(shù)據(jù)庫等模型,進行有效的數(shù)據(jù)庫運行和維護,支持數(shù)據(jù)分布式處理,支持導出與發(fā)布,實現(xiàn)一體化數(shù)據(jù)存儲,形成統(tǒng)一的數(shù)據(jù)資源中心。
文化科技數(shù)據(jù)資源中心,通過ETL(抽取-轉(zhuǎn)換-裝載)實現(xiàn)對大規(guī)模多維數(shù)據(jù)及網(wǎng)絡數(shù)據(jù)的高效存儲,結(jié)合成熟的開源大數(shù)據(jù)平臺及大數(shù)據(jù)平臺管理工具,構成起文化科技大數(shù)據(jù)關系網(wǎng)絡體系,為數(shù)據(jù)存儲、管理提供基礎的大數(shù)據(jù)環(huán)境。
2.2.2 分析層
分析層是在數(shù)據(jù)層完成對數(shù)據(jù)組織與管理的基礎上,實現(xiàn)多維統(tǒng)計分析以及知識網(wǎng)絡檢索、分析。其中,多維統(tǒng)計分析服務子系統(tǒng)的構建包括統(tǒng)計維度、Top-N統(tǒng)計、CUBE、SQL界面,基于Kylin的多維分析功能,根據(jù)管理的需求進行自定義的開發(fā),以實現(xiàn)多維分析的功能。知識網(wǎng)絡檢索與分析服務子系統(tǒng)的構建包括關聯(lián)檢索、關鍵節(jié)點發(fā)現(xiàn)、聚類分析、PageRank分析等,基于Titan的網(wǎng)絡分析功能,根據(jù)知識庫管理的需求進行自定義的開發(fā),以實現(xiàn)網(wǎng)絡分析的功能。
在同一類數(shù)據(jù)內(nèi)部及不同類數(shù)據(jù)之間,存在大量的網(wǎng)絡特性,利用經(jīng)典的網(wǎng)絡分析算法,在數(shù)據(jù)層的數(shù)據(jù)處理基礎上,實現(xiàn)知識網(wǎng)絡關聯(lián)查詢、知識網(wǎng)絡圖分析及知識網(wǎng)絡圖分析挖掘算法庫,為上層應用子系統(tǒng)提供分析服務及算法支持。在知識網(wǎng)絡關聯(lián)查詢上,實現(xiàn)科研項目、科研人員、科研成果、依托科研單位等分布式三角形計算的關聯(lián)關系查詢、分布式連通子圖查詢,實現(xiàn)基于最小生成樹獲取圖的概要信息和索引結(jié)構及基于遍歷的實時查詢。在知識網(wǎng)絡圖分析上,實現(xiàn)知識網(wǎng)絡圖的關鍵節(jié)點發(fā)現(xiàn)、頻繁子圖挖掘及重疊社區(qū)發(fā)現(xiàn)。在知識網(wǎng)絡分析挖掘算法庫上,實現(xiàn)PageRank分析、知識網(wǎng)絡聚類分析、科研社區(qū)分析和抽取的知識網(wǎng)絡LDA(Linear Discriminant Analysis, 線性判別分析)及科研人員網(wǎng)絡的三角關系關聯(lián)分析。
2.2.3 服務層
在分析層完成基本的多維分析及網(wǎng)絡分析方法的基礎上,服務層以微服務接口的方式提供查詢服務、統(tǒng)計分析和智能挖掘服務。
(1)查詢服務
查詢服務指以Web交互的方式檢索存在關聯(lián)的項目、人員、成果等,為用戶與知識網(wǎng)絡提供關聯(lián)交互手段。例如,用戶輸入關鍵字“項目A”,應用子系統(tǒng)返回“項目A”的相關信息,如主要參與人員、項目成果、以及存在關聯(lián)關系的項目、成果、人員。用戶可以根據(jù)這些信息選擇進一步的檢索,以發(fā)現(xiàn)感興趣的研究課題和研究成果,與相關科研人員建立朋友關系以便進一步合作。
(2)統(tǒng)計分析
統(tǒng)計分析指在研究人員、單位、項目、成果等多維度組合數(shù)據(jù)查詢結(jié)果基礎上,采用可視化技術把多維數(shù)據(jù)展示出來,并提供項目、成果、詞匯的趨勢分析。
(3)智能挖掘
智能挖掘指采用混合搜索的方式,同時輸入實體和關系,以縮小檢索范圍。如果知識網(wǎng)絡中存在對應實體和關聯(lián),則可視化輸出,否則輸出與之近似的檢索內(nèi)容,輔助用戶做進一步的檢索決定。另外,基于知識網(wǎng)絡的關聯(lián)分析,支持項目、科研人員和科研成果的關聯(lián)查詢。
2.2.4 應用層
應用層提供新技術發(fā)現(xiàn)、科技規(guī)劃支持、交叉學科分析、專家智庫推薦、科技成果轉(zhuǎn)化等功能。通過科技大數(shù)據(jù)知識圖譜服務門戶系統(tǒng),為相關人員提供一體化的大數(shù)據(jù)知識管理服務,滿足對項目、成果、人員等的交互式查詢,并實現(xiàn)科技規(guī)劃支持、領域技術畫像、新技術發(fā)現(xiàn)、交叉學科分析、專家智庫推薦、科技成果轉(zhuǎn)化等功能。
通過文化科技成果轉(zhuǎn)化系統(tǒng),以開源專利、公開科技文獻、科研人員、科研機構、項目等數(shù)據(jù)源為基礎,有效呈現(xiàn)智能數(shù)據(jù)收集、處理,并借助多維統(tǒng)計分析子系統(tǒng)和知識網(wǎng)絡檢索分析子系統(tǒng)對其進行學科分析、影響力評價、關聯(lián)挖掘,進一步將海量數(shù)據(jù)集中進行數(shù)據(jù)展示、分析,從而提供從宏觀到微觀不同尺度的預判,洞悉科技前沿發(fā)展,提升創(chuàng)新能力,為文化領域的決策、布局提供依據(jù)。
(1)專家智庫對接
依據(jù)公開數(shù)據(jù)、合作數(shù)據(jù)、爬取數(shù)據(jù),匯聚文化領域的各類專家,為專家進行大數(shù)據(jù)畫像,并實時跟蹤他們技術研究進展及可轉(zhuǎn)化的成果,挖掘科研機構之間的合作關系,發(fā)現(xiàn)存在合作關系的人員和單位,輔助用戶尋找頻繁合作的人員、機構等群體,然后根據(jù)產(chǎn)業(yè)、區(qū)域的具體需求,通過大數(shù)據(jù)和人工智能的分析,打破地域和機構邊界,進行精準匹配和推送(見圖3),可有效實現(xiàn)點對點解決技術難題。
圖3 匹配和推送方案
通過以上技術方案,用戶可以通過查詢相關的專家信息進行專家智庫的推薦與匹配,如圖4所示。
圖4 專家智庫的推薦與匹配
(2)科技成果轉(zhuǎn)化
利用文化科技成果轉(zhuǎn)化系統(tǒng),使科技創(chuàng)新成果和目標企業(yè)的精準匹配(見圖5),快速落地,充分挖掘科技成果的價值,提升科技成果的轉(zhuǎn)化質(zhì)量和效率。
圖5 科技成果轉(zhuǎn)化
通過文化科技成果轉(zhuǎn)化系統(tǒng)匯聚文化科技服務的海量數(shù)據(jù),建立文化科技知識網(wǎng)絡圖數(shù)據(jù)庫、多維數(shù)據(jù)庫等模型,并借助多維統(tǒng)計分析以及知識網(wǎng)絡檢索、分析等大數(shù)據(jù)分析工具和算法,使文化科技成果在行業(yè)創(chuàng)新方面充分發(fā)揮其效能,引導并滿足企業(yè)技術創(chuàng)新需求,為文化科技創(chuàng)新提供專業(yè)化服務,預測未來科技創(chuàng)新發(fā)展趨勢,為文化科技創(chuàng)新提供專業(yè)化服務;挖掘文化科技創(chuàng)新與經(jīng)濟社會發(fā)展的互動規(guī)律,推進科技鏈、產(chǎn)業(yè)鏈、創(chuàng)新鏈的有機融合,促進文化事業(yè)和文化產(chǎn)業(yè)的繁榮發(fā)展。