李文全,徐素萍
﹙韶關(guān)學院 信息工程學院,廣東 韶關(guān) 512005 ﹚
科技成果轉(zhuǎn)化為現(xiàn)實生產(chǎn)力的能力是衡量一個國家和地區(qū)科技發(fā)展水平的重要標志,對國家和地區(qū)經(jīng)濟增長有著重要意義.由于科研與生產(chǎn)脫節(jié)、成果轉(zhuǎn)化體系不完善等通病的存在,導致大量的科研成果躺在檔案室,或散落在科研人員手中,轉(zhuǎn)化率同發(fā)達城市相比相對偏低[1].成果轉(zhuǎn)化工作的滯后嚴重影響了科技能力與企業(yè)盈利能力的提升.為了提高科技成果轉(zhuǎn)化率,有效串起成果轉(zhuǎn)化過程中涉及的上、中、下游各環(huán)節(jié),建設線上與線下相結(jié)合的技術(shù)交易服務平臺,迫切需要建立完善的科技成果轉(zhuǎn)化平臺[2].解決科技成果與市場需求之間信息不對稱難題,使科技成果與市場緊密的聯(lián)系在一起,真正有效地促進科技成果的轉(zhuǎn)化,實現(xiàn)科技成果的產(chǎn)業(yè)化.
為了促進科技成果的轉(zhuǎn)化,美國、德國、日本等國家通過完善轉(zhuǎn)化體系,構(gòu)建基于產(chǎn)學研相結(jié)合的科技成果轉(zhuǎn)化平臺,成功地促進了成果轉(zhuǎn)化;國內(nèi)部分省市和學者也十分重視科技成果轉(zhuǎn)化工作,搭建了面向不同行業(yè)的科技成果轉(zhuǎn)化平臺.李正權(quán)等為有效實現(xiàn)成果所有方和需求方、企業(yè)與技術(shù)之間的對接和交易,構(gòu)建了基于“互聯(lián)網(wǎng)+”的廣東省科技成果轉(zhuǎn)化平臺[3];姚寧廣等為提高農(nóng)業(yè)科技成果的資源利用率,設計了一種基于面向服務體系架構(gòu)的農(nóng)業(yè)科技成果轉(zhuǎn)化平臺[4];尚珊等針對高校研發(fā)能力強轉(zhuǎn)化能力弱缺陷,建立了基于信息咨詢的高校科技成果轉(zhuǎn)化平臺.但它們主要關(guān)注科技成果數(shù)據(jù)的共享與集成[5].在我國促進政府數(shù)據(jù)開放共享,推動資源整合的大數(shù)據(jù)背景下,科技成果轉(zhuǎn)化還面臨一些新的挑戰(zhàn):
(1)需要動態(tài)集成多個部門的業(yè)務數(shù)據(jù),如科技專家數(shù)據(jù)和科技成果數(shù)據(jù)分布存儲在不同科研院所、高校、企業(yè)等單位的業(yè)務數(shù)據(jù)庫中,需要動態(tài)實現(xiàn)集成并為其他業(yè)務平臺和決策系統(tǒng)提供科技成果轉(zhuǎn)化的數(shù)據(jù)服務.
(2)需要集成遺留的科技成果轉(zhuǎn)化系統(tǒng)的應用,相關(guān)部門已有不少科技成果轉(zhuǎn)化的應用,為了保護投資,需要集成這些遺留的業(yè)務系統(tǒng)中數(shù)據(jù),使其一起協(xié)調(diào)工作.
(3)以往的檢索服務沒有語義背景,難于滿足類型復雜與形式多樣的科技成果檢索需要,迫切需要加強以科技成果內(nèi)容為關(guān)鍵詞的提取,提高數(shù)據(jù)的檢索效率和迎合用戶檢索興趣.
針對新形勢下的挑戰(zhàn),搭建了一個基于Web的科技成果轉(zhuǎn)化平臺,通過Web Services實現(xiàn)了數(shù)據(jù)的動態(tài)集成和多部門協(xié)作;通過XML技術(shù)實現(xiàn)異構(gòu)數(shù)據(jù)的互操作;通過科技成果信息的關(guān)鍵詞提取,提高了用戶的檢索效率和優(yōu)化了用戶體驗.
科技成果轉(zhuǎn)化平臺是基于Web開發(fā),目標是在Internet/Intranet上實現(xiàn)分布、異構(gòu)的專家和科技成果信息的互操作,并實現(xiàn)新的業(yè)務數(shù)據(jù)服務的動態(tài)裝配和松散耦合.平臺架構(gòu)采用三層架構(gòu),由數(shù)據(jù)層、業(yè)務層和用戶層組成,見圖1.架構(gòu)將業(yè)務應用和數(shù)據(jù)管理分離,便于數(shù)據(jù)的動態(tài)管理和有機集成,并保證系統(tǒng)具有一定的穩(wěn)定性和可擴展性.
圖1 平臺架構(gòu)
(1)數(shù)據(jù)層.數(shù)據(jù)層是指分布式存儲在不同業(yè)務平臺中與科技成果轉(zhuǎn)化相關(guān)的數(shù)據(jù),主要包括科技專家數(shù)據(jù)庫、科技成果庫、成果轉(zhuǎn)化庫、企業(yè)信息庫,以及其他相關(guān)數(shù)據(jù)庫或文件.這些數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫或文件系統(tǒng)中.
(2)業(yè)務層.業(yè)務層是整個架構(gòu)的橋梁與紐帶.對用戶層的發(fā)出的請求進行解析,通過調(diào)用業(yè)務系統(tǒng),將請求轉(zhuǎn)化成內(nèi)部處理規(guī)則,并向數(shù)據(jù)層轉(zhuǎn)發(fā)數(shù)據(jù)請求;數(shù)據(jù)層響應請求后,對返回的數(shù)據(jù)進行組織,以用戶預設形式呈現(xiàn)給用戶.業(yè)務層由業(yè)務系統(tǒng)和支撐服務系統(tǒng)兩部分組成,其中業(yè)務系統(tǒng)包括科技專家子系統(tǒng)、企業(yè)信息子系統(tǒng)、科技成果子系統(tǒng)、交易子系統(tǒng).支撐服務系統(tǒng)包括在線交流子系統(tǒng)、政策發(fā)布子系統(tǒng)、身份認證子系統(tǒng)、角色權(quán)限子系統(tǒng)、數(shù)據(jù)報表子系統(tǒng)、數(shù)據(jù)服務子系統(tǒng).數(shù)據(jù)服務向外提供了標準的Web Services服務接口,支持新的業(yè)務數(shù)據(jù)動態(tài)集成和為其他系統(tǒng)動態(tài)提供數(shù)據(jù)服務.
(3)用戶層.用戶層是平臺的最終用戶,包括企業(yè)用戶、科技專家、科研院所、高等院校、科技管理部門.專家人才通過平臺可以進行技術(shù)和成果展示;企業(yè)用戶通過平臺可以搜尋技術(shù)和發(fā)布需求;科技管理部門依據(jù)平臺數(shù)據(jù)輔助決策,發(fā)布成果轉(zhuǎn)化政策;當科技成果與企業(yè)需求對接成功,可以通過平臺完成交易,促進科技成果的轉(zhuǎn)化.
為了保護已有投資,集成遺留業(yè)務系統(tǒng)中的數(shù)據(jù),需要一種能夠滿足在異構(gòu)環(huán)境下進行數(shù)據(jù)交換和傳輸?shù)臉藴?XML是一種用來描述數(shù)據(jù)的中介語言,它是一種任何人都寫入和讀出的標準化語言,它為異構(gòu)化的結(jié)構(gòu)數(shù)據(jù)提供了標準化描述格式.通過XML不僅可以很好地集成原有業(yè)務系統(tǒng)中數(shù)據(jù),而且方便為其他系統(tǒng)應用提供信息共享.XML作為半結(jié)構(gòu)化的描述語言,將XML的文檔描述與現(xiàn)有數(shù)據(jù)庫表中字段一一對應,可實現(xiàn)科技成果數(shù)據(jù)與XML文檔的互相轉(zhuǎn)換.只要遺留的業(yè)務系統(tǒng)遵循XML數(shù)據(jù)規(guī)范和交換標準,就可以實現(xiàn)異構(gòu)業(yè)務數(shù)據(jù)的互操作.基于XML的異構(gòu)數(shù)據(jù)集成模型見圖2.
XML轉(zhuǎn)換服務是實現(xiàn)分布異構(gòu)業(yè)務數(shù)據(jù)與XML數(shù)據(jù)互相轉(zhuǎn)換的關(guān)鍵服務.通過調(diào)用XML轉(zhuǎn)換服務可以輕松地將關(guān)系數(shù)據(jù)庫或文檔數(shù)據(jù)轉(zhuǎn)換成XML格式數(shù)據(jù),也可輕松地對XML格式數(shù)據(jù)實施精準查詢和模型抽取.另外為了消除了異構(gòu)系統(tǒng)和平臺的差異,實現(xiàn)異構(gòu)業(yè)務數(shù)據(jù)服務的動態(tài)裝配和松散耦合,XML適配服務采用了Web Services技術(shù)實現(xiàn).只要新系統(tǒng)或原有業(yè)務系統(tǒng)向外提供和發(fā)布Web Services數(shù)據(jù)接口,就可以被動態(tài)地發(fā)現(xiàn)和集成,從而實現(xiàn)對遺留業(yè)務系統(tǒng)數(shù)據(jù)的集成.
圖2 基于XML異構(gòu)數(shù)據(jù)集成模型
傳統(tǒng)數(shù)據(jù)檢索服務是將前臺輸入的關(guān)鍵詞進行SQL拼接,并與數(shù)據(jù)庫表的文本標題或內(nèi)容進行配對,返回所有包含關(guān)鍵詞的記錄.這種方式比較適合數(shù)據(jù)量小、類型簡單的數(shù)據(jù)檢索.然而在類型復雜、形式多樣的科技成果的檢索時,面臨兩個難題:一是成果所有者給定的關(guān)鍵詞與用戶所期望的往往存一定偏差且耗時費力,提取效果也會因為提取人的喜好導致較大差異;二是科技成果類型復雜、形式多樣,檢索時常常需要訪問多個關(guān)聯(lián)數(shù)據(jù)表,隨著科技成果的數(shù)據(jù)量的增加,檢索服務的性能將下降.克服上述問題的關(guān)鍵在于關(guān)鍵詞的提取,以科技成果為背景的關(guān)鍵詞檢索既可提高檢索效率,檢索結(jié)果也更能迎合用戶興趣.科技成果的關(guān)鍵詞可以反映成果的主題,幫助用戶快速對科技成果的內(nèi)容建立畫像.
關(guān)鍵詞抽取是指從給定的科技成果描述文本中獲取有代表性的詞語,用以反映不同科技成果的技術(shù)要點、應用領(lǐng)域等主題的關(guān)鍵信息.TextRank 算法是一種適用于文本內(nèi)容的詞匯重要性排序算法,通過由詞匯構(gòu)成的網(wǎng)絡結(jié)構(gòu)的迭代計算出詞語的重要性.算法的優(yōu)點是不需要事先對文本進行相關(guān)的學習訓練,非常適用于科技成果關(guān)鍵詞的提取[6].算法的基本思路是對給定的文本進行分割,劃分為由若干詞語節(jié)點構(gòu)成的圖模型.利用PageRank算法對圖模型進行迭代計算,直到節(jié)點的累加權(quán)重收斂,然后根據(jù)權(quán)重對所有節(jié)點進行排序,最后輸出關(guān)鍵詞[7].節(jié)點的權(quán)值計算公式為:
圖3 關(guān)鍵詞提取流程圖
其中In(Vi)表示指向Vi的節(jié)點集合,Out(Vj)表示Vj指向的節(jié)點集合,Wji表示節(jié)點Vj與Vi邊的權(quán)重,d為阻尼系數(shù),一般取值為0.85,其主要作用是保證讓權(quán)重能夠穩(wěn)定傳遞至收斂.為了有效提高關(guān)鍵詞提取效果,將根據(jù)關(guān)鍵詞出現(xiàn)的頻次與語料庫中的頻數(shù)的算術(shù)平均值來確定每個詞語的權(quán)重值,其值越大表示對主題的表現(xiàn)力越好.關(guān)鍵詞提取的流程見圖3.
(1)成果文本預處理.利用語句分隔符對科技成果描述信息進行切分,通過分詞器和領(lǐng)域詞典對切分后的信息進行分詞,通過詞表過濾停用詞、代詞、指示詞等詞語,保留與語義相關(guān)的名詞、動詞、形容詞等包含科技成果關(guān)鍵信息的詞語.
(2)構(gòu)建圖模型.根據(jù)第一步得到的詞匯,構(gòu)建以詞語為節(jié)點的圖模型G(V,E),V表示詞語節(jié)點集合,E表示節(jié)點間邊的集合.以參數(shù)值k滑動窗口對兩節(jié)點包含的詞匯進行標記,當兩節(jié)點之間的詞語存在共現(xiàn)關(guān)系時,則兩節(jié)點間將存一條邊,遍歷所有節(jié)點,得到所有的邊.
(3)計算節(jié)點權(quán)重.根據(jù)節(jié)點權(quán)重公式,迭代計算所有分詞節(jié)點的權(quán)重值,直至收斂到可接受的區(qū)間值,則停止計算,此時,節(jié)點權(quán)重值越大說明該節(jié)點攜帶越多的關(guān)鍵信息.
(4)節(jié)點排序.遍歷圖中所有節(jié)點,根據(jù)迭代收斂時的權(quán)重對節(jié)點排序.
(5)提取關(guān)鍵詞.將排序得到權(quán)重較大的前N個詞語當作對應科技成果的關(guān)鍵詞,并在原文中標注.
科技成果是對某領(lǐng)域的科學技術(shù)進行研究取得的具有一定學術(shù)或應用價值的成果.科技成果信息來自不同部門、不同單位,涉及政治、經(jīng)濟、文化等方面的敏感信息,甚至國家機密,因此,為了防止數(shù)據(jù)篡改和非法訪問,有必要利用訪問控制策略對科技成果信息按權(quán)限受限地訪問控制[8].科技成果轉(zhuǎn)化平臺的用戶可劃分為企業(yè)用戶、專家人才、科研院所、高等院校、科技管理部門五類,因此,在用戶與權(quán)限之間引入相應的五類角色,一個用戶擁有若干角色,一個角色擁有若干權(quán)限.通過角色分配實現(xiàn)用戶與權(quán)限之間的關(guān)聯(lián),通過權(quán)限授予實現(xiàn)權(quán)限與資源之間的關(guān)聯(lián),從而避免了用戶與資源直接關(guān)聯(lián),實現(xiàn)了按用戶角色權(quán)限受限地對系統(tǒng)功能進行訪問控制,訪問控制模型如圖4所示.
在上面的訪問控制過程中,通過角色實現(xiàn)了用戶與訪問資源的邏輯分離.一方面它有利于簡化授權(quán)過程,另一方面有利于多樣化的安全策略.
圖4 基于角色訪問控制模型
遵循資源共享、效益共贏、動態(tài)發(fā)展的原則,結(jié)合科技成果轉(zhuǎn)化的實際需求,筆者將相關(guān)技術(shù)應用于某市科技成果轉(zhuǎn)化平臺中.主要實現(xiàn)了通知管理(短信管理、平臺通知、政策法規(guī)、推送提醒)、成果管理(成果信息、成果展示、成果評估)、需求管理(成果需求、人才需求、評估需求)、交易管理(意向管理、在線競價、合同管理、成果成效)、數(shù)據(jù)服務(數(shù)據(jù)查詢、統(tǒng)計分析、數(shù)據(jù)報表、服務接口)、用戶管理(人才管理、企業(yè)管理、管理員管理、信息審核)、系統(tǒng)管理(數(shù)據(jù)備份、數(shù)據(jù)還原、用戶角色、角色權(quán)限、修改口令)等功能,有效地疏通了科技成果轉(zhuǎn)化的上、中、下游的各環(huán)節(jié),解決了科技成果轉(zhuǎn)化過程中的信息不對稱問題,提高了科技成果資源的綜合利用能力,促進了科技成果的轉(zhuǎn)化.
構(gòu)建科技成果轉(zhuǎn)化平臺是貫徹落實科技創(chuàng)新思想、實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略的一個具體措施,是促進科技成果轉(zhuǎn)化的主要手段.文中針對實際的需求,提出了一個科技成果轉(zhuǎn)化平臺框架,通過該框架解決了異構(gòu)業(yè)務數(shù)據(jù)的動態(tài)集成、用戶檢索效率低、保障數(shù)據(jù)安全等關(guān)鍵問題,并通過實例證明了它的可行性和實用性.平臺的構(gòu)建將有效解決科技成果與市場需求之間信息不對稱難題,使科技成果與市場緊密的聯(lián)系在一起,真正有效地促進科技成果的轉(zhuǎn)化,實現(xiàn)科技成果的產(chǎn)業(yè)化.