華斌 趙三珊 陸啟宇 黃興德 張堰華
(1.國(guó)網(wǎng)上海市電力公司,上海 200120;2.國(guó)網(wǎng)上海市電力公司電力科學(xué)研究院,上海 200437;3.上海久隆企業(yè)管理咨詢(xún)有限公司,上海 200052)
電網(wǎng)企業(yè)涉及的技術(shù)領(lǐng)域廣泛、高端裝備密集,是我國(guó)科技創(chuàng)新的中堅(jiān)力量。在能源革命和數(shù)字革命相融合的趨勢(shì)下占領(lǐng)電力技術(shù)與互聯(lián)網(wǎng)技術(shù)的融合高地,成為企業(yè)創(chuàng)新的重中之重。隨著大數(shù)據(jù)時(shí)代的到來(lái),信息的規(guī)?;?、實(shí)時(shí)化、碎片化趨勢(shì)不斷加劇,科技決策者識(shí)別技術(shù)前沿、熱點(diǎn)面臨更大挑戰(zhàn),科研人員搜尋、整合、分析科技資源面臨更大難度。電網(wǎng)企業(yè)有必要建設(shè)數(shù)字化服務(wù)體系,為破解大數(shù)據(jù)時(shí)代的科技創(chuàng)新難題提供解決方案。
電網(wǎng)企業(yè)的信息化工作啟動(dòng)較早,早在2010年左右就著手構(gòu)建公共數(shù)據(jù)模型,部署各類(lèi)業(yè)務(wù)信息系統(tǒng)。目前,科技工作管理系統(tǒng)服務(wù)于日??萍脊芾砗蜆I(yè)務(wù)開(kāi)展,包含科技項(xiàng)目管理、實(shí)驗(yàn)室管理、科研團(tuán)隊(duì)管理、技術(shù)標(biāo)準(zhǔn)管理等模塊,經(jīng)過(guò)長(zhǎng)期使用,系統(tǒng)中沉淀了大量數(shù)據(jù)資源,包括項(xiàng)目建議書(shū)、可研報(bào)告、項(xiàng)目成果、實(shí)驗(yàn)室列表、人才清單等,為數(shù)據(jù)價(jià)值的進(jìn)一步挖掘奠定了基礎(chǔ)。此外,電網(wǎng)企業(yè)還高度重視科技文獻(xiàn)資源的數(shù)字化,通過(guò)自建或購(gòu)買(mǎi)的方式,擁有了10余種國(guó)內(nèi)外文獻(xiàn)數(shù)據(jù)庫(kù),例如,中國(guó)知網(wǎng)期刊數(shù)據(jù)庫(kù)、中國(guó)知網(wǎng)學(xué)位論文數(shù)據(jù)庫(kù)、國(guó)研數(shù)據(jù)庫(kù)、超星讀秀全文數(shù)據(jù)庫(kù)等。
總的來(lái)說(shuō),電網(wǎng)企業(yè)以往的數(shù)字化工作集中于業(yè)務(wù)系統(tǒng)、科技資源建設(shè)兩方面,已經(jīng)難以適應(yīng)數(shù)字化時(shí)代對(duì)科技創(chuàng)新提出的新要求,具體體現(xiàn)在3個(gè)方面。
(1)文獻(xiàn)資源分布零散,信息查找存在不便。企業(yè)購(gòu)買(mǎi)及在建的各個(gè)數(shù)據(jù)庫(kù)之間相互獨(dú)立,查找文獻(xiàn)需要以不同的登錄賬戶和密碼登錄,反復(fù)登錄不同的數(shù)據(jù)庫(kù),文獻(xiàn)查找的效率較低。(2)數(shù)據(jù)關(guān)聯(lián)尚未建立,難以開(kāi)展深入分析。科技創(chuàng)新相關(guān)的各類(lèi)數(shù)據(jù),如論文、專(zhuān)利、項(xiàng)目、人才等均孤立存在,尚未構(gòu)成拓?fù)浣Y(jié)構(gòu)網(wǎng)絡(luò)。因此,難以開(kāi)展數(shù)據(jù)關(guān)聯(lián)分析,難以提供深層次洞見(jiàn)。(3)輔助決策支撐較弱,數(shù)字智能有待挖掘。現(xiàn)有的信息系統(tǒng)側(cè)重于業(yè)務(wù)管理,然而科技創(chuàng)新中還存在著大量決策類(lèi)工作,如技術(shù)布局、合作方優(yōu)選、立項(xiàng)優(yōu)選等。目前,這類(lèi)決策主要依賴(lài)專(zhuān)家根據(jù)以往經(jīng)驗(yàn)制定,缺乏數(shù)據(jù)驅(qū)動(dòng)的量化決策依據(jù)。
知識(shí)圖譜由谷歌公司于2012年提出[1],是一種用圖模型來(lái)描述知識(shí)和建模世間萬(wàn)物的關(guān)聯(lián)關(guān)系的技術(shù)方法,知識(shí)圖譜由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)可以是實(shí)體或是抽象的概念,邊可以是實(shí)體的屬性或?qū)嶓w之間的關(guān)系[2]。知識(shí)圖譜可以很好地輔助機(jī)器進(jìn)行語(yǔ)義的理解和語(yǔ)言的生成,從而在智能搜索、自動(dòng)問(wèn)答、智能推薦、智能決策等各個(gè)領(lǐng)域得到廣泛應(yīng)用[3]。
在科技創(chuàng)新領(lǐng)域,一些文獻(xiàn)對(duì)知識(shí)圖譜的應(yīng)用方向進(jìn)行了探討。陳璐等基于中國(guó)知網(wǎng)收錄的1627篇文獻(xiàn),利用Citespace繪制作者、機(jī)構(gòu)、關(guān)鍵詞知識(shí)圖譜,分析我國(guó)高??萍汲晒芯款I(lǐng)域的主要力量、研究熱點(diǎn)、研究趨勢(shì)等[4];劉磊等基于CSSCI收錄的4228篇論文,利用Citespace繪制科技成果轉(zhuǎn)化研究知識(shí)圖譜,分析我國(guó)科技成果轉(zhuǎn)化的研究熱點(diǎn)和前沿領(lǐng)域[5];劉志輝等通過(guò)構(gòu)建科技創(chuàng)新評(píng)價(jià)指標(biāo)知識(shí)圖譜,建立指標(biāo)與指標(biāo)、指標(biāo)與數(shù)據(jù)、指標(biāo)與可視化的關(guān)聯(lián),實(shí)現(xiàn)指標(biāo)的自適應(yīng)評(píng)價(jià)計(jì)算[6];周園春等介紹了科技大數(shù)據(jù)知識(shí)圖譜在科技實(shí)體推薦、科技社區(qū)發(fā)現(xiàn)、科技實(shí)體評(píng)價(jià)、學(xué)科交叉及學(xué)科演化研究等方面的應(yīng)用[7]。此外,還有一些文獻(xiàn)對(duì)科技創(chuàng)新知識(shí)圖譜平臺(tái)的建設(shè)進(jìn)行了研究。胡吉穎等依托中國(guó)科學(xué)院文獻(xiàn)情報(bào)研究中心,構(gòu)建基于知識(shí)圖譜的科技大數(shù)據(jù)知識(shí)發(fā)現(xiàn)平臺(tái),實(shí)現(xiàn)論文、專(zhuān)利、標(biāo)準(zhǔn)、項(xiàng)目等10類(lèi)科研實(shí)體的智能語(yǔ)義發(fā)現(xiàn),支持語(yǔ)義搜索、科研綜述、主體聚合分析、學(xué)者畫(huà)像等功能[8];于升峰基于期刊論文、專(zhuān)利文獻(xiàn)、科技成果、機(jī)構(gòu)人才等數(shù)據(jù)庫(kù),構(gòu)建科技智庫(kù)知識(shí)圖譜,實(shí)現(xiàn)專(zhuān)家畫(huà)像、聚類(lèi)分析、趨勢(shì)分析等功能[9]。
電網(wǎng)企業(yè)從科技創(chuàng)新數(shù)字化需求出發(fā),借鑒知識(shí)圖譜相關(guān)研究,提出了技術(shù)圖譜這一理念。技術(shù)圖譜是反映能源互聯(lián)網(wǎng)領(lǐng)域的技術(shù)領(lǐng)域、研究、關(guān)鍵詞、研究者、研究機(jī)構(gòu)及其之間拓?fù)潢P(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)圖譜,其本質(zhì)是能源互聯(lián)網(wǎng)技術(shù)的知識(shí)圖譜。技術(shù)圖譜中實(shí)體的關(guān)聯(lián)關(guān)系如圖1所示。
圖1 技術(shù)圖譜中實(shí)體的關(guān)聯(lián)關(guān)系
技術(shù)圖譜的核心是基于圖的數(shù)據(jù)組織方式與可視化展現(xiàn)形式,與傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)及呈現(xiàn)形式相比,具有以下4個(gè)方面的顯著優(yōu)勢(shì):
(1)實(shí)體關(guān)系更加直觀:技術(shù)圖譜由節(jié)點(diǎn)和邊構(gòu)成,每個(gè)節(jié)點(diǎn)代表一個(gè)科技創(chuàng)新相關(guān)實(shí)體,如關(guān)鍵詞、研究者、研究機(jī)構(gòu)等,每?jī)蓚€(gè)節(jié)點(diǎn)之間的連線構(gòu)成邊,反映實(shí)體之間的關(guān)系,比如研究者和機(jī)構(gòu)的隸屬關(guān)系、關(guān)鍵詞間的共現(xiàn)關(guān)系等。因此,技術(shù)圖譜可以全面、客觀地呈現(xiàn)能源互聯(lián)網(wǎng)技術(shù)體系以及科研生態(tài)系統(tǒng)。
(2)知識(shí)發(fā)現(xiàn)更加高效:技術(shù)圖譜以圖的方式為孤立的單點(diǎn)數(shù)據(jù)之間建立聯(lián)系,通過(guò)復(fù)雜網(wǎng)絡(luò)算法開(kāi)展數(shù)據(jù)分析,可以發(fā)現(xiàn)隱藏信息。例如,通過(guò)開(kāi)展節(jié)點(diǎn)中心性分析、社團(tuán)分析、路徑分析等,可以有效發(fā)現(xiàn)技術(shù)集群、研究熱點(diǎn)、科研團(tuán)體、學(xué)科帶頭人等,從而提高對(duì)科技創(chuàng)新工作的洞察力。
(3)信息匹配更加精準(zhǔn):搜索與推薦是互聯(lián)網(wǎng)時(shí)代人們獲取信息的重要方式。技術(shù)圖譜對(duì)科技創(chuàng)新相關(guān)的實(shí)體、屬性和關(guān)系進(jìn)行描述,為搜索和推薦提供豐富的背景知識(shí),有利于搜索引擎理解用戶意圖,實(shí)現(xiàn)語(yǔ)義搜索;有利于推薦算法深層次發(fā)現(xiàn)用戶興趣,提高推薦精度。
(4)決策支撐更加量化:在技術(shù)圖譜上應(yīng)用知識(shí)推理技術(shù),可以根據(jù)已知的知識(shí)推導(dǎo)出新知識(shí),從而發(fā)現(xiàn)科技創(chuàng)新各類(lèi)實(shí)體的特征標(biāo)識(shí)。通過(guò)補(bǔ)全和泛化實(shí)體“標(biāo)簽”,并量化“標(biāo)簽”權(quán)重,自動(dòng)形成科技創(chuàng)新實(shí)體的全方位畫(huà)像,實(shí)現(xiàn)智能化輔助決策,降低對(duì)經(jīng)驗(yàn)的依賴(lài)。
電網(wǎng)企業(yè)的科技創(chuàng)新全過(guò)程包括科技規(guī)劃、選題立項(xiàng)、研究開(kāi)發(fā)、成果轉(zhuǎn)化、科研人才培養(yǎng)等工作模塊。技術(shù)圖譜可以應(yīng)用于以下5類(lèi)主要場(chǎng)景中,為科技創(chuàng)新工作提供有力支撐。
3.3.1 基于技術(shù)圖譜的可視化展示
技術(shù)圖譜擅長(zhǎng)復(fù)雜關(guān)系的刻畫(huà),科技創(chuàng)新工作中存在的主要關(guān)系包括,文獻(xiàn)與技術(shù)領(lǐng)域的隸屬關(guān)系、文獻(xiàn)之間的引用關(guān)系、研究者之間的合作關(guān)系等。因此,電網(wǎng)企業(yè)可以依托科技文獻(xiàn)數(shù)據(jù)構(gòu)建各類(lèi)關(guān)系網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)科技創(chuàng)新要素關(guān)系的可視化全景展示。
(1)技術(shù)方向共現(xiàn)網(wǎng)絡(luò):圖中的每一個(gè)節(jié)點(diǎn)代表一個(gè)技術(shù)方向,節(jié)點(diǎn)大小代表該技術(shù)方向的文獻(xiàn)數(shù)量,連接節(jié)點(diǎn)的邊代表一篇文獻(xiàn)同時(shí)屬于兩個(gè)技術(shù)方向。因此,節(jié)點(diǎn)越大代表該技術(shù)方向的文獻(xiàn)越多,連線越粗代表同時(shí)屬于兩個(gè)技術(shù)方向的文獻(xiàn)越多。
(2)文獻(xiàn)共被引網(wǎng)絡(luò):圖中的每一個(gè)節(jié)點(diǎn)代表一篇文獻(xiàn),節(jié)點(diǎn)大小代表該文獻(xiàn)被引用的總次數(shù),連接節(jié)點(diǎn)的邊代表兩篇文獻(xiàn)同時(shí)被另一篇文獻(xiàn)引用。因此,節(jié)點(diǎn)越大代表該文獻(xiàn)被引用得越多,連線越粗代表兩篇文獻(xiàn)越傾向于被共同引用。
(3)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò):該圖譜中每一個(gè)節(jié)點(diǎn)代表一個(gè)關(guān)鍵詞,節(jié)點(diǎn)大小代表所有文獻(xiàn)中該關(guān)鍵詞的出現(xiàn)頻次,連接節(jié)點(diǎn)的邊代表兩個(gè)關(guān)鍵詞同時(shí)出現(xiàn)在一篇文獻(xiàn)中。因此,節(jié)點(diǎn)越大代表該關(guān)鍵詞越常見(jiàn),連線越粗代表兩個(gè)關(guān)鍵詞越傾向于同時(shí)出現(xiàn)。
(4)作者合作網(wǎng)絡(luò):該圖譜中的每一個(gè)節(jié)點(diǎn)代表一位作者,節(jié)點(diǎn)大小代表該作者參與的所有文獻(xiàn)數(shù)量,連接節(jié)點(diǎn)的邊代表兩位作者共同參與某一篇文獻(xiàn)發(fā)表。因此,節(jié)點(diǎn)越大代表該作者越高產(chǎn),連線越粗代表兩位作者越經(jīng)常合作發(fā)表文獻(xiàn)。
3.3.2 基于技術(shù)圖譜的圖計(jì)算
技術(shù)圖譜以圖作為數(shù)據(jù)模型表達(dá)關(guān)系,可以通過(guò)圖計(jì)算的方式尋找圖譜中節(jié)點(diǎn)間的隱含聯(lián)系,為科技創(chuàng)新工作提供深度洞察力,典型的應(yīng)用場(chǎng)景包括路徑發(fā)現(xiàn)、社團(tuán)發(fā)現(xiàn)和關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)。
(1)路徑發(fā)現(xiàn)。路徑發(fā)現(xiàn)是探索網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)之間主路徑的一種算法,通過(guò)定義節(jié)點(diǎn)起始和終止節(jié)點(diǎn),從起始節(jié)點(diǎn)開(kāi)始遍歷關(guān)系直到到達(dá)終止節(jié)點(diǎn),累計(jì)遍歷權(quán)重最大的路徑即為主路徑[10]。路徑發(fā)現(xiàn)可以用于梳理研究脈絡(luò)或人脈網(wǎng)絡(luò)。例如,在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中運(yùn)用路徑發(fā)現(xiàn),可以識(shí)別研究主題之間演變的主要脈絡(luò)和重要節(jié)點(diǎn),為多個(gè)項(xiàng)目協(xié)同立項(xiàng)提供參考;在作者合作網(wǎng)絡(luò)中運(yùn)用路徑發(fā)現(xiàn),可以發(fā)現(xiàn)兩位研究者合作的主要人際鏈條,為聯(lián)系外部專(zhuān)家提供中間引薦人人選。
(2)社團(tuán)發(fā)現(xiàn)。社團(tuán)發(fā)現(xiàn)是探索圖上多個(gè)節(jié)點(diǎn)之間親疏關(guān)系的一類(lèi)算法,代表性的包括Louvain和LPA算法。其中,Louvain算法基于模塊度發(fā)現(xiàn)社團(tuán)[11],具有良好的效率和穩(wěn)定性;LPA算法基于標(biāo)簽傳播發(fā)現(xiàn)社團(tuán)[12],由于其簡(jiǎn)單易實(shí)現(xiàn)、執(zhí)行時(shí)間短受到廣泛關(guān)注。社團(tuán)發(fā)現(xiàn)可以用于識(shí)別技術(shù)集群或研究團(tuán)隊(duì)。例如,在技術(shù)方向共現(xiàn)網(wǎng)絡(luò)中運(yùn)用社團(tuán)發(fā)現(xiàn),可以識(shí)別關(guān)系密切的技術(shù)團(tuán)體,團(tuán)體內(nèi)的技術(shù)應(yīng)考慮協(xié)同立項(xiàng)和研發(fā);在作者合作網(wǎng)絡(luò)中運(yùn)用社團(tuán)發(fā)現(xiàn),可以識(shí)別經(jīng)常合作的科研團(tuán)隊(duì),為組建項(xiàng)目團(tuán)隊(duì)成員提供重要參考。社團(tuán)發(fā)現(xiàn)的應(yīng)用如圖2所示。
圖2 社團(tuán)發(fā)現(xiàn)示意圖
(3)關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)。關(guān)鍵節(jié)點(diǎn)是網(wǎng)絡(luò)中處于凝聚性或樞紐地位的節(jié)點(diǎn),代表性算法包括節(jié)點(diǎn)的度[13]、接近度[13]、介數(shù)[14]等。關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)可以用于識(shí)別重要實(shí)體。例如,關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)一般為熱點(diǎn)研究主題,作者合作網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)一般為高影響力的技術(shù)專(zhuān)家。關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)的應(yīng)用如圖3所示。
圖3 關(guān)鍵節(jié)點(diǎn)發(fā)現(xiàn)示意圖
3.3.3 基于技術(shù)圖譜的檢索
搜索引擎是互聯(lián)網(wǎng)基礎(chǔ)應(yīng)用之一,傳統(tǒng)搜索引擎以文本分析為核心,根據(jù)網(wǎng)頁(yè)之間的超鏈接返回結(jié)果,往往不能滿足用戶的需求。技術(shù)圖譜支持語(yǔ)義搜索,能有效提高搜索結(jié)果的全面性和準(zhǔn)確性。
(1)擴(kuò)大召回范圍。例如,用戶查詢(xún)關(guān)鍵詞“上海市電力公司”時(shí),傳統(tǒng)搜索引擎會(huì)返回包含關(guān)鍵字“上海市電力公司”的網(wǎng)頁(yè)。技術(shù)圖譜提供的語(yǔ)義網(wǎng)絡(luò),支持按照主題而不是字符串檢索,因此,搜索引擎會(huì)進(jìn)行實(shí)體的等價(jià)推理和上下位關(guān)系推理,將研究機(jī)構(gòu)為“國(guó)網(wǎng)上海電力”“國(guó)網(wǎng)上海電科院”“浦東供電公司”等的科技文獻(xiàn)一并召回。
(2)提升對(duì)用戶搜索意圖的理解。例如,用戶查詢(xún)關(guān)鍵詞“上海電力公司”“虛擬電廠”時(shí),傳統(tǒng)搜索引擎會(huì)返回包含關(guān)鍵字“上海市電力公司”“虛擬電廠”的網(wǎng)頁(yè),因?yàn)樗阉饕鏇](méi)有理解用戶是想知道“上海市電力公司”在“虛擬電廠”領(lǐng)域的科技文獻(xiàn)。技術(shù)圖譜作為背景知識(shí),可以豐富對(duì)科技文獻(xiàn)的描述,因此,搜索引擎將根據(jù)“上海市電力公司”“虛擬電廠”兩個(gè)實(shí)體與科技文獻(xiàn)實(shí)體之間的鏈路關(guān)系返回搜索結(jié)果,匹配更加精準(zhǔn)。
3.3.4 基于技術(shù)圖譜的推薦
電網(wǎng)企業(yè)擁有海量的科技資源,用戶在資源搜索中存在信息過(guò)載問(wèn)題,推薦系統(tǒng)作為一種信息過(guò)濾的手段,能有效提高搜索效率和精度。傳統(tǒng)的推薦系統(tǒng)一般采用協(xié)同過(guò)濾算法,可能存在用戶和物品交互的稀疏性問(wèn)題,過(guò)擬合風(fēng)險(xiǎn)較大[15]。技術(shù)圖譜是文獻(xiàn)、作者、機(jī)構(gòu)等科技創(chuàng)新要素的語(yǔ)義網(wǎng)絡(luò),可以為推薦提供豐富的輔助性信息,大大提高推薦的精準(zhǔn)性。具體表現(xiàn)在以下方面:
(1)以文獻(xiàn)的屬性信息為輔助性信息:如果存在“研究A-屬性-屬性值A(chǔ)”以及“研究B-屬性-屬性值B”的三元組關(guān)系,且屬性值A(chǔ)=屬性值B,那么可以向?qū)ξ墨I(xiàn)A感興趣的用戶推薦文獻(xiàn)B。
(2)以文獻(xiàn)的引用關(guān)系為輔助性信息:如果存在“研究A-引用-研究 B”的三元組關(guān)系,那么可以向?qū)ξ墨I(xiàn)A感興趣的用戶推薦文獻(xiàn)B。
(3)以作者合作網(wǎng)絡(luò)為輔助性信息:如果存在“作者A-研究-作者B”的三元組關(guān)系,則作者A、作者B之間存在合作關(guān)系,那么可以向作者B推薦作者A感興趣的文獻(xiàn)。
3.3.5 基于技術(shù)圖譜的輔助決策
在科技創(chuàng)新工作中,管理者面臨著為科研項(xiàng)目遴選合作方、評(píng)審專(zhuān)家,團(tuán)隊(duì)成員等問(wèn)題,傳統(tǒng)上一般依賴(lài)管理人員的經(jīng)驗(yàn)決策。以技術(shù)圖譜為依托,為科研機(jī)構(gòu)和人才構(gòu)建畫(huà)像,得到高度精練的特征標(biāo)識(shí)和量化的評(píng)價(jià)結(jié)果,可以有效提高相關(guān)決策的科學(xué)性?;诩夹g(shù)圖譜的輔助決策實(shí)現(xiàn)步驟如下:
(1)明確決策需求。決策需求來(lái)源于業(yè)務(wù)場(chǎng)景,以為某項(xiàng)目?jī)?yōu)選項(xiàng)目經(jīng)理為例,項(xiàng)目和人才所屬專(zhuān)業(yè)領(lǐng)域的高匹配性,是人才優(yōu)選的首要需求。因此,運(yùn)用自然語(yǔ)言處理技術(shù),采用分詞算法對(duì)項(xiàng)目建議書(shū)進(jìn)行詞語(yǔ)切分和解析,采用TF-IDF、TextRank、主題模型等提取算法提煉出選題中的關(guān)鍵詞以及對(duì)應(yīng)的權(quán)重值,作為該課題所屬的技術(shù)領(lǐng)域標(biāo)簽。
(2)項(xiàng)目標(biāo)簽的語(yǔ)義泛化。將項(xiàng)目的技術(shù)領(lǐng)域標(biāo)簽與技術(shù)圖譜中的“技術(shù)領(lǐng)域”類(lèi)實(shí)體進(jìn)行匹配,從匹配到的實(shí)體出發(fā),采用隨機(jī)游走算法,利用技術(shù)圖譜提供的實(shí)體間關(guān)聯(lián)關(guān)系,計(jì)算各實(shí)體節(jié)點(diǎn)被訪問(wèn)到的概率,概率高的“技術(shù)領(lǐng)域”類(lèi)實(shí)體可以作為項(xiàng)目的新標(biāo)簽,從而實(shí)現(xiàn)項(xiàng)目標(biāo)簽的泛化。例如,從初始技術(shù)類(lèi)實(shí)體“可再生能源”去技術(shù)圖譜中隨機(jī)游走,很可能找到“風(fēng)力發(fā)電”“水力發(fā)電”等在項(xiàng)目中未提及但語(yǔ)義相關(guān)性強(qiáng)的實(shí)體。
(3)人才標(biāo)簽補(bǔ)全。以科研人員的合作網(wǎng)絡(luò)為依托,利用知識(shí)推理去擴(kuò)充、補(bǔ)全人才標(biāo)簽。知識(shí)推理技術(shù)旨在依據(jù)現(xiàn)有的知識(shí)信息推導(dǎo)出新知識(shí),包括實(shí)體關(guān)系、屬性等,或者識(shí)別出錯(cuò)誤關(guān)系。例如,某科研人員并未發(fā)表過(guò)某技術(shù)領(lǐng)域的文章,但根據(jù)該科研人員的合作網(wǎng)絡(luò),大部分密切聯(lián)系人都擁有該技術(shù)的標(biāo)簽,則可以推理出該科研人員也應(yīng)該擁有這個(gè)標(biāo)簽,從而找到科研人員的缺失標(biāo)簽。
(4)生成候選清單。在技術(shù)圖譜中篩選身份信息是公司科研人員、技術(shù)領(lǐng)域標(biāo)簽與項(xiàng)目標(biāo)簽相匹配的人員,形成項(xiàng)目經(jīng)理候選人列表。接著,構(gòu)建推薦值計(jì)算模型,考慮“年齡”“曾承擔(dān)項(xiàng)目數(shù)”“曾承擔(dān)項(xiàng)目評(píng)審得分”“以往項(xiàng)目成果質(zhì)量”等高度相關(guān)的因素,科學(xué)設(shè)置各指標(biāo)權(quán)重,計(jì)算生成推薦得分,根據(jù)推薦值從高到低選出適合的項(xiàng)目經(jīng)理。
以公司領(lǐng)導(dǎo)、科技管理者、科研人員、人才管理者為服務(wù)對(duì)象,構(gòu)建科技創(chuàng)新數(shù)字化平臺(tái),為技術(shù)圖譜各類(lèi)應(yīng)用場(chǎng)景的落地提供數(shù)字化載體??萍紕?chuàng)新數(shù)字化平臺(tái)整體上包括3層結(jié)構(gòu):數(shù)據(jù)資源層、智能分析層和智慧應(yīng)用層。如圖4所示。
圖4 企業(yè)級(jí)科技創(chuàng)新數(shù)字化平臺(tái)的總體構(gòu)想
數(shù)據(jù)資源層集成了海量的企業(yè)內(nèi)、外部數(shù)據(jù),根據(jù)原始元數(shù)據(jù)的特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行補(bǔ)足、去重、剔除異常值、分類(lèi)、索引等處理,構(gòu)建面向科技創(chuàng)新工作的數(shù)據(jù)倉(cāng)庫(kù)。目前,電網(wǎng)企業(yè)的外部數(shù)據(jù)庫(kù)主要包括中外文論文數(shù)據(jù)庫(kù)、期刊數(shù)據(jù)庫(kù)、專(zhuān)利數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)、科技成果數(shù)據(jù)庫(kù)等,內(nèi)部數(shù)據(jù)庫(kù)主要包括科技人員數(shù)據(jù)庫(kù)、項(xiàng)目立項(xiàng)數(shù)據(jù)庫(kù)、項(xiàng)目評(píng)審數(shù)據(jù)庫(kù)、項(xiàng)目成果數(shù)據(jù)庫(kù)、實(shí)驗(yàn)室數(shù)據(jù)庫(kù)、企業(yè)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)等。以上數(shù)據(jù)庫(kù)均屬于結(jié)構(gòu)化數(shù)據(jù)庫(kù),可以利用數(shù)據(jù)收割工具直接導(dǎo)出元數(shù)據(jù)。
智能分析層集成了各類(lèi)數(shù)據(jù)分析工具,可以對(duì)數(shù)據(jù)資源層中的元數(shù)據(jù)進(jìn)行處理和運(yùn)算,形成技術(shù)圖譜內(nèi)核,對(duì)智慧應(yīng)用層構(gòu)成支撐。主要數(shù)據(jù)分析工具包括以下3類(lèi):
(1)自然語(yǔ)言處理工具:大部分科技數(shù)據(jù)以文本的形式存在,如論文、專(zhuān)利、標(biāo)準(zhǔn)等,自然語(yǔ)言處理工具包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、文本分類(lèi)等工具,可以將人類(lèi)語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)能夠理解的語(yǔ)言,從而提煉文獻(xiàn)的主題關(guān)鍵詞。
(2)技術(shù)圖譜構(gòu)建工具:技術(shù)圖譜的構(gòu)建涉及知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)、知識(shí)加工等核心技術(shù)。在知識(shí)抽取中,利用圖映射、D2R轉(zhuǎn)換工具抽取結(jié)構(gòu)化數(shù)據(jù),利用包裝器抽取半結(jié)構(gòu)化數(shù)據(jù),利用詞典、統(tǒng)計(jì)機(jī)器學(xué)習(xí)工具等抽取文本數(shù)據(jù);在知識(shí)融合中,利用空間向量模型、語(yǔ)義模型、社會(huì)網(wǎng)絡(luò)模型等算法進(jìn)行實(shí)體消歧,利用Hobbs算法、C4.5決策樹(shù)算法等實(shí)現(xiàn)共指消解;在知識(shí)存儲(chǔ)中,利用Neo4j圖數(shù)據(jù)庫(kù)對(duì)實(shí)體和關(guān)系進(jìn)行映射;在知識(shí)加工中,利用神經(jīng)網(wǎng)絡(luò)模型、Path Ranking算法等開(kāi)展知識(shí)推理。通過(guò)以上工具的運(yùn)用,將論文、專(zhuān)利、標(biāo)準(zhǔn)中蘊(yùn)含的技術(shù)要素信息,如技術(shù)領(lǐng)域、關(guān)鍵詞、作者、機(jī)構(gòu)等,最終以節(jié)點(diǎn)和邊構(gòu)成的網(wǎng)絡(luò)狀圖譜呈現(xiàn)。
(3)技術(shù)圖譜分析工具:技術(shù)圖譜是復(fù)雜網(wǎng)絡(luò)的一種表現(xiàn)形式,以圖論為基礎(chǔ)的各種圖算法都可以對(duì)技術(shù)圖譜進(jìn)行有效分析,包括,路徑發(fā)現(xiàn)算法、社團(tuán)發(fā)現(xiàn)算法、中心性算法等;此外,相關(guān)分析、回歸分析、因子分析等傳統(tǒng)算法也是數(shù)據(jù)分析工具的重要組成部分。
智慧應(yīng)用層面向公司領(lǐng)導(dǎo)、科創(chuàng)管理者、科研人員和人才管理者,圍繞其工作場(chǎng)景設(shè)計(jì)可視化界面及應(yīng)用功能,提供科技創(chuàng)新數(shù)字化服務(wù)的一站式解決方案。主要包括:
(1)技術(shù)圖譜可視化:構(gòu)建技術(shù)圖譜可視化展示界面,形成共現(xiàn)網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)及合作網(wǎng)絡(luò),使科技創(chuàng)新人員能夠全面概覽能源互聯(lián)網(wǎng)領(lǐng)域的技術(shù)領(lǐng)域、科研機(jī)構(gòu)、研究人員等。(2)基于技術(shù)圖譜的圖計(jì)算:構(gòu)建圖計(jì)算分析引擎,用戶可以選擇分析類(lèi)別及具體算法,開(kāi)展中心性分析、社團(tuán)分析、路徑分析,從技術(shù)圖譜中挖掘潛在信息。(3)科技資源檢索:構(gòu)建一站式檢索入口,可根據(jù)用戶輸入的關(guān)鍵詞橫跨多個(gè)數(shù)據(jù)庫(kù)檢索,并利用技術(shù)圖譜實(shí)現(xiàn)語(yǔ)義搜索,提高檢索結(jié)果的準(zhǔn)確性。(4)科技資源推薦:構(gòu)建基于技術(shù)圖譜的推薦系統(tǒng),依托豐富的語(yǔ)義信息,實(shí)現(xiàn)主動(dòng)精準(zhǔn)推薦。(5)數(shù)字化輔助決策:根據(jù)公司領(lǐng)導(dǎo)、科創(chuàng)管理者、人才管理者面臨的常見(jiàn)決策場(chǎng)景,設(shè)計(jì)“戰(zhàn)略合作方優(yōu)選”“項(xiàng)目專(zhuān)家優(yōu)選”“項(xiàng)目團(tuán)隊(duì)成員優(yōu)選”等輔助決策模塊,提供量化決策依據(jù)。
電網(wǎng)企業(yè)是我國(guó)建設(shè)創(chuàng)新型社會(huì)的主力軍,在大數(shù)據(jù)時(shí)代,信息的極大豐富化、復(fù)雜化對(duì)科技創(chuàng)新提出了新挑戰(zhàn),同時(shí),數(shù)據(jù)存儲(chǔ)、處理及分析技術(shù)的逐步成熟,也為科技創(chuàng)新數(shù)字化提供了有利條件。本文以電網(wǎng)企業(yè)為例,介紹了技術(shù)圖譜的內(nèi)涵、特征及應(yīng)用場(chǎng)景,并提出了基于技術(shù)圖譜的科技創(chuàng)新數(shù)字化服務(wù)平臺(tái)的構(gòu)建方法,可以為我國(guó)企業(yè)推進(jìn)科技創(chuàng)新數(shù)字化轉(zhuǎn)型提供參考和借鑒。