冉從敬,宋 凱,趙倩蓉,王 義
在經(jīng)濟(jì)全球化時(shí)代,技術(shù)創(chuàng)新對(duì)推動(dòng)經(jīng)濟(jì)發(fā)展具有重要意義,尤其在高新技術(shù)產(chǎn)業(yè)中,企業(yè)之間競(jìng)爭(zhēng)激烈,對(duì)企業(yè)技術(shù)創(chuàng)造力提出更高挑戰(zhàn)。隨著新技術(shù)復(fù)雜度提高,單一企業(yè)完成技術(shù)創(chuàng)新的難度愈發(fā)增加。因此,自20世紀(jì)80年代以來(lái),高校和企業(yè)之間的產(chǎn)學(xué)研合作行為大量涌現(xiàn),已逐漸成為世界各國(guó)技術(shù)創(chuàng)新的主流模式。校企之間充分發(fā)揮彼此優(yōu)勢(shì),鼎力合作,實(shí)現(xiàn)技術(shù)突破。1992年,由國(guó)家經(jīng)貿(mào)委、國(guó)家教委和中國(guó)科學(xué)院聯(lián)合組織實(shí)施“產(chǎn)學(xué)研聯(lián)合開發(fā)工程”,這一工程對(duì)促進(jìn)我國(guó)產(chǎn)學(xué)研合作、推動(dòng)我國(guó)科技與經(jīng)濟(jì)的發(fā)展發(fā)揮了重要作用。2015年3月,《中共中央 國(guó)務(wù)院關(guān)于深化體制機(jī)制改革加快實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的若干意見》發(fā)布,要求緊扣經(jīng)濟(jì)社會(huì)發(fā)展重大需求,著力打通科技成果向現(xiàn)實(shí)生產(chǎn)力轉(zhuǎn)化的通道,把創(chuàng)新成果變成實(shí)實(shí)在在的產(chǎn)業(yè)活動(dòng)[1]。2018年4月,《國(guó)務(wù)院關(guān)于落實(shí)<政府工作報(bào)告>重點(diǎn)工作部門分工的意見》發(fā)布,要求提供全方位創(chuàng)新創(chuàng)業(yè)服務(wù),鼓勵(lì)企業(yè)、高校和科研院所等開放創(chuàng)新資源,形成線上線下結(jié)合、產(chǎn)學(xué)研用協(xié)同、大中小企業(yè)融合的創(chuàng)新創(chuàng)業(yè)格局[2]。2019年1月,印發(fā)《國(guó)務(wù)院辦公廳關(guān)于抓好賦予科研機(jī)構(gòu)和人員更大自主權(quán)有關(guān)文件貫徹落實(shí)工作的通知》,要求各單位與企業(yè)通過股權(quán)合作、共同研發(fā)、互派人員、成果應(yīng)用等多種方式建立緊密的合作關(guān)系,支持科研人員深入企業(yè)進(jìn)行成果轉(zhuǎn)化[3]。一系列政策的頒布表明,企業(yè)通過與高校展開合作,對(duì)推進(jìn)資源的區(qū)域整合與共享,促進(jìn)高??萍汲晒D(zhuǎn)移轉(zhuǎn)化,推動(dòng)企業(yè)科技創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展深度融合具有重要意義。高校在技術(shù)研發(fā)、人才資源、實(shí)驗(yàn)條件方面具有相對(duì)優(yōu)勢(shì),而企業(yè)在技術(shù)轉(zhuǎn)化、就業(yè)崗位、資金支持上具有獨(dú)特優(yōu)勢(shì),兩者合作能實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),為推進(jìn)科技創(chuàng)新發(fā)展提供了實(shí)踐路徑。
學(xué)者從多個(gè)角度對(duì)校企合作展開探討。在研究校企合作影響因素方面,Rybnicek等系統(tǒng)論述影響校企合作的重要因素,如制度因素、關(guān)系因素、產(chǎn)出因素、框架因素[4]。Sjoo等采用系統(tǒng)性的文獻(xiàn)綜述和內(nèi)容分析法總結(jié)了校企合作創(chuàng)新的影響因素,包含文化、合作經(jīng)驗(yàn)、資源等[5]。劉桂鋒等運(yùn)用社會(huì)網(wǎng)絡(luò)分析法繪制“211工程”高校與企業(yè)之間的產(chǎn)學(xué)研專利合作網(wǎng)絡(luò),并重點(diǎn)探討了技術(shù)領(lǐng)域和地理距離對(duì)校企合作的影響[6]。劉繼紅等從高??蒲腥藛T角度,對(duì)校企知識(shí)轉(zhuǎn)移途徑及其影響因素進(jìn)行了系統(tǒng)研究[7]。在研究校企合作的促進(jìn)作用方面,Han等運(yùn)用負(fù)二項(xiàng)回歸法分析韓國(guó)135所高校技術(shù)轉(zhuǎn)移的影響因素,提出高校應(yīng)積極開展與民營(yíng)企業(yè)的合作,以提升技術(shù)轉(zhuǎn)移效率[8]。Nave等從企業(yè)家視角出發(fā),借助于半結(jié)構(gòu)化訪談法探討校企合作對(duì)企業(yè)可持續(xù)發(fā)展的影響[9]。孫玉濤等以社會(huì)網(wǎng)絡(luò)理論與資源基礎(chǔ)觀為基礎(chǔ),認(rèn)為在高校與其他機(jī)構(gòu)的研發(fā)合作過程中校企研發(fā)合作及其規(guī)模有利于高校技術(shù)轉(zhuǎn)移[10]。王曉紅等利用2007-2014年88所高校面板數(shù)據(jù),采用Sys-GMM模型,實(shí)證研究校企合作對(duì)我國(guó)高??蒲锌?jī)效的影響[11]。在研究校企合作演進(jìn)態(tài)勢(shì)方面,Lyu等基于社會(huì)網(wǎng)絡(luò)分析法和空間分析法,探索我國(guó)中關(guān)村企業(yè)、高校和科研機(jī)構(gòu)的合作創(chuàng)新發(fā)展趨勢(shì)[12]。張珩等基于國(guó)家知識(shí)產(chǎn)權(quán)局公開的1985-2015年江蘇省校企合作發(fā)明專利申請(qǐng)數(shù)據(jù),運(yùn)用社會(huì)網(wǎng)絡(luò)分析法,分析專利合作網(wǎng)絡(luò)結(jié)構(gòu)及空間分布演化路徑[13]。陸亦愷等以中國(guó)C9聯(lián)盟高校為研究對(duì)象,運(yùn)用社會(huì)網(wǎng)絡(luò)分析法,探討了我國(guó)高校專利合作的主要特征與模式[14]。許敏等基于71所高校與企業(yè)合作申請(qǐng)的發(fā)明專利數(shù)據(jù),運(yùn)用社會(huì)網(wǎng)絡(luò)分析法,分析了專利合作網(wǎng)絡(luò)空間分布特點(diǎn)與網(wǎng)絡(luò)結(jié)構(gòu)特征[15]。
綜上可見,目前已有研究集中在校企合作影響因素探索、校企合作促進(jìn)作用分析以及校企合作發(fā)展態(tài)勢(shì)揭示等方面,較少?gòu)暮献鲗?duì)象選擇的角度出發(fā),探討為企業(yè)提供最佳合作院校的選擇策略。校企合作是為了把市場(chǎng)需求和整體利益聯(lián)合起來(lái),采取多種方法所進(jìn)行的科研開發(fā)、咨詢服務(wù)等經(jīng)濟(jì)合作活動(dòng),是技術(shù)創(chuàng)新上游、中游、下游的融合。在企業(yè)的重點(diǎn)研究領(lǐng)域,與具備較強(qiáng)研發(fā)能力的科研團(tuán)隊(duì)展開合作,能夠進(jìn)一步深化技術(shù)研究,拓展創(chuàng)新邊界;在企業(yè)技術(shù)薄弱領(lǐng)域,通過校企合作可快速提升企業(yè)技術(shù)能力,進(jìn)而推動(dòng)高??萍汲晒D(zhuǎn)化。因此,制定精準(zhǔn)的合作對(duì)象選擇策略,對(duì)企業(yè)的技術(shù)創(chuàng)新以及高??萍汲晒D(zhuǎn)化具有重要的推動(dòng)作用?;谝陨闲枨?,本文從企業(yè)視角出發(fā),構(gòu)建校企合作對(duì)象選擇模型。由于一個(gè)技術(shù)領(lǐng)域中會(huì)存在多個(gè)子領(lǐng)域,如電動(dòng)汽車技術(shù)存在電池系統(tǒng)、發(fā)動(dòng)機(jī)、運(yùn)行控制、傳感器等多個(gè)子技術(shù)領(lǐng)域,所以,有必要從更加細(xì)粒度的層面探索校企合作對(duì)象的匹配路徑。因此,當(dāng)企業(yè)鎖定一個(gè)技術(shù)領(lǐng)域,首先對(duì)高校專利文本進(jìn)行檢索,利用LDA模型進(jìn)行主題建模,并結(jié)合K-means 算法實(shí)現(xiàn)專利文本聚類;企業(yè)依據(jù)自身研究重點(diǎn)及薄弱領(lǐng)域選擇對(duì)應(yīng)的子領(lǐng)域主題,以相似專利密度為指標(biāo)對(duì)子領(lǐng)域主題下的高校進(jìn)行排名,并以相似專利為媒介構(gòu)建科研團(tuán)隊(duì)核心合作網(wǎng)絡(luò),從而確定企業(yè)在重點(diǎn)研究領(lǐng)域和薄弱領(lǐng)域下的最佳合作高校;在高校排名的基礎(chǔ)上,借助相似專利密度指標(biāo),對(duì)高校中的科研工作者進(jìn)行排名,發(fā)掘科研大咖,最終為企業(yè)鎖定合作高校、建立校企產(chǎn)學(xué)研合作關(guān)系。在理論研究的基礎(chǔ)之上,以校企合作對(duì)象選擇模型為底層邏輯,構(gòu)建相關(guān)的服務(wù)系統(tǒng)——IUC,實(shí)現(xiàn)將理論研究應(yīng)用于產(chǎn)業(yè)實(shí)踐,在人工智能環(huán)境下,解決校企合作中存在的3W問題,提高校企合作效率,進(jìn)而推動(dòng)企業(yè)技術(shù)創(chuàng)新、實(shí)現(xiàn)高??萍汲晒D(zhuǎn)化。
考慮到一個(gè)技術(shù)領(lǐng)域會(huì)涵蓋多個(gè)子技術(shù)主題,在校企合作對(duì)象選擇過程中,有必要對(duì)相應(yīng)技術(shù)領(lǐng)域中的專利文本進(jìn)行主題建模,明確其涉及的子領(lǐng)域主題。因此,本文采用LDA模型對(duì)專利文本進(jìn)行主題提取。LDA模型假設(shè)詞是由一個(gè)主題混合產(chǎn)生,同時(shí)每個(gè)主題是在固定詞表上的一個(gè)多項(xiàng)式分布,這些主題被集合中的所有文檔所共享,每個(gè)文檔有一個(gè)特定的主題比例,從Dirichlet 分布中抽樣產(chǎn)生。作為一種產(chǎn)生式模型,其結(jié)構(gòu)完整清晰,采用高效的概率推斷算法處理大規(guī)模數(shù)據(jù),是目前研究和實(shí)踐中使用非常廣泛的一種主題識(shí)別模型[16]。
在主題發(fā)現(xiàn)與主題演化研究中,利用LDA模型能夠展示主題抽取的結(jié)果,涵蓋文檔-主題概率矩陣、主題-詞概率矩陣、主題相關(guān)詞列表等。而應(yīng)用LDA最大的問題是需要人工確定主題數(shù)目,主題數(shù)目的確定直接影響主題發(fā)現(xiàn)的效果。因此,本文利用主題之間的平均余弦相似度來(lái)度量主題結(jié)構(gòu)的穩(wěn)定性:調(diào)整主題數(shù)目、alpha值和beta值,令主題間平均相似度最小,對(duì)應(yīng)模型最優(yōu)。計(jì)算過程如下:
在(1)式中,Sim(PA,PB)表示專利文本A 和專利文本B之間的余弦相似度,利用LDA模型能夠提取文檔-主題概率矩陣。某個(gè)主題在一篇文章中的概率分布,可視為該主題對(duì)當(dāng)前文獻(xiàn)的支持度,支持度越大,表示該文獻(xiàn)內(nèi)容越趨向于該主題,因此一篇文章可表示成多個(gè)主題的概率分布P=(T1,T2,…,Tn)。Si表示每個(gè)主題T對(duì)文獻(xiàn)P的 支 持 度,則P=(T1,S1;T2,S2;…;Tn,Sn),簡(jiǎn)記為P=(S1;S2;…;Sn)。比如,兩篇專利文本的主題概率分布為: (0.02857,0.02857, 0.171428, 0.02857, 0.02857,0.02857, 0.02857, 0.02857, 0.457142,0.171428) 和 (0.0125, 0.0125, 0.0125,0.0125,0.0125,0.0125,0.0125,0.0125,0.8875,0.0125),則依據(jù)(1)式計(jì)算主題相似度結(jié)果為0.888。avg_Sim(structure)表示所有專利文獻(xiàn)的平均相似度,K表示文獻(xiàn)數(shù)量,平均余弦值在0和1之間,值越小,表明主題結(jié)構(gòu)最優(yōu)。
在明確技術(shù)領(lǐng)域涵蓋的主題后,需要將專利文本劃歸到子技術(shù)主題中,整個(gè)劃分過程為無(wú)監(jiān)督方式。因此,本文采用聚類算法實(shí)現(xiàn)對(duì)專利文本的劃分。考慮到每一項(xiàng)專利進(jìn)行技術(shù)探討時(shí),技術(shù)主題具有專一性、深入化的特征,所以在進(jìn)行聚類時(shí)將一件專利僅劃入一個(gè)主題類團(tuán)中。聚類分析是知識(shí)發(fā)現(xiàn)中的重要研究?jī)?nèi)容,旨在將數(shù)據(jù)集合劃分為若干個(gè)類,使得類內(nèi)差異小,類間差異大。本文采用的K-means 算法,是數(shù)據(jù)挖掘十大經(jīng)典算法之一,由J.MacQueen于1967年提出,具有簡(jiǎn)單、容易實(shí)施、時(shí)間復(fù)雜度接近線性的優(yōu)點(diǎn),且對(duì)大規(guī)模數(shù)據(jù)挖掘具有高效性和可伸縮性,被廣泛應(yīng)用于文本聚類的研究中[17]。文檔-主題概率矩陣,利用K-means算法進(jìn)行文本聚類,設(shè)置聚類數(shù)和初始聚類中心,設(shè)置迭代次數(shù),實(shí)現(xiàn)專利文獻(xiàn)的聚類劃分。
在文本聚類方面,由于文本向量維度高,具有稀疏性,不同簇之間的差異性較大,因此可能導(dǎo)致聚成一簇的文本之間的非相似性。同時(shí),應(yīng)用K-means算法存在隨機(jī)選取初始聚類中心導(dǎo)致聚類結(jié)果不穩(wěn)定的現(xiàn)象,往往容易陷入局部最優(yōu)解的問題,導(dǎo)致較差的聚類結(jié)果。所以,如何獲得合適的初始聚類中心,并在保證算法結(jié)果穩(wěn)定性的同時(shí)保持其準(zhǔn)確性,對(duì)提升算法的聚類性能尤為重要。因此,本文將LDA 模型和Kmeans算法融合實(shí)現(xiàn)專利文本聚類,利用LDA提取的文檔-主題概率矩陣,將每篇專利文獻(xiàn)表示成各主題下的概率分布,降低文檔向量的維度;然后在K個(gè)主題所在的維度上確定初始聚類中心,理論上保證了選擇的初始聚類中心是基于概率確定的,并進(jìn)一步用這K個(gè)初始聚類中心對(duì)專利數(shù)據(jù)集進(jìn)行聚類。主要計(jì)算過程如下:
(1)通過設(shè)置不同的主題數(shù)目、alpha 值、beta值,經(jīng)過多輪主題相似度計(jì)算迭代,確定最優(yōu)主題數(shù)目K;(2)利用LDA模型對(duì)P 篇專利文獻(xiàn)進(jìn)行主題建模,生成P*K 維的文檔-主題概率矩陣;(3)對(duì)每一個(gè)技術(shù)主題,首先計(jì)算該主題對(duì)P篇專利文獻(xiàn)的平均支持度Si(0
通過文本聚類,能夠?qū)崿F(xiàn)子技術(shù)主題下的高校專利文獻(xiàn)聚類;劃分在同一主題類團(tuán)下的專利文獻(xiàn)可視為相似文獻(xiàn),根據(jù)相似專利密度指標(biāo)可進(jìn)行高校排名。而在一件專利中,通常包含多個(gè)發(fā)明人,作為專利核心技術(shù)的掌握者,這也正是校企合作中企業(yè)真正合作的對(duì)象。因此,本文通過共現(xiàn)分析,探尋高校中的核心研究團(tuán)隊(duì)和科研大咖。“共現(xiàn)”是指文獻(xiàn)中特征項(xiàng)描述的信息共同出現(xiàn)的現(xiàn)象,而共現(xiàn)分析是將各種信息載體中的共現(xiàn)信息定量化,以揭示信息的內(nèi)容關(guān)聯(lián)和特征項(xiàng)所隱含的寓意。專利文獻(xiàn)中專利發(fā)明人之間的共現(xiàn)頻次體現(xiàn)了其關(guān)聯(lián)程度,依據(jù)發(fā)明人共現(xiàn)分析構(gòu)建合作網(wǎng)絡(luò),能夠?yàn)槠髽I(yè)探尋高校核心研究團(tuán)隊(duì)和科研大咖提供指引,從更加微觀的層面為企業(yè)明確合作對(duì)象。
圖1 校企合作對(duì)象選擇模型
在主題模型、文本聚類、共現(xiàn)分析等技術(shù)的支持下,本文從企業(yè)視角出發(fā),構(gòu)建了校企合作對(duì)象選擇模型(見圖1),幫助企業(yè)在明確研究重點(diǎn)和薄弱領(lǐng)域的前提下,從更加細(xì)粒度的子技術(shù)主題層面,以相似專利密度為指標(biāo),探尋最佳合作高校。并在此基礎(chǔ)上,進(jìn)一步發(fā)掘高校核心研究團(tuán)隊(duì)、科研大咖和科技成果,實(shí)現(xiàn)提升校企合作效率,促進(jìn)企業(yè)技術(shù)創(chuàng)新,推動(dòng)高校科研成果轉(zhuǎn)化的目標(biāo)。
從圖1 可以發(fā)現(xiàn),整個(gè)模型共分為4 大部分,涵蓋“數(shù)據(jù)采集及存儲(chǔ)→數(shù)據(jù)檢索及處理→主題建模及文本聚類→結(jié)果分析及可視化展示”的全過程。具體內(nèi)容如下:
(1)數(shù)據(jù)采集及存儲(chǔ)。精準(zhǔn)的校企合作匹配需要專利大數(shù)據(jù)的支持,為了能夠獲取足夠的專利數(shù)據(jù)支撐,利用爬蟲技術(shù)對(duì)SIPO專利數(shù)據(jù)庫(kù)或CNKI專利數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)抓取,抓取的數(shù)據(jù)僅用于學(xué)術(shù)研究使用。在抓取過程中,數(shù)據(jù)緩存在Redis 數(shù)據(jù)庫(kù)中,然后循環(huán)從Redis 讀取數(shù)據(jù),寫入到Mysql中以支持服務(wù)系統(tǒng)建設(shè)。
(2)數(shù)據(jù)檢索及處理。從企業(yè)視角出發(fā),當(dāng)企業(yè)檢索某一技術(shù)領(lǐng)域,則服務(wù)系統(tǒng)會(huì)從Mysql數(shù)據(jù)庫(kù)中進(jìn)行檢索,對(duì)題目和摘要字段進(jìn)行全詞匹配,構(gòu)成匹配數(shù)據(jù)集。進(jìn)而對(duì)匹配數(shù)據(jù)集進(jìn)行自然語(yǔ)言處理,實(shí)現(xiàn)分詞、去停用詞以及TF*IDF詞權(quán)重計(jì)算。分詞所參照的詞典是基于專業(yè)文獻(xiàn)關(guān)鍵詞所構(gòu)建的全學(xué)科領(lǐng)域詞典,以保證對(duì)不同技術(shù)領(lǐng)域數(shù)據(jù)集分詞的有效性。而根據(jù)TF*IDF詞權(quán)重計(jì)算的結(jié)果,采用五分位算法,去除概率在16%區(qū)間內(nèi)的無(wú)效詞,以獲取更優(yōu)的主題建模效果。
(3)主題建模及文本聚類。以檢索到的匹配數(shù)據(jù)集作為實(shí)驗(yàn)語(yǔ)料,首先利用LDA模型進(jìn)行主題建模。在主題建模過程中,根據(jù)以往研究中語(yǔ)料庫(kù)規(guī)模與設(shè)置的主題數(shù)目經(jīng)驗(yàn),將主題數(shù)目設(shè)置在5-50個(gè)之間,alpha值及beta值固定為0.5和0.2。通過反復(fù)迭代計(jì)算,利用余弦相似度計(jì)算結(jié)果確定當(dāng)前實(shí)驗(yàn)語(yǔ)料的最優(yōu)主題數(shù)目,生成文檔-主題概率矩陣(D-T矩陣),以及每個(gè)主題下最相關(guān)的20個(gè)詞用于解釋主題。根據(jù)初始聚類中心的計(jì)算過程,利用D-T矩陣確定初始聚類中心,進(jìn)而利用K-means算法實(shí)現(xiàn)專利文本聚類。
(4)結(jié)果分析及可視化展示?;谥黝}展示,企業(yè)從細(xì)粒度層面確定自身研究重點(diǎn)和薄弱領(lǐng)域,并選擇子技術(shù)主題發(fā)掘最佳合作高校及高校背后的核心研究團(tuán)隊(duì)。在分析過程中,以相似專利密度作為排名指標(biāo),對(duì)子技術(shù)主題下的高校相關(guān)專利進(jìn)行統(tǒng)計(jì)。企業(yè)在選定某所高校后,將進(jìn)一步對(duì)該高校的專利進(jìn)行更微觀的分析:首先針對(duì)發(fā)明人進(jìn)行共現(xiàn)分析,構(gòu)建合作網(wǎng)絡(luò)展示核心研究團(tuán)隊(duì);進(jìn)而以相似專利密度為指標(biāo),對(duì)發(fā)明人進(jìn)行排名,凸顯科研大咖,并對(duì)科研大咖的個(gè)人資料、合作網(wǎng)絡(luò)、科技成果進(jìn)行展示。需要說(shuō)明的是,因?yàn)楦咝?蒲腥藛T數(shù)據(jù)庫(kù)構(gòu)建復(fù)雜度較高,本文沒有將其作為研究重點(diǎn)實(shí)現(xiàn)突破。
基于校企合作對(duì)象選擇模型,能夠?yàn)槠髽I(yè)提供“技術(shù)主題→合作高?!蒲袌F(tuán)隊(duì)→科研大咖→科技成果”五維立體的全景化分析。在明確技術(shù)領(lǐng)域后,依據(jù)當(dāng)前高校在該技術(shù)領(lǐng)域各個(gè)方向上的成果形成多個(gè)子技術(shù)主題,企業(yè)根據(jù)自身研究重點(diǎn)和薄弱環(huán)節(jié)進(jìn)行選擇,最終匹配最佳合作高校,并進(jìn)一步發(fā)掘高校中的核心研究團(tuán)隊(duì)及科技成果。為了驗(yàn)證模型的有效性,以及模型的應(yīng)用效率,本文以對(duì)象選擇模型為邏輯支撐,構(gòu)建原型系統(tǒng),以此提升校企合作效率。
為了驗(yàn)證所提模型的有效性和合理性,本文將理論研究與產(chǎn)業(yè)實(shí)踐相融合,基于校企合作對(duì)象選擇模型的邏輯流程,構(gòu)建校企合作對(duì)象選擇服務(wù)系統(tǒng)——IUC,實(shí)現(xiàn)了專利數(shù)據(jù)庫(kù)信息抓取,專利數(shù)據(jù)多維分析以及在人工輔助基礎(chǔ)上的分析報(bào)告撰寫,為推動(dòng)校企合作提供系統(tǒng)支持。
IUC系統(tǒng)通過智能爬蟲跟蹤采集專利數(shù)據(jù)庫(kù)最新數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)自動(dòng)獲取。字段自動(dòng)識(shí)別、海量數(shù)據(jù)存儲(chǔ)、領(lǐng)域主題抽取、文本自動(dòng)聚類、指標(biāo)統(tǒng)計(jì)分析等,在技術(shù)領(lǐng)域細(xì)粒度層面,對(duì)高校排名、核心團(tuán)隊(duì)、科研大咖、科技成果進(jìn)行可視化呈現(xiàn),并生成校企合作對(duì)象選擇分析報(bào)告,實(shí)現(xiàn)技術(shù)領(lǐng)域細(xì)?;?、合作高校排名化、研究團(tuán)隊(duì)凸顯化的全流程式服務(wù),解決校企合作過程中存在的“合作什么?去哪合作?與誰(shuí)合作?”的3W問題,切實(shí)提升校企合作效率。IUC系統(tǒng)架構(gòu)見圖2。
圖2 校企合作對(duì)象選擇服務(wù)系統(tǒng)—IUC系統(tǒng)架構(gòu)
(1)核心支撐技術(shù)。系統(tǒng)涉及的核心技術(shù)貫穿從“數(shù)據(jù)采集→數(shù)據(jù)處理→數(shù)據(jù)存儲(chǔ)→數(shù)據(jù)分析→數(shù)據(jù)應(yīng)用”的全過程,涵蓋爬蟲技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、自然語(yǔ)言處理、主題模型、文本聚類、知識(shí)圖譜等,從細(xì)粒度層面為精準(zhǔn)的校企合作提供技術(shù)支撐,保證系統(tǒng)分析結(jié)果的合理性,為企業(yè)提供全景化的分析結(jié)果。
(2)數(shù)據(jù)采集系統(tǒng)。目前IUC系統(tǒng)專利數(shù)據(jù)主要來(lái)源于CNKI 專利數(shù)據(jù)庫(kù),采用Scrapy+Redis+MySql 分布式爬取專利數(shù)據(jù)。通過Python3.6 和Scrapy,配合自動(dòng)化測(cè)試工具Selenium,構(gòu)建了專利數(shù)據(jù)爬蟲。
(3)分類存儲(chǔ)系統(tǒng)。通過分布式爬蟲爬取的數(shù)據(jù)以json格式存儲(chǔ)在內(nèi)存數(shù)據(jù)庫(kù)Redis中,通過參數(shù)設(shè)置確保專利數(shù)據(jù)緩存到內(nèi)存中時(shí)實(shí)現(xiàn)去重;通過Mysql創(chuàng)建數(shù)據(jù)庫(kù)和對(duì)應(yīng)的數(shù)據(jù)表,設(shè)置發(fā)明人、摘要、申請(qǐng)人、申請(qǐng)?zhí)枴l(fā)表時(shí)間等字段;利用Python 中的pymysql 包將Redis 緩存數(shù)據(jù)導(dǎo)出至Mysql;并采用Twisted框架的連接池實(shí)現(xiàn)數(shù)據(jù)插入Mysql的異步化,最終實(shí)現(xiàn)專利數(shù)據(jù)存儲(chǔ),為IUC系統(tǒng)提供數(shù)據(jù)支持。
(4)專利分析系統(tǒng)。在文本處理模塊,應(yīng)用開源技術(shù)jieba-analysis(java版),自定義詞典數(shù)據(jù)來(lái)源于多學(xué)科專業(yè)文獻(xiàn)中的關(guān)鍵詞部分組成,通過jieba-analysis實(shí)現(xiàn)中文分詞、去停用詞以及TF*IDF計(jì)算的整個(gè)自然語(yǔ)言處理過程;在對(duì)專利數(shù)據(jù)集進(jìn)行主題建模階段,應(yīng)用開源技術(shù)LDA4j實(shí)現(xiàn)LDA主題建模;在主題建模過程中通過迭代計(jì)算平均主題相似度,確定最優(yōu)主題數(shù)目,并利用KUMO開源技術(shù)實(shí)現(xiàn)主題詞云展示;在確定最優(yōu)主題數(shù)目后,利用文檔-主題概率矩陣確定初始聚類中心,并基于開源的K-means 算法實(shí)現(xiàn)專利文本聚類;以相似專利密度為指標(biāo)對(duì)主題類團(tuán)內(nèi)的高校進(jìn)行排名,基于開源技術(shù)Echarts 實(shí)現(xiàn)高校排名、合作網(wǎng)絡(luò)等結(jié)果的可視化呈現(xiàn)。
(5)企業(yè)服務(wù)系統(tǒng)。IUC服務(wù)系統(tǒng)展示前端采用開源技術(shù)BootSrap框架,整個(gè)業(yè)務(wù)處理層的實(shí)現(xiàn)基于SpringBoot框架;采用Spring MVC與RESTful技術(shù)實(shí)現(xiàn)對(duì)外開放接口,利用AJAX異步請(qǐng)求技術(shù)以及JSON技術(shù)來(lái)實(shí)現(xiàn)前后端的數(shù)據(jù)交換;數(shù)據(jù)訪問層則采用MyBatis作為ORM框架,在內(nèi)置分析算法的支撐下,實(shí)現(xiàn)技術(shù)領(lǐng)域細(xì)粒化、合作高校排名化以及研究團(tuán)隊(duì)凸顯化。企業(yè)依據(jù)平臺(tái)分析結(jié)果,可通過人工輔助的方式,生成全景化、深入化的校企合作分析報(bào)告。
圖3 IUC首頁(yè)技術(shù)領(lǐng)域搜索
本文以“眾安信息技術(shù)服務(wù)有限公司”作為模擬企業(yè)對(duì)象,“眾安科技”作為國(guó)內(nèi)首家互聯(lián)網(wǎng)保險(xiǎn)公司——眾安保險(xiǎn)的全資科技子公司,一直聚焦于人工智能、區(qū)塊鏈等領(lǐng)域的基礎(chǔ)技術(shù)研發(fā)。而“區(qū)塊鏈”被認(rèn)為是繼蒸汽機(jī)、電力、互聯(lián)網(wǎng)之后的下一代顛覆性技術(shù),目前是各界所關(guān)注的焦點(diǎn)。因此,選擇“區(qū)塊鏈”作為檢索技術(shù)領(lǐng)域,當(dāng)“眾安科技”注冊(cè)登錄平臺(tái)后進(jìn)入IUC服務(wù)系統(tǒng)首頁(yè)(參見圖3),在搜索框輸入“區(qū)塊鏈”進(jìn)行分析。
圖4 “區(qū)塊鏈”主題抽取詞云展示(部分)
目前IUC的測(cè)試專利數(shù)據(jù)來(lái)源于CNKI專利數(shù)據(jù)庫(kù),在數(shù)據(jù)抓取過程中,申請(qǐng)人限定為“大學(xué)”;學(xué)科限定為農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、信息科技、經(jīng)濟(jì)與管理科學(xué)四大門類;時(shí)間為2017年1月1日至2019年9月1日,通過智能爬蟲共抓取到186,708條數(shù)據(jù)。“眾安科技”輸入技術(shù)領(lǐng)域后,IUC以此作為關(guān)鍵詞進(jìn)行檢索,為保證檢索的精準(zhǔn)度,對(duì)專利名稱和摘要進(jìn)行全詞匹配,共檢索到654 條數(shù)據(jù),生成數(shù)據(jù)集;進(jìn)而進(jìn)行主題建模,通過平均余弦相似度迭代計(jì)算,當(dāng)主題數(shù)為10個(gè)時(shí),平均余弦相似度最小,主題結(jié)構(gòu)最優(yōu)。生成主題詞云,見圖4。
“眾安科技”可根據(jù)自身在區(qū)塊鏈領(lǐng)域的專利申請(qǐng)情況,確定重點(diǎn)研究領(lǐng)域及薄弱領(lǐng)域,依據(jù)主題建模結(jié)果展開進(jìn)一步分析。一方面可以選擇在其重點(diǎn)研究領(lǐng)域具備同等競(jìng)爭(zhēng)力的高校,深化重點(diǎn)領(lǐng)域的研究深度;另一方面,針對(duì)自身研究薄弱的技術(shù)領(lǐng)域,選擇對(duì)應(yīng)合作高校加以提升,在高??蒲袌F(tuán)隊(duì)的支持下,實(shí)現(xiàn)薄弱領(lǐng)域的突破,既節(jié)約了企業(yè)的研究成本、提升了企業(yè)的科技競(jìng)爭(zhēng)力,也能夠推動(dòng)高??萍汲晒霓D(zhuǎn)移轉(zhuǎn)化,實(shí)現(xiàn)科技成果到產(chǎn)業(yè)應(yīng)用的跨越。“眾安科技”選擇“主題2→數(shù)據(jù)存儲(chǔ)”進(jìn)行分析,依據(jù)文本聚類結(jié)果和相似專利密度指標(biāo),對(duì)子技術(shù)主題下的高校進(jìn)行排名,結(jié)果見圖5。
分析圖5 發(fā)現(xiàn),在“主題2→數(shù)據(jù)存儲(chǔ)”中,“廣東工業(yè)大學(xué)”“暨南大學(xué)”“浙江大學(xué)”的相似專利密度為6件、5件、5件,可作為“眾安科技”在區(qū)塊鏈數(shù)據(jù)存儲(chǔ)技術(shù)領(lǐng)域合作中重點(diǎn)關(guān)注的高校。在此基礎(chǔ)上,從更微觀的層面分析高校中的核心研究團(tuán)隊(duì),為企業(yè)提供更為細(xì)粒度的合作對(duì)象指引。例如,當(dāng)“眾安科技”選擇查看“廣東工業(yè)大學(xué)”時(shí),分析結(jié)果見圖6。
圖5 主題2-高校相似專利密度排名
圖6 廣東工業(yè)大學(xué)核心科研團(tuán)隊(duì)
分析圖6可發(fā)現(xiàn),依據(jù)發(fā)明人共現(xiàn)分析構(gòu)建的合作網(wǎng)絡(luò),在“主題2→數(shù)據(jù)存儲(chǔ)”中,“廣東工業(yè)大學(xué)”形成以“張浩川—余榮”和“何少偉—張俊”等為核心的兩支研究團(tuán)隊(duì)。以“張浩川—余榮”為核心的研究團(tuán)隊(duì)規(guī)模最大,科技成果最多,是“眾安科技”需要重點(diǎn)關(guān)注的科研團(tuán)隊(duì)。依據(jù)相似專利密度指標(biāo),對(duì)發(fā)明人進(jìn)行排名,其中張浩川是“廣東工業(yè)大學(xué)”在“主題2→數(shù)據(jù)存儲(chǔ)”中的科研大咖,在合作網(wǎng)絡(luò)中也占據(jù)核心位置?!氨姲部萍肌笨蛇x擇查看科研大咖的詳情,參見圖7。
圖7 廣東工業(yè)大學(xué)科研大咖簡(jiǎn)介
科研大咖頁(yè)面(圖7)呈現(xiàn)張浩川的基本資料,包括教育背景、所處位置、研究重點(diǎn)及聯(lián)系方式。對(duì)其參與申請(qǐng)的專利進(jìn)行詞云展示,揭示其歷年專利申請(qǐng)情況。“眾安科技”可根據(jù)詳情選擇關(guān)注此科研大咖,將其添加到人才庫(kù)中,以備進(jìn)一步合作。選擇研究團(tuán)隊(duì)可查看該科研人員與哪些人員產(chǎn)生過合作,見圖8。
圖8 廣東工業(yè)大學(xué)科研大咖合作網(wǎng)絡(luò)
從圖8中可得,張浩川與余榮、倪偉權(quán)等10位科研人員有過合作,參考發(fā)明人合作網(wǎng)絡(luò),此11位成員構(gòu)成了子技術(shù)領(lǐng)域下的核心研究團(tuán)隊(duì),而張浩川在整個(gè)團(tuán)隊(duì)中處于核心位置。因此,當(dāng)“眾安科技”計(jì)劃在“主題2→數(shù)據(jù)存儲(chǔ)”中展開校企合作,可通過張浩川發(fā)掘到以其為核心的廣東工業(yè)大學(xué)研究團(tuán)隊(duì)。校企合作一方面可以促進(jìn)企業(yè)技術(shù)創(chuàng)新,另一方面也能推動(dòng)高??萍汲晒D(zhuǎn)化,所以“眾安科技”通過查看科研大咖的相關(guān)科技成果,在推動(dòng)企業(yè)技術(shù)發(fā)展的同時(shí),也對(duì)其中的高價(jià)值專利進(jìn)行轉(zhuǎn)化,有利于扭轉(zhuǎn)當(dāng)前高校科技成果轉(zhuǎn)化難的困境,推動(dòng)高??蒲袌F(tuán)隊(duì)的技術(shù)成果轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值。
通過以上分析可知,“眾安科技”獲取了高校在區(qū)塊鏈領(lǐng)域下重點(diǎn)研究的10個(gè)子技術(shù)主題,從細(xì)粒度層面,根據(jù)自身研究重點(diǎn)和薄弱領(lǐng)域,探尋子技術(shù)主題下的最佳合作高校,進(jìn)而以相似專利為媒介,發(fā)掘了高校核心研究團(tuán)隊(duì)以及科研大咖。IUC服務(wù)系統(tǒng)為“眾安科技”提供了“技術(shù)主題→合作高?!蒲袌F(tuán)隊(duì)→科研大咖→科技成果”五維立體的全景化分析結(jié)果,解決了企業(yè)在校企合作中存在的3W問題:What(合作什么)、Where(去哪合作)、Who(與誰(shuí)合作)”,提升了校企合作效率,為促進(jìn)企業(yè)科技創(chuàng)新,推動(dòng)高??萍汲晒D(zhuǎn)化提供了實(shí)踐路徑。
本文從企業(yè)視角出發(fā),以校企合作對(duì)象選擇作為研究重點(diǎn),在主題模型、文本聚類、共現(xiàn)分析等核心技術(shù)支撐下,構(gòu)建了校企合作對(duì)象選擇模型;并在此基礎(chǔ)上,以對(duì)象選擇模型為邏輯支撐開發(fā)IUC服務(wù)系統(tǒng),以“技術(shù)主題-合作高校-科研團(tuán)隊(duì)-科研大咖-科技成果”五維立體方式展示全景化的分析結(jié)果,解決了企業(yè)在開展校企合作過程中存在的3W 問題,為提升校企合作效率提供系統(tǒng)支持。主要研究?jī)?nèi)容如下:
(1)在核心技術(shù)研究層面,以Scrapy+Redis+MySql為技術(shù)手段實(shí)現(xiàn)智能爬蟲,為IUC服務(wù)系統(tǒng)提供數(shù)據(jù)支撐;利用主題間平均余弦相似度解決LDA最優(yōu)主題數(shù)目確定問題;將LDA模型與K-means算法融合,解決文本聚類過程中存在的初始聚類中心隨機(jī)選取問題,提升了專利文本聚類效率。
(2)在對(duì)象選擇模型構(gòu)建層面,構(gòu)建了以“數(shù)據(jù)采集及存儲(chǔ)→數(shù)據(jù)檢索及處理→文本建模及文本聚類→結(jié)果分析及可視化展示”為主要內(nèi)容的邏輯模型,為IUC服務(wù)系統(tǒng)的開發(fā)提供了邏輯流程支撐。
(3)在IUC系統(tǒng)開發(fā)層面,以“眾安科技”為企業(yè)對(duì)象,以區(qū)塊鏈為技術(shù)領(lǐng)域,展示了全景化的分析結(jié)果,為“眾安科技”在區(qū)塊鏈領(lǐng)域開展校企合作提供了決策支持。
需要說(shuō)明的是,高校科研人員數(shù)據(jù)庫(kù)構(gòu)建難度較大,需要通過高校+科研人員的方式逐一抓取數(shù)據(jù),才能實(shí)現(xiàn)科研大咖基本信息展示;此外,在中文自然語(yǔ)言處理過程中詞典的構(gòu)建以及K-means算法初始聚類中心的確定方法都有待進(jìn)一步改進(jìn),以提高分析結(jié)果的準(zhǔn)確性,這將是今后研究的重點(diǎn)。本研究團(tuán)隊(duì)將把IUC服務(wù)系統(tǒng)代碼開源,提供完整的說(shuō)明文檔供其他研究團(tuán)隊(duì)參考利用,通過不斷完善當(dāng)前平臺(tái)功能,為提升我國(guó)校企合作效率、促進(jìn)我國(guó)科技創(chuàng)新貢獻(xiàn)更多力量。