朱焱 王強 王涓
(天津市科學(xué)技術(shù)信息研究所,天津 300074)
在以全球化、知識化、信息化為主要特征的知識經(jīng)濟時代,科技創(chuàng)新活動面臨海量數(shù)據(jù)分散孤立、知識價值難以判斷、資源超載與知識匱乏并存等問題,知識需求和信息供給之間的適當匹配變得越來越重要[1-3]。作為科技創(chuàng)新戰(zhàn)略重要實施載體的科技企業(yè)和科研院所,尤其需要及時通過準確發(fā)現(xiàn)、獲取、挖掘、傳播和運用知識提高自主創(chuàng)新能力。2015年,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)[2015]50號),提出要開展知識服務(wù)大數(shù)據(jù)應(yīng)用。2016年,國務(wù)院印發(fā)的《“十三五”國家科技創(chuàng)新規(guī)劃》(國發(fā)[2016]43號)中指出了大數(shù)據(jù)知識服務(wù)的具體發(fā)展方向,包括擴大科技文獻信息資源采集范圍,面向重大科技發(fā)展方向搭建語義知識組織體系,深入做好科技資源的語義揭示、開放關(guān)聯(lián)和知識發(fā)現(xiàn)能力等。因此,信息服務(wù)機構(gòu)有必要順應(yīng)國家政策指引,充分利用資源優(yōu)勢,面向科技企業(yè)和科研院所需求,通過技術(shù)革新與模式創(chuàng)新開展深度數(shù)據(jù)加工,從海量數(shù)據(jù)中挖掘與用戶興趣和用戶需求匹配的信息并開展知識服務(wù),為科技企業(yè)和科研院所用戶創(chuàng)造可持續(xù)競爭優(yōu)勢[4-6]。
用戶畫像(user profile)是建立在一系列真實數(shù)據(jù)之上的用戶模型[7],通過搜集、整理、存儲用戶的碎片化行為特征、興趣偏好,抽取與用戶信息需求相關(guān)的關(guān)鍵指標,給不同的用戶按照特征貼標簽、建模型[8]。建立用戶畫像的目的主要是為預(yù)測用戶行為、發(fā)現(xiàn)用戶潛在需求提供用于決策的事實支撐,便于對用戶進行分析、分類,更好地開展個性化推薦,增強用戶對服務(wù)的黏度,進行受眾挖掘和業(yè)務(wù)擴展等。
在研發(fā)流程上,國內(nèi)外學(xué)者主要基于用戶行為、本體特征等,依次按照數(shù)據(jù)爬取采集、單一用戶畫像構(gòu)建與用戶行為分析、批量用戶畫像數(shù)據(jù)庫構(gòu)建等層次進行架構(gòu)[9-11],并引入知識圖譜技術(shù)實現(xiàn)多維信息的檢索、抽取、組織、關(guān)聯(lián)、存儲、展示、推送[12]。在實現(xiàn)方法上,Godoy等[13]認為滿足用戶信息需求依賴于獲取用戶興趣的方法以及應(yīng)對用戶興趣變化的策略,需注重研究如何從豐富的語義文本中抽取出關(guān)鍵信息;Ouzif等[14]使用相似性技術(shù)找到與目標用戶相似的用戶及其興趣,以配置更完整的用戶畫像,并測試匹配產(chǎn)品推薦、結(jié)果過濾、請求擴展等方法的信息服務(wù)效果。
在服務(wù)產(chǎn)品上,目前很多機構(gòu)已經(jīng)利用用戶畫像數(shù)據(jù),針對特定的場景需求和特定領(lǐng)域數(shù)據(jù)定制、開發(fā)知識圖譜,開發(fā)了成熟的通用型或個性化智能推薦服務(wù)產(chǎn)品。在國外,Desarkar等[15]從醫(yī)學(xué)咨詢網(wǎng)站用戶發(fā)表的言論中提取關(guān)鍵語義信息,以用戶關(guān)注的疾病為主題構(gòu)建知識圖譜;紐約醫(yī)療中心Montefiore與Franz Inc和英特爾公司合作部署了PALM“以患者為中心的分析學(xué)習(xí)機”,同步大量原始數(shù)據(jù)以進行深入分析,輔助臨床醫(yī)生快速高效地確認高風(fēng)險患者的個性化治療方案[16];Microsoft Research公司開發(fā)的微軟學(xué)術(shù)圖譜能夠提供2.1億位作者、4.7萬種期刊和4 000余種會議實體及其學(xué)術(shù)關(guān)聯(lián)[18];Kensho公司開發(fā)的金融知識圖譜能夠協(xié)助證券行業(yè)交易員、投資人或分析師預(yù)警、識別金融風(fēng)險[16];Taylor集團開發(fā)的wizdom.AI能夠挖掘論文數(shù)據(jù)并建立學(xué)者、研究主題、基金、引用趨勢等不同概念間關(guān)聯(lián)服務(wù)[17];Uber eats平臺構(gòu)建的食物知識圖譜能夠用圖形關(guān)聯(lián)餐廳、菜單、美食的對應(yīng)關(guān)系,方便食客實現(xiàn)快捷查詢[16]。在國內(nèi),徐芳等[19]基于用戶標簽和資源標簽聚類圖書館用戶畫像并實現(xiàn)內(nèi)容推薦服務(wù);Li等[20]和Han等[21]采用聚類方法分析用戶瀏覽過的網(wǎng)頁痕跡,對用戶和社會化標簽進行共現(xiàn)分析和主題聚類,依據(jù)用戶興趣主題構(gòu)建畫像模型提高個性化搜索性能;楊群等[22]和朱會華等[23]通過對用戶意圖進行挖掘和內(nèi)容推薦構(gòu)建了移動圖書館情境化服務(wù);劉海鷗等[24]進一步探索如何利用用戶畫像模型提升改善圖書館行業(yè)面向用戶市場的信息服務(wù)競爭優(yōu)勢。總體而言,國外開展的知識服務(wù)主要應(yīng)用于證券、食品和醫(yī)療保健等領(lǐng)域[14],國內(nèi)知識服務(wù)主要結(jié)合科研知識圖譜應(yīng)用于高校的學(xué)術(shù)發(fā)現(xiàn)和圖書館服務(wù)。此外,國內(nèi)尚未構(gòu)建面向產(chǎn)業(yè)領(lǐng)域的科技創(chuàng)新用戶畫像體系,未能支持科技企業(yè)、科研院所獲取以解決問題為目標的深度知識。本研究重點探索如何利用用戶畫像技術(shù)為產(chǎn)業(yè)領(lǐng)域內(nèi)科技創(chuàng)新主體提供精準的知識服務(wù),并嘗試面向大中型科研院所和科技企業(yè)開展應(yīng)用實踐,為推動企業(yè)科技創(chuàng)新、支撐產(chǎn)業(yè)轉(zhuǎn)型升級、提高區(qū)域創(chuàng)新效率提供智力支撐。
本研究利用知識圖譜作為知識發(fā)現(xiàn)和獲取的基礎(chǔ),利用用戶畫像技術(shù)來提高知識服務(wù)的精準度。首先構(gòu)建以科技文獻資源為主的科技大數(shù)據(jù)知識圖譜,然后根據(jù)創(chuàng)新主體的科技創(chuàng)新活動屬性構(gòu)建用戶個性化畫像,基于畫像為其提供精準的知識服務(wù),實現(xiàn)文獻、學(xué)者、機構(gòu)、期刊、基金/項目、領(lǐng)域和主題7類知識的快速搜索、全景分析和精準推薦。
基于前期調(diào)研,將知識服務(wù)系統(tǒng)的整體架構(gòu)(見圖1)設(shè)計為5個模塊,分別是數(shù)據(jù)存儲與計算、數(shù)據(jù)收集與整理、知識圖譜、用戶畫像、知識服務(wù)。
圖1 知識服務(wù)系統(tǒng)的整體架構(gòu)
(1)數(shù)據(jù)存儲與計算模塊。該模塊以Hadoop分布式存儲架構(gòu)對不同來源的數(shù)據(jù)進行分別存儲,為異構(gòu)數(shù)據(jù)提供海量存儲和高速計算。模塊底層分布式文件系統(tǒng)為HDFS,采用HBase作為分布式存儲數(shù)據(jù)庫,MapReduce作為分布式計算框架,利用Storm與Spark兩種高性能的并行計算方式快速處理數(shù)據(jù)。
(2)數(shù)據(jù)收集與整理模塊。該模塊的主要功能是對不同來源、結(jié)構(gòu)不同的數(shù)據(jù)進行收集與整理,并實施數(shù)據(jù)標準化、數(shù)據(jù)去重和數(shù)據(jù)補全等預(yù)處理。
(3)知識圖譜模塊。利用自然語言處理技術(shù),使用機器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,從清洗好的數(shù)據(jù)中抽取出文獻、學(xué)者、機構(gòu)、期刊、基金/項目、領(lǐng)域和主題7類知識實體,然后進行實體消歧對齊和實體關(guān)聯(lián)處理,建立科技大數(shù)據(jù)知識圖譜。
(4)用戶畫像模塊。依托自然語言處理、文本挖掘、特征提取、模式識別等技術(shù),分別從關(guān)注領(lǐng)域、關(guān)注專家、關(guān)注機構(gòu)、技術(shù)方向、行業(yè)資訊和政策資訊6個方面構(gòu)建用戶畫像,構(gòu)建完成的畫像能夠基于用戶反饋實現(xiàn)持續(xù)動態(tài)更新。
(5)知識服務(wù)模塊。該模塊具備知識檢索、領(lǐng)域知識導(dǎo)航、知識全景分析和知識推薦四大功能。知識檢索為用戶提供精準知識發(fā)現(xiàn)服務(wù);領(lǐng)域知識導(dǎo)航為用戶提供關(guān)注領(lǐng)域內(nèi)的知識導(dǎo)航服務(wù);知識全景分析幫助用戶從全方位的視角觀察分析相關(guān)知識框架;知識推薦為用戶推薦感興趣的科技文獻知識和互聯(lián)網(wǎng)資訊。
目前知識圖譜技術(shù)逐漸與信息檢索、語義抽取、知識表示、機器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理以及語義網(wǎng)等技術(shù)方向融合發(fā)展[25-26],能否充分挖掘、揭示、展現(xiàn)出某個研究主題內(nèi)部載體元素之間的關(guān)系是知識圖譜的建立關(guān)鍵[27]。本研究基于海量的科技文獻數(shù)據(jù),依次開展實體抽取、實體消歧對齊、實體關(guān)聯(lián)技術(shù),構(gòu)建一個包含7類實體及其關(guān)聯(lián)關(guān)系的科技大數(shù)據(jù)知識圖譜。
(1)實體抽取。圖譜中涉及的實體及概念主要有文獻、學(xué)者、機構(gòu)、期刊、基金/項目、領(lǐng)域和主題7類。除主題實體外,其他實體都可以從科技文獻的相關(guān)信息中直接抽取。如從文獻的完成作者中抽取學(xué)者,從作者的發(fā)文單位中抽取機構(gòu),從文獻出版單位中抽取期刊,從文獻獲得的資助抽取基金/項目,從文獻中圖分類號抽取領(lǐng)域。主題的抽取涉及自然語言處理中文本分詞等相關(guān)技術(shù)。首先采用隱馬爾可夫模型對科技文獻分詞,然后利用停用詞表過濾分詞結(jié)果,剔除無用詞,最后以主題詞表為基礎(chǔ),考慮上位詞、下位詞、同義詞、反義詞等關(guān)系,結(jié)合學(xué)術(shù)概念詞表和行業(yè)領(lǐng)域通用詞表對分詞進行規(guī)范,形成最終研究主題。
(2)實體消歧對齊??萍嘉墨I中存在大量的重名學(xué)者,文獻發(fā)表的期刊和機構(gòu)也會有各種曾用名和簡稱,因此必須對實體進行消歧和對齊。假定學(xué)者沒有曾用名,首先根據(jù)學(xué)者姓名確定身份,當姓名相同時,再根據(jù)單位確定身份。當姓名和單位都相同時,需要按照研究主題來進行消歧。把姓名和單位都相同的學(xué)者所有文獻進行主題聚類,根據(jù)聚類結(jié)果確定學(xué)者身份。即有x個同名同單位學(xué)者,若所有文獻聚類出y個主題,則標識對x個學(xué)者進行消歧處理得到y(tǒng)個學(xué)者。對重名期刊,根據(jù)其ISSN來確定身份。對機構(gòu)建立(機構(gòu)名稱,曾用名1,曾用名2,…,曾用名n)映射關(guān)系,通過映射關(guān)系進行機構(gòu)消歧。
(3)實體關(guān)聯(lián)。實體之間的關(guān)聯(lián)關(guān)系是知識圖譜的核心內(nèi)容,也是知識服務(wù)的關(guān)鍵?;诟鲗嶓w之間的關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)無法直接檢索到的、隱藏在關(guān)聯(lián)背后的知識。分析文獻與其他實體之間的關(guān)系,根據(jù)這些關(guān)系設(shè)定基本的關(guān)聯(lián)規(guī)則,可以建立其他實體之間的關(guān)聯(lián)關(guān)系。從文獻中獲得的信息可以呈現(xiàn)如下關(guān)系:作者體現(xiàn)的是文獻與學(xué)者/專家的關(guān)系;發(fā)文單位體現(xiàn)的是文獻與機構(gòu)的關(guān)系;研究方向體現(xiàn)的是文獻與主題的關(guān)系;出版單位體現(xiàn)的是文獻與期刊的關(guān)系;中圖分類號體現(xiàn)的是文獻與領(lǐng)域的關(guān)系;所獲資助體現(xiàn)的是文獻與基金/項目的關(guān)系。以文獻為紐帶,主要建立學(xué)者之間、機構(gòu)之間的合作關(guān)系,學(xué)者、機構(gòu)與期刊之間的發(fā)文關(guān)系,學(xué)者與機構(gòu)之間的任職關(guān)系,學(xué)者、機構(gòu)與主題、領(lǐng)域之間的研究關(guān)系,學(xué)者、領(lǐng)域與基金/項目之間的承擔(dān)關(guān)系,主題之間的共現(xiàn)關(guān)系,領(lǐng)域與主題之間的包含關(guān)系?;谏鲜龅年P(guān)聯(lián)關(guān)系建立以學(xué)者為中心的知識圖譜(見圖2)。
圖2 以學(xué)者為中心構(gòu)建的知識圖譜示意圖
本研究以科研創(chuàng)新活動用戶為對象,構(gòu)建的用戶畫像具備科研標簽、技術(shù)標簽和資訊標簽,具體構(gòu)建流程如圖3所示。①數(shù)據(jù)采集。主要任務(wù)是采集構(gòu)建用戶畫像模型所需基礎(chǔ)數(shù)據(jù),包括科研需求數(shù)據(jù)、科研行為數(shù)據(jù)和互聯(lián)網(wǎng)資訊數(shù)據(jù)。其中,科研需求數(shù)據(jù)包括用戶經(jīng)常關(guān)注的領(lǐng)域、專家和機構(gòu),主要利用調(diào)查問卷和訪談法與用戶深入溝通獲得;科研行為數(shù)據(jù)是用戶在查找科技文獻活動中產(chǎn)生的數(shù)據(jù),包括瀏覽、下載、關(guān)注和收藏記錄等,主要通過用戶活動日志獲得;互聯(lián)網(wǎng)資訊數(shù)據(jù)是用戶經(jīng)常瀏覽的行業(yè)信息和政策信息,主要通過專業(yè)數(shù)據(jù)抓取工具獲得。②數(shù)據(jù)組織與整理。該步驟主要通過數(shù)據(jù)規(guī)范、數(shù)據(jù)分類、數(shù)據(jù)清洗、數(shù)據(jù)去重等技術(shù)對基礎(chǔ)數(shù)據(jù)進行標準化和整理加工,建立用科研需求畫像數(shù)據(jù)庫、科研行為畫像數(shù)據(jù)庫和互聯(lián)網(wǎng)資訊畫像數(shù)據(jù)庫。③標簽抽取與用戶畫像。該步驟是構(gòu)建用戶畫像模型的核心,利用自然語言處理、數(shù)據(jù)挖掘、模式識別、特征提取等技術(shù),建立用戶標簽數(shù)據(jù)庫,完成用戶畫像建模。
圖3 用戶畫像模型構(gòu)建流程
基于用戶畫像的科技創(chuàng)新知識服務(wù)系統(tǒng)的構(gòu)建,要結(jié)合企業(yè)與科研院所開展科學(xué)研究、技術(shù)創(chuàng)新過程所需領(lǐng)域知識的特點,以及檢索、下載、訂閱等科研行為的情況,其服務(wù)功能應(yīng)包括知識精準檢索、知識全景分析、領(lǐng)域知識導(dǎo)航、知識推薦4類。
傳統(tǒng)的文獻檢索無法揭示蘊藏在科技文獻中的知識,而基于用戶畫像的科技創(chuàng)新知識服務(wù)系統(tǒng)通過碎片化挖掘、語義化關(guān)聯(lián),深度抽取資源內(nèi)容特征構(gòu)建的科技數(shù)據(jù)知識圖譜,針對文獻、學(xué)者、機構(gòu)、期刊、基金/項目、領(lǐng)域和主題建立交叉和關(guān)聯(lián)檢索。輸入關(guān)鍵詞后不僅可以直接檢索到相關(guān)主題知識,還可以直接獲取上述各種關(guān)聯(lián)知識。如通過研究領(lǐng)域、研究主題、所在單位、發(fā)文期刊、所獲資助都可以檢索到相關(guān)研究學(xué)者;根據(jù)姓名可以直接檢索到其所在研究機構(gòu),同時也可以獲得與該研究機構(gòu)對應(yīng)的研究領(lǐng)域、研究主題、發(fā)文期刊、所獲資助等,通過這些又能檢索相關(guān)的其他研究機構(gòu);根據(jù)研究領(lǐng)域可以檢索到相關(guān)主題,不僅可以查詢到相關(guān)主題知識目錄,還可以同時獲得與主題相關(guān)的專家學(xué)者姓名、主要機構(gòu)、發(fā)文期刊、相關(guān)主題下的基金/項目信息等。
針對每個知識對象,都能從相關(guān)文獻、研究專家、合作機構(gòu)、研究主題、研究領(lǐng)域、發(fā)表期刊、所獲基金/項目7個方面對其進行深度揭示。就研究主題而言,可揭示研究內(nèi)容與其相關(guān)的所有科技文獻、研究該主題的學(xué)者與機構(gòu)、經(jīng)常與其共現(xiàn)的主題、發(fā)表該主題文獻的期刊、該主題隸屬的研究領(lǐng)域、該主題被哪些基金項目資助等,還可以呈現(xiàn)歷年的文獻發(fā)表量、被引量和H指數(shù)等研究概況,方便用戶快速全面了解和分析整個研究主題及其發(fā)展脈絡(luò);就專家/機構(gòu)而言,可以查看其最新的研究成果,展示其主要研究方向,發(fā)現(xiàn)與其從事產(chǎn)業(yè)、行業(yè)或開發(fā)方向相似的專家/機構(gòu),方便用戶開展產(chǎn)學(xué)研合作或產(chǎn)品開發(fā)咨詢。
基于用戶畫像建立的關(guān)注領(lǐng)域標簽,結(jié)合知識圖譜中的領(lǐng)域?qū)嶓w,可以建立用戶關(guān)注領(lǐng)域知識目錄,并以此為基礎(chǔ)為用戶提供關(guān)注領(lǐng)域內(nèi)的知識導(dǎo)航服務(wù),包括領(lǐng)域內(nèi)的研究主題、相關(guān)的科技文獻、相關(guān)的研究學(xué)者和研究機構(gòu)等。知識目錄樹的建立是知識導(dǎo)航的基礎(chǔ),根據(jù)領(lǐng)域概念的上下級或隸屬關(guān)系,把用戶畫像模型中的關(guān)注領(lǐng)域進行重新組織和規(guī)范表達,形成領(lǐng)域知識目錄。利用文本相似度技術(shù)從知識圖譜中找到與葉子節(jié)點最相似的領(lǐng)域?qū)嶓w,為用戶推送該領(lǐng)域?qū)嶓w對應(yīng)的研究主題,以及與該研究主題相關(guān)的文獻、學(xué)者、機構(gòu)。
該功能主要基于用戶畫像中的關(guān)注專家、機構(gòu)和技術(shù)標簽,采用內(nèi)容推薦算法和協(xié)同過濾算法為用戶推薦感興趣的知識,具體包括訂閱推薦和科研行為推薦。其中,訂閱推薦基于用戶主動關(guān)注的專家和機構(gòu)信息,利用基于內(nèi)容的協(xié)同過濾算法,找出與用戶關(guān)注的專家和機構(gòu)研究方向相似的專家和機構(gòu),推薦給用戶;科研行為推薦主要基于用戶的技術(shù)方向信息,采用內(nèi)容推薦算法為用戶推薦與其技術(shù)方向相似的科技文獻、研究主題、專家和機構(gòu)。
系統(tǒng)建成后,選擇天津市內(nèi)重點產(chǎn)業(yè)領(lǐng)域的科研院所和科技企業(yè)開展應(yīng)用實踐。在雙向溝通交流中厘清各類型用戶的科技創(chuàng)新特點與科研生產(chǎn)主題,先后建立畫像庫和知識服務(wù)平臺,并依托科技成果轉(zhuǎn)化推廣體系深入開展知識服務(wù),力求通過實踐將基于用戶畫像的科技創(chuàng)新知識服務(wù)系統(tǒng)從科技成果切實轉(zhuǎn)化為社會生產(chǎn)力。
以天津科技文獻共享服務(wù)平臺總量超過5億條的科技文獻資源為基礎(chǔ)數(shù)據(jù),利用前面所述的知識圖譜構(gòu)建方法,經(jīng)過實體抽取、實體消歧對齊、實體關(guān)聯(lián)3個步驟,挖掘整理了近1 000萬個學(xué)者、20萬個機構(gòu)、200萬個主題、5萬個基金項目、5萬種期刊傳媒、500個研究領(lǐng)域,其中對200萬個學(xué)者和機構(gòu)進行了消歧處理,同時建立了10億條知識對象之間的關(guān)聯(lián)關(guān)系,最終構(gòu)建了一個包含科技文獻、學(xué)者、機構(gòu)、期刊、基金/項目、領(lǐng)域和主題7類實體及其關(guān)聯(lián)關(guān)系的科技大數(shù)據(jù)知識圖譜。
面向天津市軌道交通、海水淡化、新能源、新材料等重點領(lǐng)域10余家領(lǐng)軍企業(yè)、科研院所,梳理用戶關(guān)注的領(lǐng)域、專家和機構(gòu),收集和分析用戶科研行為,包括瀏覽和下載的科技文獻、互聯(lián)網(wǎng)信息、科技項目信息等數(shù)據(jù),為每家企業(yè)和科研院所構(gòu)建了個性化的用戶畫像模型,搭建了定制化知識服務(wù)系統(tǒng),為其獲取已有知識、發(fā)現(xiàn)潛在知識及知識之間的關(guān)聯(lián)關(guān)系提供了全面支撐。搭建的軌道交通和海水淡化知識服務(wù)平臺,梳理了鐵路軌道交通和海水淡化領(lǐng)域的5 125個研究主題、91個期刊、107個專家、77個機構(gòu)、125個標準,幫助用戶全面了解和跟蹤該領(lǐng)域的研究主題、行業(yè)專家和行業(yè)機構(gòu),以及最新的技術(shù)熱點,根據(jù)其個人畫像模型為其推薦該領(lǐng)域的重點文獻、熱門專家和機構(gòu),提高了用戶在該領(lǐng)域的技術(shù)創(chuàng)新能力。
在國內(nèi)重點區(qū)域、行業(yè)、企業(yè)與科研院所的探索實踐中,不斷調(diào)整融合系統(tǒng)功能、用戶需求、資源內(nèi)容,最終形成個性化業(yè)務(wù)搭建流程,能夠在短期完成一站式檢索、知識目錄推薦、項目申報與科技政策、標準規(guī)范、行業(yè)動態(tài)等13個知識服務(wù)功能模塊的高效部署。
(1)區(qū)域知識門戶。面向天津市某重點區(qū)縣搭建了區(qū)域知識門戶,除具有通用知識服務(wù)功能外,還針對用戶個性化文獻資源管理與服務(wù)平臺快速、自定義搭建需求,開發(fā)了文獻資源個性化選擇部署、門戶布局個性化定制、用戶分級管理以及動態(tài)信息自主發(fā)布模塊,為區(qū)域內(nèi)企業(yè)和科研院所科技創(chuàng)新提供強有力的知識服務(wù)支撐。
(2)行業(yè)知識門戶。搭建完成科技情報、科技咨詢等重點行業(yè)領(lǐng)域知識門戶,針對行業(yè)特點和行業(yè)內(nèi)企業(yè)需求,構(gòu)建了重點行業(yè)領(lǐng)域主題詞表和專業(yè)知識圖譜,并根據(jù)特色行業(yè)企業(yè)創(chuàng)新需求開發(fā)互動功能,為本地特色行業(yè)企業(yè)提供廣覆蓋式的知識服務(wù)。
(3)企業(yè)與科研院所知識門戶。面向軌道交通、海水淡化、新能源、新材料等重點領(lǐng)域10余家領(lǐng)軍企業(yè)、科研院所,建成定制化知識服務(wù)門戶,為每家企業(yè)院所構(gòu)建了用戶畫像模型和關(guān)注主題知識圖譜,充分調(diào)用知識服務(wù)系統(tǒng)全功能,幫助企業(yè)與科研院所實現(xiàn)知識的有效管理和應(yīng)用,為其開展軌道設(shè)計、海水淡化與利用等方面的關(guān)鍵技術(shù)研究提供了有效知識服務(wù)支撐。
該項研究對國內(nèi)開展區(qū)域、行業(yè)、科技企業(yè)、科研院所科技創(chuàng)新知識服務(wù)具有重要意義。一方面,針對科技企業(yè)、科研院所開展了基于科研項目主題或產(chǎn)業(yè)鏈上下游主題的用戶畫像工作,并對科技文獻資源中蘊藏的知識對象進行了深度知識挖掘,構(gòu)建了一個包含科技文獻、學(xué)者、機構(gòu)、期刊、基金/項目、領(lǐng)域和主題7類實體及其關(guān)聯(lián)關(guān)系的科技大數(shù)據(jù)知識圖譜;另一方面,通過開展推廣應(yīng)用,成功發(fā)揮了該系統(tǒng)的社會效益與經(jīng)濟效益,高效解決產(chǎn)業(yè)、行業(yè)、企業(yè)領(lǐng)域科技創(chuàng)新用戶的知識檢索、獲取和發(fā)現(xiàn)問題,并開拓面向科技管理決策的應(yīng)用領(lǐng)域,充分體現(xiàn)人工智能對傳統(tǒng)科技信息服務(wù)生態(tài)的全面升級,積極助力大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)實體經(jīng)濟融合創(chuàng)新和長遠發(fā)展。需要指出的是,由于已經(jīng)在應(yīng)用研究中建立了良好的用戶基礎(chǔ)和應(yīng)用推廣體系,今后有望在更大范圍、更深層次、更高水平上獲得可持續(xù)發(fā)展。