許文文,徐霄驥,馬 勛,張 峰
(中國電子科技集團(tuán)公司信息科學(xué)研究院 認(rèn)知與智能技術(shù)重點實驗室,北京 100086)
科研機(jī)構(gòu)是以社會和經(jīng)濟(jì)需求為導(dǎo)向,有明確研究方向和任務(wù)并持續(xù)有組織地開展相關(guān)研究與開發(fā)活動的機(jī)構(gòu)[1]。全面了解和掌握科研機(jī)構(gòu)發(fā)展態(tài)勢,是提升創(chuàng)新能力、開展機(jī)構(gòu)間協(xié)同創(chuàng)新的重要基礎(chǔ)。然而,隨著科學(xué)技術(shù)的迅猛發(fā)展,科研機(jī)構(gòu)的科研活動范圍越來越廣泛,科研成果呈多源化、海量化的速度增長。如何將海量異構(gòu)的科研數(shù)據(jù)快速、精準(zhǔn)、高效地組織成高價值業(yè)務(wù)數(shù)據(jù),挖掘出科研機(jī)構(gòu)的特征,支撐機(jī)構(gòu)發(fā)展態(tài)勢認(rèn)知,成為學(xué)術(shù)界亟待解決的重點問題,具體體現(xiàn)在以下方面。
(1)海量異構(gòu)的科研數(shù)據(jù)融合不足。受限于技術(shù)手段和人力成本開銷,目前科研機(jī)構(gòu)相關(guān)分析主要基于論文或?qū)@葐我粩?shù)據(jù)進(jìn)行,在認(rèn)知完整性、準(zhǔn)確性等方面存在不足,需要開展在論文、專利、項目及科研動態(tài)資訊等數(shù)據(jù)融合基礎(chǔ)上的綜合分析。
(2)機(jī)構(gòu)科研情況認(rèn)識不清。大多數(shù)研究只是針對科研機(jī)構(gòu)某些屬性進(jìn)行統(tǒng)計性分析,缺乏對科研機(jī)構(gòu)的研究與開發(fā)活動屬性的綜合、全面的梳理。
(3)機(jī)構(gòu)發(fā)展趨勢認(rèn)知不深。現(xiàn)有分析主要依靠人工經(jīng)驗進(jìn)行概略和粗放式進(jìn)行,在準(zhǔn)確性和預(yù)見性方面存在不足。
多源信息融合、知識圖譜等技術(shù)的發(fā)展為上述問題的解決提供了可能。多源信息融合技術(shù)能夠?qū)⒍喾N(同類或異類)信息源的數(shù)據(jù)進(jìn)行綜合,獲得研究對象的較全面的描述和刻畫,使得信息系統(tǒng)具有更好的性能[2]。知識圖譜可對海量數(shù)據(jù)進(jìn)行重新抽象、整理和組織,以更加合理、有序、直觀的方式將知識展示給用戶,使之能更加有利于人的理解和認(rèn)知,從而更加有效地指導(dǎo)決策[3]。本文采用多源信息融合、知識圖譜構(gòu)建與分析等技術(shù),匯聚融合多個信息源的科研數(shù)據(jù),抽取出機(jī)構(gòu)、技術(shù)、專家等科技實體,通過對科技實體間關(guān)聯(lián)、組合、聚類等分析,建立科研機(jī)構(gòu)畫像,開展機(jī)構(gòu)科研動向分析等,為科研機(jī)構(gòu)的技術(shù)布局、研發(fā)動向等認(rèn)知提供輔助支撐。
本文主要貢獻(xiàn)在于:提出了一種數(shù)據(jù)驅(qū)動的科研機(jī)構(gòu)信息感知與融合框架,支撐對數(shù)據(jù)的要素抽取、關(guān)聯(lián)融合、分析挖掘,提高科研資源的深層次挖掘利用效率;提出了一種基于圖譜的科研機(jī)構(gòu)畫像技術(shù),實現(xiàn)對科研機(jī)構(gòu)的綜合全面梳理;提出了一種基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動向分析技術(shù),支撐機(jī)構(gòu)技術(shù)發(fā)展布局洞察,為機(jī)構(gòu)行為的預(yù)測提供支持。
現(xiàn)階段,科研領(lǐng)域的數(shù)據(jù)呈現(xiàn)多源化、海量化的增長趨勢,極大地豐富了可利用的資源。與基于單一數(shù)據(jù)源的分析相比,基于多源信息融合的科研機(jī)構(gòu)分析能夠更全面地反映科研機(jī)構(gòu)的整體研究與開發(fā)活動情況,更準(zhǔn)確地定位機(jī)構(gòu)的研究重點、熱點和預(yù)測領(lǐng)域研究趨勢[4]。
數(shù)據(jù)融合是有效提升相關(guān)任務(wù)準(zhǔn)確率的手段[5]。本文結(jié)合數(shù)據(jù)爬蟲、自然語言處理、數(shù)據(jù)挖掘等技術(shù),開展以科研成果、科研項目、科研新聞動態(tài)等為主要內(nèi)容的科研數(shù)據(jù)感知與處理研究,構(gòu)建科研機(jī)構(gòu)信息感知與融合框架,集成文本挖掘、圖譜構(gòu)建等算法和模型,支撐對數(shù)據(jù)的要素抽取、關(guān)聯(lián)融合、分析挖掘,提高科研資源的深層次挖掘利用效率??蒲袡C(jī)構(gòu)信息感知與融合框架如圖1所示。
圖1 科研機(jī)構(gòu)信息感知與融合框架
數(shù)據(jù)源層,覆蓋機(jī)構(gòu)網(wǎng)站、科技成果、社交媒體網(wǎng)站、資訊網(wǎng)站等開源數(shù)據(jù)以及內(nèi)部數(shù)據(jù),獲取、收集科研機(jī)構(gòu)的專利、論文、社交賬號動態(tài)及新聞資訊等信息,實現(xiàn)信息的匯聚,為后續(xù)數(shù)據(jù)挖掘分析等提供數(shù)據(jù)支撐。具體地,采用定源跟蹤與開放式獲取相結(jié)合的多源數(shù)據(jù)采集方法獲取數(shù)據(jù),并且建立多源信息監(jiān)測、長期跟蹤機(jī)制,實現(xiàn)數(shù)據(jù)的定期更新。
數(shù)據(jù)治理層,基于匯聚的科研數(shù)據(jù)資源,結(jié)合文本挖掘、機(jī)器翻譯、知識圖譜構(gòu)建等技術(shù),以及人工輔助矯正的方式,開展科研機(jī)構(gòu)、專家、技術(shù)等實體識別、實體間的關(guān)聯(lián)關(guān)系抽取、實體對齊以及實體融合等處理,構(gòu)建機(jī)構(gòu)庫、專家?guī)?、技術(shù)庫、項目庫及成果庫等科研資源庫,構(gòu)建以科研機(jī)構(gòu)為核心的異質(zhì)關(guān)聯(lián)知識圖譜,實現(xiàn)多源信息的融合以及數(shù)據(jù)的關(guān)聯(lián)化、層次化、圖譜化,支撐科研資源的深度挖掘與利用。
數(shù)據(jù)分析層,在科研資源庫和機(jī)構(gòu)關(guān)聯(lián)知識圖譜的基礎(chǔ)上,結(jié)合復(fù)雜網(wǎng)絡(luò)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù),開展基于圖譜的科研機(jī)構(gòu)畫像、機(jī)構(gòu)科研動向分析等研究,形成針對科研機(jī)構(gòu)的一套深度分析工具集,實現(xiàn)對機(jī)構(gòu)科研產(chǎn)出、技術(shù)布局、研發(fā)動向等的認(rèn)知。
業(yè)務(wù)應(yīng)用層,支撐科研機(jī)構(gòu)檢索、機(jī)構(gòu)合作分析、機(jī)構(gòu)發(fā)展態(tài)勢感知、科研機(jī)構(gòu)推薦、新興技術(shù)發(fā)現(xiàn)、機(jī)構(gòu)技術(shù)布局洞察等服務(wù),為掌握最新科技動向、科學(xué)判斷、果斷決策等提供輔助支撐。
機(jī)構(gòu)畫像是通過分析機(jī)構(gòu)的固有屬性以及動態(tài)行為和變化,提煉出以機(jī)構(gòu)為核心的各類屬性特征,實現(xiàn)對機(jī)構(gòu)的多個維度的綜合展示和分析??蒲袡C(jī)構(gòu)畫像可以真實、全面、準(zhǔn)確、動態(tài)地描繪科研機(jī)構(gòu)的特征[6],支撐機(jī)構(gòu)檢索以及對相關(guān)機(jī)構(gòu)的篩選、統(tǒng)計或?qū)Ρ确治龅取?/p>
科研機(jī)構(gòu)除具有普通社會主體的法律特征、行為特征、經(jīng)濟(jì)特征以外,在研究與開發(fā)活動中還形成了自身的科研特征,如研究領(lǐng)域、科研產(chǎn)出及科研合作等。特別地,機(jī)構(gòu)合作已成為科研合作[7]的主要形式之一。對其合作結(jié)構(gòu)的研究,有助于把握科研機(jī)構(gòu)合作的規(guī)律和態(tài)勢[8]。按照特征類型,可以將科研機(jī)構(gòu)畫像分為基本屬性畫像、業(yè)務(wù)屬性畫像及關(guān)系屬性畫像?;緦傩援嬒裰饕ㄟ^機(jī)構(gòu)成立時間、所在地址、機(jī)構(gòu)類型及簡介等基本屬性標(biāo)簽對機(jī)構(gòu)進(jìn)行刻畫。業(yè)務(wù)屬性畫像主要通過機(jī)構(gòu)涉及領(lǐng)域、科研產(chǎn)出、獎項榮譽等屬性標(biāo)簽對機(jī)構(gòu)進(jìn)行刻畫。關(guān)系屬性畫像主要通過機(jī)構(gòu)科研合作關(guān)系、機(jī)構(gòu)隸屬關(guān)系、科研引用關(guān)系等屬性標(biāo)簽對機(jī)構(gòu)進(jìn)行刻畫。
基于圖譜的科研機(jī)構(gòu)畫像處理流程如圖2所示。首先,獲取機(jī)構(gòu)的基本屬性信息,它是科研機(jī)構(gòu)開展相關(guān)研究與開發(fā)活動的基礎(chǔ)。機(jī)構(gòu)成立時間、所在地址、機(jī)構(gòu)類型、機(jī)構(gòu)簡介、機(jī)構(gòu)法人以及組織架構(gòu)等信息可以通過機(jī)構(gòu)官網(wǎng)、機(jī)構(gòu)相關(guān)成果、機(jī)構(gòu)相關(guān)新聞資訊等獲取。其次,通過對科研機(jī)構(gòu)涉及的項目、發(fā)表成果、產(chǎn)品等進(jìn)行文本分析和統(tǒng)計分析,識別出機(jī)構(gòu)涉獵的科研領(lǐng)域、相關(guān)技術(shù)產(chǎn)出和產(chǎn)量,構(gòu)建機(jī)構(gòu)業(yè)務(wù)屬性畫像。最后,在關(guān)系屬性畫像方面,通過對機(jī)構(gòu)科研成果的分析,主要是對其論文、專利、獎項等科研成果的署名信息進(jìn)行解析,構(gòu)建出機(jī)構(gòu)間的合作關(guān)系。機(jī)構(gòu)間合作的科研成果越多,它們之間的科研合作關(guān)系越緊密??梢圆捎蒙鐖F(tuán)發(fā)現(xiàn)、網(wǎng)絡(luò)重構(gòu)、圖分割等技術(shù),分析機(jī)構(gòu)間關(guān)系的緊密程度,進(jìn)而識別機(jī)構(gòu)科研合作圈。通過對機(jī)構(gòu)組織架構(gòu)、主管單位屬性、機(jī)構(gòu)發(fā)展歷程的分析,可構(gòu)建機(jī)構(gòu)的層級隸屬關(guān)系。
圖2 基于圖譜的科研機(jī)構(gòu)畫像處理流程
科研機(jī)構(gòu)動向分析是對一段時間內(nèi)科研機(jī)構(gòu)活動情況進(jìn)行分析挖掘,得出其行動或技術(shù)發(fā)展的方向。科研機(jī)構(gòu)動向分析能夠洞察機(jī)構(gòu)的技術(shù)發(fā)展布局,為機(jī)構(gòu)行為的預(yù)測提供支持。
當(dāng)前,社交媒體與科研活動的聯(lián)系日益密切。社交媒體讓科研過程管理更加公開透明[9]??蒲袡C(jī)構(gòu)的社交媒體數(shù)據(jù)能夠反映機(jī)構(gòu)的參與項目情況、研究進(jìn)展信息、招聘需求信息等。機(jī)構(gòu)新聞資訊是由機(jī)構(gòu)本身或第三方反映機(jī)構(gòu)活動的信息。相比論文、專利等科研成果,科研機(jī)構(gòu)的社交媒體信息、資訊信息具有高時效性、內(nèi)容豐富性等特征,為機(jī)構(gòu)動向分析提供了有力數(shù)據(jù)支撐。
關(guān)聯(lián)分析能夠提高數(shù)據(jù)的價值和利用率。當(dāng)數(shù)據(jù)內(nèi)容具有時間、空間上的聯(lián)系時,關(guān)聯(lián)分析可以將相似的數(shù)據(jù)進(jìn)行匯總,提取出有用的知識[10]。本文基于科研機(jī)構(gòu)的社交媒體信息、資訊信息等,運用關(guān)聯(lián)分析技術(shù)進(jìn)行動向事件提取,形成事件集合,從時空關(guān)聯(lián)挖掘、實體關(guān)聯(lián)挖掘等角度,挖掘事件間的時序和關(guān)聯(lián)關(guān)系,建立事件間的因果關(guān)系和發(fā)展脈絡(luò),形成科研機(jī)構(gòu)活動情況的動向信息。動向事件包含時間(發(fā)生時間、涉及時間)、地點(發(fā)生地點、涉及地點)、參與者以及內(nèi)容描述等要素。
基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動向分析處理流程如圖3所示。首先采用向量空間模型(Vector Space Model,VSM)對科研機(jī)構(gòu)相關(guān)的社交媒體信息、資訊信息等文檔進(jìn)行向量化表示。采用改進(jìn)的tf-idf(term frequency-inverse document frequency)的 詞語特征權(quán)重表示方法,將每篇文檔表示為一個向量,便于進(jìn)行文本聚類和關(guān)系建模等處理。得到文檔的向量表示模型后,通過聚類將文檔集合中描述不同內(nèi)容的文檔區(qū)分開來,將相似內(nèi)容的相關(guān)文檔聚為一類,即每類代表一個事件。其次進(jìn)行關(guān)鍵詞提取,通過文本聚類可以將文檔集中相關(guān)性強的文本聚集在一起,形成一個話題,并從聚類得出的每個事件中抽取出一些關(guān)鍵詞對事件進(jìn)行描述。再次,進(jìn)行關(guān)聯(lián)關(guān)系建模,通過事件之間的時序規(guī)律、關(guān)聯(lián)關(guān)系、因果規(guī)律挖掘以及關(guān)聯(lián)度的大小對事件的關(guān)聯(lián)關(guān)系進(jìn)行判斷,構(gòu)建出事件關(guān)聯(lián)關(guān)系模型。最后,結(jié)合專家知識預(yù)判科研機(jī)構(gòu)的發(fā)展動向。
圖3 基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動向分析處理流程
科研機(jī)構(gòu)態(tài)勢感知能夠提升管理工作、輔助決策。不同源的信息能夠從不同的角度反映科研機(jī)構(gòu)的研究與開發(fā)活動情況。本文提出了一種數(shù)據(jù)驅(qū)動的科研機(jī)構(gòu)信息感知與融合框架,實現(xiàn)了對官方網(wǎng)站、期刊論文、專利文獻(xiàn)、社交媒體、新聞資訊等多種渠道的信息采集,并對異構(gòu)信息進(jìn)行匯聚融合,形成規(guī)范統(tǒng)一、持續(xù)更新的科研機(jī)構(gòu)數(shù)據(jù)。針對機(jī)構(gòu)科研狀態(tài)的認(rèn)識需求,本文提出了一種基于圖譜的科研機(jī)構(gòu)畫像技術(shù),實現(xiàn)綜合性、關(guān)聯(lián)性的機(jī)構(gòu)科研情況分析。針對科研機(jī)構(gòu)發(fā)展趨勢認(rèn)知的需求,本文提出了一種基于關(guān)聯(lián)挖掘的科研機(jī)構(gòu)動向分析技術(shù),支撐機(jī)構(gòu)技術(shù)發(fā)展布局洞察,為機(jī)構(gòu)行為的預(yù)測提供支持。下一步將針對具體領(lǐng)域開展科研機(jī)構(gòu)發(fā)展態(tài)勢實證分析,對方法進(jìn)行優(yōu)化,對分析功能進(jìn)行完善。