亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于科研知識(shí)圖譜的研究側(cè)寫生成方法研究與設(shè)計(jì)*

        2022-08-17 03:00:28李嬌孫坦鮮國(guó)建黃永文
        數(shù)字圖書(shū)館論壇 2022年7期
        關(guān)鍵詞:研究

        李嬌 孫坦 鮮國(guó)建,4 黃永文

        (1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 國(guó)家新聞出版署農(nóng)業(yè)融合出版知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;3. 中國(guó)農(nóng)業(yè)科學(xué)院,北京 100081;4. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)

        開(kāi)放科學(xué)背景下,科技論文等學(xué)術(shù)資源逐漸進(jìn)入“大數(shù)據(jù)化”階段,誕生了數(shù)據(jù)密集型的知識(shí)發(fā)現(xiàn)范式,科學(xué)研究也進(jìn)入新常態(tài),出現(xiàn)大量交叉學(xué)科研究、轉(zhuǎn)換型研究、跨學(xué)科及跨地域合作研究、開(kāi)放眾包型科研[1]等??萍嘉墨I(xiàn)的數(shù)量已遠(yuǎn)遠(yuǎn)超過(guò)人工處理的極限,傳統(tǒng)的文獻(xiàn)評(píng)價(jià)或綜述難以滿足科研人員快速、廣泛地了解領(lǐng)域科研發(fā)展情況的需求,知識(shí)服務(wù)元素從物理層次的文獻(xiàn)單元向認(rèn)知層次的知識(shí)單元轉(zhuǎn)換[2],研究者轉(zhuǎn)而探索一種基于大規(guī)??萍嘉墨I(xiàn)信息的領(lǐng)域態(tài)勢(shì)監(jiān)測(cè)和分析方法——研究側(cè)寫(Research Profiling)[3],實(shí)現(xiàn)領(lǐng)域內(nèi)主題結(jié)構(gòu)、技術(shù)方法、重要研究人員等核心內(nèi)容的多角度挖掘和全景式揭示,進(jìn)而改善科研人員知識(shí)獲取和科學(xué)探索的效率。2002年,美國(guó)知名情報(bào)研究專家Alan Porter首次系統(tǒng)地提出研究側(cè)寫概念,將其界定為一種對(duì)領(lǐng)域文獻(xiàn)信息進(jìn)行大規(guī)模掃視的方法,通過(guò)采用數(shù)據(jù)挖掘等技術(shù)實(shí)現(xiàn)特定學(xué)科多維度因素的全面展示[3]。國(guó)內(nèi)對(duì)這一概念的引入相對(duì)較晚,2010年,趙琦[4]對(duì)研究側(cè)寫的方法和技術(shù)進(jìn)行了全面的追蹤與分析,實(shí)際上相關(guān)研究則開(kāi)展的更早,如清華Aminer(原ArnetMiner)基于學(xué)術(shù)社交網(wǎng)絡(luò)的研究者信息挖掘與側(cè)寫生成[5]。相較于傳統(tǒng)基于可視化分析工具(如CiteSpace、VOSviewer)或文字分析的文獻(xiàn)綜述,研究側(cè)寫更具綜合性,需要數(shù)據(jù)源、文本挖掘和知識(shí)組織技術(shù)、可視化展示等多方面的配合,以期賦予文獻(xiàn)觀察更深的視角??蒲兄R(shí)圖譜(Scientific Knowledge Graph,SKG)[6]——學(xué)術(shù)領(lǐng)域中涵蓋實(shí)體和關(guān)系的大型語(yǔ)義網(wǎng)絡(luò),可通過(guò)其語(yǔ)義規(guī)范性和鏈接思想將原本非結(jié)構(gòu)、無(wú)關(guān)聯(lián)的粗糙數(shù)據(jù)逐步提煉為結(jié)構(gòu)化、強(qiáng)關(guān)聯(lián)的高質(zhì)量知識(shí),無(wú)疑為研究側(cè)寫中科技文獻(xiàn)結(jié)構(gòu)與主題信息的多角度組織與揭示提供了可能性。

        科研知識(shí)圖譜通常包含描述出版物的元數(shù)據(jù)(如科研人員、科研機(jī)構(gòu)、期刊、資助項(xiàng)目、主題等),其價(jià)值在于通過(guò)數(shù)據(jù)關(guān)聯(lián)、互操作和數(shù)據(jù)挖掘等來(lái)提升學(xué)術(shù)內(nèi)容的可見(jiàn)性和可用性。近年來(lái),在出版商、專業(yè)信息機(jī)構(gòu)等的參與和共同推進(jìn)下,大規(guī)模高質(zhì)量的科研知識(shí)圖譜不斷涌現(xiàn),如Springer Nature推出Scigraph[7],上海交通大學(xué)構(gòu)建的語(yǔ)義異構(gòu)學(xué)術(shù)圖譜AceGK(Acemap Knowledge Graph)[8],開(kāi)放學(xué)術(shù)組織發(fā)布的億級(jí)開(kāi)放學(xué)術(shù)圖譜OAG(Open Academic Graph)[9]、學(xué)術(shù)界/行業(yè)動(dòng)態(tài)知識(shí)圖譜AIDA(Academia/Industry DynAmics)[10]等。隨著文本挖掘、自然語(yǔ)言處理等智能技術(shù)的發(fā)展,科研知識(shí)圖譜研究實(shí)踐逐漸向領(lǐng)域知識(shí)深度揭示和應(yīng)用支撐邁進(jìn),如Tosi等[11]通過(guò)科研知識(shí)圖譜描述領(lǐng)域知識(shí)結(jié)構(gòu),超越傳統(tǒng)的元數(shù)據(jù)和引用關(guān)系;Dessì等[5]采用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù)對(duì)語(yǔ)義網(wǎng)領(lǐng)域?qū)W術(shù)文獻(xiàn)進(jìn)行挖掘構(gòu)建科研知識(shí)圖譜;Huo等[12]集成出版物和醫(yī)學(xué)主題詞表MeSH并提出基于書(shū)目知識(shí)圖譜的熱點(diǎn)主題預(yù)測(cè)模型。

        科研知識(shí)圖譜向領(lǐng)域的縱深發(fā)展為科研實(shí)體和領(lǐng)域知識(shí)的揭示融合及以此為基礎(chǔ)的知識(shí)應(yīng)用奠定了基礎(chǔ)。因此,本文在現(xiàn)有研究基礎(chǔ)上,針對(duì)海量科技文獻(xiàn)環(huán)境下的知識(shí)獲取困境,設(shè)計(jì)了基于科研知識(shí)圖譜的研究側(cè)寫生成方法,涵蓋從數(shù)據(jù)源獲取、科研知識(shí)圖譜構(gòu)建到存儲(chǔ)計(jì)算和場(chǎng)景服務(wù)的全過(guò)程。結(jié)合兩者理論和技術(shù)優(yōu)勢(shì),深度融合科技文獻(xiàn)信息及領(lǐng)域知識(shí),實(shí)現(xiàn)多維度、全景式的知識(shí)內(nèi)容揭示,以期為知識(shí)發(fā)現(xiàn)、科研評(píng)價(jià)等發(fā)揮支撐作用。

        1 相關(guān)研究

        研究側(cè)寫是一種針對(duì)大規(guī)模數(shù)據(jù)源的信息分析方法,關(guān)鍵在于揭示學(xué)科、專家、機(jī)構(gòu)等不同科研實(shí)體的研究情況,發(fā)現(xiàn)領(lǐng)域中的主題關(guān)系、發(fā)展趨勢(shì)等。按照分析對(duì)象的不同,研究側(cè)寫結(jié)果主要包含3種類型[13]:①領(lǐng)域?qū)W術(shù)地圖,描述出版物概況,如來(lái)源類型(期刊、會(huì)議、出版社等)、作者、機(jī)構(gòu)等;②主題領(lǐng)域概貌,通過(guò)分析主題內(nèi)容、核心參考文獻(xiàn)等在不同學(xué)科中的分布來(lái)探索領(lǐng)域的多學(xué)科特性;③主題分析,發(fā)現(xiàn)領(lǐng)域發(fā)展中的熱點(diǎn)前沿、高影響力專家和核心參考文獻(xiàn)等。

        Porter等[3]歸納了研究側(cè)寫實(shí)踐效果影響因素(見(jiàn)表1),具體體現(xiàn)在以下6個(gè)方面:①數(shù)據(jù)可獲得性,數(shù)據(jù)源類型和數(shù)據(jù)的獲取權(quán)限,如文獻(xiàn)數(shù)據(jù)庫(kù)、數(shù)據(jù)可獲取規(guī)模和字段,選取開(kāi)放數(shù)據(jù)庫(kù)往往能夠支持更大規(guī)模、更全信息的免費(fèi)獲取,保證側(cè)寫數(shù)據(jù)源的質(zhì)量和范圍;②可用于研究側(cè)寫生成的時(shí)間和資源,越充足則側(cè)寫效果越好;③數(shù)據(jù)分析工具,相較于搜索引擎通過(guò)API接口返回的結(jié)構(gòu)化結(jié)果,可高效實(shí)現(xiàn)分類聚類、識(shí)別歸檔、數(shù)據(jù)組織的文本挖掘工具更能體現(xiàn)研究側(cè)寫方法的優(yōu)勢(shì)[14],這也是相關(guān)研究的側(cè)重點(diǎn);④文本挖掘?qū)I(yè)度,即知識(shí)挖掘的細(xì)粒度、全面性等,越充分則研究側(cè)寫的可視化展示效果越好;⑤學(xué)科專業(yè)度,指領(lǐng)域主題及主題間關(guān)系的豐富度,級(jí)別越高,領(lǐng)域維度知識(shí)揭示越全面;⑥目標(biāo),由淺層的背景概覽到深層的領(lǐng)域內(nèi)主題分析,再到領(lǐng)域內(nèi)外的主題分析與知識(shí)發(fā)現(xiàn),其中領(lǐng)域內(nèi)外的主題分析與知識(shí)發(fā)現(xiàn)是研究側(cè)寫最高形態(tài),可識(shí)別交叉領(lǐng)域新的研究點(diǎn)或機(jī)會(huì)。

        表1 研究側(cè)寫實(shí)踐效果影響因素

        目前,研究側(cè)寫相關(guān)實(shí)踐展示形態(tài)、分析工具各異,標(biāo)準(zhǔn)化和創(chuàng)新[15]、內(nèi)部審計(jì)質(zhì)量[16]、多準(zhǔn)則決策[17]、學(xué)習(xí)型組織[18]等細(xì)分領(lǐng)域或?qū)n}均有應(yīng)用。Sudolska等[19-20]基于出版物元數(shù)據(jù)和引用關(guān)系,先后通過(guò)統(tǒng)計(jì)分析的方法實(shí)現(xiàn)云計(jì)算、負(fù)責(zé)任和可持續(xù)創(chuàng)新專題的研究側(cè)寫,包括出版物、學(xué)科領(lǐng)域、主題多個(gè)維度,以期探索領(lǐng)域主題邊界;Wójcicki等[21]針對(duì)Scopus數(shù)據(jù)(包括標(biāo)題、摘要和關(guān)鍵詞),采用可視化分析工具VOSviewer實(shí)現(xiàn)工業(yè)物聯(lián)網(wǎng)IIOT二維地圖式研究側(cè)寫生成。隨著文本挖掘和自然語(yǔ)言處理等技術(shù)的快速發(fā)展,相關(guān)研究正逐漸從淺層的主題聚類向深層關(guān)聯(lián)關(guān)系揭示過(guò)渡,部分研究者將知識(shí)圖譜與研究側(cè)寫結(jié)合起來(lái),如Munir等[22]采用非關(guān)系型數(shù)據(jù)庫(kù)的監(jiān)控?cái)?shù)據(jù)實(shí)現(xiàn)基于語(yǔ)義知識(shí)圖譜的工業(yè)4.0領(lǐng)域研究側(cè)寫生成及圖數(shù)據(jù)庫(kù)支撐的多維度側(cè)寫查詢。這一實(shí)踐使得研究側(cè)寫無(wú)論在技術(shù)方法還是服務(wù)形態(tài)上都向稍有不同的方向發(fā)展,知識(shí)圖譜通過(guò)具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的圖模型組織和描述事物,是易于計(jì)算機(jī)處理的可計(jì)算模型,結(jié)構(gòu)化特征和關(guān)聯(lián)關(guān)系使其在研究側(cè)寫的生成及可視化展示方面優(yōu)勢(shì)盡顯。因此,本文將知識(shí)圖譜作為數(shù)據(jù)分析和挖掘方法應(yīng)用于文獻(xiàn)領(lǐng)域數(shù)據(jù)的研究側(cè)寫生成,并深入拓展領(lǐng)域知識(shí)維度,突破現(xiàn)有以統(tǒng)計(jì)分析或可視化分析軟件為主的研究側(cè)寫在主題挖掘深度、文獻(xiàn)和領(lǐng)域知識(shí)關(guān)聯(lián)方面的局限性。

        2 基于科研知識(shí)圖譜的研究側(cè)寫架構(gòu)設(shè)計(jì)

        基于科研知識(shí)圖譜的研究側(cè)寫生成與應(yīng)用本質(zhì)上是實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的有效組織,以及文獻(xiàn)知識(shí)的快速識(shí)別、聚類和可視化展示,需要緊密結(jié)合科技文獻(xiàn)資源特征與領(lǐng)域知識(shí)語(yǔ)義元素,明確研究側(cè)寫的目標(biāo)(尤其是應(yīng)用形態(tài)和服務(wù)場(chǎng)景),深層次挖掘揭示關(guān)鍵、核心的科研內(nèi)容。依據(jù)上述研究側(cè)寫效果影響因素標(biāo)準(zhǔn),本文設(shè)計(jì)出基于科研知識(shí)圖譜的研究側(cè)寫總體架構(gòu)(見(jiàn)圖1),自底向上依次包括數(shù)據(jù)獲取與預(yù)處理、科研知識(shí)圖譜構(gòu)建、知識(shí)存儲(chǔ)與計(jì)算、側(cè)寫生成與交互展示四個(gè)層次。

        圖1 基于科研知識(shí)圖譜的研究側(cè)寫總體架構(gòu)

        2.1 數(shù)據(jù)獲取與預(yù)處理

        數(shù)據(jù)獲取與預(yù)處理主要是指結(jié)構(gòu)化語(yǔ)料的獲取解析與加工,解決語(yǔ)料數(shù)據(jù)異構(gòu)、缺省等問(wèn)題,通過(guò)主題匹配的方式在科技文獻(xiàn)數(shù)據(jù)和領(lǐng)域知識(shí)數(shù)據(jù)之間建立相關(guān)關(guān)系。數(shù)據(jù)源方面,科技文獻(xiàn)數(shù)據(jù)可根據(jù)學(xué)科特點(diǎn)基于一定的檢索策略從主流的學(xué)術(shù)資源數(shù)據(jù)庫(kù)(如Web of Science、PubMed、Scopus等)中下載獲取,預(yù)處理包括基于永久標(biāo)識(shí)符PID(Persistent Identifier)和消歧算法的實(shí)體(科研人員及科研機(jī)構(gòu))消歧、多因子復(fù)合加權(quán)文獻(xiàn)重要度計(jì)算、基于語(yǔ)義匹配的文獻(xiàn)資源主題標(biāo)引3個(gè)子任務(wù),充分運(yùn)用文本挖掘和自然語(yǔ)言處理技術(shù),研究中涉及相關(guān)算法模型與操作流程[23-24],限于篇幅此處不再贅述。領(lǐng)域知識(shí)數(shù)據(jù)通常是調(diào)研選取語(yǔ)義Web上開(kāi)放或自建的優(yōu)質(zhì)本體、知識(shí)庫(kù)或領(lǐng)域小規(guī)模知識(shí)圖譜等,可直接采用RDF解析工具(如常用的Jena)進(jìn)行格式解析與轉(zhuǎn)換。

        2.2 科研知識(shí)圖譜構(gòu)建

        知識(shí)圖譜邏輯上分為模式層和數(shù)據(jù)層,模式層即描述抽象知識(shí)的本體層,是知識(shí)圖譜的核心,構(gòu)建在數(shù)據(jù)層之上并用來(lái)約束數(shù)據(jù)層??蒲兄R(shí)圖譜模式層的構(gòu)建主要是基于科技文獻(xiàn)資源及領(lǐng)域知識(shí)語(yǔ)料分析設(shè)計(jì)實(shí)體類型及相應(yīng)的數(shù)據(jù)模型,并綜合應(yīng)用本體編輯工具(如Protégé、WebOnto等)、OWL和SKOS建模語(yǔ)言進(jìn)行知識(shí)建模與實(shí)體管理??蒲兄R(shí)圖譜數(shù)據(jù)層的構(gòu)建則是從多源異構(gòu)數(shù)據(jù)中進(jìn)行知識(shí)抽取,如結(jié)構(gòu)化數(shù)據(jù)可采用RDF ETL插件(RDFzier[25])生成RDF三元組圖數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)(主要是科技文獻(xiàn)的摘要和正文部分)可基于深度學(xué)習(xí)模型(如預(yù)訓(xùn)練語(yǔ)言表征模型BERT[26])進(jìn)行實(shí)體和關(guān)系的識(shí)別。文獻(xiàn)實(shí)體及關(guān)系部分通常為基于科技文獻(xiàn)元數(shù)據(jù)信息的RDF三元組轉(zhuǎn)換,并通過(guò)主題類與領(lǐng)域知識(shí)節(jié)點(diǎn)關(guān)聯(lián)融合。圖譜質(zhì)量是研究側(cè)寫的基礎(chǔ)保障,知識(shí)建模的科學(xué)性、系統(tǒng)性以及實(shí)例數(shù)據(jù)的質(zhì)量、細(xì)粒度、相關(guān)性等直接關(guān)系研究側(cè)寫領(lǐng)域知識(shí)全貌。

        2.3 知識(shí)存儲(chǔ)與計(jì)算

        知識(shí)存儲(chǔ)與計(jì)算是支持查詢、分析等各種應(yīng)用的基礎(chǔ)條件,考慮到數(shù)據(jù)直觀性、計(jì)算效率、存儲(chǔ)靈活性等因素,選取原生圖數(shù)據(jù)庫(kù)Neo4j作為科研知識(shí)圖譜存儲(chǔ)和應(yīng)用的支撐工具??蒲兄R(shí)圖譜驅(qū)動(dòng)的研究側(cè)寫數(shù)據(jù)展示原理是基于知識(shí)圖譜的內(nèi)容及文獻(xiàn)聚類計(jì)算融合,數(shù)據(jù)流以數(shù)據(jù)訪問(wèn)接口Neo4j Cypher Java API為基礎(chǔ),需要結(jié)合圖譜數(shù)據(jù)特點(diǎn)及圖譜數(shù)據(jù)語(yǔ)義,定義語(yǔ)義查詢和推理的參數(shù)配置規(guī)則,通過(guò)圖算法調(diào)度圖譜節(jié)點(diǎn)、邊生成查詢計(jì)算的結(jié)果圖,支撐頂層系統(tǒng)的數(shù)據(jù)獲取及結(jié)果圖生成??蒲兄R(shí)圖譜上的關(guān)鍵詞查詢采用子圖定位策略,通過(guò)在關(guān)鍵詞和知識(shí)圖譜實(shí)體間建立索引,將關(guān)鍵詞查詢轉(zhuǎn)化為圖數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化查詢,主要涉及4個(gè)關(guān)鍵步驟。

        (1)關(guān)鍵詞映射。研究側(cè)寫前端服務(wù)場(chǎng)景中的查詢關(guān)鍵詞直接默認(rèn)為知識(shí)圖譜上的主題類實(shí)體類型進(jìn)行精準(zhǔn)匹配,若用戶輸入的關(guān)鍵詞與圖譜上實(shí)體名稱存在如單復(fù)數(shù)、全稱和簡(jiǎn)稱、別名等情況的差異,需要借助實(shí)體-實(shí)體指稱詞典或語(yǔ)料庫(kù)進(jìn)行語(yǔ)義矯正,如通過(guò)設(shè)定可接受范圍的閾值進(jìn)行校驗(yàn),繼而通過(guò)構(gòu)建的關(guān)鍵詞與知識(shí)圖譜實(shí)體、邊的索引將關(guān)鍵詞映射到知識(shí)圖譜上的實(shí)體,查詢結(jié)果具備可解釋性。

        (2)結(jié)構(gòu)化查詢生成?;诖_定的實(shí)體,結(jié)合研究側(cè)寫場(chǎng)景中的展示維度及知識(shí)圖譜中實(shí)體和關(guān)系的擴(kuò)展生成局部的知識(shí)子圖,得到結(jié)構(gòu)化查詢需要的查詢圖。此情境下,在圖數(shù)據(jù)庫(kù)接口中可預(yù)先定義子圖的主實(shí)體類型,與語(yǔ)義檢索相比,本文中的結(jié)構(gòu)化查詢不生成多個(gè)局部子圖選項(xiàng),因此不涉及基于相似度或者實(shí)體拓?fù)浞植嫉戎笜?biāo)的子圖得分排序。

        (3)URI解析與baseURL獲取。結(jié)構(gòu)化查詢生成后需結(jié)合Neo4j接口進(jìn)行圖數(shù)據(jù)庫(kù)操作,Neo4j支持資源URI解析并返回面向計(jì)算機(jī)的結(jié)構(gòu)化格式數(shù)據(jù),即baseURL(包含相關(guān)節(jié)點(diǎn)、關(guān)系及屬性的默認(rèn)地址)。

        (4)實(shí)體及關(guān)系聚類。以baseURL為基礎(chǔ)的實(shí)體和關(guān)系聚類結(jié)果生成是指根據(jù)側(cè)寫前端待展示的維度調(diào)度圖譜數(shù)據(jù)中的節(jié)點(diǎn)和邊,輸出相關(guān)實(shí)體類型(主要指專題、論文和作者)實(shí)例及屬性值并聚類封裝。

        2.4 側(cè)寫生成與交互展示

        相較于傳統(tǒng)文獻(xiàn)綜述等評(píng)價(jià)方法,研究側(cè)寫力求從更多元、更微觀的分析視角揭示文獻(xiàn)的主題信息,揭示維度分為3個(gè)層次:①縱覽研究主題,即基于獲取的數(shù)據(jù)對(duì)象挖掘領(lǐng)域知識(shí)發(fā)展全貌;②了解研究社區(qū),主要是指從專家、機(jī)構(gòu)等科研主體視角揭示信息互動(dòng)與流向等;③專題知識(shí)關(guān)聯(lián)分析與展示,厘清領(lǐng)域內(nèi)重要知識(shí)節(jié)點(diǎn)關(guān)系網(wǎng)狀圖,描述主題關(guān)聯(lián)關(guān)系。依據(jù)數(shù)據(jù)條件,本文研究側(cè)寫方案的設(shè)計(jì)與生成引入用戶交互功能,以關(guān)鍵詞查詢?yōu)槌霭l(fā)機(jī)制,支持科研用戶直觀表達(dá)信息需求,涉及領(lǐng)域知識(shí)關(guān)聯(lián)、文獻(xiàn)信息發(fā)展、科研主體推薦三方面知識(shí)揭示。

        3 研究側(cè)寫系統(tǒng)方案設(shè)計(jì)

        研究側(cè)寫旨在提高科研用戶在合理時(shí)間內(nèi)獲取相關(guān)研究專題知識(shí)的效率,或?yàn)榭蒲行率痔峁┛焖俨坑[陌生專題的途徑,需綜合考慮科研用戶對(duì)內(nèi)容、類型、質(zhì)量及數(shù)量各方面的需求與處理能力,其中,內(nèi)容、類型、質(zhì)量依賴于科研知識(shí)圖譜的科學(xué)性及研究側(cè)寫模型層次設(shè)計(jì)的合理性,數(shù)量上則應(yīng)保持適度、保證用戶可以有效吸收消化,真正意義上解決“知識(shí)過(guò)載”問(wèn)題。遵循基于科研知識(shí)圖譜的研究側(cè)寫生成方法與流程,結(jié)合圖譜計(jì)算驅(qū)動(dòng)機(jī)制設(shè)計(jì)研究側(cè)寫系統(tǒng)方案,支持面向查詢的主題知識(shí)和文獻(xiàn)聚合及可視化展示,包含領(lǐng)域知識(shí)全景圖、熱點(diǎn)主題分析、維度側(cè)寫、高影響力專家推薦、側(cè)寫文檔生成與下載功能。

        3.1 領(lǐng)域知識(shí)全景圖

        可交互的領(lǐng)域知識(shí)全景圖旨在通過(guò)科研知識(shí)圖譜主題類揭示以查詢?cè)~為核心的相關(guān)研究主題及內(nèi)在聯(lián)系,反映用戶查詢專題研究的總體概況(厘清主題內(nèi)重要知識(shí)節(jié)點(diǎn)的關(guān)系網(wǎng)狀圖),使其可以縱覽研究主題全貌。基于領(lǐng)域知識(shí)模型對(duì)知識(shí)結(jié)構(gòu)進(jìn)行可視化,包括是…的分支(multidisplineOf)、所屬學(xué)科(isKindOf)、應(yīng)用(application)、重要事件(keynode)等。以合成生物學(xué)專題為例,如合成生物學(xué)隸屬于生物科學(xué),是基因回路工程、生物技術(shù)等的重要分支,常應(yīng)用于細(xì)胞轉(zhuǎn)化、蛋白合成等場(chǎng)景。同時(shí)可提供鏈接互動(dòng)功能,科研用戶在領(lǐng)域側(cè)寫圖內(nèi),可針對(duì)感興趣的主題/知識(shí)點(diǎn)進(jìn)行點(diǎn)擊鏈接跳轉(zhuǎn)的方式進(jìn)行定向的擴(kuò)展部讀與了解,系統(tǒng)及時(shí)響應(yīng)生成該主題詞的知識(shí)全景圖。

        3.2 熱點(diǎn)主題分析

        研究主題的演化分析主要是揭示較長(zhǎng)時(shí)間段內(nèi)領(lǐng)域?qū)n}的階段性發(fā)展重點(diǎn)及趨勢(shì),可為科研主體進(jìn)一步了解或確定研究方向提供支撐。側(cè)寫系統(tǒng)中的熱點(diǎn)主題分析主要是按時(shí)間周期統(tǒng)計(jì)文獻(xiàn)中標(biāo)引的主題詞頻并排序展示,通常給出Top 5的主題詞。以合成生物學(xué)為例,2018—2022年熱點(diǎn)主題除查詢?cè)~以外,還有生物技術(shù)、基因回路、生物傳感器和系統(tǒng)生物學(xué)。從服務(wù)層面上看,展示的任一熱點(diǎn)主題可作為查詢?cè)~進(jìn)行擴(kuò)展部讀,具體而言,用戶單擊任一主題詞即可跳轉(zhuǎn)至該主題詞的領(lǐng)域知識(shí)頁(yè),相當(dāng)于主題詞查詢操作。

        需要說(shuō)明的是,對(duì)于臨近分析年份的潛在研究主題趨勢(shì)可基于文獻(xiàn)主題標(biāo)引過(guò)程中的新詞發(fā)現(xiàn)進(jìn)行統(tǒng)計(jì),克服文獻(xiàn)年份均衡性方面帶來(lái)的分析難題,這一過(guò)程的效率和準(zhǔn)確率嚴(yán)重依賴原始語(yǔ)料的規(guī)模、詞典質(zhì)量等,也需要大量的人工審核,更大規(guī)模的文獻(xiàn)處理時(shí)需要借助基于深度學(xué)習(xí)的新實(shí)體識(shí)別,也是未來(lái)研究的重點(diǎn)之一。

        3.3 文獻(xiàn)維度側(cè)寫

        文獻(xiàn)維度側(cè)寫主要是依據(jù)文獻(xiàn)的重要度打分展示主題詞維度及時(shí)間維度上的重要文獻(xiàn),以期為用戶提供最相關(guān)、最高質(zhì)量的文獻(xiàn),包括重要文獻(xiàn)推薦列表和文獻(xiàn)發(fā)展脈絡(luò)圖。

        (1)重要文獻(xiàn)推薦列表。針對(duì)任一主題詞查詢頁(yè)面,提供依據(jù)文獻(xiàn)重要度排序的Top N(N=10/20/30)推薦論文,支持單擊跳轉(zhuǎn)至論文詳情頁(yè)查看元數(shù)據(jù)信息。

        (2)文獻(xiàn)發(fā)展脈絡(luò)圖。支持查看查詢主題詞的文獻(xiàn)發(fā)展脈絡(luò),融合了專題知識(shí)及文獻(xiàn)信息并以可視化河流圖展示。以該主題詞相關(guān)所有文獻(xiàn)的出版時(shí)間跨度為橫軸,動(dòng)態(tài)劃分為若干時(shí)間周期并展示各區(qū)間的重要文獻(xiàn),光標(biāo)所在之處顯示任一文獻(xiàn)的元數(shù)據(jù)及標(biāo)引的主題信息。為方便用戶的部讀設(shè)計(jì)時(shí)間分面,提供文獻(xiàn)詳細(xì)信息,包括主題詞、標(biāo)題、作者、語(yǔ)種、摘要、DOI,點(diǎn)擊DOI跳轉(zhuǎn)鏈接至原文,可實(shí)現(xiàn)文獻(xiàn)溯源或獲??;點(diǎn)擊文獻(xiàn)標(biāo)題可跳轉(zhuǎn)鏈接到系統(tǒng)本地?cái)?shù)據(jù)庫(kù)的頁(yè)面瀏覽,查看更多元數(shù)據(jù),與常用文獻(xiàn)檢索頁(yè)協(xié)同。

        未來(lái)可引入文獻(xiàn)間引用關(guān)系進(jìn)行更多維度的分析展示,如文獻(xiàn)間的相互影響、觀點(diǎn)演化溯源等。

        3.4 高影響力專家推薦

        專家是推進(jìn)專題研究發(fā)展的重要主體,高影響力專家的挖掘揭示可以輔助科研用戶跟蹤學(xué)術(shù)信息源,這一功能的實(shí)現(xiàn)主要是基于主題或主題子概念相關(guān)科技論文的作者影響力側(cè)寫數(shù)據(jù)(由h指數(shù)、篇均被引頻次等參數(shù)計(jì)算而來(lái)),可提供高影響力專家聯(lián)系信息,如ORCID、郵箱、單位地址等信息。

        3.5 側(cè)寫文檔生成與下載

        文檔格式仍是科研用戶部讀和存儲(chǔ)的主流形式,本文在重點(diǎn)調(diào)研分析部分中文核心期刊中綜述類科技論文格式的基礎(chǔ)上,歸納了研究側(cè)寫文本基本內(nèi)容模塊。研究側(cè)寫文檔生成可通過(guò)Apache插件POI(Poor Obfuscation Implementation)將特定的科研知識(shí)圖譜節(jié)點(diǎn)和邊嵌入預(yù)先編制的自然語(yǔ)言描述模板中,通過(guò)HWPF和XWPF端口實(shí)現(xiàn)Word文檔(doc和docx格式均可)的讀寫功能。研究側(cè)寫文檔主題內(nèi)容結(jié)構(gòu)主要包括標(biāo)題、摘要、章節(jié)和參考文獻(xiàn),其中章節(jié)涵蓋文獻(xiàn)數(shù)據(jù)源、專題知識(shí)結(jié)構(gòu)、主題演化分析、重要文獻(xiàn)發(fā)展脈絡(luò)、高影響力專家的圖文描述。科研知識(shí)圖譜與POI的匹配協(xié)同是通過(guò)調(diào)用圖數(shù)據(jù)庫(kù)Neo4j接口及POI接口實(shí)現(xiàn),以標(biāo)題的實(shí)現(xiàn)為例,POI通過(guò)接口讀取圖數(shù)據(jù)庫(kù)中面向關(guān)鍵詞查詢語(yǔ)義匹配得到的主題實(shí)例并書(shū)寫至Word文檔模板中指定的標(biāo)題位置,其他部分的實(shí)現(xiàn)原理也基本相似。

        此外,可將側(cè)寫生成嵌入學(xué)術(shù)搜索引擎中的文獻(xiàn)檢索流程,即在文獻(xiàn)檢索頁(yè)面關(guān)鍵詞搜索時(shí),若命中圖數(shù)據(jù)庫(kù)中主題詞,會(huì)在返回的文獻(xiàn)列表之外生成研究側(cè)寫入口,用戶通過(guò)點(diǎn)擊即可跳轉(zhuǎn)進(jìn)行擴(kuò)展部讀。

        4 總結(jié)與展望

        研究側(cè)寫是一種高效的多維度、全景式大規(guī)??茖W(xué)文獻(xiàn)知識(shí)揭示方法,旨在提高學(xué)術(shù)內(nèi)容的可發(fā)現(xiàn)性和可用性。為實(shí)現(xiàn)科學(xué)文獻(xiàn)和領(lǐng)域知識(shí)的深度融合及學(xué)術(shù)資源的關(guān)聯(lián)發(fā)現(xiàn),本文設(shè)計(jì)了基于科研知識(shí)圖譜的研究側(cè)寫生成方法及系統(tǒng)方案,支持領(lǐng)域知識(shí)全景圖、熱點(diǎn)主題分析、重要文獻(xiàn)推薦列表、文獻(xiàn)發(fā)展脈絡(luò)圖、高影響力專家推薦、側(cè)寫文檔生成與下載等服務(wù)功能。該方法涉及名稱消歧、文獻(xiàn)重要度計(jì)算、主題標(biāo)引和知識(shí)計(jì)算等多種智能技術(shù),可一定程度克服以統(tǒng)計(jì)分析、可視化分析軟件等為主的研究側(cè)寫方法在主題挖掘深度、文獻(xiàn)和領(lǐng)域知識(shí)關(guān)聯(lián)方面的局限,實(shí)現(xiàn)領(lǐng)域內(nèi)主題結(jié)構(gòu)、文獻(xiàn)發(fā)展、科研主體等核心內(nèi)容的多角度挖掘。然而,本研究中科學(xué)文獻(xiàn)中的主題或?qū)嶓w識(shí)別主要通過(guò)主題標(biāo)引,知識(shí)抽取深度有所限制,未來(lái)預(yù)計(jì)使用深度學(xué)習(xí)方法進(jìn)行大規(guī)模、細(xì)粒度知識(shí)的提取,并完善專家側(cè)寫、引入機(jī)構(gòu)層面?zhèn)葘憗?lái)改進(jìn)服務(wù)場(chǎng)景。此外,基礎(chǔ)數(shù)據(jù)學(xué)科范圍及時(shí)間跨度較大的情況下,也可衍生跨主題甚至跨領(lǐng)域的知識(shí)發(fā)現(xiàn),這是更為困難,也是極有價(jià)值的研究。

        猜你喜歡
        研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        關(guān)于遼朝“一國(guó)兩制”研究的回顧與思考
        EMA伺服控制系統(tǒng)研究
        基于聲、光、磁、觸摸多功能控制的研究
        電子制作(2018年11期)2018-08-04 03:26:04
        新版C-NCAP側(cè)面碰撞假人損傷研究
        關(guān)于反傾銷會(huì)計(jì)研究的思考
        焊接膜層脫落的攻關(guān)研究
        電子制作(2017年23期)2017-02-02 07:17:19
        日本人妻精品有码字幕| y111111少妇影院无码| 国产肉体XXXX裸体784大胆| 日本激情久久精品人妻热| 亚洲女优中文字幕在线观看| 最近2019年好看中文字幕视频 | 乱人伦人妻中文字幕无码| 亚洲一区二区三区一区| 亚洲精品粉嫩美女一区| 亚洲日韩国产精品乱-久 | 亚洲AV无码一区二区水蜜桃| 午夜免费观看一区二区三区| 国产98色在线 | 国产| 久久久亚洲色| 精品无人区无码乱码大片国产| 亚洲一区二区三区四区精品| 麻豆国产精品va在线观看不卡| 熟妇人妻av无码一区二区三区| 免费一级欧美大片久久网| 中文字幕熟女激情50路| 人妻无码一区二区三区| 拍摄av现场失控高潮数次| 欧亚精品无码永久免费视频| 久久久熟女一区二区三区| 九九久久自然熟的香蕉图片| 精品国产黑色丝袜高跟鞋| 久久精品国产亚洲av成人擦边| 日本一二三区免费在线 | 精品国产一区二区三区久久狼| 亚洲综合综合在线| 精品女厕偷拍视频一区二区| 疯狂的欧美乱大交| 四虎影视国产在线观看精品| 99精品又硬又爽又粗少妇毛片| 久久久国产精品无码免费专区 | 日本午夜一区二区视频| 免费人成视频网站网址| 中文字幕人妻熟女人妻洋洋| 妺妺窝人体色www聚色窝| 激情都市亚洲一区二区| 午夜无遮挡男女啪啪免费软件|