亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科技文獻創(chuàng)新內(nèi)容的識別、組織與應用進展

        2024-03-11 07:18:14徐雷張亞菲葉均玲
        情報學報 2024年2期
        關鍵詞:語義科學科技

        徐雷,張亞菲,葉均玲

        (1. 武漢大學語義出版與知識服務實驗室,武漢 430072;2. 武漢大學文化遺產(chǎn)智能計算實驗室,武漢 430072)

        0 引 言

        科技文獻是當前科學知識的主要載體以及科學交流的主要對象,其中蘊含的科學創(chuàng)新內(nèi)容既是科學研究成果的集中體現(xiàn),也是科學交流的具體對象,科研人員通過科學論證手段對科學創(chuàng)新內(nèi)容進行敘事表達,形成科學論文,促進了科學知識的傳播及新的科學創(chuàng)新進程。然而,隨著科技文獻的大量涌現(xiàn),科研人員對科學創(chuàng)新內(nèi)容的跟蹤、理解、運用面臨越來越大的壓力,科學交流活動面臨“知識過載”的危機,科學創(chuàng)新內(nèi)容急需新的敘事手段,以有效地推動科學論證、科學評價等科學交流活動??萍嘉墨I是當前創(chuàng)新內(nèi)容的主要載體,其通過不同的修辭論證結構對創(chuàng)新內(nèi)容進行敘事表達,因此,當前主流實踐主要采用從科技文獻中識別抽取創(chuàng)新內(nèi)容的方式來呈現(xiàn)創(chuàng)新內(nèi)容本身。然而,這類實踐以驗證科學創(chuàng)新內(nèi)容識別方法的性能為主,缺乏從宏觀層面探索新的創(chuàng)新內(nèi)容敘事方式以及基于這種敘事方式的科學交流機制的相關研究。

        本文一方面梳理了科學創(chuàng)新相關概念的內(nèi)涵,歸納總結了創(chuàng)新內(nèi)容識別抽取的主流實踐及主要問題;另一方面重點分析了當前創(chuàng)新內(nèi)容結構化組織的主要數(shù)據(jù)模型及基于創(chuàng)新內(nèi)容的應用場景,并從宏觀層面上構建了基于創(chuàng)新內(nèi)容這一核心要素的科學交流框架,探討了實現(xiàn)該框架所面臨的挑戰(zhàn)。

        1 科學創(chuàng)新與科學創(chuàng)新的表達

        1.1 科學創(chuàng)新的內(nèi)涵及其主要特征

        科學創(chuàng)新可以簡單地理解為創(chuàng)新的一種類型,既可以是指在科學領域從事的創(chuàng)造性活動,其具有動態(tài)性,強調(diào)科學發(fā)現(xiàn)的過程;也可以是指創(chuàng)新活動的成果,具有靜態(tài)性,用于表達科學發(fā)現(xiàn)的結果。本文主要是指后一種類型。作為科學社會學代表人物之一,哥倫比亞大學社會學教授巴伯將科學創(chuàng)新定義為“人類對社會生活中已經(jīng)存在的科學要素所作的富于想象力的結合”[1];Science雜志認為,科學創(chuàng)新是指對自然或理論提出新見解[2];國際權威創(chuàng)新調(diào)查指南《奧斯陸手冊:創(chuàng)新數(shù)據(jù)的采集和解釋指南》認為,科學創(chuàng)新是對已有的思想、技能、資源等的新組合[3]。從創(chuàng)新的過程來看,科學創(chuàng)新是指創(chuàng)新主體借助一定的方法產(chǎn)生創(chuàng)新成果,并創(chuàng)造出科學價值的過程。其中,創(chuàng)新主體是指創(chuàng)新實踐的參與者,如科研人員、研究機構等;創(chuàng)新成果是指創(chuàng)新實踐的產(chǎn)出,如發(fā)現(xiàn)新規(guī)律、產(chǎn)生新見解、發(fā)明新藥物等創(chuàng)新內(nèi)容;創(chuàng)新的科學價值是指創(chuàng)新成果所帶來的潛在影響,主要體現(xiàn)在對科學發(fā)展本身的推進以及在生產(chǎn)生活中的應用。

        作為科學交流活動的主要對象,科學創(chuàng)新本身具有一定的特征,如新穎性(novelty)[4]、獨創(chuàng)性(originality)[5]、價值性[6]、簡明性[7]等。其中,新穎性是科學創(chuàng)新最本質(zhì)的特征,能夠顯示與其他科學創(chuàng)新的差異,這種差異既可以是“局部改進”式的漸進式創(chuàng)新,也可以是“全新”的突破式創(chuàng)新;獨創(chuàng)性是指科學創(chuàng)新是由研究者獨立創(chuàng)作而產(chǎn)生的,而不是對已有研究完全的或?qū)嵸|(zhì)性的模仿;價值性反映科學創(chuàng)新成果可對相關領域產(chǎn)生的潛在積極影響;簡明性是指在表達方式上,科學創(chuàng)新內(nèi)容應當有易讀性、“宣傳”性等特點。

        1.2 科學創(chuàng)新類型及其在科技文獻中的表現(xiàn)

        科學創(chuàng)新具有不同的類型,根據(jù)創(chuàng)新的程度,可以分為庫恩科學范式下的漸進式創(chuàng)新和突破式創(chuàng)新[8];根據(jù)創(chuàng)新的價值屬性不同,可以分為科學發(fā)現(xiàn)和技術發(fā)明[9]。其中,科學發(fā)現(xiàn)在于確定性科學知識的發(fā)掘,反映科學的求真過程,如探索各領域現(xiàn)象背后的規(guī)律,把尚不為人知的事物首次揭示出來等;技術發(fā)明強調(diào)科學創(chuàng)新的應用價值,依據(jù)科學知識創(chuàng)造出過去從來沒有存在過的新事物,來促進相關領域的發(fā)展與進步。根據(jù)科學創(chuàng)新內(nèi)容所在的科技文獻篇章結構和內(nèi)容特征,可以將其劃分為研究問題創(chuàng)新、理論研究創(chuàng)新、研究方法創(chuàng)新、成果與應用創(chuàng)新[5,10]等類型。就當前的科學交流環(huán)境而言,無論何種類型的科學創(chuàng)新,都需要借助一定的載體進行表達傳播和創(chuàng)新擴散。科技文獻是當前創(chuàng)新內(nèi)容的主要表達載體,具體的創(chuàng)新內(nèi)容一般表現(xiàn)為論文結構化摘要中的結論句、作者提煉的創(chuàng)新點等內(nèi)容,這些核心內(nèi)容表達了科學創(chuàng)新的本質(zhì)。

        在科學研究及相關實踐中,除了“originality”“novelty”“creativity”“innovation”這些內(nèi)涵寬泛的表述外,特指科技文獻中的科學創(chuàng)新內(nèi)容的詞匯還有“創(chuàng)新點(innovation points)”“學術貢獻(contribution)”“研究亮點(highlights)”“科學主張(claim)”“科學斷言(assertion)”等表達,這些詞匯都可用于指代科學創(chuàng)新的具體內(nèi)容,在實際應用中會根據(jù)科學創(chuàng)新成果的使用環(huán)境來選擇,本文統(tǒng)一使用“科學創(chuàng)新內(nèi)容”來指稱。其中,“創(chuàng)新點”是科學創(chuàng)新的最常見表達;“學術貢獻”通常包含兩層含義:科學創(chuàng)新的具體內(nèi)容以及創(chuàng)新的意義與價值[11];“亮點”最早由愛思唯爾于2010年在其學術數(shù)據(jù)庫中設計出來[7],從內(nèi)容上講,亮點是作者撰寫的一組論文的核心發(fā)現(xiàn),是一篇科技文獻與其他論文相比較的新成果、新結論等內(nèi)容的體現(xiàn),通常表現(xiàn)為一組規(guī)范的、語義明確的3~5個短句[12];“主張”[13]和“斷言”[14]的內(nèi)涵相似,既可以是研究者對基本科學事實的論斷,也可以是對科學創(chuàng)新內(nèi)容的判定,其內(nèi)容具體體現(xiàn)為科學事實、科學發(fā)現(xiàn)等知識單元。當前,科學創(chuàng)新內(nèi)容主要以文本形式進行表達,即顯性的文本知識,并通過科技文獻這一載體進行科學論證。創(chuàng)新點、學術貢獻、亮點等具體科學創(chuàng)新內(nèi)容集中體現(xiàn)在科技文獻的摘要、結論等部分[5,7,15-16],具有不同的文本粒度,可以是一個段落、若干句子或短語等。

        科技文獻作為當前科學創(chuàng)新的主要表達載體,在當前科學交流環(huán)境中發(fā)揮了巨大作用。然而,隨著科學創(chuàng)新內(nèi)容越來越多地隱藏于海量科技文獻中,這一表達形態(tài)已逐漸不能滿足科研人員高效獲取創(chuàng)新知識的需求,于是出現(xiàn)了關于創(chuàng)新內(nèi)容等知識元的識別抽取、長論文智能摘要、視頻論文等實踐及科學知識表現(xiàn)形態(tài)。本文重點圍繞科學創(chuàng)新內(nèi)容這一核心對象展開研究,從當前科學創(chuàng)新內(nèi)容識別與抽取、結構化組織及基于結構化科學創(chuàng)新內(nèi)容的應用場景3個維度進行系統(tǒng)歸納,基于此設計了在新的科學知識表達機制下的科學交流潛在場景及其實現(xiàn)框架。

        2 科技文獻中創(chuàng)新內(nèi)容的識別與抽取

        作為一種知識元類型,創(chuàng)新內(nèi)容的識別與抽取是科學信息抽?。╯cience information extraction,sci‐ence IE)任務之一。當前,科學創(chuàng)新內(nèi)容的識別與抽取主要包括3類方法,分別為基于規(guī)則的創(chuàng)新內(nèi)容識別與抽取、基于機器學習的創(chuàng)新內(nèi)容識別與抽取以及基于深度學習的創(chuàng)新內(nèi)容識別與抽取。

        2.1 基于規(guī)則的創(chuàng)新內(nèi)容識別與抽取

        基于規(guī)則的科學創(chuàng)新內(nèi)容識別與抽取方法,是通過對創(chuàng)新內(nèi)容的語言特征進行分析,制定相應的抽取規(guī)則進行抽取。主要可以分為基于詞匯和基于句法結構的識別抽取方法。

        2.1.1 基于詞匯的方法

        基于詞匯的科技文獻創(chuàng)新內(nèi)容抽取可以分為兩類:一類基于觸發(fā)詞,另一類依賴于領域詞匯。其中,觸發(fā)詞是能夠充分表征科學創(chuàng)新的詞匯,中文觸發(fā)詞有“突破”“解決”等,英文觸發(fā)詞有“novel”“present the first…”等;領域詞匯作為一個學科領域的核心詞匯,對創(chuàng)新內(nèi)容的研究主題具有揭示作用。

        已有研究表明,論文創(chuàng)新內(nèi)容中由觸發(fā)詞引導的占比高達98.4%[17],為基于觸發(fā)詞的創(chuàng)新內(nèi)容抽取的可行性提供了統(tǒng)計依據(jù)。基于觸發(fā)詞的抽取方法往往用于創(chuàng)新內(nèi)容的初次篩選,在流程上可分兩個步驟:觸發(fā)詞的選取和創(chuàng)新內(nèi)容的抽取。

        目前,觸發(fā)詞的選取主要依靠手工進行,涵蓋名詞、形容詞、動詞等多種詞性。在觸發(fā)詞的基礎上構建創(chuàng)新內(nèi)容抽取規(guī)則,利用規(guī)則對科技文獻句子集進行匹配,形成創(chuàng)新句候選集[5,7]。由于非創(chuàng)新內(nèi)容的句子中也可能包含觸發(fā)詞,基于觸發(fā)詞對創(chuàng)新內(nèi)容進行抽取的查全率高,但其查準率較低。因此,該方法往往用于創(chuàng)新內(nèi)容的初次篩選,形成創(chuàng)新內(nèi)容候選集,以便后續(xù)使用機器學習方法或更詳細的抽取規(guī)則對創(chuàng)新內(nèi)容做進一步的識別。

        依賴領域詞匯的創(chuàng)新內(nèi)容識別方法,是借助領域詞匯的近義詞、同義詞,以及領域本體的概念層級關系,最大限度地揭示句子研究的主題,確保抽取出的創(chuàng)新句子集與研究主題密切相關,提高抽取結果的準確度。因此,為了迅速、準確地識別科技文獻中的創(chuàng)新內(nèi)容,需要借助學科領域的詞表或知識庫輔助信息抽取工作?;陬I域詞表的創(chuàng)新內(nèi)容抽取可分為3個步驟:領域詞表或本體的構建、基于領域詞表的文本自動語義標注和基于語義標注的創(chuàng)新內(nèi)容抽取。在實踐中,往往先自行構建領域詞表或知識庫,或以已有的領域詞表或本體為基礎,使用詞表或知識庫對科技文獻進行全文內(nèi)容的語義標引,最后結合創(chuàng)新內(nèi)容的寫作一般規(guī)律和此領域的主要研究內(nèi)容,制定創(chuàng)新內(nèi)容抽取規(guī)則,抽取出創(chuàng)新句子集[18-19]。

        2.1.2 基于句法結構的方法

        科技文獻創(chuàng)新內(nèi)容往往遵循特定的表達范式[20-21],因此,可以根據(jù)句法結構對創(chuàng)新內(nèi)容進行識別。該抽取方法主要包括3個部分:預處理過程、規(guī)則的構建和基于規(guī)則的抽取[15,19]。預處理過程主要包括分句、分詞和語義標注;規(guī)則的構建需要充分考慮創(chuàng)新句的語言特征和句法結構,需要領域?qū)<业膮⑴c,可以采用正則表達式等進行表征;最后,基于規(guī)則抽取創(chuàng)新句,通過實驗證明抽取效果。有些創(chuàng)新句子并不遵循創(chuàng)新內(nèi)容的常用表達方式,針對此類創(chuàng)新內(nèi)容,研究者往往為其制定專用的句子模板[22],通過模式識別進行抽取?;诔S帽磉_方式構建的規(guī)則可視為基礎規(guī)則,基于特殊表達方式構建的規(guī)則可視為擴展規(guī)則,二者可以相互補充,形成組合規(guī)則,優(yōu)化抽取效果,豐富創(chuàng)新內(nèi)容抽取的規(guī)則庫。利用句法結構可以從科技文獻中識別出揭示創(chuàng)新內(nèi)容的句子,但還沒有揭示創(chuàng)新句內(nèi)部主題概念的關系。對創(chuàng)新句進行依存句法分析[23],可以實現(xiàn)創(chuàng)新內(nèi)容的細粒度識別與分析,如識別創(chuàng)新內(nèi)容的核心主題詞、實體對及其語義關系、屬性實例等。

        通過主流實踐的觀察發(fā)現(xiàn),在對創(chuàng)新內(nèi)容進行抽取時,基于觸發(fā)詞的方法、基于領域詞表的方法以及基于句法結構的方法,往往并不是單獨使用某一種方法,而是采取多種方法的結合,相輔相成,其常見的結合方式如圖1所示??萍嘉墨I中的文本信息可以表達科學創(chuàng)新。此外,科技文獻中的圖片、表格等可視化元素往往也能夠反映創(chuàng)新成果,因此,有些研究基于規(guī)則和啟發(fā)式的方法,對文獻中的圖表等可視化表示元素進行創(chuàng)新內(nèi)容的識別[24]。

        圖1 基于規(guī)則的創(chuàng)新內(nèi)容抽取方法一般流程

        基于規(guī)則的方法,其優(yōu)勢在于可解釋性及領域針對性強,不足之處在于查全率低、規(guī)則設計困難且移植性差。查全率低是由于僅憑人工經(jīng)驗制定的抽取規(guī)則具有局限性,選取的特征和制定的規(guī)則無法完全覆蓋創(chuàng)新內(nèi)容的所有語言學現(xiàn)象。規(guī)則設計困難是因為依賴于領域?qū)<业膮⑴c,為保證查全率而設計足夠多的規(guī)則時,難以保證各規(guī)則間不沖突、不冗余,學科領域間的差異使得不同領域之間的抽取規(guī)則難以直接移植復用。

        2.2 基于機器學習的創(chuàng)新內(nèi)容識別與抽取

        此類方法通常將創(chuàng)新內(nèi)容抽取問題轉(zhuǎn)化為句子分類問題,如二分類問題[25]和多分類問題[23,26-28],主要是將表達科技創(chuàng)新內(nèi)容的句子劃分為事實、假設、問題、方法、結果、意義、目標等多個語義類型,再利用機器學習模型對全文進行句子語義類型的自動分類。Cagliero等[29]率先提出了一種基于回歸技術的有監(jiān)督方法,該方法可用于確定科技文獻中與亮點相似性最高的K個句子,并以此對句子進行標注,形成訓練集,將訓練好的回歸模型用于預測文獻中句子與亮點之間的相似度,相似度越高的句子越有可能作為科技文獻的亮點。

        從機器學習的流程來看,主要包括以下幾個步驟:獲取數(shù)據(jù)、文本預處理、特征選取、模型訓練與調(diào)優(yōu),以及評估。具體來看,數(shù)據(jù)集可以是科技文獻的全文或摘要,主要來自生物醫(yī)學[30-31]、材料化學[32-33]、信息科學[19,34]等寫作風格較為統(tǒng)一、關鍵創(chuàng)新內(nèi)容較為明確的理工科領域。文本預處理過程主要包括分詞、分句或子句切分、標題劃歸和人工類型標注等[23]。其中,子句是文本中語義完整、不中斷的區(qū)間[35],是一種介于句子和從句之間的粒度,子句切分可以用于更細粒度的創(chuàng)新內(nèi)容識別與抽取。句子所在的章節(jié)與句子是否為創(chuàng)新內(nèi)容具有相關性,創(chuàng)新內(nèi)容更可能出現(xiàn)在摘要、研究結果和結論等章節(jié)[7],因此,需要進行標題劃歸,將所有標題都轉(zhuǎn)換為“摘要”“引言”“相關研究工作”“研究方法”“研究結果”“結論”等標準章節(jié)標題中的一個,以便將宏觀的結構信息結合到機器學習模型中。完成預處理后,主要選取以下特征:①詞性;②詞表;③時態(tài),現(xiàn)在時的句子更可能是既有事實,過去時的句子更可能被預測為研究結果[36];④章節(jié)名稱,創(chuàng)新內(nèi)容更可能出現(xiàn)在摘要、研究結果和結論等章節(jié)[7];⑤引用,引用了其他文獻的句子更可能是既有事實,而指向公式或圖表的句子則更有可能是研究結果[37]。接下來,利用標注語料訓練支持向量機、條件隨機場、隨機森林、梯度提升等多個機器學習分類器,并選擇其中效果較好的一個分類器,或?qū)⒍鄠€效果較好的分類器進行集成,作為最終的模型對科技文獻全文進行句子類別的識別,將創(chuàng)新內(nèi)容抽取出來形成創(chuàng)新句子集。

        2.3 基于深度學習的創(chuàng)新內(nèi)容識別與抽取

        相較于傳統(tǒng)機器學習方法,深度學習更能夠自動找出對分類很重要的特征。深度學習方法既可以從學術文本中抽取創(chuàng)新內(nèi)容,也可以對創(chuàng)新內(nèi)容做進一步的細粒度抽取。運用深度學習方法抽取創(chuàng)新內(nèi)容時,由于當前創(chuàng)新內(nèi)容數(shù)據(jù)集的缺乏,往往需要以科技文獻全文本作為數(shù)據(jù)來源,自行構建創(chuàng)新內(nèi)容數(shù)據(jù)集,在數(shù)據(jù)集上訓練BERT(bidirectional encoder representations from transformers)、Trans‐former、RNN(recurrent neural network)等深度學習模型,并將訓練好的模型用于識別表述學術論文創(chuàng)新內(nèi)容的句子[38-41]。

        具體來看,在科技文獻創(chuàng)新內(nèi)容抽取方面有更多實踐將深度學習模型與基于規(guī)則的抽取方法、傳統(tǒng)機器學習模型結合使用。深度學習和基于規(guī)則的方法相結合,既可以先利用集中體現(xiàn)文章核心創(chuàng)新內(nèi)容的主題詞和體現(xiàn)創(chuàng)新內(nèi)容語言特征的觸發(fā)詞等制定抽取規(guī)則,對全文進行篩選,初步形成候選創(chuàng)新句子集,再利用深度學習模型從候選句子中識別出創(chuàng)新句[10];也可以先利用深度學習模型,判斷是否包含科學創(chuàng)新相關表述,再制定規(guī)則對創(chuàng)新句進行細粒度的抽取[11,42],如進一步從創(chuàng)新內(nèi)容中抽取出研究方法、研究成果、研究價值等要素。將機器特征和人工特征融合,可以有效提升抽取效果[43],因此,有學者利用“深度學習模型+傳統(tǒng)機器學習模型”的方法,將來自篇章、句子、字詞3個層面的26個人工特征指標與word2vec和one-hot等機器特征基于LSTM(long short-term memory)、CNN(convolutional neural networks)、BERT模型從橫向、縱向進行特征融合,完成科技文獻中實驗設計因素[44]、論斷句(claim sentence)[45]等創(chuàng)新要素的抽取。也有學者將在其數(shù)據(jù)集上表現(xiàn)最好的傳統(tǒng)機器學習模型(深度森林模型)和深度學習模型(BERT模型)進行融合,融合后的模型表現(xiàn)優(yōu)于先前獨立的兩個模型[27]。

        上述方法均可用于從學術文本中抽取出創(chuàng)新內(nèi)容,若需要對創(chuàng)新內(nèi)容做進一步的細粒度挖掘,如挖掘出創(chuàng)新內(nèi)容中的方法、結果、價值、論據(jù)等實體及其之間的因果、從屬、比較、補充等關系,則需要對創(chuàng)新內(nèi)容構建結構化語義模型,如Vogt等[46]提出的研究貢獻模型(research contribu‐tion model,RCM)和Magnusson等[47]提出的科學主張圖模式(graph schema),按照構建好的語義模型中定義的概念和概念間的關系對訓練文檔進行標注,通過標注好的大量文檔對深度學習模型進行訓練,利用深度學習模型實現(xiàn)對創(chuàng)新內(nèi)容的細粒度挖掘,自動填充知識庫,從而構建出細粒度的創(chuàng)新內(nèi)容知識圖譜,如開放研究知識圖譜(open research knowledge graph,ORKG)[48]和科學主張數(shù)據(jù)集(SciClaim)[47]。

        面向科學領域的信息抽取是圖書情報領域的主流研究方向,當前圍繞科學創(chuàng)新內(nèi)容的識別與抽取的研究重點在于開發(fā)相關機器學習算法。這些研究通常以科技文獻全文或摘要作為數(shù)據(jù)來源,在模型的選取上,主要采用統(tǒng)計機器學習模型與深度學習模型相結合的方法,已在若干領域取得了較好的效果。同時,該方法存在顯著的學科差異,其應用集中在生物醫(yī)學、材料化學及信息科學領域,部分研究將其應用于社會科學領域[47],但目前尚未有研究將其應用于藝術人文等學科,模型的泛化能力、算法的可移植性仍有待探索考證。

        3 科技文獻中創(chuàng)新內(nèi)容的結構化組織

        如果將抽取的創(chuàng)新內(nèi)容以新的形式結構化組織起來,將促進科研人員或計算機對創(chuàng)新內(nèi)容的理解與處理。將創(chuàng)新內(nèi)容進行結構化組織,實現(xiàn)創(chuàng)新內(nèi)容之間的關聯(lián),將有利于針對創(chuàng)新內(nèi)容的細粒度檢索、基于關聯(lián)創(chuàng)新內(nèi)容的知識發(fā)現(xiàn),促進知識傳播和科學交流。由于創(chuàng)新內(nèi)容一般表現(xiàn)為若干句子的集合,目前已有的科技文獻相關的結構化數(shù)據(jù)模型都具有不同程度的組織創(chuàng)新內(nèi)容的能力,主要分為兩類:通用數(shù)據(jù)模型和專有數(shù)據(jù)模型。通用數(shù)據(jù)模型本身并非專門針對創(chuàng)新內(nèi)容而構建,但可以用于創(chuàng)新內(nèi)容的結構化組織,如篇章結構模型[49]和納米出版物模型[50]等;專有數(shù)據(jù)模型是專門針對創(chuàng)新內(nèi)容而構建的,可以對創(chuàng)新內(nèi)容中的細粒度科學概念、實體、關系等進行細粒度的組織。

        3.1 通用數(shù)據(jù)模型對比

        目前,通用數(shù)據(jù)模型主要有兩類:論證結構模型和篇章結構模型。如表1所示,論證結構模型用于對科學論文的論證要素進行結構組織,主要包括圖爾敏模型(the Toulmin model)[51]、論證模型本體(argument model ontology,AMO)[52]、SWAN(semantic web application sineuro medicine)本體[53]和微型出版物(micropublication)[54]等;篇章結構模型專門用于對論文中的研究目標、假設、論據(jù)、方法、實驗及結論等體現(xiàn)科學創(chuàng)新內(nèi)容的功能元素進行組織[55],經(jīng)典的篇章結構模型主要有CISP(core information about scientific papers)本體模型[56]、核心科學概念框架(core scientific concepts)模型[57]和SPAR(semantic publishing and referencing)系列本體[58]等。

        表1 創(chuàng)新內(nèi)容結構化組織的通用數(shù)據(jù)模型

        3.2 專有數(shù)據(jù)模型對比

        相較于通用數(shù)據(jù)模型,專門針對創(chuàng)新內(nèi)容構建的結構化表征模型數(shù)量更多,如表2所示。有些模型將創(chuàng)新句拆分為若干個相互關聯(lián)的核心概念,如研究貢獻模型(RCM)[46]、文摘創(chuàng)新內(nèi)容語義模型[6]等。篇章結構中的結論要素是創(chuàng)新性研究成果的總結,能夠表示科技文獻中的關鍵創(chuàng)新內(nèi)容。有研究提出了基于納米出版物的結論型知識元語義描述模型[60]和涉及科技文獻結論的知識元本體[2],并對結論部分進行結構化組織??萍嘉墨I創(chuàng)新內(nèi)容的形式語義較為復雜,有學者在三元組的基礎上,提出了用于表示不確定性知識(即帶有假設性、推測性或互相矛盾的科學創(chuàng)新內(nèi)容)的四元組[61]、用于表示科學主張的super pattern五元組[62]。科學數(shù)據(jù)集構建的過程中會使用相應的數(shù)據(jù)模型,比如,在構建科學主張數(shù)據(jù)集(SciClaim)的過程中,提出了用于指導標引工作的圖模式,該模式可用于創(chuàng)新內(nèi)容的結構化組織[47]。此外,有些創(chuàng)新內(nèi)容分類模型,如自然語言處理(natural language processing,NLP)領域研究貢獻模型[63]和研究貢獻分類模型[64]等,將科技文獻劃分為研究問題、方法、結果等具有學科特色的篇章類型,而創(chuàng)新內(nèi)容則在形式化后被賦予上述特定類別。

        表2 創(chuàng)新內(nèi)容結構化表征的專有模型

        通過綜合對比分析發(fā)現(xiàn),首先,目前對創(chuàng)新內(nèi)容進行結構化表征的模型通常以語義技術為基礎,從數(shù)據(jù)來源上看,仍以理工科文獻為主。其次,絕大多數(shù)已有模型都是對單篇科技文獻的單個創(chuàng)新內(nèi)容進行結構化組織,而科學創(chuàng)新通常是相對于以往的科學實踐而言,對科學創(chuàng)新的表征應具備和相關的科學實踐發(fā)生關聯(lián)的能力,以支持不同科學創(chuàng)新之間的語義互操作,這種關聯(lián)機制還有待深入探索。最后,已有模型通常致力于創(chuàng)新內(nèi)容本身的結構化,如果能夠?qū)⒀芯咳藛T、貢獻的大小、研究的價值等科學創(chuàng)新要素及特性關聯(lián)起來,那么可以在科學交流系統(tǒng)中發(fā)揮更大的作用。此外,目前眾多模型對創(chuàng)新內(nèi)容的認知及表征的粒度都有較大差異,有些模型適用于創(chuàng)新內(nèi)容的細粒度論證,有些適用于創(chuàng)新內(nèi)容的篇章類型組織,有些模型可對創(chuàng)新內(nèi)容進一步細粒度化到概念、詞匯級別,有些模型則只表征到句子級別。

        3.3 科技文獻創(chuàng)新內(nèi)容相關數(shù)據(jù)資源

        數(shù)據(jù)模型是對創(chuàng)新內(nèi)容特征及其關系的抽象,而創(chuàng)新內(nèi)容數(shù)據(jù)集和知識庫包含了科學創(chuàng)新內(nèi)容的具體描述,數(shù)據(jù)資源的質(zhì)量在一定程度上反映了數(shù)據(jù)模型的質(zhì)量;反過來,數(shù)據(jù)資源又可以對模型的合理性、適用性進行有效的檢驗。目前,與科技文獻創(chuàng)新內(nèi)容相關的數(shù)據(jù)資源主要分為兩類:機器學習數(shù)據(jù)集和語義知識庫。

        3.3.1 創(chuàng)新內(nèi)容相關的機器學習數(shù)據(jù)集

        運用機器學習方法對創(chuàng)新內(nèi)容進行抽取或結構化組織時,一般需要有數(shù)據(jù)集對模型進行訓練和測試??萍嘉墨I創(chuàng)新內(nèi)容機器學習數(shù)據(jù)集可細分為兩類,如表3所示。一類是以科技文獻全文或摘要作為數(shù)據(jù)來源進行創(chuàng)新句判斷、標注所構建的數(shù)據(jù)集,目的在于創(chuàng)新內(nèi)容的識別。例如,CSPubSum基準數(shù)據(jù)集[39]、SciARG數(shù)據(jù)集[65]分別從計算機科學和生物醫(yī)學文獻中標注了其中的創(chuàng)新句和創(chuàng)新主張。另一類是對創(chuàng)新內(nèi)容中的論證結構、實體關系、創(chuàng)新內(nèi)容類型等進行細粒度的標注,以幫助實現(xiàn)科技文獻創(chuàng)新內(nèi)容自動結構化表征,如捕捉實體間關系(如因果、比較、統(tǒng)計、比例)的SciClaim數(shù)據(jù)集[47]、對研究貢獻進行分類的研究貢獻數(shù)據(jù)集[64]和NLPContributions數(shù)據(jù)集[63]等。

        表3 科技文獻創(chuàng)新內(nèi)容機器學習數(shù)據(jù)集

        除上述公開發(fā)布的數(shù)據(jù)集外,還有很多研究臨時構建創(chuàng)新內(nèi)容數(shù)據(jù)集。這些數(shù)據(jù)集往往針對于某一特定信息抽取任務,由若干名相關領域人員標注完成,數(shù)據(jù)集體量較小且并不公開,標注的一致性較低,其質(zhì)量無從考究。大規(guī)模、高質(zhì)量的開源數(shù)據(jù)集較少,主要集中于計算機、生物醫(yī)學等學科領域,構建科技文獻創(chuàng)新內(nèi)容的大型基準數(shù)據(jù)集是亟待解決的問題之一。

        3.3.2 創(chuàng)新內(nèi)容相關的語義知識庫

        語義出版技術的出現(xiàn)為科技文獻組織與發(fā)布方式提供了新的思路[66],在科技文獻的語義化過程中,產(chǎn)生了大量的語義數(shù)據(jù),形成了一些科技文獻語義關聯(lián)知識庫,即科學知識圖譜(scientific knowledge graph,SKG),該類知識圖譜目前通常包含科技文獻的元數(shù)據(jù),如作者、機構、引文等內(nèi)容,但文獻的內(nèi)容仍表示為非結構化文本。近年來,出現(xiàn)了一些對科技文獻中科學知識進行結構化表征的知識圖譜實踐,如描述生物醫(yī)學領域的科學知識內(nèi)容中的實體、屬性及關系的KnowLife[67],對COVID-19病理生理學科學知識內(nèi)容進行結構化表達的COVID-19知識圖譜[68],涵蓋中醫(yī)養(yǎng)生的人物、思想、原則、方法和應用等科學知識的中醫(yī)養(yǎng)生知識圖譜[69],用于描述計算機領域的任務(task)、方法(method)、指標(metric)、材料(material)和其他實體(other entity)五類科學實體及其關系,并能夠進行語義查詢的CS-KG(computer science knowledge graph)[70]等。其中不乏一些與科學創(chuàng)新內(nèi)容相關的研究成果,具體如表4所示。開放研究知識圖譜(ORKG)直接針對研究貢獻進行知識圖譜構建,可用于比較同一研究主題下不同文獻的研究貢獻差異[71]。納米出版物在生物醫(yī)學領域得到了廣泛的應用,其斷言(assertion)部分以三元組的形式表征科學主張,描述了生物醫(yī)學領域的藥物療效、蛋白質(zhì)相互作用等關鍵科學創(chuàng)新內(nèi)容,目前已經(jīng)發(fā)布了超過1000萬個三元組,成為研究生命科學領域和關聯(lián)異構數(shù)據(jù)的寶貴資源[72]。

        表4 科技文獻創(chuàng)新內(nèi)容語義知識庫

        目前,主流的科學知識圖譜仍聚焦于科技文獻元數(shù)據(jù),基于創(chuàng)新內(nèi)容的科學知識圖譜尚處于初期階段[73],且表現(xiàn)出嚴重的學科間不均衡現(xiàn)象,大量集中在計算機科學、生物醫(yī)學領域。從數(shù)據(jù)體量上看,納米出版物和CS-KG是兩個大規(guī)模的數(shù)據(jù)集,其余數(shù)據(jù)集的規(guī)模較小。另外,這些數(shù)據(jù)資源主要針對廣泛的科學知識,而創(chuàng)新內(nèi)容只是科學知識的一個子集,這就意味著數(shù)據(jù)集中包含著大量的科學常識、科學定理等內(nèi)容。有時科學創(chuàng)新和科學常識這兩種知識類型的界限并不明顯,科學創(chuàng)新經(jīng)過實踐檢驗和時間沉淀后,會成為科學社區(qū)認可的科學事實和常識。

        4 基于科技文獻創(chuàng)新內(nèi)容的應用

        4.1 科學創(chuàng)新內(nèi)容的語言特征分析與新型呈現(xiàn)

        科學創(chuàng)新內(nèi)容在科技文獻中往往以創(chuàng)新點的方式出現(xiàn),特定領域科學創(chuàng)新內(nèi)容具有一定的領域語言特征。曹樹金等[5]分析了中外情報學領域各兩本期刊的論文在創(chuàng)新對象、主題、類別、語言表達等方面的差異;同樣是針對情報學領域,除了語言學方面的分析,索傳軍等[7]還對研究亮點進行了位置分布特征的分析;溫浩[34]則分析了計算機領域兩本期刊的論文摘要中創(chuàng)新點的詞匯語義分布、謂語動詞語義理解等維度上的特征。這類研究實踐一般會借助人工標引、現(xiàn)有算法工具來識別創(chuàng)新內(nèi)容,通過常見的統(tǒng)計圖表形式呈現(xiàn)并歸納特定領域中創(chuàng)新內(nèi)容在語言規(guī)則表示層面的分布及其差異,并將分析所得的規(guī)則模式應用于科學創(chuàng)新內(nèi)容的自動化識別過程。

        除了統(tǒng)計圖表外,學術出版領域出現(xiàn)了一些對科學創(chuàng)新內(nèi)容進行新型呈現(xiàn)的有益嘗試。例如,愛思唯爾在傳統(tǒng)科技文獻的基礎上先后提出了亮點[29](highlight)和圖形化摘要(graphic abstract)的呈現(xiàn)方式。包含研究成果、研究方法的亮點有利于提升科學創(chuàng)新的可發(fā)現(xiàn)性,同時,簡短的亮點內(nèi)容對讀者友好,能夠快速獲取全文的關鍵創(chuàng)新內(nèi)容。而圖形化摘要是對論文主要發(fā)現(xiàn)的簡潔的可視化總結[6],已日漸被國際期刊所采納,其呈現(xiàn)的內(nèi)容主要包括文章概述、關鍵結果、研究過程或方法等內(nèi)容[74]。有研究表明,圖形化摘要對文章觀點的表達以及文章在社交媒體上的提及度都有正面作用[75]。

        4.2 基于科學創(chuàng)新內(nèi)容的知識服務

        基于科技文獻創(chuàng)新內(nèi)容語義知識庫的智能檢索也正在逐步發(fā)展[76]。醫(yī)學領域科技文獻的語義化研究較多,已有較為豐富的大規(guī)模知識主張抽取、存儲與查詢應用。Open PHACTS(open pharmaceuti‐cal triple store)項目[77]以及由美國國家醫(yī)學圖書館(The United States National Library of Medicine,NLM)開發(fā)的SemRep工具[78]、SemMedDB知識庫[79]都是從生物醫(yī)學文獻中提取三元組的典型代表,可用于科學知識的表征,實現(xiàn)大規(guī)模科學創(chuàng)新內(nèi)容知識單元的抽取、存儲和查詢,支持二次知識發(fā)現(xiàn)(literature based discovery,LBD)[80],如輔助藥物發(fā)明、支持各種臨床決策和應用等。也有研究針對情報學領域構建了創(chuàng)新內(nèi)容知識圖譜[81],并在此基礎上初步搭建了智能化檢索平臺[38],用戶能夠以創(chuàng)新對象和創(chuàng)新維度為線索進行檢索。

        此外,科學創(chuàng)新內(nèi)容是科技文獻的本質(zhì)與核心,將領域內(nèi)文獻的科學創(chuàng)新內(nèi)容按照一定的過濾和排序規(guī)則進行整合,可高效地獲取相應領域的學科進展綜述。開放研究知識圖譜(ORKG)[48]是一個旨在獲取、發(fā)布和處理科技文獻中發(fā)表的結構化學術知識的系統(tǒng),利用ORKG不僅可以自動識別論文中使用的方法、材料及結果,還可以比較相關文獻的研究貢獻,從而輔助高效的科學文獻綜述任務。同時,對創(chuàng)新內(nèi)容的結構化表征有助于識別領域內(nèi)有矛盾或爭議性的知識主張[82],為潛在變革性研究發(fā)現(xiàn)提供新思路。

        4.3 基于科學創(chuàng)新內(nèi)容的學術評價

        目前,基于文獻計量指標的科技評價服務使用文獻網(wǎng)絡代替知識網(wǎng)絡,使用各類文獻指標表示科學創(chuàng)新程度,這是一種非直接的科學創(chuàng)新表示與度量手段。對科學創(chuàng)新及貢獻進行本質(zhì)的直接表達,在應用過程中可以克服傳統(tǒng)計量方法對科學創(chuàng)新性的計量偏差,提供更全面、客觀的科學貢獻評價等科技服務,有助于建立以創(chuàng)新貢獻為導向的學術評價氛圍,對“破五唯”起到積極推動作用,促進科學交流活動向科學價值創(chuàng)造上的回歸。目前,已出現(xiàn)了基于科學創(chuàng)新內(nèi)容的學術評價探索,如基于論文內(nèi)容語義網(wǎng)絡的評估方法[83],基于創(chuàng)新句或研究問題、方法、結論等創(chuàng)新要素的測評方法[84]等,但在具體學術評價實踐活動中仍沒有出現(xiàn)被普遍采納的服務形態(tài)。

        總體來看,目前基于科學創(chuàng)新內(nèi)容的大規(guī)模落地應用還比較少,現(xiàn)有應用主要聚焦于若干典型領域。在實踐中面臨如下困難:一是底層數(shù)據(jù)集構建工作量較大,需要對學科領域存量論文進行大規(guī)模的結構化處理;二是創(chuàng)新內(nèi)容結構化表征面臨的學科差異問題尚未解決,運用已有的模型能否對全學科科技文獻創(chuàng)新內(nèi)容進行結構化組織、效果如何,尚未有深入探索;三是科學創(chuàng)新內(nèi)容抽取的研究重點在于算法開發(fā)與優(yōu)化,其研究主體和創(chuàng)新知識的組織及領域建模等領域存在差異,各個實踐主體往往著眼于具體的創(chuàng)新內(nèi)容識別與組織任務,缺乏宏觀的協(xié)同意識,各個任務之間往往沒有形成良好的銜接。

        5 基于新型科學創(chuàng)新表達的科學交流及其挑戰(zhàn)

        5.1 科學交流實踐框架

        由圖2可以看出,當前科研人員通過科學實驗、論文寫作發(fā)表、同行評議等一系列科學交流活動進行科學創(chuàng)新成果的生產(chǎn)傳播與消費,并通過科技文獻這一主要載體進行創(chuàng)新內(nèi)容表達,形成顯性知識。當前科學交流體系中的科學基礎設施和科技知識服務基本都圍繞科技文獻而展開,如各類學術數(shù)據(jù)庫、學術搜索引擎等平臺。科學創(chuàng)新內(nèi)容既是科學交流的主要對象,也是科學進步的基石,在學術大數(shù)據(jù)的環(huán)境下,基于科技文獻的科學交流機制已難以滿足科研人員快速獲取、跟蹤和理解科學創(chuàng)新內(nèi)容的需求,并帶來了基于科技文獻相關計量指標的學術評價活動的繁榮?;诳萍嘉墨I而不是基于科學貢獻的評價機制已經(jīng)受到來自學術共同體的詬病,科學界亟須探索出一種新的科學交流模式,以解決當前科學交流過程中存在的種種問題。

        圖2 基于新型科學創(chuàng)新表達的科學交流實踐框架

        目前主要有兩條實踐路徑。一條路徑如上文所述,通過對海量科技文獻中的包括科學創(chuàng)新內(nèi)容在內(nèi)的各類知識元進行識別抽取、結構化組織,使用新的表達機制來表征科學創(chuàng)新內(nèi)容,形成各類科學知識圖譜等知識庫,為各類智能科技知識服務提供支撐,這是一種漸進型方案;另一條即圖2中由“科學創(chuàng)新”指向“科學創(chuàng)新的新表達形態(tài)”這一路徑,其直接對科學創(chuàng)新或創(chuàng)新內(nèi)容進行新的表達,而不一定通過“科技文獻”這一傳統(tǒng)中介,可以避免因科技文獻的處理算法性能的限制而造成的對科學創(chuàng)新內(nèi)容識別不精確等問題,同時也可解決科學創(chuàng)新內(nèi)容的可信任性及溯源等問題,這是一種突破型方案。在科學創(chuàng)新的新表達機制下,開展相關科學基礎設施的建設以及相應智能場景的設計,無疑需要科研人員、內(nèi)容編輯、出版商、技術服務商等多方主體的參與,甚至會催生出新的科學交流參與主體。

        5.2 未來發(fā)展建議

        無論是漸進型方案還是突破型方案,基于新型科學創(chuàng)新表達的科學交流過程都需要解決相關的核心問題,重點圍繞科學創(chuàng)新內(nèi)容的新表達形態(tài)設計、科學創(chuàng)新內(nèi)容基礎設施建設以及基于科學創(chuàng)新的智能場景設計等方面開展研究與實踐。

        (1)科學創(chuàng)新內(nèi)容的新表達形態(tài)設計。在新的表達形態(tài)下,科研人員可以利用用戶友好的語義編輯工具,直接對科學創(chuàng)新本身進行結構化的表達,如SciKGTeX[85]、RASH(research articles in simpli‐fied HTML)[86]等工具。這些編輯器的語義組件既可以對科學創(chuàng)新內(nèi)容等知識元進行語義化編撰,支持研究人員在傳統(tǒng)的“科技文獻”這一載體類型的論文寫作過程中,用形式語義對科學創(chuàng)新內(nèi)容進行標注[87-89];也可以不依賴于科技文獻這一表達載體,進行全新的關于科學創(chuàng)新內(nèi)容的寫作表達,形成新型學術出版物類型,如納米出版物等形態(tài)。由于科學創(chuàng)新內(nèi)容一經(jīng)發(fā)布便是結構化的,不需要特意對其進行識別和抽取。對科學創(chuàng)新內(nèi)容進行新的表達設計及實現(xiàn),需要考慮科學創(chuàng)新的創(chuàng)作主體、創(chuàng)作時間、創(chuàng)新內(nèi)容的特征、創(chuàng)新內(nèi)容組成要素及其關聯(lián)、不同創(chuàng)新內(nèi)容的關聯(lián)機制等信息,以實現(xiàn)對科學創(chuàng)新內(nèi)容的有效管理、溯源及應用。

        (2)科學創(chuàng)新內(nèi)容基礎設施建設??茖W創(chuàng)新內(nèi)容基礎設施是相關智能應用場景的基礎,其中科學創(chuàng)新知識庫是核心資產(chǎn),可通過漸進型和突破型方法來構建,其關鍵在于相關智能算法及編撰工具的支撐。創(chuàng)新內(nèi)容分發(fā)平臺則為用戶提供了關于具體科學創(chuàng)新內(nèi)容的提交、審核、發(fā)表、傳播等機制及統(tǒng)一入口,輔助科學創(chuàng)新過程的高效開展。智能分析工具可為用戶提供如創(chuàng)新內(nèi)容檢索與推送、學科前沿主題分析等基礎學術服務。

        (3)基于科學創(chuàng)新的智能場景設計。由于新的表達機制相對于傳統(tǒng)的“科技文獻”可以更為簡明、直接地反映創(chuàng)新性科學成果,可以提供精準的科學知識獲取等服務,有效緩解當前學術大數(shù)據(jù)環(huán)境下的知識獲取困境,從而成為科學交流的新媒介?;诳茖W創(chuàng)新的新表達方式,能夠催生一批新的智慧應用,如科學創(chuàng)新內(nèi)容的論證與演化關系、推翻與支撐關系、改進與突破關系的可視分析、基于科學創(chuàng)新內(nèi)容的科學前沿識別與趨勢探測、競爭性科學發(fā)現(xiàn)挖掘與對比,以及學術貢獻評價等。當然,以上應用場景只是結合當前科學交流體系而產(chǎn)生的有限的構想,新的科學交流機制可能還會催生前所未有的產(chǎn)品和服務形態(tài)。

        5.3 面臨的挑戰(zhàn)

        雖然基于科學創(chuàng)新的新表達形態(tài)的科學交流機制能夠彌補現(xiàn)有科學交流機制的短板、解決目前科學交流過程中存在的諸多問題,但是將基于科學創(chuàng)新內(nèi)容的科學交流機制廣泛應用于實踐還面臨著重重挑戰(zhàn)。

        (1)基于大規(guī)??萍嘉墨I的科學創(chuàng)新內(nèi)容識別抽取的效果仍有待提升?;诳萍嘉墨I創(chuàng)新內(nèi)容識別抽取的漸進型方案作為當前的主流實踐,目前主要聚焦于若干典型學科,相關算法存在領域移植困難、不能完全無監(jiān)督執(zhí)行、識別結果準確度不高、缺乏大規(guī)模的訓練數(shù)據(jù)集等問題,對后續(xù)的智能應用將產(chǎn)生不利影響。大語言模型(large language model)技術的出現(xiàn)與流行,為科技文獻創(chuàng)新內(nèi)容的識別抽取帶來了性能提升[40],然而在算法結果的可解釋性以及細粒度的創(chuàng)新要素的識別與關聯(lián)效果上仍有待進一步探索與改善。

        (2)基于全學科領域的科學創(chuàng)新內(nèi)容的組織及具體實現(xiàn)仍有待探索。不同學科領域的科學創(chuàng)新內(nèi)容,其語言風格、表達方式、創(chuàng)新類型迥異,現(xiàn)有的科學創(chuàng)新數(shù)據(jù)模型通常來源于理工科領域,藝術人文學科的創(chuàng)新內(nèi)容是否可以被形式化、現(xiàn)有的模式是否適用、是否存在符合全學科的科學創(chuàng)新內(nèi)容組織模式等問題都需要進一步探索,且新的組織模型如何大規(guī)模應用、相關工具生態(tài)及實踐機制的設計仍是具有挑戰(zhàn)性的任務。

        (3)相關智能場景設計過程的多學科、多主體協(xié)作有待加強。正如上文所述,科學創(chuàng)新內(nèi)容等知識元的識別抽取等實踐仍以算法開發(fā)為主,形成的相關科學創(chuàng)新數(shù)據(jù)集只是作為驗證算法性能的副產(chǎn)品,并沒有有效地對接到實際的應用場景。同時,對于科學創(chuàng)新內(nèi)容的識別、組織及應用的不同環(huán)節(jié),其實踐主體通常由計算機領域、圖書情報學科以及知識服務提供商等各自開展,缺乏圍繞科學創(chuàng)新內(nèi)容識別及應用等全流程的宏觀協(xié)同機制與實踐意識。這一過程對多方參與主體提出了新的要求,如科研人員的語義編輯技能、技術人員的知識圖譜構建等,同時,新的商業(yè)模式、產(chǎn)品與服務形態(tài)以及利益分配方案都需要再思考。

        6 總 結

        基于科技文獻的科學交流機制已經(jīng)日漸不能滿足科研人員快速獲取科研信息的需求,并且?guī)砹嘶诳萍嘉墨I計量指標的科學評價形式。構建基于科學創(chuàng)新內(nèi)容的科學交流機制是彌補現(xiàn)有科學交流機制短板、解決現(xiàn)存問題的有效途徑之一。本文對國內(nèi)外相關研究實踐進行了系統(tǒng)調(diào)研和分析,闡述了科學創(chuàng)新的概念內(nèi)涵及特征,梳理了科技文獻創(chuàng)新內(nèi)容識別抽取的主要方法,歸納了創(chuàng)新內(nèi)容結構化組織的數(shù)據(jù)模型,并分析了基于科學創(chuàng)新內(nèi)容的智能應用。最后,提出了一種基于新型科學創(chuàng)新表達形態(tài)的科學交流實踐框架,以及該框架的實踐建議和可能面臨的挑戰(zhàn)??v觀當前實踐,科學創(chuàng)新內(nèi)容的相關研究及實踐的重要性尚未受到科研人員足夠的關注,未來新的科學交流機制的構建仍面臨很多挑戰(zhàn),科學創(chuàng)新的類型及學科差異仍有待梳理,科學創(chuàng)新內(nèi)容識別抽取的自動化、通用化仍需要加強,全學科的科學創(chuàng)新語義組織及實踐仍需要持續(xù)探索,新的科學交流機制的落地應用仍需要大量的跨界合作,以打破現(xiàn)有科學交流機制環(huán)境中知識獲取與傳播的困境、更好地支持科學知識獲取與同行評議等科學交流活動。

        猜你喜歡
        語義科學科技
        語言與語義
        科學大爆炸
        小小藝術家(2019年6期)2019-06-24 17:39:44
        科技助我來看云
        科技在線
        科學
        科技在線
        “上”與“下”語義的不對稱性及其認知闡釋
        科技在線
        科學拔牙
        認知范疇模糊與語義模糊
        久青青草视频手机在线免费观看| 久久久久久人妻一区精品| 亚洲欧美另类激情综合区| 一级一级毛片无码免费视频| 久久麻豆精亚洲av品国产精品| 风流熟女一区二区三区| 亚洲av乱码一区二区三区按摩| 亚洲 自拍 另类 欧美 综合| 日韩女人毛片在线播放| 亚洲小少妇一区二区三区| 国产精品一区二区性色| 中国丰满熟妇xxxx性| 四虎影视亚洲精品| 亚洲人成伊人成综合网中文| 中文字幕丰满人妻av| 精品久久久久久无码中文字幕| 欧美性猛交xxxx乱大交蜜桃| 日韩中文字幕无码av| 久久精品一区二区熟女| 蜜臀性色av免费| 一本色道久久综合狠狠躁| 亚洲欧美日韩一区在线观看| 日韩中文字幕久久久老色批| 97久久精品人妻人人搡人人玩| 国产a三级久久精品| 亚洲无码美韩综合| 论理视频二区三区四区在线观看| 高潮潮喷奶水飞溅视频无码| 免费现黄频在线观看国产 | 国产成人高清精品亚洲一区| 亚洲av日韩av卡二| 天堂草原电视剧在线观看图片高清| 在线观看国产一区亚洲bd| 男人扒开女人双腿猛进女人机机里| 亚洲乱色视频在线观看| 美女免费视频观看网址| 久久精品无码av| 免费人成在线观看播放国产| 日本高清人妻一区二区| 免费一级淫片日本高清| 国产成人无码a区在线观看视频|