亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向?qū)W術(shù)論義創(chuàng)新內(nèi)容的知識圖譜構(gòu)建與應(yīng)用

        2021-12-21 13:58:19曹樹金趙浜
        現(xiàn)代情報 2021年12期
        關(guān)鍵詞:關(guān)聯(lián)理論內(nèi)容

        曹樹金 趙浜

        DOI.10.3969/j.issn.1008-0821.2021.12.003

        [中圖分類號]G250.2 [文獻標(biāo)識碼]A [文章編號]1008-082l(2021)12-0028-10

        知識圖譜技術(shù)]作為人工智能領(lǐng)域的重要分支,于2012年被Google公司提出后迅速發(fā)展,實踐成果豐富,已成為目前最高效的知識表示和組織形式之一。知識圖譜本質(zhì)上是以圖這種基本結(jié)構(gòu)類型歸納信息的數(shù)據(jù)表示形式,它是實體和關(guān)系構(gòu)成的大型網(wǎng)絡(luò),與特定領(lǐng)域或組織有關(guān)。現(xiàn)有許多前沿知識圖譜項目,例如DBPedia、YAGO、XLORE都是從維基百科、百度百科等開放數(shù)據(jù)源中抽取實體和關(guān)系而構(gòu)建的。

        知識圖譜在學(xué)術(shù)領(lǐng)域也有廣泛應(yīng)用,典型的包括Microsoft Academic Graph、Springer Nature SciGraph、AMINER(aminer.org),它們主要包含諸如作者、科研機構(gòu)、研究主題和引用的實體及其之間的關(guān)聯(lián)信息,為學(xué)者進行科研關(guān)系網(wǎng)絡(luò)的梳理提供了巨大便利。然而,它們的主要局限性是:上述關(guān)聯(lián)關(guān)系都是和學(xué)術(shù)論文相關(guān)的粗粒度信息,而且它們通常將論文的內(nèi)容表示為非結(jié)構(gòu)化文本(標(biāo)題、摘要或是全文),沒有對論文內(nèi)容進行更細粒度的抽取和組織,因而無法對知識內(nèi)容的脈絡(luò)(如理論發(fā)展路徑)進行有效梳理。而論文的具體內(nèi)容才是知識的核心載體。因此,這個領(lǐng)域的一個重大挑戰(zhàn)是如何將學(xué)術(shù)論文中所表述的知識以圖譜的形式組織并顯陛地表示出來,以描述諸如研究方法、理論模型及影響因素、理論應(yīng)用及學(xué)術(shù)貢獻等有價值的知識實體及其之間復(fù)雜的關(guān)系。目前,抽取學(xué)術(shù)論文中知識實體以及論文中知識實體的關(guān)聯(lián),乃至論文間知識實體的關(guān)聯(lián).并以此構(gòu)建知識圖譜的研究較少。

        國家標(biāo)準(zhǔn)將學(xué)術(shù)論文定義為:“學(xué)術(shù)論文是某一學(xué)術(shù)課題在實驗性、理論性或觀測性上具有新的科學(xué)研究成果或創(chuàng)新見解的知識和科學(xué)記錄:或是某種已知原理應(yīng)用于實際中取得新進展的科學(xué)總結(jié)”。由此可見,學(xué)術(shù)論文的價值主要體現(xiàn)在其所提出的新方法、新理論、新應(yīng)用等創(chuàng)新貢獻。將論文中的創(chuàng)新內(nèi)容進行多粒度關(guān)聯(lián),通過對創(chuàng)新內(nèi)容的分解與重組,并用于創(chuàng)新知識圖譜等應(yīng)用的實現(xiàn)具有可行性和巨大潛力,可以為科研用戶提供有力支持,助力學(xué)術(shù)創(chuàng)新。在此背景下,本研究提出構(gòu)建面向?qū)W術(shù)論文創(chuàng)新內(nèi)容的知識圖譜的新命題.旨在探索構(gòu)建可以描述深層次論文內(nèi)容及其關(guān)聯(lián)的知識圖譜,既為學(xué)術(shù)論文中創(chuàng)新情報的發(fā)現(xiàn)和組織提供工具,也為學(xué)術(shù)領(lǐng)域知識圖譜構(gòu)建的由廣入深提供示例。

        1相關(guān)研究

        知識圖譜的構(gòu)建按知識獲取的過程可劃分為信息抽取、知識融合與知識加工3個層次。其中信息抽取的核心為命名實體識別、屬性識別和關(guān)系識別,是圖譜構(gòu)建的基礎(chǔ)環(huán)節(jié);知識融合的關(guān)鍵是命名實體消歧和共指關(guān)系消解,是進行實體間有效關(guān)聯(lián)的必要前提:知識加工的主要工作是本體構(gòu)建與知識推理。

        3個層次的研究都有出色的進展。在信息抽取方面,部分研究成果針對知識元素(實體、關(guān)系、屬性)的抽取技術(shù)與方法,在限定領(lǐng)域、語言、主題的數(shù)據(jù)集上獲得了較好的效果,同時尚存限制條件多、擴展性不好的問題。特別地,在生物與醫(yī)學(xué)領(lǐng)域,命名實體與關(guān)系識別模型算法均有著良好的識別性能。而在情報學(xué)領(lǐng)域,由于學(xué)科本身的交叉融合性,研究會天然地涉及眾多學(xué)科領(lǐng)域,因而針對情報學(xué)相關(guān)學(xué)術(shù)論文的知識元素抽取是一項很大的挑戰(zhàn)。鄭彥寧等探討了信息與知識抽取技術(shù)在情報學(xué)中的難點與應(yīng)用價值;王昊等應(yīng)用Bi-LSTM-CRFs模型進行大規(guī)模語料訓(xùn)練與測試,探尋較優(yōu)的情報學(xué)理論與方法術(shù)語識別效果。針對理論術(shù)語的識別,趙洪等提出了一種深度學(xué)習(xí)自訓(xùn)練算法以實現(xiàn)模型的弱監(jiān)督學(xué)習(xí),為理論術(shù)語抽取提供了有效方法;周萌等基于文本內(nèi)容細粒度共現(xiàn)關(guān)系的抽取,揭示具體領(lǐng)域的整體、微觀知識結(jié)構(gòu)和知識演化情況;陳鋒等驗證了CRF模型配合詞典法自動識別學(xué)術(shù)期刊中的理論的可行性,但選擇語義特征、語義標(biāo)注和語義消歧是需要解決的新問題。在知識融合方面,實體消歧從傳統(tǒng)的規(guī)則匹配到統(tǒng)計、再到深度學(xué)習(xí),有效的消歧模型往往整合了不同類型方法,以達到最優(yōu)消歧效果。實體鏈接和跨語言知識庫對齊是知識融合的重要手段,清華知識工程實驗室構(gòu)建的XLINK系統(tǒng)在這方面取得了一定的進展。另外,結(jié)合眾包平臺與知識庫對齊模型可以有效地提高知識融合的質(zhì)量。同樣的,在知識加工方面,集成學(xué)習(xí)的知識推理效果要好于單個模型的知識推理;融合了領(lǐng)域主題詞表與網(wǎng)絡(luò)百科知識庫的兩階段領(lǐng)域本體自動化構(gòu)建方案在大規(guī)模領(lǐng)域本體構(gòu)建時是可行有效的。

        面向?qū)W術(shù)科研領(lǐng)域,學(xué)者們在進行著知識圖譜構(gòu)建的積極探索。Zhao H X等基于TextCNN的主題信息抽取模型,自動抽取文獻主題、標(biāo)題、狀態(tài)、會議、組織機構(gòu)等信息,構(gòu)建技術(shù)領(lǐng)域知識圖譜。李肖俊等從多源異構(gòu)學(xué)術(shù)數(shù)據(jù)中進行學(xué)術(shù)實體及關(guān)系的抽取,提出適用于學(xué)術(shù)領(lǐng)域的圖譜構(gòu)建流程和本體模型。李嬌等采用自頂向下的方式,通過主題詞關(guān)聯(lián)設(shè)計,構(gòu)建了包含期刊論文、期刊、科研機構(gòu)、科研人員及專題實體類型的科研知識圖譜。張云中等從多源數(shù)據(jù)整合的視角,構(gòu)建了可供知識問答的圖情學(xué)術(shù)領(lǐng)域知識圖譜。然而,諸多探索仍是將圖譜定位于學(xué)術(shù)論文本身粗粒度信息的關(guān)聯(lián),少有研究從進一步挖掘論文中表述的更有價值的知識內(nèi)容及論文中知識內(nèi)容的關(guān)聯(lián),乃至論文間知識內(nèi)容的關(guān)聯(lián)的角度構(gòu)建知識圖譜。

        創(chuàng)新l生是決定論文學(xué)術(shù)價值的內(nèi)在依據(jù),因此論文創(chuàng)新點也是挖掘論文中具有核心價值知識內(nèi)容的關(guān)鍵切入點。針對論文創(chuàng)新內(nèi)容的識別,精細化的語義識別與分類方法,規(guī)則抽取結(jié)合BERT深度學(xué)習(xí)模型,以及主題詞表結(jié)合ALBERT深度學(xué)習(xí)模型等研究已取得一定的進展。筆者研究團隊在此方面也進行了一定的探索——以情報學(xué)期刊論文為例,以創(chuàng)新對象和創(chuàng)新維度為線索,基于BERT深度學(xué)習(xí)模型識別表述學(xué)術(shù)論文創(chuàng)新內(nèi)容的句子,并構(gòu)建了檢索入口。

        綜上,本研究將基于團隊現(xiàn)有研究成果,進一步深入挖掘論文創(chuàng)新內(nèi)容中蘊含的有價值知識實體以及知識實體間的關(guān)聯(lián).構(gòu)建面向?qū)W術(shù)論文創(chuàng)新內(nèi)容的知識圖譜。

        2知識圖譜構(gòu)建的研究設(shè)計

        2.1研究基礎(chǔ)

        本研究基于部分現(xiàn)有研究成果:在對論文創(chuàng)新性特征識別歸納的基礎(chǔ)上,以情報學(xué)期刊論文為原始語料,分別訓(xùn)練BERT語言模型抽取論文創(chuàng)新句。具體為:《數(shù)據(jù)分析與知識發(fā)現(xiàn)》(原《現(xiàn)代圖書情報技術(shù)》)2009—2019年發(fā)表的1667篇文獻中,抽取到的4518個創(chuàng)新句;《情報科學(xué)》2009—2019年發(fā)表的3793篇文獻中,抽取到的5181個創(chuàng)新句。以此為語料基礎(chǔ),深入挖掘分析其中蘊含的創(chuàng)新內(nèi)容,包括理論、方法、模型等實體及其之間的關(guān)聯(lián)關(guān)系。

        2.2知識圖譜構(gòu)建模式

        知識圖譜由本體模型和實體數(shù)據(jù)構(gòu)成,前者是后者的上層抽象與約束,后者是前者的具體對象,是圖譜的具體呈現(xiàn)。根據(jù)兩者的構(gòu)建次序,知識圖譜可分為自頂向下和自底向上兩種構(gòu)建模式。通常在知識體系和數(shù)據(jù)情況完備的情形下,采用自頂向下的模式,即先從高質(zhì)量數(shù)據(jù)中提取本體和模式信息,再將實體數(shù)據(jù)加入知識庫中;而自底向上則是在面向開放的數(shù)據(jù)源以及沒有系統(tǒng)知識體系的情形下,先抽實體再構(gòu)本體的模式。兩個模式并不互斥,實體和本體會隨著其反映的世界的變化而拓展與變化,知識的融合與更新也是一個持續(xù)迭代的過程。在學(xué)術(shù)領(lǐng)域,科學(xué)研究處在動態(tài)變化中,知識體系也隨之不斷地發(fā)生變革。因此,本研究將融合兩種模式,構(gòu)建面向?qū)W術(shù)論文創(chuàng)新內(nèi)容的知識圖譜。

        2.3研究方法與框架

        知識的表示是一項復(fù)雜的任務(wù)。秦春秀等從文獻的內(nèi)外部特征,構(gòu)建了面向科技文獻知識表示的知識元本體模型,將創(chuàng)新點分為理論創(chuàng)新點、方法創(chuàng)新點和技術(shù)創(chuàng)新點。閆欣陽基于創(chuàng)新句的詞頻分析將論文的創(chuàng)新對象分為模型、方法、算法等10種。而針對理論,Pettigrew K E等將模型、框架、概念等對某種觀點或理念的描述等同于理論的描述。由于知識體系的龐大以及描述形式的復(fù)雜多樣性,知識本體的構(gòu)建也是一項復(fù)雜的任務(wù),因此,不妨針對具體語料,由關(guān)鍵對象入手。

        2.3.1基于詞頻以及互信息和左右信息熵的關(guān)鍵對象分析

        互信息和左右信息熵可以有效地發(fā)現(xiàn)新詞和短語,也經(jīng)常用于搜索引擎的自動推薦,是一種挖掘所關(guān)注領(lǐng)域關(guān)鍵信息的有效手段。

        互信息(Mutual Information)是指兩個事物集合之間的相互依賴程度,在文本處理中,詞的互信息指兩個詞的相關(guān)程度,可以用式(1)來計算:

        其中P(X,Y)是字符X與字符Y組合起來的字符在文本中出現(xiàn)的概率;P(X)是字符X在文本中出現(xiàn)的概率;P(Y)是字符Y在文本中出現(xiàn)的概率。互信息值越高,表明X和Y相關(guān)性越高,則X和Y組成短語的可能性越大;反之X和Y之間相關(guān)性越低,X和Y之間存在短語邊界的可能性越大。

        熵是表示隨機變量不確定性的量度,熵越高就意味著不確定性越高,越難以預(yù)測。左右信息熵是通過計算一個字符片段左邊和右邊的信息熵,來反映一個詞是否有豐富的左右搭配,以致是否達到一定閾值而形成一個新詞。左右信息熵如式(2)、(3):

        基于關(guān)鍵詞頻以及上述互信息、左右信息熵的簡單求和,對語料基礎(chǔ)進行初步分析,得出創(chuàng)新的關(guān)鍵對象,以此作為預(yù)構(gòu)建本體的重要參考。

        2.3.2基于ALBERT模型的知識實體抽取

        ALBERT,即“A Lite”Version of BERT,是基于BERT模型的一種輕量級預(yù)訓(xùn)練語言模型。AL-BERT保留了BERT的模型結(jié)構(gòu),并在此基礎(chǔ)上加入了3種改進策略:針對嵌入矩陣的分解式嵌入?yún)?shù)(Factorized Embedding Parameterization)、針對所有層的跨層參數(shù)共享(Cross-layer Parameter Sha-ring)、面向語句順序預(yù)測的句間連貫性損失(Inter-sentence Coherence Loss)。使其有參數(shù)更少、訓(xùn)練更高效的優(yōu)勢,預(yù)訓(xùn)練小模型也能獲得甚至超越BERT的性能。本研究預(yù)調(diào)用由Google提供的al-bert_base_zh中文語料,其參數(shù)量以及模型大小均為bert_base的1/10。同時,基于已獲得的創(chuàng)新關(guān)鍵對象,進行實體類型的訓(xùn)練語料標(biāo)注以及模型訓(xùn)練與調(diào)優(yōu),隨之進行知識實體抽取。

        2.3.3語義分析與圖譜構(gòu)建工具

        語義分析目前已有許多成熟的工具可供選擇,本研究選用完全開源的HanLP自然語言處理工具包。它基于PyTorch和TensorFlow 2.x雙引擎,借助世界上最大的多語種語料庫,可以完成中文分詞、詞性標(biāo)注、命名實體識別、依存句法分析等多種自然語言處理任務(wù),同時它的開源屬性可便于學(xué)者和開發(fā)者進行必要的功能拓展。

        針對知識圖譜構(gòu)建與可視化,本研究選用同樣開源的SmartKG。它是一款由Microsoft開發(fā)的輕量級知識圖譜構(gòu)建與可視化工具,以屬性圖的方式存儲實體節(jié)點和關(guān)聯(lián)(Vertexes and Edges),并且實現(xiàn)了節(jié)點和關(guān)聯(lián)的檢索接口,以便在此之上開發(fā)上層應(yīng)用,例如基于知識圖譜的智能對話。

        2.3.4知識圖譜構(gòu)建框架

        與一般的知識圖譜構(gòu)建方案不同的是,本研究將本體構(gòu)建的流程橫跨整個知識獲取的過程,并在知識實體抽取前加入關(guān)鍵對象分析這一圖譜構(gòu)建的預(yù)處理環(huán)節(jié),使其帶有一定的目的,使圖譜更聚焦于想呈現(xiàn)的領(lǐng)域或關(guān)鍵內(nèi)容,為知識本體的構(gòu)建提供重要參考。本體從哲學(xué)角度看是對世界上客觀存在及其關(guān)聯(lián)的系統(tǒng)描述,從語言與計算機角度看是對某個領(lǐng)域甚至更廣范圍內(nèi)概念及其之間關(guān)系的映射,并使之具有明確、一致的定義,以便人機以及機器間的交流。知識具有融合性,在考慮知識融合的過程中也會考慮本體的融合或者集成。知識圖譜的構(gòu)建并非一蹴而就,因而本體的構(gòu)建與完善從某種程度上也可以被認為貫穿了圖譜構(gòu)建的始終。本研究采用的知識圖譜構(gòu)建框架如圖1所示。

        3知識圖譜構(gòu)建流程

        3.1圖譜構(gòu)建的預(yù)處理——關(guān)鍵對象分析

        利用Java環(huán)境下的HanLP自然語言處理框架,結(jié)合詞頻分析以及互信息和左右信息熵運算,對已經(jīng)預(yù)先識別好的共計9699條論文創(chuàng)新句進行初步分析。首先得到詞頻數(shù)據(jù)(前10)如表1所示。

        由上述詞頻數(shù)據(jù)可以得知,創(chuàng)新句子對模型的描述最為頻繁,其次是方法。以上關(guān)鍵詞包含了名詞及動詞。將二者結(jié)合,再進行互信息與左右信息熵的二元分析,得出結(jié)果如表2所示(已排除部分“動詞+動名詞”的無意義組合,例如“進行→分析”)。

        上述結(jié)果中可以看出,創(chuàng)新句中對于方法和模型的確是最為關(guān)注的焦點,例如“分析→方法”“構(gòu)建一模型”。由此可以將方法與模型作為本研究所欲呈現(xiàn)知識圖譜的關(guān)鍵范疇。另外,雖然“提出→新的”與“提出→改進”對于關(guān)鍵對象的分析并沒有實際意義,但是從側(cè)面驗證了本研究所基于的創(chuàng)新句的“創(chuàng)新性”。

        以“模型”為例,進一步分析模型本體下可能關(guān)聯(lián)的實體類型。部分結(jié)果如表3所示。

        由上述結(jié)果可以看出.對模型的描述可以包含特征、情境、因素、指標(biāo)等,其中“因素→模型”的頻率較高,說明“因素”出現(xiàn)在“模型”附近的概率也較高,所以因素可當(dāng)作構(gòu)成模型本體的一種關(guān)鍵的實體類型。

        3.2實體標(biāo)注、模型訓(xùn)練與知識抽取

        以預(yù)處理結(jié)果為重要參考,構(gòu)建新的實體類型集合,其中包括基本理論、方法、模型、影響因素、特征指標(biāo)、研究貢獻。利用ALBERT深度學(xué)習(xí)模型,在Tensorflow_GPU1.15.0,CUDA10.0,Python3.7的系統(tǒng)環(huán)境下,進行實體標(biāo)注、模型訓(xùn)練以及知識實體抽取。首先針對新構(gòu)建的實體類型,對基于ALBERT的一般命名實體識別任務(wù)代碼進行改造。本研究采用標(biāo)準(zhǔn)的BIO標(biāo)注體系,即將每個元素標(biāo)注為“B-X”“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭,“I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間或結(jié)尾位置,“O”表示不屬于任何類型。例如,將“X”表示為(Person,PER)人物,則BIO的3個標(biāo)注為:B-PER(人名的開頭),I-PER(人名的中間或結(jié)尾),0(不是名詞短語)。針對標(biāo)注改造的部分代碼片段如圖2所示。

        本研究對9699條目標(biāo)論文創(chuàng)新句隨機選取480條作為標(biāo)注對象。在albert_base_zh預(yù)訓(xùn)練模型的基礎(chǔ)上繼續(xù)進行模型訓(xùn)練。隨后將余下的未標(biāo)注語句導(dǎo)入模型中進行知識實體抽取,整理得到最終實體列表。

        3.3實體關(guān)系梳理、實體消歧與知識融合

        通過對知識實體的抽取,發(fā)現(xiàn)了不少熟知的理論模型,例如“信息系統(tǒng)持續(xù)使用模型”“期望確認模型”等,以及理論模型之間潛在的繼承與發(fā)展關(guān)系。但在實體類型上存在一些分類的異議,本研究做了一些人為的評判與處理。例如:模型和理論之間本身就存在著概念的重合,上述“信息系統(tǒng)持續(xù)使用模型”與“期望確認模型”被訓(xùn)練過的AL-BERT識別為“模型”這一類型,而本研究人為地將這二者定為“基本理論”,因為二者影響深遠,在他們基礎(chǔ)上演化出了眾多模型,不少創(chuàng)新是基于這樣的“基本理論”實現(xiàn)的。針對繼承與發(fā)展的關(guān)系,分析后可分為兩種類型,一種是基于多個基本理論衍生出的另外一種模型,衍生的模型可能借鑒基本理論的相關(guān)影響因素,也可能借鑒基本理論的研究方法甚至是調(diào)查問卷的問項目或指標(biāo)等,而這類模型和基本理論的應(yīng)用方向又不完全一致;另外一種是基于一個基本理論派生出來的,新模型大多在基本理論基礎(chǔ)上新增了影響因素甚至是新的維度,此類模型和基本理論的應(yīng)用方向基本一致?;诖?,本研究將理論模型問的繼承發(fā)展關(guān)系定義為衍生和派生,這是從基本理論到新模型的關(guān)系方向:而將反向的相對應(yīng)關(guān)系定義為使用和拓展。

        抽取出來的理論、模型與方法有不少共指關(guān)系存在,例如“信息系統(tǒng)持續(xù)使用模型”與其對應(yīng)英文簡稱“ECM-ISC”(Expectation Confirmation Model of IS Continuance),“德爾菲問卷調(diào)查”與“德爾菲法”這種不同的描述方式,以及“馬爾可夫鏈”與“馬爾科夫鏈”這種不同的譯名。同一實體的兩種不同表述出現(xiàn)在同個章節(jié)或句子時是一種共指消解問題,而兩種表述出現(xiàn)在不同文獻或數(shù)據(jù)源時準(zhǔn)確說是一種實體對齊或者實體鏈接問題,它們針對的目的一致但處理方式是有所不同的,目前也沒有統(tǒng)一有效的方法同時解決上述問題。本研究的處理方式為將所有表述(實體)都存儲起來,并預(yù)先采用人工判斷的方式為不同表述構(gòu)建一個統(tǒng)一的實體,同時將其他同義實體與之在數(shù)據(jù)庫層面建立一種指向的關(guān)聯(lián),最終使用統(tǒng)一的實體作為圖譜中的真實節(jié)點。這樣做有兩個潛在目的:一是為以后針對更多數(shù)據(jù)源的實體抽取提供詞典支持:二是為與其他知識庫融合提供鏈接支持。

        基于現(xiàn)有語料抽取到多數(shù)基本理論無法追溯到其文獻源頭,本研究采用人工采集的方式將相關(guān)實體信息補全至數(shù)據(jù)庫。

        3.4知識存儲與圖譜可視化呈現(xiàn)

        本研究采用MongoDB作為數(shù)據(jù)庫存儲知識。MongoDB是一種基于分布式文件存儲的數(shù)據(jù)庫,以高拓展性和高性能的優(yōu)勢著稱,作為NoSQL非關(guān)系型數(shù)據(jù)庫的代表,多年以來在非關(guān)系型數(shù)據(jù)庫的選擇上都是業(yè)界最受歡迎的。實際上有部分大型知識庫項目就是采用MongoDB作為存儲的,進行適當(dāng)?shù)脑O(shè)計與改造后,MongoDB同樣可以作為一種有效的圖數(shù)據(jù)庫使用。相比于更適合諸如最短路徑、社區(qū)發(fā)現(xiàn)等圖運算的以Neo4j為代表的圖數(shù)據(jù)庫,基于MongoDB構(gòu)建上層應(yīng)用系統(tǒng)會有更好的拓展性和適應(yīng)性。

        本研究將實體和關(guān)系以屬性圖的方式存儲,屬性圖主要包含頂點(Vertex)和邊(Edge)。相比于RDF三元組,屬性圖的結(jié)構(gòu)更接近于圖,也更利于圖運算的效率。利用SmartKG,最終將存儲的知識以圖譜的形式呈現(xiàn)出來。圖3為本研究所構(gòu)建知識圖譜的局部效果展示,呈現(xiàn)的基本內(nèi)容為學(xué)術(shù)論文圍繞“信息系統(tǒng)持續(xù)使用模型”展開的一系列理論與應(yīng)用創(chuàng)新。圖4(a)為聚焦于實體“信息系統(tǒng)持續(xù)使用模型”時呈現(xiàn)的與之直接相關(guān)的理論模型問的繼承發(fā)展關(guān)系,包括“信息系統(tǒng)持續(xù)使用模型”自身的理論基礎(chǔ),以及在其基礎(chǔ)上衍生派生的模型;圖4(b)為展開具體的某一模型實體所呈現(xiàn)的信息,包括與該模型相關(guān)的文獻、理論基礎(chǔ)及新增的影響因素、理論與應(yīng)用貢獻等。

        4知識圖譜的應(yīng)用

        本研究基于學(xué)術(shù)論文創(chuàng)新內(nèi)容所構(gòu)建的知識圖譜目前僅是一個雛形,未來將結(jié)合更多智能化手段實現(xiàn)當(dāng)前流程中的人工處理環(huán)節(jié),同時也將嘗試與多種現(xiàn)有知識庫的融合。在構(gòu)建圖譜的基礎(chǔ)上,將在多個方向進行應(yīng)用探索,以多種方式進行應(yīng)用構(gòu)建。

        4.1語義搜索

        Google提出知識圖譜的主要目的就是為搜索引擎賦予更具智慧的思維,它將傳統(tǒng)的搜索從Web鏈接轉(zhuǎn)向概念鏈接,將搜索的原理從字符串的匹配轉(zhuǎn)向主題和實體關(guān)聯(lián)的匹配。通過對實體及屬性的提取、同義拓展、關(guān)聯(lián)推理等技術(shù),可以實現(xiàn)更精準(zhǔn)的語義關(guān)系判斷,從而提供更符合用戶搜索意圖的結(jié)果。面向?qū)W術(shù)論文創(chuàng)新內(nèi)容,可以搭建針對細粒度創(chuàng)新內(nèi)容的檢索系統(tǒng),更加智能化地將搜索語句關(guān)聯(lián)到論文創(chuàng)新點、創(chuàng)新句以及創(chuàng)新點對應(yīng)的章節(jié)。同時,以語義搜索作為基礎(chǔ)可為更復(fù)雜的應(yīng)用如智能問答、推薦系統(tǒng)等提供服務(wù)支持。

        4.2智能問答

        通過對用戶以自然語言提出的問題進行語法及語義分析,智能理解用戶問題進而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語句,甚至是查詢語句集,隨后在知識圖譜中高效檢索其所需知識,并呈現(xiàn)最相關(guān)的答案。如圖5所示,為本研究通過SmartKG實現(xiàn)的與理論發(fā)展相關(guān)的智能問答示例。如“某某理論模型派生的模型有哪些?”這類問題,智能問答機器人可以有效地回答基于這些基本理論而產(chǎn)生的理論創(chuàng)新有哪些。再如“某某模型在某某理論的基礎(chǔ)上新增的影響因素”這類問題,同樣可以有效得出這些新理論模型的具體創(chuàng)新點。目前的實現(xiàn)原理并不復(fù)雜,通過對問題語句進行分詞和語義分析,提取出其中包含的實體與關(guān)系類型,并在圖譜數(shù)據(jù)庫中進行關(guān)聯(lián)匹配與映射,輸出對應(yīng)的結(jié)果集合。

        4.3推薦系統(tǒng)

        從用戶的角度,推薦系統(tǒng)是在信息過載情況下,解決高效獲取感興趣信息難題的重要工具。知識圖譜可為處于推薦系統(tǒng)邏輯架構(gòu)核心位置的推薦模型提供高效的運算支持,挖掘潛在關(guān)聯(lián)需求并聚焦于關(guān)鍵數(shù)據(jù)。甚至可以為推薦理由進行可視化呈現(xiàn),增強用戶體驗。在有了智能語義搜索服務(wù)的基礎(chǔ)上,推薦系統(tǒng)可以根據(jù)用戶的個性化設(shè)置以及系統(tǒng)活動記錄,提取出用戶階段性的興趣點,啟發(fā)式地主動挖掘潛在“搜索語句”并呈現(xiàn)結(jié)果。比如推薦系統(tǒng)發(fā)現(xiàn)了用戶對信息系統(tǒng)持續(xù)使用模型相關(guān)的創(chuàng)新很感興趣,并檢索了特別是問答社區(qū)這類平臺的研究,推薦系統(tǒng)可以更加深入地縱向挖掘其中的實體關(guān)聯(lián),為用戶提供更細致的研究進展,推薦系統(tǒng)也可以橫向地挖掘該理論模型在其他類型平臺或領(lǐng)域的創(chuàng)新,為用戶呈現(xiàn)。

        4.4知識發(fā)現(xiàn)

        基于圖數(shù)據(jù)結(jié)構(gòu),系統(tǒng)可以便捷地根據(jù)知識實體之間的關(guān)系,應(yīng)用邏輯規(guī)則以及置信度評估知識的合理性,并通過知識圖譜的自動構(gòu)建、知識更新以及知識推理技術(shù),實現(xiàn)從非結(jié)構(gòu)化文本中提煉潛在知識,即知識圖譜內(nèi)邏輯規(guī)則的推理,甚至是知識實體之間缺失關(guān)系的補全,從而挖掘出以往未得到的新知識。以上述智能問答應(yīng)用示例中的問題領(lǐng)域為例,對基本理論演化出的眾多新模型中各自新增的影響因素在模型間進行相互對比,分析其語義問的異同,就可以挖掘出哪些因素可能被重復(fù)新增,哪些因素最具獨特性,甚至以此可以推測出新模型的創(chuàng)新性指標(biāo)。

        4.5科研成果評價

        通過對學(xué)術(shù)論文創(chuàng)新內(nèi)容與研究貢獻的抽取與圖譜構(gòu)建,可以有效關(guān)聯(lián)學(xué)術(shù)論文中具有核心價值的知識內(nèi)容,以及不同相關(guān)論文間理論與應(yīng)用的發(fā)展脈絡(luò)與創(chuàng)新程度,為科研成果的質(zhì)量評價提供重要參考依據(jù)。將對樹立以創(chuàng)新質(zhì)量為導(dǎo)向的學(xué)術(shù)氛圍、對“破五唯”進展起到積極推動作用。

        目前,團隊已經(jīng)初步完成了面向?qū)W術(shù)論文創(chuàng)新內(nèi)容的語義搜索與智能問答的簡易實現(xiàn),日后將進行更加細致的功能分析和更完善的系統(tǒng)構(gòu)建,并以此為基礎(chǔ),進一步結(jié)合用戶情境以及適當(dāng)?shù)囊?guī)則機制,開展推薦系統(tǒng)、知識發(fā)現(xiàn)乃至科技成果創(chuàng)新評價等方面的研究。

        5結(jié)論與展望

        從論文內(nèi)具有核心價值的創(chuàng)新內(nèi)容中挖掘知識與知識問的關(guān)聯(lián),對于各領(lǐng)域的科學(xué)研究都有重要意義。本文從挖掘情報學(xué)領(lǐng)域的部分期刊論文的創(chuàng)新文本內(nèi)容入手,結(jié)合多種語義分析方法、深度學(xué)習(xí)模型以及業(yè)界先進經(jīng)驗,構(gòu)建面向?qū)W術(shù)論文創(chuàng)新內(nèi)容的知識圖譜,為可以描述深層次論文內(nèi)容及其關(guān)聯(lián)的知識圖譜構(gòu)建探索合理的切入點,并探討及構(gòu)建與之相關(guān)的實際應(yīng)用。研究得出以下主要結(jié)論:

        1)為構(gòu)建面向?qū)W術(shù)論文創(chuàng)新內(nèi)容的知識圖譜,不拘泥于自底向上或是自頂向下的單一圖譜構(gòu)建模式,并利用互信息與左右信息熵,在實體抽取之前加入關(guān)鍵對象分析這一知識圖譜構(gòu)建的預(yù)處理環(huán)節(jié),可有效地挖掘具體領(lǐng)域的關(guān)鍵范疇,為知識圖譜中的本體初步構(gòu)建提供重要參考。

        2)知識圖譜的構(gòu)建需要采用多種技術(shù)工具與模型,本研究成功結(jié)合HanLP與ALBERT,Smart-KG與MongoDB等,構(gòu)成了創(chuàng)新知識圖譜的核心技術(shù)框架:同時,在完成論文創(chuàng)新內(nèi)容實體問關(guān)系識別等復(fù)雜任務(wù)時,進行必要的人工分析和干預(yù)能夠使構(gòu)建的知識圖譜更具邏輯性與拓展性,可為進一步的知識融合創(chuàng)造便利條件。

        3)基于學(xué)術(shù)論文創(chuàng)新知識圖譜,可以進一步開發(fā)面向論文創(chuàng)新內(nèi)容的多粒度語義檢索、智能問答、智能推薦、知識發(fā)現(xiàn)乃至創(chuàng)新性評價等系統(tǒng)或功能。

        然而目前的研究仍有局限:①知識實體關(guān)系的抽取和實體消歧的工作依賴人工的分析處理,且實體屬性的抽取并未深入進行:②對某些具體理論模型影響因素的抽取識別并不精準(zhǔn),特別是基于多個理論衍生出的新理論:③所選基礎(chǔ)語料數(shù)據(jù)來源單一。

        未來的研究希望可以加大智能化圖譜構(gòu)建相關(guān)技術(shù)的結(jié)合:深入探索本體構(gòu)建與圖譜構(gòu)建在不同環(huán)節(jié)的相互影響,以求為知識的融合與更新過程提供更合理的機制:繼續(xù)深挖基礎(chǔ)語料的其他非關(guān)鍵知識實體,并嘗試融合更多領(lǐng)域的創(chuàng)新內(nèi)容文本數(shù)據(jù)源,拓展面向?qū)W術(shù)論文創(chuàng)新內(nèi)容的知識圖譜:另外,嘗試融合現(xiàn)有的以文獻、作者、研究主題、科研機構(gòu)為主要實體的學(xué)術(shù)知識圖譜,真正實現(xiàn)學(xué)術(shù)領(lǐng)域知識圖譜的由廣入深。

        (責(zé)任編輯:孫國雷)

        猜你喜歡
        關(guān)聯(lián)理論內(nèi)容
        內(nèi)容回顧溫故知新
        堅持理論創(chuàng)新
        神秘的混沌理論
        “苦”的關(guān)聯(lián)
        理論創(chuàng)新 引領(lǐng)百年
        相關(guān)于撓理論的Baer模
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        主要內(nèi)容
        臺聲(2016年2期)2016-09-16 01:06:53
        語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
        无码国内精品人妻少妇蜜桃视频| 精品熟女少妇免费久久| 久久午夜夜伦鲁鲁片免费无码| 国产男女猛烈视频在线观看| 国产精品麻豆aⅴ人妻| 国产91对白在线观看| 日本高清无卡一区二区三区| 国产中文字幕亚洲精品| 日本不卡在线视频二区三区 | 大地资源高清在线视频播放| 成人性做爰aaa片免费看| 精品久久久久久国产| 国产精品网站夜色| 东京热加勒比日韩精品| 亚洲情精品中文字幕99在线| 久久中文字幕亚洲综合| 一二三四五区av蜜桃| 国产精品久久成人网站| 免费观看激色视频网站| 亚洲AⅤ无码国精品中文字慕| 久久久久亚洲AV无码专区一区| 日本高清一区二区三区在线 | 狼狼综合久久久久综合网| 精品免费久久久久久久 | 中文字幕有码一区二区三区| 亚洲精品国产av一区二区| 日本熟妇裸体视频在线| 午夜dv内射一区二区| 性色做爰片在线观看ww| 色妞色综合久久夜夜| 国产精品女丝袜白丝袜| 国产精品人成在线观看不卡| 国产在线视频91九色| 东京热久久综合久久88| 最新亚洲人成无码网www电影| 夫妻一起自拍内射小视频| 国产女人精品一区二区三区| 亚洲国产日韩欧美综合a| 国产精品久久国产精麻豆99网站 | 亚洲精彩av大片在线观看| 国产白浆在线免费观看|