亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖譜的領(lǐng)域技術(shù)體系構(gòu)建研究

        2022-11-16 06:34:40許文文徐霄驥
        電視技術(shù) 2022年10期
        關(guān)鍵詞:圖譜關(guān)聯(lián)實體

        許文文,馬 勛,徐霄驥,張 峰

        (中國電子科技集團(tuán)公司信息科學(xué)研究院 認(rèn)知與智能技術(shù)重點實驗室,北京 100086)

        1 領(lǐng)域技術(shù)體系概述

        領(lǐng)域技術(shù)體系是通過分析領(lǐng)域技術(shù)、技術(shù)之間的關(guān)系以及技術(shù)發(fā)展特性等數(shù)據(jù),以技術(shù)概念為節(jié)點、以技術(shù)概念間關(guān)系為邊,繪制而成的具有層次、邏輯關(guān)系的數(shù)據(jù)結(jié)構(gòu)。利用技術(shù)體系,能夠分析領(lǐng)域技術(shù)發(fā)展脈絡(luò),揭示技術(shù)之間的耦合關(guān)系,形成技術(shù)全景畫像,洞察技術(shù)發(fā)展方向。

        傳統(tǒng)領(lǐng)域技術(shù)體系主要依托專家已有的知識,人工進(jìn)行構(gòu)建,存在認(rèn)識、經(jīng)驗等局限性,無法保障全面性和準(zhǔn)確性,無法洞察技術(shù)發(fā)展的全貌。論文、專利等科研成果數(shù)據(jù)是科研活動和科技發(fā)展的客觀反映。隨著科學(xué)技術(shù)迅猛發(fā)展,科研機(jī)構(gòu)的科研活動范圍越來越廣泛,科研成果呈多源化、海量化的速度增長?;谶@些數(shù)據(jù),利用數(shù)據(jù)科學(xué)的方法,可以實現(xiàn)從數(shù)據(jù)到信息、信息到知識的提升[1]?;诖耍疚奶岢鲆环N基于圖譜的領(lǐng)域技術(shù)體系構(gòu)建方法。該方法通過采集領(lǐng)域相關(guān)科技信息資源,結(jié)合數(shù)據(jù)挖掘、知識圖譜、復(fù)雜網(wǎng)絡(luò)分析等技術(shù),對數(shù)據(jù)進(jìn)行整合和提煉,構(gòu)建領(lǐng)域技術(shù)體系,可以從相對客觀的角度反映技術(shù)的發(fā)展?fàn)顩r和未來趨勢,為認(rèn)識技術(shù)發(fā)展全貌提供輔助支撐。

        2 領(lǐng)域技術(shù)關(guān)聯(lián)圖譜構(gòu)建

        在領(lǐng)域技術(shù)關(guān)聯(lián)圖譜構(gòu)建方面,通過領(lǐng)域科技數(shù)據(jù)的感知與匯聚,實現(xiàn)領(lǐng)域科技數(shù)據(jù)的獲??;通過基于雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)的知識抽取,實現(xiàn)對隱藏在海量科技信息中的實體和實體關(guān)系的識別和抽?。煌ㄟ^基于潛在語義分析的知識融合,將多個來源的、關(guān)于同一個實體或概念的描述信息進(jìn)行融合;通過混合數(shù)據(jù)存儲體系、多維度數(shù)據(jù)索引等技術(shù),實現(xiàn)圖譜的管理和更新。

        2.1 領(lǐng)域科技數(shù)據(jù)的感知與匯聚

        針對全面、及時地感知和獲取領(lǐng)域科技數(shù)據(jù)的問題,開展多源數(shù)據(jù)采集模型構(gòu)建研究,覆蓋專業(yè)文獻(xiàn)庫、相關(guān)專利庫等渠道,實現(xiàn)領(lǐng)域科技數(shù)據(jù)的自動感知與獲取。具體地,采用定源跟蹤與開放式獲取相結(jié)合的多源數(shù)據(jù)采集方法,獲取數(shù)據(jù),并且建立多源信息監(jiān)測、長期跟蹤機(jī)制,實現(xiàn)數(shù)據(jù)的定期更新。

        針對獲取的領(lǐng)域科技數(shù)據(jù)格式多樣、質(zhì)量難以保障的問題,開展領(lǐng)域科技數(shù)據(jù)預(yù)處理,完成數(shù)據(jù)解析、數(shù)據(jù)清洗、數(shù)據(jù)變換等規(guī)范化操作,形成格式統(tǒng)一、結(jié)構(gòu)完整、形式規(guī)范的領(lǐng)域科技數(shù)據(jù)集。構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)解析工具,實現(xiàn)論文、專利等數(shù)據(jù)中標(biāo)題、作者、機(jī)構(gòu)、摘要、關(guān)鍵詞、正文、發(fā)表時間等基本信息的提取。在數(shù)據(jù)變換方面,構(gòu)建數(shù)據(jù)轉(zhuǎn)換工具,以支持?jǐn)?shù)據(jù)不同存儲格式與標(biāo)準(zhǔn)格式間的相互轉(zhuǎn)換,方便數(shù)據(jù)整合、聯(lián)合分析。

        2.2 基于BERT的知識抽取

        知識抽取是從多種數(shù)據(jù)源中提取知識并存入知識圖譜,是構(gòu)建大規(guī)模知識圖譜的基礎(chǔ)[2]。知識抽取的目的是增強信息的可使用性和可重用性,這個過程同時又可以看作對現(xiàn)有的非結(jié)構(gòu)化信息的語義標(biāo)注過程,主要包括實體抽取和實體間關(guān)系抽取。

        針對領(lǐng)域?qū)I(yè)性強、技術(shù)詞匯多樣所導(dǎo)致的領(lǐng)域文檔識別與要素提取困難問題,開展領(lǐng)域詞庫構(gòu)建研究。領(lǐng)域詞庫構(gòu)建的正確性影響領(lǐng)域數(shù)據(jù)識別的準(zhǔn)確率[3]。對此,首先收集領(lǐng)域的技術(shù)種子詞匯,基于種子詞匯,結(jié)合語義空間模型、文本上下文場景分析等技術(shù),對文檔中的技術(shù)概念進(jìn)行提取,并對相關(guān)概念間的關(guān)系進(jìn)行梳理,以滾雪球方式不斷完善領(lǐng)域基礎(chǔ)詞庫,為領(lǐng)域技術(shù)關(guān)聯(lián)圖譜的構(gòu)建提供支撐。

        采用基于BERT深層語義表示的BILSTM-CRF模型[4]進(jìn)行實體抽取?;陬A(yù)先獲得的BERT模型和CRF模型,構(gòu)建實體抽取模型;將預(yù)處理后的文本段落數(shù)據(jù)輸入實體抽取模型,得到抽取結(jié)果。在實體關(guān)系抽取方面,采用融合多特征的BERT預(yù)訓(xùn)練模型進(jìn)行實體關(guān)系抽取。融合技術(shù)等實體信息、實體對信息和實體類型等特征,強化BERT模型的語義學(xué)習(xí)能力,減少語義信息特征的丟失,最后通過分類器進(jìn)行關(guān)系分類和提取。

        2.3 基于語義分析的知識融合

        知識融合研究的是如何將來自多個來源的關(guān)于同一個實體或概念的描述信息融合起來,主要包括實體對齊、沖突檢測與消解等。

        通過采用基于語義分析的概率模型實現(xiàn)實體對齊。首先,通過局部敏感哈希算法確定每個實體匹配候選集,降低計算復(fù)雜度,其次利用文本相似性函數(shù)計算屬性的相似度進(jìn)行成對匹配。通過將基于屬性相似性評分的實體匹配問題轉(zhuǎn)化為分類問題(分為匹配、可能匹配和不匹配)建立該問題的概率模型。在沖突檢測與消解方面,綜合使用基于投票的方法和基于質(zhì)量估計的方法?;谕镀钡姆椒ū容^直接,例如根據(jù)實體出現(xiàn)的頻率進(jìn)行多數(shù)投票。基于質(zhì)量的方法不考慮知識來源的可信度,最終選擇較高質(zhì)量的結(jié)果。

        2.4 技術(shù)關(guān)聯(lián)圖譜的存儲與更新

        由于領(lǐng)域技術(shù)處在不斷的變化之中,其所包含的技術(shù)概念節(jié)點和關(guān)聯(lián)關(guān)系可能會消失,同時新的節(jié)點和關(guān)系也會不斷出現(xiàn),因此,就需要對技術(shù)關(guān)聯(lián)圖譜進(jìn)行存儲和定期更新。通過采用基于關(guān)系數(shù)據(jù)庫、圖數(shù)據(jù)庫的混合數(shù)據(jù)存儲體系,支撐技術(shù)關(guān)聯(lián)圖譜存儲,并構(gòu)建多維度數(shù)據(jù)索引,實現(xiàn)領(lǐng)域技術(shù)數(shù)據(jù)的管理和查詢檢索。關(guān)系數(shù)據(jù)庫易于維護(hù),便于多表之間的復(fù)雜查詢。圖數(shù)據(jù)庫可以提供完善的查詢語言,實現(xiàn)圖上的查詢和搜索,更容易表達(dá)現(xiàn)實的業(yè)務(wù)場景[5]。針對技術(shù)關(guān)聯(lián)圖譜的更新問題,綜合多源置信度評估技術(shù)、基于圖數(shù)據(jù)庫的自動更新與備份,以及人工更新維護(hù)等手段,實現(xiàn)技術(shù)關(guān)聯(lián)圖譜的更新與維護(hù)。

        3 領(lǐng)域技術(shù)體系構(gòu)建

        在領(lǐng)域技術(shù)體系構(gòu)建方面,通過標(biāo)簽傳播算法,實現(xiàn)領(lǐng)域技術(shù)群發(fā)現(xiàn);通過分析技術(shù)節(jié)點間的時序鏈接變化,深化對技術(shù)的關(guān)聯(lián)關(guān)系的認(rèn)識;通過對技術(shù)關(guān)聯(lián)圖譜的分析,構(gòu)建領(lǐng)域技術(shù)體系。

        3.1 基于標(biāo)簽傳播的技術(shù)群發(fā)現(xiàn)

        技術(shù)群發(fā)現(xiàn)的目的是挖掘技術(shù)關(guān)聯(lián)圖譜中關(guān)系緊密的技術(shù)實體對[6]。采用基于標(biāo)簽傳播的社區(qū)檢測算法實現(xiàn)技術(shù)群的發(fā)現(xiàn)。標(biāo)簽傳播算法通過傳播標(biāo)簽的方式使得網(wǎng)絡(luò)中的節(jié)點獲取其所屬簇的標(biāo)簽。將具有相同標(biāo)簽的節(jié)點劃分到一個社區(qū)中,在每次迭代傳播時,每個節(jié)點的標(biāo)簽都更新為最多數(shù)量的鄰居節(jié)點擁有的標(biāo)簽。通過標(biāo)簽傳播,將整個網(wǎng)絡(luò)中的技術(shù)節(jié)點劃分為若干個群體,發(fā)現(xiàn)潛藏在技術(shù)關(guān)聯(lián)圖譜中的技術(shù)群,群內(nèi)技術(shù)節(jié)點聯(lián)系緊密,群間節(jié)點聯(lián)系稀疏。

        3.2 基于時序鏈接變化的技術(shù)演化分析

        技術(shù)演化路徑分析,可以梳理技術(shù)發(fā)展脈絡(luò),為探究、回溯技術(shù)起源和發(fā)展提供幫助[7]。結(jié)合文本挖掘、引文分析等技術(shù),分析技術(shù)關(guān)聯(lián)網(wǎng)絡(luò)中技術(shù)節(jié)點和連接關(guān)系隨時間的變化情況,通過節(jié)點和連接的增長過程分析、圖譜關(guān)鍵節(jié)點和連接的產(chǎn)生及變化情況描述與刻畫,形成領(lǐng)域相關(guān)技術(shù)隨時間變化的演化機(jī)制。文本發(fā)掘方法,分析網(wǎng)絡(luò)演化過程,從而識別某技術(shù)的演化模式、內(nèi)在聯(lián)系、發(fā)展趨勢等。引文分析方法,對文獻(xiàn)之間的引用關(guān)系進(jìn)行分析,發(fā)現(xiàn)技術(shù)動態(tài)發(fā)展聯(lián)系等。

        3.3 基于圖譜的領(lǐng)域技術(shù)體系構(gòu)建

        基于對領(lǐng)域技術(shù)群和技術(shù)演化的認(rèn)知,采用知識牽引與數(shù)據(jù)驅(qū)動相結(jié)合的方法構(gòu)建技術(shù)體系。首先對技術(shù)群結(jié)構(gòu)進(jìn)行分析,識別出領(lǐng)域技術(shù)關(guān)聯(lián)關(guān)系中強關(guān)聯(lián)節(jié)點;再通過節(jié)點影響力分析等方法,結(jié)合人工輔助矯正技術(shù),從各技術(shù)群中心節(jié)點出發(fā)逐層遍歷網(wǎng)絡(luò)節(jié)點,并將其加到技術(shù)體系輸出列表中,輸出具有多個層級的列表,形成技術(shù)體系。結(jié)合領(lǐng)域?qū)<医?jīng)驗知識,對技術(shù)體系進(jìn)行迭代修正。

        4 實例分析

        中央企業(yè)在國民經(jīng)濟(jì)中占主導(dǎo)地位,也是國家科技創(chuàng)新的主力軍。本文以中央企業(yè)為研究對象,對其研究領(lǐng)域進(jìn)行分析。通過開源數(shù)據(jù)獲取,共收集中央企業(yè)近5年相關(guān)技術(shù)論文16 939篇。通過篩選工業(yè)期刊、技術(shù)術(shù)語識別、關(guān)聯(lián)關(guān)系建立、清洗雜質(zhì)詞等處理,構(gòu)建技術(shù)關(guān)聯(lián)圖譜。該技術(shù)關(guān)聯(lián)圖譜共包含節(jié)點數(shù)6 081個,關(guān)聯(lián)關(guān)系數(shù)7 288條。通過對技術(shù)關(guān)聯(lián)圖譜進(jìn)行技術(shù)群發(fā)現(xiàn),該網(wǎng)絡(luò)可分為6大模塊,在圖1中已用不同顏色進(jìn)行標(biāo)出。各模塊中的中心節(jié)點分別為通信技術(shù)、大數(shù)據(jù)、航空發(fā)動機(jī)、圖像處理、運載火箭技術(shù)、雷達(dá)。這些節(jié)點具有較多連接,即在相關(guān)機(jī)構(gòu)的論文中出現(xiàn)次數(shù)較多。該結(jié)果可反映出,近5年,中央企業(yè)相關(guān)機(jī)構(gòu)研究的熱點技術(shù)為通信技術(shù)、大數(shù)據(jù)技術(shù)、航空發(fā)動機(jī)技術(shù)、圖像處理技術(shù)、運載火箭技術(shù)以及雷達(dá)技術(shù)等。

        鑒于通信領(lǐng)域為中央企業(yè)相關(guān)機(jī)構(gòu)研究的熱點領(lǐng)域之一,且通信技術(shù)對今后社會發(fā)展有著舉足輕重的作用[8-10],本文以通信領(lǐng)域為例,對相關(guān)領(lǐng)域技術(shù)文獻(xiàn)進(jìn)行分析,構(gòu)建其技術(shù)體系。通過定向開源數(shù)據(jù)獲取,共收集《光通信技術(shù)》《通信技術(shù)》《無線電通信技術(shù)》三本期刊近5年的1 881篇論文數(shù)據(jù)。通過技術(shù)術(shù)語識別、關(guān)聯(lián)關(guān)系建立等處理,構(gòu)建通信領(lǐng)域技術(shù)關(guān)聯(lián)圖譜。結(jié)合復(fù)雜網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘等技術(shù),對通信領(lǐng)域技術(shù)關(guān)聯(lián)圖譜進(jìn)行技術(shù)群發(fā)現(xiàn)、技術(shù)演化分析等處理,構(gòu)建通信領(lǐng)域技術(shù)體系,主要結(jié)果如圖2所示。從該結(jié)果可以看出,通信領(lǐng)域近5年來研究的技術(shù)點包括衛(wèi)星通信[11]、網(wǎng)絡(luò)安全[12]、認(rèn)知無線電等[13-14]。衛(wèi)星通信相關(guān)技術(shù)包括高階調(diào)制、跳頻通信、無線通信、故障診斷以及極化調(diào)制等。網(wǎng)絡(luò)安全相關(guān)技術(shù)包括身份認(rèn)證、安全隔離以及網(wǎng)絡(luò)防御等。認(rèn)知無線電相關(guān)技術(shù)包括調(diào)制識別、頻譜感知以及信號檢測等。

        圖2 通信領(lǐng)域技術(shù)體系

        5 結(jié) 語

        領(lǐng)域技術(shù)體系能夠分析領(lǐng)域技術(shù)發(fā)展脈絡(luò),揭示技術(shù)之間的耦合關(guān)系,形成技術(shù)全景畫像,輔助研究人員了解和掌握領(lǐng)域通用技術(shù)、關(guān)鍵技術(shù)等內(nèi)容,助力前沿技術(shù)的超前部署和提前謀劃。本文提出一種基于圖譜的領(lǐng)域技術(shù)體系構(gòu)建方法,并對方法的實際效果進(jìn)行了實例分析。該方法能夠?qū)︻I(lǐng)域科技數(shù)據(jù)進(jìn)行專業(yè)化處理,提高對數(shù)據(jù)的加工能力,實現(xiàn)科技信息數(shù)據(jù)的增值。下一步將采用學(xué)術(shù)論文、專利等為數(shù)據(jù)源,采用多源數(shù)據(jù)進(jìn)行領(lǐng)域技術(shù)體系構(gòu)建,從而使分析結(jié)果更加全面、客觀。

        猜你喜歡
        圖譜關(guān)聯(lián)實體
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        主動對接你思維的知識圖譜
        妺妺窝人体色www看美女| 国产激情小视频在线观看的 | 亚洲精品一区二区网站| 草色噜噜噜av在线观看香蕉| 欧美丰满熟妇aaaaa片| 亚洲成人av一区二区三区| 成a人片亚洲日本久久| 五月色丁香婷婷网蜜臀av| 纯爱无遮挡h肉动漫在线播放| 亚洲一区二区婷婷久久| 91中文在线九色视频| 久久婷婷五月综合97色直播| 天躁夜夜躁狼狠躁| 亚洲无AV码一区二区三区| 成人水蜜桃视频在线观看| 人妻精品久久久久中文字幕| 无码人妻丰满熟妇啪啪7774| 麻豆久久久国内精品| 国内偷拍国内精品多白86| 欧美亚洲国产一区二区三区| 亚洲色欲在线播放一区| 少妇极品熟妇人妻高清| av免费播放网站在线| 亚洲精品乱码久久久久久蜜桃不卡 | 高潮内射双龙视频| 亚洲中文无码av在线| 亚洲一区二区观看网站| 久久婷婷综合缴情亚洲狠狠| 免费a级毛片无码a∨男男| 日本少妇按摩高潮玩弄| 亚洲国产成人av毛片大全| 四虎成人精品国产永久免费无码| 天美麻花果冻视频大全英文版 | 色婷婷久久免费网站| 日本黄色影院一区二区免费看 | 牛鞭伸入女人下身的真视频| 亚洲中文字幕无码不卡电影| 一区二区三区四区草逼福利视频| 欧美天天综合色影久久精品| av一区二区三区亚洲| 亚洲色图偷拍自拍在线|