亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向多源異質(zhì)數(shù)據(jù)源的學(xué)科知識(shí)圖譜構(gòu)建方法①

        2022-01-06 06:04:50李家瑞李華昱
        關(guān)鍵詞:頁(yè)面學(xué)科模型

        李家瑞,李華昱,閆 陽(yáng)

        (中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)

        高校之間的競(jìng)爭(zhēng)主要以學(xué)科競(jìng)爭(zhēng)為基礎(chǔ),學(xué)科的實(shí)力在某種程度上可以代表院校的水平.學(xué)科評(píng)估能夠有效且全面地了解學(xué)科的建設(shè)現(xiàn)況,通過(guò)對(duì)學(xué)科的正確評(píng)估,尋找建設(shè)中存在的問(wèn)題,從而進(jìn)一步明確該學(xué)科的前進(jìn)方向,實(shí)現(xiàn)更好的發(fā)展[1].由于學(xué)科建設(shè)的成果涉及很多方面的內(nèi)容,以分散的文檔、網(wǎng)絡(luò)資源等形式對(duì)學(xué)科相關(guān)信息進(jìn)行存儲(chǔ)和顯示,不能夠全面地展示各項(xiàng)數(shù)據(jù)之間的關(guān)聯(lián),同時(shí)會(huì)使信息統(tǒng)計(jì)和潛在關(guān)系的挖掘較為困難,不利于后續(xù)評(píng)估工作的開(kāi)展.

        知識(shí)圖譜(knowledge graph)作為大數(shù)據(jù)時(shí)代下一種新型高效的知識(shí)組織方式,能夠基于圖對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行知識(shí)融合與關(guān)聯(lián)[2].本文將知識(shí)圖譜技術(shù)應(yīng)用至高校計(jì)算機(jī)學(xué)科領(lǐng)域,首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)和規(guī)則映射的方法,從資源豐富的知網(wǎng)、高校官網(wǎng)、學(xué)科評(píng)估文件等數(shù)據(jù)源中獲取計(jì)算機(jī)學(xué)科相關(guān)的領(lǐng)域知識(shí).針對(duì)可能出現(xiàn)的雜質(zhì)數(shù)據(jù)問(wèn)題,使用微調(diào)后的BERT(Bidirectional Encoder Representations from Transformers)模型進(jìn)行數(shù)據(jù)的分類(lèi),過(guò)濾異類(lèi)數(shù)據(jù).對(duì)于可能存在的人物實(shí)體重名問(wèn)題,提出一套利用Word2Vec進(jìn)行相似度判斷的實(shí)體對(duì)齊方法,解決知識(shí)融合時(shí)的實(shí)例沖突問(wèn)題.最終將知識(shí)導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù)中完成知識(shí)圖譜的存儲(chǔ),并基于此知識(shí)圖譜建立起計(jì)算機(jī)學(xué)科可視化系統(tǒng),實(shí)現(xiàn)對(duì)各類(lèi)數(shù)據(jù)的信息查詢(xún)、關(guān)系展示等多種功能,為上述問(wèn)題提供了較好的解決思路.

        本文的組織結(jié)構(gòu)如下:第1節(jié)介紹知識(shí)圖譜的相關(guān)知識(shí)及本文的研究思路; 第2節(jié)介紹計(jì)算機(jī)學(xué)科本體的構(gòu)建; 第3節(jié)介紹知識(shí)圖譜構(gòu)建的相關(guān)內(nèi)容,主要包括知識(shí)獲取、知識(shí)融合和知識(shí)存儲(chǔ)等過(guò)程; 第4節(jié)介紹計(jì)算機(jī)學(xué)科可視化系統(tǒng)的實(shí)現(xiàn)與性能評(píng)估; 第5節(jié)為總結(jié)與展望.

        1 相關(guān)知識(shí)及研究思路

        知識(shí)圖譜的概念是由Google在2012年首先提出的,目的是改善搜索引擎返回結(jié)果的質(zhì)量,提升用戶(hù)搜索體驗(yàn).根據(jù)覆蓋面的不同,可以將知識(shí)圖譜劃分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜.其中通用知識(shí)圖譜的覆蓋面更廣,涵蓋了現(xiàn)實(shí)世界中的許多常識(shí)性知識(shí),較為知名的大規(guī)模通用知識(shí)圖譜有DBpedia、Wikidata、Freebase等,這些知識(shí)圖譜的規(guī)模都很龐大,但對(duì)抽取知識(shí)的質(zhì)量要求并不嚴(yán)格,包含各個(gè)領(lǐng)域的知識(shí)結(jié)構(gòu)也較為簡(jiǎn)單,所以在應(yīng)用于特定領(lǐng)域時(shí)表現(xiàn)不是很好.領(lǐng)域知識(shí)圖譜則是面向具體的領(lǐng)域構(gòu)建,對(duì)該領(lǐng)域內(nèi)知識(shí)的準(zhǔn)確度和深度等都有著非常嚴(yán)格的要求,能夠?yàn)槟繕?biāo)領(lǐng)域的上層應(yīng)用提供很好的支持.知識(shí)圖譜目前已經(jīng)在醫(yī)療、電商、法律等領(lǐng)域有了較多的應(yīng)用,比如通過(guò)基于知識(shí)圖譜的聊天機(jī)器人,讓用戶(hù)自主了解有關(guān)醫(yī)療保健和藥物方面的知識(shí)[3]; 基于構(gòu)建的盜竊案件法律文書(shū)知識(shí)圖譜,設(shè)計(jì)推理規(guī)則以提供相似案件量刑參考[4].

        知識(shí)圖譜模型以圖論中的圖結(jié)構(gòu)G=(V,E)為基礎(chǔ),其中,V是頂點(diǎn)集,E是邊集.知識(shí)圖譜可以被認(rèn)知為由一條條事實(shí)知識(shí)構(gòu)成,知識(shí)可由三元組(h,r,t)的形式表示,其中,h代表頭實(shí)體,t代表尾實(shí)體,r是兩個(gè)實(shí)體之間的關(guān)系.在構(gòu)建知識(shí)圖譜時(shí),主要有自上而下和自下而上兩種構(gòu)建方式.自上而下方式指直接從較高質(zhì)量的數(shù)據(jù)集中抽取相關(guān)的本體和模式信息; 而自下而上是指從采集到的大量數(shù)據(jù)中提取出資源模式,然后選擇其中置信度高的作為后續(xù)知識(shí)圖譜構(gòu)建的基礎(chǔ)[5].對(duì)于一些較為成熟、知識(shí)體系完備的領(lǐng)域,通??梢圆捎米陨隙碌臉?gòu)建方式,即先對(duì)schema本體進(jìn)行定義,再使用有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督等方法抽取知識(shí),最后結(jié)合知識(shí)融合、知識(shí)推理等機(jī)制使得構(gòu)建出的領(lǐng)域知識(shí)圖譜更加完善.

        知識(shí)圖譜的一般構(gòu)建流程為:首先確定知識(shí)表示模型; 然后根據(jù)數(shù)據(jù)的不同來(lái)源,選擇不同的技術(shù)手段獲取知識(shí),并導(dǎo)入至知識(shí)圖譜數(shù)據(jù)庫(kù)中; 接著綜合利用知識(shí)融合、知識(shí)推理和知識(shí)挖掘等技術(shù)對(duì)構(gòu)建出的知識(shí)圖譜進(jìn)行規(guī)模和質(zhì)量上的提升; 最后根據(jù)目標(biāo)場(chǎng)景的不同需求設(shè)計(jì)有效的知識(shí)訪(fǎng)問(wèn)與呈現(xiàn)途徑,如人機(jī)交互問(wèn)答、圖譜可視化分析、相似推薦等.

        本文對(duì)計(jì)算機(jī)學(xué)科知識(shí)圖譜的總體構(gòu)建流程如圖1所示.首先對(duì)計(jì)算機(jī)學(xué)科領(lǐng)域本體進(jìn)行建模,定義概念之間的語(yǔ)義關(guān)系.對(duì)于不同的數(shù)據(jù)來(lái)源,設(shè)計(jì)相應(yīng)的表格映射與網(wǎng)絡(luò)爬蟲(chóng)算法,并結(jié)合抽取規(guī)則得到領(lǐng)域數(shù)據(jù),然后利用基于BERT的分類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行清洗過(guò)濾,實(shí)現(xiàn)知識(shí)的獲取.在知識(shí)融合的過(guò)程中,通過(guò)訓(xùn)練好的Word2Vec詞向量模型判斷詞相似度,進(jìn)而完成實(shí)體的對(duì)齊.最后將融合整理后的數(shù)據(jù)導(dǎo)入至Neo4j圖數(shù)據(jù)庫(kù)中進(jìn)行知識(shí)存儲(chǔ).基于上述構(gòu)建好的知識(shí)圖譜,本文搭建了計(jì)算機(jī)學(xué)科的可視化系統(tǒng),可以提供基礎(chǔ)信息查詢(xún)、關(guān)鍵詞檢索、遞進(jìn)式檢索和語(yǔ)義搜索等多種功能,同時(shí)以圖形化的方式展示結(jié)果,便于用戶(hù)完成實(shí)體關(guān)系查找和資源統(tǒng)計(jì)等工作.

        圖1 總體構(gòu)建流程

        2 計(jì)算機(jī)學(xué)科本體構(gòu)建

        本體定義了知識(shí)圖譜的類(lèi)集、關(guān)系集、屬性集等,主要強(qiáng)調(diào)概念之間的關(guān)系,是對(duì)知識(shí)圖譜模式層的管理.通過(guò)構(gòu)建本體模型,可以對(duì)實(shí)體、關(guān)系以及實(shí)體屬性等進(jìn)行約束規(guī)范,作為后續(xù)知識(shí)抽取與組織的指導(dǎo)[6].本文以中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)第四輪學(xué)科評(píng)估簡(jiǎn)況表為主要知識(shí)源,結(jié)合具體的計(jì)算機(jī)學(xué)科領(lǐng)域相關(guān)網(wǎng)站,使用OWL語(yǔ)言作為本體描述語(yǔ)言,通過(guò)Protégé本體開(kāi)發(fā)工具,完成高校計(jì)算機(jī)學(xué)科本體的構(gòu)建.

        計(jì)算機(jī)學(xué)科本體中包含的概念及其構(gòu)成的關(guān)系結(jié)構(gòu)通過(guò)Protégé中的OntoGraf工具展示如圖2所示.在此本體模型中,主要包含了教師、校友、在讀本校生、在外留學(xué)生、院校機(jī)構(gòu)、國(guó)家級(jí)項(xiàng)目、省部級(jí)項(xiàng)目、期刊論文、會(huì)議論文和專(zhuān)利等10個(gè)類(lèi),且子類(lèi)概念之間通過(guò)多種關(guān)系相互關(guān)聯(lián).本體中將概念之間的關(guān)聯(lián)關(guān)系表示為語(yǔ)義關(guān)系,在Protégé中也被稱(chēng)為對(duì)象屬性,包括通用語(yǔ)義關(guān)系和自定義語(yǔ)義關(guān)系[6].本文構(gòu)建的本體中包含了多種自定義語(yǔ)義關(guān)系,相關(guān)的概念及詳細(xì)說(shuō)明如表1所示.

        表1 自定義語(yǔ)義關(guān)系表

        圖2 學(xué)科知識(shí)圖譜本體模型

        3 學(xué)科知識(shí)圖譜構(gòu)建

        3.1 知識(shí)獲取

        3.1.1 數(shù)據(jù)來(lái)源

        在知識(shí)圖譜構(gòu)建的過(guò)程中,數(shù)據(jù)是極其重要的底層支持,只有獲取到大量研究領(lǐng)域中的數(shù)據(jù),才能夠建立一個(gè)質(zhì)量較好的知識(shí)圖譜.一般用于構(gòu)建知識(shí)圖譜的知識(shí)來(lái)源可以是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、物聯(lián)網(wǎng)傳感器和人工眾包等[7].通過(guò)調(diào)查發(fā)現(xiàn),高校計(jì)算機(jī)學(xué)科領(lǐng)域內(nèi)的相關(guān)數(shù)據(jù)主要分布在電子文檔以及各種網(wǎng)站中,比如學(xué)科評(píng)估文件、高校官網(wǎng)、國(guó)家知識(shí)基礎(chǔ)設(shè)施等網(wǎng)站,這些數(shù)據(jù)源都分別涵蓋了不同類(lèi)別的學(xué)科領(lǐng)域數(shù)據(jù),包括教師信息、論文、專(zhuān)利、科研項(xiàng)目等.因此本文主要從表2所示的來(lái)源中獲取領(lǐng)域知識(shí).

        表2 知識(shí)圖譜數(shù)據(jù)來(lái)源

        3.1.2 數(shù)據(jù)提取過(guò)程

        對(duì)于以表格文檔形式存儲(chǔ)的類(lèi)結(jié)構(gòu)化數(shù)據(jù),例如高校計(jì)算機(jī)學(xué)科評(píng)估簡(jiǎn)況表,可以采用基于映射的信息抽取方法,即先將待提取的表頭字段與上文構(gòu)建的學(xué)科本體中的數(shù)據(jù)屬性之間建立一一映射關(guān)系,然后使用本體定義的詞匯描述提取出的結(jié)構(gòu)化信息,從而防止屬性名之間同義異名問(wèn)題的發(fā)生,完成對(duì)目標(biāo)表格單元中數(shù)據(jù)的提取.

        對(duì)于存儲(chǔ)于互聯(lián)網(wǎng)網(wǎng)頁(yè)中的數(shù)據(jù),由于不同網(wǎng)頁(yè)的內(nèi)容組織結(jié)構(gòu)具有較大差異,所以在爬取數(shù)據(jù)時(shí),需要根據(jù)不同的目標(biāo)網(wǎng)站制定針對(duì)性的爬蟲(chóng)方法.常用的網(wǎng)絡(luò)爬蟲(chóng)有Requests、Selenium等,不同爬蟲(chóng)的實(shí)現(xiàn)原理也存在差異:Requests通過(guò)初始URL下載網(wǎng)頁(yè),再結(jié)合網(wǎng)頁(yè)解析庫(kù)解析其中包含的標(biāo)簽內(nèi)容,獲取新的URL依次進(jìn)行爬取[8]; 而Selenium則是通過(guò)模擬用戶(hù)的操作行為,比如點(diǎn)擊按鈕、輸入文本等方式,直接運(yùn)行在瀏覽器中,實(shí)現(xiàn)網(wǎng)頁(yè)間的正確跳轉(zhuǎn)[9].不同的實(shí)現(xiàn)原理也決定了每種類(lèi)型爬蟲(chóng)的優(yōu)缺點(diǎn)以及各自的適用場(chǎng)景:Requests爬取的速度快,但當(dāng)跳轉(zhuǎn)頁(yè)面的URL無(wú)法獲取時(shí)會(huì)導(dǎo)致爬取中斷,因此適合于目標(biāo)URL可以獲得的情況; 當(dāng)目標(biāo)URL不可直接獲得時(shí),可以采用Selenium進(jìn)行頁(yè)面跳轉(zhuǎn),但其存在的缺點(diǎn)是需要等待瀏覽器打開(kāi)加載,所以爬取效率遠(yuǎn)不如Requests.

        本文提出了一種網(wǎng)絡(luò)爬蟲(chóng)算法,能夠根據(jù)網(wǎng)頁(yè)組織形式的不同,靈活調(diào)用以上兩種工具,在完成目標(biāo)數(shù)據(jù)獲取的同時(shí),又盡可能地提高爬取效率.具體的爬蟲(chóng)工作流程如圖3所示.

        圖3 爬蟲(chóng)工作流程

        算法在爬取開(kāi)始后需要首先對(duì)網(wǎng)頁(yè)中跳轉(zhuǎn)URL的組織情況進(jìn)行判斷.比如對(duì)于高校的官方網(wǎng)站,其師資列表頁(yè)面內(nèi)一般包含教師詳細(xì)信息頁(yè)面的URL,因此可以通過(guò)以下步驟爬取:(1)從師資列表頁(yè)面URL開(kāi)始,通過(guò)Requests庫(kù)獲取頁(yè)面內(nèi)容;(2)按照定義好的頁(yè)面抽取規(guī)則,取出教師詳細(xì)信息頁(yè)面URL并放入待抓取URL隊(duì)列中,若URL不完整,則根據(jù)相似頁(yè)面的URL構(gòu)造對(duì)缺失字段進(jìn)行補(bǔ)充;(3)根據(jù)待抓取URL隊(duì)列下載詳細(xì)信息頁(yè)面,從中提取目標(biāo)數(shù)據(jù),并保存至數(shù)據(jù)存儲(chǔ)文件中;(4)整個(gè)過(guò)程循環(huán)執(zhí)行,直到隊(duì)列中的所有URL爬取完畢[8].而對(duì)于中國(guó)知網(wǎng)等一些不能直接獲得跳轉(zhuǎn)頁(yè)面URL的網(wǎng)站,可以選擇Selenium工具爬取,實(shí)現(xiàn)流程為:(1)配置URL地址及相關(guān)參數(shù),調(diào)用Selenium的webdriver打開(kāi)瀏覽器頁(yè)面;(2)等待頁(yè)面加載完成,定位搜索框與按鈕元素,完成搜索條件輸入后,模擬用戶(hù)點(diǎn)擊按鈕進(jìn)行跳轉(zhuǎn);(3)頁(yè)面加載成功后,使用XPath提取目標(biāo)數(shù)據(jù),并進(jìn)行數(shù)據(jù)持久化操作;(4)重復(fù)以上過(guò)程,直至滿(mǎn)足爬取數(shù)量或所有頁(yè)面爬取完畢[9].

        3.1.3 數(shù)據(jù)清洗

        考慮到在進(jìn)行數(shù)據(jù)爬取時(shí)會(huì)出現(xiàn)雜質(zhì)數(shù)據(jù)的問(wèn)題,例如定位至錯(cuò)誤的HTML標(biāo)簽,或由于解析出錯(cuò)導(dǎo)致文本缺失等,因此有必要在存儲(chǔ)數(shù)據(jù)前進(jìn)行數(shù)據(jù)清洗操作.本文通過(guò)實(shí)驗(yàn)比較TextCNN和BERT兩種模型對(duì)相關(guān)學(xué)科數(shù)據(jù)分類(lèi)的結(jié)果,設(shè)計(jì)出一種分類(lèi)策略實(shí)現(xiàn)對(duì)爬蟲(chóng)數(shù)據(jù)的清洗過(guò)程.

        文本分類(lèi)模型TextCNN是由Kim等在2014年提出的,其目的是對(duì)卷積神經(jīng)網(wǎng)絡(luò)CNN進(jìn)行變形,然后引入至文本分類(lèi)的任務(wù)中[10].TextCNN的網(wǎng)絡(luò)結(jié)構(gòu)分為4層,包括嵌入層、卷積層、最大池化層和全連接層,通過(guò)輸入待分類(lèi)文本的詞向量矩陣,經(jīng)過(guò)卷積和池化操作后,輸出該文本對(duì)應(yīng)每個(gè)類(lèi)別的概率分布[11,12].BERT主要基于雙向Transformer編碼器結(jié)構(gòu)實(shí)現(xiàn),同時(shí)利用遮蔽語(yǔ)言模型(MLM)和下一句預(yù)測(cè)(NSP)兩個(gè)無(wú)監(jiān)督任務(wù)進(jìn)行聯(lián)合預(yù)訓(xùn)練,使其經(jīng)過(guò)特定的微調(diào)操作后即可遷移到下游自然語(yǔ)言處理任務(wù)中,比如內(nèi)容檢測(cè)[13]、命名實(shí)體識(shí)別[14]、文本分類(lèi)[15,16]等.

        為了確定使用哪種分類(lèi)模型對(duì)學(xué)科數(shù)據(jù)的清洗效果更好,以清洗論文專(zhuān)利類(lèi)數(shù)據(jù)為例進(jìn)行對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)數(shù)據(jù)集中以包括論文專(zhuān)利的科研成果類(lèi)數(shù)據(jù)為分類(lèi)的正樣本,以非論文專(zhuān)利類(lèi)數(shù)據(jù)作為負(fù)樣本,總共包含約13 000條數(shù)據(jù),取其中的80%作為訓(xùn)練集、20%作為測(cè)試集對(duì)兩類(lèi)模型進(jìn)行訓(xùn)練和測(cè)試.

        對(duì)于TextCNN模型的嵌入層,首先對(duì)文本數(shù)據(jù)進(jìn)行分詞處理,然后使用基于26 GB(800多萬(wàn)條)百度百科詞條、13 GB(400多萬(wàn)條)搜狐新聞和229 GB小說(shuō)合并的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練所得到的Word2Vec詞向量模型[17],對(duì)每個(gè)文本分詞詞語(yǔ)生成其128維嵌入表示,整合后構(gòu)成詞向量矩陣作為輸入數(shù)據(jù).在卷積層中,設(shè)置卷積核尺寸為[3,4,5],每個(gè)尺寸的卷積核個(gè)數(shù)為64,提取輸入矩陣不同的feature map特征.最大池化層選擇1-max pooling方式,抽取feature map向量中的最大值,即捕獲其中最重要的特征.最后將經(jīng)卷積池化獲取的特征傳至Softmax層,得到文本的分類(lèi)標(biāo)簽結(jié)果.本文設(shè)置TextCNN模型訓(xùn)練的批次大小值為64,測(cè)試過(guò)程中不同迭代步數(shù)的準(zhǔn)確率變化如圖4所示.

        圖4 TextCNN模型測(cè)試結(jié)果

        對(duì)于BERT模型,本文采用在中文維基百科上進(jìn)行預(yù)訓(xùn)練后得到的Bert-base-Chinese模型作為基準(zhǔn)模型,模型總共包含12層,隱層為768維,使用12頭模式,共1億多個(gè)參數(shù); 在微調(diào)模型時(shí)使用與TextCNN模型相同的數(shù)據(jù)集,設(shè)置學(xué)習(xí)率為2e-5,批量學(xué)習(xí)的batchsize為32,Epoch循環(huán)次數(shù)為5次,最終得到的測(cè)試準(zhǔn)確率如圖5所示.

        圖5 BERT模型測(cè)試結(jié)果

        對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在此場(chǎng)景中BERT的測(cè)試準(zhǔn)確率能夠達(dá)到0.91左右,高于TextCNN模型.因此本文選擇基于BERT模型的方法,以Bert-base-Chinese作為基準(zhǔn)模型進(jìn)行微調(diào)操作,再對(duì)爬取到的相關(guān)學(xué)科數(shù)據(jù)按類(lèi)分別進(jìn)行清洗,清洗前后的各類(lèi)數(shù)據(jù)量統(tǒng)計(jì)如表3所示.

        表3 清洗前后各類(lèi)數(shù)據(jù)量統(tǒng)計(jì)

        3.2 知識(shí)融合

        在對(duì)不同來(lái)源的知識(shí)進(jìn)行融合時(shí),容易出現(xiàn)實(shí)例異構(gòu)問(wèn)題,即同名實(shí)體可能指向不同對(duì)象,而不同名實(shí)體可能指向相同對(duì)象.因此需要通過(guò)實(shí)體對(duì)齊技術(shù),確定不同信息來(lái)源中的兩個(gè)實(shí)體是否指向現(xiàn)實(shí)世界中的同一個(gè)對(duì)象,若是則在實(shí)體間構(gòu)建相應(yīng)的對(duì)齊關(guān)系,完成知識(shí)的融合.通過(guò)從知網(wǎng)、SooPAT等數(shù)據(jù)源中采集高校計(jì)算機(jī)學(xué)科領(lǐng)域的相關(guān)數(shù)據(jù),在構(gòu)建知識(shí)圖譜的過(guò)程中會(huì)出現(xiàn)人物方面的歧義問(wèn)題.比如高校教師在不同的時(shí)間節(jié)點(diǎn)發(fā)表論文、發(fā)明專(zhuān)利等科研成果,卻由于工作調(diào)動(dòng)等情況被判定為不同的人物實(shí)體; 或者同一高校內(nèi)的重名教師被錯(cuò)誤指向?yàn)橥粚?shí)體,從而造成科研成果信息的錯(cuò)誤統(tǒng)計(jì).因此為了構(gòu)建準(zhǔn)確的高校計(jì)算機(jī)學(xué)科知識(shí)圖譜,需要設(shè)計(jì)出一種適合的實(shí)體對(duì)齊算法來(lái)解決上述問(wèn)題.本文采用的實(shí)體對(duì)齊算法如算法1所示.

        算法首先從多數(shù)據(jù)源中提取出重名人物得到待對(duì)齊實(shí)體集合; 然后,通過(guò)人物的基本信息進(jìn)行初步篩選,基本信息包括性別、民族、出生年月等這些不易改變的屬性信息; 最后,根據(jù)人物發(fā)表論文或申請(qǐng)專(zhuān)利中的關(guān)鍵詞集合,使用Word2Vec獲得對(duì)應(yīng)詞向量并計(jì)算詞向量間的余弦相似度[18],若相似度超過(guò)自定義閾值,則可認(rèn)為二者研究方向相同,指代同一實(shí)體.

        針對(duì)如何確定相似度閾值的問(wèn)題,本文設(shè)計(jì)了以下實(shí)驗(yàn)進(jìn)行研究.首先選取部分高校教師的論文信息作為原始數(shù)據(jù),每位教師隨機(jī)選取3篇論文的關(guān)鍵詞組成其研究方向關(guān)鍵詞集合,假設(shè)某位教師研究方向關(guān)鍵詞集合的長(zhǎng)度為m,則集合可以表示為:

        然后將該位教師余下的論文分別與該集合組成對(duì)比測(cè)試組,假設(shè)余下的某篇論文包含的關(guān)鍵詞個(gè)數(shù)為n,則對(duì)比的關(guān)鍵詞集合為:

        之后使用Word2Vec模型得到關(guān)鍵詞集合對(duì)應(yīng)的詞向量,研究方向關(guān)鍵詞集合的詞向量表示為:

        對(duì)比的關(guān)鍵詞集合的詞向量表示為:

        最后計(jì)算兩個(gè)關(guān)鍵詞集合之間詞向量余弦值的平均值,將其作為該篇論文與對(duì)應(yīng)教師研究方向之間的相似度:

        兩個(gè)詞向量之間的余弦函數(shù)cos(?)定義為:

        其中,L為通過(guò)Word2Vec得到的詞向量的維度,Vi為詞向量的第i個(gè)分量.

        本文隨機(jī)抽取了共2400組測(cè)試數(shù)據(jù),最終觀(guān)察到關(guān)鍵詞相似度的數(shù)值分布如圖6所示.從圖6中可以看出,相同研究方向的論文關(guān)鍵詞相似度都在0.5以上,因此本文在實(shí)體對(duì)齊算法中設(shè)置相似度閾值為0.5.

        圖6 關(guān)鍵詞相似度分布

        為了驗(yàn)證算法的可行性,本文選取了數(shù)位重名但研究方向不同的教師,從知網(wǎng)上爬取其發(fā)表的論文信息,取同一教師的論文關(guān)鍵詞集合作為正例數(shù)據(jù),取不同教師的論文關(guān)鍵詞集合作為反例數(shù)據(jù),構(gòu)成了包含800余條數(shù)據(jù)的測(cè)試數(shù)據(jù)集.然后從中隨機(jī)抽取200、400、600、800條數(shù)據(jù),與人工標(biāo)注的結(jié)果進(jìn)行準(zhǔn)確率的分析計(jì)算.實(shí)驗(yàn)結(jié)果如表4所示,4次隨機(jī)測(cè)試的準(zhǔn)確率均在90%以上,說(shuō)明基于Word2Vec的人物實(shí)體對(duì)齊方法識(shí)別出的錯(cuò)誤數(shù)據(jù)較少,可以在高校學(xué)科領(lǐng)域的知識(shí)融合場(chǎng)景中使用.

        表4 人物實(shí)體對(duì)齊測(cè)試結(jié)果

        3.3 知識(shí)存儲(chǔ)

        經(jīng)過(guò)清洗對(duì)齊處理后的數(shù)據(jù),其內(nèi)容和格式已經(jīng)滿(mǎn)足學(xué)科知識(shí)圖譜構(gòu)建的要求,下一步的工作就是把這些數(shù)據(jù)導(dǎo)入到底層數(shù)據(jù)庫(kù)中.Neo4j作為一種高性能的非關(guān)系型圖數(shù)據(jù)庫(kù),將數(shù)據(jù)存儲(chǔ)在一個(gè)超大型網(wǎng)絡(luò)上,非常適用于對(duì)基于圖結(jié)構(gòu)的知識(shí)圖譜進(jìn)行存儲(chǔ)[19].本文通過(guò)使用Python支持的Py2Neo第三方庫(kù)提供的操作函數(shù),將各類(lèi)數(shù)據(jù)以節(jié)點(diǎn)和邊等形式導(dǎo)入Neo4j中,并且可以進(jìn)行對(duì)應(yīng)的增刪改查等操作.

        最終構(gòu)建完成的學(xué)科知識(shí)圖譜的數(shù)據(jù)規(guī)模統(tǒng)計(jì)如表5所示,圖譜中的各類(lèi)知識(shí)形成了一幅龐大且錯(cuò)綜復(fù)雜的多關(guān)系網(wǎng)絡(luò),有助于后續(xù)各項(xiàng)功能的實(shí)現(xiàn)及性能的優(yōu)化.

        表5 計(jì)算機(jī)學(xué)科知識(shí)圖譜數(shù)據(jù)統(tǒng)計(jì)

        4 可視化系統(tǒng)實(shí)現(xiàn)

        本文基于上述知識(shí)圖譜開(kāi)發(fā)了一個(gè)高校計(jì)算機(jī)學(xué)科的可視化系統(tǒng),系統(tǒng)采用B/S(Browser/Server)前后端分離的結(jié)構(gòu)模式進(jìn)行實(shí)現(xiàn),通過(guò)Python的Flask框架搭建.前端中使用Echarts工具實(shí)現(xiàn)數(shù)據(jù)的圖形顯示效果[20],通過(guò)文本、力導(dǎo)向圖等多種形式對(duì)學(xué)科領(lǐng)域知識(shí)進(jìn)行可視化顯示.

        4.1 系統(tǒng)功能

        本可視化系統(tǒng)的功能主要包括基礎(chǔ)信息查詢(xún)、關(guān)鍵詞檢索、遞進(jìn)式檢索和語(yǔ)義搜索等,可以從實(shí)體、屬性、關(guān)系等多個(gè)維度完成知識(shí)的搜索與展示.

        4.1.1 基礎(chǔ)信息查詢(xún)

        基礎(chǔ)信息查詢(xún)功能的目的是統(tǒng)計(jì)與被查詢(xún)實(shí)體有關(guān)的所有實(shí)體和關(guān)聯(lián)關(guān)系,然后以力導(dǎo)向圖的形式將實(shí)體關(guān)系通過(guò)圖形界面表示出來(lái).同時(shí)使用符合圖數(shù)據(jù)庫(kù)存儲(chǔ)結(jié)構(gòu)的推薦算法,選出部分與被查詢(xún)實(shí)體相似度最高的同類(lèi)實(shí)體,作為用戶(hù)可能感興趣的推薦信息.功能實(shí)現(xiàn)過(guò)程的算法如算法2所示.

        此功能主要包含直聯(lián)查詢(xún)和相似推薦兩個(gè)數(shù)據(jù)處理模塊.在直聯(lián)查詢(xún)模塊中,先根據(jù)用戶(hù)的輸入構(gòu)造相應(yīng)的匹配路徑[21],然后通過(guò)Cypher語(yǔ)句從Neo4j圖數(shù)據(jù)庫(kù)中查找所有與其有關(guān)的實(shí)體和其間關(guān)系.在相似推薦模塊中,首先構(gòu)造多跳匹配路徑“(qe:Stype)-[r1]-(e)-[r2]-(me:Stype)”,其中qe指被查詢(xún)實(shí)體,me指匹配到的實(shí)體,Stype表示兩者為同一數(shù)據(jù)類(lèi)型,r1、r2和e代表不做特定要求的關(guān)系和實(shí)體; 之后統(tǒng)計(jì)出匹配到的所有實(shí)體和對(duì)應(yīng)的路徑條數(shù),按數(shù)量由多到少進(jìn)行排序,選擇其中的Top-k個(gè)實(shí)體作為相似推薦(本文所取的k值為3,即最多推薦3個(gè)相似實(shí)體).最后由得到的數(shù)據(jù)屬性值確定節(jié)點(diǎn)和連線(xiàn)的類(lèi)型和標(biāo)簽值,傳入Echarts的繪圖函數(shù)完成圖形的繪制與顯示.

        圖7所示為輸入“中國(guó)石油大學(xué)(華東)”的信息查詢(xún)結(jié)果,界面中包含與此實(shí)體直接相連的各類(lèi)實(shí)體節(jié)點(diǎn)以及其間關(guān)系的說(shuō)明,同時(shí)也為用戶(hù)推薦出最相關(guān)的同類(lèi)實(shí)體“中國(guó)科學(xué)院計(jì)算技術(shù)研究所”“中國(guó)海洋大學(xué)”和“南開(kāi)大學(xué)”.力導(dǎo)向圖支持放大、縮小以及圖形的移動(dòng),當(dāng)點(diǎn)擊界面上方的類(lèi)別標(biāo)簽時(shí),能夠?qū)υ擃?lèi)所有的實(shí)體節(jié)點(diǎn)進(jìn)行隱藏或再現(xiàn),便于用戶(hù)觀(guān)察和統(tǒng)計(jì).左鍵點(diǎn)擊節(jié)點(diǎn)時(shí),可以跳轉(zhuǎn)至該實(shí)體的詳細(xì)屬性頁(yè)面,圖8所示為“大數(shù)據(jù)環(huán)境下的油氣開(kāi)采創(chuàng)新方法研究與應(yīng)用示范”項(xiàng)目的詳細(xì)屬性顯示.

        圖7 “中國(guó)石油大學(xué)(華東)”查詢(xún)結(jié)果

        圖8 詳細(xì)屬性顯示界面

        4.1.2 關(guān)鍵詞檢索

        關(guān)鍵詞檢索功能會(huì)顯示所有與輸入關(guān)鍵詞相關(guān)的實(shí)體節(jié)點(diǎn),同時(shí)支持多關(guān)鍵詞檢索的任務(wù).系統(tǒng)首先利用哈工大LTP語(yǔ)言處理工具對(duì)用戶(hù)輸入的關(guān)鍵詞進(jìn)行詞性標(biāo)注,包括人物、時(shí)間、名詞等詞性類(lèi)型,然后根據(jù)詞性分布構(gòu)造相應(yīng)的正則表達(dá)式,從知識(shí)圖譜中查找符合條件的實(shí)體.

        例如,當(dāng)輸入多個(gè)關(guān)鍵詞為“神經(jīng)網(wǎng)絡(luò)”“識(shí)別”“2019年”時(shí),LTP詞性標(biāo)注模塊將它們分別標(biāo)注為“n”“v”“nt”,對(duì)應(yīng)構(gòu)造出的正則表達(dá)式即為“(?=.*[神 ][經(jīng) ][網(wǎng) ][絡(luò) ]).*”“(?=.*[識(shí) ][別 ]).*” “(?=.*[2][0][1][9]).*”.之后將這些正則表達(dá)式作為屬性字段組成Cypher語(yǔ)句進(jìn)行檢索,返回滿(mǎn)足條件的實(shí)體,最終結(jié)果如圖9所示.

        圖9 多關(guān)鍵詞檢索結(jié)果

        4.1.3 遞進(jìn)式檢索

        右鍵點(diǎn)擊圖中任一節(jié)點(diǎn),即可進(jìn)入以該實(shí)體為中心的下一層知識(shí)圖譜,實(shí)現(xiàn)知識(shí)圖譜的遞進(jìn)式查詢(xún).例如當(dāng)點(diǎn)擊圖10(a)中的節(jié)點(diǎn)“IT類(lèi)專(zhuān)業(yè)多層次實(shí)踐創(chuàng)新平臺(tái)建設(shè)”后,系統(tǒng)頁(yè)面彈出確認(rèn)提示框,用戶(hù)確認(rèn)后可跳轉(zhuǎn)至以該節(jié)點(diǎn)為中心的信息展示界面,遞進(jìn)式檢索結(jié)果如圖10(b)所示.

        圖10 遞進(jìn)式檢索功能展示

        4.1.4 語(yǔ)義搜索

        語(yǔ)義搜索通過(guò)挖掘輸入問(wèn)題背后的語(yǔ)義,使搜索的結(jié)果更加符合用戶(hù)的真實(shí)意圖.在進(jìn)行語(yǔ)義搜索的過(guò)程中,首先使用LTP分詞工具對(duì)輸入問(wèn)題和定義好的問(wèn)題模板進(jìn)行分詞,通常分詞工具對(duì)于專(zhuān)有領(lǐng)域中的實(shí)體和概念可能會(huì)出現(xiàn)過(guò)度劃分等現(xiàn)象[22],對(duì)后續(xù)搜索造成困擾,因此本文通過(guò)增加自定義詞典的方式來(lái)達(dá)到準(zhǔn)確分詞的目的.然后,分別將每一個(gè)問(wèn)題模板和輸入問(wèn)題結(jié)合進(jìn)行One-Hot編碼,得到此模板和輸入問(wèn)題的詞向量表示,通過(guò)計(jì)算兩者詞向量之間的余弦相似度,選擇相似性最高的作為該輸入問(wèn)題的類(lèi)型.最后將根據(jù)模板和問(wèn)題關(guān)鍵詞查詢(xún)到的相關(guān)數(shù)據(jù)返回至前端界面進(jìn)行整合顯示.

        圖11為問(wèn)題“鄭秋梅老師和黃庭培老師共同發(fā)表的期刊論文情況”的搜索結(jié)果,界面中通過(guò)圖形繪制直觀(guān)展示了兩位老師共同發(fā)表的期刊論文和合作關(guān)系,實(shí)現(xiàn)了語(yǔ)義搜索的目標(biāo).

        圖11 語(yǔ)義搜索結(jié)果

        4.2 系統(tǒng)性能評(píng)估

        為了驗(yàn)證本系統(tǒng)的性能能否滿(mǎn)足用戶(hù)實(shí)際使用的要求,在學(xué)科知識(shí)圖譜可視化系統(tǒng)構(gòu)建完成后,邀請(qǐng)了數(shù)十位高校計(jì)算機(jī)學(xué)科的相關(guān)人員進(jìn)行測(cè)試.測(cè)試過(guò)程根據(jù)測(cè)試方法的不同分為兩組:一組采用α測(cè)試方法,即給予參與測(cè)試者一定的系統(tǒng)使用說(shuō)明與操作指導(dǎo),主要是對(duì)可視化系統(tǒng)的可靠性進(jìn)行驗(yàn)證; 另一組采用β測(cè)試方法,讓參與測(cè)試者在無(wú)任何指導(dǎo)和幫助的情況下自主探索系統(tǒng)的功能,主要是對(duì)系統(tǒng)的健壯性和易用性進(jìn)行驗(yàn)證.最終α測(cè)試組的總體反饋為本系統(tǒng)的數(shù)據(jù)覆蓋范圍較為廣泛,交互友好,可靠性強(qiáng); β測(cè)試組的總體反饋為系統(tǒng)易于上手和操作,且無(wú)異常情況產(chǎn)生.所有參與測(cè)試者的平均滿(mǎn)意度達(dá)到91.67%,證明本可視化系統(tǒng)能夠達(dá)到課題的研究目標(biāo)要求.

        同時(shí)本系統(tǒng)也作為輔助工具參與了第5輪學(xué)科評(píng)估材料的準(zhǔn)備工作.其中,相關(guān)專(zhuān)家主要使用本系統(tǒng)對(duì)學(xué)科評(píng)估材料中的部分?jǐn)?shù)據(jù)進(jìn)行對(duì)比驗(yàn)證,以及時(shí)發(fā)現(xiàn)材料中的錯(cuò)誤內(nèi)容.這種工作模式不僅能夠增加了評(píng)估材料的準(zhǔn)確度,而且加快了材料準(zhǔn)備的速度,提升了工作效率,使得本系統(tǒng)在實(shí)際的應(yīng)用場(chǎng)景中也取得了令人滿(mǎn)意的效果.

        5 結(jié)束語(yǔ)

        本文就高校計(jì)算機(jī)學(xué)科領(lǐng)域進(jìn)行研究,給出了一套完整的領(lǐng)域知識(shí)圖譜構(gòu)建方案,并通過(guò)實(shí)驗(yàn)結(jié)果證明了該方案的可用性.針對(duì)多源異質(zhì)的領(lǐng)域數(shù)據(jù),設(shè)計(jì)基于規(guī)則映射與改進(jìn)網(wǎng)絡(luò)爬蟲(chóng)相結(jié)合的數(shù)據(jù)獲取方法,然后使用fine-tuning后的BERT分類(lèi)模型對(duì)數(shù)據(jù)進(jìn)行清洗過(guò)濾.對(duì)于不同來(lái)源知識(shí)的融合問(wèn)題,提出一種基于Word2Vec的實(shí)體對(duì)齊方法,有效解決融合過(guò)程中的數(shù)據(jù)沖突問(wèn)題.最后將知識(shí)導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),并基于此知識(shí)圖譜完成了計(jì)算機(jī)學(xué)科可視化系統(tǒng)的實(shí)現(xiàn),為以后的學(xué)科評(píng)估工作提供方便快捷的資源查詢(xún)與關(guān)系展示等應(yīng)用服務(wù).由于計(jì)算機(jī)學(xué)科的數(shù)據(jù)來(lái)源中還包括一些非結(jié)構(gòu)化的數(shù)據(jù),后續(xù)工作中將完善有關(guān)非結(jié)構(gòu)化文本的知識(shí)抽取方法,使構(gòu)建的學(xué)科知識(shí)圖譜更加全面.

        猜你喜歡
        頁(yè)面學(xué)科模型
        大狗熊在睡覺(jué)
        一半模型
        刷新生活的頁(yè)面
        【學(xué)科新書(shū)導(dǎo)覽】
        土木工程學(xué)科簡(jiǎn)介
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        “超學(xué)科”來(lái)啦
        3D打印中的模型分割與打包
        論新形勢(shì)下統(tǒng)一戰(zhàn)線(xiàn)學(xué)學(xué)科在統(tǒng)戰(zhàn)工作實(shí)踐中的創(chuàng)新
        精品国产亚洲av高清日韩专区| 亚洲熟妇中文字幕日产无码 | 久久午夜无码鲁丝片午夜精品| 中文日本强暴人妻另类视频| 美丽小蜜桃1一3在线观看| 少妇连续高潮爽到抽搐| 边添小泬边狠狠躁视频| 伊人久久大香线蕉av色| 久久人人爽人人爽人人片av东京热| 自拍偷自拍亚洲精品情侣| 少妇内射视频播放舔大片| 亚洲成a人片在线网站| 欧美综合图区亚洲综合图区| 青青草一级视频在线观看| 韩国黄色三级一区二区| 中文字幕av长濑麻美| 18国产精品白浆在线观看免费| 北条麻妃国产九九九精品视频| 中日韩精品视频在线观看| 免费的毛片视频| 亚洲午夜看片无码| 亚洲综合免费在线视频| 国产精品毛片一区二区三区| 精品少妇一区二区av免费观看 | 在线综合网| 激情中文丁香激情综合| 日本大胆人体亚裔一区二区| 高清国产国产精品三级国产av| 丰满少妇被粗大猛烈进人高清| 亚洲色无码国产精品网站可下载| 中文字幕熟妇人妻在线视频| 亚洲国产夜色在线观看| 中文字幕一区二区在线| 国产午夜免费啪视频观看| 色爱情人网站| 性色av无码一区二区三区人妻 | 国产男女无遮挡猛进猛出| 免费人成视频在线观看网站| 狠狠躁狠狠躁东京热无码专区| 青青草极品视频在线播放| 日本高清不卡二区三区|