亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        KECVS:一個(gè)面向?qū)I(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注及可視化系統(tǒng)

        2017-08-12 12:22:05伍思杰蔡瑞初郝志峰王麗娟
        關(guān)鍵詞:可視化方法模型

        溫 雯 伍思杰 蔡瑞初 郝志峰,2 王麗娟

        1(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006) 2(佛山科學(xué)技術(shù)學(xué)院數(shù)學(xué)與大數(shù)據(jù)學(xué)院 廣東 佛山 528000)

        ?

        KECVS:一個(gè)面向?qū)I(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注及可視化系統(tǒng)

        溫 雯1伍思杰1蔡瑞初1郝志峰1,2王麗娟1

        1(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 廣東 廣州 510006)2(佛山科學(xué)技術(shù)學(xué)院數(shù)學(xué)與大數(shù)據(jù)學(xué)院 廣東 佛山 528000)

        知識實(shí)體的類型標(biāo)注是專業(yè)文獻(xiàn)結(jié)構(gòu)化管理和知識脈絡(luò)挖掘中的一個(gè)重要任務(wù)。由于專業(yè)文獻(xiàn)的知識實(shí)體具有專業(yè)性強(qiáng)、類型多樣、隨時(shí)間變化的特點(diǎn),如何在無監(jiān)督的情況下對其進(jìn)行類型標(biāo)簽抽取、實(shí)體類型標(biāo)注及知識關(guān)系挖掘具有重要的意義。設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向?qū)I(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注及可視化系統(tǒng),提供文獻(xiàn)數(shù)據(jù)的實(shí)體識別、實(shí)體類型標(biāo)注、知識實(shí)體關(guān)系圖構(gòu)建及其可視化等功能,幫助科研工作者更加便捷、直觀、準(zhǔn)確地把握知識關(guān)系和研究熱點(diǎn)。

        信息抽取 實(shí)體類型標(biāo)注 知識關(guān)系挖掘 數(shù)據(jù)可視化 專業(yè)文獻(xiàn)

        0 引 言

        近年來,隨著互聯(lián)網(wǎng)的快速普及和硬件存儲技術(shù)的高速發(fā)展,人們可以輕松地通過眾多的學(xué)術(shù)數(shù)據(jù)庫或?qū)W術(shù)搜索引擎獲取到所需的專業(yè)文獻(xiàn),如Google Scholar、百度學(xué)術(shù)、CNKI、萬方數(shù)據(jù)等。由此看來,從互聯(lián)網(wǎng)上獲取海量的電子文獻(xiàn)資源的確成為了一件輕松簡單的事情。但是隨之出現(xiàn)的問題是,現(xiàn)有的知識服務(wù)已經(jīng)無法滿足人們對信息“快速、簡單、準(zhǔn)確”的需求。面對這樣的知識服務(wù)需求,我們有必要針對這類專業(yè)文獻(xiàn)進(jìn)行更深層次的信息抽取與文本挖掘,建立結(jié)構(gòu)化的專業(yè)知識體系,以輔助用戶進(jìn)行文獻(xiàn)檢索。其中,實(shí)體類型標(biāo)注是信息抽取任務(wù)中一個(gè)重要的子任務(wù),準(zhǔn)確的實(shí)體類型信息可以實(shí)現(xiàn)對知識點(diǎn)的有效分層和分類,還可以基于實(shí)體類型進(jìn)一步挖掘其中的知識關(guān)系,從而構(gòu)造知識脈絡(luò)圖。已有的研究大多針對互聯(lián)網(wǎng)上常見的新聞文本[1]、微博[2]、Tweets[3]、Facebook等文本進(jìn)行實(shí)體抽取,而針對專業(yè)文獻(xiàn)這類特殊文本的研究還比較少,因此有必要對這類文本進(jìn)行更深入的研究。此外,實(shí)體類型標(biāo)注是實(shí)體識別的一個(gè)重要組成部分,對后續(xù)實(shí)體關(guān)系的抽取也具有重要的意義[4]。

        專業(yè)領(lǐng)域的信息抽取已經(jīng)有一些相關(guān)的研究,如Yoshida等針對生物醫(yī)學(xué)領(lǐng)域?qū)嶓w的研究[5],毛存禮等對有色金屬領(lǐng)域?qū)嶓w的研究[6],還有針對商務(wù)領(lǐng)域產(chǎn)品領(lǐng)域?qū)嶓w的研究[7]等。這些研究都是針對不同領(lǐng)域的專業(yè)實(shí)體進(jìn)行實(shí)體識別,但是卻缺少更深一層的實(shí)體類型分析與挖掘,也沒有設(shè)計(jì)和實(shí)現(xiàn)一個(gè)真實(shí)可用的實(shí)體類型標(biāo)注及可視化系統(tǒng)。還有一部分工作,主要是通過分析網(wǎng)絡(luò)上的大量命名實(shí)體,實(shí)現(xiàn)了上位詞/類別挖掘系統(tǒng)[8]。但是,這些工作缺少對專業(yè)文獻(xiàn)這類蘊(yùn)含復(fù)雜且豐富知識點(diǎn)的數(shù)據(jù)的針對性研究,并不能切實(shí)解決專業(yè)領(lǐng)域知識服務(wù)的迫切需求。

        針對以上問題,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向?qū)I(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注及可視化系統(tǒng)KECVS(Knowledge-Entity Categorization and Visualization System)。該系統(tǒng)能夠根據(jù)用戶查詢的實(shí)體關(guān)鍵詞進(jìn)行實(shí)體類型標(biāo)注,然后可視化地呈現(xiàn)出知識實(shí)體之間的類型關(guān)系、層次關(guān)系和時(shí)序演變模式。系統(tǒng)實(shí)施簡單,標(biāo)注準(zhǔn)確率高,具有很強(qiáng)的實(shí)際價(jià)值和現(xiàn)實(shí)意義。另外,提出的一種面向?qū)I(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)簽抽取及標(biāo)注方法可以有效地對專業(yè)領(lǐng)域的知識實(shí)體進(jìn)行類型標(biāo)注。同時(shí)也得到比較全面的類型標(biāo)簽集合,解決了人工預(yù)定義實(shí)體類型的局限性和主觀性問題,有助于專業(yè)知識網(wǎng)絡(luò)的結(jié)構(gòu)化實(shí)現(xiàn)。

        1 系統(tǒng)架構(gòu)

        如圖1所示,KECVS系統(tǒng)分為4層邏輯結(jié)構(gòu),自底向上分別是:數(shù)據(jù)獲取層、數(shù)據(jù)處理層、存儲層和應(yīng)用層。各層的功能依次遞進(jìn),緊密相扣: 1) 最底層為數(shù)據(jù)獲取層,它的功能是數(shù)據(jù)源的獲取和存儲,主要包括在線爬蟲及其管理模塊、頁面解析模塊和本地文獻(xiàn)存儲模塊。2) 數(shù)據(jù)處理層,主要為上面兩層提供核心處理算法,包括有知識實(shí)體邊界識別、類型標(biāo)簽抽取方法及基于多標(biāo)簽加權(quán)標(biāo)簽傳播的類型標(biāo)注方法等關(guān)鍵技術(shù)的實(shí)現(xiàn)。3) 中間的存儲層主要是把處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)庫存儲并建立索引,然后對數(shù)據(jù)進(jìn)行知識實(shí)體關(guān)系圖建模,并轉(zhuǎn)換成JSON格式數(shù)據(jù)供應(yīng)用層實(shí)現(xiàn)可視化。4) 最上面的應(yīng)用層主要是與用戶進(jìn)行可視化交互,功能是根據(jù)用戶的輸入反饋出不同的可視化關(guān)系圖,包括有層次圖、關(guān)系圖、熱點(diǎn)圖等。以下對部分重要模塊進(jìn)行介紹。

        圖1 KECVS系統(tǒng)架構(gòu)圖

        1.1 在線爬蟲及其管理模塊

        管理員可以通過后臺指定爬取頁面的地址和范圍,在線爬蟲模塊在后臺自動化地對文獻(xiàn)數(shù)據(jù)進(jìn)行爬取并存儲在本地,從而實(shí)現(xiàn)定向的文獻(xiàn)爬取及分析。這樣可以簡便地把實(shí)體類型抽取擴(kuò)展到其他專業(yè)領(lǐng)域或者其他論文數(shù)據(jù)庫,為上面三層提供了充足的數(shù)據(jù)來源。

        1.2 類型標(biāo)簽抽取及類型標(biāo)注模塊

        知識實(shí)體的類型標(biāo)簽抽取模塊主要是對識別到的知識實(shí)體進(jìn)行類型標(biāo)簽抽取,得到類型標(biāo)簽集合和部分標(biāo)注數(shù)據(jù)。然后,通過基于多標(biāo)簽加權(quán)的標(biāo)簽傳播算法對未標(biāo)知識實(shí)體實(shí)現(xiàn)進(jìn)一步的標(biāo)注,得到的類型標(biāo)注數(shù)據(jù)傳遞給存儲層進(jìn)行本地存儲,并建立知識實(shí)體及其類型關(guān)系索引庫,提高檢索效率。

        1.3 知識實(shí)體關(guān)系圖模型構(gòu)建及可視化模塊

        為了更好地將挖掘到的知識脈絡(luò)實(shí)現(xiàn)可視化,我們需要對知識實(shí)體及其類型數(shù)據(jù)進(jìn)行圖模型的構(gòu)建。根據(jù)用戶輸入的關(guān)鍵詞對索引庫進(jìn)行檢索,構(gòu)建出不同的知識實(shí)體關(guān)系圖模型,包括有基于同一類型的實(shí)體層次關(guān)系樹模型(層次圖)、基于不同類型分組的知識關(guān)系圖模型(關(guān)系圖)和基于時(shí)序的知識熱點(diǎn)跟蹤圖模型(熱點(diǎn)圖)。然后,把得到的關(guān)系圖模型轉(zhuǎn)換成JSON格式的數(shù)據(jù),傳遞到應(yīng)用層利用Echarts進(jìn)行Web可視化實(shí)現(xiàn)。

        2 關(guān)鍵技術(shù)

        2.1 基于啟發(fā)式規(guī)則的類型標(biāo)簽抽取方法

        通過對專業(yè)文獻(xiàn)的知識實(shí)體內(nèi)部進(jìn)行統(tǒng)計(jì)分析實(shí)驗(yàn),發(fā)現(xiàn)大部分類型詞本就存在于實(shí)體內(nèi)部,我們只需要利用啟發(fā)式規(guī)則的方法就可以抽取到大部分的類型標(biāo)簽數(shù)據(jù)。基于啟發(fā)式規(guī)則的類型標(biāo)簽抽取方法具體步驟如下:

        1) 首先,我們需要結(jié)合文獻(xiàn)摘要信息中知識實(shí)體的相關(guān)上下文以輔助類型標(biāo)簽抽取。以識別到的知識實(shí)體為匹配詞,對文獻(xiàn)的摘要進(jìn)行知識實(shí)體匹配,再把在摘要中匹配到的知識實(shí)體及其后相鄰的名詞提取出來,添加到知識實(shí)體集合中。

        2) 利用基于啟發(fā)式規(guī)則的方法對步驟1)得到知識實(shí)體集合進(jìn)行類型標(biāo)簽抽取,得到候選類型標(biāo)簽集合,類型抽取的同時(shí)獲得部分已標(biāo)注實(shí)體,其中啟發(fā)式規(guī)則如下:

        啟發(fā)式規(guī)則1:設(shè)知識實(shí)體ei=(w1,w2,w3,…,wn-1,wn),n≥1,組成詞wi的詞性為ci。如果ci為名詞,則進(jìn)入規(guī)則2。

        啟發(fā)式規(guī)則2:設(shè)知識實(shí)體ei=(w1,w2,w3,…,wn-1,wn),n≥1,wn是實(shí)體ei的最后一個(gè)詞,且規(guī)則1中的wi=wn,那么把wn加入類型詞候選集Ti。

        3) 篩選掉不可靠的類型標(biāo)簽,通過統(tǒng)計(jì)類型標(biāo)簽與其所屬知識實(shí)體共現(xiàn)的頻次,然后根據(jù)頻次特征篩選掉共現(xiàn)頻次低且對應(yīng)知識實(shí)體出現(xiàn)頻次少的類型標(biāo)簽,篩選后的類型標(biāo)簽集合作為最終輸出。

        2.2 基于多標(biāo)簽加權(quán)的標(biāo)簽傳播標(biāo)注方法

        由于基于啟發(fā)式規(guī)則的類型標(biāo)簽抽取方法可以得到絕大部分類型標(biāo)簽集合和一部分的已標(biāo)注實(shí)體,因此我們考慮可以將其轉(zhuǎn)換為一個(gè)多標(biāo)簽標(biāo)注問題,提出一種基于多標(biāo)簽加權(quán)的標(biāo)簽傳播算法,用于實(shí)現(xiàn)剩余未標(biāo)知識實(shí)體的類型標(biāo)注。

        標(biāo)簽傳播算法[9](LPA)是由Zhu等于2002年提出,它是一種基于圖的半監(jiān)督學(xué)習(xí)方法,其基本思路是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。節(jié)點(diǎn)之間邊的權(quán)重越大,標(biāo)簽信息越容易在節(jié)點(diǎn)間傳遞。因而,樣本節(jié)點(diǎn)越相似,它們擁有同樣的標(biāo)簽的可能性就越大[10]。我們給出如下定義:

        定義1轉(zhuǎn)換概率矩陣T:

        (1)

        式中,Tij表示從節(jié)點(diǎn)xj轉(zhuǎn)移到節(jié)點(diǎn)xi的概率,也就是知識實(shí)體ej轉(zhuǎn)移到知識實(shí)體ei的概率。這里轉(zhuǎn)移概率Wij可由式(2)計(jì)算得到:

        (2)

        其中,Sij是知識實(shí)體ei和ej的相似度度量,本系統(tǒng)使用編輯距離作為度量方法,?參數(shù)用于調(diào)整Sij的比例,設(shè)?為Sij的均值。

        定義2類型標(biāo)簽矩陣Y設(shè)第一層抽取中成功抽出類型詞的知識實(shí)體個(gè)數(shù)為l,未能抽出類型詞的知識實(shí)體個(gè)數(shù)為u,則定義類型標(biāo)簽矩陣Y是一個(gè)(l+u)×R矩陣,R為已抽取類型標(biāo)簽的去重個(gè)數(shù)。設(shè)知識實(shí)體ei在第一層類型標(biāo)注后有K個(gè)類型標(biāo)簽,Cik是第i個(gè)實(shí)體的k標(biāo)簽的出現(xiàn)頻次。

        (3)

        (4)

        其中,Wik是知識實(shí)體ei擁有類型標(biāo)簽k的權(quán)重,以標(biāo)簽k在ei中出現(xiàn)的頻率來度量。當(dāng)知識實(shí)體ei擁有類型標(biāo)簽k時(shí),則Yij=Wik,否則Yij=0。

        圖2 基于多標(biāo)簽加權(quán)的標(biāo)簽傳播

        2.3 基于知識實(shí)體類型關(guān)系圖模型構(gòu)建方法

        基于知識實(shí)體類型關(guān)系圖模型的構(gòu)建方法主要包括以下5個(gè)步驟:

        1) 根據(jù)用戶輸入的關(guān)鍵詞從知識實(shí)體索引庫中提取出與該關(guān)鍵詞相關(guān)的知識實(shí)體集合,相關(guān)關(guān)系包括標(biāo)題中和摘要中的共現(xiàn)關(guān)系、包含關(guān)系,以及擴(kuò)展關(guān)系。

        2) 構(gòu)建基于同一類型的實(shí)體層次關(guān)系樹模型,驗(yàn)證知識實(shí)體集合中兩兩個(gè)實(shí)體之間的擴(kuò)展或包含關(guān)系,如果實(shí)體ei包含實(shí)體ej,則建立樹圖模型中父子關(guān)系,表示ei是ej的父節(jié)點(diǎn),依次類推,建立層次關(guān)系模型。

        3) 構(gòu)建基于類型分組的知識關(guān)系圖模型,對知識實(shí)體集合中的知識實(shí)體按類型進(jìn)行分組,統(tǒng)計(jì)每個(gè)類型分組的權(quán)值,分組內(nèi)的知識實(shí)體也按照實(shí)體權(quán)重降序排序;篩選出權(quán)值最高的N個(gè)分組,每個(gè)分組篩選出排在前M個(gè)的知識實(shí)體(N和M可由用戶選擇指定),按照關(guān)鍵詞—類型分組—實(shí)體的次序構(gòu)造三層的圖模型。

        4) 構(gòu)建基于時(shí)序的知識熱點(diǎn)跟蹤圖模型,根據(jù)知識實(shí)體的時(shí)間進(jìn)行排序,構(gòu)建按照半年為周期的時(shí)間段分組,分別統(tǒng)計(jì)每個(gè)時(shí)間段出現(xiàn)的相關(guān)的知識實(shí)體數(shù)量,各個(gè)時(shí)間段分組內(nèi)的知識實(shí)體按照實(shí)體權(quán)重進(jìn)行排序,最后以時(shí)間分組和對應(yīng)實(shí)體列表構(gòu)建熱點(diǎn)跟蹤圖模型。

        5) 把步驟2)~4)所述的模型轉(zhuǎn)換成JSON形式的數(shù)據(jù)并輸出到數(shù)據(jù)可視化模塊。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 數(shù)據(jù)使用情況

        本文設(shè)計(jì)實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲對CNKI中國知網(wǎng)(http://www.cnki.net/)的計(jì)算機(jī)類專業(yè)論文進(jìn)行爬取,并以爬取到的論文題目、論文關(guān)鍵詞,以及論文摘要作為實(shí)驗(yàn)數(shù)據(jù),共包含56 462篇計(jì)算機(jī)類核心期刊論文。我們以論文關(guān)鍵詞為分詞用戶詞典,對論文標(biāo)題進(jìn)行中文分詞及知識實(shí)體抽取,共抽出77 364個(gè)知識實(shí)體。其中,隨機(jī)抽取出500個(gè)知識實(shí)體并進(jìn)行人工類型標(biāo)注,以標(biāo)注后的知識實(shí)體作為測試集。

        3.2 實(shí)驗(yàn)結(jié)果及分析

        為了方便統(tǒng)計(jì)和實(shí)驗(yàn),我們對500個(gè)知識實(shí)體進(jìn)行類型分組,我們把類型樣本個(gè)數(shù)占比最高的前5個(gè)類型獨(dú)自作為類型分組,剩下的其他類型由于樣本占比較少,合并作為一個(gè)類型分組,并統(tǒng)一標(biāo)注為其他。因此,測試集中共標(biāo)注6種類型,分別是方法、算法、系統(tǒng)、模型、技術(shù)和其他。以準(zhǔn)確率(Precision)、召回率(Recall)和F1系數(shù)(F1-Measure)作為評價(jià)指標(biāo),F(xiàn)1系數(shù)計(jì)算方法見式(5)。

        (5)

        圖3是系統(tǒng)分別對這6種類型進(jìn)行知識實(shí)體類型標(biāo)注實(shí)驗(yàn)的結(jié)果。可以看出,各個(gè)分組的準(zhǔn)確率都較高,最高的“技術(shù)”分組準(zhǔn)確率達(dá)到94.11%,說明系統(tǒng)判斷的正確率較高,能較好地對知識實(shí)體進(jìn)行類型標(biāo)注。而召回率相對低一點(diǎn),原因是有較多知識實(shí)體專業(yè)性較強(qiáng),出現(xiàn)頻次過少而無法根據(jù)實(shí)體相似性傳播類型標(biāo)簽所導(dǎo)致的,因此這類出現(xiàn)頻次較少的知識實(shí)體大多會被判定為其他。改進(jìn)的方法是擴(kuò)大爬蟲爬取范圍,增加訓(xùn)練數(shù)據(jù),解決部分知識實(shí)體訓(xùn)練樣本不足的問題。總體而言,實(shí)驗(yàn)中的各個(gè)類型分組結(jié)果都表現(xiàn)較好,F(xiàn)1值最低的“其他”分組也達(dá)到72.29%,各組平均F1值約77%,說明系統(tǒng)可以有效地對專業(yè)知識實(shí)體進(jìn)行類型標(biāo)注,并具有較高的指導(dǎo)意義。

        圖3 不同分組的結(jié)果對比

        在另外一組實(shí)驗(yàn)中,將本文的標(biāo)注方法與傳統(tǒng)的CRF標(biāo)注方法進(jìn)行了實(shí)驗(yàn)對比。從圖4以看出,本文提出的基于多標(biāo)簽加權(quán)的標(biāo)簽傳播方法效果較好,在各個(gè)分組的測試結(jié)果中F1系數(shù)值均比CRF方法要高,各分組平均F1值提升了7.61%。其中在“方法”分組中,本文方法的F1值相對CRF方法提升了19.66%。由此,我們可以看出CRF這類方法并不適合于這類專業(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注,可能的原因是這類知識實(shí)體長度較短,上下文信息特征不足,導(dǎo)致無法準(zhǔn)確判斷標(biāo)注。另外,由于知識實(shí)體類型種類較多,類型特征高達(dá)3 000多維,導(dǎo)致CRF模型在訓(xùn)練的過程中十分緩慢,性能較差。由此可以看出,本文提出的方法能更加有效地解決專業(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注問題,無論是準(zhǔn)確率還是性能都比傳統(tǒng)CRF方法有較大的提升。

        圖4 不同方法的結(jié)果對比

        4 應(yīng) 用

        4.1 系統(tǒng)環(huán)境需求

        KECVS系統(tǒng)的服務(wù)器硬件配置要求為:CPU:Intel Core i3以上,內(nèi)存1 GB以上,操作系統(tǒng):Windows 7;環(huán)境配置要求:JDK1.7.0及以上版本,PHP5.5.12,Apache2.4.9,MySQL5.6.17;用戶瀏覽器要求:IE10.X及以上版本IE內(nèi)核瀏覽器、Firefox、Chrome瀏覽器。

        4.2 系統(tǒng)功能及應(yīng)用

        KECVS系統(tǒng)(http://kecvs.dmirlab.com/)首頁如圖5所示,左側(cè)主菜單包括5部分內(nèi)容:類型抽取、層次圖、關(guān)系圖、熱點(diǎn)圖和實(shí)體識別。首頁同時(shí)也是類型抽取頁面,在右上角檢索框輸入實(shí)體關(guān)鍵詞(或者直接點(diǎn)擊檢索框下的快捷提示詞)后,類型抽取頁面會生成類型結(jié)果說明,同時(shí)在說明下方生成該檢索關(guān)鍵詞的類型分布餅狀圖。例如我們輸入“條件隨機(jī)場”進(jìn)行類型抽取,可以看到“條件隨機(jī)場”的最符合類型標(biāo)簽是“模型”。

        圖5 KECVS系統(tǒng)首頁

        知識實(shí)體關(guān)系圖分別包括層次樹圖、知識關(guān)系圖及時(shí)序熱點(diǎn)圖三部分。其中,圖6展示的是基于類型分組的知識關(guān)系圖的可視化界面,用戶輸入關(guān)鍵詞“條件隨機(jī)場”檢索后,獲得以“條件隨機(jī)場”為中心的不同類型分組下的知識關(guān)系圖,包括有模型、方法、算法、協(xié)議、系統(tǒng)等多個(gè)類型下的知識點(diǎn)。例如,從圖中可以看到,與“條件隨機(jī)場”相關(guān)的“方法”有:“視頻分割方法”、“中文詞性標(biāo)注方法”、“機(jī)器學(xué)習(xí)方法”等。

        圖6 基于類型分組的知識關(guān)系圖可視化界面

        知識實(shí)體識別及類型標(biāo)注的界面如圖7所示。用戶可以在上方輸入框輸入想要進(jìn)行識別的文本或者點(diǎn)擊“隨機(jī)獲取摘要”按鈕獲取文獻(xiàn)摘要文本進(jìn)行識別測試。點(diǎn)擊“開始識別”按鈕后,可以在下方得到知識實(shí)體的類型標(biāo)注結(jié)果,結(jié)果中不同的顏色背景代表不同的類型,在最下方有對應(yīng)顏色的類型圖示。例如,從圖7中可以看到,“條件隨機(jī)場”、“LDA”、“CRF”等知識實(shí)體都能識別出來,并將類型標(biāo)注為“模型”,而“目標(biāo)檢測”、“機(jī)器學(xué)習(xí)”等則標(biāo)注為“方法”。

        圖7 知識實(shí)體識別及類型標(biāo)注界面

        目前,KECVS系統(tǒng)所有圖表采用Echarts3實(shí)現(xiàn)可視化,均提供數(shù)據(jù)視圖及圖表下載功能。

        5 結(jié) 語

        本文設(shè)計(jì)實(shí)現(xiàn)了面向?qū)I(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注及可視化系統(tǒng)KECVS,提供對文獻(xiàn)數(shù)據(jù)的數(shù)據(jù)爬取、數(shù)據(jù)清理、實(shí)體識別、類型標(biāo)簽抽取、類型標(biāo)注及知識實(shí)體關(guān)系圖構(gòu)建等功能,并通過Web數(shù)據(jù)可視化技術(shù)呈現(xiàn)給用戶。同時(shí),本文通過對比實(shí)驗(yàn)驗(yàn)證了本文的方法比傳統(tǒng)的標(biāo)注方法更加適用于專業(yè)文獻(xiàn)知識實(shí)體的類型標(biāo)注問題,最終實(shí)驗(yàn)結(jié)果也表明本文的方法擁有更高的準(zhǔn)確率和更佳的性能。因此,通過KECVS系統(tǒng)可以簡單便捷地獲取到所關(guān)注知識點(diǎn)的層次樹圖、知識關(guān)系圖及熱點(diǎn)跟蹤圖等,從而為科研工作者在科研方向上提供有價(jià)值的參考和啟發(fā)。未來進(jìn)一步的工作包括繼續(xù)完善系統(tǒng)功能,提高系統(tǒng)后臺處理性能,為用戶提供更便捷、準(zhǔn)確和高效的知識服務(wù)系統(tǒng)。

        [1] 吳共慶,胡駿,李莉,等.基于標(biāo)簽路徑特征融合的在線 Web 新聞內(nèi)容抽取[J].軟件學(xué)報(bào),2016,27(3):714-735.

        [2] 鄭影,李大輝.面向微博內(nèi)容的信息抽取模型研究[J].計(jì)算機(jī)科學(xué),2014,41(2):270-275.

        [3] Liu X, Li K, Zhou M, et al. Collective semantic role labeling for tweets with clustering[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2011:1832-1837.

        [4] 陳宇,鄭德權(quán),趙鐵軍.基于Deep Belief Nets的中文名實(shí)體關(guān)系抽取[J].軟件學(xué)報(bào),2012,23(10):2572-2585.

        [5] Yoshida K, Tsujii J. Reranking for biomedical named-entity recognition[C]//Proceedings of the Workshop on BioNLP 2007: Biological, Translational, and Clinical Language Processing. Association for Computational Linguistics, 2007: 209-216.

        [6] 毛存禮,余正濤,沈韜,等.基于深度神經(jīng)網(wǎng)絡(luò)的有色金屬領(lǐng)域?qū)嶓w識別[J].計(jì)算機(jī)研究與發(fā)展,2015,52(11):2451-2459.

        [7] 劉非凡,趙軍,呂碧波,等.面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識別研究[J].中文信息學(xué)報(bào),2006,20(1):7-13.

        [8] 付瑞吉.開放域命名實(shí)體識別及其層次化類別獲取[D]. 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2014.

        [9] Zhu X, Ghahramani Z. Learning from labeled and unlabeled data with label propagation[R]. Technical Report CMU-CALD-02-107, Carnegie Mellon University, 2002.

        [10] Chen J, Ji D, Tan C L, et al. Relation extraction using label propagation based semi-supervised learning[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 129-136.

        KECVS:AKNOWLEDGE-ENTITYCATEGORIZATIONANDVISUALIZATIONSYSTEMFORACADEMICLITERATURE

        Wen Wen1Wu Sijie1Cai Ruichu1Hao Zhifeng1,2Wang Lijuan1
        1(SchoolofComputerScienceandTechnology,GuangdongUniversityofTechnology,Guangzhou510006,Guangdong,China)2(CollegeofMathematicsandBigData,FoshanUniversity,Foshan528000,Guangdong,China)

        Knowledge-entity categorization is an important task for the structural management of academic literature and knowledge-graph mining. Since knowledge entities are highly specialized, diverse and evolve with time, how to categorize, annotate and analyze the knowledge-entity on unlabeled data is of great significance. In this paper, a knowledge-entity categorization and visualization system are designed and developed for academic literature, which provides knowledge-entity recognition and categorization, as well as generation and visualization of the knowledge-graph. Hence it is able to help researchers effectively analyze the knowledge relations and research hotspots.

        Information extraction Entity categorization Knowledge relationship mining Data visualization Academic literature

        2016-06-21。國家自然科學(xué)基金項(xiàng)目(61202269,61472089,61502108);NSFC-廣東聯(lián)合基金項(xiàng)目(U1501254);廣東省科技計(jì)劃項(xiàng)目(2015B010108006,2015B010131015);廣州市科技計(jì)劃項(xiàng)目(2014Y2-00027)。溫雯,副教授,主研領(lǐng)域:機(jī)器學(xué)習(xí),模式識別,信息檢索。伍思杰,碩士生。蔡瑞初,教授。郝志峰,教授。王麗娟,講師。

        TP391

        A

        10.3969/j.issn.1000-386x.2017.08.016

        猜你喜歡
        可視化方法模型
        一半模型
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        重要模型『一線三等角』
        基于CGAL和OpenGL的海底地形三維可視化
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲精品乱码久久久久久蜜桃不卡| 国产一区二区在线中文字幕| 人妻中文字幕日韩av| 中文字幕乱码高清完整版| 亚洲 自拍 另类 欧美 综合| 在线免费欧美| 丰满人妻一区二区三区52| 中国娇小与黑人巨大交| 俄罗斯老熟妇色xxxx| 中年人妻丰满AV无码久久不卡| 在线免费午夜视频一区二区| 青青草狠吊色在线视频| 亚洲亚洲人成综合网络| 无码国产精品一区二区免费97| 日韩av中文字幕亚洲天| 美腿丝袜在线一区二区| 少妇人妻陈艳和黑人教练| 人妻熟妇乱系列| 人妖系列在线免费观看| 美女视频黄是免费| 国产日韩精品中文字无码| 91精品国产免费青青碰在线观看 | av成人资源在线播放| 麻豆91蜜桃传媒在线观看| v一区无码内射国产| 国产资源在线视频| 亚洲av天堂一区二区| 免费女人高潮流视频在线观看| 狠狠躁夜夜躁无码中文字幕| 久久av一区二区三区下| 最新日本人妻中文字幕| 国产精品国产三级国av在线观看| 亚洲AV伊人久久综合密臀性色| 长腿丝袜在线观看国产| 国产又黄又硬又粗| 久久天天躁狠狠躁夜夜爽| 亚洲精品高清av在线播放| 亚洲国产国语在线对白观看| 精品国产乱码久久久久久1区2区 | 国产av人人夜夜澡人人爽| 国产自精品在线|