亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向涉恐領(lǐng)域的知識圖譜構(gòu)建方法*

        2019-09-17 00:39:58廖浚斌何小海王正勇卿粼波
        關(guān)鍵詞:爬蟲本體圖譜

        廖浚斌,周 欣,2,何小海,王正勇,卿粼波

        (1.四川大學(xué) 電子信息學(xué)院,四川 成都 610065;2.中國信息安全測評中心,北京 100085)

        0 引言

        目前,世界處于網(wǎng)絡(luò)時代,各領(lǐng)域的信息呈爆炸式增長。涉恐信息零散地分布在海量的數(shù)據(jù)中[1],包括涉恐分子信息、涉恐組織信息、涉恐事件信息以及反恐策略等信息。如果能夠有效地獲取、組織及利用這些信息,將對各個國家在反恐、防恐工作中起到重要的促進(jìn)作用。為了幫助相關(guān)人員對多元化的涉恐信息進(jìn)行更好的分析及表達(dá),需要建立一個基于涉恐領(lǐng)域的知識圖譜。涉恐領(lǐng)域知識圖譜的建立可以將海量的涉恐信息整合成結(jié)構(gòu)化的有意義的知識,極大程度地方便了安全人員對涉恐人員及組織的分析[2]。

        1 涉恐領(lǐng)域知識圖譜實(shí)現(xiàn)流程

        涉恐領(lǐng)域知識圖譜技術(shù)路線如圖1所示。具體流程為:(1)數(shù)據(jù)獲取,使用分布式爬蟲技術(shù)采集互聯(lián)網(wǎng)上已存在的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù);(2)信息抽取,對于半結(jié)構(gòu)化數(shù)據(jù),需要根據(jù)其數(shù)據(jù)結(jié)構(gòu)特征提取出人物、組織等實(shí)體和實(shí)體間的關(guān)系信息,對非結(jié)構(gòu)化數(shù)據(jù)需要進(jìn)行信息抽取,如采用實(shí)體識別[3-4]、關(guān)系抽取以及屬性抽取等技術(shù),最終使數(shù)據(jù)通過三元組的方式進(jìn)行鏈接;(3)實(shí)體對齊,借助構(gòu)建的涉恐領(lǐng)域本體庫來輔助判斷數(shù)據(jù)中任意兩個實(shí)體是否指向真實(shí)世界同一對象,消除異構(gòu)數(shù)據(jù)中的實(shí)體沖突、實(shí)體間指向不明等實(shí)體間的指向二義性問題[5];(4)通過構(gòu)建的本體庫對數(shù)據(jù)進(jìn)行推理補(bǔ)充,進(jìn)一步完善數(shù)據(jù),最終形成涉恐領(lǐng)域的知識圖譜。

        1.1 數(shù)據(jù)采集

        本知識圖譜主要從互聯(lián)網(wǎng)數(shù)據(jù)中獲取與恐怖主義相關(guān)的人物與組織信息,這些信息主要以兩種形式存在:半結(jié)構(gòu)化的形式和非結(jié)構(gòu)化的形式。第一類數(shù)據(jù)主要是各種社交媒體數(shù)據(jù),如維基百科、FaceBook、Twitter等。第二類數(shù)據(jù)來源主要以政府網(wǎng)站、新聞媒體網(wǎng)站以及各研究機(jī)構(gòu)的公開網(wǎng)站為主,該類型網(wǎng)站的數(shù)據(jù)往往以非結(jié)構(gòu)化的文本形式存在。針對以上兩類信息,考慮到其信息量的巨大,本文采用分布式爬蟲進(jìn)行數(shù)據(jù)的采集。分布式爬蟲架構(gòu)如圖2所示。

        圖1 涉恐領(lǐng)域知識圖譜實(shí)現(xiàn)流程

        圖2 分布式爬蟲架構(gòu)

        分布式爬蟲由三部分組成:(1)集中的統(tǒng)一資源定位符(Uniform Resource Locator,URL)調(diào)度管理和分配,即URL倉庫;(2)爬蟲節(jié)點(diǎn);(3)數(shù)據(jù)存儲。URL倉庫負(fù)責(zé)對URL隊(duì)列進(jìn)行管理并將URL分配給各爬蟲節(jié)點(diǎn);爬蟲節(jié)點(diǎn)由多個子節(jié)點(diǎn)構(gòu)成,每個子節(jié)點(diǎn)負(fù)責(zé)獲取和解析不同網(wǎng)站的數(shù)據(jù),最終將爬取的數(shù)據(jù)存儲到數(shù)據(jù)庫中。

        1.2 實(shí)體關(guān)系抽取

        實(shí)體關(guān)系抽取是指從文本信息中提取出實(shí)體之間隱含關(guān)系的方法,是實(shí)現(xiàn)知識圖譜的關(guān)鍵技術(shù)之一[6]。本文在構(gòu)建涉恐領(lǐng)域知識圖譜時應(yīng)用BI-GRU+Att模型完成了文本信息中實(shí)體的關(guān)系抽取任務(wù),模型結(jié)構(gòu)如圖3所示。

        圖3 BI-GRU+Attention模型

        其中,門控循環(huán)單元(GRU)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體[7],可以有效地克服循環(huán)神經(jīng)網(wǎng)絡(luò)無法很好處理遠(yuǎn)距離依賴的問題;而注意力機(jī)制可以增大關(guān)鍵詞的注意力權(quán)重,使得神經(jīng)網(wǎng)絡(luò)更關(guān)注與關(guān)鍵詞相關(guān)的上下文信息[8]。

        1.3 涉恐領(lǐng)域本體庫構(gòu)建

        本體是對特定領(lǐng)域中的概念及其相互關(guān)系的形式化表達(dá),是同一領(lǐng)域不同主體進(jìn)行交流、連通的基礎(chǔ)[8-10],其相鄰層節(jié)點(diǎn)之間具有嚴(yán)格的從屬關(guān)系。在知識圖譜中,本體庫是用于管理知識圖譜的模式層,用于描述概念層次體系,是知識圖譜中知識的概念模板。通過本體庫形成的知識圖譜層次結(jié)構(gòu)分明、冗余度小[11]。本文使用Protege本體庫構(gòu)建工具進(jìn)行涉恐領(lǐng)域本體庫的構(gòu)建,Protege軟件是語義網(wǎng)中本體構(gòu)建的核心開發(fā)工具。

        2 涉恐領(lǐng)域知識圖譜實(shí)現(xiàn)

        本節(jié)將主要對數(shù)據(jù)爬取、實(shí)體的關(guān)系抽取和本體庫構(gòu)建的實(shí)驗(yàn)進(jìn)行說明。

        2.1 數(shù)據(jù)爬取

        本文使用的涉恐領(lǐng)域的人物及組織信息主要從維基百科網(wǎng)站進(jìn)行爬取,另外通過對反恐怖主義信息網(wǎng)、環(huán)球網(wǎng)等網(wǎng)站的爬取獲取更多的信息??傆嫬@取人物實(shí)例數(shù)據(jù)1 000條,組織實(shí)例數(shù)據(jù)200條。爬取的人物實(shí)例之一如表1所示,組織實(shí)例之一如表2所示。

        表1 人物信息

        表2 組織信息

        2.2 關(guān)系抽取

        本文使用BI-GRU+Att模型對隱含在涉恐人物和組織數(shù)據(jù)中的關(guān)系進(jìn)行抽取,結(jié)果如表3所示。

        表3 本文應(yīng)用模型評價

        從表3可以看出,本文針對涉恐信息的關(guān)系抽取方法由于網(wǎng)絡(luò)結(jié)構(gòu)簡單,且使用字符級向量作為輸入,所以得到了較高的準(zhǔn)確率。因此可以證明本文針對涉恐信息的關(guān)系抽取任務(wù)使用的關(guān)系抽取模型有一定的效果,但還有一定的提升空間。表4為人物關(guān)系抽取的實(shí)例展示,表5為組織關(guān)系抽取的實(shí)例展示。

        表4 人物關(guān)系實(shí)例

        表5 組織關(guān)系實(shí)例

        從表4、表5可以得知,本文模型可以較好地從文本中抽取出實(shí)體間隱含的關(guān)系。

        2.3 本體庫的構(gòu)建

        本文構(gòu)建的人物本體庫與組織本體庫的類同屬于超類“Thing”,統(tǒng)稱為涉恐領(lǐng)域本體庫的類,本體庫的類結(jié)構(gòu)如圖4所示。

        圖4 類層次結(jié)構(gòu)圖

        其中人物庫的類包括人物類(People)和地點(diǎn)類(Location),而組織庫的類包括組織類(organization)、事件類(Event)和地點(diǎn)類(Location)。

        2.4 涉恐領(lǐng)域知識圖譜可視化

        本文通過使用非關(guān)系型圖數(shù)據(jù)庫Neo4j將通過上述流程所得的信息轉(zhuǎn)換為圖數(shù)據(jù)庫。圖5為知識圖譜部分節(jié)點(diǎn)的可視化展示。圖中展示的是與國家民主聯(lián)盟組織節(jié)點(diǎn)相關(guān)的節(jié)點(diǎn)。

        圖5 知識圖譜可視化

        3 結(jié)論

        本文首先使用了分布式爬蟲技術(shù)從互聯(lián)網(wǎng)中爬取涉恐領(lǐng)域的人物與組織數(shù)據(jù),然后利用BI-GRU+Att模型等技術(shù)實(shí)現(xiàn)對信息的抽取,并構(gòu)建了涉恐領(lǐng)域的本體庫,最終實(shí)現(xiàn)涉恐領(lǐng)域的知識圖譜以及使知識圖譜可視化。因?yàn)楸疚牡难芯恐攸c(diǎn)集中于特定領(lǐng)域的知識圖譜實(shí)現(xiàn),而針對基于知識圖譜的應(yīng)用的研究尚處于初級階段,所以在未來的工作中將進(jìn)一步研究基于知識圖譜的問答等應(yīng)用領(lǐng)域,以便更好地滿足涉恐領(lǐng)域的需求。

        猜你喜歡
        爬蟲本體圖譜
        Abstracts and Key Words
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        繪一張成長圖譜
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        主動對接你思維的知識圖譜
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        日本久久久久亚洲中字幕| 九九日本黄色精品视频| 免费在线观看草逼视频| 亚洲人成综合第一网站| 人妻 色综合网站| 99精品久久这里只有精品| 久久伊人精品只有这里有| 亚洲国产中文字幕一区| 国产精品无码aⅴ嫩草| 中文字幕在线亚洲日韩6页手机版| 日本一区二区三区啪啪| 女同性恋一区二区三区av| 久久久精品一区aaa片| 亚洲成人中文| 国产伦理自拍视频在线观看| 国产精品无套一区二区久久| 国产亚洲日本精品无码| 国产精品亚洲А∨天堂免下载| 亚洲一区二区丝袜美腿| 插插射啊爱视频日a级| 在线观看免费人成视频色9| 伊人婷婷色香五月综合缴激情| 草青青视频手机免费观看 | 放荡的少妇2欧美版| 18级成人毛片免费观看| 亚洲一区二区三在线播放| 国产在线视频91九色| 激情影院内射美女| 日韩丝袜亚洲国产欧美一区| 久久久噜噜噜久久熟女| 97人人模人人爽人人喊网| 精品无码一区二区三区爱欲九九 | 老湿机香蕉久久久久久| 国产亚洲高清在线精品不卡| 九九久久精品国产免费av| 国产免费av片无码永久免费| 国产成人无码A区在线观| 亚洲综合新区一区二区| 亚洲av无码一区二区三区网址| 少妇熟女视频一区二区三区| 精品丝袜一区二区三区性色|