亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于EA-LDA 算法的領(lǐng)域知識(shí)圖譜潛在關(guān)系擴(kuò)展

2021-10-15 10:08:04白婷婷張淯舒錢(qián)茛南何旭莉席永軻

計(jì)算機(jī)工程 2021年10期

劉昕，白婷婷，張淯舒，錢(qián)茛南，何旭莉，席永軻

（1.中國(guó)石油大學(xué)（華東）計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山東青島 266580；2.中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院，北京 100086）

0 概述

隨著人工智能［1］和大數(shù)據(jù)技術(shù)［2］的發(fā)展，知識(shí)圖譜［3-4］的構(gòu)建成為當(dāng)今的研究熱點(diǎn)之一。知識(shí)圖譜可以高效地組織結(jié)構(gòu)化的知識(shí)，通過(guò)對(duì)知識(shí)圖譜的檢索［5］，不但能夠快速準(zhǔn)確地查詢(xún)出人們所需要的相關(guān)信息，而且在深度問(wèn)答［6］、社交網(wǎng)絡(luò)［7］、行業(yè)應(yīng)用［8-9］等領(lǐng)域發(fā)揮著越來(lái)越重要的作用。對(duì)于當(dāng)前各級(jí)政府的各個(gè)部門(mén)，部門(mén)之間存在著隸屬、合作、職能交叉等多種關(guān)系，對(duì)部門(mén)之間的關(guān)系進(jìn)行梳理，構(gòu)建知識(shí)圖譜能夠更好地發(fā)揮各個(gè)部門(mén)的職能，加強(qiáng)部門(mén)之間的合作與聯(lián)系，提高各部門(mén)的辦事效率。

隨著各領(lǐng)域中數(shù)據(jù)量的不斷增加和行業(yè)態(tài)勢(shì)的演變，領(lǐng)域知識(shí)圖譜［10］需要不斷地豐富與擴(kuò)展，傳統(tǒng)知識(shí)圖譜的構(gòu)建過(guò)程［11］是通過(guò)專(zhuān)家和知識(shí)工程師完成的，實(shí)體之間隱藏的關(guān)系沒(méi)有得到體現(xiàn)，存在領(lǐng)域知識(shí)的不完整性和片面性。針對(duì)當(dāng)前構(gòu)建知識(shí)圖譜存在的問(wèn)題，采用數(shù)據(jù)挖掘的方法分析與實(shí)體相關(guān)的數(shù)據(jù)，進(jìn)一步挖掘出2 個(gè)實(shí)體之間隱藏的深層次關(guān)系，對(duì)豐富知識(shí)圖譜尤為重要。因此，本文基于市長(zhǎng)信箱訴求數(shù)據(jù)，采用實(shí)體關(guān)聯(lián)與主題分析的方法挖掘在市長(zhǎng)信箱數(shù)據(jù)隱藏的部門(mén)之間存在的關(guān)系，并將新發(fā)現(xiàn)的關(guān)系融合到原有知識(shí)圖譜中，實(shí)現(xiàn)知識(shí)圖譜的潛在關(guān)系擴(kuò)展。

1 相關(guān)工作

在知識(shí)圖譜初步構(gòu)建后，仍然存在大量的隱含知識(shí)未得到體現(xiàn)，這些潛在的知識(shí)對(duì)知識(shí)圖譜中的關(guān)系抽?。?2］和語(yǔ)義檢索［13］等其他研究有很大的幫助。特別是大規(guī)模的知識(shí)圖譜中需要大量的實(shí)體之間的關(guān)系作為支撐，但圖譜中實(shí)體之間關(guān)系往往不夠全面。因此，國(guó)內(nèi)外涌現(xiàn)出一系列方法實(shí)現(xiàn)知識(shí)圖譜中實(shí)體間關(guān)系發(fā)現(xiàn)與知識(shí)圖譜擴(kuò)充。知識(shí)圖譜中潛在關(guān)系發(fā)現(xiàn)是對(duì)實(shí)體關(guān)系之間的鏈接預(yù)測(cè)［14］，是知識(shí)圖譜學(xué)習(xí)和推理［15］的重要任務(wù)之一，通過(guò)挖掘?qū)嶓w間關(guān)系進(jìn)一步擴(kuò)充知識(shí)圖譜，能夠不斷完善和豐富知識(shí)圖譜的內(nèi)容。

目前關(guān)于知識(shí)圖譜實(shí)體間關(guān)系挖掘與擴(kuò)充知識(shí)圖譜的方法主要分為基于表示學(xué)習(xí)［16］的方法和基于關(guān)系路徑［17-18］的方法?；诒硎緦W(xué)習(xí)的知識(shí)圖譜擴(kuò)充方法基本思想是：將實(shí)體和關(guān)系嵌入連續(xù)低維的向量空間，用向量表示實(shí)體，通過(guò)實(shí)體間的向量計(jì)算得到關(guān)系，從而完成知識(shí)圖譜的擴(kuò)充任務(wù)。文獻(xiàn)［19］提出TransE 模型實(shí)現(xiàn)知識(shí)圖譜的擴(kuò)充，該模型將每個(gè)三元組實(shí)例中的關(guān)系看作從實(shí)體到實(shí)體的翻譯，將數(shù)據(jù)放入訓(xùn)練好的模型中得到實(shí)體之間的關(guān)系。文獻(xiàn)［20］提出一種共享變量的神經(jīng)網(wǎng)絡(luò)模型（LCPE），該模型通過(guò)分析Unstructured 模型，推導(dǎo)出在向量空間中2 個(gè)有關(guān)系的實(shí)體嵌入距離更近，并將ProjE 模型和實(shí)體之間的相似度信息進(jìn)行融合，從而判斷具體關(guān)系類(lèi)型。

由于知識(shí)圖譜網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜多變，圖譜中存在大量的關(guān)系路徑，因此涌現(xiàn)出一些基于知識(shí)圖譜中關(guān)系路徑發(fā)現(xiàn)關(guān)系的方法。基于關(guān)系路徑的方法的基本思想是：抽取關(guān)系路徑，構(gòu)建關(guān)系路徑特征向量，計(jì)算實(shí)體之間關(guān)系存在的概率?；陉P(guān)系路徑的知識(shí)圖譜擴(kuò)充方法代表模型是PRA（Path Ranking Algorithm），該模型的基本思想是：2 個(gè)相連實(shí)體之間大量的關(guān)系路徑作為2 個(gè)實(shí)體之間關(guān)系所具有的特征，構(gòu)造關(guān)系分類(lèi)器，將關(guān)系路徑作為輸入，實(shí)際存在的關(guān)系作為輸出訓(xùn)練關(guān)系分類(lèi)器。文獻(xiàn)［21］利用設(shè)置物理規(guī)則和邏輯規(guī)則進(jìn)行知識(shí)圖譜的路徑推理和擴(kuò)充知識(shí)圖譜任務(wù)。文獻(xiàn)［22］通過(guò)組合已有模型進(jìn)行有關(guān)路徑推理，并應(yīng)用于知識(shí)庫(kù)的自動(dòng)問(wèn)答及擴(kuò)充知識(shí)圖譜學(xué)習(xí)任務(wù)。文獻(xiàn)［23］提出一種子圖特征提取方法實(shí)現(xiàn)關(guān)系挖掘，對(duì)給定知識(shí)圖譜上的結(jié)點(diǎn)集合進(jìn)行路徑搜索抽取得到子圖，在子圖上抽取特征，作為這些結(jié)點(diǎn)集合的特征向量，通過(guò)結(jié)點(diǎn)集合的特征向量訓(xùn)練關(guān)系分類(lèi)器。

還有一些學(xué)者采用其他方法擴(kuò)充和豐富知識(shí)圖譜。文獻(xiàn)［24］提出一種借助用戶(hù)生成數(shù)據(jù)中實(shí)體間關(guān)聯(lián)關(guān)系來(lái)擴(kuò)充知識(shí)圖譜的方法，該方法使用互信息計(jì)算實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系，采用一種關(guān)聯(lián)影響疊加方法來(lái)定量計(jì)算關(guān)聯(lián)圖中互不相鄰實(shí)體間的潛在關(guān)聯(lián)關(guān)系。文獻(xiàn)［25］提出從不完備知識(shí)庫(kù)中挖掘關(guān)聯(lián)規(guī)則的方法（AMIE），AMIE 依次學(xué)習(xí)預(yù)測(cè)每種關(guān)系的規(guī)則，通過(guò)3 種操作擴(kuò)展規(guī)則體部分，保留支持度大于閾值的候選規(guī)則，通過(guò)挖掘得到的規(guī)則實(shí)現(xiàn)關(guān)系發(fā)現(xiàn)與知識(shí)圖譜擴(kuò)充。文獻(xiàn)［26］提出一種基于Jena 的臺(tái)風(fēng)災(zāi)害領(lǐng)域本體模型推理機(jī)制，挖掘被隱藏的臺(tái)風(fēng)災(zāi)害影響因素或?yàn)?zāi)害鏈信息。

基于表示學(xué)習(xí)的方法可以通過(guò)向量計(jì)算發(fā)現(xiàn)實(shí)體間關(guān)系，但計(jì)算代價(jià)大，在實(shí)際知識(shí)圖譜中可解釋性差?；陉P(guān)系路徑的知識(shí)圖譜擴(kuò)充方法［24］可以通過(guò)路徑特征挖掘?qū)嶓w之間的關(guān)系，但是這類(lèi)方法難以處理關(guān)系路徑信息較少的稀疏知識(shí)圖譜，且在實(shí)際應(yīng)用的知識(shí)圖譜中，關(guān)系路徑數(shù)量龐大，提取路徑信息非常耗時(shí)。因此，本文針對(duì)特定領(lǐng)域中的實(shí)體，采用實(shí)體關(guān)聯(lián)與主題分析方法分析實(shí)體相關(guān)數(shù)據(jù)，進(jìn)一步挖掘出實(shí)體間隱藏的關(guān)系，避免大量的無(wú)效計(jì)算，使挖掘得到的關(guān)系是有用且有效的。

2 知識(shí)圖譜潛在關(guān)系發(fā)現(xiàn)與擴(kuò)展

本文提出一種基于實(shí)體關(guān)聯(lián)分析與主題分析（Entity-Association and LDA，EA-LDA）的方法挖掘?qū)嶓w之間隱藏的關(guān)系，進(jìn)而擴(kuò)展和豐富知識(shí)圖譜。針對(duì)與實(shí)體相關(guān)的大量數(shù)據(jù)，采用關(guān)聯(lián)規(guī)則算法挖掘?qū)嶓w與實(shí)體之間存在的關(guān)聯(lián)關(guān)系，并分析與實(shí)體相關(guān)數(shù)據(jù)的主題關(guān)鍵詞之間的聯(lián)系得到實(shí)體之間的關(guān)系，將新發(fā)現(xiàn)的關(guān)系融合到知識(shí)圖譜中。

2.1 數(shù)據(jù)預(yù)處理

在進(jìn)行實(shí)體之間的關(guān)系發(fā)現(xiàn)前，需對(duì)原始文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，以提高后期數(shù)據(jù)分析和挖掘的效率，減少后期算法工作的計(jì)算量。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)分詞和去停用詞。數(shù)據(jù)清洗主要是檢查數(shù)據(jù)一致性，處理無(wú)效數(shù)據(jù)和重復(fù)數(shù)據(jù)；數(shù)據(jù)分詞是將連續(xù)的句子分成單個(gè)詞語(yǔ)，之后將詞語(yǔ)作為文本數(shù)據(jù)的基本單位；基于停用詞表對(duì)分詞結(jié)果進(jìn)行匹配，去除停用詞表中的詞匯，如“的”“了”等，只保留文本具有實(shí)際意義的詞集。

2.2 基于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的實(shí)體關(guān)系獲取

2.2.1 實(shí)體頻繁項(xiàng)集獲取

獲取實(shí)體頻繁項(xiàng)集方法如下：

1）對(duì)各實(shí)體相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理，獲得相應(yīng)的關(guān)鍵詞集，計(jì)算各個(gè)實(shí)體相關(guān)數(shù)據(jù)中每個(gè)關(guān)鍵詞的支持度Si。支持度計(jì)算公式如式（1）所示：

其中：Si表示第i個(gè)關(guān)鍵詞的支持度；P（i）表示第i個(gè)關(guān)鍵詞在當(dāng)前實(shí)體相關(guān)數(shù)據(jù)集中出現(xiàn)的概率；Ni表示第i個(gè)關(guān)鍵詞在當(dāng)前實(shí)體相關(guān)數(shù)據(jù)集中出現(xiàn)的次數(shù)；Nall表示數(shù)據(jù)集中與當(dāng)前實(shí)體相關(guān)的數(shù)據(jù)記錄的個(gè)數(shù)。

2）根據(jù)設(shè)置的支持度閾值α，判斷每個(gè)關(guān)鍵詞的支持度是否大于等于閾值α，將大于等于閾值α的關(guān)鍵詞保留得到1 項(xiàng)頻繁關(guān)鍵詞集L1。

3）不斷迭代使用上一次得到的（k-1）項(xiàng)頻繁關(guān)鍵詞集，計(jì)算頻繁關(guān)鍵詞集中關(guān)鍵詞的支持度，保留滿(mǎn)足支持度閾值α的關(guān)鍵詞集，產(chǎn)生新的候選k項(xiàng)頻繁關(guān)鍵詞集Lk，直到?jīng)]有新的頻繁項(xiàng)集產(chǎn)生，算法結(jié)束。

2.2.2 實(shí)體關(guān)聯(lián)規(guī)則生成

實(shí)體關(guān)聯(lián)規(guī)則生成方法如下：

1）獲取k項(xiàng)頻繁關(guān)鍵詞集Lk的關(guān)聯(lián)規(guī)則Ls?Lk-s，其中：Ls表示由s個(gè)關(guān)鍵詞組成的關(guān)鍵詞集；Lk-s表示去掉Lk中s個(gè)關(guān)鍵詞剩余的關(guān)鍵詞組成的關(guān)鍵詞集。

2）計(jì)算每個(gè)候選關(guān)聯(lián)規(guī)則的置信度。置信度的計(jì)算公式如式（2）所示：

其中：C（Ls?Lk-s）表示關(guān)聯(lián)規(guī)則Ls?Lk-s的置信度；N（Lk）表示在與當(dāng)前實(shí)體相關(guān)的數(shù)據(jù)集中Lk出現(xiàn)的次數(shù)；N（Ls）表示Ls出現(xiàn)的次數(shù)。

3）根據(jù)設(shè)置的置信度閾值β，判斷每個(gè)候選關(guān)聯(lián)規(guī)則的置信度是否大于等于閾值β，將大于等于閾值的關(guān)聯(lián)規(guī)則保留得到關(guān)聯(lián)規(guī)則集。

2.2.3 實(shí)體關(guān)聯(lián)關(guān)系獲取

基于得到的關(guān)聯(lián)規(guī)則集，保留實(shí)體之間相同的關(guān)聯(lián)規(guī)則集，選取相同關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞得到2 個(gè)實(shí)體之間的關(guān)系。

2.2.4 實(shí)體關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的偽代碼描述

實(shí)體關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的偽代碼如下：

2.3 基于LDA 主題發(fā)現(xiàn)的實(shí)體關(guān)系獲取

2.3.1 LDA 主題抽取

將與每個(gè)實(shí)體相關(guān)的數(shù)據(jù)分別合并形成一篇實(shí)體主題文檔，對(duì)各個(gè)文檔數(shù)據(jù)做分詞等預(yù)處理，對(duì)預(yù)處理后的數(shù)據(jù)做LDA 主題抽取，抽取過(guò)程如下：

1）設(shè)置主題數(shù)K，設(shè)置合適的超參數(shù)向量α、β，α控制實(shí)體主題文檔的主題稀疏性，β控制主題中詞的稀疏性，α設(shè)置為50/k，k為設(shè)置的主題個(gè)數(shù)，β設(shè)置為0.01。

2）對(duì)應(yīng)每個(gè)實(shí)體主題文檔中的每一個(gè)詞，隨機(jī)賦予一個(gè)主題編號(hào)k。

3）重新掃描語(yǔ)料庫(kù)，對(duì)于每一個(gè)詞，利用Gibbs采樣公式P（topic/doc）P（word/topic）更新其主題編號(hào)，并更新語(yǔ)料庫(kù)中該詞的編號(hào)。

4）重復(fù)第3）步的基于坐標(biāo)軸輪換的Gibbs 采樣，直到Gibbs 采樣收斂。

5）統(tǒng)計(jì)語(yǔ)料庫(kù)中的每個(gè)實(shí)體主題文檔中各個(gè)詞所屬主題，得到實(shí)體主題分布θd，統(tǒng)計(jì)語(yǔ)料庫(kù)中各個(gè)主題詞的分布，得到LDA 的主題與詞的分布βk。

2.3.2 主題關(guān)系獲取

根據(jù)得到的實(shí)體主題文檔的主題概率分布，篩選出含有共同主題詞的主題文檔，根據(jù)式（3）計(jì)算主題文檔的主題概率分布之間的差異程度：

其中：D是主題分布的差異性；n是2 個(gè)主題分布中相同主題詞的個(gè)數(shù)；Px、Qx是不同主題分布中同一主題詞的概率，2 個(gè)主題分布的差異程度越小，則該主題分布所相關(guān)的實(shí)體主題文檔之間的關(guān)聯(lián)程度就越高。

2.3.3 LDA 主題發(fā)現(xiàn)的偽代碼描述

LDA 主題發(fā)現(xiàn)的偽代碼如下：

2.4 EA-LDA 算法

EA-LDA 算法描述如下：

1）對(duì)原始文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)分詞、去停用詞等操作得到預(yù)處理后的數(shù)據(jù)集。

2）掃描數(shù)據(jù)集，得到滿(mǎn)足支持度閾值α的k項(xiàng)頻繁關(guān)鍵詞集，基于k項(xiàng)頻繁關(guān)鍵詞集組合得到候選關(guān)聯(lián)規(guī)則集，將所有滿(mǎn)足置信度閾值β的關(guān)聯(lián)規(guī)則加入關(guān)聯(lián)規(guī)則集。

3）保留關(guān)聯(lián)規(guī)則集中兩兩實(shí)體之間存在的共同關(guān)聯(lián)規(guī)則集，將共有關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞保留作為兩實(shí)體之間的關(guān)系。

4）基于整理得到的部門(mén)實(shí)體主題文檔，采用Gibbs 采樣公式迭代更新每一個(gè)詞的主題編號(hào)，統(tǒng)計(jì)各個(gè)詞所屬主題和各個(gè)主題詞的概率分布，得到部門(mén)實(shí)體主題文檔的主題分布βk。

5）統(tǒng)計(jì)存在共同主題的主題分布，計(jì)算主題分布之間的差異程度，將差異程度小于0.1 的兩主題分布中的共同主題詞作為2 個(gè)實(shí)體之間的關(guān)系。

6）對(duì)于新發(fā)現(xiàn)的實(shí)體間關(guān)系，在存儲(chǔ)知識(shí)圖譜的數(shù)據(jù)庫(kù)中查找與該關(guān)系相關(guān)的實(shí)體，并將新關(guān)系加入數(shù)據(jù)庫(kù)中，更新原有知識(shí)圖譜，得到關(guān)系擴(kuò)展后的知識(shí)圖譜。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)使用市長(zhǎng)信箱訴求數(shù)據(jù)，每條訴求數(shù)據(jù)包括訴求工單編號(hào)、問(wèn)題描述、單位標(biāo)示和辦理單位，涉及不同的政府部門(mén)，共有230 824 條數(shù)據(jù)。實(shí)驗(yàn)針對(duì)市長(zhǎng)信箱訴求數(shù)據(jù)挖掘部門(mén)之間的關(guān)聯(lián)關(guān)系，構(gòu)建部門(mén)知識(shí)圖譜。

3.2 數(shù)據(jù)預(yù)處理

由于關(guān)聯(lián)分析是對(duì)關(guān)鍵詞集進(jìn)行處理，而每條訴求數(shù)據(jù)中的問(wèn)題描述是一個(gè)句子或多個(gè)句子。在進(jìn)行部門(mén)關(guān)系發(fā)現(xiàn)之前，需對(duì)獲取的原始訴求數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，把連續(xù)的漢字序列劃分成一系列單獨(dú)的詞語(yǔ)即分詞，之后將詞語(yǔ)作為文本數(shù)據(jù)的基本單位，采用開(kāi)源的結(jié)巴（Jieba）分詞算法，對(duì)文本集的全部語(yǔ)句進(jìn)行分詞得到需要的數(shù)據(jù)。分詞處理后的詞語(yǔ)中還包含一些虛詞和禁用詞，如“的”“了”等，需要對(duì)這些無(wú)實(shí)際意義的詞語(yǔ)進(jìn)行篩選工作，即去除停用詞。去除停用詞使用一個(gè)停用詞表，掃描并識(shí)別出停用詞后刪除。

3.3 實(shí)體間關(guān)聯(lián)分析

3.3.1 實(shí)體間關(guān)聯(lián)關(guān)系發(fā)現(xiàn)

將預(yù)處理后得到的關(guān)鍵詞集作為實(shí)驗(yàn)的文本數(shù)據(jù)集，為每個(gè)部門(mén)實(shí)體構(gòu)建一個(gè)數(shù)據(jù)集，對(duì)任意2 個(gè)部門(mén)之間的關(guān)鍵詞集做關(guān)聯(lián)分析。在本文實(shí)驗(yàn)中，部門(mén)實(shí)體作為關(guān)聯(lián)分析的主要對(duì)象，設(shè)置支持度為0.05，置信度為0.1，通過(guò)實(shí)體間關(guān)聯(lián)規(guī)則挖掘，得到2 個(gè)部門(mén)的關(guān)聯(lián)規(guī)則集，將關(guān)聯(lián)規(guī)則中的關(guān)鍵詞作為節(jié)點(diǎn)，具有關(guān)聯(lián)規(guī)則的節(jié)點(diǎn)之間連接，得到關(guān)聯(lián)關(guān)系圖。

根據(jù)得到的部門(mén)實(shí)體之間的關(guān)聯(lián)規(guī)則結(jié)果，將共有關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞集作為實(shí)體間關(guān)系。具體分析結(jié)果如下：市交警支隊(duì)、市城鄉(xiāng)交通運(yùn)輸局之間通過(guò)“車(chē)輛”“車(chē)牌號(hào)”“道路”“行駛”等關(guān)鍵詞存在關(guān)聯(lián)，因此這2個(gè)部門(mén)通過(guò)“交通”“車(chē)輛”問(wèn)題關(guān)聯(lián)，如圖1所示。

圖1 市交警支隊(duì)和市城鄉(xiāng)交通運(yùn)輸局關(guān)聯(lián)關(guān)系Fig.1 Association relationships of municipal traffic police detachment and municipal urban rural transportation bureau

市公安局和市城市管理局之間通過(guò)“噪音”“擾民”“制止”“休息”等關(guān)鍵詞存在關(guān)聯(lián)，這2 個(gè)部門(mén)所處理的問(wèn)題中的都存在施工、擾民問(wèn)題，市城市管理局主要管理城市環(huán)境衛(wèi)生設(shè)施建設(shè)方面，市公安局的職能之一是維護(hù)社會(huì)治安秩序，故2 個(gè)部門(mén)在處理施工擾民問(wèn)題上存在關(guān)聯(lián)，如圖2 所示。

圖2 市公安局和市城市管理局關(guān)聯(lián)關(guān)系Fig.2 Association relationships of municipal public security bureau and municipal urban authority

市住房、城鄉(xiāng)建設(shè)局、濟(jì)南市稅務(wù)局之間通過(guò)“開(kāi)發(fā)商”“購(gòu)房”等關(guān)鍵詞存在關(guān)聯(lián)，市民在購(gòu)房時(shí)會(huì)跟這2 個(gè)部門(mén)產(chǎn)生關(guān)系，兩部門(mén)存在業(yè)務(wù)流程前后關(guān)系，即市住房和城鄉(xiāng)建設(shè)局處理在購(gòu)房時(shí)的購(gòu)買(mǎi)、簽約等問(wèn)題，濟(jì)南市稅務(wù)局處理購(gòu)房時(shí)的稅務(wù)問(wèn)題，如圖3 所示。

圖3 市住房和城鄉(xiāng)建設(shè)局和市稅務(wù)局關(guān)聯(lián)關(guān)系Fig.3 Association relationships of municipal housing and construction bureau and municipal taxation bureau

市醫(yī)療保障局和市社會(huì)保險(xiǎn)事業(yè)中心之間通過(guò)“社保”“繳納”“知識(shí)庫(kù)”等關(guān)鍵詞聯(lián)系起來(lái)，2 個(gè)部門(mén)都與“社保”問(wèn)題存在關(guān)聯(lián)，如圖4 所示。

圖4 市醫(yī)療保障局和市社會(huì)保險(xiǎn)事業(yè)中心關(guān)聯(lián)關(guān)系Fig.4 Association relationships of municipal healthcare security administration and municipal social insurance enterprise center

市城鄉(xiāng)水務(wù)局和市供電公司之間通過(guò)“業(yè)主”“繳納”“盡快恢復(fù)”等關(guān)鍵詞聯(lián)系起來(lái)，這2 個(gè)部門(mén)都與業(yè)主的費(fèi)用繳納、日常生活存在關(guān)系，故2 個(gè)部門(mén)存在關(guān)聯(lián)，如圖5 所示。

圖5 市城鄉(xiāng)水務(wù)局和市供電公司關(guān)聯(lián)關(guān)系Fig.5 Association relationships of municipal water supplies bureau and municipal power supply company

3.3.2 基于部門(mén)實(shí)體數(shù)據(jù)的主題關(guān)系發(fā)現(xiàn)

基于預(yù)處理后的數(shù)據(jù)集，根據(jù)為各個(gè)實(shí)體構(gòu)建的相關(guān)數(shù)據(jù)集，對(duì)每個(gè)實(shí)體相關(guān)數(shù)據(jù)做LDA 主題分析，設(shè)置每個(gè)部門(mén)實(shí)體的主題個(gè)數(shù)為10，得到每個(gè)部門(mén)的主題概率分布。篩選出存在共同主題關(guān)鍵詞的主題概率分布，計(jì)算兩兩主題概率分布之間的差異程度，差異度越趨向于0，則2 個(gè)實(shí)體之間的關(guān)聯(lián)度越大，計(jì)算結(jié)果如表1 所示。差異度小于0.1 的實(shí)體主題分布中的共同主題詞即為部門(mén)實(shí)體之間的關(guān)系。

表1 部門(mén)主題分布差異度Table 1 Difference degrees of department theme distribution

實(shí)體數(shù)據(jù)主題間關(guān)聯(lián)關(guān)系分析結(jié)果如下：

歷城區(qū)政府與市公安局主題分布差異度D=0.080 0，實(shí)體關(guān)聯(lián)性較大，2 個(gè)主題分布中均存在“戶(hù)籍”“居民”“辦理”等主題，兩部門(mén)之間通過(guò)居民戶(hù)籍辦理存在關(guān)聯(lián)，如圖6 所示。

圖6 歷城區(qū)政府和市公安局主題分布Fig.6 Theme distribution of Licheng district government and municipal public security bureau

濟(jì)陽(yáng)區(qū)政府和商河縣政府主題分布差異度D=0.001 9，實(shí)體關(guān)聯(lián)性較大，2 個(gè)主題分布中均存在“土地”“灌溉”“村民”等主題，2 個(gè)部門(mén)都存在土地灌溉問(wèn)題，如圖7 所示。

圖7 商河縣政府和濟(jì)陽(yáng)區(qū)政府主題分布Fig.7 Theme distribution of Shanghe county government and Jiyang district government

市城管局和歷下區(qū)政府主題分布差異度D=0.140 0，實(shí)體間關(guān)聯(lián)性較大，2 個(gè)主題分布中均存在“施工”“影響”“小區(qū)”等主題，2 個(gè)部門(mén)通過(guò)施工問(wèn)題相關(guān)聯(lián)，如圖8 所示。南部山區(qū)管委會(huì)和天橋區(qū)政府主題分布差異度D=0.02，實(shí)體間關(guān)聯(lián)性較大，2 個(gè)主題分布中均存在“垃圾”“清理”等主題，2 個(gè)部門(mén)都存在垃圾清理問(wèn)題，如圖9 所示。

圖8 市城管局和歷下區(qū)政府主題分布Fig.8 Theme distribution of municipal urban management bureau and Lixia district government

圖9 南部山區(qū)管委會(huì)和天橋區(qū)政府主題分布Fig.9 Theme distribution of southern mountain management committee and Tianqiao district government

3.4 部門(mén)知識(shí)圖譜關(guān)系擴(kuò)展

基于部門(mén)實(shí)體關(guān)聯(lián)分析和主題分析得到的結(jié)果，將新發(fā)現(xiàn)的部門(mén)之間的關(guān)系以三元組的形式添加到原有知識(shí)圖譜數(shù)據(jù)庫(kù)中，并采用D3.js 作圖實(shí)現(xiàn)部門(mén)知識(shí)圖譜的可視化，知識(shí)圖譜將每個(gè)部門(mén)作為節(jié)點(diǎn)，2 個(gè)部門(mén)之間的關(guān)系作為邊構(gòu)建而成，如圖中市城市管理局和市公安局之間通過(guò)“噪音”“擾民”問(wèn)題聯(lián)系起來(lái)，槐蔭區(qū)政府和歷下區(qū)政府通過(guò)“上學(xué)”“戶(hù)籍”問(wèn)題聯(lián)系起來(lái)等，初步構(gòu)建的知識(shí)圖譜和關(guān)系擴(kuò)展后的部門(mén)知識(shí)圖譜分別如圖10 和圖11 所示。

圖10 初始構(gòu)建的部門(mén)知識(shí)圖譜Fig.10 Departmental knowledge graph of initially constructed

圖11 基于EA-LDA 方法關(guān)系擴(kuò)展后的部門(mén)知識(shí)圖譜Fig.11 Departmental knowledge graph based on EA-LDA method relationship expansion

3.5 實(shí)驗(yàn)比較

與文獻(xiàn)［26］基于jena 的規(guī)則推理方法比較、針對(duì)部門(mén)數(shù)據(jù)集、實(shí)體間關(guān)系部分對(duì)比結(jié)果如表2 所示。基于jena 的規(guī)則推理結(jié)果如圖12 所示，擴(kuò)充后的知識(shí)圖譜如圖13 所示。從表2 對(duì)比結(jié)果和圖12 可以看出，基于jena 的規(guī)則推理方法得到的實(shí)體關(guān)系多為文本中各類(lèi)實(shí)體間的關(guān)系，如交警、處罰、行人等，對(duì)于部門(mén)知識(shí)圖譜包括大量的冗余信息，沒(méi)有獲得隱藏的部門(mén)實(shí)體間的關(guān)系。本文方法挖掘了較多深層次的部門(mén)實(shí)體間關(guān)系，如商河縣政府與濟(jì)陽(yáng)縣政府具有共同的土地灌溉問(wèn)題等。由此可知，本文提出的EA-LDA 方法可以更有針對(duì)性地挖掘出隱藏在部門(mén)實(shí)體之間的關(guān)系，有助于發(fā)現(xiàn)部門(mén)實(shí)體間共同存在的問(wèn)題，可以有效地應(yīng)用于領(lǐng)域?qū)嶓w間關(guān)系發(fā)現(xiàn)，優(yōu)于基于jena 的規(guī)則推理方法。

表2 部分關(guān)系對(duì)比結(jié)果Table 2 Comparison results of partial relation

圖12 基于jena 的規(guī)則推理結(jié)果Fig.12 Rule inference results based on jena

圖13 基于jena 規(guī)則推理后的部門(mén)知識(shí)圖譜Fig.13 Department knowledge graph based on jena rule inference

4 結(jié)束語(yǔ)

本文提出一種基于實(shí)體關(guān)聯(lián)規(guī)則與主題分析的方法來(lái)擴(kuò)展領(lǐng)域?qū)嶓w間的關(guān)系。針對(duì)具體領(lǐng)域相關(guān)數(shù)據(jù)，采用關(guān)聯(lián)規(guī)則挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系，根據(jù)LDA 主題分析方法分析實(shí)體相關(guān)數(shù)據(jù)集主題之間的關(guān)系，進(jìn)而得到領(lǐng)域?qū)嶓w之間隱藏的關(guān)系，將新發(fā)現(xiàn)的關(guān)系融合進(jìn)原有領(lǐng)域知識(shí)圖譜，豐富領(lǐng)域知識(shí)圖譜。實(shí)驗(yàn)結(jié)果表明，與基于jena 規(guī)則推理方案相比，該方法能更準(zhǔn)確更全面地?cái)U(kuò)展實(shí)體之間的關(guān)系。下一步將研究多領(lǐng)域間知識(shí)圖譜的自動(dòng)融合與動(dòng)態(tài)更新，即對(duì)多個(gè)知識(shí)圖譜中的實(shí)體關(guān)系進(jìn)行評(píng)估，發(fā)現(xiàn)圖譜間的聯(lián)系，從而實(shí)現(xiàn)自動(dòng)融合，對(duì)于不斷更新的結(jié)構(gòu)化和半結(jié)構(gòu)化的知識(shí)，將其自動(dòng)更新到知識(shí)圖譜中。