劉 昕,白婷婷,張淯舒,錢(qián)茛南,何旭莉,席永軻
(1.中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266580;2.中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院,北京 100086)
隨著人工智能[1]和大數(shù)據(jù)技術(shù)[2]的發(fā)展,知識(shí)圖譜[3-4]的構(gòu)建成為當(dāng)今的研究熱點(diǎn)之一。知識(shí)圖譜可以高效地組織結(jié)構(gòu)化的知識(shí),通過(guò)對(duì)知識(shí)圖譜的檢索[5],不但能夠快速準(zhǔn)確地查詢(xún)出人們所需要的相關(guān)信息,而且在深度問(wèn)答[6]、社交網(wǎng)絡(luò)[7]、行業(yè)應(yīng)用[8-9]等領(lǐng)域發(fā)揮著越來(lái)越重要的作用。對(duì)于當(dāng)前各級(jí)政府的各個(gè)部門(mén),部門(mén)之間存在著隸屬、合作、職能交叉等多種關(guān)系,對(duì)部門(mén)之間的關(guān)系進(jìn)行梳理,構(gòu)建知識(shí)圖譜能夠更好地發(fā)揮各個(gè)部門(mén)的職能,加強(qiáng)部門(mén)之間的合作與聯(lián)系,提高各部門(mén)的辦事效率。
隨著各領(lǐng)域中數(shù)據(jù)量的不斷增加和行業(yè)態(tài)勢(shì)的演變,領(lǐng)域知識(shí)圖譜[10]需要不斷地豐富與擴(kuò)展,傳統(tǒng)知識(shí)圖譜的構(gòu)建過(guò)程[11]是通過(guò)專(zhuān)家和知識(shí)工程師完成的,實(shí)體之間隱藏的關(guān)系沒(méi)有得到體現(xiàn),存在領(lǐng)域知識(shí)的不完整性和片面性。針對(duì)當(dāng)前構(gòu)建知識(shí)圖譜存在的問(wèn)題,采用數(shù)據(jù)挖掘的方法分析與實(shí)體相關(guān)的數(shù)據(jù),進(jìn)一步挖掘出2 個(gè)實(shí)體之間隱藏的深層次關(guān)系,對(duì)豐富知識(shí)圖譜尤為重要。因此,本文基于市長(zhǎng)信箱訴求數(shù)據(jù),采用實(shí)體關(guān)聯(lián)與主題分析的方法挖掘在市長(zhǎng)信箱數(shù)據(jù)隱藏的部門(mén)之間存在的關(guān)系,并將新發(fā)現(xiàn)的關(guān)系融合到原有知識(shí)圖譜中,實(shí)現(xiàn)知識(shí)圖譜的潛在關(guān)系擴(kuò)展。
在知識(shí)圖譜初步構(gòu)建后,仍然存在大量的隱含知識(shí)未得到體現(xiàn),這些潛在的知識(shí)對(duì)知識(shí)圖譜中的關(guān)系抽?。?2]和語(yǔ)義檢索[13]等其他研究有很大的幫助。特別是大規(guī)模的知識(shí)圖譜中需要大量的實(shí)體之間的關(guān)系作為支撐,但圖譜中實(shí)體之間關(guān)系往往不夠全面。因此,國(guó)內(nèi)外涌現(xiàn)出一系列方法實(shí)現(xiàn)知識(shí)圖譜中實(shí)體間關(guān)系發(fā)現(xiàn)與知識(shí)圖譜擴(kuò)充。知識(shí)圖譜中潛在關(guān)系發(fā)現(xiàn)是對(duì)實(shí)體關(guān)系之間的鏈接預(yù)測(cè)[14],是知識(shí)圖譜學(xué)習(xí)和推理[15]的重要任務(wù)之一,通過(guò)挖掘?qū)嶓w間關(guān)系進(jìn)一步擴(kuò)充知識(shí)圖譜,能夠不斷完善和豐富知識(shí)圖譜的內(nèi)容。
目前關(guān)于知識(shí)圖譜實(shí)體間關(guān)系挖掘與擴(kuò)充知識(shí)圖譜的方法主要分為基于表示學(xué)習(xí)[16]的方法和基于關(guān)系路徑[17-18]的方法?;诒硎緦W(xué)習(xí)的知識(shí)圖譜擴(kuò)充方法基本思想是:將實(shí)體和關(guān)系嵌入連續(xù)低維的向量空間,用向量表示實(shí)體,通過(guò)實(shí)體間的向量計(jì)算得到關(guān)系,從而完成知識(shí)圖譜的擴(kuò)充任務(wù)。文獻(xiàn)[19]提出TransE 模型實(shí)現(xiàn)知識(shí)圖譜的擴(kuò)充,該模型將每個(gè)三元組實(shí)例中的關(guān)系看作從實(shí)體到實(shí)體的翻譯,將數(shù)據(jù)放入訓(xùn)練好的模型中得到實(shí)體之間的關(guān)系。文獻(xiàn)[20]提出一種共享變量的神經(jīng)網(wǎng)絡(luò)模型(LCPE),該模型通過(guò)分析Unstructured 模型,推導(dǎo)出在向量空間中2 個(gè)有關(guān)系的實(shí)體嵌入距離更近,并將ProjE 模型和實(shí)體之間的相似度信息進(jìn)行融合,從而判斷具體關(guān)系類(lèi)型。
由于知識(shí)圖譜網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜多變,圖譜中存在大量的關(guān)系路徑,因此涌現(xiàn)出一些基于知識(shí)圖譜中關(guān)系路徑發(fā)現(xiàn)關(guān)系的方法。基于關(guān)系路徑的方法的基本思想是:抽取關(guān)系路徑,構(gòu)建關(guān)系路徑特征向量,計(jì)算實(shí)體之間關(guān)系存在的概率?;陉P(guān)系路徑的知識(shí)圖譜擴(kuò)充方法代表模型是PRA(Path Ranking Algorithm),該模型的基本思想是:2 個(gè)相連實(shí)體之間大量的關(guān)系路徑作為2 個(gè)實(shí)體之間關(guān)系所具有的特征,構(gòu)造關(guān)系分類(lèi)器,將關(guān)系路徑作為輸入,實(shí)際存在的關(guān)系作為輸出訓(xùn)練關(guān)系分類(lèi)器。文獻(xiàn)[21]利用設(shè)置物理規(guī)則和邏輯規(guī)則進(jìn)行知識(shí)圖譜的路徑推理和擴(kuò)充知識(shí)圖譜任務(wù)。文獻(xiàn)[22]通過(guò)組合已有模型進(jìn)行有關(guān)路徑推理,并應(yīng)用于知識(shí)庫(kù)的自動(dòng)問(wèn)答及擴(kuò)充知識(shí)圖譜學(xué)習(xí)任務(wù)。文獻(xiàn)[23]提出一種子圖特征提取方法實(shí)現(xiàn)關(guān)系挖掘,對(duì)給定知識(shí)圖譜上的結(jié)點(diǎn)集合進(jìn)行路徑搜索抽取得到子圖,在子圖上抽取特征,作為這些結(jié)點(diǎn)集合的特征向量,通過(guò)結(jié)點(diǎn)集合的特征向量訓(xùn)練關(guān)系分類(lèi)器。
還有一些學(xué)者采用其他方法擴(kuò)充和豐富知識(shí)圖譜。文獻(xiàn)[24]提出一種借助用戶(hù)生成數(shù)據(jù)中實(shí)體間關(guān)聯(lián)關(guān)系來(lái)擴(kuò)充知識(shí)圖譜的方法,該方法使用互信息計(jì)算實(shí)體節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,采用一種關(guān)聯(lián)影響疊加方法來(lái)定量計(jì)算關(guān)聯(lián)圖中互不相鄰實(shí)體間的潛在關(guān)聯(lián)關(guān)系。文獻(xiàn)[25]提出從不完備知識(shí)庫(kù)中挖掘關(guān)聯(lián)規(guī)則的方法(AMIE),AMIE 依次學(xué)習(xí)預(yù)測(cè)每種關(guān)系的規(guī)則,通過(guò)3 種操作擴(kuò)展規(guī)則體部分,保留支持度大于閾值的候選規(guī)則,通過(guò)挖掘得到的規(guī)則實(shí)現(xiàn)關(guān)系發(fā)現(xiàn)與知識(shí)圖譜擴(kuò)充。文獻(xiàn)[26]提出一種基于Jena 的臺(tái)風(fēng)災(zāi)害領(lǐng)域本體模型推理機(jī)制,挖掘被隱藏的臺(tái)風(fēng)災(zāi)害影響因素或?yàn)?zāi)害鏈信息。
基于表示學(xué)習(xí)的方法可以通過(guò)向量計(jì)算發(fā)現(xiàn)實(shí)體間關(guān)系,但計(jì)算代價(jià)大,在實(shí)際知識(shí)圖譜中可解釋性差?;陉P(guān)系路徑的知識(shí)圖譜擴(kuò)充方法[24]可以通過(guò)路徑特征挖掘?qū)嶓w之間的關(guān)系,但是這類(lèi)方法難以處理關(guān)系路徑信息較少的稀疏知識(shí)圖譜,且在實(shí)際應(yīng)用的知識(shí)圖譜中,關(guān)系路徑數(shù)量龐大,提取路徑信息非常耗時(shí)。因此,本文針對(duì)特定領(lǐng)域中的實(shí)體,采用實(shí)體關(guān)聯(lián)與主題分析方法分析實(shí)體相關(guān)數(shù)據(jù),進(jìn)一步挖掘出實(shí)體間隱藏的關(guān)系,避免大量的無(wú)效計(jì)算,使挖掘得到的關(guān)系是有用且有效的。
本文提出一種基于實(shí)體關(guān)聯(lián)分析與主題分析(Entity-Association and LDA,EA-LDA)的方法挖掘?qū)嶓w之間隱藏的關(guān)系,進(jìn)而擴(kuò)展和豐富知識(shí)圖譜。針對(duì)與實(shí)體相關(guān)的大量數(shù)據(jù),采用關(guān)聯(lián)規(guī)則算法挖掘?qū)嶓w與實(shí)體之間存在的關(guān)聯(lián)關(guān)系,并分析與實(shí)體相關(guān)數(shù)據(jù)的主題關(guān)鍵詞之間的聯(lián)系得到實(shí)體之間的關(guān)系,將新發(fā)現(xiàn)的關(guān)系融合到知識(shí)圖譜中。
在進(jìn)行實(shí)體之間的關(guān)系發(fā)現(xiàn)前,需對(duì)原始文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以提高后期數(shù)據(jù)分析和挖掘的效率,減少后期算法工作的計(jì)算量。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)分詞和去停用詞。數(shù)據(jù)清洗主要是檢查數(shù)據(jù)一致性,處理無(wú)效數(shù)據(jù)和重復(fù)數(shù)據(jù);數(shù)據(jù)分詞是將連續(xù)的句子分成單個(gè)詞語(yǔ),之后將詞語(yǔ)作為文本數(shù)據(jù)的基本單位;基于停用詞表對(duì)分詞結(jié)果進(jìn)行匹配,去除停用詞表中的詞匯,如“的”“了”等,只保留文本具有實(shí)際意義的詞集。
2.2.1 實(shí)體頻繁項(xiàng)集獲取
獲取實(shí)體頻繁項(xiàng)集方法如下:
1)對(duì)各實(shí)體相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理,獲得相應(yīng)的關(guān)鍵詞集,計(jì)算各個(gè)實(shí)體相關(guān)數(shù)據(jù)中每個(gè)關(guān)鍵詞的支持度Si。支持度計(jì)算公式如式(1)所示:
其中:Si表示第i個(gè)關(guān)鍵詞的支持度;P(i)表示第i個(gè)關(guān)鍵詞在當(dāng)前實(shí)體相關(guān)數(shù)據(jù)集中出現(xiàn)的概率;Ni表示第i個(gè)關(guān)鍵詞在當(dāng)前實(shí)體相關(guān)數(shù)據(jù)集中出現(xiàn)的次數(shù);Nall表示數(shù)據(jù)集中與當(dāng)前實(shí)體相關(guān)的數(shù)據(jù)記錄的個(gè)數(shù)。
2)根據(jù)設(shè)置的支持度閾值α,判斷每個(gè)關(guān)鍵詞的支持度是否大于等于閾值α,將大于等于閾值α的關(guān)鍵詞保留得到1 項(xiàng)頻繁關(guān)鍵詞集L1。
3)不斷迭代使用上一次得到的(k-1)項(xiàng)頻繁關(guān)鍵詞集,計(jì)算頻繁關(guān)鍵詞集中關(guān)鍵詞的支持度,保留滿(mǎn)足支持度閾值α的關(guān)鍵詞集,產(chǎn)生新的候選k項(xiàng)頻繁關(guān)鍵詞集Lk,直到?jīng)]有新的頻繁項(xiàng)集產(chǎn)生,算法結(jié)束。
2.2.2 實(shí)體關(guān)聯(lián)規(guī)則生成
實(shí)體關(guān)聯(lián)規(guī)則生成方法如下:
1)獲取k項(xiàng)頻繁關(guān)鍵詞集Lk的關(guān)聯(lián)規(guī)則Ls?Lk-s,其中:Ls表示由s個(gè)關(guān)鍵詞組成的關(guān)鍵詞集;Lk-s表示去掉Lk中s個(gè)關(guān)鍵詞剩余的關(guān)鍵詞組成的關(guān)鍵詞集。
2)計(jì)算每個(gè)候選關(guān)聯(lián)規(guī)則的置信度。置信度的計(jì)算公式如式(2)所示:
其中:C(Ls?Lk-s)表示關(guān)聯(lián)規(guī)則Ls?Lk-s的置信度;N(Lk)表示在與當(dāng)前實(shí)體相關(guān)的數(shù)據(jù)集中Lk出現(xiàn)的次數(shù);N(Ls)表示Ls出現(xiàn)的次數(shù)。
3)根據(jù)設(shè)置的置信度閾值β,判斷每個(gè)候選關(guān)聯(lián)規(guī)則的置信度是否大于等于閾值β,將大于等于閾值的關(guān)聯(lián)規(guī)則保留得到關(guān)聯(lián)規(guī)則集。
2.2.3 實(shí)體關(guān)聯(lián)關(guān)系獲取
基于得到的關(guān)聯(lián)規(guī)則集,保留實(shí)體之間相同的關(guān)聯(lián)規(guī)則集,選取相同關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞得到2 個(gè)實(shí)體之間的關(guān)系。
2.2.4 實(shí)體關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的偽代碼描述
實(shí)體關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的偽代碼如下:
2.3.1 LDA 主題抽取
將與每個(gè)實(shí)體相關(guān)的數(shù)據(jù)分別合并形成一篇實(shí)體主題文檔,對(duì)各個(gè)文檔數(shù)據(jù)做分詞等預(yù)處理,對(duì)預(yù)處理后的數(shù)據(jù)做LDA 主題抽取,抽取過(guò)程如下:
1)設(shè)置主題數(shù)K,設(shè)置合適的超參數(shù)向量α、β,α控制實(shí)體主題文檔的主題稀疏性,β控制主題中詞的稀疏性,α設(shè)置為50/k,k為設(shè)置的主題個(gè)數(shù),β設(shè)置為0.01。
2)對(duì)應(yīng)每個(gè)實(shí)體主題文檔中的每一個(gè)詞,隨機(jī)賦予一個(gè)主題編號(hào)k。
3)重新掃描語(yǔ)料庫(kù),對(duì)于每一個(gè)詞,利用Gibbs采樣公式P(topic/doc)P(word/topic)更新其主題編號(hào),并更新語(yǔ)料庫(kù)中該詞的編號(hào)。
4)重復(fù)第3)步的基于坐標(biāo)軸輪換的Gibbs 采樣,直到Gibbs 采樣收斂。
5)統(tǒng)計(jì)語(yǔ)料庫(kù)中的每個(gè)實(shí)體主題文檔中各個(gè)詞所屬主題,得到實(shí)體主題分布θd,統(tǒng)計(jì)語(yǔ)料庫(kù)中各個(gè)主題詞的分布,得到LDA 的主題與詞的分布βk。
2.3.2 主題關(guān)系獲取
根據(jù)得到的實(shí)體主題文檔的主題概率分布,篩選出含有共同主題詞的主題文檔,根據(jù)式(3)計(jì)算主題文檔的主題概率分布之間的差異程度:
其中:D是主題分布的差異性;n是2 個(gè)主題分布中相同主題詞的個(gè)數(shù);Px、Qx是不同主題分布中同一主題詞的概率,2 個(gè)主題分布的差異程度越小,則該主題分布所相關(guān)的實(shí)體主題文檔之間的關(guān)聯(lián)程度就越高。
2.3.3 LDA 主題發(fā)現(xiàn)的偽代碼描述
LDA 主題發(fā)現(xiàn)的偽代碼如下:
EA-LDA 算法描述如下:
1)對(duì)原始文本數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)分詞、去停用詞等操作得到預(yù)處理后的數(shù)據(jù)集。
2)掃描數(shù)據(jù)集,得到滿(mǎn)足支持度閾值α的k項(xiàng)頻繁關(guān)鍵詞集,基于k項(xiàng)頻繁關(guān)鍵詞集組合得到候選關(guān)聯(lián)規(guī)則集,將所有滿(mǎn)足置信度閾值β的關(guān)聯(lián)規(guī)則加入關(guān)聯(lián)規(guī)則集。
3)保留關(guān)聯(lián)規(guī)則集中兩兩實(shí)體之間存在的共同關(guān)聯(lián)規(guī)則集,將共有關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞保留作為兩實(shí)體之間的關(guān)系。
4)基于整理得到的部門(mén)實(shí)體主題文檔,采用Gibbs 采樣公式迭代更新每一個(gè)詞的主題編號(hào),統(tǒng)計(jì)各個(gè)詞所屬主題和各個(gè)主題詞的概率分布,得到部門(mén)實(shí)體主題文檔的主題分布βk。
5)統(tǒng)計(jì)存在共同主題的主題分布,計(jì)算主題分布之間的差異程度,將差異程度小于0.1 的兩主題分布中的共同主題詞作為2 個(gè)實(shí)體之間的關(guān)系。
6)對(duì)于新發(fā)現(xiàn)的實(shí)體間關(guān)系,在存儲(chǔ)知識(shí)圖譜的數(shù)據(jù)庫(kù)中查找與該關(guān)系相關(guān)的實(shí)體,并將新關(guān)系加入數(shù)據(jù)庫(kù)中,更新原有知識(shí)圖譜,得到關(guān)系擴(kuò)展后的知識(shí)圖譜。
本文實(shí)驗(yàn)使用市長(zhǎng)信箱訴求數(shù)據(jù),每條訴求數(shù)據(jù)包括訴求工單編號(hào)、問(wèn)題描述、單位標(biāo)示和辦理單位,涉及不同的政府部門(mén),共有230 824 條數(shù)據(jù)。實(shí)驗(yàn)針對(duì)市長(zhǎng)信箱訴求數(shù)據(jù)挖掘部門(mén)之間的關(guān)聯(lián)關(guān)系,構(gòu)建部門(mén)知識(shí)圖譜。
由于關(guān)聯(lián)分析是對(duì)關(guān)鍵詞集進(jìn)行處理,而每條訴求數(shù)據(jù)中的問(wèn)題描述是一個(gè)句子或多個(gè)句子。在進(jìn)行部門(mén)關(guān)系發(fā)現(xiàn)之前,需對(duì)獲取的原始訴求數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,把連續(xù)的漢字序列劃分成一系列單獨(dú)的詞語(yǔ)即分詞,之后將詞語(yǔ)作為文本數(shù)據(jù)的基本單位,采用開(kāi)源的結(jié)巴(Jieba)分詞算法,對(duì)文本集的全部語(yǔ)句進(jìn)行分詞得到需要的數(shù)據(jù)。分詞處理后的詞語(yǔ)中還包含一些虛詞和禁用詞,如“的”“了”等,需要對(duì)這些無(wú)實(shí)際意義的詞語(yǔ)進(jìn)行篩選工作,即去除停用詞。去除停用詞使用一個(gè)停用詞表,掃描并識(shí)別出停用詞后刪除。
3.3.1 實(shí)體間關(guān)聯(lián)關(guān)系發(fā)現(xiàn)
將預(yù)處理后得到的關(guān)鍵詞集作為實(shí)驗(yàn)的文本數(shù)據(jù)集,為每個(gè)部門(mén)實(shí)體構(gòu)建一個(gè)數(shù)據(jù)集,對(duì)任意2 個(gè)部門(mén)之間的關(guān)鍵詞集做關(guān)聯(lián)分析。在本文實(shí)驗(yàn)中,部門(mén)實(shí)體作為關(guān)聯(lián)分析的主要對(duì)象,設(shè)置支持度為0.05,置信度為0.1,通過(guò)實(shí)體間關(guān)聯(lián)規(guī)則挖掘,得到2 個(gè)部門(mén)的關(guān)聯(lián)規(guī)則集,將關(guān)聯(lián)規(guī)則中的關(guān)鍵詞作為節(jié)點(diǎn),具有關(guān)聯(lián)規(guī)則的節(jié)點(diǎn)之間連接,得到關(guān)聯(lián)關(guān)系圖。
根據(jù)得到的部門(mén)實(shí)體之間的關(guān)聯(lián)規(guī)則結(jié)果,將共有關(guān)聯(lián)規(guī)則集中的關(guān)鍵詞集作為實(shí)體間關(guān)系。具體分析結(jié)果如下:市交警支隊(duì)、市城鄉(xiāng)交通運(yùn)輸局之間通過(guò)“車(chē)輛”“車(chē)牌號(hào)”“道路”“行駛”等關(guān)鍵詞存在關(guān)聯(lián),因此這2個(gè)部門(mén)通過(guò)“交通”“車(chē)輛”問(wèn)題關(guān)聯(lián),如圖1所示。
圖1 市交警支隊(duì)和市城鄉(xiāng)交通運(yùn)輸局關(guān)聯(lián)關(guān)系Fig.1 Association relationships of municipal traffic police detachment and municipal urban rural transportation bureau
市公安局和市城市管理局之間通過(guò)“噪音”“擾民”“制止”“休息”等關(guān)鍵詞存在關(guān)聯(lián),這2 個(gè)部門(mén)所處理的問(wèn)題中的都存在施工、擾民問(wèn)題,市城市管理局主要管理城市環(huán)境衛(wèi)生設(shè)施建設(shè)方面,市公安局的職能之一是維護(hù)社會(huì)治安秩序,故2 個(gè)部門(mén)在處理施工擾民問(wèn)題上存在關(guān)聯(lián),如圖2 所示。
圖2 市公安局和市城市管理局關(guān)聯(lián)關(guān)系Fig.2 Association relationships of municipal public security bureau and municipal urban authority
市住房、城鄉(xiāng)建設(shè)局、濟(jì)南市稅務(wù)局之間通過(guò)“開(kāi)發(fā)商”“購(gòu)房”等關(guān)鍵詞存在關(guān)聯(lián),市民在購(gòu)房時(shí)會(huì)跟這2 個(gè)部門(mén)產(chǎn)生關(guān)系,兩部門(mén)存在業(yè)務(wù)流程前后關(guān)系,即市住房和城鄉(xiāng)建設(shè)局處理在購(gòu)房時(shí)的購(gòu)買(mǎi)、簽約等問(wèn)題,濟(jì)南市稅務(wù)局處理購(gòu)房時(shí)的稅務(wù)問(wèn)題,如圖3 所示。
圖3 市住房和城鄉(xiāng)建設(shè)局和市稅務(wù)局關(guān)聯(lián)關(guān)系Fig.3 Association relationships of municipal housing and construction bureau and municipal taxation bureau
市醫(yī)療保障局和市社會(huì)保險(xiǎn)事業(yè)中心之間通過(guò)“社保”“繳納”“知識(shí)庫(kù)”等關(guān)鍵詞聯(lián)系起來(lái),2 個(gè)部門(mén)都與“社保”問(wèn)題存在關(guān)聯(lián),如圖4 所示。
圖4 市醫(yī)療保障局和市社會(huì)保險(xiǎn)事業(yè)中心關(guān)聯(lián)關(guān)系Fig.4 Association relationships of municipal healthcare security administration and municipal social insurance enterprise center
市城鄉(xiāng)水務(wù)局和市供電公司之間通過(guò)“業(yè)主”“繳納”“盡快恢復(fù)”等關(guān)鍵詞聯(lián)系起來(lái),這2 個(gè)部門(mén)都與業(yè)主的費(fèi)用繳納、日常生活存在關(guān)系,故2 個(gè)部門(mén)存在關(guān)聯(lián),如圖5 所示。
圖5 市城鄉(xiāng)水務(wù)局和市供電公司關(guān)聯(lián)關(guān)系Fig.5 Association relationships of municipal water supplies bureau and municipal power supply company
3.3.2 基于部門(mén)實(shí)體數(shù)據(jù)的主題關(guān)系發(fā)現(xiàn)
基于預(yù)處理后的數(shù)據(jù)集,根據(jù)為各個(gè)實(shí)體構(gòu)建的相關(guān)數(shù)據(jù)集,對(duì)每個(gè)實(shí)體相關(guān)數(shù)據(jù)做LDA 主題分析,設(shè)置每個(gè)部門(mén)實(shí)體的主題個(gè)數(shù)為10,得到每個(gè)部門(mén)的主題概率分布。篩選出存在共同主題關(guān)鍵詞的主題概率分布,計(jì)算兩兩主題概率分布之間的差異程度,差異度越趨向于0,則2 個(gè)實(shí)體之間的關(guān)聯(lián)度越大,計(jì)算結(jié)果如表1 所示。差異度小于0.1 的實(shí)體主題分布中的共同主題詞即為部門(mén)實(shí)體之間的關(guān)系。
表1 部門(mén)主題分布差異度Table 1 Difference degrees of department theme distribution
實(shí)體數(shù)據(jù)主題間關(guān)聯(lián)關(guān)系分析結(jié)果如下:
歷城區(qū)政府與市公安局主題分布差異度D=0.080 0,實(shí)體關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“戶(hù)籍”“居民”“辦理”等主題,兩部門(mén)之間通過(guò)居民戶(hù)籍辦理存在關(guān)聯(lián),如圖6 所示。
圖6 歷城區(qū)政府和市公安局主題分布Fig.6 Theme distribution of Licheng district government and municipal public security bureau
濟(jì)陽(yáng)區(qū)政府和商河縣政府主題分布差異度D=0.001 9,實(shí)體關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“土地”“灌溉”“村民”等主題,2 個(gè)部門(mén)都存在土地灌溉問(wèn)題,如圖7 所示。
圖7 商河縣政府和濟(jì)陽(yáng)區(qū)政府主題分布Fig.7 Theme distribution of Shanghe county government and Jiyang district government
市城管局和歷下區(qū)政府主題分布差異度D=0.140 0,實(shí)體間關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“施工”“影響”“小區(qū)”等主題,2 個(gè)部門(mén)通過(guò)施工問(wèn)題相關(guān)聯(lián),如圖8 所示。南部山區(qū)管委會(huì)和天橋區(qū)政府主題分布差異度D=0.02,實(shí)體間關(guān)聯(lián)性較大,2 個(gè)主題分布中均存在“垃圾”“清理”等主題,2 個(gè)部門(mén)都存在垃圾清理問(wèn)題,如圖9 所示。
圖8 市城管局和歷下區(qū)政府主題分布Fig.8 Theme distribution of municipal urban management bureau and Lixia district government
圖9 南部山區(qū)管委會(huì)和天橋區(qū)政府主題分布Fig.9 Theme distribution of southern mountain management committee and Tianqiao district government
基于部門(mén)實(shí)體關(guān)聯(lián)分析和主題分析得到的結(jié)果,將新發(fā)現(xiàn)的部門(mén)之間的關(guān)系以三元組的形式添加到原有知識(shí)圖譜數(shù)據(jù)庫(kù)中,并采用D3.js 作圖實(shí)現(xiàn)部門(mén)知識(shí)圖譜的可視化,知識(shí)圖譜將每個(gè)部門(mén)作為節(jié)點(diǎn),2 個(gè)部門(mén)之間的關(guān)系作為邊構(gòu)建而成,如圖中市城市管理局和市公安局之間通過(guò)“噪音”“擾民”問(wèn)題聯(lián)系起來(lái),槐蔭區(qū)政府和歷下區(qū)政府通過(guò)“上學(xué)”“戶(hù)籍”問(wèn)題聯(lián)系起來(lái)等,初步構(gòu)建的知識(shí)圖譜和關(guān)系擴(kuò)展后的部門(mén)知識(shí)圖譜分別如圖10 和圖11 所示。
圖10 初始構(gòu)建的部門(mén)知識(shí)圖譜Fig.10 Departmental knowledge graph of initially constructed
圖11 基于EA-LDA 方法關(guān)系擴(kuò)展后的部門(mén)知識(shí)圖譜Fig.11 Departmental knowledge graph based on EA-LDA method relationship expansion
與文獻(xiàn)[26]基于jena 的規(guī)則推理方法比較、針對(duì)部門(mén)數(shù)據(jù)集、實(shí)體間關(guān)系部分對(duì)比結(jié)果如表2 所示。基于jena 的規(guī)則推理結(jié)果如圖12 所示,擴(kuò)充后的知識(shí)圖譜如圖13 所示。從表2 對(duì)比結(jié)果和圖12 可以看出,基于jena 的規(guī)則推理方法得到的實(shí)體關(guān)系多為文本中各類(lèi)實(shí)體間的關(guān)系,如交警、處罰、行人等,對(duì)于部門(mén)知識(shí)圖譜包括大量的冗余信息,沒(méi)有獲得隱藏的部門(mén)實(shí)體間的關(guān)系。本文方法挖掘了較多深層次的部門(mén)實(shí)體間關(guān)系,如商河縣政府與濟(jì)陽(yáng)縣政府具有共同的土地灌溉問(wèn)題等。由此可知,本文提出的EA-LDA 方法可以更有針對(duì)性地挖掘出隱藏在部門(mén)實(shí)體之間的關(guān)系,有助于發(fā)現(xiàn)部門(mén)實(shí)體間共同存在的問(wèn)題,可以有效地應(yīng)用于領(lǐng)域?qū)嶓w間關(guān)系發(fā)現(xiàn),優(yōu)于基于jena 的規(guī)則推理方法。
表2 部分關(guān)系對(duì)比結(jié)果Table 2 Comparison results of partial relation
圖12 基于jena 的規(guī)則推理結(jié)果Fig.12 Rule inference results based on jena
圖13 基于jena 規(guī)則推理后的部門(mén)知識(shí)圖譜Fig.13 Department knowledge graph based on jena rule inference
本文提出一種基于實(shí)體關(guān)聯(lián)規(guī)則與主題分析的方法來(lái)擴(kuò)展領(lǐng)域?qū)嶓w間的關(guān)系。針對(duì)具體領(lǐng)域相關(guān)數(shù)據(jù),采用關(guān)聯(lián)規(guī)則挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系,根據(jù)LDA 主題分析方法分析實(shí)體相關(guān)數(shù)據(jù)集主題之間的關(guān)系,進(jìn)而得到領(lǐng)域?qū)嶓w之間隱藏的關(guān)系,將新發(fā)現(xiàn)的關(guān)系融合進(jìn)原有領(lǐng)域知識(shí)圖譜,豐富領(lǐng)域知識(shí)圖譜。實(shí)驗(yàn)結(jié)果表明,與基于jena 規(guī)則推理方案相比,該方法能更準(zhǔn)確更全面地?cái)U(kuò)展實(shí)體之間的關(guān)系。下一步將研究多領(lǐng)域間知識(shí)圖譜的自動(dòng)融合與動(dòng)態(tài)更新,即對(duì)多個(gè)知識(shí)圖譜中的實(shí)體關(guān)系進(jìn)行評(píng)估,發(fā)現(xiàn)圖譜間的聯(lián)系,從而實(shí)現(xiàn)自動(dòng)融合,對(duì)于不斷更新的結(jié)構(gòu)化和半結(jié)構(gòu)化的知識(shí),將其自動(dòng)更新到知識(shí)圖譜中。